論文の概要: Exploring Human Perceptions of AI Responses: Insights from a Mixed-Methods Study on Risk Mitigation in Generative Models
- arxiv url: http://arxiv.org/abs/2512.01892v1
- Date: Mon, 01 Dec 2025 17:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.983059
- Title: Exploring Human Perceptions of AI Responses: Insights from a Mixed-Methods Study on Risk Mitigation in Generative Models
- Title(参考訳): AI反応の人間の知覚を探る:ジェネレーティブモデルにおけるリスク軽減に関する混合手法からの考察
- Authors: Heloisa Candello, Muneeza Azmat, Uma Sushmitha Gunturi, Raya Horesh, Rogerio Abreu de Paula, Heloisa Pimentel, Marcelo Carpinette Grave, Aminat Adebiyi, Tiago Machado, Maysa Malfiza Garcia de Macedo,
- Abstract要約: ガードレールの実装の努力にもかかわらず、緩和戦略に対する人間の認識はほとんど不明である。
複数次元にまたがる緩和戦略の応答を評価するための混合手法の実験を行った。
その結果、被験者の母国語、AI作業経験、アノテーションの親しみが評価に大きく影響したことがわかった。
- 参考スコア(独自算出の注目度): 5.323378627597619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid uptake of generative AI, investigating human perceptions of generated responses has become crucial. A major challenge is their `aptitude' for hallucinating and generating harmful contents. Despite major efforts for implementing guardrails, human perceptions of these mitigation strategies are largely unknown. We conducted a mixed-method experiment for evaluating the responses of a mitigation strategy across multiple-dimensions: faithfulness, fairness, harm-removal capacity, and relevance. In a within-subject study design, 57 participants assessed the responses under two conditions: harmful response plus its mitigation and solely mitigated response. Results revealed that participants' native language, AI work experience, and annotation familiarity significantly influenced evaluations. Participants showed high sensitivity to linguistic and contextual attributes, penalizing minor grammar errors while rewarding preserved semantic contexts. This contrasts with how language is often treated in the quantitative evaluation of LLMs. We also introduced new metrics for training and evaluating mitigation strategies and insights for human-AI evaluation studies.
- Abstract(参考訳): 生成AIの急速な取り込みにより、生成した応答に対する人間の認識を調べることが重要になっている。
主な課題は、有害な内容の幻覚と生成のための「適性」である。
ガードレールの実装には大きな取り組みがあったが、これらの緩和戦略に対する人間の認識はほとんど分かっていない。
複数次元にまたがる緩和戦略(忠実性、公正性、有害除去能力、および関連性)の応答を評価するための混合手法の実験を行った。
被験者57名を対象に, 有害反応と緩和効果, 単独反応の2つの条件で反応を評価した。
その結果、被験者の母国語、AI作業経験、アノテーションの親しみが評価に大きく影響したことがわかった。
参加者は言語的・文脈的な属性に対して高い感度を示し、保存された意味的文脈に報酬を与えながら小さな文法的誤りを罰した。
これは、LLMの定量的評価において言語がどのように扱われているかとは対照的である。
また、人間-AI評価研究のための緩和戦略と洞察のトレーニングと評価のための新しい指標も導入した。
関連論文リスト
- Users Favor LLM-Generated Content -- Until They Know It's AI [0.0]
本研究では,コンテンツソースが隠蔽されたり開示されたりした場合に,人間のラングモデルと大規模ラングモデルを用いて,一般的な質問に対する応答を個人がどのように評価するかを検討する。
以上の結果から,参加者はAIによる反応を好む傾向が示唆された。
AIの起源が明らかになると、この選好は著しく低下し、評価的判断が応答の発覚の開示に影響されることが示唆される。
論文 参考訳(メタデータ) (2025-02-23T11:14:02Z) - Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation [2.1944577276732726]
本研究では,モデレーションコンテキストに適応し,適度なユーザ向けにパーソナライズされたコーディネート音声を生成するための戦略を提案し,評価する。
以上の結果から, 文脈的反音声は, 精度と説得力において, 最先端の一般音声よりも有意に優れることが示された。
コンテンツモデレーションにおける、文脈化されたAI生成の逆音声の有効性と、人間とアルゴリズムによる評価の相違は、人間とAIの協調の増大の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-12-10T09:29:52Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。