Fugu-MT 論文翻訳(概要): Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance

論文の概要: Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance

arxiv url: http://arxiv.org/abs/2407.07950v1
Date: Wed, 10 Jul 2024 18:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 21:48:59.204782
Title: Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance
Title（参考訳）: Rel-A.I.:人間-LM信頼度測定のためのインタラクション中心アプローチ
Authors: Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Nouha Dziri, Dan Jurafsky, Maarten Sap,
Abstract要約: 依存は世代間の相互作用の文脈における多くの要因に影響される。本稿では,信頼度を測定するためのシステムレベルの評価手法であるRel-A.I.を紹介する。
参考スコア（独自算出の注目度）: 73.19687314438133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The reconfiguration of human-LM interactions from simple sentence completions to complex, multi-domain, humanlike engagements necessitates new methodologies to understand how humans choose to rely on LMs. In our work, we contend that reliance is influenced by numerous factors within the interactional context of a generation, a departure from prior work that used verbalized confidence (e.g., "I'm certain the answer is...") as the key determinant of reliance. Here, we introduce Rel-A.I., an in situ, system-level evaluation approach to measure human reliance on LM-generated epistemic markers (e.g., "I think it's..", "Undoubtedly it's..."). Using this methodology, we measure reliance rates in three emergent human-LM interaction settings: long-term interactions, anthropomorphic generations, and variable subject matter. Our findings reveal that reliance is not solely based on verbalized confidence but is significantly affected by other features of the interaction context. Prior interactions, anthropomorphic cues, and subject domain all contribute to reliance variability. An expression such as, "I'm pretty sure it's...", can vary up to 20% in reliance frequency depending on its interactional context. Our work underscores the importance of context in understanding human reliance and offers future designers and researchers with a methodology to conduct such measurements.
Abstract（参考訳）: 単純な文補完から複雑なマルチドメイン、人間のようなエンゲージメントへの人間とLMの相互作用の再構成は、人間がLMにどのように依存するかを理解するために、新しい方法論を必要とする。我々の研究では、信頼は世代間の相互作用の文脈における多くの要因の影響を受けており、信頼の鍵となる決定要因として、言語化された信頼(例えば、"I'm certain the answer is...")を用いた先行研究から逸脱している、と論じている。 In situ, system-level evaluation approach to measure human reliance on LM- generated epistemic markers (eg , "I think it's.", "Unrectedly it's...")。本手法を用いて, 長期的相互作用, 人為的世代, 変動対象物質という, 創発的ヒトとLMの相互作用設定における信頼度を測定した。以上の結果から,信頼度は言語的信頼度にのみ依存するのではなく,インタラクションコンテキストの他の特徴に大きく影響していることが判明した。先行的な相互作用、人為的な手がかり、主題領域は全て依存の変動に寄与する。のような表現は、その相互作用の文脈によって最大20%の周波数に依存することができる。我々の研究は、人間の信頼を理解する上での文脈の重要性を強調し、将来のデザイナーや研究者にそのような測定を行うための方法論を提供する。

関連論文リスト

How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。我々は、善良な相手との協力を評価する際、顕著な合意を守ります。モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-06-30T09:14:42Z)
An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
人間の言語モデルと大規模言語モデル(LLM)の相互作用をモデル化するニューラルシンボリック・フレームワークを提案する。我々は質問の不完全性とあいまいさを、インタラクションで交換されたメッセージから導出可能な特性として定義する。その結果,不完全性やあいまいな質問の比率が高いデータセットでは,マルチターンインタラクションが要求されることがわかった。
論文参考訳（メタデータ） (2025-03-23T04:34:30Z)
HumT DumT: Measuring and controlling human-like language in LLMs [29.82328120944693]
ヒューマンライクな言語は、ユーザーエクスペリエンスを改善するかもしれないが、騙し、過度な信頼、ステレオタイピングにつながる可能性がある。 LLMの相対確率に基づくテキストデータにHumT, 人風のトーン, その他の社会的知覚の指標を導入する。モデル性能を保ちながら,HumTを用いて人間の声調を体系的に制御し,抑える手法であるDumTを紹介する。
論文参考訳（メタデータ） (2025-02-18T20:04:09Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。与えられたLLMの性格を測定することは、現在課題である。言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文参考訳（メタデータ） (2024-10-23T07:48:51Z)
How do Large Language Models Navigate Conflicts between Honesty and Helpfulness? [14.706111954807021]
人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。 GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
論文参考訳（メタデータ） (2024-02-11T19:13:26Z)
LLM Agents in Interaction: Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文参考訳（メタデータ） (2024-02-05T11:05:20Z)
Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文参考訳（メタデータ） (2024-01-12T18:03:30Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Affect Recognition in Conversations Using Large Language Models [9.689990547610664]
影響認識は人間のコミュニケーションにおいて重要な役割を担っている。本研究では,会話における人間の影響を認識するための言語モデル(LLM)の能力について検討する。
論文参考訳（メタデータ） (2023-09-22T14:11:23Z)
Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文参考訳（メタデータ） (2023-06-02T17:12:25Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。