論文の概要: Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance
- arxiv url: http://arxiv.org/abs/2407.07950v2
- Date: Thu, 03 Oct 2024 16:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:55.505750
- Title: Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance
- Title(参考訳): Rel-A.I.:人間-LM信頼度測定のためのインタラクション中心アプローチ
- Authors: Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Nouha Dziri, Dan Jurafsky, Maarten Sap,
- Abstract要約: インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 73.19687314438133
- License:
- Abstract: The ability to communicate uncertainty, risk, and limitation is crucial for the safety of large language models. However, current evaluations of these abilities rely on simple calibration, asking whether the language generated by the model matches appropriate probabilities. Instead, evaluation of this aspect of LLM communication should focus on the behaviors of their human interlocutors: how much do they rely on what the LLM says? Here we introduce an interaction-centered evaluation framework called Rel-A.I. (pronounced "rely"}) that measures whether humans rely on LLM generations. We use this framework to study how reliance is affected by contextual features of the interaction (e.g, the knowledge domain that is being discussed), or the use of greetings communicating warmth or competence (e.g., "I'm happy to help!"). We find that contextual characteristics significantly affect human reliance behavior. For example, people rely 10% more on LMs when responding to questions involving calculations and rely 30% more on LMs that are perceived as more competent. Our results show that calibration and language quality alone are insufficient in evaluating the risks of human-LM interactions, and illustrate the need to consider features of the interactional context.
- Abstract(参考訳): 不確実性、リスク、制限を伝達する能力は、大きな言語モデルの安全性に不可欠である。
しかし、これらの能力の現在の評価は単純なキャリブレーションに依存しており、モデルが生成した言語が適切な確率と一致するかどうかを問うものである。
代わりに、LLMコミュニケーションのこの側面の評価は、人間のインターロケータの行動に焦点をあてるべきである。
本稿では,人間がLLM世代に依存しているかどうかを測定する,Rel-A.I.(Rel-A.I.)と呼ばれるインタラクション中心評価フレームワークを紹介する。
このフレームワークは、インタラクションのコンテキスト的特徴(例えば、議論されている知識領域)や、挨拶が暖かさや能力(例えば、"助けて!
文脈特性が人間の信頼行動に大きく影響していることが判明した。
例えば、計算に関わる質問に答えるとき、人々はLMに10%依存し、より有能であると見なされるLMに30%依存しています。
これらの結果から, キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であり, インタラクションコンテキストの特徴を検討する必要性が示唆された。
関連論文リスト
- AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Common (good) practices measuring trust in HRI [55.2480439325792]
ロボットへの信頼は、人々の日常生活にロボットを取り入れるのに欠かせないと広く信じられている。
研究者たちは、人々がロボットをさまざまな方法で信頼する方法を模索してきた。
ほとんどのロボティクス学者は、信頼のレベルが不足すると解脱のリスクが生じることに同意する。
論文 参考訳(メタデータ) (2023-11-20T20:52:10Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios [14.23697277904244]
本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
論文 参考訳(メタデータ) (2022-06-21T18:29:17Z) - Self-Selective Context for Interaction Recognition [27.866495303658404]
本研究では,人間と物体の相互作用認識のための自己選択コンテキスト(SSC)を提案する。
SSCは、人間オブジェクトとコンテキストの合同的な外観で動作し、最も差別的なコンテキストを認識に役立てる。
実験の結果,SSCはパラメータをはるかに少なくしながら,相互作用認識性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-10-17T09:06:12Z) - Interactions in information spread: quantification and interpretation
using stochastic block models [3.5450828190071655]
ソーシャルネットワークでは、ユーザーの行動は、対話する人々、フィード内のニュース、トレンドトピックから生じる。
本稿では、エンティティ間のインタラクションの役割を調査する新しいモデル、Interactive Mixed Membership Block Model (IMMSBM)を提案する。
推論タスクでは、それらを考慮すれば、結果の確率の最大150%の非相互作用モデルに対する平均的な相対的な変化につながる。
論文 参考訳(メタデータ) (2020-04-09T14:22:10Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。