論文の概要: Navigating Rifts in Human-LLM Grounding: Study and Benchmark
- arxiv url: http://arxiv.org/abs/2503.13975v1
- Date: Tue, 18 Mar 2025 07:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:19.244637
- Title: Navigating Rifts in Human-LLM Grounding: Study and Benchmark
- Title(参考訳): 人間-LLMグラウンディングにおけるリフティング:研究とベンチマーク
- Authors: Omar Shaikh, Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz,
- Abstract要約: 我々は、WildChat、MultiWOZ、Bing Chatという3つの人間支援データセットのログを分析した。
ヒトとヒトのLLMグラウンドリングでは有意な差が認められた。
- 参考スコア(独自算出の注目度): 30.579037010055092
- License:
- Abstract: Language models excel at following instructions but often struggle with the collaborative aspects of conversation that humans naturally employ. This limitation in grounding -- the process by which conversation participants establish mutual understanding -- can lead to outcomes ranging from frustrated users to serious consequences in high-stakes scenarios. To systematically study grounding challenges in human-LLM interactions, we analyze logs from three human-assistant datasets: WildChat, MultiWOZ, and Bing Chat. We develop a taxonomy of grounding acts and build models to annotate and forecast grounding behavior. Our findings reveal significant differences in human-human and human-LLM grounding: LLMs were three times less likely to initiate clarification and sixteen times less likely to provide follow-up requests than humans. Additionally, early grounding failures predicted later interaction breakdowns. Building on these insights, we introduce RIFTS: a benchmark derived from publicly available LLM interaction data containing situations where LLMs fail to initiate grounding. We note that current frontier models perform poorly on RIFTS, highlighting the need to reconsider how we train and prompt LLMs for human interaction. To this end, we develop a preliminary intervention that mitigates grounding failures.
- Abstract(参考訳): 言語モデルは、後続の指示で優れているが、人間が自然に採用する会話の協調的な側面に苦しむことが多い。
会話参加者が相互理解を確立するプロセスであるグラウンドのこの制限は、フラストレーションのあるユーザから、ハイテイクなシナリオにおける深刻な結果まで、さまざまな結果をもたらす可能性がある。
人-LLMインタラクションにおける基盤的課題を体系的に研究するために,WildChat,MultiWOZ,BingChatという3つの人-アシスタントデータセットのログを分析した。
我々は、接地行動の分類法を開発し、接地行動の注釈と予測のためのモデルを構築した。
ヒトとヒトのLLM接地において有意な差がみられた: LLMは, 明確化を開始する確率が3倍低く, フォローアップ要求がヒトより16倍低い。
さらに、初期の接地失敗は後の相互作用の崩壊を予測した。
これらの知見に基づいて,LLMが接地開始に失敗する状況を含むLLMインタラクションデータから得られたベンチマークであるRIFTSを紹介する。
現在のフロンティアモデルはRIFTSでは性能が悪く、人間のインタラクションのためのLLMのトレーニングとプロンプトの方法を再考する必要性が強調されている。
この目的のために, 地盤崩壊を緩和する予備的介入を開発する。
関連論文リスト
- Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文 参考訳(メタデータ) (2025-02-17T17:43:08Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - It Couldn't Help But Overhear: On the Limits of Modelling Meta-Communicative Grounding Acts with Supervised Learning [19.812562421377706]
オーバーハーナーは、下手な行為を行う特権を剥奪され、意図した意味についてしか推測できない。
人間のメタコミュニケーション行為をデータ駆動学習モデルで適切にモデル化することは不可能であることを示す証拠が存在する。
最も重要なことは、このトピックをコミュニティのテーブルに持ち帰り、モデルが単に"参加"するようにデザインされた結果について、議論を奨励したいということです。
論文 参考訳(メタデータ) (2024-05-02T09:55:19Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - Grounding Gaps in Language Model Generations [67.79817087930678]
大規模言語モデルが人間の接地を反映したテキストを生成するかどうかを考察する。
人間に比べ、LLMは会話の基盤を減らした言語を生成する。
同定された接地ギャップの根源を理解するために,命令チューニングと選好最適化の役割について検討する。
論文 参考訳(メタデータ) (2023-11-15T17:40:27Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。