論文の概要: NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews
- arxiv url: http://arxiv.org/abs/2411.13779v1
- Date: Thu, 21 Nov 2024 01:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:49.020477
- Title: NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews
- Title(参考訳): NewsInterview:LLMのグラウンドギャップを評価するためのデータセットとプレイグラウンド
- Authors: Michael Lu, Hyundong Justin Cho, Weiyan Shi, Jonathan May, Alexander Spangher,
- Abstract要約: 我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
- 参考スコア(独自算出の注目度): 65.35458530702442
- License:
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in generating coherent text but often struggle with grounding language and strategic dialogue. To address this gap, we focus on journalistic interviews, a domain rich in grounding communication and abundant in data. We curate a dataset of 40,000 two-person informational interviews from NPR and CNN, and reveal that LLMs are significantly less likely than human interviewers to use acknowledgements and to pivot to higher-level questions. Realizing that a fundamental deficit exists in multi-turn planning and strategic thinking, we develop a realistic simulated environment, incorporating source personas and persuasive elements, in order to facilitate the development of agents with longer-horizon rewards. Our experiments show that while source LLMs mimic human behavior in information sharing, interviewer LLMs struggle with recognizing when questions are answered and engaging persuasively, leading to suboptimal information extraction across model size and capability. These findings underscore the need for enhancing LLMs' strategic dialogue capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一貫性のあるテキストを生成する際、印象的な能力を示してきたが、しばしば基盤となる言語や戦略的対話に苦慮している。
このギャップに対処するために、我々はジャーナリストのインタビュー、コミュニケーションの基盤に富み、データに富む領域に焦点を当てる。
我々はNPRとCNNから4万件の2人によるインフォメーション・インタビューのデータセットをキュレートし、LLMが人間のインタビュアーよりもはるかに低い可能性が明らかにした。
マルチターン計画と戦略的思考に根本的な欠陥が存在することを認識し、より長期の報酬を持つエージェントの開発を容易にするために、ソースペルソナと説得的要素を取り入れた現実的なシミュレートされた環境を開発する。
実験の結果,ソースLLMは情報共有において人間の行動を模倣するが,インタビュアーLLMは質問に対する回答や説得力の認識に苦慮し,モデルサイズや能力のサブ最適情報抽出に繋がることがわかった。
これらの結果は,LSMの戦略的対話能力の向上の必要性を浮き彫りにした。
関連論文リスト
- Engagement-Driven Content Generation with Large Language Models [8.049552839071918]
大規模言語モデル(LLM)は1対1の相互作用において重要な説得能力を示す。
本研究では,相互接続型ユーザにおけるLCMの社会的影響と複雑な意見力学について検討する。
論文 参考訳(メタデータ) (2024-11-20T10:40:08Z) - Empowering Language Models with Active Inquiry for Deeper Understanding [31.11672018840381]
対話型エンゲージメントを備えた大規模言語モデルを実現するために設計されたLaMAI(Language Model with Active Inquiry)を紹介する。
LaMAIは、アクティブな学習技術を使用して、最も有意義な質問を提起し、動的双方向対話を育む。
様々な複雑なデータセットにわたる実証研究は、LaMAIの有効性を実証している。
論文 参考訳(メタデータ) (2024-02-06T05:24:16Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Negotiating with LLMS: Prompt Hacks, Skill Gaps, and Reasoning Deficits [1.2818275315985972]
LLMとの価格交渉において,全年齢層で40人以上の個人を対象とするユーザスタディを実施している。
交渉された価格が、LLMと効果的に相互作用する際のリテラシーのギャップを指摘し、人類が幅広い範囲で達成したことを示す。
論文 参考訳(メタデータ) (2023-11-26T08:44:58Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。