論文の概要: Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions
- arxiv url: http://arxiv.org/abs/2312.02913v1
- Date: Tue, 5 Dec 2023 17:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:57:43.273530
- Title: Let the LLMs Talk: Simulating Human-to-Human Conversational QA via
Zero-Shot LLM-to-LLM Interactions
- Title(参考訳): LLMを語る:ゼロショットLLM-LLMインタラクションによる人間対人間会話QAのシミュレーション
- Authors: Zahra Abbasiantaeb and Yifei Yuan and Evangelos Kanoulas and Mohammad
Aliannejadi
- Abstract要約: 対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。
既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.365615476223635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational question-answering (CQA) systems aim to create interactive
search systems that effectively retrieve information by interacting with users.
To replicate human-to-human conversations, existing work uses human annotators
to play the roles of the questioner (student) and the answerer (teacher).
Despite its effectiveness, challenges exist as human annotation is
time-consuming, inconsistent, and not scalable. To address this issue and
investigate the applicability of large language models (LLMs) in CQA
simulation, we propose a simulation framework that employs zero-shot learner
LLMs for simulating teacher-student interactions. Our framework involves two
LLMs interacting on a specific topic, with the first LLM acting as a student,
generating questions to explore a given search topic. The second LLM plays the
role of a teacher by answering questions and is equipped with additional
information, including a text on the given topic. We implement both the student
and teacher by zero-shot prompting the GPT-4 model. To assess the effectiveness
of LLMs in simulating CQA interactions and understand the disparities between
LLM- and human-generated conversations, we evaluate the simulated data from
various perspectives. We begin by evaluating the teacher's performance through
both automatic and human assessment. Next, we evaluate the performance of the
student, analyzing and comparing the disparities between questions generated by
the LLM and those generated by humans. Furthermore, we conduct extensive
analyses to thoroughly examine the LLM performance by benchmarking
state-of-the-art reading comprehension models on both datasets. Our results
reveal that the teacher LLM generates lengthier answers that tend to be more
accurate and complete. The student LLM generates more diverse questions,
covering more aspects of a given topic.
- Abstract(参考訳): 対話型質問応答システム(cqa)は,ユーザとの対話による情報検索を効果的に行う対話型検索システムの構築を目的としている。
人間の会話を再現するために、既存の研究は人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。
その効果にもかかわらず、人間のアノテーションは時間がかかり、一貫性がなく、拡張性がないため、課題が存在する。
この問題に対処し,CQAシミュレーションにおける大規模言語モデル(LLM)の適用性を検討するため,教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LSMを用いたシミュレーションフレームワークを提案する。
我々のフレームワークは、特定のトピックで対話する2つのLLMを含み、最初のLLMは学生として働き、与えられた検索トピックを探索するために質問を生成する。
第2のLSMは、質問に答えて教師の役割を担い、与えられたトピックに関するテキストを含む追加情報を備える。
我々は,GPT-4モデルのゼロショットにより,生徒と教師の両方を実装した。
CQA相互作用のシミュレーションにおけるLLMの有効性を評価し,LLMと人間による会話の相違を理解するために,様々な視点からシミュレーションデータを評価する。
まず,自動評価と人的評価の両面から,教師のパフォーマンスを評価する。
次に,LLMが生成した質問と人間が生成した質問の相違を分析し,評価する。
さらに,両データセットの読解モデルをベンチマークし,LLMの性能を徹底的に検討する。
その結果,LLMはより正確で完全である傾向の長い回答を生成することがわかった。
学生のLLMはより多様な質問を生成し、あるトピックのより多くの側面をカバーする。
関連論文リスト
- GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing [73.8469700907927]
大規模言語モデル(LLM)は、指示の追従や質問応答といった人間の指導による会話に成功している。
本研究では, LLM誘導会話を, ゴールナビゲーション, (ii) コンテキストマネジメント, (iii) 共感エンゲージメントの3つの基本要素に分類した。
GPT-4o や Llama-3-70b-Instruct のような6つの最先端 LLM と比較し, 面接品質, 自伝生成品質の観点から検討した。
論文 参考訳(メタデータ) (2025-02-10T14:11:32Z) - INTERACT: Enabling Interactive, Question-Driven Learning in Large Language Models [15.825663946923289]
大規模言語モデル(LLM)は、質問に答える能力は優れているが、受動的学習者であり続ける。
本稿では,LLMが学生と教師の対話を通して,対話型,質問駆動型学習にどのように移行できるかを考察する。
論文 参考訳(メタデータ) (2024-12-16T02:28:53Z) - LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。
シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文 参考訳(メタデータ) (2024-09-12T18:00:18Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。