Fugu-MT 論文翻訳(概要): Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions

論文の概要: Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions

arxiv url: http://arxiv.org/abs/2312.02913v1
Date: Tue, 5 Dec 2023 17:38:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:57:43.273530
Title: Let the LLMs Talk: Simulating Human-to-Human Conversational QA via Zero-Shot LLM-to-LLM Interactions
Title（参考訳）: LLMを語る:ゼロショットLLM-LLMインタラクションによる人間対人間会話QAのシミュレーション
Authors: Zahra Abbasiantaeb and Yifei Yuan and Evangelos Kanoulas and Mohammad Aliannejadi
Abstract要約: 対話型質問応答システムの目的は,ユーザとの対話によって情報を取得する対話型検索システムを作ることである。既存の作業では、人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LLMを用いたシミュレーションフレームワークを提案する。
参考スコア（独自算出の注目度）: 19.365615476223635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational question-answering (CQA) systems aim to create interactive search systems that effectively retrieve information by interacting with users. To replicate human-to-human conversations, existing work uses human annotators to play the roles of the questioner (student) and the answerer (teacher). Despite its effectiveness, challenges exist as human annotation is time-consuming, inconsistent, and not scalable. To address this issue and investigate the applicability of large language models (LLMs) in CQA simulation, we propose a simulation framework that employs zero-shot learner LLMs for simulating teacher-student interactions. Our framework involves two LLMs interacting on a specific topic, with the first LLM acting as a student, generating questions to explore a given search topic. The second LLM plays the role of a teacher by answering questions and is equipped with additional information, including a text on the given topic. We implement both the student and teacher by zero-shot prompting the GPT-4 model. To assess the effectiveness of LLMs in simulating CQA interactions and understand the disparities between LLM- and human-generated conversations, we evaluate the simulated data from various perspectives. We begin by evaluating the teacher's performance through both automatic and human assessment. Next, we evaluate the performance of the student, analyzing and comparing the disparities between questions generated by the LLM and those generated by humans. Furthermore, we conduct extensive analyses to thoroughly examine the LLM performance by benchmarking state-of-the-art reading comprehension models on both datasets. Our results reveal that the teacher LLM generates lengthier answers that tend to be more accurate and complete. The student LLM generates more diverse questions, covering more aspects of a given topic.
Abstract（参考訳）: 対話型質問応答システム(cqa)は,ユーザとの対話による情報検索を効果的に行う対話型検索システムの構築を目的としている。人間の会話を再現するために、既存の研究は人間の注釈を使って質問者(学生)と回答者(教師)の役割を演じる。その効果にもかかわらず、人間のアノテーションは時間がかかり、一貫性がなく、拡張性がないため、課題が存在する。この問題に対処し,CQAシミュレーションにおける大規模言語モデル(LLM)の適用性を検討するため,教師と学生のインタラクションをシミュレーションするためにゼロショット学習者LSMを用いたシミュレーションフレームワークを提案する。我々のフレームワークは、特定のトピックで対話する2つのLLMを含み、最初のLLMは学生として働き、与えられた検索トピックを探索するために質問を生成する。第2のLSMは、質問に答えて教師の役割を担い、与えられたトピックに関するテキストを含む追加情報を備える。我々は,GPT-4モデルのゼロショットにより,生徒と教師の両方を実装した。 CQA相互作用のシミュレーションにおけるLLMの有効性を評価し,LLMと人間による会話の相違を理解するために,様々な視点からシミュレーションデータを評価する。まず,自動評価と人的評価の両面から,教師のパフォーマンスを評価する。次に,LLMが生成した質問と人間が生成した質問の相違を分析し,評価する。さらに,両データセットの読解モデルをベンチマークし,LLMの性能を徹底的に検討する。その結果,LLMはより正確で完全である傾向の長い回答を生成することがわかった。学生のLLMはより多様な質問を生成し、あるトピックのより多くの側面をカバーする。

関連論文リスト

If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing [73.8469700907927]
大規模言語モデル(LLM)は、指示の追従や質問応答といった人間の指導による会話に成功している。本研究では, LLM誘導会話を, ゴールナビゲーション, (ii) コンテキストマネジメント, (iii) 共感エンゲージメントの3つの基本要素に分類した。 GPT-4o や Llama-3-70b-Instruct のような6つの最先端 LLM と比較し, 面接品質, 自伝生成品質の観点から検討した。
論文参考訳（メタデータ） (2025-02-10T14:11:32Z)
INTERACT: Enabling Interactive, Question-Driven Learning in Large Language Models [15.825663946923289]
大規模言語モデル(LLM)は、質問に答える能力は優れているが、受動的学習者であり続ける。本稿では,LLMが学生と教師の対話を通して,対話型,質問駆動型学習にどのように移行できるかを考察する。
論文参考訳（メタデータ） (2024-12-16T02:28:53Z)
LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文参考訳（メタデータ） (2024-12-10T15:00:32Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue [25.89926022671521]
我々はWildChatデータセットから10万対のLLM-LLMと人間-LLM対話の大規模データセットを生成する。シミュレーションと人間のインタラクションの間には比較的低いアライメントが見られ、複数のテキストの性質に沿って体系的な相違が示される。
論文参考訳（メタデータ） (2024-09-12T18:00:18Z)
SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文参考訳（メタデータ） (2024-09-11T21:53:20Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文参考訳（メタデータ） (2024-06-22T03:20:10Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。 LLMがヒトアノテーターの代用として使用できるかどうかを検討した。 LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文参考訳（メタデータ） (2024-05-22T15:56:52Z)
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文参考訳（メタデータ） (2024-01-10T09:49:10Z)
Automated Assessment of Students' Code Comprehension using LLMs [0.3293989832773954]
大規模言語モデル(LLM)とエンコーダベースのセマンティックテキスト類似(STS)モデルを評価する。この結果から,LLMはプログラミング領域における生徒の短解評価において,微調整エンコーダモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2023-12-19T20:39:12Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。