論文の概要: Amulet: Putting Complex Multi-Turn Conversations on the Stand with LLM Juries
- arxiv url: http://arxiv.org/abs/2505.20451v1
- Date: Mon, 26 May 2025 18:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.255999
- Title: Amulet: Putting Complex Multi-Turn Conversations on the Stand with LLM Juries
- Title(参考訳): Amulet: LLM判決付きスタンドに複雑なマルチターン会話を配置する
- Authors: Sahana Ramnath, Anurag Mudgil, Brihi Joshi, Skyler Hallinan, Xiang Ren,
- Abstract要約: アミュレット(Amulet)は、LLM-judgesの精度を向上させるために、ダイアログアクトと最大値という関連する言語概念を活用するフレームワークである。
Amulet は、単一の LLM にフレームワークを適用することで審査員として、あるいは異なる LLM の審査員と陪審員に統合することで、使用することができる。
- 参考スコア(独自算出の注目度): 30.095571420819912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today, large language models are widely used as judges to evaluate responses from other language models. Hence, it is imperative to benchmark and improve these LLM-judges on real-world language model usage: a typical human-assistant conversation is lengthy, and shows significant diversity in topics, intents, and requirements across turns, e.g. social interactions, task requests, feedback. We present Amulet, a framework that leverages pertinent linguistic concepts of dialog-acts and maxims to improve the accuracy of LLM-judges on preference data with complex, multi-turn conversational context. Amulet presents valuable insights about (a) the communicative structures and intents present in the conversation (dialog acts), and (b) the satisfaction of conversational principles (maxims) by the preference responses, and uses them to make judgments. On four challenging datasets, Amulet shows that (a) humans frequently (60 to 70 percent of the time) change their intents from one turn of the conversation to the next, and (b) in 75 percent of instances, the preference responses can be differentiated via dialog acts and/or maxims, reiterating the latter's significance in judging such data. Amulet can be used either as a judge by applying the framework to a single LLM, or integrated into a jury with different LLM judges; our judges and juries show strong improvements on relevant baselines for all four datasets.
- Abstract(参考訳): 今日では、他の言語モデルからの応答を評価するために、大きな言語モデルが裁判官として広く使用されている。
したがって、現実世界の言語モデルの使用に関するこれらのLCM-judgesをベンチマークし改善することが不可欠である: 典型的な人間とアシスタントの会話は長く、話題、意図、要求、例えば社会的相互作用、タスク要求、フィードバックなど、様々な方向において大きな多様性を示す。
Amuletは、対話行為の言語的概念と最大値を利用して、複雑なマルチターン会話コンテキストを持つ嗜好データに対するLLM-judgesの精度を向上させるフレームワークである。
アミューレットは貴重な洞察を提示する
(a)会話(対話行為)に存在するコミュニケーションの構造及び意図、及び
(b) 優先応答による会話原則(最大)の満足度を判断に用いた。
4つの挑戦的なデータセットで、Amuletはそれを示している。
(a)人間は頻繁に(60%から70%)、会話の1ターンから次のターンへと意図を変え、
b) インスタンスの75%では、ダイアログの動作や最大値によって好みの反応を区別することができ、後者がそのようなデータを判断する上で重要であることを繰り返し示している。
Amulet は,単一の LLM にフレームワークを適用するか,異なる LLM の審査員による審査員に統合することで,審査員として使用することができる。
関連論文リスト
- Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Human Preferences for Constructive Interactions in Language Model Alignment [0.0]
構築的相互作用に関連する言語的属性が、AIの訓練に使用される人間の嗜好データにどのように反映されるかを検討した。
その結果,利用者は個人のストーリーテリングにおける高い評価を拒絶しながら,不適切な回答を常に好んでいることがわかった。
論文 参考訳(メタデータ) (2025-03-05T15:08:41Z) - MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文 参考訳(メタデータ) (2025-02-17T15:24:49Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
外的検索機構は、しばしば対話における拡張世代の品質を高めるために使用される。
既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。
検索後のマルチターン対話におけるLLMの能力を評価するためのベンチマークであるRAD-Benchを紹介する。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。