論文の概要: Unsupervised Evaluation of Multi-Turn Objective-Driven Interactions
- arxiv url: http://arxiv.org/abs/2511.03047v1
- Date: Tue, 04 Nov 2025 22:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.264027
- Title: Unsupervised Evaluation of Multi-Turn Objective-Driven Interactions
- Title(参考訳): マルチターン物体駆動インタラクションの教師なし評価
- Authors: Emi Soroka, Tanmay Chopra, Krish Desai, Sanjay Lall,
- Abstract要約: 大規模言語モデル(LLM)は、AIエージェントと人間が客観的に駆動される相互作用に関与するエンタープライズアプリケーションで人気が高まっている。
客観的インタラクションのための教師なしメトリクスの最初のセットを紹介する。
本研究では,ユーザ目標のラベル付け,目標達成度の測定,LLMの不確かさの定量化のための指標を開発する。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have seen increasing popularity in enterprise applications where AI agents and humans engage in objective-driven interactions. However, these systems are difficult to evaluate: data may be complex and unlabeled; human annotation is often impractical at scale; custom metrics can monitor for specific errors, but not previously-undetected ones; and LLM judges can produce unreliable results. We introduce the first set of unsupervised metrics for objective-driven interactions, leveraging statistical properties of unlabeled interaction data and using fine-tuned LLMs to adapt to distributional shifts. We develop metrics for labeling user goals, measuring goal completion, and quantifying LLM uncertainty without grounding evaluations in human-generated ideal responses. Our approach is validated on open-domain and task-specific interaction data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIエージェントと人間が客観的に駆動される相互作用に関与するエンタープライズアプリケーションで人気が高まっている。
しかし、これらのシステムは評価が難しい:データは複雑でラベル付けされていない; 人間のアノテーションは大規模では実用的ではない; カスタムメトリクスは特定のエラーを監視できるが、事前に検出されていないものはない; LLM の判断は信頼性の低い結果を生成することができる。
目的駆動インタラクションのための最初の教師なしメトリクスセットを導入し、ラベルなしインタラクションデータの統計特性を活用し、微調整LDMを用いて分散シフトに適応する。
本研究では,ユーザ目標のラベル付け,目標達成度の測定,LLMの不確かさの定量化のための指標を開発する。
提案手法はオープンドメインとタスク固有のインタラクションデータに基づいて検証される。
関連論文リスト
- Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。
我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。
本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文 参考訳(メタデータ) (2025-07-15T18:50:29Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。