Fugu-MT 論文翻訳(概要): ProactBench: Beyond What The User Asked For

論文の概要: ProactBench: Beyond What The User Asked For

arxiv url: http://arxiv.org/abs/2605.09228v1
Date: Sat, 09 May 2026 23:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.127967
Title: ProactBench: Beyond What The User Asked For
Title（参考訳）: ProactBench: ユーザが求めていた以上のもの
Authors: Sepehr Harfi, Ahmad Salimi, Dongming Shen, Alex Smola,
Abstract要約: ProactBenchは、textscEmergent、単一の公開アンカーからの推論、textscCritical、複数のアンカー間での合成、textscRecovery、タスク完了後の前方にある値の3つのフェーズ型に分解する。我々の情報アシンメトリーは、スタイル強調スコア、漏洩、外部コンテキスト汚染、情報ダンプに対して防御します。
参考スコア（独自算出の注目度）: 5.422521416406412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most LLM benchmarks score how well a model responds to explicit requests. They leave unmeasured a different conversational ability: noticing and acting on needs the user has implied but not said. We call this \emph{conversational proactivity}. ProactBench decomposes it into three phase-tied types: \textsc{Emergent}, inference from a single disclosed anchor; \textsc{Critical}, synthesis across multiple anchors; and \textsc{Recovery}, grounded forward-looking value after task completion. We operationalise the benchmark with three agents: a Planner, a User Agent, and an Assistant Model. Their information asymmetries defend against style-confounded scoring, rubric leakage, external-context contamination, and information dumps. The released corpus contains 198 curated dialogues with 624 trigger points across 24 communication styles drawn from a psychometric inventory and audited by an independent LLM judge. Across 16 frontier and open-weight models, \textsc{Recovery} is both difficult and weakly predicted by six standard benchmarks, making it a useful new evaluation signal.
Abstract（参考訳）: ほとんどのLCMベンチマークは、モデルが明示的な要求にどのように反応するかを評価する。彼らは異なる会話能力を残している: ユーザーが暗示しているが、言わなかったニーズに気付き、行動する。これをemph{conversational proactive}と呼ぶ。 ProactBenchは、単一の公開アンカーからの推論である \textsc{Emergent} と、複数のアンカー間での合成である \textsc{Critical} と、タスク完了後の前方の値である \textsc{Recovery} の3つのフェーズタイド型に分解する。ベンチマークをPlanner、User Agent、Assistant Modelの3つのエージェントで運用する。彼らの情報アシンメトリーは、スタイルが確立されたスコアリング、ルーブリックリーク、外部コンテキスト汚染、情報ダンプに対して防御する。解放されたコーパスは、心理学的インベントリから抽出され、独立したLLM審査員によって監査される24のコミュニケーションスタイルで、624のトリガーポイントを持つ198のキュレートされた対話を含んでいる。 16のフロンティアモデルとオープンウェイトモデル、 \textsc{Recovery} は6つの標準ベンチマークによって困難かつ弱く予測され、新しい評価信号として有用である。

関連論文リスト

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations [32.23729177914094]
我々は,LCMがユーザ意図の解釈を改訂し,有用性を回復できるかどうかを計測する初の対話型ベンチマークであるCarryOnBenchを紹介する。ユーザ追跡シーケンスの異なる5,970の会話をシミュレートし,意図整合性と安全性の両面で14のモデルを評価する。 CarryOnBenchは、4-12ターンで1,866の異なる会話フローを生成し、合計で23,880のモデル応答を生成する。
論文参考訳（メタデータ） (2026-04-29T18:37:18Z)
ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search [49.61286310968402]
我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。 ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
論文参考訳（メタデータ） (2026-04-14T14:06:19Z)
Do Chatbot LLMs Talk Too Much? The YapBench Benchmark [1.6149401958316794]
YapBenchは、簡潔なイデアルプロンプトでユーザ可視のオーバージェネレーションを定量化するベンチマークである。各項目は、1ターンプロンプト、キュレートされた最小限のベースライン回答、およびカテゴリラベルで構成される。カテゴリーレベル中央値YapScoresの一様重み付き平均YapIndexを用いてモデル性能を要約する。
論文参考訳（メタデータ） (2026-01-02T09:43:52Z)
One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-05T14:39:59Z)
Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models [0.0]
本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
論文参考訳（メタデータ） (2025-08-13T20:55:26Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文参考訳（メタデータ） (2023-07-02T13:36:36Z)
Phrase Retrieval for Open-Domain Conversational Question Answering with Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文参考訳（メタデータ） (2023-06-07T09:46:38Z)
Improving Open-Domain Dialogue Evaluation with a Causal Inference Model [8.625569782672663]
明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
論文参考訳（メタデータ） (2023-01-31T02:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。