論文の概要: VISTA Score: Verification In Sequential Turn-based Assessment
- arxiv url: http://arxiv.org/abs/2510.27052v2
- Date: Thu, 06 Nov 2025 17:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.6944
- Title: VISTA Score: Verification In Sequential Turn-based Assessment
- Title(参考訳): VISTAスコア:シークエンシャル・ターン・アセスメントにおける検証
- Authors: Ashley Lewis, Andrew Perrault, Eric Fosler-Lussier, Michael White,
- Abstract要約: VISTAは,クレームレベルの検証と逐次一貫性トラッキングを通じて,会話の事実性を評価するためのフレームワークである。
VISTAは、各アシスタントをアトミックな事実的クレームに分解し、信頼された情報源や対話履歴に対して検証し、検証不可能なステートメントを分類する。
人間による評価では、VISTAの分解はアノテーションの一致を改善し、既存のベンチマークの不整合を明らかにする。
- 参考スコア(独自算出の注目度): 18.318681275086902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination--defined here as generating statements unsupported or contradicted by available evidence or conversational context--remains a major obstacle to deploying conversational AI systems in settings that demand factual reliability. Existing metrics either evaluate isolated responses or treat unverifiable content as errors, limiting their use for multi-turn dialogue. We introduce VISTA (Verification In Sequential Turn-based Assessment), a framework for evaluating conversational factuality through claim-level verification and sequential consistency tracking. VISTA decomposes each assistant turn into atomic factual claims, verifies them against trusted sources and dialogue history, and categorizes unverifiable statements (subjective, contradicted, lacking evidence, or abstaining). Across eight large language models and four dialogue factuality benchmarks (AIS, BEGIN, FAITHDIAL, and FADE), VISTA substantially improves hallucination detection over FACTSCORE and LLM-as-Judge baselines. Human evaluation confirms that VISTA's decomposition improves annotator agreement and reveals inconsistencies in existing benchmarks. By modeling factuality as a dynamic property of conversation, VISTA offers a more transparent, human-aligned measure of truthfulness in dialogue systems.
- Abstract(参考訳): ここでの幻覚(Halucination)は、利用可能な証拠や会話のコンテキストに反するステートメントを生成できないか、あるいは生成しないものとして定義されます。
既存のメトリクスは、分離された応答を評価したり、検証不可能なコンテンツをエラーとして扱い、マルチターン対話の使用を制限する。
VISTA(Verification In Sequential Turn-based Assessment)は,クレームレベルの検証とシーケンシャルな一貫性トラッキングを通じて,会話の事実性を評価するフレームワークである。
VISTAは、各アシスタントをアトミックな事実的クレームに分解し、信頼された情報源や対話履歴に対して検証し、検証不可能なステートメント(客観的、矛盾、証拠の欠如、または棄権)を分類する。
8つの大言語モデルと4つの対話事実性ベンチマーク(AIS, BEGIN, FAITHDIAL, FADE)で、VISTAはFACTSCOREとLM-as-Judgeベースラインに対する幻覚検出を大幅に改善する。
人間による評価では、VISTAの分解はアノテーションの一致を改善し、既存のベンチマークの不整合を明らかにする。
会話のダイナミックな特性として事実をモデル化することにより、VISTAは対話システムにおいてより透明で人間に整合した真正性の尺度を提供する。
関連論文リスト
- SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [17.91981142492207]
本稿では,ユーザ行動に根ざした制御されたフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは言語的に情報を得た規則を活用し、命令の順守、意味的類似性、リアリズムのチェックを通じて品質を強制する。
ケーススタディでは、制御されたパラフレーズは、制約のない変動の下で隠されたままの系統的な弱点を明らかにする。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。
DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文 参考訳(メタデータ) (2025-01-12T06:41:52Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。