Fugu-MT 論文翻訳(概要): VERITAS: A Unified Approach to Reliability Evaluation

論文の概要: VERITAS: A Unified Approach to Reliability Evaluation

arxiv url: http://arxiv.org/abs/2411.03300v1
Date: Tue, 05 Nov 2024 17:53:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.700714
Title: VERITAS: A Unified Approach to Reliability Evaluation
Title（参考訳）: VERITAS:信頼性評価への統一的なアプローチ
Authors: Rajkumar Ramamurthy, Meghana Arakkal Rajeev, Oliver Molenschot, James Zou, Nazneen Rajani,
Abstract要約: 大規模言語モデル(LLM)は、しばしばコンテキストから情報を合成して正確な応答を生成するのに失敗する。 VERITASは様々な文脈で柔軟に動作するように設計された幻覚検出モデルのファミリーである。
参考スコア（独自算出の注目度）: 26.051109586419308
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) often fail to synthesize information from their context to generate an accurate response. This renders them unreliable in knowledge intensive settings where reliability of the output is key. A critical component for reliable LLMs is the integration of a robust fact-checking system that can detect hallucinations across various formats. While several open-access fact-checking models are available, their functionality is often limited to specific tasks, such as grounded question-answering or entailment verification, and they perform less effectively in conversational settings. On the other hand, closed-access models like GPT-4 and Claude offer greater flexibility across different contexts, including grounded dialogue verification, but are hindered by high costs and latency. In this work, we introduce VERITAS, a family of hallucination detection models designed to operate flexibly across diverse contexts while minimizing latency and costs. VERITAS achieves state-of-the-art results considering average performance on all major hallucination detection benchmarks, with $10\%$ increase in average performance when compared to similar-sized models and get close to the performance of GPT4 turbo with LLM-as-a-judge setting.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしばコンテキストから情報を合成して正確な応答を生成するのに失敗する。これにより、アウトプットの信頼性が鍵となる知識集約的な設定では信頼性が低下する。信頼性の高いLCMにとって重要なコンポーネントは、さまざまなフォーマットで幻覚を検出する堅牢なファクトチェックシステムの統合である。いくつかのオープンアクセスファクトチェックモデルが利用可能であるが、それらの機能は、接地された質問回答や詳細な検証のような特定のタスクに限られており、会話の設定では効率が悪くなっている。一方、GPT-4やClaudeのようなクローズドアクセスモデルは、地上での対話の検証など、さまざまなコンテキストにまたがる柔軟性を提供するが、高いコストとレイテンシによって妨げられる。本研究では,レイテンシとコストの最小化を図りながら,さまざまなコンテキストで柔軟に動作するように設計された幻覚検出モデルであるVERITASを紹介する。 VERITASは、すべての主要な幻覚検出ベンチマークの平均性能を考慮し、類似サイズのモデルと比較すると平均性能が10\%以上上昇し、LCM-as-a-judge設定によるGPT4ターボの性能に近づいた。

関連論文リスト

Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model [1.124958340749622]
本研究では,最も適切なフィルタリング手法を適応的に選択する,アンサンブルに基づく新しい前処理フレームワークを提案する。この手法は、自然言語推論(NLI)スコアによって測定された幻覚率を44.3%削減する。この結果は、幻覚を緩和し、より信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-05-29T21:09:34Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとツールの実行ソリューションの間の構造的マッピングを利用する。クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。我々のフレームワークは、異なるモデルアーキテクチャにわたって堅牢なパフォーマンスを示し、追加のトレーニングなしで完全に見えないAPIに一般化することに成功しています。
論文参考訳（メタデータ） (2025-03-03T12:55:49Z)
Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文参考訳（メタデータ） (2025-02-22T10:48:18Z)
A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。 GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。 1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文参考訳（メタデータ） (2024-10-25T11:41:27Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。 THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文参考訳（メタデータ） (2024-09-17T16:55:25Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。