Fugu-MT 論文翻訳(概要): CrEst: Credibility Estimation for Contexts in LLMs via Weak Supervision

論文の概要: CrEst: Credibility Estimation for Contexts in LLMs via Weak Supervision

arxiv url: http://arxiv.org/abs/2506.14912v1
Date: Tue, 17 Jun 2025 18:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.453494
Title: CrEst: Credibility Estimation for Contexts in LLMs via Weak Supervision
Title（参考訳）: CrEst: 弱スーパービジョンによるLCMのコンテキストの信頼性評価
Authors: Dyah Adila, Shuai Zhang, Boran Han, Bonan Min, Yuyang Wang,
Abstract要約: CrEstは、推論中のコンテキスト文書の信頼性を評価する弱教師付きフレームワークである。 3つのモデルアーキテクチャと5つのデータセットにわたる実験は、CrEstが強いベースラインを一貫して上回ることを示した。
参考スコア（独自算出の注目度）: 15.604947362541415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of contextual information has significantly enhanced the performance of large language models (LLMs) on knowledge-intensive tasks. However, existing methods often overlook a critical challenge: the credibility of context documents can vary widely, potentially leading to the propagation of unreliable information. In this paper, we introduce CrEst, a novel weakly supervised framework for assessing the credibility of context documents during LLM inference--without requiring manual annotations. Our approach is grounded in the insight that credible documents tend to exhibit higher semantic coherence with other credible documents, enabling automated credibility estimation through inter-document agreement. To incorporate credibility into LLM inference, we propose two integration strategies: a black-box approach for models without access to internal weights or activations, and a white-box method that directly modifies attention mechanisms. Extensive experiments across three model architectures and five datasets demonstrate that CrEst consistently outperforms strong baselines, achieving up to a 26.86% improvement in accuracy and a 3.49% increase in F1 score. Further analysis shows that CrEst maintains robust performance even under high-noise conditions.
Abstract（参考訳）: 文脈情報の統合により、知識集約タスクにおける大規模言語モデル(LLM)の性能が大幅に向上した。しかし、既存の手法は、しばしば重要な課題を見落としている: コンテキスト文書の信頼性は、広く変化し、信頼性の低い情報の伝播につながる可能性がある。本稿では,手動のアノテーションを必要とせずに,LLM推論中のコンテキスト文書の信頼性を評価するためのフレームワークCrEstを紹介する。本手法は,信頼性文書が他の信頼性文書と高いセマンティックコヒーレンスを示す傾向があり,文書間合意による信頼性の自動推定が可能であるという知見に基づいている。 LLM推論に信頼性を組み込むため、内部重みやアクティベーションにアクセスできないモデルに対するブラックボックスアプローチと、注意機構を直接変更するホワイトボックス手法の2つの統合戦略を提案する。 3つのモデルアーキテクチャと5つのデータセットにわたる大規模な実験により、CrEstは強いベースラインを一貫して上回り、精度が26.86%向上し、F1スコアが3.49%増加した。さらに分析した結果,CrEstは高雑音条件下においても頑健な性能を維持していることがわかった。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints [18.10515528600634]
提案するtextbfDeliberative Searcher は,探索に基づくオープンドメイン質問応答の検索と確実なキャリブレーションを統合した最初のフレームワークである。このエージェントはウィキペディアのデータに対して多段階のリフレクションと検証を行い、ソフトな信頼性制約の下で精度を最適化する強化学習アルゴリズムで訓練される。
論文参考訳（メタデータ） (2025-07-22T16:09:34Z)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文参考訳（メタデータ） (2025-05-09T04:40:11Z)
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-28T11:49:56Z)
Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文参考訳（メタデータ） (2024-11-22T04:41:20Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-07-29T09:05:10Z)
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。