Fugu-MT 論文翻訳(概要): CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks

論文の概要: CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks

arxiv url: http://arxiv.org/abs/2406.02524v4
Date: Thu, 05 Jun 2025 16:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 14:14:43.09094
Title: CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks
Title（参考訳）: CheckEmbed: LLMソリューションのオープンエンドタスクに対する有効検証
Authors: Maciej Besta, Lorenzo Paleari, Marcin Copik, Robert Gerstenberger, Ales Kubicek, Piotr Nyczyk, Patrick Iff, Eric Schreiber, Tanja Srindran, Tomasz Lehmann, Hubert Niewiadomski, Torsten Hoefler,
Abstract要約: CheckEmbed (CE)は、大規模言語モデル(LLM)の単純でスケーラブルで正確な検証方法である。 CEは、全問合せレベルで、高速でセマンティックにリッチな比較を行い、精度とスケーラビリティの両方において重要な制限を克服します。実験の結果,CEは閉じたタスクとオープンエンドタスクの両方の幻覚を確実に検出することがわかった。
参考スコア（独自算出の注目度）: 14.603394022550864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are transforming a wide range of domains, yet verifying their outputs remains a significant challenge, especially for complex open-ended tasks such as consolidation, summarization, and knowledge extraction. To address this, we introduce CheckEmbed (CE): a simple, scalable, and accurate verification method. CE reduces each LLM answer to a single embedding vector using powerful modern embedding LLM models like SFR-Embedding-Mistral. Prior methods such as BERTScore and SelfCheckGPT relied on weaker encoders like BERT, forcing them to operate at token or sentence granularity. In contrast, CE performs fast, semantically rich comparisons directly at the whole-answer level, overcoming key limitations in both accuracy and scalability. We conduct a comprehensive design and time complexity analysis across 13 verification baselines, including classical text scorers (e.g., BLEU), stability-based methods (e.g., SelfCheckGPT), and generative evaluators (e.g., LLM-as-a-Judge), which highlights the effectiveness, efficiency, versatility, and simplicity of CE. Empirical results show that CE reliably detects hallucinations in both closed and open-ended tasks. We further present evidence that CE generalizes beyond text to other modalities such as vision, establishing it as a practical and versatile verification framework.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広い領域を変換しているが、特に統合、要約、知識抽出といった複雑なオープンエンドタスクにおいて、その出力を検証することは大きな課題である。これを解決するために、我々は、シンプルでスケーラブルで正確な検証方法であるCheckEmbed (CE: CheckEmbed)を紹介した。 CEは、SFR-Embedding-Mistralのような強力な近代的なLLMモデルを用いて、単一の埋め込みベクトルに対するそれぞれのLLM応答を削減している。 BERTScoreやSelfCheckGPTといった以前の手法はBERTのようなより弱いエンコーダに依存しており、トークンや文の粒度で操作せざるを得なかった。対照的にCEは、全問合せレベルで、高速でセマンティックにリッチな比較を行い、精度とスケーラビリティの両方において重要な制限を克服します。我々は、古典テキストスコアラ(BLEU)、安定性に基づく手法(SelfCheckGPT)、生成的評価器(LLM-as-a-Judge)を含む13の検証基準の総合的な設計と時間複雑性分析を行い、CEの有効性、効率性、汎用性、簡易性を強調した。実験の結果,CEは閉鎖的タスクと開放的タスクの両方において,確実に幻覚を検出することがわかった。さらに、CEはテキストを超えて視覚などの他のモダリティに一般化し、実用的で汎用的な検証フレームワークとして確立する証拠を提示する。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM Routing [6.579756339673344]
OOS(Out-of-scope)インテント検出は、タスク指向対話システム(TODS)において重要な課題である。我々は,不確実性モデリングと細調整された大言語モデル(LLM)を組み合わせて,効率よく正確なOOS検出を行う,新しい単純なモジュラーフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-02T09:51:41Z)
LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-04T03:03:47Z)
SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable [4.953092503184905]
大規模言語モデル(LLM)は目覚ましい性能を示したが、その多様な長所と短所により、全てのタスクにおいて単一のLLMが支配的になるのを防いでいる。本研究は,一貫した出力を誘導することにより,LLMを効率的にアンサンブルするためのフレームワークであるSCE(Scalable Consistency Ensemble)を導入する。
論文参考訳（メタデータ） (2025-03-13T20:54:28Z)
Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文参考訳（メタデータ） (2025-02-17T19:18:23Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? [33.18076221854853]
複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
AXCEL: Automated eXplainable Consistency Evaluation using LLMs [6.382787013075262]
大規模言語モデル(LLM)は、産業と学術の両方で様々なタスクに広く使われている。本研究は,LLM(AXCEL)を用いた自動eXplainable Consistency評価を導入する。 AXCELは、詳細な推論を提供することで、一貫性スコアの説明を提供するプロンプトベースの一貫性メトリクスである。
論文参考訳（メタデータ） (2024-09-25T14:45:52Z)
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文参考訳（メタデータ） (2024-08-13T10:15:55Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。 SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文参考訳（メタデータ） (2024-04-17T01:15:54Z)
Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models [28.105271954633682]
本稿では,Large Language Models (LLMs) へのリーク情報の再ランク付けのための,Q-PEFT (Q-PEFT) アプローチを提案する。クエリを使用して、入力ドキュメントから上位$kのトークンを抽出し、コンテキストのヒントとして機能します。検索機構をマルチヘッドアテンション層に置き換えて、エンドツーエンドのトレーニングを実現し、文書中のすべてのトークンをカバーすることにより、Q-PEFTをさらに強化する。
論文参考訳（メタデータ） (2024-04-06T06:44:41Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文参考訳（メタデータ） (2023-10-08T06:17:39Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。