論文の概要: LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification
- arxiv url: http://arxiv.org/abs/2503.07937v1
- Date: Tue, 11 Mar 2025 00:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:14.387164
- Title: LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification
- Title(参考訳): LLMによる科学的クレームの検証
- Authors: Siyuan Wang, James R. Foulds, Md Osman Gani, Shimei Pan,
- Abstract要約: CIBERはRetrieval-Augmented Generation (RAG)フレームワークの拡張であり、科学的クレーム検証の証拠としてコロンボレーと反証文書を識別する。
大規模言語モデル(LLM)の行動解析に焦点をあてることで、CIBERはホワイトボックスモデルとブラックボックスモデルの両方に適用できる。
言語能力の異なるLLMを用いて総合評価を行った結果,従来のRAG法と比較してCIBERの優れた性能が示された。
- 参考スコア(独自算出の注目度): 12.914521751805658
- License:
- Abstract: In this paper, we introduce CIBER (Claim Investigation Based on Evidence Retrieval), an extension of the Retrieval-Augmented Generation (RAG) framework designed to identify corroborating and refuting documents as evidence for scientific claim verification. CIBER addresses the inherent uncertainty in Large Language Models (LLMs) by evaluating response consistency across diverse interrogation probes. By focusing on the behavioral analysis of LLMs without requiring access to their internal information, CIBER is applicable to both white-box and black-box models. Furthermore, CIBER operates in an unsupervised manner, enabling easy generalization across various scientific domains. Comprehensive evaluations conducted using LLMs with varying levels of linguistic proficiency reveal CIBER's superior performance compared to conventional RAG approaches. These findings not only highlight the effectiveness of CIBER but also provide valuable insights for future advancements in LLM-based scientific claim verification.
- Abstract(参考訳): 本稿では,学術的クレーム検証の証拠として,コロンボレート・リフューティング文書の識別を目的としたレトリーバル・アグリゲード・ジェネレーション(RAG)フレームワークの拡張であるCIBER(Claim Investigation based on Evidence Retrieval)を紹介する。
CIBERは、多種多様な尋問プローブ間の応答一貫性を評価することで、LLM(Large Language Models)の固有の不確実性に対処する。
内部情報へのアクセスを必要とせずにLCMの挙動解析に集中することにより、CIBERはホワイトボックスモデルとブラックボックスモデルの両方に適用できる。
さらに、CIBERは教師なしの方法で動作し、様々な科学領域で容易に一般化できる。
言語能力の異なるLLMを用いて総合評価を行った結果,従来のRAG法と比較してCIBERの優れた性能が示された。
これらの知見はCIBERの有効性を浮き彫りにするだけでなく、LCMに基づく科学的クレーム検証の今後の進歩に価値ある洞察を与える。
関連論文リスト
- A review of faithfulness metrics for hallucination assessment in Large Language Models [0.0]
本稿では, オープンエンド要約, 質問応答, 機械翻訳作業において, 忠実度を評価する方法を検討する。
LLMを忠実度評価器として用いることは、一般的に人間の判断と最も強く相関する指標である。
論文 参考訳(メタデータ) (2024-12-31T04:41:13Z) - The ELEVATE-AI LLMs Framework: An Evaluation Framework for Use of Large Language Models in HEOR: an ISPOR Working Group Report [12.204470166456561]
この記事では、ELEVATE AI LLMsフレームワークとチェックリストを紹介します。
このフレームワークは、モデル特性、正確性、包括性、公平性を含む10の評価領域から構成される。
体系的な文献レビューと健康経済モデルの研究の枠組みとチェックリストの検証は、レポートの強さとギャップを識別する能力を強調した。
論文 参考訳(メタデータ) (2024-12-23T14:09:10Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI [0.3495246564946556]
BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを導入する。
LLMは多様なメディアの大規模なデータベースを理解し合成するためのインタフェースを提供することができる。
この枠組みは、政策立案者に対する科学的証拠のアクセシビリティと信頼性を促進することができると我々は主張する。
論文 参考訳(メタデータ) (2024-06-27T05:03:03Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。