論文の概要: RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation
- arxiv url: http://arxiv.org/abs/2601.04350v2
- Date: Mon, 12 Jan 2026 01:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.459935
- Title: RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation
- Title(参考訳): RIGOURATE:Evidence-Aligned Claim Evaluationによる科学的誇張の定量化
- Authors: Joseph James, Chenghao Xiao, Yucheng Li, Nafise Sadat Moosavi, Chenghua Lin,
- Abstract要約: RIGOURATEは、紙の本体から証拠を回収し、各クレームにオーバーステートメントスコアを割り当てる。
このフレームワークは、ICLRとNeurIPSの論文から10K以上のクレームエビデンスセットのデータセットで構成されている。
- 参考スコア(独自算出の注目度): 29.44948404858214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific rigour tends to be sidelined in favour of bold statements, leading authors to overstate claims beyond what their results support. We present RIGOURATE, a two-stage multimodal framework that retrieves supporting evidence from a paper's body and assigns each claim an overstatement score. The framework consists of a dataset of over 10K claim-evidence sets from ICLR and NeurIPS papers, annotated using eight LLMs, with overstatement scores calibrated using peer-review comments and validated through human evaluation. It employes a fine-tuned reranker for evidence retrieval and a fine-tuned model to predict overstatement scores with justification. Compared to strong baselines, RIGOURATE enables improved evidence retrieval and overstatement detection. Overall, our work operationalises evidential proportionality and supports clearer, more transparent scientific communication.
- Abstract(参考訳): 科学的な厳密さは、大胆な主張を支持する傾向があり、著者は結果が支持するもの以上の主張を誇張する。
RIGOURATEは2段階のマルチモーダルフレームワークで、紙の本体から証拠を回収し、各クレームにオーバーステートメントスコアを割り当てる。
このフレームワークは、ICLRとNeurIPSの論文から得られた10K以上のクレームエビデンスセットのデータセットで構成され、8つのLCMを使用して注釈付けされ、ピアレビューコメントを使用して校正され、人間の評価によって検証されるオーバーステートメントスコアで構成されている。
証拠検索には微調整リランカと、正当性のある過剰表現スコアを予測するための微調整モデルを用いる。
RIGOURATEは、強力なベースラインと比較して、エビデンス検索とオーバーステートメント検出の改善を実現している。
全体として、我々の仕事は明らかな比例性を運用し、より明確で透明性のある科学コミュニケーションをサポートする。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - The Alignment Bottleneck in Decomposition-Based Claim Verification [17.197804072440665]
我々は、時間的拘束力のある証拠と人間による注釈付きサブステートメント証拠を含む、現実世界の複雑なクレームのデータセットを新たに導入する。
サブステートアラインド・アライメント・エビデンス(SAE)と繰り返しクライム・レベル・エビデンス(SRE)という2つのアライメント・アライメント・セットアップの下での分解を評価する。
以上の結果から,エビデンスがきめ細やかで厳密に整合している場合にのみ,分解が大幅な性能向上をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2026-02-11T00:02:16Z) - Retrieve-Refine-Calibrate: A Framework for Complex Claim Fact-Checking [32.6738019397553]
大規模言語モデル(LLM)に基づくRetrieve-Refine-Calibrate(RRC)フレームワークを提案する。
特に、このフレームワークは、まずクレームに記載されたエンティティを特定し、それらに関連する証拠を検索する。
そして、無関係な情報を減らすためのクレームに基づいて、回収された証拠を精査する。
最後に、信頼性の低い予測を再評価することで検証プロセスを校正する。
論文 参考訳(メタデータ) (2026-01-23T08:48:52Z) - OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。
回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。
OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文 参考訳(メタデータ) (2026-01-04T15:48:51Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Discourse-Aware Scientific Paper Recommendation via QA-Style Summarization and Multi-Level Contrastive Learning [2.105564340986074]
OMRC-MRは、QAスタイルのOMRC要約、マルチレベルコントラスト学習、そして学術的推薦のための構造認識の再分類を統合する階層的なフレームワークである。
DBLP、S2ORC、新たに構築されたSci-OMRCデータセットの実験は、OMRC-MRが最先端のベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-11-05T09:55:12Z) - MuSciClaims: Multimodal Scientific Claim Verification [13.598508835610474]
診断タスクを伴う新しいベンチマーク MuSciClaims を導入する。
我々は科学論文から支持された主張を自動的に抽出し、矛盾する主張を生成するために手動で摂動する。
その結果、ほとんどの視覚言語モデルは貧弱(0.3-0.5 F1)であり、最高のモデルでさえ0.72 F1しか達成していないことがわかった。
論文 参考訳(メタデータ) (2025-06-05T02:59:51Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection [17.107961913114778]
本稿では,各証拠が関連しているかどうかを識別するために,関連証拠検出(RED)モジュールを提案する。
RED-DOTは、VERITEベンチマークの最先端(SotA)を最大33.7%改善した。
RED-DOT は NewsCLIPings+ で SotA を最大3% 上回った。
論文 参考訳(メタデータ) (2023-11-16T14:43:45Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。