論文の概要: From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track
- arxiv url: http://arxiv.org/abs/2603.23125v1
- Date: Tue, 24 Mar 2026 12:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.471367
- Title: From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track
- Title(参考訳): TREC 2025 DRAGUNトラックのためのLCM-IRフレームワーク
- Authors: Ignacy Alwasiak, Kene Nnolim, Jaclyn Thi, Samy Ateia, Markus Bink, Gregor Donabauer, David Elsweiler, Udo Kruschwitz,
- Abstract要約: TREC 2025のDRAGUN Trackは、ユーザーがオンラインニュースの信頼性を評価するのに役立つ効果的なサポートツールの必要性が高まっていることを目標としている。
第1タスク(クリティカル質問生成)と第2タスク(検索強化信頼度レポート)の両方で提出されたUR_Treckingシステムについて述べる。
提案手法は,LLMに基づく質問生成とセマンティックフィルタリング,クラスタリングを用いた多様性強化,およびクエリ拡張戦略を組み合わせたものである。
- 参考スコア(独自算出の注目度): 4.485089827405665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DRAGUN Track at TREC 2025 targets the growing need for effective support tools that help users evaluate the trustworthiness of online news. We describe the UR_Trecking system submitted for both Task 1 (critical question generation) and Task 2 (retrieval-augmented trustworthiness reporting). Our approach combines LLM-based question generation with semantic filtering, diversity enforcement using clustering, and several query expansion strategies (including reasoning-based Chain-of-Thought expansion) to retrieve relevant evidence from the MS MARCO V2.1 segmented corpus. Retrieved documents are re-ranked using a monoT5 model and filtered using an LLM relevance judge together with a domain-level trustworthiness dataset. For Task 2, selected evidence is synthesized by an LLM into concise trustworthiness reports with citations. Results from the official evaluation indicate that Chain-of-Thought query expansion and re-ranking substantially improve both relevance and domain trust compared to baseline retrieval, while question-generation performance shows moderate quality with room for improvement. We conclude by outlining key challenges encountered and suggesting directions for enhancing robustness and trustworthiness assessment in future iterations of the system.
- Abstract(参考訳): TREC 2025のDRAGUN Trackは、ユーザーがオンラインニュースの信頼性を評価するのに役立つ効果的なサポートツールの必要性が高まっていることを目標としている。
本稿では,タスク1(クリティカルな質問生成)とタスク2(検索強化された信頼性レポート)に提案されるUR_Treckingシステムについて述べる。
提案手法は,LLMに基づく質問生成とセマンティックフィルタリング,クラスタリングを用いた多様性の強化,およびいくつかのクエリ拡張戦略(推論に基づくChain-of-Thought拡張を含む)を組み合わせて,MS MARCO V2.1セグメントコーパスから関連する証拠を検索する。
検索されたドキュメントは monoT5 モデルを使用して再ランク付けされ、LLM 関連判断器とドメインレベルの信頼性データセットを使用してフィルタリングされる。
タスク2では、選択されたエビデンスをLCMによって合成し、引用とともに信頼性レポートを簡潔に作成する。
公式評価の結果,質問生成性能は改善の余地のある適度な品質を示すのに対し,チェーン・オブ・ソート・クエリの拡張と再ランク付けは,ベースライン検索と比較して妥当性とドメイン信頼の両方を著しく改善することが示された。
システムの今後のイテレーションにおいて、直面する重要な課題を概説し、堅牢性と信頼性の評価を強化するための方向性を提案する。
関連論文リスト
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains [79.14584837105808]
MC-Searchは5つの代表的推論構造にまたがる長いステップワイドなアノテート推論チェーンを持つエージェントMM-RAGの最初のベンチマークである。
回答精度以外にも、MC-Searchは、品質、段階的検索、計画精度を推論するための新しいプロセスレベルメトリクスを導入している。
エージェントMM-RAGパイプラインを統一的に開発することにより、6つのMLLMをベンチマークし、過剰検索や過度検索、モダリティミスアライメント計画などの体系的な問題を明らかにする。
論文 参考訳(メタデータ) (2026-03-01T02:25:57Z) - Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval [3.1241290518951197]
大規模なeコマース検索要求は、長い尾のノイズの多いクエリに一般化される。
セマンティックテキスト埋め込みのための2段階の「Mine and Refine」コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-19T18:56:36Z) - TRUE: A Reproducible Framework for LLM-Driven Relevance Judgment in Information Retrieval [11.27206971411905]
関連判断生成のためのtextitTask-aware Evaluation (TRUE) を提案する。
TRUEはもともと,検索セッションにおける有用性評価のために開発された。
TRUEをTREC DL 2019, 2020, LLMJudgeデータセットで評価した。
論文 参考訳(メタデータ) (2025-09-29T23:58:47Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Goal2Story: A Multi-Agent Fleet based on Privately Enabled sLLMs for Impacting Mapping on Requirements Elicitation [6.547589336272875]
Goal2Storyは、Impact Mapping(IM)フレームワークを採用したマルチエージェントのフリートであり、単にゴール駆動REにコスト効率のよいsLLMを使用するだけである。
StorySeekデータセットには、対応する目標とプロジェクトコンテキスト情報を備えた1,000以上のユーザストーリ(US)が含まれている。
評価のために,FHR(Factality Hit Rate)とQuACE(Quality And Consistency Evaluation)の2つの指標を提案した。
論文 参考訳(メタデータ) (2025-03-17T15:31:20Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。
RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。
実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。