論文の概要: Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025
- arxiv url: http://arxiv.org/abs/2508.05366v1
- Date: Thu, 07 Aug 2025 13:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.683432
- Title: Can Language Models Critique Themselves? Investigating Self-Feedback for Retrieval Augmented Generation at BioASQ 2025
- Title(参考訳): 言語モデルによる批判は可能か? : BioASQ 2025における検索向上のための自己フィードバックの検討
- Authors: Samy Ateia, Udo Kruschwitz,
- Abstract要約: RAGと「ディープリサーチ」システムは、大規模言語モデル(LLM)が反復的に出力を洗練する自律的な探索プロセスの実現を目的としている。
これらのシステムを、生物医学研究のようなドメイン固有の専門的な検索に適用することは、課題を提示する。
本研究では,この反復的自己補正によって性能が向上し,推論モデルがより有用なフィードバックを生成できるかどうかを検討した。
- 参考スコア(独自算出の注目度): 1.6819960041696331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic Retrieval Augmented Generation (RAG) and 'deep research' systems aim to enable autonomous search processes where Large Language Models (LLMs) iteratively refine outputs. However, applying these systems to domain-specific professional search, such as biomedical research, presents challenges, as automated systems may reduce user involvement and misalign with expert information needs. Professional search tasks often demand high levels of user expertise and transparency. The BioASQ CLEF 2025 challenge, using expert-formulated questions, can serve as a platform to study these issues. We explored the performance of current reasoning and nonreasoning LLMs like Gemini-Flash 2.0, o3-mini, o4-mini and DeepSeek-R1. A key aspect of our methodology was a self-feedback mechanism where LLMs generated, evaluated, and then refined their outputs for query expansion and for multiple answer types (yes/no, factoid, list, ideal). We investigated whether this iterative self-correction improves performance and if reasoning models are more capable of generating useful feedback. Preliminary results indicate varied performance for the self-feedback strategy across models and tasks. This work offers insights into LLM self-correction and informs future work on comparing the effectiveness of LLM-generated feedback with direct human expert input in these search systems.
- Abstract(参考訳): エージェント検索拡張生成(RAG)と「ディープリサーチ」システムは,大規模言語モデル(LLM)が反復的に出力を洗練する自律的な探索プロセスの実現を目的としている。
しかし、これらのシステムをバイオメディカルリサーチなどのドメイン固有の専門的検索に適用すると、自動化システムはユーザの関与を減らし、専門家の情報要求に不適合する可能性があるため、課題が提示される。
専門的な検索タスクは、しばしば高いレベルのユーザー知識と透明性を要求する。
BioASQ CLEF 2025チャレンジは、専門家による質問を使用して、これらの問題を研究するためのプラットフォームとして機能する。
我々は、Gemini-Flash 2.0、o3-mini、o4-mini、DeepSeek-R1のような現在の推論および非推論LLMの性能について検討した。
我々の方法論の重要な側面は、LLMの生成、評価、そしてクエリ拡張および複数の応答タイプ(yes/no、ファクトイド、リスト、イデアル)のために出力を洗練する自己フィードバックメカニズムであった。
本研究では,この反復的自己補正によって性能が向上し,推論モデルがより有用なフィードバックを生成できるかどうかを検討した。
予備的な結果は、モデルとタスク間の自己フィードバック戦略における様々なパフォーマンスを示している。
本研究は,LLM自己補正に関する知見を提供し,LLM生成したフィードバックの有効性と,これらのサーチシステムにおける人的知識の直接的入力との比較について報告する。
関連論文リスト
- SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - A Reproducibility and Generalizability Study of Large Language Models for Query Generation [14.172158182496295]
生成AIと大規模言語モデル(LLM)は、体系的な文献レビュープロセスに革命をもたらすことを約束する。
本稿では,LLMを用いたBooleanクエリ生成を体系的レビューのために広範囲に研究する。
本研究は,ChatGPTを用いて得られた結果の複製性と信頼性について検討した。
次に、オープンソースモデルの解析と評価により結果を一般化する。
論文 参考訳(メタデータ) (2024-11-22T13:15:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。