Fugu-MT 論文翻訳(概要): RAR-b: Reasoning as Retrieval Benchmark

論文の概要: RAR-b: Reasoning as Retrieval Benchmark

arxiv url: http://arxiv.org/abs/2404.06347v2
Date: Sun, 12 May 2024 18:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 23:34:50.651079
Title: RAR-b: Reasoning as Retrieval Benchmark
Title（参考訳）: RAR-b:検索ベンチマークとしての推論
Authors: Chenghao Xiao, G Thomas Hudson, Noura Al Moubayed,
Abstract要約: 我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。 Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
参考スコア（独自算出の注目度）: 7.275757292756447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic textual similartiy (STS) and information retrieval tasks (IR) tasks have been the two major avenues to record the progress of embedding models in the past few years. Under the emerging Retrieval-augmented Generation (RAG) paradigm, we envision the need to evaluate next-level language understanding abilities of embedding models, and take a conscious look at the reasoning abilities stored in them. Addressing this, we pose the question: Can retrievers solve reasoning problems? By transforming reasoning tasks into retrieval tasks, we find that without specifically trained for reasoning-level language understanding, current state-of-the-art retriever models may still be far from being competent for playing the role of assisting LLMs, especially in reasoning-intensive tasks. Moreover, albeit trained to be aware of instructions, instruction-aware IR models are often better off without instructions in inference time for reasoning tasks, posing an overlooked retriever-LLM behavioral gap for the research community to align. However, recent decoder-based embedding models show great promise in narrowing the gap, highlighting the pathway for embedding models to achieve reasoning-level language understanding. We also show that, although current off-the-shelf re-ranker models fail on these tasks, injecting reasoning abilities into them through fine-tuning still appears easier than doing so to bi-encoders, and we are able to achieve state-of-the-art performance across all tasks by fine-tuning a reranking model. We release Reasoning as Retrieval Benchmark (RAR-b), a holistic suite of tasks and settings to evaluate the reasoning abilities stored in retriever models. RAR-b is available at https://github.com/gowitheflow-1998/RAR-b.
Abstract（参考訳）: セマンティックテキスト類似性(STS)と情報検索タスク(IR)タスクは,過去数年間の埋め込みモデルの進展を記録するための主要な方法である。新たなRAG(Retrieval-augmented Generation)パラダイムの下では、埋め込みモデルの次世代言語理解能力を評価し、それらに格納される推論能力について意識的に検討する必要がある。検索者は推論の問題を解けるだろうか? 推論タスクを検索タスクに変換することで、推論レベルの言語理解の訓練がなければ、現在の最先端の検索モデルは、特に推論集約タスクにおいてLLMを補助する役割を演じる能力にはまだ及ばないことが分かる。さらに、指示に気付くように訓練されているにもかかわらず、命令を意識したIRモデルは、推論タスクの推論時間に指示を使わずに、しばしば、研究コミュニティが協調するように見落としているレトリバー-LLMの行動ギャップを装う。しかし、最近のデコーダベースの埋め込みモデルは、そのギャップを狭め、推論レベルの言語理解を達成するための埋め込みモデルの経路を強調している。また,現行のオフ・ザ・シェルフ・リランカモデルではこれらのタスクではフェールするが,微調整による推論能力の注入はバイエンコーダよりも容易であることを示す。 Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。 RAR-bはhttps://github.com/gowitheflow-1998/RAR-bで入手できる。

関連論文リスト

MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。 VARは、推論プロセスを2つの重要な段階に分解する。我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文参考訳（メタデータ） (2025-10-21T13:18:44Z)
ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.928677157362088]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文参考訳（メタデータ） (2025-10-01T06:44:28Z)
TongSearch-QR: Reinforced Query Reasoning for Retrieval [22.833651162995615]
TongSearch QRは、クエリ推論と推論集約検索における書き換えのための、小規模言語モデルのファミリーである。半ルールに基づく新たな報酬関数により、より小さな言語モデルを実現する強化学習アプローチを採用する。 BRIGHTベンチマークの実験結果によると、BM25をリトリーバーとして、TongSearch QR-7BとTongSearch QR-1.5Bモデルの両方が既存のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-06-13T09:17:36Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文参考訳（メタデータ） (2025-05-12T09:45:40Z)
ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文参考訳（メタデータ） (2025-04-29T09:49:28Z)
RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
ドメイン固有の知性は、問題解決のための専門的な知識と洗練された推論を要求する。本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。 RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
論文参考訳（メタデータ） (2025-03-30T16:49:44Z)
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文参考訳（メタデータ） (2025-03-25T09:00:58Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文参考訳（メタデータ） (2025-02-11T13:48:10Z)
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文参考訳（メタデータ） (2024-12-21T13:19:15Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文参考訳（メタデータ） (2024-09-17T15:29:34Z)
Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering [2.98667511228225]
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。 ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
論文参考訳（メタデータ） (2024-08-30T04:39:43Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-Feedback [19.28222902440827]
大規模言語モデル(LLM)は多くのタスクにおいて例外的な性能を示すが、それでもパラメータに格納された知識に大きく依存している。 Retrieval-augmented Generation (RAG)メソッドは、外部知識を統合することでこの問題に対処する。本稿では、反復的にタスクを分解し、3つのサブモジュールで処理し、モデルの問題解決能力を向上するフレームワークであるRetrieval Augmented Iterative Self-Feedback (RA-ISF)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:01:05Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models [0.0]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがる印象的な機能を示している。このギャップに対処するため,Reasoning with Redundant Information Provided (RRIP) と呼ばれる新しいQAタスクが導入された。本研究は,LlaMA2-13B-chatとGPT-3.5 (generative pre-trained transformer 3.5)の2つのLLMを評価し,従来のQAタスクとRRIPタスクとの対比を行った。
論文参考訳（メタデータ） (2023-10-06T06:20:06Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文参考訳（メタデータ） (2020-05-22T21:34:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。