Fugu-MT 論文翻訳(概要): Improving Retrieval Augmented Language Model with Self-Reasoning

論文の概要: Improving Retrieval Augmented Language Model with Self-Reasoning

arxiv url: http://arxiv.org/abs/2407.19813v1
Date: Mon, 29 Jul 2024 09:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 14:25:55.220678
Title: Improving Retrieval Augmented Language Model with Self-Reasoning
Title（参考訳）: 自己推論による検索言語モデルの改善
Authors: Yuan Xia, Jingbo Zhou, Zhenhui Shi, Jun Chen, Haifeng Huang,
Abstract要約: 本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
参考スコア（独自算出の注目度）: 20.715106330314605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Retrieval-Augmented Language Model (RALM) has shown remarkable performance on knowledge-intensive tasks by incorporating external knowledge during inference, which mitigates the factual hallucinations inherited in large language models (LLMs). Despite these advancements, challenges persist in the implementation of RALMs, particularly concerning their reliability and traceability. To be specific, the irrelevant document retrieval may result in unhelpful response generation or even deteriorate the performance of LLMs, while the lack of proper citations in generated outputs complicates efforts to verify the trustworthiness of the models. To this end, we propose a novel self-reasoning framework aimed at improving the reliability and traceability of RALMs, whose core idea is to leverage reasoning trajectories generated by the LLM itself. The framework involves constructing self-reason trajectories with three processes: a relevance-aware process, an evidence-aware selective process, and a trajectory analysis process. We have evaluated our framework across four public datasets (two short-form QA datasets, one long-form QA dataset, and one fact verification dataset) to demonstrate the superiority of our method, which can outperform existing state-of-art models and can achieve comparable performance with GPT-4, while only using 2,000 training samples.
Abstract（参考訳）: Retrieval-Augmented Language Model (RALM) は、大規模言語モデル(LLM)で継承された事実幻覚を緩和する推論中に外部知識を取り入れることで、知識集約的なタスクにおいて顕著なパフォーマンスを示した。これらの進歩にもかかわらず、ALMの実装には特に信頼性とトレーサビリティに関する課題が続いている。具体的には、無関係な文書検索は、LLMの性能を損なう、あるいは悪化させる可能性があるが、生成した出力における適切な引用の欠如は、モデルの信頼性を検証する努力を複雑にする。そこで本研究では,ALMの信頼性とトレーサビリティ向上を目的とした自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。我々は4つの公開データセット(ショートフォームQAデータセット2つ、ロングフォームQAデータセット1つ、ファクト検証データセット1つ)にまたがってフレームワークを評価し、既存の最先端モデルより優れ、GPT-4と同等のパフォーマンスを達成でき、2000のトレーニングサンプルのみを使用しながら、我々の手法の優位性を実証した。

関連論文リスト

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文参考訳（メタデータ） (2026-03-05T18:42:51Z)
Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文参考訳（メタデータ） (2026-01-09T08:19:11Z)
Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文参考訳（メタデータ） (2025-10-20T07:53:51Z)
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。精度は4.0%から44.3%に向上した。
論文参考訳（メタデータ） (2025-04-18T07:55:09Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
LLM(Large Language Models)は、コード生成によるデータサイエンスタスクの可能性を示している。 LLM生成データサイエンスを自動評価・実施する新しいアナリスト・インスペクタフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T01:15:50Z)
Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization [35.269343563526675]
我々は,大規模言語モデルに忠実な世代と不誠実な世代を明確に区別するためのフレームワークであるRHIOを提案する。 RHIOは、検索ヘッドを選択的にマスキングすることで、現実的なモデル固有のエラーをシミュレートする不誠実なサンプルを最初に強化する。これらのサンプルは共同トレーニングに組み込まれ、制御トークンに条件付けられた忠実なものから不誠実な出力を区別することができる。
論文参考訳（メタデータ） (2025-01-23T11:23:25Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。 FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文参考訳（メタデータ） (2024-09-30T06:27:53Z)
Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models [4.4849006637642805]
抽出された情報におけるノイズや誤差の存在は、LLMの堅牢性に課題をもたらす。ノイズの多い外部情報によるモデル精度低下の問題に対処するため,データ拡張に基づく微調整手法を提案する。我々は既存のLCMと我々のアプローチの両方で実験を行い、その結果をGPT-4で評価した。
論文参考訳（メタデータ） (2024-09-09T07:32:30Z)
Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要であるプレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文参考訳（メタデータ） (2024-06-20T21:27:57Z)
Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文参考訳（メタデータ） (2024-06-04T12:43:23Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。