Fugu-MT 論文翻訳(概要): RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

論文の概要: RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

arxiv url: http://arxiv.org/abs/2403.05313v1
Date: Fri, 8 Mar 2024 13:42:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 19:40:20.023649
Title: RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation
Title（参考訳）: RAT:ロング・ホライゾン・ジェネレーションにおける文脈認識推論の難易度向上
Authors: Zihao Wang and Anji Liu and Haowei Lin and Jiaqi Li and Xiaojian Ma and Yitao Liang
Abstract要約: 思考の連鎖を反復的に修正することで、大きな言語モデルの推論と生成能力が大幅に向上する。特に,提案手法では,タスククエリに関連する情報を検索して,各思考ステップを一つずつ修正する。 RATをGPT-3.5、GPT-4、CodeLLaMA-7bに適用すると、様々な長距離生成タスクのパフォーマンスが大幅に向上する。
参考スコア（独自算出の注目度）: 28.08775951425144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- *retrieval-augmented thoughts* (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT
Abstract（参考訳）: 本研究では,情報検索の助けを借りて思考の連鎖を反復的に修正することで,長期化タスクにおける大規模言語モデルの推論と生成能力を大幅に向上すると同時に,幻覚を緩和する。特に、提案手法である*retrieval-augmented thoughts* (rat)は、タスククエリ、現在のおよび過去の思考ステップに関連する検索情報を含む各思考ステップを、最初のゼロショットcot生成後に1つずつ修正する。 RATをGPT-3.5、GPT-4、CodeLLaMA-7bに適用すると、様々な長軸生成タスクにおけるパフォーマンスが大幅に向上し、コード生成では13.63%、数学的推論では16.96%、創造的記述では19.2%、具体的タスクプランニングでは42.78%向上した。デモページはhttps://craftjarvis.github.io/RATで見ることができる。

関連論文リスト

LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文参考訳（メタデータ） (2025-03-02T06:11:29Z)
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。 RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文参考訳（メタデータ） (2025-01-03T02:55:44Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。自然言語命令は明示的なタスクプランニングを欠くことが多い。タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文参考訳（メタデータ） (2024-09-17T15:29:34Z)
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。 VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文参考訳（メタデータ） (2024-06-19T18:00:07Z)
Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。 7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文参考訳（メタデータ） (2024-06-17T17:59:35Z)
The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文参考訳（メタデータ） (2024-01-15T18:25:18Z)
Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。 Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文参考訳（メタデータ） (2023-10-17T20:40:59Z)
A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。 ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文参考訳（メタデータ） (2023-10-13T06:11:47Z)
Exploring the Potential of ChatGPT in Automated Code Refinement: An Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文参考訳（メタデータ） (2023-09-15T07:41:33Z)
Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文参考訳（メタデータ） (2023-06-27T05:48:14Z)
Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文参考訳（メタデータ） (2022-12-04T23:59:41Z)
Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文参考訳（メタデータ） (2021-06-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。