論文の概要: RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in
Long-Horizon Generation
- arxiv url: http://arxiv.org/abs/2403.05313v1
- Date: Fri, 8 Mar 2024 13:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:40:20.023649
- Title: RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in
Long-Horizon Generation
- Title(参考訳): RAT:ロング・ホライゾン・ジェネレーションにおける文脈認識推論の難易度向上
- Authors: Zihao Wang and Anji Liu and Haowei Lin and Jiaqi Li and Xiaojian Ma
and Yitao Liang
- Abstract要約: 思考の連鎖を反復的に修正することで、大きな言語モデルの推論と生成能力が大幅に向上する。
特に,提案手法では,タスククエリに関連する情報を検索して,各思考ステップを一つずつ修正する。
RATをGPT-3.5、GPT-4、CodeLLaMA-7bに適用すると、様々な長距離生成タスクのパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 28.08775951425144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore how iterative revising a chain of thoughts with the help of
information retrieval significantly improves large language models' reasoning
and generation ability in long-horizon generation tasks, while hugely
mitigating hallucination. In particular, the proposed method --
*retrieval-augmented thoughts* (RAT) -- revises each thought step one by one
with retrieved information relevant to the task query, the current and the past
thought steps, after the initial zero-shot CoT is generated. Applying RAT to
GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on
various long-horizon generation tasks; on average of relatively increasing
rating scores by 13.63% on code generation, 16.96% on mathematical reasoning,
19.2% on creative writing, and 42.78% on embodied task planning. The demo page
can be found at https://craftjarvis.github.io/RAT
- Abstract(参考訳): 本研究では,情報検索の助けを借りて思考の連鎖を反復的に修正することで,長期化タスクにおける大規模言語モデルの推論と生成能力を大幅に向上すると同時に,幻覚を緩和する。
特に、提案手法である*retrieval-augmented thoughts* (rat)は、タスククエリ、現在のおよび過去の思考ステップに関連する検索情報を含む各思考ステップを、最初のゼロショットcot生成後に1つずつ修正する。
RATをGPT-3.5、GPT-4、CodeLLaMA-7bに適用すると、様々な長軸生成タスクにおけるパフォーマンスが大幅に向上し、コード生成では13.63%、数学的推論では16.96%、創造的記述では19.2%、具体的タスクプランニングでは42.78%向上した。
デモページはhttps://craftjarvis.github.io/RATで見ることができる。
関連論文リスト
- Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。
ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。
7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文 参考訳(メタデータ) (2024-06-17T17:59:35Z) - The Chronicles of RAG: The Retriever, the Chunk and the Generator [0.0]
本稿では,ブラジルポルトガル語のRAGの実装,最適化,評価を行うための優れたプラクティスを提案する。
我々は最初のハリー・ポッターの本についての質問に答えるための様々な方法を探究する。
論文 参考訳(メタデータ) (2024-01-15T18:25:18Z) - Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。
ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文 参考訳(メタデータ) (2023-10-13T06:11:47Z) - Exploring the Potential of ChatGPT in Automated Code Refinement: An
Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。
コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。
その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文 参考訳(メタデータ) (2023-09-15T07:41:33Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。