Fugu-MT 論文翻訳(概要): THREAD: Thinking Deeper with Recursive Spawning

論文の概要: THREAD: Thinking Deeper with Recursive Spawning

arxiv url: http://arxiv.org/abs/2405.17402v1
Date: Mon, 27 May 2024 17:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:04:26.444929
Title: THREAD: Thinking Deeper with Recursive Spawning
Title（参考訳）: THREAD: 再帰的なスプーンでより深く考える
Authors: Philip Schroeder, Nathaniel Morgan, Hongyin Luo, James Glass,
Abstract要約: 大規模言語モデル(LLM)のための思考再帰的・動的(ThReaD)を提案する。 ThReaDは、実行のスレッドとしてモデル生成をフレーム化し、コンテキストに基づいて、完了まで実行したり、新しいスレッドを動的に生成することができる。我々は、エージェントタスクの多様なベンチマークとデータ基底型質問応答を用いて、数ショットの学習アプローチを用いて実装されたTHREADをテストする。
参考スコア（独自算出の注目度）: 15.767945243871415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown impressive capabilities across diverse settings, but still struggle as the length and complexity of the context increases. To address this challenge, we propose Thinking Recursively and Dynamically (ThReaD). THREAD frames model generation as a thread of execution that, based on the context, can run to completion or dynamically spawn new threads. By spawning, threads can offload work (e.g., thinking, retrieving information) to child threads, which only return tokens needed for the parent thread to do its work. In effect, this enables the model to adapt, as needed, the amount of intermediate work used to produce tokens. We apply THREAD in the settings of LLM task solving and question answering, where the dynamic threading allows the model to recursively decompose the given task or question into progressively simpler sub-problems that can be solved by separate child threads. We test THREAD, implemented using a few-shot learning approach, on diverse benchmarks for agent tasks and data-grounded question answering. THREAD achieves state-of-the-art performance with GPT-4 and GPT-3.5 on these benchmarks, including ALFWorld, TextCraft, and WebShop, along with two new benchmarks, DataCommons QA and MIMIC-III ICU QA. In addition, THREAD outperforms existing frameworks by 10% to 50% absolute points with smaller models, including Llama-3-8b and CodeLlama-7b.
Abstract（参考訳）: 大規模言語モデル(LLM)は、さまざまな設定にまたがって印象的な機能を示しているが、コンテキストの長さと複雑さが増大するにつれて、いまだに苦戦している。この課題に対処するため、我々はThReaD(ThReaD)とThing Recursivelyを提案する。 THREADフレームは、実行のスレッドとしてモデルを生成するもので、コンテキストに基づいて、完了まで実行したり、新しいスレッドを動的に生成することができる。生成によって、スレッドは、子スレッドに作業(例えば、思考、情報検索)をオフロードすることができる。事実上、これはモデルが必要に応じてトークンを生成するのに使用される中間的な作業量に適応することを可能にする。 LLMタスク解決と質問応答の設定にTHREADを適用し、動的スレッディングにより、モデルが与えられたタスクや質問を再帰的に分解し、個別の子スレッドで解決できる、より単純なサブプロブレムにすることができる。我々は、エージェントタスクの多様なベンチマークとデータ基底型質問応答を用いて、数ショットの学習アプローチを用いて実装されたTHREADをテストする。 THREADは、ALFWorld、TextCraft、WebShopなどのベンチマークとDataCommons QAとMIMIC-III ICU QAという2つの新しいベンチマークで、GPT-4とGPT-3.5で最先端のパフォーマンスを実現している。加えて、THREADはLlama-3-8bやCodeLlama-7bなど、より小さなモデルで既存のフレームワークを10%から50%上回っている。

関連論文リスト

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
Question: How do Large Language Models perform on the Question Answering tasks? Answer: [0.0]
大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。スタンフォード質問回答データセット 2.0 (SQuAD2) 上で、小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従 LLM の総合的な性能比較を提案する。以上の結果から, より小型で細調整されたモデルでは, 細調整されたタスクにおいて, 現状のSOTA(State-Of-The-Art) LLMよりも優れていることがわかったが, 最新のSOTAモデルでは, このギャップを埋めることができる。
論文参考訳（メタデータ） (2024-12-17T13:19:38Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
Hierarchical Retrieval-Augmented Generation Model with Rethink for Multi-hop Question Answering [24.71247954169364]
マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複雑な質問を解決するために複数の情報を統合することで複雑な推論を必要とする。既存のQAシステムは、時代遅れの情報、コンテキストウィンドウの長さ制限、精度-量トレードオフといった課題に直面する。本稿では,Decomposer,Definer,Retriever,Filter,Summarizerの5つのキーモジュールからなる,階層型検索拡張生成モデル(HiRAG)を提案する。
論文参考訳（メタデータ） (2024-08-20T09:29:31Z)
3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文参考訳（メタデータ） (2024-07-30T08:59:05Z)
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文参考訳（メタデータ） (2024-07-04T05:46:20Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文参考訳（メタデータ） (2023-05-04T20:19:39Z)
TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文参考訳（メタデータ） (2023-01-06T18:59:52Z)
Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。 Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文参考訳（メタデータ） (2022-10-05T17:28:20Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)
Dynatask: A Framework for Creating Dynamic AI Benchmark Tasks [31.460091555017197]
Dynataskは、カスタムNLPタスクを設定するためのオープンソースのシステムである。 AIのベンチマークを再考する研究プラットフォームであるDynabenchと統合されている。
論文参考訳（メタデータ） (2022-04-05T00:32:04Z)
Answering Open-Domain Questions of Varying Reasoning Steps from Text [39.48011017748654]
我々は,テキストのオープンドメイン質問から直接回答する統一システムを開発した。我々は、必要なすべてのサブタスクを実行するために、単一のマルチタスクトランスモデルを用いる。我々のモデルは既存のベンチマークとこの新しいベンチマークの両方で競合性能を示す。
論文参考訳（メタデータ） (2020-10-23T16:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。