Fugu-MT 論文翻訳(概要): Online Joint Fine-tuning of Multi-Agent Flows

論文の概要: Online Joint Fine-tuning of Multi-Agent Flows

arxiv url: http://arxiv.org/abs/2406.04516v3
Date: Tue, 16 Jul 2024 13:46:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 20:39:37.060999
Title: Online Joint Fine-tuning of Multi-Agent Flows
Title（参考訳）: マルチエージェント流れのオンライン・ジョイント微調整
Authors: Paul Mineiro,
Abstract要約: 本稿では,ラーニング・トゥ・サーチフレームワークに触発された全フローのオンライン共同微調整手順について述べる。このアプローチはシミュレータアクセスを活用して、エピソード全体の好みを減らし、個々のノード出力よりも好みを減らします。私は、最先端の結果を達成するためのマルチホップQAデータセットMuseicに適用します。
参考スコア（独自算出の注目度）: 12.851745991007169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A Flow is a collection of component models ("Agents") which constructs the solution to a complex problem via iterative communication. Flows have emerged as state of the art architectures for code generation, and are the raison d'etre for frameworks like Autogen. However, flows are currently constructed via a combination of manual prompt engineering and stagewise supervised learning techniques; the latter is limited to acyclic flows with granular node supervision. In this writeup I describe a procedure for online joint fine-tuning of an entire flow inspired by the Learning to Search framework. The approach leverages simulator access to reduce preferences over entire episodes to preferences over individual node outputs; when the components are language models the latter is a well-studied problem. The approach is applicable to reward-free settings (e.g., text feedback) if an episode evaluator model is available. I apply to the multi-hop QA dataset Musique achieving a state-of-the-art result.
Abstract（参考訳）: フローはコンポーネントモデルの集合("Agents")であり、反復的なコミュニケーションを通じて複雑な問題の解を構築する。フローはコード生成のための最先端アーキテクチャとして登場し、Autogenのようなフレームワークのラジソンだ。しかし、現在、フローは手動のプロンプト工学と段階的に制御された学習技術の組み合わせで構築されている。本稿では,ラーニング・トゥ・サーチ(Learning to Search,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ(Learning to Search,ラーニング・トゥ・サーチ,ラーニング・トゥ・サーチ)フレームワークに触発されたフロー全体をオンライン共同調整する手順について述べる。このアプローチはシミュレータアクセスを利用してエピソード全体の好みを減らし、個々のノード出力よりも好みを減らし、コンポーネントが言語モデルである場合、後者はよく研究される問題である。このアプローチは、エピソード評価モデルが利用可能であれば、報酬のない設定(例えば、テキストフィードバック)に適用できる。私は、最先端の結果を達成するためのマルチホップQAデータセットMuseicに適用します。

関連論文リスト

Eliminating Agentic Workflow for Introduction Generation with Parametric Stage Tokens [3.6588919376939733]
我々は外部エージェントを排除して研究紹介を書くことを提案する。代わりに、我々はそれらの論理構造を大きな言語モデルにパラメータ化します。これにより、単一の推論で完全な導入が生成される。
論文参考訳（メタデータ） (2025-12-28T12:51:36Z)
DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文参考訳（メタデータ） (2025-09-30T10:36:23Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文参考訳（メタデータ） (2024-10-02T16:43:24Z)
Let-It-Flow: Simultaneous Optimization of 3D Flow and Object Clustering [2.763111962660262]
実大規模原点雲列からの自己監督型3次元シーンフロー推定の問題点について検討する。重なり合うソフトクラスタと非重なり合う固いクラスタを組み合わせられる新しいクラスタリング手法を提案する。本手法は,複数の独立移動物体が互いに近接する複雑な動的シーンにおける流れの解消に優れる。
論文参考訳（メタデータ） (2024-04-12T10:04:03Z)
Alto: Orchestrating Distributed Compound AI Systems with Nested Ancestry [18.671852079446605]
複合AIアプリケーションは、生成言語モデル、ドキュメントレトリバー、埋め込みモデルなどのサブコンポーネントをチェーンする。複合AIシステムにおける並列性やパイプライン化といった従来のシステム最適化の適用は、各コンポーネントに異なる制約があるため、難しい。本稿では,ストリーミングと並列処理による複合AIクエリの自動実行を最適化するフレームワークAltoを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:30:26Z)
D-Flow: Differentiating through Flows for Controlled Generation [37.80603174399585]
フローを微分することで生成プロセスを制御するフレームワークであるD-Flowを紹介する。我々は、ガウス確率パスで訓練された拡散/FMモデルに対して、生成過程を微分することで、データ多様体の勾配を予測できるというキーとなる観察によって、この枠組みを動機付けている。我々は,画像と音声の逆問題や条件分子生成など,線形および非線形に制御された生成問題に対する枠組みを検証する。
論文参考訳（メタデータ） (2024-02-21T18:56:03Z)
Multi-Scene Generalized Trajectory Global Graph Solver with Composite Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文参考訳（メタデータ） (2023-12-14T14:00:30Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
Flows: Building Blocks of Reasoning and Collaborating AI [24.57836563784203]
フローは、独立した状態を持つ、自己完結型の計算ブロックである。 GPT-4でさえも困難な課題である、競争力のあるコーディングにおけるFlowsの可能性を示す。本稿では,高速かつ厳密な研究を支援するために,フローを具現化したaiFlowsライブラリを紹介する。
論文参考訳（メタデータ） (2023-08-02T17:14:22Z)
DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。 4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文参考訳（メタデータ） (2022-10-28T11:18:10Z)
Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-28T02:12:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。