論文の概要: LLM-I: LLMs are Naturally Interleaved Multimodal Creators
- arxiv url: http://arxiv.org/abs/2509.13642v1
- Date: Wed, 17 Sep 2025 02:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.695238
- Title: LLM-I: LLMs are Naturally Interleaved Multimodal Creators
- Title(参考訳): LLM-I:LLMは自然にインターリーブされたマルチモーダルクリエーター
- Authors: Zirun Guo, Feng Zhang, Kai Jia, Tao Jin,
- Abstract要約: LLM-Interleaved (LLM-I) は、ツールユース問題としてインターリーブド画像テキスト生成を再設計するフレキシブルで動的フレームワークである。
我々のフレームワークは、中央のLLMエージェントやMLLMエージェントに、特殊な視覚ツールの多種多様なツールキットをインテリジェントにオーケストレーションする権限を与えます。
LLM-Iは最先端のパフォーマンスを実証し、4つのベンチマークで既存の手法をはるかに上回っている。
- 参考スコア(独自算出の注目度): 24.64752837827959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose LLM-Interleaved (LLM-I), a flexible and dynamic framework that reframes interleaved image-text generation as a tool-use problem. LLM-I is designed to overcome the "one-tool" bottleneck of current unified models, which are limited to synthetic imagery and struggle with tasks requiring factual grounding or programmatic precision. Our framework empowers a central LLM or MLLM agent to intelligently orchestrate a diverse toolkit of specialized visual tools, including online image search, diffusion-based generation, code execution, and image editing. The agent is trained to select and apply these tools proficiently via a Reinforcement Learning (RL) framework that features a hybrid reward system combining rule-based logic with judgments from LLM and MLLM evaluators. Trained on a diverse new dataset using four different model backbones, LLM-I demonstrates state-of-the-art performance, outperforming existing methods by a large margin across four benchmarks. We also introduce a novel test-time scaling strategy that provides further performance gains. Project Page: https://github.com/ByteDance-BandAI/LLM-I.
- Abstract(参考訳): LLM-Interleaved (LLM-I) は,画像テキスト生成をツールユース問題として再設計する,柔軟な動的フレームワークである。
LLM-Iは、合成画像に限られる現在の統一モデルの「ワンツール」ボトルネックを克服し、現実的な接地やプログラム的精度を必要とするタスクに対処するように設計されている。
我々のフレームワークは,オンライン画像検索,拡散ベース生成,コード実行,画像編集など,視覚ツールの多種多様なツールキットを,中央のLLMエージェントやMLLMエージェントによってインテリジェントにオーケストレーションすることを可能にする。
エージェントは、ルールベースのロジックとLLMおよびMLLM評価器の判断を組み合わせたハイブリッド報酬システムを備えた強化学習(RL)フレームワークを介して、これらのツールを熟練的に選択し、適用するように訓練されている。
4つの異なるモデルバックボーンを使用して、さまざまな新しいデータセットに基づいてトレーニングされたLLM-Iは、最先端のパフォーマンスを示し、既存のメソッドを4つのベンチマークで大きなマージンで上回る。
また、さらなるパフォーマンス向上を提供する新しいテストタイムスケーリング戦略も導入します。
Project Page: https://github.com/ByteDance-BandAI/LLM-I.com
関連論文リスト
- AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。
多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。