論文の概要: Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2511.19417v1
- Date: Mon, 24 Nov 2025 18:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.375383
- Title: Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration
- Title(参考訳): Be My Eyes: マルチエージェントコラボレーションによる大規模言語モデルから新たなモダリティへの拡張
- Authors: James Y. Huang, Sheng Zhang, Qianchu Liu, Guanghui Qin, Tinghui Zhu, Tristan Naumann, Muhao Chen, Hoifung Poon,
- Abstract要約: BeMyEyesは、LLM(Large Language Models)をマルチモーダル推論に拡張するためのモジュラーフレームワークである。
知覚と推論エージェントの相補的な強みを組み合わせることで、BeMyEyesは大規模なマルチモーダルモデルをトレーニングする必要がなくなる。
実験により,LLMのマルチモーダル推論能力の開放が確認できた。
- 参考スコア(独自算出の注目度): 35.429026246760635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in challenging, knowledge-intensive reasoning tasks. However, extending LLMs to perceive and reason over a new modality (e.g., vision), often requires costly development of large-scale vision language models (VLMs) with LLMs as backbones. Smaller VLMs are more efficient and adaptable but often lack the broad knowledge and reasoning capabilities of frontier LLMs. In this work, we propose BeMyEyes, a modular, multi-agent framework for extending LLMs to multimodal reasoning by orchestrating collaboration between efficient, adaptable VLMs as perceivers and powerful LLMs as reasoners through conversations. We then introduce a data synthesis and supervised fine-tuning pipeline to train the perceiver agent to effectively collaborate with the reasoner agent. By combining the complementary strengths of perception and reasoning agents, BeMyEyes avoids the need for training large-scale multimodal models, preserves the generalization and reasoning capabilities of LLMs, and allows flexible extension to new domains and modalities. Experiments show that our framework unlocks the multimodal reasoning capabilities for LLMs, enabling a lightweight and fully open-source solution, i.e. equipping text-only DeepSeek-R1 with Qwen2.5-VL-7B perceiver, to outperform large-scale proprietary VLMs such as GPT-4o on a wide range of knowledge-intensive multimodal tasks. These results demonstrate the effectiveness, modularity, and scalability of our multi-agent approach for building future multimodal reasoning systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、挑戦的で知識集約的な推論タスクにおいて顕著な能力を示した。
しかし、LLMを新しいモダリティ(例えば視覚)を知覚し、推論するために拡張するには、LLMをバックボーンとして大規模視覚言語モデル(VLM)の開発に費用がかかることが多い。
より小型のVLMはより効率的で適応性が高いが、フロンティアLSMの広い知識と推論能力に欠けることが多い。
本研究では,LLMをマルチモーダル推論に拡張するためのモジュール型マルチエージェントフレームワークであるBeMyEyesを提案する。
次に、データ合成と教師付き微調整パイプラインを導入し、知覚エージェントを訓練し、推論エージェントと効果的に協調する。
知覚と推論エージェントの相補的な強みを組み合わせることで、BeMyEyesは大規模マルチモーダルモデルのトレーニングの必要性を回避し、LLMの一般化と推論能力を維持し、新しいドメインやモダリティへの柔軟な拡張を可能にする。
実験の結果,本フレームワークはLLMのマルチモーダル推論機能を解放し,テキストのみのDeepSeek-R1とQwen2.5-VL-7Bの知覚器を組み込むことで,GPT-4oのような大規模プロプライエタリなVLMを広範囲の知識集約型マルチモーダルタスクで上回る,軽量で完全なオープンソースソリューションを実現する。
これらの結果は,将来のマルチモーダル推論システムを構築するためのマルチエージェントアプローチの有効性,モジュール性,拡張性を示すものである。
関連論文リスト
- Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - From Image to Video, what do we need in multimodal LLMs? [17.847011311716077]
本稿では、ロバストなビデオLLMを構築するリソース効率開発パイプラインRED-VILLMを紹介する。
我々は、時間情報を把握する能力を備えたバックボーン画像LLMを具現化して、時間適応型プラグアンドプレイ構造を考案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。