論文の概要: Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
- arxiv url: http://arxiv.org/abs/2511.14210v2
- Date: Wed, 19 Nov 2025 20:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 15:01:03.130685
- Title: Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
- Title(参考訳): Orion: マルチモーダル認識,高度なビジュアル推論,実行のための統一ビジュアルエージェント
- Authors: N Dinesh Reddy, Dylan Snyder, Lona Kiragu, Mirajul Mohin, Shahrear Bin Amin, Sudeep Pillai,
- Abstract要約: 視覚に基づく推論とツール拡張実行を統合した視覚エージェントOrionを紹介する。
Orionは、オブジェクト検出、キーポイントのローカライゼーション、パノプティックセグメンテーション、OCR、幾何学解析など、特殊なコンピュータビジョンツール群を編成する。
本システムはMMMU,MMBench,DocVQA,MMLongBench間での競合性能を実現する。
- 参考スコア(独自算出の注目度): 3.946882387964678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Orion, a visual agent that integrates vision-based reasoning with tool-augmented execution to achieve powerful, precise, multi-step visual intelligence across images, video, and documents. Unlike traditional vision-language models that generate descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition (OCR), and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance across MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic VLM capabilities to production-grade visual intelligence. Through its agentic, tool-augmented approach, Orion enables autonomous visual reasoning that bridges neural perception with symbolic execution, marking the transition from passive visual understanding to active, tool-driven visual intelligence. Try Orion for free at: https://chat.vlm.run Learn more at: https://www.vlm.run/orion
- Abstract(参考訳): 視覚ベースの推論とツール拡張実行を統合した視覚エージェントOrionを導入し、画像、ビデオ、文書間で強力で正確で多段階の視覚知性を実現する。
記述的な出力を生成する従来の視覚言語モデルとは異なり、Orionは、オブジェクト検出、キーポイントのローカライゼーション、汎視的セグメンテーション、光学的文字認識(OCR)、幾何学的解析など、複雑な多段階視覚ワークフローを実行するための特殊なコンピュータビジョンツール群を編成している。
このシステムは、MMMU、MMBench、DocVQA、MMLongBenchと競合し、モノリシックなVLM能力をプロダクショングレードのビジュアルインテリジェンスに拡張する。
Orionは、エージェント的でツール強化されたアプローチを通じて、視覚的知覚を象徴的な実行でブリッジする自律的な視覚的推論を可能にし、受動的視覚的理解からアクティブでツール駆動の視覚的知性への移行をマークする。
try Orion for free at: https://chat.vlm.run より詳しくは https://www.vlm.run/orion を参照してください。
関連論文リスト
- DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making [19.09644604789813]
我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
論文 参考訳(メタデータ) (2023-12-07T18:13:42Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。