論文の概要: Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration
- arxiv url: http://arxiv.org/abs/2602.11241v1
- Date: Wed, 11 Feb 2026 17:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.479761
- Title: Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration
- Title(参考訳): アクティブゼロ:アクティブ環境探査による自己進化型ビジョンランゲージモデル
- Authors: Jinghan He, Junfeng Fang, Feng Xiong, Zijun Yao, Fei Shen, Haiyun Guo, Jinqiao Wang, Tat-Seng Chua,
- Abstract要約: 受動的相互作用から視覚環境の能動的探索に移行する枠組みを提案する。
Active-Zeroでは,3つの共進化エージェントが採用されている。 モデルの機能フロンティアに基づいて,オープンワールドリポジトリからイメージを取得する検索だ。
12ベンチマークにわたるQwen2.5-VL-7B-インストラクションについて : Active-Zero 53.97 における推論タスクの平均精度(5.7%の改善)と一般理解における 59.77 について(3.9%の改善)
- 参考スコア(独自算出の注目度): 72.84714132070404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-play has enabled large language models to autonomously improve through self-generated challenges. However, existing self-play methods for vision-language models rely on passive interaction with static image collections, resulting in strong dependence on initial datasets and inefficient learning. Without the ability to actively seek visual data tailored to their evolving capabilities, agents waste computational effort on samples that are either trivial or beyond their current skill level. To address these limitations, we propose Active-Zero, a framework that shifts from passive interaction to active exploration of visual environments. Active-Zero employs three co-evolving agents: a Searcher that retrieves images from open-world repositories based on the model's capability frontier, a Questioner that synthesizes calibrated reasoning tasks, and a Solver refined through accuracy rewards. This closed loop enables self-scaffolding auto-curricula where the model autonomously constructs its learning trajectory. On Qwen2.5-VL-7B-Instruct across 12 benchmarks, Active-Zero achieves 53.97 average accuracy on reasoning tasks (5.7% improvement) and 59.77 on general understanding (3.9% improvement), consistently outperforming existing self-play baselines. These results highlight active exploration as a key ingredient for scalable and adaptive self-evolving vision-language systems.
- Abstract(参考訳): セルフプレイは、大規模な言語モデルが自己生成的課題を通じて自律的に改善することを可能にする。
しかし、視覚言語モデルのための既存のセルフプレイ手法は静的画像収集との受動的相互作用に依存しており、初期データセットへの強い依存と非効率な学習をもたらす。
進化する能力に合わせて視覚データを積極的に探す能力がなければ、エージェントは、自明な、あるいは現在のスキルレベルを超えているサンプルに計算作業を無駄にする。
これらの制約に対処するために,受動的インタラクションから視覚環境の能動的探索に移行するフレームワークであるActive-Zeroを提案する。
Active-Zeroは、モデルの機能フロンティアに基づいてオープンワールドリポジトリからイメージを検索する検索エージェント、キャリブレーションされた推論タスクを合成する質問エージェント、精度の高い報酬によって洗練されるソルバーの3つの共進化エージェントを採用している。
この閉ループは、モデルが学習軌道を自律的に構築する自己スケーリングオートクラキュラを可能にする。
12ベンチマークにわたるQwen2.5-VL-7B-インストラクトでは、Active-Zeroは推論タスクの平均精度53.97(5.7%の改善)と一般理解59.77(3.9%の改善)を達成し、既存のセルフプレイベースラインを一貫して上回っている。
これらの結果は、スケーラブルで適応的な自己進化型視覚言語システムにとって重要な要素として、活発な探索を強調している。
関連論文リスト
- Enhancing Spatio-Temporal Zero-shot Action Recognition with Language-driven Description Attributes [54.50887214639301]
提案手法は,大規模言語モデルを用いて関連キーワードを抽出し,Webcrawled 記述を活用する革新的な手法である。
この方法は、人間のアノテーションの必要性を減らし、属性データ作成の面倒な手作業を取り除く。
ゼロショット実験では,UCF-101,HMDB-51,Kineetics-600で81.0%,53.1%,68.9%の精度を達成した。
論文 参考訳(メタデータ) (2025-10-31T07:45:44Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。