論文の概要: DataEvolver: Let Your Data Build and Improve Itself via Goal-Driven Loop Agents
- arxiv url: http://arxiv.org/abs/2605.01789v1
- Date: Sun, 03 May 2026 09:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.939981
- Title: DataEvolver: Let Your Data Build and Improve Itself via Goal-Driven Loop Agents
- Title(参考訳): DataEvolver: 目標駆動のループエージェントによるデータ構築と自己改善
- Authors: Qisong Zhang, Wenzhuo Wu, Zhuangzhuang Jia, Yunhao Yang, Huayu Zhang, Xianghao Zang, Zhixiang He, Zhongjiang He, Kongming Liang, Zhanyu Ma,
- Abstract要約: DataEvolverはクローズドループのビジュアルデータエンジンで、明示的な目標、永続的なアーティファクト、境界付き修正アクション、受け入れ決定を中心にこのプロセスを整理します。
DataEvolverは、RGBイメージ、マスク、深さマップ、通常のマップ、メッシュ、ポーズ、トラジェクトリ、レビュートレースなど、複数のアーティファクトタイプをサポートする。
私たちの主な貢献は、明確な目標追跡、レビュー、修正、受け入れループを通じて、ビジュアルデータセットを構築するための再利用可能なフレームワークです。
- 参考スコア(独自算出の注目度): 36.25737838669307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing controllable visual data is a major bottleneck for image editing and multimodal understanding. Useful supervision is rarely produced by a single rendering pass; instead it emerges through iterative generation, inspection, correction, filtering, and export. We present DataEvolver, a closed-loop visual data engine that organizes this process around explicit goals, persistent artifacts, bounded corrective actions, and acceptance decisions. DataEvolver supports multiple artifact types, including RGB images, masks, depth maps, normal maps, meshes, poses, trajectories, and review traces. In the current release, the system operates through two coupled loops: generation-time self-correction within each sample and validation-time self-expansion across dataset rounds. We validate the framework on an image-level object-rotation setting. With a fixed Qwen-Edit LoRA probe, our final Ours+DualGate model outperforms both the unadapted base model and a public multi-angle LoRA on SpatialEdit and a held-out evaluation set. Ablations show a consistent improvement path from scene-aware generation to feedback-driven correction and dual-gated validation. Beyond the released rotation data, our main contribution is a reusable framework for building visual datasets through explicit goal tracking, review, correction, and acceptance loops.
- Abstract(参考訳): 可制御性のある視覚データの構築は、画像編集とマルチモーダル理解において大きなボトルネックとなる。
有効な監視は単一のレンダリングパスによって生成されることはめったにない。代わりに、反復生成、検査、修正、フィルタリング、エクスポートを通じて現れる。
DataEvolverはクローズドループのビジュアルデータエンジンで、明示的な目標、永続的なアーティファクト、境界付き修正アクション、受け入れ決定を中心にこのプロセスを整理します。
DataEvolverは、RGBイメージ、マスク、深さマップ、通常のマップ、メッシュ、ポーズ、トラジェクトリ、レビュートレースなど、複数のアーティファクトタイプをサポートする。
現在のリリースでは、各サンプル内の生成時自己補正と、データセットラウンド間の検証時自己拡張という、2つの結合ループを運用している。
我々は,このフレームワークを画像レベルのオブジェクト回転設定で検証する。
固定されたQwen-Edit LoRAプローブを用いて、最終的なOurs+DualGateモデルは、SpatialEdit上の未適応ベースモデルと公開多角LoRAの両方に優れ、ホールドアウト評価セットが優れている。
アブレーションは、シーン認識生成からフィードバック駆動補正、二重ゲート検証まで、一貫した改善経路を示す。
リリースされたローテーションデータ以外にも、当社の主なコントリビューションは、明確な目標追跡、レビュー、修正、受け入れループを通じて、ビジュアルデータセットを構築するための再利用可能なフレームワークです。
関連論文リスト
- CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution [23.66187133157774]
CharTideは、チャート・ツー・コード生成のための新しいデータ中心のフレームワークである。
トレーニングを視覚的知覚、純粋テキストのコードロジック、モダリティの融合ストリームに明確に分離する。
ChartMimic、Plot2Code、ChartXの実験によると、ChartTide-7B/8Bはオープンソースベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-24T03:39:51Z) - SurFITR: A Dataset for Surveillance Image Forgery Detection and Localisation [39.55678505740112]
我々はSurFITR(Surveillance Forgery Image Test Range)を紹介する。
SurFITRは、監視スタイルの画像偽造検出とローカライゼーションのためのデータセットである。
137k以上の改ざんされた画像が含まれており、解像度や編集の種類も様々である。
論文 参考訳(メタデータ) (2026-04-08T13:55:02Z) - SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing [85.49998134609665]
画像空間編集は幾何学的な変換を行い、オブジェクトのレイアウトやカメラの視点を正確に制御できる。
現在のモデルはきめ細かい空間操作には不十分であり、専用のアセスメントスイートを動機付けている。
本研究では,空間編集を評価する完全ベンチマークであるSpatialEdit-Benchを紹介する。
制御可能なブレンダーパイプラインで生成された合成データセットであるSpatialEdit-500kを構築した。
論文 参考訳(メタデータ) (2026-04-06T17:54:42Z) - 1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World [5.904589000032003]
実電子商取引を基盤としたベンチマークである1D-Benchを導入し、各インスタンスが参照レンダリングとエクスポート中間表現を提供する。
1Dは1日で短く、設計からコーディングまでのタスクを1日以内で効率的に完了する。
論文 参考訳(メタデータ) (2026-02-20T17:46:51Z) - Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning [14.005947068255546]
X2Editデータセットは、14の多様な編集タスクをカバーする包括的なデータセットである。
バランスの取れたカテゴリで370万の高品質なデータを構築します。
実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
論文 参考訳(メタデータ) (2025-08-11T04:22:49Z) - Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-07T08:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。