論文の概要: FineVision: Open Data Is All You Need
- arxiv url: http://arxiv.org/abs/2510.17269v1
- Date: Mon, 20 Oct 2025 07:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.360125
- Title: FineVision: Open Data Is All You Need
- Title(参考訳): FineVision: オープンデータに必要なもの
- Authors: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti,
- Abstract要約: FineVisionは、ビジョン言語モデルのための、その種の最大のオープンリソースである。
200以上のソースを185のサブセットに,半自動化された,ループ内人間パイプラインを通じて統合しています。
FineVisionでトレーニングされたモデルは、既存のオープンミックスでトレーニングされたモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 36.67304219700209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of vision-language models (VLMs) is hampered by a fragmented landscape of inconsistent and contaminated public datasets. We introduce FineVision, a meticulously collected, curated, and unified corpus of 24 million samples - the largest open resource of its kind. We unify more than 200 sources into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation performs bulk ingestion and schema mapping, while reviewers audit mappings and spot-check outputs to verify faithful consumption of annotations, appropriate formatting and diversity, and safety; issues trigger targeted fixes and re-runs. The workflow further applies rigorous de-duplication within and across sources and decontamination against 66 public benchmarks. FineVision also encompasses agentic/GUI tasks with a unified action space; reviewers validate schemas and inspect a sample of trajectories to confirm executable fidelity. Models trained on FineVision consistently outperform those trained on existing open mixtures across a broad evaluation suite, underscoring the benefits of scale, data hygiene, and balanced automation with human oversight. We release the corpus and curation tools to accelerate data-centric VLM research.
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩は、一貫性のない、汚染された公開データセットの断片化された景観によって妨げられている。
FineVisionは、その種類の最大のオープンリソースである、2400万のサンプルの細心の注意を払って収集、キュレーション、統一されたコーパスです。
自動化はバルクの取り込みとスキーママッピングを実行し、レビュアーはアノテーションの忠実な消費、適切なフォーマットと多様性、安全性を検証するためにマッピングとスポットチェックのアウトプットを監査します。
ワークフローはさらに、ソース内およびソース間の厳密な重複と66の公開ベンチマークに対する非汚染を適用している。
FineVisionには、アクション空間を統一したエージェント/GUIタスクも含まれており、レビュアーはスキーマを検証し、軌道のサンプルを検査して実行可能な忠実さを確認する。
FineVisionでトレーニングされたモデルは、幅広い評価スイートを通じて既存のオープンミックスでトレーニングされたモデルよりも一貫して優れています。
データ中心のVLM研究を加速するコーパスとキュレーションツールをリリースする。
関連論文リスト
- Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models [1.3413568970600038]
本稿では,視覚データセット内の誤アノテーションを自動的に識別するAutoVDC(Automated Vision Data Cleaning)フレームワークを紹介する。
我々は、自律運転のためのオブジェクト検出ベンチマークを含むKITTIとnuImagesデータセットを用いて、我々のアプローチを検証する。
その結果, 誤差検出およびデータクリーニング実験において, 提案手法の高性能性を実証した。
論文 参考訳(メタデータ) (2025-07-16T17:04:49Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset [14.246172794156987]
$textitCableInspect-AD$は、カナダの公共ユーティリティであるHydro-Qu'ebecのドメインエキスパートによって作成、注釈付けされた高品質なデータセットである。
このデータセットには、現実世界の異常に挑戦する高解像度の画像が含まれており、さまざまな重度レベルの欠陥をカバーしている。
モデルの性能を評価するために,クロスバリデーションに基づく包括的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-09-30T14:50:13Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Visual Auditor: Interactive Visualization for Detection and
Summarization of Model Biases [18.434430375939755]
機械学習(ML)システムがますます普及するにつれて、これらのシステムをデプロイ前にバイアスとして監査する必要がある。
近年の研究では、データのサブセット(またはスライス)を解釈可能で過小評価する形で、交差点バイアスを効果的に識別するアルゴリズムが開発されている。
モデルバイアスを監査・要約するための対話型可視化ツールであるVisual Auditorを提案する。
論文 参考訳(メタデータ) (2022-06-25T02:48:27Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。