論文の概要: DenseAnnotate: Enabling Scalable Dense Caption Collection for Images and 3D Scenes via Spoken Descriptions
- arxiv url: http://arxiv.org/abs/2511.12452v1
- Date: Sun, 16 Nov 2025 04:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.58589
- Title: DenseAnnotate: Enabling Scalable Dense Caption Collection for Images and 3D Scenes via Spoken Descriptions
- Title(参考訳): DenseAnnotate: 画像と3DシーンのためのスケーラブルなDense Caption CollectionをSpken Descriptions経由で実現
- Authors: Xiaoyu Lin, Aniket Ghorpade, Hansheng Zhu, Justin Qiu, Dea Rrozhani, Monica Lama, Mick Yang, Zixuan Bian, Ruohan Ren, Alan B. Hong, Jiatao Gu, Chris Callison-Burch,
- Abstract要約: オーディオ駆動型オンラインアノテーションプラットフォームであるDenseAnnotateを紹介した。
アノテーションは、音声フレーズを画像領域や3Dシーン部品に同期的にリンクしながら、聴覚観察をナレーションする。
我々は,3,531枚の画像,898枚の3Dシーン,7,460個の3Dオブジェクトからなる注釈付きマルチモーダルデータセットをキュレートした。
このデータセットでトレーニングされたモデルでは、多言語で5%、文化的アライメントで47%、空間能力で54%の改善が見られた。
- 参考スコア(独自算出の注目度): 34.236136941205416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid adoption of multimodal large language models (MLLMs) across diverse applications, there is a pressing need for task-centered, high-quality training data. A key limitation of current training datasets is their reliance on sparse annotations mined from the Internet or entered via manual typing that capture only a fraction of an image's visual content. Dense annotations are more valuable but remain scarce. Traditional text-based annotation pipelines are poorly suited for creating dense annotations: typing limits expressiveness, slows annotation speed, and underrepresents nuanced visual features, especially in specialized areas such as multicultural imagery and 3D asset annotation. In this paper, we present DenseAnnotate, an audio-driven online annotation platform that enables efficient creation of dense, fine-grained annotations for images and 3D assets. Annotators narrate observations aloud while synchronously linking spoken phrases to image regions or 3D scene parts. Our platform incorporates speech-to-text transcription and region-of-attention marking. To demonstrate the effectiveness of DenseAnnotate, we conducted case studies involving over 1,000 annotators across two domains: culturally diverse images and 3D scenes. We curate a human-annotated multi-modal dataset of 3,531 images, 898 3D scenes, and 7,460 3D objects, with audio-aligned dense annotations in 20 languages, including 8,746 image captions, 2,000 scene captions, and 19,000 object captions. Models trained on this dataset exhibit improvements of 5% in multilingual, 47% in cultural alignment, and 54% in 3D spatial capabilities. Our results show that our platform offers a feasible approach for future vision-language research and can be applied to various tasks and diverse types of data.
- Abstract(参考訳): 多様なアプリケーションにまたがるマルチモーダルな大規模言語モデル(MLLM)の急速な採用により、タスク中心の高品質なトレーニングデータの必要性が高まっている。
現在のトレーニングデータセットの鍵となる制限は、インターネットから採掘された、または画像の視覚的内容のごく一部をキャプチャする手動タイピングによって入力されたスパースアノテーションに依存していることである。
複雑なアノテーションはより価値がありますが、不足しています。
従来のテキストベースのアノテーションパイプラインは、表現力の制限、アノテーションの速度の低下、微妙な視覚的特徴の不足、特に多文化的な画像や3Dアセットアノテーションのような特殊な領域において、密接なアノテーションを作成するのに適していない。
本稿では,DenseAnnotateについて述べる。DenseAnnotateは画像や3Dアセットに対して,高密度できめ細かなアノテーションを効率的に作成できるオンラインアノテーションプラットフォームである。
アノテーションは、音声フレーズを画像領域や3Dシーン部品に同期的にリンクしながら、観察を声高に発音する。
我々のプラットフォームは、音声からテキストへの書き起こしとアテンションの領域マーキングが組み込まれている。
DenseAnnotateの有効性を示すために,文化的な多彩なイメージと3Dシーンという2つの領域にわたる1,000以上のアノテータを用いたケーススタディを行った。
我々は,8,746のイメージキャプション,2,000のシーンキャプション,19,000のオブジェクトキャプションを含む20言語で,3,531のイメージ,898の3Dシーン,7,460の3Dオブジェクトからなる,人間の注釈付きマルチモーダルデータセットをキュレートした。
このデータセットでトレーニングされたモデルでは、多言語で5%、文化的アライメントで47%、空間能力で54%の改善が見られた。
我々のプラットフォームは、将来の視覚言語研究に実現可能なアプローチを提供し、様々なタスクや多様な種類のデータに適用できることを示す。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Evaluating Pragmatic Abilities of Image Captioners on A3DS [3.42658286826597]
我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。
マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。
モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
論文 参考訳(メタデータ) (2023-05-22T07:15:33Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。