論文の概要: Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions
- arxiv url: http://arxiv.org/abs/2505.22627v2
- Date: Sun, 01 Jun 2025 02:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.036913
- Title: Chain-of-Talkers (CoTalk): Fast Human Annotation of Dense Image Captions
- Title(参考訳): Chain-of-Talkers (CoTalk):Dense Image Captionsの高速な人間アノテーション
- Authors: Yijun Shen, Delong Chen, Fan Liu, Xingyu Wang, Chuanyi Zhang, Liang Yao, Yuhui Zheng,
- Abstract要約: Chain-of-Talkers (CoTalk)は、アノテートされたサンプルの数を最大化するように設計されたAI-in-the-loop方法論である。
パラレル法よりアノテーション速度 (0.42 vs. 0.30 Unit/sec) と検索性能 (41.13% vs. 40.52%) が向上したことを示す。
- 参考スコア(独自算出の注目度): 24.574890248182317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While densely annotated image captions significantly facilitate the learning of robust vision-language alignment, methodologies for systematically optimizing human annotation efforts remain underexplored. We introduce Chain-of-Talkers (CoTalk), an AI-in-the-loop methodology designed to maximize the number of annotated samples and improve their comprehensiveness under fixed budget constraints (e.g., total human annotation time). The framework is built upon two key insights. First, sequential annotation reduces redundant workload compared to conventional parallel annotation, as subsequent annotators only need to annotate the ``residual'' -- the missing visual information that previous annotations have not covered. Second, humans process textual input faster by reading while outputting annotations with much higher throughput via talking; thus a multimodal interface enables optimized efficiency. We evaluate our framework from two aspects: intrinsic evaluations that assess the comprehensiveness of semantic units, obtained by parsing detailed captions into object-attribute trees and analyzing their effective connections; extrinsic evaluation measures the practical usage of the annotated captions in facilitating vision-language alignment. Experiments with eight participants show our Chain-of-Talkers (CoTalk) improves annotation speed (0.42 vs. 0.30 units/sec) and retrieval performance (41.13% vs. 40.52%) over the parallel method.
- Abstract(参考訳): 濃密な注釈付き画像キャプションは、堅牢な視覚言語アライメントの学習を著しく促進するが、体系的にヒトのアノテーションを最適化する手法はいまだ検討されていない。
提案するChain-of-Talkers (CoTalk) は,アノテートされたサンプルの数を最大化し,固定された予算制約下での包括性を向上するAI-in-the-loop 手法である。
このフレームワークは2つの重要な洞察に基づいて構築されている。
まず、シーケンシャルアノテーションは従来の並列アノテーションと比較して冗長なワークロードを減らす。
第二に、人間がテキスト入力を高速に処理し、対話によってはるかに高いスループットでアノテーションを出力することで、マルチモーダルインタフェースは最適化された効率を実現する。
本研究の枠組みは2つの側面から評価される: 意味単位の包括性を評価する本質的な評価; 詳細なキャプションをオブジェクト属性木に解析し、それらの有効接続を解析すること; 視覚言語アライメントを容易にするための注釈付きキャプションの実用的利用を評価する。
8人の参加者による実験では、並列手法によるアノテーション速度(0.42対0.30単位/秒)と検索性能(41.13%対40.52%)を改善した。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - What Is a Good Caption? A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset [1.825224193230824]
本稿では,アノテーションのための新規かつ協調的かつ反復的なアノテーション手法について述べる。
以上の結果から,アノテータとの連携によりアノテーションの手法が強化されることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T19:11:08Z) - Learning Tracking Representations from Single Point Annotations [49.47550029470299]
本稿では,単一点アノテーションから追跡表現を弱教師付きで学習することを提案する。
具体的には,エンド・ツー・エンド・エンド・コントラスト学習に先立って,対象対象対象性を取り入れたソフトコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:50:58Z) - Reconstruct Before Summarize: An Efficient Two-Step Framework for
Condensing and Summarizing Meeting Transcripts [32.329723001930006]
本稿では,効率的なミーティング要約のための2段階のフレームワークであるReconstruct before Summarize (RbS)を提案する。
RbSは、まず自己管理パラダイムを利用して、ミーティングの書き起こしを再構築することで、本質的な内容に注釈を付ける。
次に,相対的な位置バケット化(RPB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-13T19:54:46Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。