論文の概要: Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
- arxiv url: http://arxiv.org/abs/2503.09279v1
- Date: Wed, 12 Mar 2025 11:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:14.327641
- Title: Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
- Title(参考訳): Cockatiel: 詳細なビデオキャプションのための合成トレーニングと人間優先トレーニングの組み立て
- Authors: Luozheng Qin, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, Hao Li,
- Abstract要約: Video Detailed Captioning (VDC)は、複雑なビデオコンテンツのきめ細やかな記述を可能にするビジョンブリッジのための重要なタスクである。
本稿では,現在の最先端手法をベンチマークし,2つの限界を体系的に同定する。
我々は,VDCの性能向上のために,人工的・人為的なトレーニングをアンサンブルする,新しい3段階トレーニングパイプラインであるCockatielを提案する。
- 参考スコア(独自算出の注目度): 12.690823196204589
- License:
- Abstract: Video Detailed Captioning (VDC) is a crucial task for vision-language bridging, enabling fine-grained descriptions of complex video content. In this paper, we first comprehensively benchmark current state-of-the-art approaches and systematically identified two critical limitations: biased capability towards specific captioning aspect and misalignment with human preferences. To address these deficiencies, we propose Cockatiel, a novel three-stage training pipeline that ensembles synthetic and human-aligned training for improving VDC performance. In the first stage, we derive a scorer from a meticulously annotated dataset to select synthetic captions high-performing on certain fine-grained video-caption alignment and human-preferred while disregarding others. Then, we train Cockatiel-13B, using this curated dataset to infuse it with assembled model strengths and human preferences. Finally, we further distill Cockatiel-8B from Cockatiel-13B for the ease of usage. Extensive quantitative and qualitative experiments reflect the effectiveness of our method, as we not only set new state-of-the-art performance on VDCSCORE in a dimension-balanced way but also surpass leading alternatives on human preference by a large margin as depicted by the human evaluation results.
- Abstract(参考訳): Video Detailed Captioning (VDC)は、複雑なビデオコンテンツのきめ細かい記述を可能にする、視覚言語によるブリッジングにとって重要なタスクである。
本稿では,現在最先端のアプローチを総合的にベンチマークし,特定のキャプションの側面に偏った能力と人間の嗜好の相違という2つの重要な限界を体系的に同定する。
これらの欠陥に対処するため,我々は,VDC性能を向上させるために,人工的および人為的なトレーニングをアンサンブルする,新しい3段階トレーニングパイプラインであるCockatielを提案する。
第1段階では、スコアラを微妙に注釈付きデータセットから導出し、特定の微粒なビデオキャプションアライメントで高い性能の合成キャプションを選択し、他人を無視しながら人間を優先する。
次に、このキュレートされたデータセットを使用して、Cockatiel-13Bをトレーニングし、モデルを組み立てた強さと人間の好みを注入します。
最後に,Cockatiel-13BからCockatiel-8Bを蒸留して使用しやすくする。
定量的および定性的実験は,VDCSCOREにおける新しい最先端性能を次元バランスで設定するだけでなく,人間の評価結果に示すように,人間の嗜好に対する主要な選択肢をはるかに上回っているため,本手法の有効性を反映している。
関連論文リスト
- OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with
Human Feedback [31.230023678131843]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - CVB: A Video Dataset of Cattle Visual Behaviors [13.233877352490923]
牛の行動認識のための既存のデータセットは、ほとんど小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。
キャトル・ビジュアル・ビヘイビアス (CVB) と呼ばれる新しいデータセットを導入し、502本のビデオクリップを15秒毎に撮影し、自然の照明条件で撮影し、11種類の視覚的に知覚できる牛の行動に注釈を付ける。
論文 参考訳(メタデータ) (2023-05-26T00:44:11Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。