論文の概要: RoadTones: Tone Controllable Text Generation from Road Event Videos
- arxiv url: http://arxiv.org/abs/2605.21411v1
- Date: Wed, 20 May 2026 17:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.800609
- Title: RoadTones: Tone Controllable Text Generation from Road Event Videos
- Title(参考訳): Road Tones:ロードイベントビデオからのトーン制御可能なテキスト生成
- Authors: Chirag Parikh, Siddhi Pravin Lipare, Ravi Kiran Sarvadevabhatla,
- Abstract要約: トーン制御可能な道路映像キャプションのためのデータセットモデル評価スイートを提案する。
我々の有能なデータ生成パイプラインは、様々なトーンアノテーションとマルチトーンキャプションを備えたロードビデオコーパスを拡張します。
RoadTones-Evalも紹介します。これは,現実の一貫性とトーン順守を共同で測定する,新たな評価スイートです。
- 参考スコア(独自算出の注目度): 9.897396758181445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video-language models can generate factual descriptions of road events but lack control over how these events are expressed: their tone, urgency, or style. This limits deployment in communication-critical settings where the effectiveness of a message depends on both content and presentation, not just factual accuracy. To mitigate this, we introduce a comprehensive dataset-model-evaluation suite for tone-controllable road video captioning. Our human-validated data generation pipeline expands road-video corpora with diverse tonal annotations and multi-tone captions, yielding the RoadTones-51K dataset. We propose RoadTones-VL-CoT, a controllable video-to-text model that also generates tone-conditioned Chain-of-Thought intermediate drafts for interpretability. We also introduce RoadTones-Eval, a new evaluation suite that jointly measures factual consistency and tone adherence. In addition, we conducted a user study whose results validate caption quality, tone control, and factual consistency. Together, these contributions lay the foundation for context-sensitive tone-controllable video captioning.
- Abstract(参考訳): 既存のビデオ言語モデルは、実際の道路イベントの記述を生成することができるが、これらのイベントの表現方法(トーン、緊急性、スタイル)を制御できない。
これは、メッセージの有効性が事実の正確性だけでなく、コンテンツとプレゼンテーションの両方に依存している通信クリティカルな設定でのデプロイメントを制限する。
これを軽減するために、トーン制御可能なロードビデオキャプションのための包括的データセット・モデル評価スイートを導入する。
我々の有能なデータ生成パイプラインは、さまざまなトーンアノテーションとマルチトーンキャプションでロードビデオコーパスを拡張し、RoadTones-51Kデータセットを生成する。
音調条件付きチェイン・オブ・ソートの中間草案を解釈可能な制御可能なビデオ・テキスト・モデルであるRoadTones-VL-CoTを提案する。
RoadTones-Evalも紹介します。これは,現実の一貫性とトーン順守を共同で測定する,新たな評価スイートです。
さらに, キャプション品質, トーンコントロール, 事実整合性の検証を行った。
これらの貢献は、文脈に敏感なトーン制御可能なビデオキャプションの基礎となった。
関連論文リスト
- A Reason-then-Describe Instruction Interpreter for Controllable Video Generation [88.95178842901095]
本稿では,生の命令をダウンストリームビデオジェネレータの正確な動作可能な仕様に変換する汎用型モデル非依存インタプリタReaDeを提案する。
命令忠実度,キャプション精度,下流映像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2025-11-25T17:59:07Z) - ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling [26.333732366091912]
我々は,制御可能なTTA生成をマルチタスク学習問題として再キャストし,プログレッシブ拡散モデリング手法であるControlAudioを導入する。
本手法は, ステップバイステップ戦略により, テキスト, タイミング, 音素の特徴を含む, よりきめ細かな情報に適合する。
実験により,コントロールアウディオは時間的精度と発話明瞭度の観点から最先端のパフォーマンスを達成し,客観評価と主観評価の両方において既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-10-10T00:19:41Z) - DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer [43.48616092324736]
制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。
DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。
AudioCondition、DESED、AudioTimeデータセットの実験は、DegDiTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-19T12:41:15Z) - Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction [17.85550556489256]
本稿では,ビデオ・サリエンシ予測のためのテキスト・オーディオ・ビジュアル・コンディショニング・ディフュージョン・モデルであるTAVDiffを提案する。
テキストを効果的に活用するために、ビデオフレームのテキスト記述を生成するために、大規模なマルチモーダルモデルが使用される。
聴覚のモダリティに関しては、モデルが音によって示される健全な領域に焦点を合わせるための別の条件情報として使用される。
論文 参考訳(メタデータ) (2025-04-19T11:30:54Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。