論文の概要: Fine-grained length controllable video captioning with ordinal embeddings
- arxiv url: http://arxiv.org/abs/2408.15447v1
- Date: Tue, 27 Aug 2024 23:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:32:58.803819
- Title: Fine-grained length controllable video captioning with ordinal embeddings
- Title(参考訳): 経時的埋め込みによる細粒度制御可能なビデオキャプション
- Authors: Tomoya Nitta, Takumi Fukuzawa, Toru Tamaki,
- Abstract要約: 細粒度制御のための2つの長さ埋め込み法を提案する。
1つはビット表現で長さを表すビット埋め込みであり、もう1つは順序回帰でよく使われるバイナリ表現を使用する順序埋め込みである。
この方法は、字幕文の長さ制御だけでなく、字幕を読む際の時間制御を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for video captioning that controls the length of generated captions. Previous work on length control often had few levels for expressing length. In this study, we propose two methods of length embedding for fine-grained length control. A traditional embedding method is linear, using a one-hot vector and an embedding matrix. In this study, we propose methods that represent length in multi-hot vectors. One is bit embedding that expresses length in bit representation, and the other is ordinal embedding that uses the binary representation often used in ordinal regression. These length representations of multi-hot vectors are converted into length embedding by a nonlinear MLP. This method allows for not only the length control of caption sentences but also the control of the time when reading the caption. Experiments using ActivityNet Captions and Spoken Moments in Time show that the proposed method effectively controls the length of the generated captions. Analysis of the embedding vectors with ICA shows that length and semantics were learned separately, demonstrating the effectiveness of the proposed embedding methods.
- Abstract(参考訳): 本稿では,生成されたキャプションの長さを制御するビデオキャプション手法を提案する。
長さ制御に関する以前の研究は、しばしば長さを表現するためのレベルがほとんどなかった。
本研究では,細粒度制御のための2つの長さ埋め込み法を提案する。
従来の埋め込み法は1ホットベクトルと埋め込み行列を用いて線形である。
本研究では,マルチホットベクトルにおける長さを表す手法を提案する。
1つはビット表現で長さを表すビット埋め込みであり、もう1つは順序回帰でよく使われるバイナリ表現を使用する順序埋め込みである。
これらのマルチホットベクトルの長さ表現は、非線形MLPによって長さ埋め込みに変換される。
この方法は、字幕文の長さ制御だけでなく、字幕を読む際の時間制御を可能にする。
ActivityNet Captions と Spoken Moments in Time を用いた実験では,提案手法が生成したキャプションの長さを効果的に制御できることが示されている。
ICAを用いた埋め込みベクトルの解析により, 長さと意味を別々に学習し, 提案手法の有効性を実証した。
関連論文リスト
- Online Temporal Action Localization with Memory-Augmented Transformer [61.39427407758131]
オンライン時間的行動ローカライゼーションのためのメモリ拡張変換器(MATR)を提案する。
MATRは過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T04:55:33Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition [27.280917081410955]
LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
論文 参考訳(メタデータ) (2023-08-24T13:26:18Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Multi-scale 2D Representation Learning for weakly-supervised moment
retrieval [18.940164141627914]
弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習法を提案する。
具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。
学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。
論文 参考訳(メタデータ) (2021-11-04T10:48:37Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - Composing Answer from Multi-spans for Reading Comprehension [77.32873012668783]
本稿では,非抽出機械読解(MRC)タスクに対する応答を生成する新しい手法を提案する。
提案手法は,長い解答を正確に生成する性能が向上し,競合する2つの典型的な1スパンとSeq2Seqのベースラインデコーダよりも大幅に向上する。
論文 参考訳(メタデータ) (2020-09-14T01:44:42Z) - Temporal Sub-sampling of Audio Feature Sequences for Automated Audio
Captioning [21.603519845525483]
本稿では,音声入力シーケンスに時間的サブサンプリングを適用することで,シーケンス間の長さ差を明示的に活用することに焦点を当てたアプローチを提案する。
エンコーダの出力として固定長ベクトルを用いるシーケンス・ツー・シーケンス法を用い,エンコーダのRNN間の時間的サブサンプリングを適用した。
論文 参考訳(メタデータ) (2020-07-06T12:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。