論文の概要: An Overview of Challenges in Egocentric Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2306.04345v1
- Date: Wed, 7 Jun 2023 11:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:49:15.082460
- Title: An Overview of Challenges in Egocentric Text-Video Retrieval
- Title(参考訳): Egocentric Text-Video Retrievalにおける課題の概要
- Authors: Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
- Abstract要約: 議論を開くために、イラストでサポートされているものをいくつか取り上げる。
私たちは、非常にインクリメンタルだが有望な増加をもたらす単純な方法によって、バイアスの1つ、フレーム長のバイアスに対処します。
- 参考スコア(独自算出の注目度): 66.2075707179047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-video retrieval contains various challenges, including biases coming
from diverse sources. We highlight some of them supported by illustrations to
open a discussion. Besides, we address one of the biases, frame length bias,
with a simple method which brings a very incremental but promising increase. We
conclude with future directions.
- Abstract(参考訳): テキストビデオ検索には様々な課題が含まれている。
議論を開くためにイラストでサポートされているものをいくつか取り上げる。
さらに、フレーム長バイアスというバイアスの1つに、非常にインクリメンタルだが有望な増加をもたらすシンプルな手法で対処する。
私たちは今後の方向で結論づける。
関連論文リスト
- The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [4.471962177124311]
ストーリーテリングの観点からテキスト・ビデオ生成について検討するが,研究はほとんど行われていない。
本稿では,映像のストーリーテリングに関する評価フレームワークを提案し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-05-13T02:25:08Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews [47.726065950436585]
本稿では,ビデオレビューから詳細な意見をマイニングするためのマルチモーダル手法を提案する。
私たちのアプローチは、時間アノテーションを必要とせずに、文レベルで機能します。
論文 参考訳(メタデータ) (2020-05-27T13:46:11Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。