論文の概要、ライセンス

# (参考訳) 質問によるビデオ検索の学習 [全文訳有]

Learning to Retrieve Videos by Asking Questions ( http://arxiv.org/abs/2205.05739v2 )

ライセンス: CC BY 4.0
Avinash Madasu, Junier Oliva, Gedas Bertasius(参考訳) 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。 これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 マルチモーダル質問生成器は i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guid ed supervisor)を提案する。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. Our multimodal question generator uses (i) the video candidates retrieved during the last round of interaction with the user and (ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework
公開日: Fri, 13 May 2022 16:39:43 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Learning to Retrieve Videos by Asking Questions 質問によるビデオ検索の学習 0.73
Department of Computer Science Department of Computer Science 計算機科学専攻 計算機科学専攻 0.61
Department of Computer Science Avinash Madasu 計算機科学専攻 アビナシュ・マダス(Avinash Madasu) 0.52
UNC Chapel Hill USA UNCチャペルヒル アメリカ 0.73
avinashm@cs.unc.edu avinashm@cs.unc.edu 0.29
Junier Oliva Junier–Oliva 0.32
UNC Chapel Hill USA UNCチャペルヒル アメリカ 0.73
joliva@cs.unc.edu joliva@cs.unc.edu 0.29
Gedas Bertasius Gedas Bertasius 0.42
UNC Chapel Hill USA UNCチャペルヒル アメリカ 0.73
gedas@cs.unc.edu gedas@cs.unc.edu 0.29
2 2 0 2 y a M 3 1 2 2 0 2 y a M 3 1 0.43
] V C . s c [ ] 略称はC。 sc [ 0.39
2 v 9 3 7 5 0 2 v 9 3 7 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
ABSTRACT The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作します。
訳抜け防止モード: ABSTRACT 従来のテキストのほとんど -to - ビデオ検索システムは静的環境で動作する。 つまり、ユーザとエージェントの間には、ユーザが提供する初期テキストクエリ以外の相互作用はありません。
0.74
This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 0.56
To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 0.70
The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 0.72
Our multimodal question generator uses マルチモーダル質問生成器は 0.63
(i) the video candidates retrieved during the last round of interaction with the user and i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と 0.75
(ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 0.73
Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guid ed supervisor)を提案する。
訳抜け防止モード: さらに、最大情報的な質問を生成する。 IGS(Information- Guided Supervision)を提案する。 質問生成装置をガイドして、その後のビデオ検索精度を高める質問を行う。
0.66
We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 0.69
Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework. さらに,提案手法が現実の人間とのインタラクションを含む実世界環境にも一般化し,フレームワークの堅牢性と汎用性を示すことを実証した。 0.68
CCS CONCEPTS • Computing methodologies → Visual content-based indexing and retrieval. CCS CONCEPTS • コンピュータ手法 → ビジュアルコンテンツに基づく索引作成と検索 0.81
KEYWORDS interactive video retrieval, dialog generation, multi-modal learning KEYWORDSインタラクティブビデオ検索,ダイアログ生成,マルチモーダル学習 0.78
1 INTRODUCTION The typical (static) video retrieval framework fetches a limited list of candidate videos from a large collection of videos according to a user query (e g ‘cooking videos’). 1 INTRODUCTION 一般的な(静的な)ビデオ検索フレームワークは、ユーザクエリ(‘cooking video’など)に従って、大量のビデオから、候補ビデオの限られたリストを取得する。 0.81
However, the specificity of this query will likely be limited, and the uncertainty among candidate videos based on the user query is typically opaque (i.e. the user might not know what additional information will yield better results). しかし、このクエリの特異性は制限され、ユーザクエリに基づく候補ビデオ間の不確実性は通常不透明である(つまり、どのような追加情報がよりよい結果をもたらすか分からない)。 0.74
For example, consider the scenario where you are deciding what dish to make for dinner on a Friday night. 例えば、金曜日の夜に夕食にどの料理を作るかを決めるシナリオについて考えてみましょう。 0.77
Now also suppose that you have access to an interactive AI agent who can help you with this task by retrieving the videos of relevant dishes and detailed instructions on how to make those dishes. また、対話的なaiエージェントにアクセスして、関連する料理のビデオを検索し、それらの料理の作り方に関する詳細な指示を得ることで、このタスクを手伝うことができると仮定する。
訳抜け防止モード: また、対話型aiエージェントにアクセスして、このタスクを手伝うことができるとします。 関連する料理の動画と、その料理の作り方に関する詳細な説明を検索する。
0.69
In this particular scenario, you might start an interaction with the agent by asking it to “show このシナリオでは,エージェントとのインタラクションを開始して,“表示”を依頼するかも知れません。 0.68
some cooking videos” (Figure 1 left-most query). いくつかの料理ビデオ”(第1図)。 0.72
Any traditional video retrieval model will look for the matching cooking videos from the database and display them to the user. 従来のビデオ検索モデルは、データベースから一致する料理ビデオを探し、ユーザに表示する。 0.66
However, what happens if there are too many matching videos, most of which don’t satisfy the user’s internal criteria? しかし、マッチするビデオが多すぎると、そのほとんどがユーザーの内部基準を満たさないとしたらどうなるだろうか? 0.75
A user-friendly video retrieval framework will not display all such videos to the user and expect them to sift through hundreds of videos to find the videos that are most relevant to them. ユーザーフレンドリーなビデオ検索フレームワークは、すべてのビデオをユーザーに表示せず、何百ものビデオを通して最も関連性の高いビデオを見つけることを期待する。 0.65
Not only this would be overly time consuming, but it would also hurt the user experience. これは時間がかかりすぎるだけでなく、ユーザエクスペリエンスを損なうことになるでしょう。 0.63
Instead, one way to address the uncertainty would be to ask another follow-up question of the same user: “Which cuisine do you prefer?” その代わりに、不確実性に対処するひとつの方法は、同じユーザの別のフォローアップ質問を尋ねることである。 0.49
This would then allow the user to provide additional information clarifying some of his/her preferences (e g , plant or meat diet, etc.) so that an AI agent can narrow down its search. これにより、AIエージェントが検索を絞り込むことができるように、ユーザーは自分の好み(例えば、植物や肉のダイエットなど)を明確にするための追加情報を提供することができる。 0.79
The rise of conversational AI systems, such as chat-bots and voice assistants, have made the user interaction with a digital agent relatively smooth. チャットボットや音声アシスタントといった会話型AIシステムの台頭は、ユーザとデジタルエージェントとのインタラクションを比較的スムーズにしている。 0.79
Inspired by this emerging technology, and a huge availability of video data, we propose ViReD , a framework for Video Retrieval using Dialog. この新興技術とビデオデータの大量利用に触発されて,対話を用いたビデオ検索のためのフレームワークであるvired を提案する。 0.71
Injecting dialog into standard text-to-video retrieval systems has two key advantages: 標準テキスト・ビデオ検索システムにダイアログを注入することは2つの大きな利点がある。 0.51
(i) it reduces the uncertainty associated with the initial user text queries, (i)初期ユーザテキストクエリに関連する不確実性を低減する。 0.74
(ii) it enables the agent to infer user’s custom preferences, thus, making the AI model more personalized to the user. (ii)エージェントがユーザの好みを推測することで、AIモデルをよりパーソナライズすることが可能になる。
訳抜け防止モード: (ii)エージェントがユーザのカスタムな好みを推測できるようにします。 したがって、aiモデルをユーザにパーソナライズしやすくする。
0.71
Several works [14, 17, 18, 38, 45] explored the idea of interactive mechanisms in the context of image retrieval. いくつかの作品(14,17,18,38,45)が画像検索の文脈でインタラクティブなメカニズムのアイデアを探求した。 0.74
Prior methods in this area used relevance scores [38, 45] and attribute comparisons [17, 18] to get user feedback for retrieval. この領域の先行手法では, 関連スコア [38, 45] と属性比較 [17, 18] を用いて, 検索のユーザフィードバックを得た。 0.82
Additionally, the recent work of Cai et al [7] proposed Ask-and-Confirm, a framework that allows the user to confirm if the proposed object is present or absent in the image. さらに、cai et al [7]の最近の研究は、提案されているオブジェクトが画像に存在しないかどうかをユーザが確認できるフレームワークであるask-and-confirmを提案している。 0.60
One downside of these prior approaches is that they typically require many interaction rounds (e g , > 5), which increases user effort, and degrades user experience. これらの以前のアプローチの欠点は、通常、多くのインタラクションラウンド(例えば、 > 5)が必要で、ユーザの労力が増大し、ユーザエクスペリエンスが低下することです。 0.66
Furthermore, these approaches significantly limit the form of the user-agent interaction, i.e., the users can only verify the presence or absence of a particular object/attribute in an image but nothing more. さらに、これらのアプローチはユーザとエージェントのインタラクションの形式を著しく制限する、すなわち、画像中の特定のオブジェクト/属性の存在や欠如のみを検証できるが、それ以上のものではない。 0.71
In contrast, our ViReD framework enables the user to interact with an agent using free-form questions, which is a natural form of interaction for most humans. 対照的に、viredフレームワークでは、ほとんどの人間にとって自然なインタラクション形式であるフリーフォームの質問を使って、エージェントと対話することが可能です。
訳抜け防止モード: 対照的に、私たちのViReDフレームワークは フリーでエージェントと対話する -疑問を呈する。 ほとんどの人間にとって 自然な相互作用です
0.62
We also note that our interactive framework achieves excellent video retrieval results with a few (e g , 2 − 3) interaction rounds. また,対話型フレームワークは,対話ラウンド数回(例: 2 − 3)で優れた映像検索を実現することにも留意する。 0.71
Our key technical contribution is a multimodal question generator optimized with a novel Information-Guided Supervision (IGS). 我々の重要な技術的貢献は、新しいIGS(Information-Guid ed Supervision)に最適化されたマルチモーダル質問生成器である。 0.57
Unlike text-only question generators, our question generator operates on テキストのみの質問ジェネレータとは異なり、質問ジェネレータは動作します。 0.49
(i) the entire textual dialog history (if any) and (i)全文のダイアログ履歴(もしあれば)と 0.69
(ii) previously retrieved top video candidates, which allows it to incorporate relevant visual and linguistic cues into the question generation process. (ii)予め検索されたトップビデオ候補は、関連する視覚的および言語的手がかりを質問生成プロセスに組み込むことができる。 0.76
Furthermore, our proposed IGS training objective enables our さらに,提案した IGS トレーニングの目的が実現可能である。 0.60
英語(論文から抽出)日本語訳スコア
, , Avinash Madasu, Junier Oliva, and Gedas Bertasius , , Avinash Madasu, Junier Oliva, Gedas Bertasius 0.39
Figure 1: An illustration of our interactive dialog-based video retrieval framework. 図1:対話型対話型ビデオ検索フレームワークの例示。 0.68
The order of conversation between the user and the agent is illustrated from left to right. ユーザとエージェント間の会話の順序は、左から右に示される。 0.70
The agent has access to a large video database, which is used for retrieving user-specified videos. エージェントは大きなビデオデータベースにアクセスでき、ユーザーが特定したビデオの検索に使用される。 0.83
For example, in this case, the user starts an interaction with the agent by asking it to “Show some cooking videos.” 例えば、このケースでは、ユーザはエージェントとのインタラクションを開始し、"いくつかの料理ビデオを表示する"ように要求する。 0.75
The agent then searches for relevant videos in the database and returns eight candidate videos. エージェントはデータベース内の関連動画を検索し、8つの候補ビデオを返す。 0.85
Due to high uncertainty in the initial query, the agent then asks another follow-up question “Which cuisine do you prefer?” for which the user responds: “Mediterranean.” 最初のクエリに不確実性が高いため、エージェントは、ユーザが応答する別のフォローアップ質問“Which dishes do you prefer?”、“Mediterranean”を尋ねる。 0.74
As the number of retrieved video candidates is reduced to four, the agent asks one final question: “Do you like plant or meat diet?” 検索されたビデオ候補の数を4つに減らすと、エージェントは最終質問として「植物や肉のダイエットは好きですか?」と答える。 0.75
The user’s response (i.e., “plant diet”) then helps the agent to reduce the search space to the final candidate video, which is then displayed to the user. ユーザの反応(すなわち“植物食”)は、エージェントが最終候補ビデオへの検索スペースを縮小し、それをユーザに表示する。
訳抜け防止モード: ユーザーの反応 (「植物食」など) そして、エージェントが検索スペースを最終候補ビデオに縮小するのを助ける。 その後、ユーザに表示されます。
0.70
model to generate maximally informative questions, thus, leading to higher text-to-video retrieval accuracy. 最大情報的質問を生成するモデルにより,テキスト対ビデオの検索精度が向上する。 0.74
We validate our entire interactive framework ViReD on the Audio-Visual Scene Aware Dialog dataset (AVSD) [3] demonstrating that it outperforms all non-interactive methods by a substantial margin. オーディオ・ビジュアル・シーン・アウェア・ダイアログ・データセット(AVSD) [3] 上で、インタラクティブなフレームワークであるViReD全体を検証した。
訳抜け防止モード: AVSD (Audio-Visual Scene Aware Dialog dataset) [3] [in Japanese] すべての非インタラクティブなメソッドをかなりのマージンで上回ることを示す。
0.64
Furthermore, compared to other strong dialog-based baselines, our approach requires fewer dialog rounds to achieve similar or even better results. さらに、他の強力なダイアログベースのベースラインと比較して、同様の、あるいはさらに優れた結果を得るためには、ダイアログラウンドの削減が必要となる。 0.52
We also demonstrate that our approach generalizes to the real-world scenarios involving interactions with real humans, thus, indicating its effectiveness and generality. また,本手法は実際の人間との相互作用に関わる現実のシナリオに一般化し,その有効性と汎用性を示す。 0.68
Lastly, we thoroughly ablate different design choices of our interactive video retrieval framework to inspire future work in this area. 最後に,インタラクティブなビデオ検索フレームワークの異なる設計選択を徹底的に廃止し,この分野における今後の作業に刺激を与えます。 0.63
2 RELATED WORK 2.1 Multimodal Conversational Agents There has been a significant progress in designing multimodal conversational agents especially in the context of image-based visual dialog [4, 10, 11, 34, 35]. 2 関連作業 2.1 マルチモーダル会話エージェント マルチモーダル対話エージェントの設計には、特にイメージベースのビジュアルダイアログ(4,10,11,34,35)の文脈において大きな進歩があります。 0.91
Das et al [10] proposed the task of visual dialog, in which an agent interacts with a user to answer questions about the visual video content. Das et al [10] は視覚的ダイアログのタスクを提案し、エージェントがユーザと対話して視覚的ビデオコンテンツに関する質問に答える。 0.77
There also exists prior work in co-operative image guessing between a pair of AI agents [11]. また,一対のAIエージェント [11] 間の協調画像推定における先行研究も存在している。 0.68
Furthermore, the recent work of Niu et al [34] proposes a recursive visual attention scheme for visual dialog generation. さらに、niu et al [34]の最近の研究は、ビジュアルダイアログ生成のための再帰的視覚注意スキームを提案する。 0.64
We note that most of these prior approaches operate in closed-set environments, i.e., selecting questions/answers from a small set of candidates. これらの先行アプローチのほとんどは、クローズドセット環境で、すなわち、少数の候補から質問や回答を選択する。 0.67
In contrast, our model leverages visual and linguistic cues to generate open-ended questions optimized for video retrieval. 対照的に,本モデルは映像検索に最適化されたオープンエンド質問を生成するために,視覚的および言語的手がかりを活用する。 0.51
2.2 Video Question Answering Following standard visual question answering (VQA) methods in images [1, 2, 30, 44], video based question answering (video QA) aims to answer questions about videos [21, 22, 46, 48]. 2.2 ビデオ質問回答 画像中の標準的な視覚的質問応答 (VQA) 法 [1, 2, 30, 44] に従えば,ビデオによる質問応答 (ビデオQA) は,ビデオに関する質問に対する回答 [21, 22, 46, 48] を目的としている。 0.76
Compared to visual question answering in images, video question answering is more challenging because it requires complex temporal reasoning. 画像の視覚的質問応答と比較して、複雑な時間的推論を必要とするため、ビデオ的質問応答の方が難しい。 0.61
Le et al [19] introduced a multi-modal transformer model for video QA to incorporate representations from different modalities. Le et al [19]はビデオQAのためのマルチモーダルトランスフォーマーモデルを導入し、異なるモーダル表現を組み込んだ。 0.68
Additionally, Le et al [20] proposed a bi-directional spatial temporal reasoning model to capture inter dependencies along spatial and temporal dimensions of videos. さらに、le et al [20]は、ビデオの空間的および時間的次元に沿って相互依存性を捉えるための双方向空間的時間的推論モデルを提案した。 0.67
Recently, Lin et al [27] introduced Vx2Text, a multi-modal transformer-based generative network for video QA. 最近、lin et al [27] はビデオqaのためのマルチモーダルトランスフォーマティブベースの生成ネットワーク vx2text を導入した。 0.67
Compared to these prior methods, we aim to develop a framework for interactive dialog-based video retrieval setting. これらの先行手法と比較し,対話型対話型ビデオ検索のためのフレームワークの開発を目指している。 0.67
2.3 Multimodal Video Retrieval Most of the recent multimodal video retrieval systems are based on deep neural networks [5, 8, 9, 12, 13, 15, 32]. 2.3 マルチモーダルビデオ検索 近年のマルチモーダルビデオ検索システムの多くはディープニューラルネットワーク [5, 8, 9, 12, 13, 15, 32] に基づいている。 0.80
With the advent of transformer-based language models [23, 36, 37], several methods proposed transformer architectures for video retrieval [5, 9, 13]. トランスフォーマーに基づく言語モデル [23, 36, 37] の登場により,ビデオ検索のためのトランスフォーマーアーキテクチャを提案する手法がいくつか提案されている [5, 9, 13]。 0.67
However, these methods focus on static query-based video retrieval and perform poorly when the textual user queries are ambiguous. しかし,これらの手法は静的な問合せに基づくビデオ検索に重点を置いており,テキストによるユーザクエリがあいまいである場合,性能が良くない。 0.57
In contrast, our work proposes to use dialog as means to gain additional information for improving video retrieval results. 対照的に本研究では,ビデオ検索結果を改善するための追加情報を得る手段としてダイアログの利用を提案する。
訳抜け防止モード: 対照的に我々の研究は ビデオ検索結果を改善するための追加情報を得る手段としてダイアログを使用する。
0.72
2.4 Interactive Modeling Techniques Ishan et al [31] proposed an interactive learning framework for visual question answering. 2.4 Interactive Modeling Techniques Ishan et al [31]は、視覚的質問応答のための対話型学習フレームワークを提案した。 0.74
In this framework, the agent actively interacts with the oracle to get the information needed to answer visual questions. このフレームワークでは、エージェントはoracleと積極的にやり取りし、視覚的な質問に答えるために必要な情報を取得する。
訳抜け防止モード: この枠組みでは、エージェントはオラクルと活発に相互作用する 視覚的な疑問に答えるために必要な情報を得るためです
0.63
Several approaches utilized interactive mechanisms インタラクティブメカニズムを利用したいくつかのアプローチ 0.51
英語(論文から抽出)日本語訳スコア
Learning to Retrieve Videos by Asking Questions 質問によるビデオ検索の学習 0.73
, , Figure 2: Comparison between the traditional (i.e., static) and our interactive dialog-based video retrieval frameworks. , , 図2: 従来の(すなわち静的)とインタラクティブなダイアログベースのビデオ検索フレームワークの比較。 0.60
In the traditional set-up, the user interacts with the agent once by providing a single textual query to retrieve the desired video. 従来のセットアップでは、ユーザは、希望するビデオを取得するための単一のテキストクエリを提供することで、エージェントと対話する。
訳抜け防止モード: 従来の設定では、ユーザがエージェントと一度対話する 所望のビデオを取得するために単一のテキストクエリを提供する。
0.72
In comparison, our proposed framework leverages multiple rounds of dialog with the user to improve video retrieval performance. 一方,提案フレームワークでは,複数ラウンドのダイアログをユーザと活用し,ビデオ検索性能を向上させる。 0.77
Specifically, after the initial user query, the first round of retrieved videos are used to generate a question 𝑞𝑡 , which the user then answers with an answer 𝑎𝑡 . 具体的には、最初のユーザクエリの後、検索したビデオの最初のラウンドを使用して質問qtを生成し、ユーザが.tcで回答する。 0.76
The generated dialog is added to the dialog history 𝐻𝑡 = {𝐻𝑡−1, (𝑞𝑡 , 𝑎𝑡)}, which is then used as additional input in the subsequent rounds of interaction. 生成されたダイアログは、ダイアログ履歴Ht = {Ht−1, (qt , at)} に追加され、その後のラウンドで追加入力として使用される。 0.75
to perform image retrieval [7, 18, 29, 33, 45]. 画像検索[7, 18, 29, 33, 45]を行う。 0.66
Instead, we propose an interactive dialog-based framework for video retrieval. 代わりに,ビデオ検索のための対話型対話型フレームワークを提案する。 0.65
3 VIDEO RETRIEVAL USING DIALOG In this section, we introduce ViReD , our proposed video retrieval framework using dialog. 3 VIDEO RetriEVal using DIALOG ここでは,ダイアログを用いたビデオ検索フレームワークであるViReDを紹介する。 0.78
Formally, given an initial text query 𝑇 specified by the user, and the previously generated dialog history 𝐻𝑡−1, our goal is to retrieve 𝑘 most relevant videos 𝑉1, 𝑉2, ..., 𝑉𝑘. 形式的には、ユーザが指定した初期テキストクエリTと、以前に生成されたダイアログ履歴Ht−1が与えられた場合、我々のゴールは、最も関連性の高いビデオV1, V2, ..., Vkを取得することである。 0.59
Our high-level framework, which is illustrated in Figure 2, consists of three main components: 図2に示すハイレベルなフレームワークは、3つの主要なコンポーネントで構成されています。 0.70
(i) a multimodal question generator trained with an information-guided supervision (IGS), (i)igs(information-g uided supervisor)により訓練されたマルチモーダル質問生成装置 0.73
(ii) an answer generation oracle, which can answer any questions about a given video, thus, simulating an interaction with a human, and (ii)回答生成オラクルは、所定のビデオについてどんな質問にも答えることができ、それによって、人間とのインタラクションをシミュレートすることができる。 0.64
(iii) a video retrieval module, which takes as inputs the initial textual query and any generated dialog history and retrieves relevant videos from a large video database. (iii)ビデオ検索モジュールは、最初のテキストクエリと生成されたダイアログ履歴を入力し、大きなビデオデータベースから関連ビデオを検索する。 0.75
We now describe each of these components in more detail. これらの各コンポーネントについて、より詳細に説明します。 0.59
3.1 Question Generator As illustrated in Figure 3, at time 𝑡, our question generator takes as inputs 3.1 質問生成装置 図3に示すように、時刻 t では、質問生成器を入力として取ります。
訳抜け防止モード: 3.1 図3に示すように、時刻t, 質問生成装置は入力として
0.74
(i) the initial text query 𝑇 , (i)最初のテキストクエリ t , 0.70
(ii) top 𝑘 retrieved videos at time 𝑡−1, and (ii)t−1時のトップk検索ビデオ、 0.70
(iii) previously generated dialog history 𝐻𝑡−1. (iii) 予め生成したダイアログ履歴ht−1。 0.66
To eliminate the need for ad-hoc video-and-text fusion modules [24, 27], we use Vid2Sum video caption model [43] trained on the AVSD dataset to predict textual descriptions for each of the top-𝑘 previously retrieved videos. アドホックなビデオとテキストの融合モジュール [24, 27] の必要性をなくすため,avsdデータセットでトレーニングされたvid2sumビデオキャプションモデル [43] を使用して,検索されたトップkビデオのテキスト記述を予測する。 0.74
Specifically, given a video 𝑉𝑖, the Vid2Sum model provides a detailed textual summary of the video content, which we denote as 𝑆𝑖. 具体的には、ビデオ Vi が与えられた場合、Vid2Sum モデルは、ビデオコンテンツの詳細なテキスト要約を提供する。 0.75
Afterward, the predicted summaries for all 𝑘 videos retrieved at timestep 𝑡 − 1, denoted as 𝑆1, 𝑆2, ..., 𝑆𝑘, are fed into the question generator along with the initial textual query 𝑇 and previous dialog history 𝐻𝑡−1. その後、timestep t − 1で検索されたすべてのkビデオの予測要約(s1, s2, ..., sk)を、最初のテキストクエリtと前のダイアログ履歴ht−1と共に質問生成器に送付する。 0.69
More precisely, we concatenate the より正確には、私たちは結合する。 0.47
(i) Figure 3: Illustration of the proposed question generator. (i) 図3: 提案された質問生成器のイラスト。 0.58
It receives (i) an initial user-specified textual query, 受け取ります (i)初期ユーザ指定のテキストクエリ。 0.70
(ii) topk retrieved candidate videos (from the previous interaction rounds), and (ii)topkが検索した候補ビデオ(前回のインタラクションラウンドから)、そして 0.79
(iii) the entire dialog history as its inputs. (iii)全対話履歴を入力とする。 0.67
We then use a pretrained caption generator (Vid2Sum [43]) to map the videos into text. 次に、トレーニング済みのキャプションジェネレータ(Vid2Sum [43])を使用して、ビデオをテキストにマッピングします。 0.61
Afterward, all of the text-based inputs (including the predicted video captions) are fed into an autoregressive BART model for a new question generation. その後、すべてのテキストベースの入力(予測ビデオキャプションを含む)を自己回帰的BARTモデルに入力し、新しい質問生成を行う。 0.77
initial text query, 初期テキストクエリ。 0.66
(ii) the predicted summaries and (ii)予想概要及び 0.61
(iii) the previous generated dialog history and pass it to an autoregressive BART language model [23] for generating the next question. (iii)前の生成したダイアログ履歴を自己回帰的なbart言語モデル[23]に渡して次の質問を生成する。 0.77
𝑋𝑞 = Concat(𝑇 , 𝑆1, 𝑆2, .., 𝑆𝑘, 𝐻𝑡−1), 𝑋𝑞 = Concat(𝑇 , 𝑆1, 𝑆2, .., 𝑆𝑘, 𝐻𝑡−1), 0.47
(1) (2) 𝑞𝑡 = BART𝑞(𝑋𝑞). (1) (2) qt = bartq(xq) である。 0.59
3.2 Answer Generation Oracle The answer generator serves as an oracle that can answer any questions about a given video. 3.2 Answer Generation Oracle 回答ジェネレータは、あるビデオに関する質問に答えられるオラクルとして機能する。 0.82
We design our answer generator with a goal of simulating the presence of a human in an interactive dialog setting. 我々は対話型対話環境における人間の存在をシミュレートする目的で回答生成装置を設計する。 0.77
Our goal is to use our answer generator to answer any open-ended questions posed by our previously described question generator. 我々のゴールは、我々の回答生成装置を使って、以前に述べた質問生成装置が提示したオープンエンドの質問に答えることです。 0.54
This characteristic is highly appealing as it makes our framework flexible and applicable to many diverse dialog scenarios. この特徴は、フレームワークを柔軟にし、多種多様なダイアログシナリオに適用するので、非常に魅力的です。
訳抜け防止モード: この特徴は非常に魅力的です フレームワークを柔軟にし、さまざまなダイアログシナリオに適用できるようにします。
0.77
In contrast, the majority of prior methods [7] are typically constrained to a small set of closed-set question/answer pairs, which makes it difficult to generalize them to diverse real-world dialog scenarios. 対照的に、[7]以前のメソッドの大部分は、通常、クローズドセットの質問/回答ペアの小さなセットに制限されているため、それらを多様な現実世界のダイアログシナリオに一般化することは困難である。 0.62
In our experimental section 6.4, we also conduct a userstudy evaluation demonstrating that our answer generation oracle effectively replaces a human answering the questions. 実験セクション6.4では,回答生成のオラクルが質問に対する人間の答えを効果的に置き換えることを示すユーザチューニング評価を実施している。 0.64
Our answer generator takes a video 𝑉𝑖 and a question 𝑞𝑡 as its inputs. 私たちの回答生成装置はビデオViと質問qtを入力として取ります。 0.71
Similar to before, we first use a pretrained video caption 以前と同じように 訓練済みの動画キャプションを 0.57
Initial text queryVideo retrieval modelRetrieved videosQuestion generatorAnswer generatorGenerated dialogqtatHt = {Ht – 1 , (qt , at)} qt(qt, at)Video retrieval modelRetrieved videosTraditional video retrieval systemProposed interactive video retrieval systemInitial text queryBARTQ Question GeneratorDoes she drink from the cup? 初期テキストクエリ ビデオ検索モデル ビデオクエクションジェネレータ 生成されたダイアログqtatHt = {Ht – 1 , (qt , at)} qt(qt, at) ビデオ検索モデル ビデオ検索システム インタラクティブビデオ検索システム インタラクティブビデオ検索システム 初期テキストクエリBARTQ 質問ジェネレータはカップから飲むか? 0.79
A person holding a cup Initial queryQ: Is the person a woman? カップの初期クエリーを持っている人:その人は女性ですか? 0.76
A: YesQ: Is the person outside? A: はい: 外にいる人は? 0.73
A: No…Dialog History S1Sk…Video SummariesVid2Sum Summary Generator…Previous Top k Retrieved VideosV1VkOutput Question A: No...Dialog History S1Sk... Video SummariesVid2Sum Summary Generator...Previous Top k Retrieved VideosV1Vk Output Question 0.25
英語(論文から抽出)日本語訳スコア
, , model Vid2Sum [43] to predict a detailed textual summary 𝑆𝑖, which we then use as part of the inputs to the answer generator. , , モデル Vid2Sum [43] で詳細なテキスト要約Siを予測し、回答生成器への入力の一部として使用します。 0.60
Afterward, the generated summary 𝑆𝑖 and the question 𝑞𝑡 are concatenated and passed to a separate BART answer generation model to generate an answer 𝑎𝑡 about the video 𝑉𝑖. その後、生成された要約Siと質問qtとが連結されて別個のBART回答生成モデルに渡されて、ビデオViに関する回答を生成する。 0.75
(3) (4) Note that the BART models used for question and answer generation have the same architecture but that their weights are different (i.e., they are trained for two different tasks). (3) (4) 質問および回答生成に使用されるBARTモデルは、同じアーキテクチャであるが、重みが異なる(すなわち、2つの異なるタスクのために訓練されている)ことに注意。 0.84
𝑋𝑎 = Concat(𝑆𝑖, 𝑞𝑡), 𝑎𝑡 = BART𝑎(𝑋𝑎). Xa = Concat(Si, qt), at = BARTa(Xa)。 0.78
With these individual components in place, we can now generate 𝑡 rounds of dialog using our previously defined question and answer generators. これらの個々のコンポーネントを配置することで、以前定義した質問と回答ジェネレータを使用して、tラウンドのダイアログを生成することができます。
訳抜け防止モード: これらの個々のコンポーネントを配置すれば、tラウンドのダイアログを生成できる 前述した質問と回答生成器を使っています
0.62
The whole dialogue history generated over 𝑡 rounds can then be written as: tラウンドで生成された対話履歴は、次のように書くことができる。 0.60
𝐻𝑡 = ({𝑞1, 𝑎1}, {𝑞2, 𝑎2}, ...., {𝑞𝑡 , 𝑎𝑡}). 𝐻𝑡 = ({𝑞1, 𝑎1}, {𝑞2, 𝑎2}, ...., {𝑞𝑡 , 𝑎𝑡}). 0.44
(5) The generated dialog history 𝐻𝑡 is then used as an additional input to the video retrieval framework, which we describe below. (5) 生成されたダイアログ履歴Htは、後述するビデオ検索フレームワークへの追加入力として使用される。 0.80
3.3 Text-to-Video Retrieval Model Our video retrieval model (VRM) takes an initial textual query 𝑇 and previous dialog history 𝐻𝑡 and returns a probability distribution 𝑝 ∈ R𝑁 that encodes the (normalized) similarity between each video 𝑉 (𝑖) in the database of 𝑁 videos and the concatenated text query [𝑇 , 𝐻𝑡]. 3.3 Text-to-Video Retrieval Model 我々のビデオ検索モデル(VRM)は、初期テキストクエリTと過去のダイアログ履歴Htを取り込み、Nビデオのデータベースと連結テキストクエリ[T, Ht]内の各ビデオV(i)間の(正規化)類似性を符号化した確率分布p ∈ RNを返す。 0.87
Formally, we can write this operation as: 正式にはこの操作を次のように書ける。 0.65
𝑝 = VRM(𝑇 , 𝐻𝑡), p = VRM(T, Ht) 0.37
(6) where each 𝑝𝑖 value encodes a probability that the 𝑖th video 𝑉 (𝑖) is the correct video associated with the concatenated textual query [𝑇 , 𝐻𝑡]. (6)各pi値がithビデオV(i)が連結されたテキストクエリ[T,Ht]に関連付けられた正しいビデオである確率を符号化する。 0.84
Our video retrieval model consists of two main components: 我々のビデオ検索モデルは2つの主成分から構成される。 0.60
(i) a visual encoder 𝐹(𝑉 ; 𝜃𝑣) with learnable parameters 𝜃𝑣 and (i)学習可能なパラメータ θv を持つビジュアルエンコーダ F(V; θv) 0.89
(ii) a textual encoder 𝐺(𝑇 , 𝐻𝑡; 𝜃𝑡) with learnable parameters 𝜃𝑡. (ii)学習可能なパラメータ θt を持つテキストエンコーダ G(T , Ht; θt) 。 0.90
During training, we assume access to a manually labeled video retrieval dataset X = {(𝑉 (1),𝑇 (1), 𝐻 (1) )}, where 𝑇 (𝑖) and 𝐻 (𝑖) depict textual queries and dialog histories associated with a video 𝑉 (𝑖) respectively. トレーニング中、手動でラベル付けされたビデオ検索データセット X = {(V (1),T (1), H (1) )} にアクセスすると、T (i) と H (i) はそれぞれビデオ V (i) に関連するテキストクエリとダイアログ履歴を記述する。 0.81
As our visual encoder, we use a video transformer encoder [6] that computes a visual representation 𝑓 (𝑖) = 𝐹(𝑉 (𝑖); 𝜃𝑣) where 𝑓 (𝑖) ∈ R𝑑. 視覚エンコーダとして、ビデオトランスコーダ [6] を使用して、f(i) ∈ rd で視覚表現 f(i) = f(v(i); θv) を計算する。 0.74
As our textual encoder, we use DistilBERT [40] to compute a textual representation 𝑔(𝑖) = 𝐺(𝑇 (𝑖), 𝐻 (𝑖) ; 𝜃𝑡) where 𝑔(𝑖) ∈ R𝑑. テキストエンコーダとして、 DistilBERT [40] を用いて、g(i) ∈ Rd のテキスト表現 g(i) = G(T (i), H(i) ; θt) を計算する。 0.75
We can jointly train the visual and textual encoders end-to-end by minimizing the sum of videoto-text and text-to-video matching losses as is done in [5]: ビデオ・テキスト・テキスト・ビデオ・マッチングの損失を最小化することにより、視覚的・テキスト的エンコーダをエンドツーエンドにトレーニングすることができる。
訳抜け防止モード: ビジュアルエンコーダとテキストエンコーダを共同でトレーニングできる -to- end ビデオ - テキストとテキスト - から - ビデオマッチング損失の和を最小化する[5]
0.73
), . . . , (𝑉 (𝑁),𝑇 (𝑁), 𝐻 (𝑁) ), . . . , (𝑉 (𝑁),𝑇 (𝑁), 𝐻 (𝑁) 0.37
𝑡 𝑡 𝑡 𝑡 (7) 𝑡 𝑡 𝑡 𝑡 (7) 0.43
𝐵∑︁ 𝐵∑︁ 𝑖=1 𝐵∑︁ 𝐵∑︁ 𝑖=1 0.27
log Lv2t = − 1 ログ Lv2t = − 1 0.57
𝐵 Lt2v = − 1 𝐵 Lt2v = − 1 0.64
𝐵 exp(𝑓 (𝑖) · 𝑔(𝑖)) 𝑗=1 exp(𝑓 (𝑖) · 𝑔( 𝑗)) , 𝐵 exp(𝑔(𝑖) · 𝑓 (𝑖)) 𝑗=1 exp(𝑔(𝑖) · 𝑓 ( 𝑗)) . 𝐵 exp(𝑓 (𝑖) · 𝑔(𝑖)) 𝑗=1 exp(𝑓 (𝑖) · 𝑔( 𝑗)) , 𝐵 exp(𝑔(𝑖) · 𝑓 (𝑖)) 𝑗=1 exp(𝑔(𝑖) · 𝑓 ( 𝑗)) . 0.46
𝐵 log (8) Here, 𝐵 is the batch size, and 𝑓 (𝑖), 𝑔( 𝑗) are the embeddings of the 𝑖𝑡ℎ video and 𝑗𝑡ℎ text embeddings (corresponding to the 𝑗𝑡ℎ video) respectively. 𝐵 ログ (8) ここで、Bはバッチサイズ、f(i),g(j)は、それぞれithビデオとjthテキストの埋め込み(jthビデオに対応する)の埋め込みである。 0.75
Note that we use the matching text-video pairs in a given batch as positive samples and all the other pairs as negative samples. 一致するテキスト-ビデオ対を正のサンプルとして、他のすべてのペアを負のサンプルとして使用することに注意してください。 0.57
𝑖=1 Avinash Madasu, Junier Oliva, and Gedas Bertasius 𝑖=1 Avinash Madasu, Junier Oliva, Gedas Bertasius 0.33
During inference, given an initial user query 𝑇 and the previous dialog history 𝐻𝑡, we extract a textual embedding 𝑔 = 𝐺(𝑇 , 𝐻𝑡; 𝜃𝑡) using our trained textual encoder where 𝑔 ∈ R1×𝑑. 推測において、初期ユーザクエリTと過去のダイアログ履歴Htが与えられた場合、トレーニングされたテキストエンコーダを用いて、g ∈ R1×d を用いてテキスト埋め込み g = G(T , Ht; θt) を抽出する。 0.70
Additionally, we also extract visual embeddings 𝑓 (𝑖) = 𝐹(𝑉 (𝑖); 𝜃𝑣) for every video 𝑉 (𝑖) where 𝑖 = 1 . . . 𝑁 . さらに、i = 1 . N となるすべてのビデオ V (i) に対して、視覚的埋め込み f (i) = F(V (i); θv) も抽出する。 0.78
We then stack the resulting visual embeddings [𝑓 (1); . . . ; 𝑓 (𝑁)] into a single feature matrix 𝑌 ∈ R𝑁×𝑑. 次に、得られる視覚的埋め込み [f (1); . ; f (N)] を単一の特徴行列 Y ∈ RN×d に積み重ねる。 0.70
Afterward, the video retrieval probability distribution 𝑝 ∈ R1×𝑁 is computed as a normalized dot product between a single textual embedding 𝑔 and all the visual embeddings 𝑌. その後、単一のテキスト埋め込みgとすべての視覚埋め込みYとの間の正規化ドット積として、ビデオ検索確率分布p ∈ R1×Nを算出する。 0.65
This can be written as: 𝑝 = Softmax(𝑔𝑌⊤). これは次のように書くことができる: p = Softmax(gY)。 0.78
For simplicity, throughout the remainder of the draft, we denote this whole operation as 𝑝 = VRM(𝑇 , 𝐻𝑡). 単純性については、ドラフトの残りを通して、この操作全体をp = VRM(T, Ht)と表現する。 0.68
4 INFORMATION-GUIDED SUPERVISION FOR 4 インフォメーションガイドによる監督 0.44
QUESTION GENERATION Our goal in the above-described question generation step is to generate questions that will maximize the subsequent video retrieval performance. 質問生成 上記の質問生成ステップの目標は、その後のビデオ検索性能を最大化する質問を生成することです。 0.48
To do so, the generator must be able to comprehend: そのためには、ジェネレータが理解できなければならない。 0.62
(i) the information it has already obtained, e g through the history of dialogue and initial query; i) 既に取得した情報,例えば対話の歴史及び初期問い合わせを通した情報 0.61
(ii) its current belief and ambiguity over potential videos that should be retrieved to the user, e g through the current top candidate videos; and (ii)例えば、現在のトップ候補ビデオを通して、ユーザーが検索すべき可能性のあるビデオに対する現在の信念と曖昧さ 0.78
(iii) the potential information gain of posing new questions, e g the anticipated increase in performance that may be had by posing certain questions. (iii)新たな質問を行うことによる潜在的な情報獲得、例えば、特定の質問をすることで得られるパフォーマンスの期待値の増加。 0.74
Although providing currently known information and belief over videos is straightforward via the dialogue history and top-𝑘 candidate videos, respectively, comprehending (and planning for) future informative questions is difficult. 現在知られている情報とビデオ上の信条は、それぞれ対話履歴とトップk候補ビデオを通じて簡単に得られるが、将来の情報的質問の理解(および計画)は困難である。 0.69
A major challenge stems from the free-form nature of questions that may be posed. 主な課題は、提起される可能性のある質問の自由形式の性質に起因している。 0.54
There is a large multitude of valid next questions to pose. 正当な次の質問をする人はたくさんいます。 0.58
Explicitly labeling the potential information gain of all valid next questions shall not scale. すべての有効な次の質問の潜在的な情報ゲインを明示的にラベル付けることは、スケールしない。 0.47
One may define the task of posing informative queries as a Markov decision process (MDP), where the current state contains known information, actions include possible queries to make, and rewards are based on the number of queries that were made versus the accuracy of the resulting predictions [25, 42]. 情報クエリをマルコフ決定プロセス(mdp:markov decision process)として構成するタスクを定義してもよい。現在の状態が既知の情報を含んでおり、アクションには作成すべきクエリが含まれており、報酬は結果の予測の正確さに対して行われたクエリの数に基づいている [25, 42]。 0.69
Previous interactive image retrieval [7, 33] approaches have used similar MDPs optimized through reinforcement learning to train policies that may select next questions from a limited finite list. 従来のインタラクティブ画像検索 [7, 33] アプローチでは、強化学習によって最適化された類似のMDPを使用して、限られた有限リストから次の質問を選択する可能性のあるポリシーを訓練している。
訳抜け防止モード: 従来のインタラクティブ画像検索 [7, 33] アプローチは強化学習により最適化された類似のMDPを用いた 限られた有限リストから次の質問を 選ぶポリシーを訓練する
0.77
However, these reinforcement learning (RL) approaches suffer when the action space is large (as is the case with open-ended question generation) and when rewards are sparse (as is the case with accuracy after final prediction) [25]. しかし、これらの強化学習(rl)アプローチは、アクションスペースが大きい(オープンエンドの質問生成の場合)と、報酬が不足している(最終予測後の精度の場合のように)場合[25]に苦しむ。 0.69
Thus, we propose an alternative approach, information-guided question generation supervision (IGS), that bypasses a difficult RL problem, by explicitly defining informative targets for the question generated based on a post-hoc search. そこで我々は,難解なRL問題を回避し,ポストホック検索に基づく質問に対する情報的ターゲットを明確に定義することで,情報誘導型質問生成監視(IGS)という代替手法を提案する。 0.76
Suppose that for each video 𝑉 (𝑖), 𝑖 ∈ {1, . . . , 𝑁}, we also have 𝑚 distinct human-generated questions/answers relevant to the video 𝐷(𝑖) = {𝐷(𝑖) 𝑚 }. 各ビデオ v (i) i ∈ {1, . . . , n} に対して、ビデオ d(i) = {d(i) m } に関連する m 個の異なる人間生成の質問/回答があるとする。 0.82
Typically, such data is collected independently to any particular video retrieval system; e g in the AVSD [3] dataset, users ask (and answer) multiple questions about the content of a given video (without any particular goals in mind). 例えば、avsd [3]データセットでは、ユーザは特定のビデオの内容について(特定の目的を念頭に置いていなくても)複数の質問を尋ねる(そして答える)。
訳抜け防止モード: 通常、そのようなデータは特定のビデオ検索システムとは独立して収集される。 AVSD [ 3 ] データセットの g について、ユーザは () 回答) あるビデオの内容に関する複数の質問(特定の目的を念頭に置いていない)。
0.78
However, these human-generated questions can serve as potential targets for our question generator. しかし、これらの人間が生成した質問は、私たちの質問生成者の潜在的なターゲットとなり得る。 0.47
With IGS, we propose to filter through 𝐷(𝑖) according to the retrospective performance as follows. IGSでは, 振り返り性能に応じて, D(i) をフィルタリングすることを提案する。 0.68
During training, we collect targets for the question generator at each round of dialogue separately. 学習中、各対話のラウンド毎に質問生成のためのターゲットを別々に収集する。 0.64
Let 𝑇 (𝑖), be an initial textual T (i) を初期テキストとする 0.64
1 , . . . , 𝐷(𝑖) 1 , . . . , 𝐷(𝑖) 0.42
英語(論文から抽出)日本語訳スコア
Learning to Retrieve Videos by Asking Questions 質問によるビデオ検索の学習 0.73
, , query corresponding to ground truth video 𝑉 (𝑖). , , 地上の真理ビデオV(i)に対応するクエリ。 0.60
Then, also let 𝑆 (𝑖) 𝑡,1 , . . . , 𝑆 (𝑖) 𝑡,𝑘 be our predicted text summaries of top-𝑘 retrieved candidate videos after the 𝑡th rounds of dialogue, 𝐻 (𝑖) (note that 𝐻 (𝑖) 0 = ∅). 次に、S (i) t,1 , . , S (i) t,k を、第12ラウンドの対話の後、トップk検索した候補ビデオの予測テキスト要約として H (i) (注意: H (i) 0 = s) とする。 0.74
We try appending question/answers (𝑞, 𝑎) in 𝐷(𝑖) not in 𝐻 (𝑖) and see which remaining question would most improve 𝑡 retrieval performance. h(i) にない d(i) にq/answers (q, a) を付加し、どの質問が t の検索性能を最も向上させるかを確かめる。 0.72
That is, we collect to 𝐻 (𝑖) つまり、収集する h (複数形 hs) 0.61
𝑡 𝑡 (cid:104) 𝑡 𝑡 (cid:104) 0.41
𝑡 ∪ {(𝑞, 𝑎)})(cid:105) t が {(q, a)})(cid:105) 0.45
, 𝑖 , (10) , 𝑖 , (10) 0.42
𝑖=1 𝑡+1 , 𝑎∗(𝑖) (𝑞∗(𝑖) 𝑖=1 𝑡+1 , 𝑎∗(𝑖) (𝑞∗(𝑖) 0.64
𝑡+1 ) = argmax 𝑡+1 ) = argmax 0.41
(𝑞,𝑎)∈(𝐷 (𝑖)\𝐻 (𝑖) (𝑞,𝑎)∈(𝐷 (𝑖)\𝐻 (𝑖) 0.42
) VRM(𝑇 (𝑖), 𝐻 (𝑖) ) VRM(T(i)、H(i) 0.41
𝑡 (cid:104) 𝑡 (cid:104) 0.41
(9) where VRM is our previously described video retrieval model (see Sec. 3.3). (9)VRMはこれまでに記述したビデオ検索モデルである(Sec.3参照)。 0.76
Note that here, = 𝑝𝑖, which depicts our previously defined retrieval probability between the ground truth video𝑉 (𝑖), and the concatenated text query𝑇 (𝑖), 𝐻 (𝑖) 𝑡 ∪ {(𝑞, 𝑎)}. ここで、 = pi は、前述した基底真理 videov (i) と連結されたテキストクエリ (i, h (i) t) {(q, a)} の間の検索確率を表す。
訳抜け防止モード: ここでは、地上の真理ビデオV(i)の間の事前定義された検索確率を表す=piに注意。 and the concatenated text queryT ( i ), H ( i ) t t { ( q, a ) } である。
0.81
Each of the retrospective best questions are then set up as a target for the question generator at the 𝑡 + 1th round それぞれのレトロスペクティブのベストな質問は、t + 1ラウンドの質問ジェネレータのターゲットとして設定されます。 0.65
VRM(𝑇 (𝑖), 𝐻 (𝑖) VRM(T(i)、H(i) 0.40
𝑡 ∪ {(𝑞, 𝑎)})(cid:105) t が {(q, a)})(cid:105) 0.45
𝑖 (cid:110)(cid:16)(ci d:16)𝑇 (𝑖), 𝑆 (𝑖) 𝑖 (cid:110)(cid:16)(ci d:16)T(i),S(i) 0.44
𝑡,1 , . . . , 𝑆 (𝑖) 𝑡,1 , . . . , 𝑆 (𝑖) 0.50
𝑡,𝑘 D𝑡+1 = 𝑡,𝑘 Dt+1 = 0.39
(cid:16)𝑇 (𝑖), 𝑆 (𝑖) (cid:16)T(i)S(i) 0.42
(cid:17) 𝑡,1 , . . . , 𝑆 (𝑖) , 𝐻 (𝑖) (cid:17) 𝑡,1 , . . . , 𝑆 (𝑖) , 𝐻 (𝑖) 0.49
𝑡,𝑘 , 𝐻 (𝑖) 𝑡,𝑘 , 𝐻 (𝑖) 0.42
𝑡 (cid:17) , 𝑞∗(𝑖) 𝑡 (出典:17)、q∗(i) 0.58
𝑡+1 (cid:17)(cid:111)𝑁 𝑡+1 (cid:17)(cid:111)N 0.34
𝑡 where 𝑡+1 , 𝑎∗(𝑖) 𝑡 どこに 𝑡+1 , 𝑎∗(𝑖) 0.52
are the respective initial query, our predicted text summaries of top-k previous retrievals, and dialogue history that are inputs to the question generator, BART𝑞. それぞれの最初のクエリ、トップk以前の検索の予測されたテキスト要約、質問生成器bartqへの入力である対話履歴です。 0.69
The target question/answers are appended to the histories 𝐻 (𝑖) 𝑡+1 = 𝐻 (𝑖) 𝑡 ∪ {(𝑞∗(𝑖) 𝑡+1 )}, and the next round of target questions D𝑡+2 is similarly collected. 対象の質問/回答は、ヒストリー H (i) t+1 = H (i) t > {(q∗(i) t+1 )} に付加され、対象の質問の次のラウンドDt+2が同様に収集される。 0.77
Please note that D𝑡+1 depends on D𝑡 since we consider appending questions to previous histories. Dt+1がDtに依存していることに注意してください。 0.53
That is, at each round we look for informative questions based on the histories seen at that round. つまり、各ラウンドでは、そのラウンドで見た履歴に基づいて、情報的な質問を探します。 0.61
Jointly, the dataset D1 ∪D2 ∪ . データセット d1 は d2 である。 0.68
. . ∪D𝑀 serve as a supervised dataset to directly train the question generator, BART𝑞, to generate informative questions. . . ADMは、質問生成器BARTqを直接訓練し、情報的質問を生成するための教師付きデータセットとして機能する。 0.49
5 EXPERIMENTS 5.1 Dataset We test our model on the audio-visual scene aware dialog dataset (AVSD) [3], which contains ground truth dialog data for every video in the dataset. 5 ExPERIMENTS 5.1 Dataset 私たちは、データセット内のすべてのビデオに対して、真実のダイアログデータを含むオーディオ視覚シーン認識ダイアログデータセット(AVSD)[3]でモデルをテストします。 0.82
Specifically, each video in the AVSD dataset has 10 rounds of human-generated questions and answers describing various details related to the video content (e g , objects, actions, scenes, people, etc.). 具体的には、AVSDデータセットの各ビデオは、ビデオコンテンツ(例えば、オブジェクト、アクション、シーン、人々など)に関連するさまざまな詳細を記述した10ラウンドの人間生成の質問と回答を持っている。 0.82
Thus, we believe that this dataset is well suited to our setting. したがって、このデータセットは設定に適していると考えています。 0.72
In total, the AVSD dataset consists of 7, 985 training, 863 validation, and 1, 000 testing videos [29]. avsdデータセットは合計7,985のトレーニング,863の検証,10,000のテストビデオ [29] で構成されている。 0.75
Throughout our experiments, we use standard training, validation and test splits. 実験では、標準的なトレーニング、検証、テスト分割を使っています。 0.68
5.2 Implementation Details 5.2.1 Question Generator. 5.2 実施詳細 5.2.1 質問生成装置 0.58
We train our question generator using the BART large architecture. BARTの大規模アーキテクチャを使って質問生成を訓練する。 0.64
We set the maximum sentence length to 120. 我々は最大文長を120に設定した。 0.77
During generation, we use the beam search of size 10. 生成時にサイズ10のビームサーチを用いる。 0.61
The question generator is trained for 5 epochs with a batch size of 32. 質問生成器は、バッチサイズ32の5つのエポックで訓練される。 0.69
5.2.2 Answer Generator. 5.2.2 アンサー発電機。 0.49
We also use the BART large architecture to train our answer generator. また、BARTの大規模アーキテクチャを使って回答ジェネレータをトレーニングしています。 0.55
Note that the question and answer generators use the same architecture but are trained with two different objectives, thus, resulting in two distinct models. 質問と回答のジェネレータは同じアーキテクチャを使用するが、2つの異なる目的で訓練されているため、2つの異なるモデルになる。 0.69
The maximum sentence length for answer generation is set to 135. 最大 応答生成のための文長を135に設定する。 0.56
During generation, we use the beam search of size 8. 生成過程において,8 次元のビーム探索を用いる。 0.68
The model is trained with a batch size of 32 for 2 epochs. モデルは2エポックに対して32のバッチサイズで訓練される。 0.75
5.2.3 Video Retrieval Model. 5.2.3 ビデオ検索モデル。 0.58
We use Frozen-in-Time (FiT) [5] codebase to implement our video retrieval model. ビデオ検索モデルの実装にはFrozen-in-Time (FiT) [5] コードベースを使用します。 0.66
Specifically, we finetune their provided pretrained model on the AVSD dataset for 20 epochs with a batch size of 16. 具体的には、AVSDデータセットで提供されたトレーニング済みモデルを、バッチサイズ16の20エポックで微調整する。 0.67
Early stopping is applied if the validation loss doesn’t improve for 10 epochs. 検証の損失が10エポックで改善されない場合、早期停止が適用される。 0.69
We use AdamW [28] optimizer with a learning rate of 3𝑒−5. 学習速度が3e−5のAdamW[28]オプティマイザを使用する。 0.63
5.2.4 Vid2Sum Captioning Model. 5.2.4 Vid2Sumキャプションモデル。 0.55
We fine-tune the video paragraph captioning model on the training set of AVSD for 5 epochs. AVSDのトレーニングセットの動画段落のキャプションモデルを5時間にわたって微調整する。 0.70
We use the same hyper parameters as in [43]. 私たちは[43]と同じハイパーパラメータを使用します。 0.77
During inference, we use our trained Vid2Sum model to generate textual summaries for each input video. 推論では、トレーニング済みのVid2Sumモデルを用いて、各入力ビデオのテキスト要約を生成する。 0.64
The generated summary has a maximum length of 25. 生成した要約の最大長は25である。 0.81
5.3 Evaluation Metrics. We measure the video retrieval performance using standard Recall@k (𝑘 = 1, 5, 10), and MedianR MeanR evaluation metrics. 5.3 評価基準 標準的なRecall@k(k = 1, 5, 10)とMedianR MeanR評価値を用いて,ビデオ検索性能を測定した。 0.80
Recall@k calculates the percentage of test data for which the groundtruth video is found in the retrieved 𝑘 videos (the higher the better). Recall@kは、検索したkビデオ(より高い値)で、基礎となるビデオが見つかるテストデータの割合を計算する。 0.66
Additionally, the MeanR and MedianR metrics depict the mean and the median rank of the retrieved ground truth videos respectively (the lower the better). さらに、MeanRとMedianRのメトリクスは、検索した地上の真理ビデオの平均と中央のランクをそれぞれ(より低いほど)描いている。 0.73
Unless noted otherwise, all models are averaged over 3 runs. 特筆すべきこと以外は、すべてのモデルは平均3回の走行を行う。 0.56
5.4 Video Retrieval Baselines 5.4 ビデオ検索ベースライン 0.74
LSTM [29]. Maeok et al [29] proposed an LSTM-based model that processes human-generated ground truth dialog for video retrieval. lstm[29]。 Maeok et al [29] はビデオ検索のために人間の生成した真実対話を処理するLSTMモデルを提案した。 0.53
Unlike this prior approach, our interactive ViReD approach does not require ground truth dialog data during inference. この従来の手法とは異なり、我々の対話型ViReDアプローチは推論中に真実のダイアログデータを必要としない。 0.63
Instead, during each round of interaction, our method generates novel openended questions that maximize video retrieval accuracy. その代わり、各ラウンドのインタラクションにおいて、ビデオ検索精度を最大化する新しいオープンド質問を生成する。 0.56
Frozen-in-Time [5]. 凍結した時間[5]。 0.72
We fine-tune the Frozen-in-Time (FiT) model to retrieve the correct video using the initial textual query 𝑇 as its input (without using dialog). 本研究では、Frozen-in-Time(FiT)モデルを微調整し、初期テキストクエリTを入力として(ダイアログなしで)正しいビデオを取得する。
訳抜け防止モード: We fine - tune the Frozen - in - Time (FiT ) model 初期テキストクエリTを入力として(ダイアログを使用せずに)正しいビデオを取得する。
0.72
Frozen-in-Time w/ Ground Truth Human Dialog. フリーズ・イン・タイム w/グランド・トゥルート・ヒューマン・ダイアログ。 0.46
We finetune the Frozen-in-Time model using the textual query and the full 10 rounds of human-generated ground truth dialog history. テキストクエリと10ラウンドの人間生成地上真実ダイアログ履歴を用いてFrozen-in-Timeモデルを微調整する。 0.69
Unlike our ViReD approach, which uses our previously introduced question and answer generators to generate dialog, this Frozen-in-Time w/ Dialog baseline uses 10 rounds of manually annotated human dialog history during inference. 我々のViReDアプローチとは違い、このFrozen-in-Time w/Dilogベースラインでは、推論中に手動で注釈付けされた人間の対話履歴を10ラウンド使用しています。
訳抜け防止モード: われわれのViReDアプローチとは違って。 以前導入された質問と回答ジェネレータを使ってダイアログを生成する。 This Frozen - in - Time w/ Dialog baseline using 10 rounds of manual annotated human dialog history during inference .
0.77
In this setting, we concatenate 10 rounds of ground truth dialog with the initial text query, and use the concatenated text for video retrieval. この設定では、10ラウンドの地上真実ダイアログと初期テキストクエリを連結し、その連結テキストをビデオ検索に使用する。 0.66
6 RESULTS AND DISCUSSION 6.1 Quantitative Video Retrieval Results In Table 1, we compare our method with the previously described video retrieval baselines. 6 結果と議論 6.1 定量的ビデオ検索結果の表 1 において,本手法を先に述べたビデオ検索ベースラインと比較した。
訳抜け防止モード: 6 結果と議論 6.1 表 1 における定量的ビデオ検索結果 本手法を先述した映像検索ベースラインと比較する。
0.83
We summarize our key results below. 以下に主要な結果をまとめる。 0.64
6.1.1 The Importance of Pretraining. 6.1.1 事前訓練の重要性。 0.56
The results in Table 1 indicate that large-scale pretraining provides significant boost in video 表1の結果は,大規模事前学習がビデオの大幅な向上をもたらすことを示している 0.61
英語(論文から抽出)日本語訳スコア
, , Avinash Madasu, Junier Oliva, and Gedas Bertasius , , Avinash Madasu, Junier Oliva, Gedas Bertasius 0.39
Table 1: Comparison to prior video retrieval models. 表1: 以前のビデオ検索モデルとの比較。 0.86
In the "Pretrain Data" column, we list external datasets used for pretraining. Pretrain Data"カラムでは、事前トレーニングに使用される外部データセットをリストアップする。 0.77
The "Dialog" and "Dialog Rounds" columns depict whether the dialog is used as additional input, and if so how many rounds of it. Dialog" と "Dialog Rounds" の列には、ダイアログが追加入力として使用されるか、そのラウンドがいくつあるかが描かれている。 0.81
Based on these results, we observe that our ViReD approach outperforms all baselines, including a strong Frozenin-Time baseline augmented with 10 rounds of human-generated ground truth dialog. これらの結果から,我々のViReDアプローチは,強力なフロゼニン時間ベースラインを10ラウンドの人間生成真実ダイアログで強化するなど,すべてのベースラインを上回ります。 0.75
Pretrain Data Dialog Dialog Rounds (↓) R@1 (↑) R@5 (↑) R@10 (↑) MedianR (↓) MeanR (↓) Model ImageNet [39] ! プリトレインデータダイアログ ダイアログ(英語版) ラウンド(英語版) (s) r@1 (s) r@5 (s) r@10 (s) 中央値(s) 平均値 (s) 平均値(英語版) (s) モデルimagenet [39] ! 0.54
LSTM [29] WebVid2M [5] ✗ FiT [5] FiT [5] w/ Human Dialog [29] WebVid2M [5] ! LSTM [29] WebVid2M [5] > FiT [5] FiT [5] w/ Human Dialog [29] WebVid2M [5]! 0.48
ViReD WebVid2M [5] ! ViReD WebVid2M[5]! 0.95
119 95.4 58.7 69.1 119 95.4 58.7 69.1 0.27
13.5 18.4 28.9 30.5 13.5 18.4 28.9 30.5 0.23
22.1 27.5 40 42.1 22.1 27.5 40 42.1 0.27
4.2 5.6 10.8 12 4.2 5.6 10.8 12 0.27
10 − 10 3 − 25 18 17 10 − 10 3 − 25 18 17 0.43
Table 2: Comparison to the state-of-the-art on the video question answering task on the AVSD dataset. 表2: AVSDデータセット上のビデオ質問応答タスクの最先端技術との比較。 0.75
Our answer generator outperforms most prior methods and achieves comparable performance to the state-of-the-art Vx2Text [27] system. 我々の回答生成器は,従来の手法よりも優れており,最先端のvx2text [27]システムと同等の性能を実現している。 0.51
BLEU-1 BLEU-2 BLEU-3 BLEU-4 METEOR ROUGE-L Model 0.256 MA-VDS [16] QUALIFIER [47] 0.276 0.279 Simple [41] 0.289 RLM [26] 0.311 VX2TEXT [27] Ours 0.308 BLEU-1 BLEU-2 BLEU-3 BLEU-4 TEOR ROUGE-L Model 0.256 MA-VDS [47] 0.276 0.279 Simple [41] 0.289 RLM [26] 0.311 VX2TEXT [27] 0.308 0.36
0.078 0.086 0.095 0.11 0.123 0.121 0.078 0.086 0.095 0.11 0.123 0.121 0.22
0.161 0.177 0.183 0.198 0.217 0.215 0.161 0.177 0.183 0.198 0.217 0.215 0.22
0.113 0.119 0.122 0.14 0.148 0.149 0.113 0.119 0.122 0.14 0.148 0.149 0.22
0.277 0.294 0.303 0.337 0.35 0.351 0.277 0.294 0.303 0.337 0.35 0.351 0.22
0.109 0.121 0.13 0.145 0.16 0.158 0.109 0.121 0.13 0.145 0.16 0.158 0.22
Figure 4: We study the video retrieval performance (R@1) as a function of the number of dialog rounds. 図4: ダイアログラウンド数の関数として, ビデオ検索性能(R@1)について検討する。 0.72
Based on these results, we observe that the video retrieval accuracy consistently improves as we consider additional rounds of dialog. これらの結果から,追加の対話ラウンドを考えると,ビデオ検索精度は一貫して向上することがわかった。 0.69
We also note that the performance of our interactive framework reaches its peak after 3 rounds of dialog. また,対話型フレームワークの性能は3ラウンドの対話後にピークに達することに留意する。 0.72
retrieval performance. Specifically, we note that the original Frozenin-Time (FiT) baseline pretrained on large-scale WebVid2M [5] outperforms the previous state-of-the-art LSTM approach [29] by 1.4% according to R@1 even without using any dialog data. 検索性能。 特に,大規模な webvid2m [5] で事前トレーニングされたオリジナルの frozenin-time (fit) ベースラインは,ダイアログデータを使用しなくても,従来の lstm アプローチ [29] を1.4%上回っている。 0.67
6.1.2 Dialog Effectiveness. 6.1.2 ダイアログの有効性。 0.44
Next, we demonstrate that dialog is a highly effective cue for the video retrieval task. 次に,ビデオ検索タスクにおいてダイアログが極めて効果的であることを示す。 0.76
Specifically, we first show that the FiT baseline augmented with 10 rounds of humangenerated ground truth dialog performs 5.2% better in R@1 than the same FiT baseline that does not use dialog (Table 1). 具体的には,10ラウンドの人間生成真実ダイアログを付加したFiTベースラインが,ダイアログを使用しないFiTベースラインよりも,R@1の方が5.2%向上していることを示す(表1)。 0.75
This is a significant improvement that highlights the importance of additional information provided by dialog. これはダイアログが提供する追加情報の重要性を強調する重要な改善である。 0.86
6.1.3 The Number of Dialog Rounds. 6.1.3 ダイアログのラウンド数。 0.66
Next, we observe that despite using only 3 rounds of dialog our ViReD approach outperforms the strong FiT w/ Human Dialog baseline, which uses 10 rounds of human-generated ground truth dialog. 次に、我々のViReDアプローチは、わずか3ラウンドのダイアログを使用するにもかかわらず、10ラウンドの人為的真実ダイアログを使用する強力なFiT w/ Human Dialogベースラインよりも優れていることを観察する。 0.64
It is worth noting that these 10 rounds of dialog were generated in a retrieval-agnostic manner (i.e., without any particular goal in mind), which may explain this result. この10ラウンドのダイアログが検索に依存しない方法で生成された(すなわち、特定の目的を念頭に置いていない)ことは、この結果を説明する可能性がある。 0.65
Nevertheless, this result indicates that a few questions (e g , 3) generated by our model are as informative as 10 task-agnostic human generated questions. しかし,この結果から,本モデルで生成した質問(例,3)は,タスクに依存しない質問10件と同じくらい有益であることが示唆された。 0.58
In Figure 4, we also plot the R@1 video retrieval accuracy of our model as a function of the number of the dialog rounds. 図4では、ダイアログラウンドの回数の関数として、我々のモデルのR@1ビデオ検索精度をプロットする。 0.72
From this figure, we observe that the performance of our system consistently improves as we use more dialog rounds. この図から、より多くのダイアログラウンドを使用すると、システムの性能が一貫して向上することが分かる。 0.64
Furthermore, we note that the performance reaches its peak with 3 rounds of interactions. さらに,3ラウンドのインタラクションで性能がピークに達することに留意する。 0.62
6.2 Video Question Answering Results 6.2.1 Comparison to the State-of-the-Art. 6.2 ビデオ質問回答結果 6.2.1 現状との比較 0.67
As discussed above, we use our answer generator to simulate human presence in an interactive dialog setting. 上記のように,対話的な対話環境において,人間の存在をシミュレートするために回答生成器を用いる。 0.63
To validate the effectiveness of our answer generator, we evaluate its performance on the video question answering task on AVSD using the same setup as in Simple [41], and Vx2Text [27]. 提案手法の有効性を検証するため,ビデオ質問応答タスクにおいて,Simple [41] と Vx2Text [27] と同じセットアップを用いて,その性能を評価する。 0.76
We present these results in Table 2 where we compare our answer generation method with the existing video question answering baselines. 本稿では,これらの結果を表2に示し,既存のビデオ質問応答ベースラインと比較する。 0.74
Our results indicate that our answer generation model significantly outperforms many previous methods, including MA-VDS [16], QUALIFIER [47], Simple [41] and RLM [26]. 以上の結果から,MA-VDS [16], QUALIFIER [47], Simple [41], RLM [26] など,従来の手法よりもはるかに優れていたことが示唆された。 0.73
Furthermore, we note that our answer generator achieves similar performance as the recent Vx2Text model [27]. さらに,最近のvx2textモデル [27] と同様の性能を実現している点にも注目する。 0.67
These results indicate that our answer generator is comparable or even better than the state-of-the-art video-based question answering approaches. これらの結果から,我々の回答生成手法は最先端のビデオベースの質問応答手法と同等かそれ以上に優れていることが示された。 0.51
英語(論文から抽出)日本語訳スコア
Learning to Retrieve Videos by Asking Questions 質問によるビデオ検索の学習 0.73
, , Table 3: To validate the effectiveness of our interactive framework in the real-world setting, we replace our automatic answer generator oracle with several human subjects. , , 表3: 実世界における対話型フレームワークの有効性を検証するため, 自動回答生成装置を複数の被験者に置き換える。 0.57
Specifically, we randomly select 50 videos from the AVSD dataset, and ask 3 subjects to provide answers to our generated questions. 具体的には、AVSDデータセットから50の動画をランダムに選択し、3人の被験者に回答を求める。 0.74
We then use those dialogs to measure video retrieval performance as before. 次に、これらのダイアログを使用して、以前のようにビデオ検索性能を測定します。 0.50
Our results suggest that our framework generalizes effectively to the settings involving real human subjects. 以上の結果から,本フレームワークは実際の被験者に関する設定に効果的に一般化できることが示唆された。
訳抜け防止モード: 私たちの結果は 我々の枠組みは 現実の被験者を巻き込んだ 設定を効果的に一般化する
0.57
The video retrieval is performed only on the subset of 50 selected videos. ビデオ検索は、選択された50本のビデオのサブセットのみで行う。 0.75
Method Answer Generator 43.8 Human Subject #1 45.2 45.8 Human Subject # Human Subject # 45.6 メソッドアンサージェネレータ43.8 人体#1 45.2 45.8 人体#45.6 0.67
R@1 (↑) R@5 (↑) R@10 (↑) MedianR (↓) MeanR (↓) r@1(i) r@5(i) r@10(i) 中央値 (i) 平均値 (i) 平均値 (i) 0.51
79.2 81 81.2 81.2 79.2 81 81.2 81.2 0.27
91.7 92.7 93 92.9 91.7 92.7 93 92.9 0.27
2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 0.23
3.6 3.5 3.4 3.4 3.6 3.5 3.4 3.4 0.23
Figure 5: We study the effectiveness of using our proposed Information-guided Supervision (IGS) to train the question generator. 図5: 提案した情報誘導スーパービジョン(IGS)を用いて質問生成装置を訓練する効果について検討する。 0.71
As our baseline we train the question generator to generate questions in a video retrieval-agnostic fashion, i.e., using the same order as the human annotators did when they asked those questions. ベースラインとして、質問生成器を訓練して、ビデオ検索に依存しない方法で質問を生成します。
訳抜け防止モード: ベースラインとして、質問生成器をトレーニングして、ビデオ検索で質問を生成する。 つまり 人間のアノテーターと同じ順序で 質問をした時
0.62
Our results indicate that our proposed IGS training objective produces superior performance compared to the video retrieval-agnostic baseline. 提案するigs訓練目標が,ビデオ検索非依存のベースラインよりも優れた性能を示すことが示唆された。
訳抜け防止モード: 私たちの結果は 提案するigsトレーニング目標は,ビデオ検索のベースラインと同等の性能を示す。
0.68
Figure 6: We study the video retrieval performance in two settings: 図6:ビデオ検索性能を2つの設定で検討する。 0.81
(i) when the question generator uses top-k retrieved videos as part of its inputs, and (i)質問生成装置が入力の一部としてトップk検索ビデオを使用する場合 0.82
(ii) when it does not. (ii)そうでない場合。 0.69
In this case, k is set to 4. この場合、k は 4 に設定される。 0.77
Based on the results, we observe that including top-k retrieved video candidates as part of the question generator inputs improves video retrieval accuracy for all number of dialog rounds. その結果,質問生成器入力の一部としてトップk検索されたビデオ候補を含めることで,対話ラウンドの総数に対するビデオ検索精度が向上することがわかった。 0.74
6.2.2 Replacing Our Answer Generator with a Human Subject. 6.2.2 応答生成器を人間に置き換える。 0.71
To validate whether our interactive framework generalizes to the realworld setting, we conduct a human study where we replace our proposed answer generator with several human subjects. 対話型フレームワークが現実世界に一般化するかどうかを検証するために,提案する応答生成器を複数の被験者に置き換える人間実験を行った。 0.65
To do this, we randomly select 50 test videos from AVSD, and ask 3 human subjects to answer questions produced by our question generator. そこで我々は,AVSDから50の動画をランダムに選択し,質問生成者による質問に答えるために3人の被験者に質問する。 0.75
We then use the answers of each subject along with the generated questions as input to the video retrieval model (similar to our previously described setup). 次に、各被験者の回答と生成された質問をビデオ検索モデルへの入力として使用します(前述した設定と似ています)。 0.68
In Table 3, we report these results for each of 3 human subjects. 表3では、これらの結果を3人の被験者それぞれに報告する。 0.67
These results suggest that our interactive framework works reliably even with real human subjects. これらの結果から,対話型フレームワークは実際の人間でも確実に機能することが示唆された。 0.53
Furthermore, we note that compared to the variant that uses an automatic answer generator, the variant with a human in the loop performs only slightly better, thus, indicating the robustness of our automatic answer generation framework. さらに,自動応答生成器を使用する変種と比較して,ループ内の人間が持つ変種の方がわずかに優れており,自動応答生成フレームワークの頑健さを示している。 0.71
Note that in this case, the video retrieval is performed only on the subset of 50 selected videos. なお、この場合、ビデオ検索は、選択された50の動画のサブセットでのみ実行される。 0.75
6.3 Ablation Studies Next, we ablate various design choices of our model. 6.3 アブレーション研究 次に, 様々な設計選択を省略する。 0.75
Specifically, (i) we validate the effectiveness of our proposed Information-guided 具体的には、(i)提案した情報誘導の有効性を検証する。 0.60
Figure 7: We investigate the video retrieval performance as a function of the number of retrieved candidate video inputs that are fed into the question generator. 図7: 質問生成器に入力された検索された候補映像の回数の関数として, ビデオ検索性能について検討する。 0.81
These results indicate that the video retrieval performance is the best when we use 4 retrieved videos as inputs to our question generator. これらの結果から,質問生成装置の入力として4つの検索ビデオを用いた場合,映像検索性能が最も良いことがわかった。
訳抜け防止モード: これらの結果は ビデオ検索性能は 4つの検索されたビデオを 質問生成器の入力として使うのに最適です
0.75
Supervision (IGS), スーパービジョン(IGS) 0.60
(ii) the importance of using retrieved candidate videos for question generation, and (ii)質問生成における検索候補ビデオの利用の重要性 0.75
(iii) how video retrieval performance changes as we vary the number of candidate video inputs to the question generator. (3) 質問生成器への候補映像の入力数の変化に伴い, 映像検索性能がどう変化するか。 0.77
英語(論文から抽出)日本語訳スコア
, , Avinash Madasu, Junier Oliva, and Gedas Bertasius , , Avinash Madasu, Junier Oliva, Gedas Bertasius 0.39
Figure 8: Qualitative results of our interactive video retrieval framework. 図8: インタラクティブなビデオ検索フレームワークの質的な結果。 0.74
On the left we illustrate the keyframe of the ground truth video 𝑉𝑔𝑡 (i.e., the video that the user wants to retrieve) and the initial textual query for that video. 左側には、地上の真理ビデオVgt(ユーザが検索したいビデオ)のキーフレームと、そのビデオの最初のテキストクエリが説明されている。 0.69
From left to right, we visualize the three rounds of our generated dialog history (using our question generator and the answer generator oracle). 左から右へ、生成したダイアログ履歴の3つのラウンドを可視化します(質問生成と回答生成oracleを使って)。 0.73
Furthermore, under each dialog box, we also illustrate the rank of the ground truth video 𝑉𝑔𝑡 among all videos in the database (i.e., the lower the better). さらに、各ダイアログボックスでは、データベース内のすべてのビデオ(つまり、より低い)の中で、地上の真理ビデオVgtのランクも記述する。 0.70
Based on these results, we observe that each dialog round significantly improves video retrieval results (as indicated by the lower rank of the ground truth video). これらの結果に基づき、各ダイアログラウンドはビデオ検索結果を大幅に改善する(地上の真理ビデオの下位ランクで示されるように)。 0.80
These results indicate the usefulness of dialog cues. これらの結果は,ダイアログ手がかりの有用性を示している。 0.54
6.3.1 Effectiveness of IGS. 6.3.1 IGSの有効性 0.63
To show the effectiveness of IGS, we compare the performance of our interactive video retrieval framework when using IGSの有効性を示すために,対話型ビデオ検索フレームワークの性能を比較した。 0.77
(i) IGS as a training objective to the question generator vs. (i)質問生成器対質問器の学習目標としてのigs 0.61
(ii) using a video retrieval-agnostic objective. (ii)ビデオ検索非依存の目的による。 0.63
Specifically, we note the AVSD dataset has 10 pairs of questions and answers associated with each video. 具体的には、AVSDデータセットには、各ビデオに関連する10の質問と回答がある。 0.74
For the retrieval-agnostic baseline, we use the original order of the questions (i.e., as they appear in the dataset) to construct a supervisory signal for the question generator. 検索非依存のベースラインに対しては、質問生成器の監視信号を構築するために、質問の本来の順序(すなわちデータセットに現れるように)を用いる。 0.75
In other words, we train our BART question generator to ask questions in the same order as the original AVSD human annotators did. 言い換えれば、私たちのBART質問生成器をトレーニングして、元のAVSDの人間アノテーションと同じ順番で質問するのです。 0.74
In contrast, for our IGS-based objective, we order the questions such that they would maximize the subsequent video retrieval accuracy at each round of questions/answers. 対照的に、我々の IGS ベースの目的のために、各質問/回答のラウンドにおける映像検索精度を最大化するように質問を注文する。 0.60
We illustrate these results in Figure 5 where we plot the video retrieval accuracy of both methods as a function of the number of dialog rounds. これらの結果を図5に示し、ダイアログラウンドの回数の関数として、両方の手法のビデオ検索精度をプロットする。 0.80
These results suggest that IGS significantly outperforms the retrieval-agnostic baseline, thus, validating the effectiveness of our proposed IGS technique. これらの結果から, IGSは検索非依存のベースラインよりも有意に優れており, 提案手法の有効性が検証された。
訳抜け防止モード: これらの結果は IGSは検索・非依存ベースラインを著しく上回り,提案手法の有効性を検証した。
0.73
6.3.2 The Importance of Using Retrieved Videos for Question Generation. 6.3.2 質問生成のための検索ビデオの利用の重要性 0.60
In Figure 6, we verify the importance of using retrieved candidate videos for the question generation process. 図6では、質問生成プロセスにおける検索候補ビデオの使用の重要性を検証する。 0.80
Specifically, we compare the video retrieval performance 具体的には 映像検索のパフォーマンスと 0.69
(i) when the question generator uses top-𝑘 retrieved videos as part of its inputs and (i)質問生成装置が入力の一部としてトップk検索ビデオを使用する場合 0.80
(ii) when it does not. (ii)そうでない場合。 0.69
Our results suggest that using top-𝑘 retrieved videos for question generation produces a substantial boost in video retrieval performance. その結果,質問生成にトップk検索ビデオを使用することで,検索性能が大幅に向上することが示唆された。 0.61
We use 𝑘 = 4 in this experiment. この実験では k = 4 を用いる。 0.81
6.3.3 Ablating the Number of Video Inputs for Question Generation. 6.3.3 質問生成のためのビデオ入力数 0.78
Next, in Figure 7, we study the video retrieval performance as a function of the number of retrieved video inputs fed to the question generator. 次に、図7において、質問生成装置に供給される検索された映像の回数の関数として、映像検索性能について検討する。 0.67
These results indicate that the performance gradually increases with every additional video candidate input and reaches the peak when using 𝑘 = 4 retrieved videos. これらの結果から,k = 4 の検索ビデオを使用すると,追加の映像候補入力毎に性能が徐々に向上し,ピークに達することが示唆された。
訳抜け防止モード: これらの結果は 追加のビデオ候補入力ごとにパフォーマンスが徐々に向上する k = 4の検索ビデオを使用するとピークに達する。
0.81
We also observe that the performance slightly drops if we set 𝑘 larger than 4. また、k が 4 より大きいと、パフォーマンスがわずかに低下することも観察します。
訳抜け防止モード: 私たちはまた k を 4 よりも大きくすると、パフォーマンスはわずかに低下する。
0.73
We hypothesize that this happens because the input sequence length to the BART question generator becomes too long, potentially causing overfitting or other optimization-related issues. 我々は、BART質問生成器への入力シーケンスの長さが長すぎるため、過度に適合したり、その他の最適化関連の問題を引き起こす可能性があると仮定する。 0.57
6.4 Qualitative Results In Figure 8, we also illustrate some of our qualitative interactive video retrieval results. 6.4 質的な結果 図8では、質的なインタラクティブなビデオ検索結果も紹介する。 0.69
On the left we show the keyframe of the ground truth video 𝑉𝑔𝑡 (i.e., the video that the user wants to retrieve) and the initial textual query for that video. 左側には、グランド・トゥルーティ・ビデオvgt(つまりユーザーが検索したいビデオ)のキーフレームと、そのビデオの最初のテキストクエリが表示されます。 0.69
From left to right, we illustrate the three rounds of questions and answers produced by our question and answer generators. 左から右へ、質問と回答ジェネレータによって生成された3つのラウンドの質問と回答を説明します。 0.63
Additionally, under each question/answer box, we also visualize the rank of the video 𝑉𝑔𝑡 among all videos in the database (i.e., the lower the better, where rank of 1 implies that the correct video was retrieved). さらに、各質問/回答ボックスでは、データベース内の全ビデオ中のビデオVgtのランクも可視化する(つまり、1のランクが正しいビデオが検索されたことを意味する場合)。 0.67
Our results indicate a few interesting trends. 我々の結果はいくつかの興味深い傾向を示している。 0.51
First, we observe that each dialog round boosts video retrieval performance, which is indicated by the lower rank of the ground truth video. まず、各ダイアログラウンドが、地上の真理ビデオの下位ランクで示されるビデオ検索性能を高めることを観察する。
訳抜け防止モード: まず、各ダイアログラウンドがビデオ検索性能を向上させるのを観察する。 地上の真理ビデオの下のランクで示されます
0.73
Second, we note that our question generator learns to ask question that produce new pieces of information (i.e., information not mentioned 第二に、質問生成者は、新しい情報を生成する質問(つまり、言及されていない情報)を学習する。 0.78
A woman is laying on a couch watching tv. 女性がテレビを見ながらソファに横たわっています。 0.76
She then gets up and looks around the room.Round 1Rank 182Q: Does, she do anything else? 1Rank 182Q: 他に何かやっていますか? 0.32
A: No, she doesn’t do anything else.Generated dialogQ: Is she eating anything? a: いいえ、彼女は何もしません。生成ダイアログq:彼女は何か食べていますか? 0.68
A: Yes, she is eating.Q: What is the color she is wearing? A: はい、食べています。Q:彼女が着ている色は何ですか? 0.76
A: She is wearing white color.Round 2Round 3Rank 63Rank 6Q: What does she do with the sandwich? A:彼女は白い色を着ています。Round 2Round 3Rank 63Rank 6Q:サンドイッチはどうしますか? 0.74
A: She just holds all the time.Q: Does she interact with the dog? A:彼女はいつも持ち続けています。Q:彼女は犬と交流しますか? 0.70
A: No, she doesn’t interact with the dog.Q: What is the color of the pajamas? A: いいえ、彼女は犬と相互作用しません。Q:パジャマの色は何ですか? 0.84
A: The color of the pajamas is red.Rank 98Rank 37Rank 9 A girl sits on the stairs in pajamas with a sandwich. A: パジャマの色は赤。Rank 98Rank 37Rank 9 サンドイッチでパジャマの階段に座っている少女。 0.71
We see a dog enter and leave.A man coming home from school and getting ready to do homeworkQ: Is he wearing glasses? 犬が入ってくるのを見る。学校から帰って宿題をする準備をしている男性。彼は眼鏡をかけていますか? 0.66
A: No, he is not wearing glasses. A: いいえ、彼は眼鏡をかけていません。 0.76
.Q: What color is he wearing? Q:何色を着ていますか。 0.77
A: He is wearing black color.Q: Is there anything in his hand? A: 彼は黒色を着ています。Q:手に何かありますか。 0.75
A: Yes, he is holding an item.Rank 385Rank 48Rank 7 A: はい、彼はアイテムを持っています。Rank 385Rank 48Rank 7 0.72
英語(論文から抽出)日本語訳スコア
Learning to Retrieve Videos by Asking Questions 質問によるビデオ検索の学習 0.73
in the initial textual query). 最初のテキストクエリで)。 0.51
Lastly, we observe that the questions asked by our model focus on diverse concepts including gender, presence of certain objects, human actions, clothes colors, etc. 最後に,本モデルによる質問は,性別,特定の対象の存在,人間の行動,衣服の色など,さまざまな概念に焦点を当てている。 0.87
This highlights the flexibility and generality of our open-ended question generator. これはオープンエンドの質問生成器の柔軟性と汎用性を強調します。 0.54
7 CONCLUSIONS In this work, we introduced ViReD , an interactive framework for video retrieval using dialog. 7 ConCLUSIONS この研究で,対話型対話型対話型ビデオ検索フレームワークViReDを導入した。 0.70
We demonstrated that dialog provides valuable cues for video retrieval, thus, leading to significantly better performance compared to the non-interactive baselines. その結果,対話はビデオ検索に有用な手段であり,非対話的ベースラインに比べて性能が著しく向上することがわかった。 0.71
Furthermore, we also showed that our proposed さらに 我々の提案は 0.43
(i) multimodal question generator, and (i)マルチモーダル質問生成装置、及び 0.80
(ii) information-guided supervision techniques provide significant improvements to our model’s performance. (II)情報誘導型監視技術は,我々のモデルの性能を著しく改善する。 0.80
In summary, our method is まとめると、私たちの方法は 0.70
(i) conceptually simple, (i)概念的には単純で 0.71
(ii) it achieves state-of-the-art results on the interactive video retrieval task on the AVSD dataset, and (ii)avsdデータセット上のインタラクティブビデオ検索タスクにおける最先端の成果を達成し、 0.74
(iii) it can generalize to the real-world settings involving human subjects. (iii)人間を対象とする実世界の設定に一般化することができる。 0.67
In the future, we will extend our framework to other video-and-language tasks such as interactive video question answering and interactive temporal moment localization. 将来的には,インタラクティブなビデオ質問応答やインタラクティブな時間的モーメントのローカライゼーションなど,他のビデオ言語タスクにも拡張していく予定です。 0.74
REFERENCES [1] Aishwarya Agrawal, Dhruv Batra, and Devi Parikh. Aishwarya Agrawal, Dhruv Batra, Devi Parikh を参照。 0.51
2016. Analyzing the behavior 2016. 行動分析 0.34
of visual question answering models. 視覚的な質問に答えるモデルです 0.74
arXiv preprint arXiv:1606.07356 (2016). arxiv プレプリント arxiv:1606.07356 (2016) 0.45
[2] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Aniruddha Kembhavi. [2] aishwarya agrawal, dhruv batra, devi parikh, aniruddha kembhavi。 0.31
2018. Don’t just assume; look and answer: Overcoming priors for visual question answering. 2018. look and answer: 視覚的な質問に答える優先事項を克服する。 0.52
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Conference on Computer Vision and Pattern Recognition に参加して 0.35
4971–4980. 4971–4980. 0.35
[3] Huda Alamri, Vincent Cartillier, Abhishek Das, Jue Wang, Anoop Cherian, Irfan Essa, Dhruv Batra, Tim K Marks, Chiori Hori, Peter Anderson, et al 2019. Huda Alamri氏、Vincent Cartillier氏、Abhishek Das氏、Jue Wang氏、Anoop Cherian氏、Irfan Essa氏、Dhruv Batra氏、Tim K Marks氏、Chiori Hori氏、Peter Anderson氏など。 0.71
Audio visual scene-aware dialog. 音声のシーン認識ダイアログ。 0.76
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
7558–7567. 7558–7567. 0.35
[4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, Devi Parikh。
訳抜け防止モード: 4]stanislaw antol, aishwarya agrawal, jiasen lu, マーガレット・ミッチェル、dhruv batra、c lawrence zitnick、devi parikh。
0.48
2015. Vqa: Visual question answering. 2015. Vqa: 視覚的な質問応答。 0.59
In Proceedings of the IEEE international conference on computer vision. ieee国際コンピュータビジョン会議(ieee international conference on computer vision)に出席。 0.64
2425–2433. 2425–2433. 0.35
[5] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. 5]Max Bain、Arsha Nagrani、Gül Varol、Andrew Zisserman。 0.33
2021. Frozen in time: A joint video and image encoder for end-to-end retrieval. 2021. frozen in time: エンドツーエンド検索のためのジョイントビデオと画像エンコーダ。 0.62
In Proceedings of the IEEE/CVF International Conference on Computer Vision. IEEE/CVF国際コンピュータビジョン会議に参加して 0.73
1728–1738. 1728–1738. 0.35
[6] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. 6] ゲダス・ベルタシウス、ヘン・ワン、ロレンツォ・トレサニ 0.33
2021. Is Space-Time Attention All You Need for Video Understanding? 2021. ビデオ理解に必要なのは時空注意だけか? 0.55
. In Proceedings of the International Conference on Machine Learning (ICML). . 国際機械学習会議(ICML)に参加して 0.51
[7] Guanyu Cai, Jun Zhang, Xinyang Jiang, Yifei Gong, Lianghua He, Fufu Yu, Pai Peng, Xiaowei Guo, Feiyue Huang, and Xing Sun. 【7】広入・順宗・新陽・永永宗・梁華平・冬・パイ・ペン・青王・周・フェイユー・黄・青春
訳抜け防止モード: 【7 ] グァンユ・カイ、ジュン・チャン、新陽・江 英文 梁華平 フフユ パイペン xiaowei guo氏、feiyue huang氏、xing sun氏。
0.58
2021. Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval With Partial Query. 2021. ask&confirm: 部分的クエリによるクロスモーダル検索のためのアクティブディテール強化。 0.52
In Proceedings of the IEEE/CVF International Conference on Computer Vision. IEEE/CVF国際コンピュータビジョン会議に参加して 0.73
1835–1844. 1835–1844. 0.35
[8] Huizhong Chen, Matthew Cooper, Dhiraj Joshi, and Bernd Girod. [8]ホイソン・チェン、マシュー・クーパー、ダライ・ジョシ、ベルント・ジャロッド。 0.47
2014. Multimodal language models for lecture video retrieval. 2014. 講義ビデオ検索のためのマルチモーダル言語モデル 0.57
In Proceedings of the 22nd ACM international conference on Multimedia. 第22回ACM国際マルチメディア会議に参加して 0.70
1081–1084. 1081–1084. 0.35
[9] Ioana Croitoru, Simion-Vlad Bogolin, Marius Leordeanu, Hailin Jin, Andrew Zisserman, Samuel Albanie, and Yang Liu. 9]Ioana Croitoru, Simion-Vlad Bogolin, Marius Leordeanu, Hailin Jin, Andrew Zisserman, Samuel Albanie, Yang Liu。
訳抜け防止モード: 9] ioana croitoru, simion - vlad bogolin, marius leordeanu, ハリン・ジン、アンドリュー・ジッセルマン、サミュエル・アルバニー、ヤン・リウ。
0.66
2021. Teachtext: Crossmodal generalized distillation for text-video retrieval. 2021. teachtext: crossmodal generalized distillation for text-video retrieval(英語) 0.57
In Proceedings of the IEEE/CVF International Conference on Computer Vision. IEEE/CVF国際コンピュータビジョン会議に参加して 0.73
11583–11593. 11583–11593. 0.35
[10] Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, José MF Moura, Devi Parikh, and Dhruv Batra. [10]Abhishek Das、Satwik Kottur、Khushi Gupta、Avi Singh、Deshraj Yadav、José MF Moura、Devi Parikh、Dhruv Batra。
訳抜け防止モード: 〔10〕アブヒシェク・ダス、サトウィク・コットゥル、フシ・グプタ avi singh, deshraj yadav, josé mf moura, devi parikh そしてdhruv batra。
0.50
2017. Visual dialog. 2017. ビジュアルダイアログ。 0.55
In Proceedings of the IEEE conference on computer vision and pattern recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition 0.37
326–335. [11] Abhishek Das, Satwik Kottur, José MF Moura, Stefan Lee, and Dhruv Batra. 326–335. [11]Abhishek Das、Satwik Kottur、José MF Moura、Stefan Lee、Dhruv Batra。 0.35
2017. Learning cooperative visual dialog agents with deep reinforcement learning. 2017. 深い強化学習による協調的視覚対話エージェントの学習 0.61
In Proceedings of the IEEE international conference on computer vision. ieee国際コンピュータビジョン会議(ieee international conference on computer vision)に出席。 0.64
2951–2960. 2951–2960. 0.35
[12] Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, and Aleksandr Petiushko. Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko。 0.29
2021. Mdmmt: Multidomain multimodal transformer for video retrieval. 2021. Mdmmt: ビデオ検索のためのマルチドメインマルチモーダルトランス。 0.54
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
3354–3363. 3354–3363. 0.35
[13] Han Fang, Pengfei Xiong, Luhui Xu, and Yu Chen. 13]ハン・ファン、pengfei xiong、luhui xu、yu chen 0.48
2021. Clip2video: Mastering 2021. Clip2video: マスタリング 0.55
video-text retrieval via image clip. 画像クリップによるビデオテキスト検索。 0.69
arXiv preprint arXiv:2106.11097 (2021). arxiv プレプリント arxiv:2106.11097 (2021) 0.46
[14] Myron Flickner, Harpreet Sawhney, Wayne Niblack, Jonathan Ashley, Qian Huang, Byron Dom, Monika Gorkani, Jim Hafner, Denis Lee, Dragutin Petkovic, et al 1995. Myron Flickner氏、Harpreet Sawhney氏、Wayne Niblack氏、Jonathan Ashley氏、Qian Huang氏、Byron Dom氏、Monika Gorkani氏、Jim Hafner氏、Denis Lee氏、Dragutin Petkovic氏、1995年。 0.73
Query by image and video content: The QBIC system. 画像およびビデオコンテンツによるクエリ: qbicシステム。 0.68
computer 28, 9 (1995), 23–32. コンピュータ28, 9 (1995), 23–32。 0.84
, , [15] Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid. , , [15]Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid。 0.39
2020. Multimodal transformer for video retrieval. 2020. ビデオ検索用マルチモーダルトランスフォーマー 0.48
In European Conference on Computer Vision. 欧州コンピュータビジョン会議に参加。 0.73
Springer, 214–229. スプリンガー、214-229。 0.33
[16] Chiori Hori, Huda Alamri, Jue Wang, Gordon Wichern, Takaaki Hori, Anoop Cherian, Tim K Marks, Vincent Cartillier, Raphael Gontijo Lopes, Abhishek Das, et al 2019. [16] ホリ千織、フダ・アラメリ、ジュエ・ワン、ゴードン・ウィチェルン、ホリ高明、アヌープ・チェリアン、ティム・k・マークス、ヴィンセント・カルティリア、ラファエル・ゴンティホ・ロペス、アブヒシェク・ダス、そして2019年。
訳抜け防止モード: 【16歳】堀千織、アラメリ、王寿恵 ゴードン・ウィッチェルン 堀隆明 アノープ・チェリアン ティム・k・マークス vincent cartillier, raphael gontijo lopes, abhishek das, et al 2019など。
0.46
End-to-end audio visual scene-aware dialog using multimodal attention-based video features. マルチモーダル注意型ビデオ機能を用いたエンド・ツー・エンド音声視覚シーン認識ダイアログ 0.52
In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). icassp 2019-2019で、ieee international conference on acoustics, speech and signal processing (icassp) が開催された。 0.57
IEEE, 2352–2356. 西暦2352-2356。 0.46
[17] Adriana Kovashka and Kristen Grauman. 17] アドリアナ・コヴァシュカと クリステン・グラウマン 0.47
2013. Attribute pivots for guiding relevance feedback in image search. 2013. 画像検索における関連性フィードバック誘導のための属性ピボット 0.54
In Proceedings of the IEEE International Conference on Computer Vision. IEEE International Conference on Computer Vision に参加して 0.70
297–304. [18] Adriana Kovashka, Devi Parikh, and Kristen Grauman. 297–304. [18]Adriana Kovashka、Devi Parikh、Kristen Grauman。 0.34
2012. Whittlesearch: Image search with relative attribute feedback. 2012. Whittlesearch: 相対的な属性フィードバックによるイメージ検索。 0.61
In 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012年、IEEE Conference on Computer Vision and Pattern Recognition に参加。 0.78
IEEE, 2973–2980. IEEE、2973-2980。 0.31
[19] Hung Le, Doyen Sahoo, Nancy F Chen, and Steven CH Hoi. 19]ハン・ル、ドイエン・サフー、ナンシー・f・チェン、スティーブン・チェ・ホイ 0.53
2019. Multimodal transformer networks for end-to-end video-grounded dialogue systems. 2019. エンドツーエンドビデオ地上対話システムのためのマルチモーダルトランスフォーマーネットワーク 0.52
arXiv preprint arXiv:1907.01166 (2019). arXiv preprint arXiv:1907.01166 (2019)。 0.76
[20] Hung Le, Doyen Sahoo, Nancy F Chen, and Steven CH Hoi. 20]ハン・ル、ドイエン・サフー、ナンシー・f・チェン、スティーブン・チェ・ホイ 0.52
2020. BiST: Bidirectional spatio-temporal reasoning for video-grounded dialogues. 2020. BiST:ビデオ地上対話のための双方向時空間推論 0.53
arXiv preprint arXiv:2010.10095 (2020). arxiv プレプリント arxiv:2010.10095 (2020) 0.43
[21] Jie Lei, Licheng Yu, Mohit Bansal, and Tamara L Berg. [21]ジー・レイ、リチェン・ユ、モヒト・バンサル、タマラ・ル・ベルク。 0.31
2018. Tvqa: Localized, compositional video question answering. 2018. Tvqa: ローカルな、コンポジションのビデオ質問応答。 0.59
arXiv preprint arXiv:1809.01696 (2018). arXiv preprint arXiv:1809.01696 (2018) 0.42
[22] Jie Lei, Licheng Yu, Tamara L Berg, and Mohit Bansal. [22]Jie Lei、Licheng Yu、Tamara L Berg、Mohit Bansal。 0.29
2019. Tvqa+: Spatiotemporal grounding for video question answering. 2019. Tvqa+: ビデオ質問応答のための時空間的接点。 0.53
arXiv preprint arXiv:1904.11574 (2019). arxiv プレプリント arxiv:1904.11574 (2019) 0.44
[23] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Mike Lewis氏、Yinhan Liu氏、Naman Goyal氏、Marjan Ghazvininejad氏、Abdelrahman Mohamed氏、Omer Levy氏、Ves Stoyanov氏、Luke Zettlemoyer氏。
訳抜け防止モード: マイク・ルイス、イニハン・リウ、ナマン・ゴヤル marjan ghazvininejad, abdelrahman mohamed, omer levy, ves stoyanov, そしてルーク・ゼトルモイヤー
0.47
2019. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. 2019. bart: 自然言語の生成、翻訳、理解のためのシーケンスからシーケンスへの事前学習。 0.52
arXiv preprint arXiv:1910.13461 (2019). arxiv プレプリント arxiv:1910.13461 (2019) 0.44
[24] Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, and Jingjing Liu. [24]リンジー・リー、円春チェン、ユー・チョン、ジー・ガン、リチェン・ユ、ジンジュ・リウ 0.53
2020. Hero: Hierarchical encoder for video+ language omni-representation pre-training. 2020. hero: video+ language omni-representation pre-training用階層エンコーダ。 0.57
arXiv preprint arXiv:2005.00200 (2020). arxiv プレプリント arxiv:2005.00200 (2020) 0.44
[25] Yang Li and Junier Oliva. [25]ヤン・リとユニエル・オリヴァ。 0.51
2021. Active feature acquisition with generative surrogate models. 2021. 生成代理モデルを用いた能動的特徴獲得 0.57
In International Conference on Machine Learning. 機械学習に関する国際会議に参加。 0.80
PMLR, 6450–6459. PMLR 6450-6459。 0.76
[26] Zekang Li, Zongjia Li, Jinchao Zhang, Yang Feng, and Jie Zhou. [26]Zekang Li、Zongjia Li、Jinchao Zhang、Yang Feng、Jie Zhou。 0.65
2021. Bridging Text and Video: A Universal Multimodal Transformer for Audio-Visual SceneAware Dialog. 2021. bridging text and video:オーディオ・ビジュアルシーンウェアダイアログのためのユニバーサルマルチモーダルトランスフォーマー。 0.54
IEEE/ACM Transactions on Audio, Speech, and Language Processing 29 (2021), 2476–2483. ieee/acmはオーディオ、音声、言語処理29(2021年)、2476–2483で取引を行う。 0.59
[27] Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, and Lorenzo Torresani. [27]Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani 0.37
2021. Vx2text: End-to-end learning of video-based text generation from multimodal inputs. 2021. vx2text:マルチモーダル入力によるビデオテキスト生成のエンドツーエンド学習。 0.56
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
7005–7015. 7005–7015. 0.35
[28] Ilya Loshchilov and Frank Hutter. Ilya Loshchilov氏とFrank Hutter氏。 0.58
2017. Decoupled weight decay regularization. 2017. decoupled weight decay regularization の略。 0.55
arXiv preprint arXiv:1711.05101 (2017). arXiv preprint arXiv:1711.05101 (2017) 0.42
[29] Sho Maeoki, Kohei Uehara, and Tatsuya Harada. 〔29〕庄前興、上原孝平、原田辰弥 0.42
2020. Interactive video retrieval with dialog. 2020. 対話型ビデオ検索 0.42
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops に参加して 0.41
952–953. [30] Anand Mishra, Shashank Shekhar, Ajeet Kumar Singh, and Anirban Chakraborty. 952–953. 30]Anand Mishra、Shashank Shekhar、Ajeet Kumar Singh、Anirban Chakraborty。 0.33
2019. Ocr-vqa: Visual question answering by reading text in images. 2019. Ocr-vqa: 画像中のテキストを読んで答える視覚的質問。 0.56
In 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019年、ICDAR(International Conference on Document Analysis and Recognition)に参加。 0.84
IEEE, 947–952. IEEE 947-952。 0.44
[31] Ishan Misra, Ross Girshick, Rob Fergus, Martial Hebert, Abhinav Gupta, and Laurens Van Der Maaten. 31]イサン・ミスラ、ロス・ギルシック、ロブ・ファーガス、武術ヘバート、アビナヴ・グプタ、ローレンス・ファン・デル・マーテン
訳抜け防止モード: [31]イシャン・ミスラ、ロス・ギルシック、ロブ・ファーガス Martial Hebert, Abhinav Gupta, and Laurens Van Der Maaten
0.66
2018. Learning by asking questions. 2018. 質問をすることで学ぶ。 0.55
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Conference on Computer Vision and Pattern Recognition に参加して 0.35
11–20. [32] Niluthpol Chowdhury Mithun, Juncheng Li, Florian Metze, and Amit K RoyChowdhury. 11–20. [32]Niluthpol Chowdhury Mithun、Juncheng Li、Florian Metze、Amit K RoyChowdhury。 0.35
2018. Learning joint embedding with multimodal cues for crossmodal video-text retrieval. 2018. クロスモーダルビデオテキスト検索のためのマルチモーダルキューを用いた共同埋め込み学習 0.52
In Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. 2018 ACM on International Conference on Multimedia Retrieval に参加して 0.71
19–27. [33] Nils Murrugarra-Llerena and Adriana Kovashka. 19–27. [33] nils murrugarra-llerena と adriana kovashka 。 0.55
2021. Image retrieval with mixed initiative and multimodal feedback. 2021. 混合イニシアティブとマルチモーダルフィードバックによる画像検索 0.54
Computer Vision and Image Understanding 207 (2021), 103204. コンピュータビジョンと画像理解 207 (2021), 103204。 0.72
[34] Yulei Niu, Hanwang Zhang, Manli Zhang, Jianhong Zhang, Zhiwu Lu, and JiRong Wen. [34]yulei niu、hanwang zhang、manli zhang、jianhong zhang、zhiwu lu、そしてjirong wen。 0.57
2019. Recursive visual attention in visual dialog. 2019. 視覚対話における再帰的視覚的注意 0.50
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
6679–6688. 6679–6688. 0.35
[35] Jiaxin Qi, Yulei Niu, Jianqiang Huang, and Hanwang Zhang. 35]jiaxin qi、yulei niu、jianqiang huang、hanwang zhang。 0.50
2020. Two causal principles for improving visual dialog. 2020. ビジュアルダイアログを改善するための2つの因果原則。 0.52
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
10860–10869. 10860–10869. 0.35
[36] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al 2019. Alec Radford氏、Jeffrey Wu氏、Rewon Child氏、David Luan氏、Dario Amodei氏、Ilya Sutskever氏など。 0.63
Language models are unsupervised multitask learners. 言語モデルは教師なしマルチタスク学習者である。 0.60
OpenAI blog 1, 8 (2019), 9. OpenAI blog 1, 8 (2019), 9。 0.77
[37] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. [37]Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu。
訳抜け防止モード: 37 ] コリン・ラフェル ノーム・シャイザー アダム・ロバーツ キャサリン・リー、sharan narang、michael matena、yanqi zhou イー・リ、ピーター・j・リウ。
0.50
2019. Exploring the limits of transfer learning with a unified text-to-text transformer. 2019. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.62
arXiv preprint arXiv:1910.10683 (2019). arxiv プレプリント arxiv:1910.10683 (2019) 0.43
[38] Yong Rui, Thomas S Huang, Michael Ortega, and Sharad Mehrotra. 38] ヨン・ルイ、トーマス・ス・ファン、マイケル・オルテガ、シャラド・メロトラ 0.38
1998. Relevance feedback: A power tool for interactive content-based image retrieval. 1998. 関連性フィードバック:インタラクティブなコンテンツベースの画像検索のためのパワーツール。 0.77
IEEE Transactions on circuits and systems for video technology 8, 5 (1998), 644–655. IEEE Transactions on circuits and systems for video technology 8, 5 (1998), 644–655。 0.43
英語(論文から抽出)日本語訳スコア
, , Avinash Madasu, Junier Oliva, and Gedas Bertasius , , Avinash Madasu, Junier Oliva, Gedas Bertasius 0.39
[39] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al 2015. Alga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al 2015
訳抜け防止モード: [39 ]オルガ・ルサコフスキー、ジア・デン、ハオ・スー、 Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang Andrej Karpathy氏、Aditya Khosla氏、Michael Bernstein氏、そして2015年。
0.81
Imagenet large scale visual recognition challenge. Imagenet 大規模視覚認識チャレンジ。 0.72
International journal of computer vision 115, 3 (2015), 211–252. international journal of computer vision 115, 3 (2015), 211–252。 0.83
[40] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. 40]ヴィクター・サン、リサンドル・デビュー、ジュリアン・チャウモンド、トーマス・ウルフ 0.49
2019. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. 2019. DistilBERTは、BERTの蒸留版で、より小さく、より速く、安価で、より軽量である。 0.49
ArXiv abs/1910.01108 (2019). ArXiv abs/1910.01108 (2019)。 0.66
[43] Yuqing Song, Shizhe Chen, and Qin Jin. [43]ユキョン、シジ・チェン、シン・ジン。 0.57
2021. Towards Diverse Paragraph Captioning for Untrimmed Videos. 2021. 未編集ビデオの多様な段落キャプションに向けて 0.50
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
11245–11254. 11245–11254. 0.35
[41] Idan Schwartz, Alexander G Schwing, and Tamir Hazan. 41]イダン・シュワルツ、アレクサンダー・g・シュウィング、タミル・ハザン 0.45
2019. A simple baseline for audio-visual scene-aware dialog. 2019. 音声視覚シーン認識ダイアログのための簡易ベースライン 0.59
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE/CVF Conference on Computer Vision and Pattern Recognition に参加して 0.41
12548–12558. 12548–12558. 0.35
[42] Hajin Shim, Sung Ju Hwang, and Eunho Yang. [42]ハジンシム、ソン・ジュ・ファン、ウンホ・ヤン 0.40
2018. Joint active feature acquisition and classification with variable-size set encoding. 2018. 可変サイズ集合符号化を用いた共同能動特徴取得と分類 0.59
In Advances in neural information processing systems. 神経情報処理システムの進歩です 0.61
1368–1378. 1368–1378. 0.35
[44] Damien Teney, Peter Anderson, Xiaodong He, and Anton Van Den Hengel. [44] ダミアン・テニー、ピーター・アンダーソン、シャオドン・ヘー、アントン・ヴァン・デン・ヘンゲル 0.57
2018. Tips and tricks for visual question answering: Learnings from the 2017 challenge. 2018. 視覚的な質問に対するコツとコツ: 2017年のチャレンジから学ぶこと。 0.60
In Proceedings of the IEEE conference on computer vision and pattern recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition 0.37
4223–4232. 4223–4232. 0.35
[45] Hong Wu, Hanqing Lu, and Songde Ma. [45]ホン・ウー、ハンク・ル、ソンデ・マ。 0.39
2004. Willhunter: interactive image retrieval with multilevel relevance. 2004. Willhunter: 多レベル関連によるインタラクティブ画像検索。 0.61
In Proceedings of the 17th International Conference on Pattern Recognition, 2004. 第17回パターン認識国際会議(2004年)開催。 0.69
ICPR 2004., Vol. 2004年、icpr。 0.59
2. IEEE, 1009–1012. 2. IEEE 1009-1012。 0.42
[46] Zekun Yang, Noa Garcia, Chenhui Chu, Mayu Otani, Yuta Nakashima, and Haruo Takemura. [46] 世訓陽、ノアガルシア、チェウイチュ、大谷真夫、中島裕太、竹村春雄 0.41
2020. Bert representations for video question answering. 2020. ビデオ質問応答のためのbert表現。 0.49
In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision 0.43
1556–1565. 1556–1565. 0.35
[47] Muchao Ye, Quanzeng You, and Fenglong Ma. [47]ムッソ・イェ、クエンジン・ユー、フェンロン・マ。 0.36
2022. QUALIFIER: Question-Guided Self-Attentive Multimodal Fusion Network for Audio Visual Scene-Aware Dialog. 2022. QUALIFIER: 音声ビジュアルシーン認識ダイアログのための質問ガイド型セルフアテンティブ・マルチモーダルフュージョンネットワーク。 0.57
In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision 0.43
248–256. [48] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles, and Min Sun. 248–256. [48]クオ・ホー・ゼン、チン・ハン・チェン、チン・ヤオ・チュアン、ユアン・ホン・リアオ、フアン・カルロス・ニーブルズ、ミン・サン。
訳抜け防止モード: 248–256. [48 ]クオ-ホー・ゼン・テン・ハン・チェン, Ching - Yao Chuang, Yuan - Hong Liao, Juan Carlos Niebles とMin Sun。
0.54
2017. Leveraging video descriptions to learn video question answering. 2017. ビデオ記述を活用してビデオ質問応答を学習する。 0.56
In Thirty-First AAAI Conference on Artificial Intelligence. 第31回 aaai conference on artificial intelligence に参加して 0.56
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。