論文の概要: Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering
- arxiv url: http://arxiv.org/abs/2401.01510v1
- Date: Wed, 3 Jan 2024 02:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:22:03.621553
- Title: Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering
- Title(参考訳): 不確かさから不確かさへの答え:ビデオ質問応答のための不確かさを意識したカリキュラム学習
- Authors: Haopeng Li, Qiuhong Ke, Mingming Gong, and Tom Drummond
- Abstract要約: 不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
- 参考スコア(独自算出の注目度): 63.12469700986452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant advancements have been made in video question answering
(VideoQA), the potential benefits of enhancing model generalization through
tailored difficulty scheduling have been largely overlooked in existing
research. This paper seeks to bridge that gap by incorporating VideoQA into a
curriculum learning (CL) framework that progressively trains models from
simpler to more complex data. Recognizing that conventional self-paced CL
methods rely on training loss for difficulty measurement, which might not
accurately reflect the intricacies of video-question pairs, we introduce the
concept of uncertainty-aware CL. Here, uncertainty serves as the guiding
principle for dynamically adjusting the difficulty. Furthermore, we address the
challenge posed by uncertainty by presenting a probabilistic modeling approach
for VideoQA. Specifically, we conceptualize VideoQA as a stochastic computation
graph, where the hidden representations are treated as stochastic variables.
This yields two distinct types of uncertainty: one related to the inherent
uncertainty in the data and another pertaining to the model's confidence. In
practice, we seamlessly integrate the VideoQA model into our framework and
conduct comprehensive experiments. The findings affirm that our approach not
only achieves enhanced performance but also effectively quantifies uncertainty
in the context of VideoQA.
- Abstract(参考訳): ビデオ質問応答 (VideoQA) では大きな進歩があったが、調整困難スケジューリングによるモデル一般化の強化の潜在的な利点は、既存の研究でほとんど見落とされてきた。
本稿では,ビデオqaをカリキュラム学習(cl)フレームワークに取り入れ,より単純なデータからより複雑なデータへとモデルを段階的にトレーニングすることで,そのギャップを埋めることを目的とする。
従来の自己ペースcl手法が難易度測定の訓練損失に依存していることを認識し,不確実性対応clの概念を紹介する。
ここで不確実性は、困難を動的に調整するための指針となる。
さらに,ビデオQAの確率論的モデリング手法を提案することにより,不確実性に起因する課題に対処する。
具体的には,ビデオQAを確率計算グラフとして概念化し,隠れ表現を確率変数として扱う。
これは、データに固有の不確実性に関連するものと、モデルの信頼性に関連するものとの2つの異なるタイプの不確実性をもたらす。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
その結果,本手法は性能向上だけでなく,ビデオQAの文脈における不確かさの定量化にも有効であることがわかった。
関連論文リスト
- Grounded Question-Answering in Long Egocentric Videos [46.405314250324]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - A Hierarchical Variational Neural Uncertainty Model for Stochastic Video
Prediction [45.6432265855424]
本稿では,モデルの予測不確かさの原理的定量化であるニューラル不確実性量化器(NUQ)を紹介する。
提案するフレームワークは,最先端モデルと比較して効果的に訓練する。
論文 参考訳(メタデータ) (2021-10-06T00:25:22Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。