論文の概要: iReason: Multimodal Commonsense Reasoning using Videos and Natural
Language with Interpretability
- arxiv url: http://arxiv.org/abs/2107.10300v1
- Date: Fri, 25 Jun 2021 02:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-25 11:53:39.563955
- Title: iReason: Multimodal Commonsense Reasoning using Videos and Natural
Language with Interpretability
- Title(参考訳): iReason: ビデオと解釈可能な自然言語を用いたマルチモーダルコモンセンス推論
- Authors: Aman Chadha and Vinija Jain
- Abstract要約: 因果的知識は、堅牢なAIシステムを構築する上で不可欠である。
iReasonは、ビデオと自然言語のキャプションの両方を用いて、視覚意味のコモンセンス知識を推論するフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causality knowledge is vital to building robust AI systems. Deep learning
models often perform poorly on tasks that require causal reasoning, which is
often derived using some form of commonsense knowledge not immediately
available in the input but implicitly inferred by humans. Prior work has
unraveled spurious observational biases that models fall prey to in the absence
of causality. While language representation models preserve contextual
knowledge within learned embeddings, they do not factor in causal relationships
during training. By blending causal relationships with the input features to an
existing model that performs visual cognition tasks (such as scene
understanding, video captioning, video question-answering, etc.), better
performance can be achieved owing to the insight causal relationships bring
about. Recently, several models have been proposed that have tackled the task
of mining causal data from either the visual or textual modality. However,
there does not exist widespread research that mines causal relationships by
juxtaposing the visual and language modalities. While images offer a rich and
easy-to-process resource for us to mine causality knowledge from, videos are
denser and consist of naturally time-ordered events. Also, textual information
offers details that could be implicit in videos. We propose iReason, a
framework that infers visual-semantic commonsense knowledge using both videos
and natural language captions. Furthermore, iReason's architecture integrates a
causal rationalization module to aid the process of interpretability, error
analysis and bias detection. We demonstrate the effectiveness of iReason using
a two-pronged comparative analysis with language representation learning models
(BERT, GPT-2) as well as current state-of-the-art multimodal causality models.
- Abstract(参考訳): 因果的知識は、堅牢なAIシステムを構築する上で不可欠である。
ディープラーニングモデルは、しばしば因果推論を必要とするタスクでパフォーマンスが悪く、入力ですぐには利用できないが、人間によって暗黙的に推論されるある種のコモンセンス知識を用いて導出されることが多い。
先行研究は、モデルが因果性の欠如に危険を及ぼすような、散発的な観察バイアスを生じさせていない。
言語表現モデルは学習された組込みの中で文脈知識を保存するが、訓練中の因果関係には影響しない。
視覚認知タスク(シーン理解、ビデオキャプション、ビデオ質問回答など)を実行する既存のモデルに、入力特徴と因果関係をブレンドすることにより。
) 因果関係がもたらす洞察により、より良いパフォーマンスを達成することができる。
近年,視覚的・テキスト的モダリティから因果データを抽出する作業に取り組むモデルがいくつか提案されている。
しかし、視覚と言語的モダリティを併せ持つ因果関係を探究する広範な研究は存在していない。
画像は因果関係の知識を抽出するためのリッチでプロセスのリソースを提供するが、ビデオはより密度が高く、自然に時間順のイベントで構成されている。
また、テキスト情報はビデオで暗黙的な詳細を提供する。
ireasonは,映像と自然言語キャプションを用いて視覚・視覚常識知識を推定するフレームワークである。
さらに、iReasonのアーキテクチャは因果合理化モジュールを統合し、解釈可能性、エラー分析、バイアス検出のプロセスを支援する。
言語表現学習モデル(BERT, GPT-2)と現在の最先端マルチモーダル因果モデルを用いた2段階比較分析によるiReasonの有効性を実証する。
関連論文リスト
- Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning
Capabilities of Natural Language Models [30.63276809199399]
本稿では,外部コモンセンス知識ベースを用いた視覚的説明システムであるCommonsenseVISについて述べる。
本システムでは,異なる概念とその基盤となる関係について,多段階の可視化とインタラクティブなモデル探索と編集を行う。
論文 参考訳(メタデータ) (2023-07-23T17:16:13Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Learning Contextual Causality from Time-consecutive Images [84.26437953699444]
因果知識は多くの人工知能システムにとって重要である。
本稿では,視覚信号から文脈因果関係を学習する可能性について検討する。
まず,高品質なデータセットvis-causalを提案し,ビデオから有意義な因果知識を自動的に発見できることを示す実験を行った。
論文 参考訳(メタデータ) (2020-12-13T20:24:48Z) - Language Generation with Multi-Hop Reasoning on Commonsense Knowledge
Graph [124.45799297285083]
知識グラフの構造的情報と意味的情報の両方を活用することで、コモンセンスを意識したテキスト生成が促進されると主張している。
本稿では,外部コモンセンス知識グラフから抽出したマルチリレーショナルパスに基づいて,動的マルチホップ推論を用いた事前学習モデルを実現するマルチホップ推論フロー(GRF)の生成を提案する。
論文 参考訳(メタデータ) (2020-09-24T13:55:32Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z) - A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation [98.25464306634758]
本稿では,外部知識ベースからのコモンセンス知識を利用して,合理的なストーリーを生成することを提案する。
我々は,真と偽のストーリーを識別するための差別的目的を組み合わせたマルチタスク学習を採用している。
我々のモデルは、特に論理学とグローバルコヒーレンスの観点から、最先端のベースラインよりも合理的なストーリーを生成することができる。
論文 参考訳(メタデータ) (2020-01-15T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。