論文の概要: Learning Contextual Causality from Time-consecutive Images
- arxiv url: http://arxiv.org/abs/2012.07138v1
- Date: Sun, 13 Dec 2020 20:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:53:20.402108
- Title: Learning Contextual Causality from Time-consecutive Images
- Title(参考訳): 時系列画像による文脈因果関係の学習
- Authors: Hongming Zhang, Yintong Huo, Xinran Zhao, Yangqiu Song, Dan Roth
- Abstract要約: 因果知識は多くの人工知能システムにとって重要である。
本稿では,視覚信号から文脈因果関係を学習する可能性について検討する。
まず,高品質なデータセットvis-causalを提案し,ビデオから有意義な因果知識を自動的に発見できることを示す実験を行った。
- 参考スコア(独自算出の注目度): 84.26437953699444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Causality knowledge is crucial for many artificial intelligence systems.
Conventional textual-based causality knowledge acquisition methods typically
require laborious and expensive human annotations. As a result, their scale is
often limited. Moreover, as no context is provided during the annotation, the
resulting causality knowledge records (e.g., ConceptNet) typically do not take
the context into consideration. To explore a more scalable way of acquiring
causality knowledge, in this paper, we jump out of the textual domain and
investigate the possibility of learning contextual causality from the visual
signal. Compared with pure text-based approaches, learning causality from the
visual signal has the following advantages: (1) Causality knowledge belongs to
the commonsense knowledge, which is rarely expressed in the text but rich in
videos; (2) Most events in the video are naturally time-ordered, which provides
a rich resource for us to mine causality knowledge from; (3) All the objects in
the video can be used as context to study the contextual property of causal
relations. In detail, we first propose a high-quality dataset Vis-Causal and
then conduct experiments to demonstrate that with good language and visual
representation models as well as enough training signals, it is possible to
automatically discover meaningful causal knowledge from the videos. Further
analysis also shows that the contextual property of causal relations indeed
exists, taking which into consideration might be crucial if we want to use the
causality knowledge in real applications, and the visual signal could serve as
a good resource for learning such contextual causality.
- Abstract(参考訳): 因果知識は多くの人工知能システムにとって不可欠である。
従来のテキストに基づく因果関係知識獲得手法は、通常、手間とコストのかかる人間のアノテーションを必要とする。
結果として、その規模はしばしば制限される。
さらに、アノテーションの間にコンテキストが提供されないため、結果として得られる因果関係の知識レコード(例:conceptnet)は、通常、コンテキストを考慮しない。
因果知識を得るためのよりスケーラブルな方法を探るため,本稿では,テキスト領域から飛び出し,視覚信号から因果知識を学習する可能性について検討する。
純粋なテキストベースのアプローチと比較すると、視覚信号からの因果関係の学習には、(1)因果関係知識は、テキスト内ではほとんど表現されないがビデオに富む常識知識に属する、(2)ビデオ内のほとんどのイベントは、自然に時間順に順序付けされ、因果関係の文脈特性を研究するコンテキストとして使用できる、という利点がある。
より詳しくは、まず高品質なデータセットVis-Causalを提案し、次に、優れた言語と視覚表現モデルと十分な訓練信号で、ビデオから意味のある因果的知識を自動的に発見できることを示す実験を行う。
さらに分析によって、因果関係の文脈的性質が実際に存在し、実際のアプリケーションで因果関係の知識を使いたい場合、それらを考慮することが重要であることが示され、視覚信号はそのような因果関係を学習するための良い情報源となる。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - EventGround: Narrative Reasoning by Grounding to Eventuality-centric Knowledge Graphs [41.928535719157054]
本研究では,事象中心の知識グラフに自由文を接地する問題に対処するため,EventGroundと呼ばれる初期包括的フレームワークを提案する。
これらの問題に対処するために、単純で効果的な解析と部分的な情報抽出方法を提案する。
基礎知識を取り入れた我々の枠組みは、解釈可能な証拠を提供しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-30T01:16:37Z) - Comprehensive Event Representations using Event Knowledge Graphs and
Natural Language Processing [0.0]
この研究は、自然言語処理(NLP)の分野からの発見を利用して、テキストから知識を抽出し、知識グラフを構築する、成長する仕事の体系を利用して構築することを目的としている。
具体的には、サブイベント抽出は、サブイベント認識イベント表現を作成する方法として使用される。
これらの事象表現は、きめ細かい位置抽出を通じて豊かにされ、歴史的に関連する引用のアライメントによって文脈化される。
論文 参考訳(メタデータ) (2023-03-08T18:43:39Z) - Visually Grounded Commonsense Knowledge Acquisition [132.42003872906062]
大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。
視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。
本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
論文 参考訳(メタデータ) (2022-11-22T07:00:16Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - iReason: Multimodal Commonsense Reasoning using Videos and Natural
Language with Interpretability [0.0]
因果的知識は、堅牢なAIシステムを構築する上で不可欠である。
iReasonは、ビデオと自然言語のキャプションの両方を用いて、視覚意味のコモンセンス知識を推論するフレームワークである。
論文 参考訳(メタデータ) (2021-06-25T02:56:34Z) - Dimensions of Commonsense Knowledge [60.49243784752026]
我々は,その関係に特に焦点をあてて,広く普及しているコモンセンスソースを調査した。
我々はこれらの関係を13の知識次元に集約し、それぞれがソースにあるより具体的な関係を抽象化する。
論文 参考訳(メタデータ) (2021-01-12T17:52:39Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。