論文の概要: VisualCOMET: Reasoning about the Dynamic Context of a Still Image
- arxiv url: http://arxiv.org/abs/2004.10796v3
- Date: Sat, 1 Aug 2020 13:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:11:57.154677
- Title: VisualCOMET: Reasoning about the Dynamic Context of a Still Image
- Title(参考訳): VisualCOMET:静止画像の動的コンテキストに関する推論
- Authors: Jae Sung Park, Chandra Bhagavatula, Roozbeh Mottaghi, Ali Farhadi,
Yejin Choi
- Abstract要約: ビジュアルコモンセンス推論のためのフレームワークであるVisualCometを提案する。
VisualCometは、以前に起こりそうなイベント、次に起こる可能性のあるイベント、現在の人々の意図を予測する。
Visual Commonsense Graphsの最初の大規模リポジトリを紹介します。
- 参考スコア(独自算出の注目度): 97.20800299330078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even from a single frame of a still image, people can reason about the
dynamic story of the image before, after, and beyond the frame. For example,
given an image of a man struggling to stay afloat in water, we can reason that
the man fell into the water sometime in the past, the intent of that man at the
moment is to stay alive, and he will need help in the near future or else he
will get washed away. We propose VisualComet, the novel framework of visual
commonsense reasoning tasks to predict events that might have happened before,
events that might happen next, and the intents of the people at present. To
support research toward visual commonsense reasoning, we introduce the first
large-scale repository of Visual Commonsense Graphs that consists of over 1.4
million textual descriptions of visual commonsense inferences carefully
annotated over a diverse set of 60,000 images, each paired with short video
summaries of before and after. In addition, we provide person-grounding (i.e.,
co-reference links) between people appearing in the image and people mentioned
in the textual commonsense descriptions, allowing for tighter integration
between images and text. We establish strong baseline performances on this task
and demonstrate that integration between visual and textual commonsense
reasoning is the key and wins over non-integrative alternatives.
- Abstract(参考訳): 静止画の1つのフレームからでも、人々はその画像のダイナミックなストーリーをフレームの前、後、そしてその向こうで考えることができる。
例えば、水に浮くのに苦労している男のイメージを考えると、その男が過去に水に落ちたのは、その時の男の意図が生き残ることであり、近い将来に助けが必要であり、そうでなければ洗い流されることになる。
我々はvisualcometを提案する。visual commonsense推論タスクの新しいフレームワークで、以前発生した可能性のあるイベント、次に発生した可能性のあるイベント、現在の人々の意図を予測する。
視覚コモンセンス推論に向けた研究を支援するために,視覚コモンセンス推論の140万以上のテキスト記述からなり,それぞれが前後の短いビデオ要約と組み合わせて,様々な6万枚の画像セットに注意深く注釈付けされた視覚コモンセンス推論の大規模リポジトリを紹介する。
さらに,画像に現れる人とテキストのコモンセンス記述で言及される人との人格的接点(つまりコリファレンスリンク)を提供し,画像とテキストのより緊密な統合を可能にした。
我々は,この課題に対して強力なベースライン性能を確立し,視覚的およびテキスト的コモンセンス推論の統合が鍵であり,非統合的な代替手段に勝っていることを示す。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Contextually-rich human affect perception using multimodal scene
information [36.042369831043686]
我々は、事前学習された視覚言語(VLN)モデルを利用して、画像から前景の文脈の記述を抽出する。
本研究では,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。
自然のシーンとテレビ番組に関連する2つのデータセットに対して,モジュール設計の有効性を示す。
論文 参考訳(メタデータ) (2023-03-13T07:46:41Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Topic Scene Graph Generation by Attention Distillation from Caption [1.181694273002388]
シーングラフは、簡単な内容やノイズを減らさない限り、期待したほど実用的ではない。
シーングラフを画像キャプションから借用し、残余の回避に基づいてスペシャリストになれるようにします。
実験により、注意蒸留は、強い監督なしに重要な関係を採掘する上で大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-12T04:26:12Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z) - Visual Relationship Detection using Scene Graphs: A Survey [1.3505077405741583]
シーングラフ(Scene Graph)は、シーンとその中のさまざまな関係をよりよく表現するためのテクニックである。
本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
論文 参考訳(メタデータ) (2020-05-16T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。