論文の概要: Learning Structured Representations of Visual Scenes
- arxiv url: http://arxiv.org/abs/2207.04200v1
- Date: Sat, 9 Jul 2022 05:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:54:55.918463
- Title: Learning Structured Representations of Visual Scenes
- Title(参考訳): 視覚シーンの構造化表現の学習
- Authors: Meng-Jiun Chiou
- Abstract要約: 本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
- 参考スコア(独自算出の注目度): 1.6244541005112747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the intermediate-level representations bridging the two levels, structured
representations of visual scenes, such as visual relationships between pairwise
objects, have been shown to not only benefit compositional models in learning
to reason along with the structures but provide higher interpretability for
model decisions. Nevertheless, these representations receive much less
attention than traditional recognition tasks, leaving numerous open challenges
unsolved. In the thesis, we study how machines can describe the content of the
individual image or video with visual relationships as the structured
representations. Specifically, we explore how structured representations of
visual scenes can be effectively constructed and learned in both the
static-image and video settings, with improvements resulting from external
knowledge incorporation, bias-reducing mechanism, and enhanced representation
models. At the end of this thesis, we also discuss some open challenges and
limitations to shed light on future directions of structured representation
learning for visual scenes.
- Abstract(参考訳): 2つのレベルを橋渡しする中間レベルの表現として、ペアオブジェクト間の視覚的関係のような視覚シーンの構造的表現は、学習において構成モデルに利益をもたらすだけでなく、モデル決定により高い解釈性をもたらすことが示されている。
しかしながら、これらの表現は従来の認識タスクよりもはるかに少ない注意を受けており、多くのオープンな課題が未解決のまま残されている。
本論文では,視覚関係を構造化表現として,個々の画像や映像の内容を記述する方法について検討する。
具体的には、外部知識の取り込み、バイアス低減機構、拡張表現モデルによる改善により、静的画像とビデオの両方で視覚シーンの構造的表現を効果的に構築し、学習する方法について検討する。
この論文の最後には、視覚シーンのための構造化表現学習の今後の方向性に光を当てるためのオープンな課題や制限についても論じる。
関連論文リスト
- InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。