論文の概要: Representation Learning of Image Schema
- arxiv url: http://arxiv.org/abs/2207.08256v1
- Date: Sun, 17 Jul 2022 18:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:07:26.871541
- Title: Representation Learning of Image Schema
- Title(参考訳): 画像スキーマの表現学習
- Authors: Fajrian Yunus, Chlo\'e Clavel, Catherine Pelachaud
- Abstract要約: 画像スキーマのベクトル表現を学習する手法を提案する。
我々の主な目標は、エンボダイド会話エージェントのための比喩的なジェスチャーを生成することである。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image schema is a recurrent pattern of reasoning where one entity is mapped
into another. Image schema is similar to conceptual metaphor and is also
related to metaphoric gesture. Our main goal is to generate metaphoric gestures
for an Embodied Conversational Agent.
We propose a technique to learn the vector representation of image schemas.
As far as we are aware of, this is the first work which addresses that problem.
Our technique uses Ravenet et al's algorithm which we use to compute the image
schemas from the text input and also BERT and SenseBERT which we use as the
base word embedding technique to calculate the final vector representation of
the image schema. Our representation learning technique works by clustering:
word embedding vectors which belong to the same image schema should be
relatively closer to each other, and thus form a cluster.
With the image schemas representable as vectors, it also becomes possible to
have a notion that some image schemas are closer or more similar to each other
than to the others because the distance between the vectors is a proxy of the
dissimilarity between the corresponding image schemas. Therefore, after
obtaining the vector representation of the image schemas, we calculate the
distances between those vectors. Based on these, we create visualizations to
illustrate the relative distances between the different image schemas.
- Abstract(参考訳): イメージスキーマは、あるエンティティが別のエンティティにマッピングされる推論のリカレントパターンである。
イメージスキーマは概念的メタファーと似ており、メタファー的ジェスチャーにも関連している。
我々の主な目標は、エンボダイド会話エージェントのための比喩的なジェスチャーを生成することである。
画像スキーマのベクトル表現を学習する手法を提案する。
私たちが認識している限りでは、この問題に対処する最初の作業です。
本手法では,テキスト入力から画像スキーマを計算するravenet et alのアルゴリズムと,画像スキーマの最終的なベクトル表現を計算するためにベースワード埋め込み技術として使用するbertとsensebertを用いる。
我々の表現学習技術はクラスタリングによって機能する:同じ画像スキーマに属する単語埋め込みベクトルは、互いに比較的近い位置にあり、したがってクラスタを形成する。
ベクトルとして表現可能な画像スキーマでは、ベクトル間の距離が対応する画像スキーマ間の相似性のプロキシであるため、一部の画像スキーマが互いに近接または類似しているという考え方も可能となる。
したがって、画像スキーマのベクトル表現を得た後、これらのベクトル間の距離を計算する。
これらに基づいて、異なる画像スキーマ間の相対距離を視覚化する。
関連論文リスト
- Patch-wise Graph Contrastive Learning for Image Translation [69.85040887753729]
グラフニューラルネットワークを利用して、トポロジを意識した特徴をキャプチャする。
予め訓練されたエンコーダからパッチワイドな類似性に基づいてグラフを構築する。
階層的な意味構造を捉えるために,グラフプーリングを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:45:19Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Image-to-Image Retrieval by Learning Similarity between Scene Graphs [5.284353899197193]
本論文では,グラフニューラルネットワークによるシーングラフ類似度を用いた画像・画像検索手法を提案する。
提案手法では,人間の注釈付きキャプションから算出したプロキシ画像関連度を予測するために,グラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-12-29T10:45:20Z) - Embedding Words in Non-Vector Space with Unsupervised Graph Learning [33.51809615505692]
GraphGlove: エンドツーエンドで学習される教師なしグラフワード表現について紹介する。
我々の設定では、各単語は重み付きグラフのノードであり、単語間の距離は対応するノード間の最短経路距離である。
グラフに基づく表現は、単語類似性や類似性タスクにおいて、ベクターベースの手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-10-06T10:17:49Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。