論文の概要: Intentonomy: a Dataset and Study towards Human Intent Understanding
- arxiv url: http://arxiv.org/abs/2011.05558v2
- Date: Sun, 28 Mar 2021 02:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:52:59.574240
- Title: Intentonomy: a Dataset and Study towards Human Intent Understanding
- Title(参考訳): intentonomy: 人間の意図理解のためのデータセットと研究
- Authors: Menglin Jia and Zuxuan Wu and Austin Reiter and Claire Cardie and
Serge Belongie and Ser-Nam Lim
- Abstract要約: 視覚情報がどのように人間の意図を認識するかを分析することを目的として,ソーシャルメディア画像の背景にある意図について検討する。
インテント・データセットであるIntentonomyを導入し,14K画像で様々な日常シーンをカバーした。
次に、視覚情報、すなわち、対象と文脈が人間の動機理解に寄与するかどうかを体系的に研究する。
- 参考スコア(独自算出の注目度): 65.49299806821791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An image is worth a thousand words, conveying information that goes beyond
the physical visual content therein. In this paper, we study the intent behind
social media images with an aim to analyze how visual information can help the
recognition of human intent. Towards this goal, we introduce an intent dataset,
Intentonomy, comprising 14K images covering a wide range of everyday scenes.
These images are manually annotated with 28 intent categories that are derived
from a social psychology taxonomy. We then systematically study whether, and to
what extent, commonly used visual information, i.e., object and context,
contribute to human motive understanding. Based on our findings, we conduct
further study to quantify the effect of attending to object and context classes
as well as textual information in the form of hashtags when training an intent
classifier. Our results quantitatively and qualitatively shed light on how
visual and textual information can produce observable effects when predicting
intent.
- Abstract(参考訳): 画像は1000ワードの価値があり、物理的な視覚的コンテンツを超えた情報を伝達する。
本稿では,視覚情報がどのように人間の意図を認識するのに役立つかを分析する目的で,ソーシャルメディア画像の背景にある意図について検討する。
この目的に向けて,広範囲の日常シーンをカバーする14K画像からなる意図的データセットIntentonomyを導入する。
これらの画像は、社会心理学の分類から派生した28の意図カテゴリで手動で注釈付けされる。
次に、視覚情報(オブジェクトとコンテキスト)が人間のモチベーション理解にどの程度寄与するかを体系的に研究した。
本研究は,対象クラスや文脈クラスへの参加効果の定量化と,意図分類器を訓練する際のハッシュタグ形式のテキスト情報の定量化を目的としている。
その結果,視覚的およびテキスト的情報の意図予測における可観測的効果について,定量的かつ定性的に考察した。
関連論文リスト
- Structuring Quantitative Image Analysis with Object Prominence [0.0]
データとして画像を分析するための重要なステップとして,オブジェクトの優位性について慎重に検討する。
我々の手法は質的な分析と定量的アプローチのスケーラビリティを組み合わせる。
論文 参考訳(メタデータ) (2024-08-30T19:05:28Z) - An Image-based Typology for Visualization [23.716718517642878]
本稿では,画像からの視覚表現の質的解析結果について述べる。
定義群を10種類に分類した。
我々は、6,833枚のタグ付き画像のデータセットと、ラベル付き画像の大規模な集合を探索および分析するために使用できるオンラインツールを提供する。
論文 参考訳(メタデータ) (2024-03-07T04:33:42Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。
ある画像に対して感じている支配的な感情を示すために、注釈を付けます。
これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文 参考訳(メタデータ) (2021-01-19T01:03:40Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。