論文の概要: Learning Human-Human Interactions in Images from Weak Textual
Supervision
- arxiv url: http://arxiv.org/abs/2304.14104v4
- Date: Mon, 18 Sep 2023 17:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:59:23.220457
- Title: Learning Human-Human Interactions in Images from Weak Textual
Supervision
- Title(参考訳): 弱いテキストによる画像の人間-人間間相互作用の学習
- Authors: Morris Alper and Hadar Averbuch-Elor
- Abstract要約: 静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。
本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。
私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
- 参考スコア(独自算出の注目度): 15.71242350678679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactions between humans are diverse and context-dependent, but previous
works have treated them as categorical, disregarding the heavy tail of possible
interactions. We propose a new paradigm of learning human-human interactions as
free text from a single still image, allowing for flexibility in modeling the
unlimited space of situations and relationships between people. To overcome the
absence of data labelled specifically for this task, we use knowledge
distillation applied to synthetic caption data produced by a large language
model without explicit supervision. We show that the pseudo-labels produced by
this procedure can be used to train a captioning model to effectively
understand human-human interactions in images, as measured by a variety of
metrics that measure textual and semantic faithfulness and factual groundedness
of our predictions. We further show that our approach outperforms SOTA image
captioning and situation recognition models on this task. We will release our
code and pseudo-labels along with Waldo and Wenda, a manually-curated test set
for still image human-human interaction understanding.
- Abstract(参考訳): 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。
本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。
本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。
本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。
さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。
コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。
関連論文リスト
- Human Inspired Progressive Alignment and Comparative Learning for
Grounded Word Acquisition [6.47452771256903]
我々は、人間の赤ちゃんが最初の言語をどのように習得するかからインスピレーションを得て、比較学習を通じて単語獲得のための計算プロセスを開発した。
認知的発見を動機として,様々な属性の類似点と相違点を計算モデルで比較できる小さなデータセットを作成した。
我々は、単語の獲得を情報フィルタリングのプロセスだけでなく、表現-シンボルマッピングにもとづいている。
論文 参考訳(メタデータ) (2023-07-05T19:38:04Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in
Artistic Creations [13.41855784689782]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
我々は、異なるタイプのターゲットイメージと2つの異なるモデルでAIのステアビリティを定量化し比較し、都市と自然世界のイメージが芸術的、幻想的なイメージよりもステアビリティが高いことを発見した。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。