Fugu-MT 論文翻訳(概要): Learning Human-Human Interactions in Images from Weak Textual Supervision

論文の概要: Learning Human-Human Interactions in Images from Weak Textual Supervision

arxiv url: http://arxiv.org/abs/2304.14104v4
Date: Mon, 18 Sep 2023 17:50:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 23:59:23.220457
Title: Learning Human-Human Interactions in Images from Weak Textual Supervision
Title（参考訳）: 弱いテキストによる画像の人間-人間間相互作用の学習
Authors: Morris Alper and Hadar Averbuch-Elor
Abstract要約: 静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
参考スコア（独自算出の注目度）: 15.71242350678679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.
Abstract（参考訳）: 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。

関連論文リスト

VerbDiff: Text-Only Diffusion Models with Enhanced Interaction Awareness [5.542712070598464]
VerbDiffは、インタラクションワードとオブジェクト間のバイアスを弱める新しいテキスト・画像生成モデルである。提案手法により,人間と物体の相互作用を正確に理解し,高品質な画像を生成する。
論文参考訳（メタデータ） (2025-03-20T17:56:20Z)
A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis [0.3495246564946556]
近年のテキストイメージモデルにおけるコントラスト学習のアプローチの概要について述べる。第3に、プロセスで使用されるテクニックの最新の進歩を紹介し、議論する。テキスト画像に基づく自己教師付きコントラスト学習モデルの最近の技術応用について論じる。
論文参考訳（メタデータ） (2025-03-14T05:43:47Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文参考訳（メタデータ） (2024-08-29T17:59:57Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文参考訳（メタデータ） (2023-06-13T21:10:45Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文参考訳（メタデータ） (2021-08-16T17:36:49Z)
Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文参考訳（メタデータ） (2020-08-19T23:19:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。