論文の概要: Generating Fine Details of Entity Interactions
- arxiv url: http://arxiv.org/abs/2504.08714v1
- Date: Fri, 11 Apr 2025 17:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:00:45.135759
- Title: Generating Fine Details of Entity Interactions
- Title(参考訳): エンティティインタラクションの細部の生成
- Authors: Xinyi Gu, Jiayuan Mao,
- Abstract要約: 本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。
本稿では,相互作用生成問題に対処する分解強化手法を提案する。
当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
- 参考スコア(独自算出の注目度): 17.130839907951877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images not only depict objects but also encapsulate rich interactions between them. However, generating faithful and high-fidelity images involving multiple entities interacting with each other, is a long-standing challenge. While pre-trained text-to-image models are trained on large-scale datasets to follow diverse text instructions, they struggle to generate accurate interactions, likely due to the scarcity of training data for uncommon object interactions. This paper introduces InterActing, an interaction-focused dataset with 1000 fine-grained prompts covering three key scenarios: (1) functional and action-based interactions, (2) compositional spatial relationships, and (3) multi-subject interactions. To address interaction generation challenges, we propose a decomposition-augmented refinement procedure. Our approach, DetailScribe, built on Stable Diffusion 3.5, leverages LLMs to decompose interactions into finer-grained concepts, uses a VLM to critique generated images, and applies targeted interventions within the diffusion process in refinement. Automatic and human evaluations show significantly improved image quality, demonstrating the potential of enhanced inference strategies. Our dataset and code are available at https://concepts-ai.com/p/detailscribe/ to facilitate future exploration of interaction-rich image generation.
- Abstract(参考訳): 画像はオブジェクトだけでなく、オブジェクト間のリッチな相互作用をカプセル化します。
しかし、複数のエンティティが相互に相互作用する、忠実で高忠実な画像を生成することは、長年にわたる課題である。
トレーニング済みのテキスト-画像モデルは、さまざまなテキスト命令に従うために大規模なデータセットでトレーニングされているが、おそらくは非一般的なオブジェクトインタラクションのためのトレーニングデータの不足のために、正確なインタラクションを生成するのに苦労している。
本稿では,(1)機能的・行動的相互作用,(2)構成的空間的関係,(3)多目的相互作用の3つの主要なシナリオを網羅した,1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。
相互作用生成の課題に対処するために,分解強化改良法を提案する。
我々のアプローチであるDetailScribeは、安定拡散3.5上に構築され、LLMを活用してよりきめ細かな概念に相互作用を分解し、VLMを用いて生成された画像を批判し、拡散過程においてターゲットの介入を適用する。
自動評価と人的評価は画像品質を著しく改善し、推論戦略の強化の可能性を示した。
私たちのデータセットとコードはhttps://concepts-ai.com/detailscribe/で公開されています。
関連論文リスト
- SDMatte: Grafting Diffusion Models for Interactive Matting [16.575733536011658]
本稿では,拡散駆動型インタラクティブ・マッティングモデルSDMatteを提案する。
まず、拡散モデルの強力な先行性を利用して、テキスト駆動の相互作用能力を視覚的プロンプト駆動の相互作用能力に変換する。
第2に、視覚的プロンプトの座標埋め込みと対象物の不透明埋め込みを統合し、空間的位置情報に対するSDMatteの感度を高める。
第3に,視覚的プロンプトによって特定された領域に集中できるマスキング型自己注意機構を提案する。
論文 参考訳(メタデータ) (2025-08-01T09:00:48Z) - Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in Videos [14.198003271084799]
ビデオにおけるHuman-Object Interaction(HOI)認識には、時間とともに進化していく視覚的パターンと幾何学的関係の両方を理解する必要がある。
本稿では,相互依存型実体グラフ学習と組み合わせた2重アテンション特徴フュージョンを用いたGeometric Visual Fusion Graph Neural Network (GeoVis-GNN)を提案する。
実世界のシナリオにHOI認識を前進させるために、コンカレント部分的相互作用データセットを導入する。
論文 参考訳(メタデータ) (2025-06-03T22:51:44Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Information Interaction Profile of Choice Adoption [2.9972063833424216]
相互作用するエンティティを分離する時間的距離に応じて、エンティティの相互作用ネットワークとその進化を推定する効率的な方法を紹介します。
相互作用プロファイルは、相互作用プロセスのメカニズムを特徴付けることができます。
ユーザに対する露出の組み合わせの効果は、各露出の独立した効果の総和以上のものであることを示す。
論文 参考訳(メタデータ) (2021-04-28T10:42:25Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。