論文の概要: ScriptHOI: Learning Scripted State Transitions for Open-Vocabulary Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2605.05057v2
- Date: Tue, 12 May 2026 02:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.710578
- Title: ScriptHOI: Learning Scripted State Transitions for Open-Vocabulary Human-Object Interaction Detection
- Title(参考訳): ScriptHOI:オープン・ボキャブラリ・ヒューマン・オブジェクトインタラクション検出のためのスクリプト状態遷移学習
- Authors: Minh Anh Nguyen, Quang Huy Tran, Bao Ngoc Le, SuiYang Guang, Tuan Kiet Pham, Linh Chi Vo,
- Abstract要約: オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、トレーニング中にカテゴリとして現れないインタラクション・フレーズを認識する必要がある。
近年の視覚言語HOI検出器は、人間の物体の特徴とテキスト埋め込みをマッチングすることで意味伝達を改善する。
本稿では,各インタラクションフレーズをソフトスクリプト状態遷移として表現する構造化フレームワークScriptHOIを提案する。
- 参考スコア(独自算出の注目度): 1.2710597393824294
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-vocabulary human-object interaction (HOI) detection requires recognizing interaction phrases that may not appear as annotated categories during training. Recent vision-language HOI detectors improve semantic transfer by matching human-object features with text embeddings, but their predictions are often dominated by object affordance and phrase-level co-occurrence. As a result, a model may predict \textit{cut cake} from the presence of a knife and a cake without verifying whether the hand, tool, target, contact pattern, and object state jointly support the action. We propose \textbf{ScriptHOI}, a structured framework that represents each interaction phrase as a soft scripted state transition. Rather than treating a phrase as a single class token, ScriptHOI decomposes it into body-role, contact, geometry, affordance, motion, and object-state slots. A visual state tokenizer parses each detected human-object pair into corresponding state tokens, and a slot-wise matcher estimates both script coverage and script conflict. These two quantities calibrate HOI logits, expose missing visual evidence, and provide training constraints for incomplete annotations. To avoid suppressing valid but unannotated interactions, we further introduce interval partial-label learning, which constrains unannotated candidates with script-derived lower and upper probability bounds instead of assigning closed-world negatives. A counterfactual script contrast loss swaps individual script slots to discourage object-only shortcuts. Experiments on HICO-DET, V-COCO, and open-vocabulary HOI splits show that ScriptHOI improves rare and unseen interaction recognition while substantially reducing affordance-conflict false positives.
- Abstract(参考訳): オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は、トレーニング中に注釈付きカテゴリとして現れない相互作用のフレーズを認識する必要がある。
近年の視覚言語HOI検出器は、人間の物体の特徴とテキスト埋め込みとを一致させることで意味伝達を改善するが、それらの予測は、しばしば、物価とフレーズレベルの共起によって支配される。
結果として、手、ツール、ターゲット、接触パターン、オブジェクト状態が共同でアクションをサポートするかどうかを確認することなく、ナイフとケーキの存在から \textit{cut cake} を予測することができる。
本稿では,各インタラクションフレーズをソフトスクリプト状態遷移として表現する構造化フレームワークである‘textbf{ScriptHOI}’を提案する。
ScriptHOIは、フレーズを単一のクラストークンとして扱うのではなく、ボディロール、コンタクト、幾何学、余裕、動き、オブジェクトステートスロットに分解する。
視覚的状態トークン化器は、検出された各オブジェクト対を対応する状態トークンに解析し、スロットワイズマッチング器はスクリプトカバレッジとスクリプト競合の両方を推定する。
これら2つの量では、HOIロジットを校正し、欠落した視覚的証拠を明らかにし、不完全なアノテーションのトレーニング制約を提供する。
有効だが無意味な相互作用を抑えるために、我々はさらにインターバル部分ラベル学習を導入し、非注釈候補を閉世界負を割り当てる代わりに、スクリプト由来の下位および上位確率境界で制約する。
反ファクトなスクリプトコントラスト損失は、個々のスクリプトスロットを交換して、オブジェクトのみのショートカットを回避します。
HICO-DET, V-COCO, Open-vocabulary HOI の分割実験により,ScriptHOI は空き難い偽陽性を著しく低減しつつ,稀で見えない相互作用認識を改善することが示された。
関連論文リスト
- Towards Unconstrained Human-Object Interaction [55.123145316966635]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、長年続くコンピュータビジョンの問題である。
MLLM(Multimodal Large Language Models)の出現により、対話認識のためのより柔軟なパラダイムを探求することが可能になった。
本研究では,MLLM のレンズによるHOI検出を再検討し,HOI検出に応用する。
論文 参考訳(メタデータ) (2026-04-15T16:39:28Z) - One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations [0.0]
Sparse Autoencoders (SAEs) が学習した特徴が抽象的な意味を表すのか、それともテキストの書き方と結びついているのかを検討する。
異なるセルビア文字で同一の文が高度に重なり合う特徴を活性化し、ランダムなベースラインをはるかに超えていることがわかった。
この結果から,SAE機能は表面トークン化以上の抽象レベルでセマンティクスをキャプチャできる可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-09T19:31:20Z) - SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning [53.638998508418545]
本稿では,画像の協調とキャプション'(セグキャプション)を新たに導入する。
SegCaptioningは、オブジェクトを囲むバウンディングボックスのような直接的なプロンプトを、(カプセル、マスク)ペアで表されるさまざまな意味解釈に変換することを目的としている。
このタスクは、ユーザの意図を最小限のプロンプトから正確に把握し、同時に複数の意味的に整列したキャプションワードとマスクを予測するなど、大きな課題を生じさせる。
論文 参考訳(メタデータ) (2025-12-01T18:33:04Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - Hierarchical Text Interaction for Rating Prediction [8.400688907233398]
評価予測のための階層型テキストインタラクションモデルを提案する。
階層の異なる各ユーザ-イテムペア間のセマンティックな相関を利用する。
5つの実世界のデータセットの実験により、HTIは最先端のモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-10-15T09:52:40Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。