Fugu-MT 論文翻訳(概要): Leverage Task Context for Object Affordance Ranking

論文の概要: Leverage Task Context for Object Affordance Ranking

arxiv url: http://arxiv.org/abs/2411.16082v1
Date: Mon, 25 Nov 2024 04:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.684705
Title: Leverage Task Context for Object Affordance Ranking
Title（参考訳）: オブジェクト出現率ランキングのためのタスクコンテキストの活用
Authors: Haojie Huang, Hongchen Luo, Wei Zhai, Yang Cao, Zheng-Jun Zha,
Abstract要約: 25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
参考スコア（独自算出の注目度）: 57.59106517732223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intelligent agents accomplish different tasks by utilizing various objects based on their affordance, but how to select appropriate objects according to task context is not well-explored. Current studies treat objects within the affordance category as equivalent, ignoring that object affordances vary in priority with different task contexts, hindering accurate decision-making in complex environments. To enable agents to develop a deeper understanding of the objects required to perform tasks, we propose to leverage task context for object affordance ranking, i.e., given image of a complex scene and the textual description of the affordance and task context, revealing task-object relationships and clarifying the priority rank of detected objects. To this end, we propose a novel Context-embed Group Ranking Framework with task relation mining module and graph group update module to deeply integrate task context and perform global relative relationship transmission. Due to the lack of such data, we construct the first large-scale task-oriented affordance ranking dataset with 25 common tasks, over 50k images and more than 661k objects. Experimental results demonstrate the feasibility of the task context based affordance learning paradigm and the superiority of our model over state-of-the-art models in the fields of saliency ranking and multimodal object detection. The source code and dataset will be made available to the public.
Abstract（参考訳）: 知的エージェントは、様々なオブジェクトを可利用性に基づいて利用することで異なるタスクを遂行するが、タスクコンテキストに応じて適切なオブジェクトを選択する方法は十分に探索されていない。現在の研究では、物価カテゴリー内のオブジェクトを同等として扱い、複雑な環境での正確な意思決定を妨げるために、物価が異なるタスクコンテキストで優先度が異なることを無視している。タスク実行に必要なオブジェクトのより深い理解を実現するために,複雑なシーンの与えられた画像とタスクコンテキストのテキスト記述,タスクオブジェクトの関係を明らかにすること,検出されたオブジェクトの優先度を明確化するタスクコンテキストを活用することを提案する。そこで本研究では,タスクコンテキストを深く統合し,グローバルな関係伝達を行うために,タスク関係マイニングモジュールとグラフグループ更新モジュールを備えたコンテキスト埋め込み型グループランキングフレームワークを提案する。このようなデータがないため、25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築した。実験結果から,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。ソースコードとデータセットは一般公開される予定だ。

関連論文リスト

Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文参考訳（メタデータ） (2025-07-01T15:32:23Z)
Reverse Probing: Evaluating Knowledge Transfer via Finetuned Task Embeddings for Coreference Resolution [23.375053899418504]
複雑なソースタスクから凍結表現を探索する代わりに、複数の単純なソースタスクから1つのターゲットタスクへの埋め込みの有効性について検討する。この結果,タスクの埋め込みは,意味的類似性タスクが最も有益であることが示され,コア参照の解決に大いに有用であることが判明した。
論文参考訳（メタデータ） (2025-01-31T17:12:53Z)
OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion [39.14950571922401]
OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。操作タスクを整理する3つのレベルの抽象化が導入されている。 OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
論文参考訳（メタデータ） (2024-03-28T13:47:19Z)
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。最近のソリューションは主にオールインワンモデルです。汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:02Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文参考訳（メタデータ） (2023-09-03T06:18:39Z)
Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文参考訳（メタデータ） (2022-10-12T15:02:04Z)
Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文参考訳（メタデータ） (2022-08-19T02:46:20Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。