Fugu-MT 論文翻訳(概要): Rapid Object Annotation

論文の概要: Rapid Object Annotation

arxiv url: http://arxiv.org/abs/2407.18682v1
Date: Fri, 26 Jul 2024 11:56:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 13:30:50.946451
Title: Rapid Object Annotation
Title（参考訳）: Rapid Object Annotation
Authors: Misha Denil,
Abstract要約: 本稿では,新しいオブジェクトに対するバウンディングボックスによる動画のアノテートを高速に行うことの問題点について考察する。任意の新規ターゲットに対して、このプロセスを高速にするためのUIと関連するワークフローについて説明する。
参考スコア（独自算出の注目度）: 1.8042487899765238
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this report we consider the problem of rapidly annotating a video with bounding boxes for a novel object. We describe a UI and associated workflow designed to make this process fast for an arbitrary novel target.
Abstract（参考訳）: 本稿では,新しいオブジェクトに対するバウンディングボックスを用いた動画のアノテートを高速に行うことの問題点について考察する。任意の新規ターゲットに対して、このプロセスを高速にするためのUIと関連するワークフローについて説明する。

関連論文リスト

Frame In-N-Out: Unbounded Controllable Image-to-Video Generation [12.556320730925702]
制御性、時間的コヒーレンス、詳細合成は、ビデオ生成において最も重要な課題である。我々は、フレームインとフレームアウトとして知られる、一般的には使われていないが探索されていない撮影技術に焦点を当てる。我々は、半自動でキュレートされた新しいデータセット、この設定をターゲットとした包括的評価プロトコル、および効率的なID保存型モーションコントロール可能なビデオ拡散トランスフォーマアーキテクチャを導入する。
論文参考訳（メタデータ） (2025-05-27T17:56:07Z)
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。 Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文参考訳（メタデータ） (2025-04-07T22:35:36Z)
Your Interest, Your Summaries: Query-Focused Long Video Summarization [0.6041235048439966]
本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。本稿では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(FCSNA-QFVS)を提案する。
論文参考訳（メタデータ） (2024-10-17T23:37:58Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文参考訳（メタデータ） (2023-08-07T03:16:24Z)
ComplETR: Reducing the cost of annotations for object detection in dense scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文参考訳（メタデータ） (2022-09-13T00:11:16Z)
Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-04-20T11:59:17Z)
IntentVizor: Towards Generic Query Guided Interactive Video Summarization Using Slow-Fast Graph Convolutional Networks [2.5234156040689233]
IntentVizorは、ジェネリックなマルチモーダリティクエリによってガイドされるインタラクティブなビデオ要約フレームワークである。ユーザからのインプットを表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計しています。
論文参考訳（メタデータ） (2021-09-30T03:44:02Z)
Short-Term and Long-Term Context Aggregation Network for Video Inpainting [126.06302824297948]
Video Inpaintingは、ビデオの欠落した領域を復元することを目的としており、ビデオ編集やオブジェクト削除など多くのアプリケーションがある。本稿では,映像インパインティングにおいて,短期・長期のフレーム情報を効果的に活用する新しいコンテキスト集約ネットワークを提案する。実験により,最先端の手法よりも優れた塗布結果と高速塗布速度が得られた。
論文参考訳（メタデータ） (2020-09-12T03:50:56Z)
Video Super-resolution with Temporal Group Attention [127.21615040695941]
本稿では,時間的情報を階層的に効果的に組み込む新しい手法を提案する。入力シーケンスは複数のグループに分けられ、それぞれがフレームレートの種類に対応する。これは、いくつかのベンチマークデータセットにおける最先端のメソッドに対して良好なパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-07-21T04:54:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。