Fugu-MT 論文翻訳(概要): Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity

論文の概要: Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity

arxiv url: http://arxiv.org/abs/2307.10577v3
Date: Sun, 20 Aug 2023 21:24:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 22:55:09.023901
Title: Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity
Title（参考訳）: ethosight:ジョイントエンベディングと文脈ラベル親和性に基づくニュアンス知覚のための推論誘導反復学習システム
Authors: Hugo Latapie, Shan Yu, Patrick Hammer, Kristinn R. Thorisson, Vahagn Petrosyan, Brandon Kynoch, Alind Khare, Payman Behnam, Alexey Tumanov, Aksheit Saxena, Anish Aralikatti, Hanning Chen, Mohsen Imani, Mike Archbold, Tangrui Li, Pei Wang, Justin Hart
Abstract要約: Ethosightは、フレキシブルで適応可能なゼロショットビデオ分析システムである。 Ethosightは、自然言語やキーワードで指定された、ユーザ定義のビデオ分析のクリーンなスレートから始まる。 Ethosightは低コストのエッジデバイスで効果的に動作し、ランタイム適応の強化をサポートする。
参考スコア（独自算出の注目度）: 15.605027911467793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional computer vision models often necessitate extensive data acquisition, annotation, and validation. These models frequently struggle in real-world applications, resulting in high false positive and negative rates, and exhibit poor adaptability to new scenarios, often requiring costly retraining. To address these issues, we present Ethosight, a flexible and adaptable zero-shot video analytics system. Ethosight begins from a clean slate based on user-defined video analytics, specified through natural language or keywords, and leverages joint embedding models and reasoning mechanisms informed by ontologies such as WordNet and ConceptNet. Ethosight operates effectively on low-cost edge devices and supports enhanced runtime adaptation, thereby offering a new approach to continuous learning without catastrophic forgetting. We provide empirical validation of Ethosight's promising effectiveness across diverse and complex use cases, while highlighting areas for further improvement. A significant contribution of this work is the release of all source code and datasets to enable full reproducibility and to foster further innovation in both the research and commercial domains.
Abstract（参考訳）: 従来のコンピュータビジョンモデルは、広範なデータ取得、アノテーション、検証を必要とすることが多い。これらのモデルは、しばしば現実世界のアプリケーションで苦労し、高い偽陽性と負の率をもたらし、新しいシナリオへの適応性が低く、しばしばコストのかかる再訓練を必要とする。この問題に対処するため,我々は,フレキシブルで適応可能なゼロショットビデオ分析システムであるethosightを提案する。 Ethosightは、自然言語やキーワードで指定されたユーザ定義のビデオ分析に基づいてクリーンなスレートから始まり、WordNetやConceptNetといったオントロジーによって通知される共同埋め込みモデルと推論メカニズムを活用する。 ethosightは低コストのエッジデバイス上で効果的に動作し、ランタイム適応の強化をサポートする。 Ethosightの有望な有効性は、多種多様な複雑なユースケースにまたがって実証的に検証し、さらなる改善の領域を強調します。この研究の重要な貢献は、完全な再現性を実現し、研究領域と商業領域の両方でさらなるイノベーションを促進するために、すべてのソースコードとデータセットのリリースである。

関連論文リスト

Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
Improving Data and Parameter Efficiency of Neural Language Models Using Representation Analysis [0.0]
この論文は、ニューラルネットワークモデルにおけるデータとパラメータ効率に関する課題に対処する。第1部では、ニューラルネットワーク内の言語表現の特性と力学を考察し、堅牢性と一般化の強化におけるそれらの重要性を強調している。第2部では、アクティブ学習戦略とパラメータ効率の微調整を統合することにより、データとパラメータ効率を大幅に向上させる手法に焦点を当てている。第3部では、文脈内学習によって強化された弱い監視手法を探求し、ラベルなしデータを効果的に活用する。
論文参考訳（メタデータ） (2025-07-16T07:58:20Z)
Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。 DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文参考訳（メタデータ） (2024-11-23T10:06:18Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文参考訳（メタデータ） (2024-05-10T01:56:39Z)
Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment [2.1374208474242815]
Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。
論文参考訳（メタデータ） (2024-04-29T14:47:32Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
Generative Counterfactuals for Neural Networks via Attribute-Informed Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文参考訳（メタデータ） (2021-01-18T08:37:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。