論文の概要: Comparing a composite model versus chained models to locate a nearest
visual object
- arxiv url: http://arxiv.org/abs/2306.01551v1
- Date: Fri, 2 Jun 2023 13:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:52:42.961391
- Title: Comparing a composite model versus chained models to locate a nearest
visual object
- Title(参考訳): 結合モデルと連鎖モデルの比較による最寄りの視覚物体の同定
- Authors: Antoine Le Borgne, Xavier Marjou, Fanny Parzysz, Tayeb Lemlouma
- Abstract要約: 地理画像やテキストから情報を抽出するための,適切な人工知能ニューラルネットワークモデルの選択について検討する。
その結果,これらの2つのアーキテクチャは,根平均二乗誤差(RMSE)が0.055,0.056であった。
タスクをサブタスクに分解できる場合、チェーンアーキテクチャは、複合モデルと比較してトレーニング速度が12倍に向上する。
- 参考スコア(独自算出の注目度): 0.6882042556551609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting information from geographic images and text is crucial for
autonomous vehicles to determine in advance the best cell stations to connect
to along their future path. Multiple artificial neural network models can
address this challenge; however, there is no definitive guidance on the
selection of an appropriate model for such use cases. Therefore, we
experimented two architectures to solve such a task: a first architecture with
chained models where each model in the chain addresses a sub-task of the task;
and a second architecture with a single model that addresses the whole task.
Our results showed that these two architectures achieved the same level
performance with a root mean square error (RMSE) of 0.055 and 0.056; The
findings further revealed that when the task can be decomposed into sub-tasks,
the chain architecture exhibits a twelve-fold increase in training speed
compared to the composite model. Nevertheless, the composite model
significantly alleviates the burden of data labeling.
- Abstract(参考訳): 地理画像やテキストから情報を抽出することは、自動運転車が将来の経路に沿って接続する最適なセルステーションを事前に決めるのに不可欠である。
複数の人工ニューラルネットワークモデルがこの課題に対処できるが、そのようなユースケースに適したモデルの選択に関する決定的なガイダンスはない。
そこで我々は,この課題を解決するために,チェーン内の各モデルがタスクのサブタスクに対処するチェーンモデルを持つ最初のアーキテクチャと,タスク全体を扱う単一モデルを持つ2番目のアーキテクチャの2つのアーキテクチャを実験した。
以上の結果から,これらの2つのアーキテクチャは根平均二乗誤差(RMSE)を0.055および0.056と同等に達成し,タスクをサブタスクに分解できる場合,チェーンアーキテクチャは複合モデルと比較して12倍のトレーニング速度向上を示すことが明らかとなった。
それでも、複合モデルはデータラベリングの負担を大幅に軽減する。
関連論文リスト
- Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Triple-level Model Inferred Collaborative Network Architecture for Video
Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。
我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文 参考訳(メタデータ) (2021-11-08T13:09:00Z) - Dynamic Spatiotemporal Graph Convolutional Neural Networks for Traffic
Data Imputation with Complex Missing Patterns [3.9318191265352196]
本稿では,DSTG(Dynamic Spatio Graph Contemporal Networks)と呼ばれる新しいディープラーニングフレームワークを提案する。
本稿では,動的空間依存のリアルタイム交通情報と道路ネットワーク構造をモデル化するためのグラフ構造推定手法を提案する。
提案手法は,既存の深層学習モデルより様々なシナリオにおいて優れており,グラフ構造推定手法はモデルの性能に寄与する。
論文 参考訳(メタデータ) (2021-09-17T05:47:17Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - NASE: Learning Knowledge Graph Embedding for Link Prediction via Neural
Architecture Search [9.634626241415916]
リンク予測は、知識グラフ(KG)におけるエンティティ間の欠落した接続を予測するタスクである
これまでの研究では、Automated Machine Learning(AutoML)を使用して、データセットに最適なモデルを探していた。
リンク予測タスクのための新しいニューラルネットワーク探索(NAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。