論文の概要: Comparison of Autoencoders for tokenization of ASL datasets
- arxiv url: http://arxiv.org/abs/2501.06942v1
- Date: Sun, 12 Jan 2025 21:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:24.812243
- Title: Comparison of Autoencoders for tokenization of ASL datasets
- Title(参考訳): ASLデータセットのトークン化のためのオートエンコーダの比較
- Authors: Vouk Praun-Petrovic, Aadhvika Koundinya, Lavanya Prahallad,
- Abstract要約: 本研究では,ASL画像データセットのためのエンコーダ・デコーダアーキテクチャの開発と評価に焦点をあてる。
フィードフォワードオートエンコーダ、畳み込みオートエンコーダ、拡散オートエンコーダの3つのアプローチを比較した。
Diffusion Autoencoderは他より優れており、最小平均二乗誤差(MSE)と最高平均オピニオンスコア(MOS)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generative AI, powered by large language models (LLMs), has revolutionized applications across text, audio, images, and video. This study focuses on developing and evaluating encoder-decoder architectures for the American Sign Language (ASL) image dataset, consisting of 87,000 images across 29 hand sign classes. Three approaches were compared: Feedforward Autoencoders, Convolutional Autoencoders, and Diffusion Autoencoders. The Diffusion Autoencoder outperformed the others, achieving the lowest mean squared error (MSE) and highest Mean Opinion Score (MOS) due to its probabilistic noise modeling and iterative denoising capabilities. The Convolutional Autoencoder demonstrated effective spatial feature extraction but lacked the robustness of the diffusion process, while the Feedforward Autoencoder served as a baseline with limitations in handling complex image data. Objective and subjective evaluations confirmed the superiority of the Diffusion Autoencoder for high-fidelity image reconstruction, emphasizing its potential in multimodal AI applications such as sign language recognition and generation. This work provides critical insights into designing robust encoder-decoder systems to advance multimodal AI capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)を活用したジェネレーティブAIは、テキスト、オーディオ、画像、ビデオにわたるアプリケーションに革命をもたらした。
本研究は,アメリカ手話(ASL)画像データセットのエンコーダ・デコーダアーキテクチャの開発と評価に焦点を当て,29の手話クラスで87,000の画像からなる。
フィードフォワードオートエンコーダ、畳み込みオートエンコーダ、拡散オートエンコーダの3つのアプローチを比較した。
Diffusion Autoencoderは、その確率的ノイズモデリングと反復的復調能力により、最小平均二乗誤差(MSE)と最高平均オピニオンスコア(MOS)を達成した。
畳み込みオートエンコーダは効果的な空間的特徴抽出を示したが、拡散過程の堅牢性に欠け、フィードフォワードオートエンコーダは複雑な画像データの扱いに制限のあるベースラインとして機能した。
目的的および主観的な評価は、高忠実度画像再構成のための拡散オートエンコーダの優位性を確認し、手話認識や生成などのマルチモーダルAIアプリケーションにおけるその可能性を強調した。
この研究は、堅牢なエンコーダデコーダシステムを設計し、マルチモーダルAI能力を向上するための重要な洞察を提供する。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Collaborative Auto-encoding for Blind Image Quality Assessment [17.081262827258943]
ブラインド画像品質評価(BIQA)は、重要な現実世界のアプリケーションにおいて難しい問題である。
近年、ディープニューラルネットワーク(DNN)による強力な表現を活用しようとする試みは、主観的な注釈付きデータの欠如によって妨げられている。
本稿では,この基本的な障害を克服する新しいBIQA法を提案する。
論文 参考訳(メタデータ) (2023-05-24T03:45:03Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。