Fugu-MT 論文翻訳(概要): Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

論文の概要: Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

arxiv url: http://arxiv.org/abs/2410.15825v1
Date: Mon, 21 Oct 2024 09:42:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.363145
Title: Did somebody say "Gest-IT"? A pilot exploration of multimodal data management
Title（参考訳）: 誰かが「Gest-IT」と言った? マルチモーダルデータ管理のパイロット調査
Authors: Ludovica Pannitto, Lorenzo Albanesi, Laura Marion, Federica Maria Martines, Carmelo Caruso, Claudia S. Bianchini, Francesca Masini, Caterina Mauri,
Abstract要約: 本稿では,マルチモーダルコーパスの構築,管理,解析をパイロットで行う。 Gest-ITリソースは、視覚障害者と視覚障害者の会話におけるジェスチャー作成パターンの変化を調査することができる。
参考スコア（独自算出の注目度）: 0.0903415485511869
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The paper presents a pilot exploration of the construction, management and analysis of a multimodal corpus. Through a three-layer annotation that provides orthographic, prosodic, and gestural transcriptions, the Gest-IT resource allows to investigate the variation of gesture-making patterns in conversations between sighted people and people with visual impairment. After discussing the transcription methods and technical procedures employed in our study, we propose a unified CoNLL-U corpus and indicate our future steps
Abstract（参考訳）: 本稿では,マルチモーダルコーパスの構築,管理,解析をパイロットで行う。 Gest-ITリソースは、正書法、韻律、およびジェスチャーの書き起こしを提供する3層アノテーションを通じて、視覚障害者と視覚障害者の会話におけるジェスチャー作成パターンの変化を調査することができる。本研究で採用した転写方法と技術手順について議論した後,統合型CoNLL-Uコーパスを提案し,今後の歩みを示す。

関連論文リスト

Multimodal Machine Translation with Visual Scene Graph Pruning [31.85382347738067]
マルチモーダル機械翻訳(MMT)は、視覚情報を組み込んだ翻訳作業において、言語多義性やあいまいさによって生じる課題に対処しようとするものである。視覚的なScene Graph Pruning(PSG)を用いたマルチモーダル機械翻訳について紹介する。 PSGは、言語シーングラフ情報を活用して、視覚シーングラフにおける冗長ノードのプルーニングを誘導し、下流翻訳タスクにおけるノイズを低減する。
論文参考訳（メタデータ） (2025-05-26T04:35:03Z)
From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文参考訳（メタデータ） (2024-11-06T15:40:02Z)
Multimodal Methods for Analyzing Learning and Training Environments: A Systematic Literature Review [3.0712840129998513]
本稿では,近年の方法論的進歩を包括する分類学と枠組みを提案する。我々は,新たなデータ融合カテゴリであるMid fusionを導入し,文献レビューを精査するグラフベースの手法を引用グラフプルーニングと呼ぶ。マルチモーダル学習とトレーニング研究と基礎的AI研究のギャップを埋めるために、さらなる研究が必要である。
論文参考訳（メタデータ） (2024-08-22T22:42:23Z)
Word Sense Disambiguation in Persian: Can AI Finally Get It Right? [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文参考訳（メタデータ） (2024-05-24T14:56:36Z)
Navigating to Success in Multi-Modal Human-Robot Collaboration: Analysis and Corpus Release [2.467008547326945]
人間誘導型ロボット探査は、遠隔地で情報を集めるための有用なアプローチである。リモートロケーションされたパートナー間の共通基盤を維持することは、課題である。我々は,ロボットパートナーの助けを借りて遠隔地を調査するために,参加者が複数のモダリティを利用する方法を探る。
論文参考訳（メタデータ） (2023-10-26T16:56:01Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
本稿では,インストラクションチューニング(IT)の急速な発展分野における研究成果について調査する。本稿では、指定しない場合を除き、命令チューニング(IT)は教師付き微調整(SFT)と等価である。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)
Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文参考訳（メタデータ） (2023-06-20T16:14:27Z)
Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文参考訳（メタデータ） (2023-05-30T17:03:52Z)
Stance Detection: A Practical Guide to Classifying Political Beliefs in Text [0.0]
本稿では,姿勢検出を正確に定義し,テキスト解析手法を改良する。本稿では,教師付き分類,自然言語推論,生成言語モデルを用いた文脈内学習の3つのアプローチを提案する。私は、実装のためのコーディングチュートリアルと同様に、アプリケーションおよびバリデーションテクニックに関するガイダンスを提供します。
論文参考訳（メタデータ） (2023-05-02T18:49:12Z)
Automated Audio Captioning: an Overview of Recent Progress and New Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文参考訳（メタデータ） (2022-05-12T08:36:35Z)
Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文参考訳（メタデータ） (2020-10-26T21:34:39Z)
Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文参考訳（メタデータ） (2020-09-28T10:28:40Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。