論文の概要: Panmodal Information Interaction
- arxiv url: http://arxiv.org/abs/2405.12923v1
- Date: Tue, 21 May 2024 16:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:20:58.552909
- Title: Panmodal Information Interaction
- Title(参考訳): パノモーダルインフォメーションインタラクション
- Authors: Chirag Shah, Ryen W. White,
- Abstract要約: 生成人工知能(GenAI)の出現は情報相互作用の変容である。
何十年にもわたって、GoogleやBingのような検索エンジンが、関連する情報を見つける主要な手段だった。
自然言語でAIベースのエージェントとチャットし、GenAIにリアルタイムで回答を自動的に合成させる能力は、人々が情報と対話し、消費する方法を変える。
- 参考スコア(独自算出の注目度): 16.142735071162765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of generative artificial intelligence (GenAI) is transforming information interaction. For decades, search engines such as Google and Bing have been the primary means of locating relevant information for the general population. They have provided search results in the same standard format (the so-called "10 blue links"). The recent ability to chat via natural language with AI-based agents and have GenAI automatically synthesize answers in real-time (grounded in top-ranked results) is changing how people interact with and consume information at massive scale. These two information interaction modalities (traditional search and AI-powered chat) coexist in current search engines, either loosely coupled (e.g., as separate options/tabs) or tightly coupled (e.g., integrated as a chat answer embedded directly within a traditional search result page). We believe that the existence of these two different modalities, and potentially many others, is creating an opportunity to re-imagine the search experience, capitalize on the strengths of many modalities, and develop systems and strategies to support seamless flow between them. We refer to these as panmodal experiences. Unlike monomodal experiences, where only one modality is available and/or used for the task at hand, panmodal experiences make multiple modalities available to users (multimodal), directly support transitions between modalities (crossmodal), and seamlessly combine modalities to tailor task assistance (transmodal). While our focus is search and chat, with learnings from insights from a survey of over 100 individuals who have recently performed common tasks on these two modalities, we also present a more general vision for the future of information interaction using multiple modalities and the emergent capabilities of GenAI.
- Abstract(参考訳): 生成人工知能(GenAI)の出現は情報相互作用の変容である。
何十年にもわたって、GoogleやBingのような検索エンジンが、一般大衆の関連情報を見つける主要な手段だった。
彼らは検索結果を同じ標準フォーマット(いわゆる「10ブルーリンク」)で提供した。
自然言語でAIベースのエージェントとチャットし、GenAIにリアルタイムで回答を自動的に合成させる能力は、人々が大規模に情報と対話し、消費する方法を変えつつある。
これら2つの情報インタラクションのモダリティ(従来の検索とAIを利用したチャット)は、現在の検索エンジンに共存しており、疎結合(例えば、別のオプション/タブとして)か密結合(例えば、従来の検索結果ページに直接埋め込まれたチャット応答として統合)である。
これら2つの異なるモダリティの存在が,検索体験を再想像し,多くのモダリティの強みを活かし,それらの間のシームレスなフローを支援するシステムや戦略を開発する機会を生み出している,と我々は信じている。
これをパンモーダル体験と呼ぶ。
1つのモダリティしか持たないモノモーダル体験とは異なり、パンモーダル体験は複数のモダリティをユーザ(マルチモーダル)に提供し、モダリティ間の遷移を直接サポートし(クロスモーダル)、モダリティをシームレスに組み合わせてタスクアシストを調整(リモーダル)する。
我々の焦点は検索とチャットであり、最近これらの2つのモダリティに関する共通タスクを行った100人以上の個人による調査から得られた知見から学ぶとともに、複数のモダリティとGenAIの創発的能力を用いた情報インタラクションの未来に対するより一般的なビジョンも提示する。
関連論文リスト
- Unified Framework with Consistency across Modalities for Human Activity Recognition [14.639249548669756]
本稿では,ロバストな映像に基づく人間行動認識のための包括的枠組みを提案する。
主な貢献はComputerと呼ばれる新しいクエリマシンの導入である。
提案手法は,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T02:25:10Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Cross-Modal Mutual Learning for Cued Speech Recognition [10.225972737967249]
マルチモーダルインタラクションを促進するためのトランスフォーマーに基づく相互学習フレームワークを提案する。
我々のモデルは、モダリティ固有の異なるモダリティの情報に、モダリティ不変のコードブックを通らせるよう強制する。
中国語のための大規模多話者CSデータセットを新たに構築する。
論文 参考訳(メタデータ) (2022-12-02T10:45:33Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。