論文の概要: Graph Integrated Language Transformers for Next Action Prediction in Complex Phone Calls
- arxiv url: http://arxiv.org/abs/2404.08155v1
- Date: Thu, 11 Apr 2024 22:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:15:01.693806
- Title: Graph Integrated Language Transformers for Next Action Prediction in Complex Phone Calls
- Title(参考訳): 複合通話における次の行動予測のためのグラフ統合言語変換器
- Authors: Amin Hosseiny Marani, Ulie Schnaithmann, Youngseo Son, Akil Iyer, Manas Paldhe, Arushi Raghuvanshi,
- Abstract要約: 現在の会話型AIシステムは、次のアクションを予測するために、外部知識ソースやビジネスロジックと同様に、さまざまな機械学習パイプラインを使用している。
対話マネージャのパイプラインにおけるさまざまなコンポーネントのメンテナンスは、拡張と更新の複雑さを増し、処理時間を増やし、パイプラインを通じて付加的なノイズを引き起こし、誤った次のアクション予測につながる可能性がある。
本稿では, 言語変換器へのグラフ統合について検討し, 外部ソースやコンポーネントに依存することなく, 人間の発話, 先行動作, 次動作の関連性を理解する。
- 参考スコア(独自算出の注目度): 1.5789288804093156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Conversational AI systems employ different machine learning pipelines, as well as external knowledge sources and business logic to predict the next action. Maintaining various components in dialogue managers' pipeline adds complexity in expansion and updates, increases processing time, and causes additive noise through the pipeline that can lead to incorrect next action prediction. This paper investigates graph integration into language transformers to improve understanding the relationships between humans' utterances, previous, and next actions without the dependency on external sources or components. Experimental analyses on real calls indicate that the proposed Graph Integrated Language Transformer models can achieve higher performance compared to other production level conversational AI systems in driving interactive calls with human users in real-world settings.
- Abstract(参考訳): 現在の会話型AIシステムは、次のアクションを予測するために、外部知識ソースやビジネスロジックと同様に、さまざまな機械学習パイプラインを使用している。
対話マネージャのパイプラインにおけるさまざまなコンポーネントのメンテナンスは、拡張と更新の複雑さを増し、処理時間を増やし、パイプラインを通じて付加的なノイズを引き起こし、誤った次のアクション予測につながる可能性がある。
本稿では, 言語変換器へのグラフ統合について検討し, 外部ソースやコンポーネントに依存することなく, 人間の発話, 先行動作, 次動作の関連性を理解する。
実呼に対する実験分析により,提案したグラフ統合言語トランスフォーマーモデルは,実環境におけるユーザとの対話的な通話を駆動する他の生産レベルの会話型AIシステムと比較して高い性能を実現することができることが示された。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - One to rule them all: natural language to bind communication, perception and action [0.9302364070735682]
本稿では,Large Language Models (LLMs) によるコミュニケーション,知覚,計画を統合したロボット行動計画のための高度なアーキテクチャを提案する。
Planner Moduleはシステムの中核であり、修正されたReActフレームワークに組み込み、ユーザーコマンドの解釈と実行にLLMが使用される。
修正されたReActフレームワークは、リアルタイムな環境認識と身体行動の結果を提供することにより、実行スペースをさらに強化する。
論文 参考訳(メタデータ) (2024-11-22T16:05:54Z) - Knowledge-Aware Conversation Derailment Forecasting Using Graph Convolutional Networks [5.571668670990489]
我々は,対話文脈情報の知識ベースからコモンセンス文を導出し,グラフニューラルネットワークの分類アーキテクチャを充実させる。
我々は,発話のマルチソース情報をカプセルに融合し,会話の脱線を予測するためにトランスフォーマーベースの予測器が使用する。
我々のモデルは,CGAおよびCMVベンチマークデータセットの最先端モデルよりも優れ,会話のダイナミクスと文脈の伝播を捉えている。
論文 参考訳(メタデータ) (2024-08-24T02:40:28Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - A Graph-to-Text Approach to Knowledge-Grounded Response Generation in
Human-Robot Interaction [2.3590037806133024]
本稿では,対話状態のグラフベース表現に基づく人間-ロボット間相互作用の新しい対話モデルを提案する。
ユーザの発話に応答するために使用されるニューラルネットワークモデルは、シンプルだが効果的なグラフ・トゥ・テキスト機構に依存している。
提案手法はヒューマノイドロボットを用いたユーザスタディにより実験的に評価される。
論文 参考訳(メタデータ) (2023-11-03T15:44:28Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Using Textual Interface to Align External Knowledge for End-to-End
Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。
我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文 参考訳(メタデータ) (2023-05-23T05:48:21Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。