Fugu-MT 論文翻訳(概要): Using Large Language Models to Accelerate Communication for Users with Severe Motor Impairments

論文の概要: Using Large Language Models to Accelerate Communication for Users with Severe Motor Impairments

arxiv url: http://arxiv.org/abs/2312.01532v1
Date: Sun, 3 Dec 2023 23:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 17:00:18.425464
Title: Using Large Language Models to Accelerate Communication for Users with Severe Motor Impairments
Title（参考訳）: 大規模言語モデルを用いた重症心身障害者のコミュニケーション促進
Authors: Shanqing Cai, Subhashini Venugopalan, Katie Seaver, Xiang Xiao, Katrin Tomanek, Sri Jalasutram, Meredith Ringel Morris, Shaun Kane, Ajit Narayanan, Robert L. MacDonald, Emily Kornman, Daniel Vance, Blair Casey, Steve M. Gleason, Philip Q. Nelson, Michael P. Brenner
Abstract要約: 本稿では,大規模言語モデル (LLM) と,テキスト入力のためのユーザインタフェースを高度に短縮した形で設計したSpeakFasterについて述べる。モバイル端末上で手動入力を行う19人の非AAC参加者によるパイロット研究は、オフラインシミュレーションに従って、モーターセーブの増加を実証した。筋萎縮性側索硬化症 (ALS) を呈する2人の眼球運動者を対象に, 実験とフィールドテストを行ったところ, 従来の基準値よりも29～60%高速であった。
参考スコア（独自算出の注目度）: 17.715162857028595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finding ways to accelerate text input for individuals with profound motor impairments has been a long-standing area of research. Closing the speed gap for augmentative and alternative communication (AAC) devices such as eye-tracking keyboards is important for improving the quality of life for such individuals. Recent advances in neural networks of natural language pose new opportunities for re-thinking strategies and user interfaces for enhanced text-entry for AAC users. In this paper, we present SpeakFaster, consisting of large language models (LLMs) and a co-designed user interface for text entry in a highly-abbreviated form, allowing saving 57% more motor actions than traditional predictive keyboards in offline simulation. A pilot study with 19 non-AAC participants typing on a mobile device by hand demonstrated gains in motor savings in line with the offline simulation, while introducing relatively small effects on overall typing speed. Lab and field testing on two eye-gaze typing users with amyotrophic lateral sclerosis (ALS) demonstrated text-entry rates 29-60% faster than traditional baselines, due to significant saving of expensive keystrokes achieved through phrase and word predictions from context-aware LLMs. These findings provide a strong foundation for further exploration of substantially-accelerated text communication for motor-impaired users and demonstrate a direction for applying LLMs to text-based user interfaces.
Abstract（参考訳）: 重度運動障害のある人のテキスト入力を加速する方法を見つけることは、長い間研究されてきた分野である。視線追跡キーボードなどの代替通信(aac)機器の速度ギャップを閉じることは、これらの個人にとって生活の質を改善する上で重要である。自然言語のニューラルネットワークの最近の進歩は、AACユーザのためのテキスト入力を強化する戦略とユーザインターフェースを再考する新たな機会をもたらす。本稿では,大規模言語モデル(llms)と高度に省略されたテキスト入力のためのユーザインタフェースを組み合わせたspeakfasterを提案する。モバイル端末上で手動で入力する19人の非AAC参加者によるパイロット研究は、オフラインシミュレーションに従ってモータセーブの増加を示しながら、全体のタイピング速度に比較的小さな効果をもたらした。筋萎縮性側索硬化症 (ALS) を呈する2人の眼球運動者を対象とした実験とフィールドテストにより, 文脈認識LLMのフレーズや単語予測による高価なキーストロークの大幅な削減により, 従来の基準値よりも29～60%のテキスト入力率を示した。これらの知見は、運動障害のあるユーザのための実質的に加速されたテキスト通信のさらなる研究の基盤となり、llmをテキストベースのユーザインタフェースに適用する方向を示す。

関連論文リスト

LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [55.332261548836485]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。既存のベースラインに比べて一貫して優れた効果を発揮する。これは、幅広い長文対話タスクにおける推論を著しく加速する。
論文参考訳（メタデータ） (2025-07-18T06:12:08Z)
A New Paradigm of User-Centric Wireless Communication Driven by Large Language Models [53.16213723669751]
次世代の無線通信は、人工知能とユーザー中心の通信ネットワークを深く統合しようとしている。本稿では,構造化クエリ言語に対する自然言語を革新的に取り入れた,無線通信のための新しいパラダイムを提案する。本稿では,物理層における動的意味表現ネットワークを符号化深度に適応させてユーザ要求を満たすプロトタイプシステムを提案する。
論文参考訳（メタデータ） (2025-04-16T01:43:36Z)
Exploring Mobile Touch Interaction with Large Language Models [26.599610206222142]
テキスト上で直接実行されるタッチジェスチャーを用いて,大規模言語モデルを制御することを提案する。以上の結果から, LLMのタッチによる制御は, 実現可能かつユーザフレンドリであることがわかった。この研究は、タッチデバイス上でのLDMとのジェスチャーによるインタラクションに関するさらなる研究の基盤となる。
論文参考訳（メタデータ） (2025-02-11T15:17:00Z)
Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models [16.532357621144342]
大規模言語モデル(LLM)は、人間の知覚と同じような精度で、運転シーンや行動を記述することができる。エッジデバイスにLLMを適用した運転行動ナレーションと推論フレームワークを提案する。実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。
論文参考訳（メタデータ） (2024-09-30T15:03:55Z)
Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-18T06:27:26Z)
Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文参考訳（メタデータ） (2024-06-24T16:31:11Z)
Sparse Binarization for Fast Keyword Spotting [10.964148450512972]
KWSモデルは、リアルタイムアプリケーション、プライバシ、帯域幅効率のためにエッジデバイスにデプロイすることができる。本稿では,スパース入力表現に基づく新しいキーワードスポッティングモデルを提案する。また,本手法は高速かつノイズの多い環境でもより堅牢である。
論文参考訳（メタデータ） (2024-06-09T08:03:48Z)
Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文参考訳（メタデータ） (2024-05-24T13:29:12Z)
Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。 EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文参考訳（メタデータ） (2024-03-18T12:58:16Z)
TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。インタラクティブで高品質なアニメーション生成には実用的である。
論文参考訳（メタデータ） (2023-11-28T18:54:16Z)
Dialogue-based generation of self-driving simulation scenarios using Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文参考訳（メタデータ） (2023-10-26T13:07:01Z)
Typing on Any Surface: A Deep Learning-based Method for Real-Time Keystroke Detection in Augmented Reality [4.857109990499532]
空中キーボードインターフェース、ワイヤレスキーボード、または音声入力は、エルゴノミクス設計が貧弱で、精度が限られているか、単に公の場で使うのが恥ずかしい。本稿では、ユーザ視点のRGBビデオストリームから、ARアプリケーションがキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。既製ハンドランドマーク抽出器と,適応型畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを開発した。
論文参考訳（メタデータ） (2023-08-31T23:58:25Z)
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T13:07:05Z)
X2T: Training an X-to-Text Typing Interface with Online Learning from User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文参考訳（メタデータ） (2022-03-04T00:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。