論文の概要: Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories
- arxiv url: http://arxiv.org/abs/2501.06143v1
- Date: Fri, 10 Jan 2025 18:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:44.960029
- Title: Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories
- Title(参考訳): マルチオブジェクト物理概念インベントリにおけるマルチモーダル人工知能システムの多言語性能
- Authors: Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Bor Gregorcic, Ralf Widenhorn,
- Abstract要約: 大規模言語モデルに基づく人工知能システム GPT-4o の多言語・多モーダル性能について検討する。
発明品を、学生が紙に何が見えるかを反映した画像としてアップロードし、システムのマルチモーダル機能を評価する。
この結果から, 実験室のスキルを最貧な分野とみなして, 対象領域におけるパフォーマンスの変化が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We investigate the multilingual and multimodal performance of a large language model-based artificial intelligence (AI) system, GPT-4o, on a diverse set of physics concept inventories spanning multiple languages and subject areas. The inventories taken from the PhysPort website cover the classical physics topics of mechanics, electromagnetism, optics, and thermodynamics as well as relativity, quantum mechanics, astronomy, mathematics, and laboratory skills. Unlike previous text-only studies, we uploaded the inventories as images mirroring what a student would see on paper, assessing the system's multimodal functionality. The AI is prompted in English and autonomously chooses the language of its response - either remaining in the nominal language of the test, switching entirely to English, or mixing languages - revealing adaptive behavior dependent on linguistic complexity and data availability. Our results indicate some variation in performance across subject areas, with laboratory skills standing out as the area of poorest performance. Furthermore, the AI's performance on questions that require visual interpretation of images is worse than on purely text-based questions. Questions that are difficult for the AI tend to be that way invariably of the inventory language. We also find large variations in performance across languages, with some appearing to benefit substantially from language switching, a phenomenon similar to code-switching ofhuman speakers. Overall, comparing the obtained AI results to the existing literature, we find that the AI system outperforms average undergraduate students post-instruction in all subject areas but laboratory skills.
- Abstract(参考訳): 大規模言語モデルベース人工知能(AI)システム(GPT-4o)の多言語・多モーダルな性能について,多言語・主題領域にまたがる物理概念の多様なセットについて検討した。
PhysPortのウェブサイトから得られた在庫は、相対性理論、量子力学、天文学、数学、実験室のスキルだけでなく、力学、電磁気学、光学、熱力学といった古典物理学のトピックをカバーしている。
従来のテキストのみの研究とは異なり、私たちは発明品を、学生が紙で見るものを反映した画像としてアップロードし、システムのマルチモーダル機能を評価しました。
AIは英語で促され、その応答の言語 – テストの名目上の言語に留まるか、完全に英語に切り替えるか、あるいは言語を混合するか – を自律的に選択することで、言語的な複雑さとデータ可用性に依存する適応的な振る舞いを明らかにします。
この結果から, 実験室のスキルを最貧な分野とみなして, 対象領域におけるパフォーマンスの変化が示唆された。
さらに、画像の視覚的解釈を必要とする質問に対するAIのパフォーマンスは、純粋にテキストベースの質問よりも悪い。
AIにとって難しい質問は、インベントリ言語が必ずそうである傾向がある。
また、言語間のパフォーマンスの大きなバリエーションも見出され、中には、人間の話者のコードスイッチングに類似した現象である、言語スイッチングの恩恵を受けるものもあった。
全体として、得られたAI結果を既存の文献と比較すると、AIシステムは、すべての科目において、実験室のスキル以外の、平均的な学部生のポストインストラクションよりも優れていることが分かる。
関連論文リスト
- Building A Unified AI-centric Language System: analysis, framework and future work [0.0]
本稿では,AI中心の統一言語システムの設計について考察する。
多様な自然言語入力を合理化されたAIフレンドリーな言語に翻訳するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T20:32:57Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - The Reality of Multi-Lingual Machine Translation [3.183845608678763]
『多言語機械翻訳の現実』では、機械翻訳システムにおける2言語以上の使用の利点と危険性について論じている。
著者: ディープラーニングアプリケーションの主な例は機械翻訳です。
論文 参考訳(メタデータ) (2022-02-25T16:44:06Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。