論文の概要: Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories
- arxiv url: http://arxiv.org/abs/2501.06143v2
- Date: Tue, 01 Apr 2025 10:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 14:11:45.990622
- Title: Multilingual Performance of a Multimodal Artificial Intelligence System on Multisubject Physics Concept Inventories
- Title(参考訳): マルチオブジェクト物理概念インベントリにおけるマルチモーダル人工知能システムの多言語性能
- Authors: Gerd Kortemeyer, Marina Babayeva, Giulia Polverini, Ralf Widenhorn, Bor Gregorcic,
- Abstract要約: 大規模言語モデルに基づく人工知能システム GPT-4o の多言語・多モーダル性能について検討する。
私たちは、複数の言語と主題カテゴリにまたがる様々な物理概念の在庫を使用します。
結果より, 被験者ごとのパフォーマンスの変動が示唆され, 実験室のスキルが最も弱いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We investigate the multilingual and multimodal performance of a large language model-based artificial intelligence (AI) system, GPT-4o, using a diverse set of physics concept inventories spanning multiple languages and subject categories. The inventories, sourced from the PhysPort website, cover classical physics topics such as mechanics, electromagnetism, optics, and thermodynamics, as well as relativity, quantum mechanics, astronomy, mathematics, and laboratory skills. Unlike previous text-only studies, we uploaded the inventories as images to reflect what a student would see on paper, thereby assessing the system's multimodal functionality. Our results indicate variation in performance across subjects, with laboratory skills standing out as the weakest. We also observe differences across languages, with English and European languages showing the strongest performance. Notably, the relative difficulty of an inventory item is largely independent of the language of the survey. When comparing AI results to existing literature on student performance, we find that the AI system outperforms average post-instruction undergraduate students in all subject categories except laboratory skills. Furthermore, the AI performs worse on items requiring visual interpretation of images than on those that are purely text-based.
- Abstract(参考訳): 大規模言語モデルベース人工知能(AI)システム(GPT-4o)の多言語・多モーダルな性能について,多言語および対象カテゴリにまたがる物理概念の多種多様なセットを用いて検討した。
PhysPortのウェブサイトから引用された発明品は、相対性理論、量子力学、天文学、数学、実験室のスキルだけでなく、力学、電磁気学、光学、熱力学といった古典物理学のトピックをカバーしている。
従来のテキストのみの研究とは異なり、学生が紙で見るものを反映した画像としてインベントリをアップロードし、システムのマルチモーダル機能を評価しました。
結果より, 被験者ごとのパフォーマンスの変動が示唆され, 実験室のスキルが最も弱いことが示唆された。
言語間の差異も観察し、英語とヨーロッパ語が最強のパフォーマンスを示している。
特に、在庫項目の相対的困難は、調査の言語に大きく依存している。
学生のパフォーマンスに関する既存の文献とAIの結果を比較すると、実験室のスキル以外のすべての科目において、AIシステムは平均的なポストインストラクションの学生よりも優れていることが分かる。
さらに、AIは、純粋にテキストベースであるものよりも、画像の視覚的解釈を必要とするものに対して、さらにパフォーマンスが低下する。
関連論文リスト
- Building A Unified AI-centric Language System: analysis, framework and future work [0.0]
本稿では,AI中心の統一言語システムの設計について考察する。
多様な自然言語入力を合理化されたAIフレンドリーな言語に翻訳するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T20:32:57Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - The Reality of Multi-Lingual Machine Translation [3.183845608678763]
『多言語機械翻訳の現実』では、機械翻訳システムにおける2言語以上の使用の利点と危険性について論じている。
著者: ディープラーニングアプリケーションの主な例は機械翻訳です。
論文 参考訳(メタデータ) (2022-02-25T16:44:06Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。