論文の概要: Can Language Models Understand Physical Concepts?
- arxiv url: http://arxiv.org/abs/2305.14057v1
- Date: Tue, 23 May 2023 13:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:11:12.333191
- Title: Can Language Models Understand Physical Concepts?
- Title(参考訳): 言語モデルは物理的概念を理解できるか?
- Authors: Lei Li, Jingjing Xu, Qingxiu Dong, Ce Zheng, Qi Liu, Lingpeng Kong, Xu
Sun
- Abstract要約: 言語モデルは、インタラクティブで具体化された世界において、次第に汎用的なインターフェースとなる。
LMが人間の世界で物理的概念を理解できるかは、まだ明らかになっていない。
- 参考スコア(独自算出の注目度): 45.30953251294797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models~(LMs) gradually become general-purpose interfaces in the
interactive and embodied world, where the understanding of physical concepts is
an essential prerequisite. However, it is not yet clear whether LMs can
understand physical concepts in the human world. To investigate this, we design
a benchmark VEC that covers the tasks of (i) Visual concepts, such as the shape
and material of objects, and (ii) Embodied Concepts, learned from the
interaction with the world such as the temperature of objects. Our zero
(few)-shot prompting results show that the understanding of certain visual
concepts emerges as scaling up LMs, but there are still basic concepts to which
the scaling law does not apply. For example, OPT-175B performs close to humans
with a zero-shot accuracy of 85\% on the material concept, yet behaves like
random guessing on the mass concept. Instead, vision-augmented LMs such as CLIP
and BLIP achieve a human-level understanding of embodied concepts. Analysis
indicates that the rich semantics in visual representation can serve as a
valuable source of embodied knowledge. Inspired by this, we propose a
distillation method to transfer embodied knowledge from VLMs to LMs, achieving
performance gain comparable with that by scaling up the parameters of LMs 134x.
Our dataset is available at \url{https://github.com/TobiasLee/VEC}
- Abstract(参考訳): 言語モデル~(LM)は、物理的概念の理解が必須の前提条件である対話的で具体化された世界で、次第に汎用的なインターフェースとなる。
しかし、LMが人間の世界における物理的概念を理解できるかどうかはまだ分かっていない。
そこで我々は,タスクをカバーしたベンチマークVECを設計した。
(i)物体の形状や素材といった視覚概念
(ii)物体の温度などの世界との相互作用から学んだ概念を具現化した。
我々のゼロショットプロンプトの結果は、ある視覚概念の理解が、LMをスケールアップするときに現れることを示しているが、スケーリング法則が適用できない基本的な概念がある。
例えば OPT-175B は、物質概念では 85% のゼロショット精度で人間に近づきながら、質量概念ではランダムな推測のように振る舞う。
代わりに、CLIPやBLIPのような視覚増強されたLMは、具体化された概念を人間レベルで理解する。
分析は、視覚表現の豊かな意味論が、具体的知識の貴重な源となることを示唆している。
そこで本研究では, VLM から LM へエンボディド知識を伝達する蒸留法を提案し, LM 134x のパラメータをスケールアップすることにより, 性能向上を実現した。
データセットは \url{https://github.com/TobiasLee/VEC} で利用可能です。
関連論文リスト
- Concept Induction using LLMs: a user experiment for assessment [1.1982127665424676]
本研究では,人間に対する説明として意味のある高レベルな概念を生成するために,LLM(Large Language Model)の可能性を探る。
我々は、LLMによって生成された概念を、人間によって生成された概念とECII概念誘導システムという、他の2つの方法と比較する。
人為的な説明は依然として優れているが, GPT-4 から派生した概念は, ECII が生成した概念よりも人間にとって理解しやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-18T03:22:02Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Concept-Oriented Deep Learning with Large Language Models [0.4548998901594072]
大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。
また、概念指向ディープラーニング(CODL)のための有望な新技術である。
画像からの概念抽出,画像からの概念グラフ抽出,概念学習など,CODLにおける視覚言語LLMの概念理解,最も重要なマルチモーダルLLMの活用について論じる。
論文 参考訳(メタデータ) (2023-06-29T16:47:11Z) - Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文 参考訳(メタデータ) (2023-04-07T17:59:34Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - On Binding Objects to Symbols: Learning Physical Concepts to Understand
Real from Fake [155.6741526791004]
我々は、ディープニューラルネットワークが合成データを生成する驚くべき能力に照らして、古典的な信号と記号の障壁を再考する。
物理オブジェクトを抽象概念として特徴付け,それ以前の解析を用いて,物理オブジェクトが有限なアーキテクチャで符号化可能であることを示す。
我々は、有限時間でデジタルIDに物理的実体を結合することは、有限資源で可能であると結論付けた。
論文 参考訳(メタデータ) (2022-07-25T17:21:59Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。