Fugu-MT 論文翻訳(概要): Creative Problem Solving in Large Language and Vision Models -- What Would it Take?

論文の概要: Creative Problem Solving in Large Language and Vision Models -- What Would it Take?

arxiv url: http://arxiv.org/abs/2405.01453v2
Date: Tue, 20 Aug 2024 20:03:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:25:29.089151
Title: Creative Problem Solving in Large Language and Vision Models -- What Would it Take?
Title（参考訳）: 大規模言語とビジョンモデルにおける創造的問題解決 - 何が必要か?
Authors: Lakshmi Nair, Evana Gizzi, Jivko Sinapov,
Abstract要約: 計算創造性と大規模言語と視覚モデル(LLVM)の研究を統合するためのアプローチについて議論する。予備実験では、CCの原理が拡張的プロンプトによってこの制限にどう対処できるかが示されている。 LLVMにおける創造的問題解決のためのMLアルゴリズムの文脈における計算創造性に関する議論の促進を期待する。
参考スコア（独自算出の注目度）: 4.985384399597208
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we discuss approaches for integrating Computational Creativity (CC) with research in large language and vision models (LLVMs) to address a key limitation of these models, i.e., creative problem solving. We present preliminary experiments showing how CC principles can be applied to address this limitation through augmented prompting. With this work, we hope to foster discussions of Computational Creativity in the context of ML algorithms for creative problem solving in LLVMs. Our code is at: https://github.com/lnairGT/creative-problem-solving-LLMs
Abstract（参考訳）: 本稿では,計算創造性(CC)を大規模言語と視覚モデル(LLVM)で研究し,これらのモデルの限界,すなわち創造的問題解決に対処するためのアプローチについて議論する。本研究は, CCの原理を応用して, 拡張的プロンプトによってこの制限に対処できることを示す予備実験である。本研究は,LLVMにおける創造的問題解決のためのMLアルゴリズムの文脈において,計算創造性に関する議論を促進することを目的としている。 https://github.com/lnairGT/creative-problem-solving-LLMs

関連論文リスト

Divergent-Convergent Thinking in Large Language Models for Creative Problem Generation [22.659182231103443]
大規模言語モデル(LLM)は、教育的な問題や問題を生成でき、教育者が大規模な学習教材を作成できる。 LLMはArtificial Hivemindの効果によって制限され、同じモデル内で同様の応答を生成し、異なるモデル間で均質な出力を生成する。本稿では,LCMの推論を異なる位相に明確に把握する2相プロンプト法であるCreativeDCを提案する。
論文参考訳（メタデータ） (2025-12-29T16:53:48Z)
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale [77.93798335498703]
私たちは、第一原理から構築されたVLM(Vision-Language Models)の新たなファミリーであるNEOを立ち上げました。 NEOは、密集したモノリシックモデル内で視覚言語間の衝突を緩和しながら、スクラッチから視覚知覚を効率的に発展させる。私たちのコードとモデルは、https://github.com/EvolvingLMMs-Lab/NEO.comで公開されています。
論文参考訳（メタデータ） (2025-10-16T17:59:58Z)
Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models [28.791905315055974]
我々は、モデルが使用する推論戦略のタイプをより深く調査するために、長い物語形式で書かれたブレインティーザに基づくベンチマークを導入する。ブレインティーザは、創造的な洞察を使った数ステップのソリューションや、より残酷な力を使ったより長いソリューションなど、複数のアプローチで解決することができる。
論文参考訳（メタデータ） (2025-05-16T04:23:34Z)
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning [46.64087822795915]
本稿では,効率的な小言語モデル (SLM) とマルチモーダル小言語モデル (MSLM) の開発に焦点をあてる。推論機能を強化し,エッジデバイスへの展開を容易にする,新たなトレーニングパイプラインを導入する。 InfRは、推論を改善し、採用障壁を減らし、より小さなモデルサイズでプライバシの問題に対処することで、AIシステムの改善を目指している。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。 ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文参考訳（メタデータ） (2025-01-31T18:57:08Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文参考訳（メタデータ） (2024-08-15T12:04:32Z)
Benchmarking Language Model Creativity: A Case Study on Code Generation [17.56712029335294]
創造性は少なくとも2つの重要な特徴から成り立っている: 啓発的思考(与えられた目標を達成するための目的性)と啓示的思考(新しい環境や制約への適応性) citeprunco 2003 クリティカル 2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。これは、(1)デニアル・プロンプティング(Denial Prompting)は、従来のソリューションに新たな制約を漸進的に課すことによって、LLMが与えられた問題に対してより創造的な解決策を導き出すよう促す。
論文参考訳（メタデータ） (2024-07-12T05:55:22Z)
An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (2024-05-27T15:01:23Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。 MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文参考訳（メタデータ） (2024-01-22T16:57:05Z)
MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-12-26T08:49:57Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文参考訳（メタデータ） (2023-08-03T17:04:41Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。