論文の概要: In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.23908v2
- Date: Wed, 27 May 2026 01:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.450613
- Title: In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models
- Title(参考訳): オープンエンデダネスの難しさの探索--視覚・言語モデルを用いたリプリケーション
- Authors: Sam Earle, Kai Arulkumaran, Andrew Dai, Akarsh Kumar, Julian Togelius, Sebastian Risi,
- Abstract要約: 私たちはフロンティアビジョン言語モデル(VLM)に取って代わる
システムの出力と過去の人的基準との明確な質的な差異を観察する。
これらの違いに寄与する因果的要因を同定するために,エージェントの選択過程に探索ノイズを加えることを検討した。
- 参考スコア(独自算出の注目度): 9.654283921852434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are in the midst of large-scale industrial and academic efforts to automate the processes of scientific, technological and creative production through AI-driven assistants. Historically, a fundamental property of these processes in their human form has been their open-endedness: their capacity for generating a seemingly endless supply of novel and meaningful new forms. Do artificial agents have any capacity for such fruitful unguided discovery? To answer this question, we turn to Picbreeder, the canonical exemplar of human-driven open-ended search, in which users collaboratively generated a diverse library of images through interactive evolution of small neural networks. We replicate Picbreeder, replacing human users with frontier Vision Language Models (VLMs). We observe clear qualitative differences between the output of our system and the historical human baseline, and attempt to characterize them using metrics of phylogenetic complexity and visual and semantic salience and novelty. In an effort to identify some of the causal factors contributing these differences, we study the addition of exploratory noise to the agents' selection process, of behavioral diversity between agents, and of narrative momentum in the form of memory of past actions. We make our code available at https://github.com/smearle/picbreeder-vlm.
- Abstract(参考訳): 私たちは、AI駆動アシスタントを通じて科学的、技術的、創造的な生産プロセスを自動化する、大規模で学術的な取り組みの最中です。
歴史的に、これらのプロセスの人間の形態における基本的な特性は、そのオープンな意図、すなわち、新規で意味のある新しい形態の無限の供給を生み出す能力である。
人工エージェントには、そのような実りのない発見の能力がありますか?
この疑問に答えるために、我々はPicbreederに目を向ける。Picbreederは人間主導のオープンエンド検索の標準的な例であり、ユーザーは小さなニューラルネットワークのインタラクティブな進化を通じて、多様な画像ライブラリを共同で生成する。
われわれはPicbreederを再現し、人間のユーザーをフロンティアビジョン言語モデル(VLM)に置き換える。
本研究は,本システムと歴史的人的基準との明確な質的差異を観察し,系統的複雑性,視覚的・意味的サリエンス,新規性の指標を用いて特徴付けを試みる。
これらの違いに寄与する因果的要因の特定を目的として,エージェントの選択過程への探索ノイズの追加,エージェント間の行動多様性,過去の行動記憶の形での物語運動量について検討した。
コードはhttps://github.com/smearle/picbreeder-vlm.comで公開しています。
関連論文リスト
- Intentmaking and Sensemaking: Human Interaction with AI-Guided Mathematical Discovery [72.49593499512092]
インテントメイキングという別のワークフローを特定し、特徴付けします。
私たちはこれをセンスメイキングの自然な拡張と捉えています。
これらのテーマのドキュメンテーションは、科学的発見のためのAIツール設計へのアプローチを示唆している。
論文 参考訳(メタデータ) (2026-05-07T09:30:25Z) - Generative midtended cognition and Artificial Intelligence. Thinging with thinging things [0.0]
生成中間認知(generative Midtended cognition)は、生成AIと人間の認知の統合を探求する。
生成的(generative)"という言葉は、AIが構造的出力を反復的に生成する能力を反映し、"再帰的(midtended)"はプロセスの潜在的なハイブリッド(人間-AI)の性質をキャプチャする。
論文 参考訳(メタデータ) (2024-11-11T09:14:27Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - MUGC: Machine Generated versus User Generated Content Detection [1.6602942962521352]
従来の手法は, 機械生成データの同定において高い精度を示す。
機械生成テキストは短く、人間生成コンテンツに比べて単語の多様性が低い傾向にある。
可読性、バイアス、モラル、影響の比較は、機械生成コンテンツと人間生成コンテンツの間に明確なコントラストを示す。
論文 参考訳(メタデータ) (2024-03-28T07:33:53Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Hierarchically Organized Latent Modules for Exploratory Search in
Morphogenetic Systems [21.23182328329019]
多様な表現の階層の教師なし学習を可能にする新しい動的・モジュラーアーキテクチャを導入する。
本システムは,ユーザの嗜好に対して効率よく多様性探索を適応できる発見アシスタントを構築できることを示す。
論文 参考訳(メタデータ) (2020-07-02T15:28:27Z) - Meta-learning curiosity algorithms [26.186627089223624]
我々はメタラーニングの1つとして好奇行動を生成する問題を定式化する。
私たちのリッチなプログラム言語は、ニューラルネットワークとバッファ、最も近いモジュール、カスタムロス関数といった他のビルディングブロックを結合します。
画像入力,アクロボット,月面着陸機,アリ,ホッパーを備えたグリッドナビゲーションと異なる領域において,人間の設計したキュリオシティアルゴリズムと同等以上の性能を持つ2つの新しいキュリオシティアルゴリズムが発見された。
論文 参考訳(メタデータ) (2020-03-11T14:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。