このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240213となっている論文です。

PDF登録状況(公開日: 20240213)

TitleAuthorsAbstract論文公表日・翻訳日
# Frog-Snake Prey-predation Relationship Optimization (FSRO) : 特徴選択のための自然に着想を得たメタヒューリスティックアルゴリズム

Frog-Snake prey-predation Relationship Optimization (FSRO) : A novel nature-inspired metaheuristic algorithm for feature selection ( http://arxiv.org/abs/2403.18835v1 )

ライセンス: Link先を確認
Hayata Saitou, Harumi Haraguchi, (参考訳) 群知能アルゴリズムは伝統的に連続的な最適化問題のために設計されており、これらのアルゴリズムは個別の最適化問題に応用するために修正され拡張されている。 特に、機械学習における特徴選択への応用は、モデル精度の向上、不要なデータの削減、計算時間短縮を実証している。 本研究では,カエルとヘビの捕食関係から着想を得たFrog-Snake Prey-predation Relationship Optimization (FSRO)アルゴリズムを提案する。 このアルゴリズムは、ヘビの捕食行動「探索」、「捕獲」、「捕獲」の3段階をモデル化し、カエルが引っかかったり逃げ出したりするために留まったりするという特徴的行動もモデル化している。 さらに,進化ゲーム理論の概念の導入により,探索過程の動的制御が可能となった。 提案アルゴリズムは,26種類の機械学習データセットを用いて特徴選択の計算実験を行い,その性能を分析し,改善点を特定する。 コンピュータ実験において, 提案アルゴリズムは, 適合値と精度の最良の偏差と標準偏差の観点から比較アルゴリズムよりも優れた性能を示した。 また,進化ゲーム理論による動的探索制御が有効な手法であることが証明された。

Swarm intelligence algorithms have traditionally been designed for continuous optimization problems, and these algorithms have been modified and extended for application to discrete optimization problems. Notably, their application in feature selection for machine learning has demonstrated improvements in model accuracy, reduction of unnecessary data, and decreased computational time. This study proposes the Frog-Snake prey-predation Relationship Optimization (FSRO) algorithm, inspired by the prey-predation relationship between frogs and snakes for application to discrete optimization problems. The algorithm models three stages of a snake's foraging behavior "search", "approach", and "capture" as well as the frog's characteristic behavior of staying still to attract and then escaping. Furthermore, the introduction of the concept of evolutionary game theory enables dynamic control of the search process. The proposed algorithm conducts computational experiments on feature selection using 26 types of machine learning datasets to analyze its performance and identify improvements. In computer experiments, the proposed algorithm showed better performance than the comparison algorithms in terms of the best and standard deviation of fitness value and Accuracy. It was also proved that dynamic search control by evolutionary game theory is an effective method, and the proposed algorithm has the ability of a well-balanced search, achieving the two objectives of improving accuracy and reducing data.
翻訳日:2024-04-01 02:34:48 公開日:2024-02-13
# Mysticeti:高速コミットパス付き低遅延DAGコンセンサス

Mysticeti: Low-Latency DAG Consensus with Fast Commit Path ( http://arxiv.org/abs/2310.14821v2 )

ライセンス: Link先を確認
Kushal Babel, Andrey Chursin, George Danezis, Lefteris Kokoris-Kogias, Alberto Sonnino, (参考訳) 我々は、低レイテンシかつ高リソース効率のビザンチンコンセンサスプロトコルであるMysticeti-Cを紹介する。 Threshold ClocksをベースとしたDAGを活用し、パイプライニングと複数のリーダにイノベーションを取り入れて、安定した状態とクラッシュ時のレイテンシを低減する。 Mysticeti-FPCには、よりレイテンシの低い高速コミットパスが組み込まれている。 我々は、このプロトコルの安全性と生存性を、ビザンチンの文脈で証明する。 我々はMysticetiを評価し、最新のコンセンサスと高速パスプロトコルを比較して、その低レイテンシとリソース効率を実証し、クラッシュ時により優雅な劣化を示す。 Mysticetiは、コンセンサスコミットに0.5秒のWANレイテンシを実現する最初のビザンチンプロトコルであり、50k TPS以上のスループットが最先端のものと一致している。

We introduce Mysticeti-C a byzantine consensus protocol with low-latency and high resource efficiency. It leverages a DAG based on Threshold Clocks and incorporates innovations in pipelining and multiple leaders to reduce latency in the steady state and under crash failures. Mysticeti-FPC incorporates a fast commit path that has even lower latency. We prove the safety and liveness of the protocols in a byzantine context. We evaluate Mysticeti and compare it with state-of-the-art consensus and fast path protocols to demonstrate its low latency and resource efficiency, as well as more graceful degradation under crash failures. Mysticeti is the first byzantine protocol to achieve WAN latency of 0.5s for consensus commit, at a throughput of over 50k TPS that matches the state-of-the-art.
翻訳日:2024-03-25 14:05:29 公開日:2024-02-13
# ブロックチェーン上のブロックチェーン構築のための回路的アプローチ

A Circuit Approach to Constructing Blockchains on Blockchains ( http://arxiv.org/abs/2402.00220v2 )

ライセンス: Link先を確認
Ertem Nusret Tas, David Tse, Yifei Wang, (参考訳) 15年前にBitcoinが誕生して以来、無許可のブロックチェーンの数が爆発的に増えている。 これらのブロックチェーンは、誰でも読み書きできるオープンな台帳を提供する。 このマルチチェーンの世界では、重要な疑問が浮かび上がっています – 特定のブロックチェーンセットを読み書きすることで、よりセキュアなオーバーレイブロックチェーンを構築するにはどうすればよいのでしょう? スイッチング回路に類似した図を描き、ブロックチェーン間の2つの基本的な構成操作、シリアルと三角形の合成を定義し、これらの操作をビルディングブロックとして使用して、一般的なオーバーレイブロックチェーンを構築する。 部分的に同期した設定では、以下の結果が得られる。 1) 2つのブロックチェーン間のシリアル構成は、少なくとも2つのアンダーレイブロックチェーンのうちの1つが安全で、両方のアンダーレイブロックチェーンが稼働している場合はライブである場合、安全であるオーバーレイブロックチェーンを生成する。 2) スイッチング回路の並列構成に類似した3つのブロックチェーン間の三角形構成は,すべてのアンダーレイブロックチェーンが安全で,少なくとも半数が稼働している場合はライブである場合に,オーバレイブロックチェーンを生成する。 3) この2つの基本的な操作の繰り返し構成は、任意の数のアンダーレイチェーン上に構築されたオーバーレイブロックチェーンに対して、安全性と生存性のすべてのトレードオフをもたらすことができる。 結果は同期設定にも拡張される。

Since the creation of Bitcoin 15 years ago, there has been an explosion in the number of permissionless blockchains. Each of these blockchains provides an open ledger that anyone can read from and write to. In this multi-chain world, an important question emerges: how can we build a more secure overlay blockchain by reading from and writing to a given set of blockchains? Drawing an analogy with switching circuits, we approach the problem by defining two basic compositional operations between blockchains, serial and triangular compositions, and use these operations as building blocks to construct general overlay blockchains. Under the partially synchronous setting, we have the following results: 1) the serial composition, between two blockchains, yields an overlay blockchain that is safe if at least one of the two underlay blockchains is safe and that is live if both underlay blockchains are live; 2) the triangular composition between three blockchains, akin to parallel composition of switching circuits, yields an overlay blockchain that is safe if all underlay blockchains are safe and that is live if at least half of them are live; 3) repeated composition of these two basic operations can yield all possible tradeoffs of safety and liveness for an overlay blockchain built on arbitrary number of underlay chains. The results are also extended to the synchronous setting.
翻訳日:2024-03-25 12:08:11 公開日:2024-02-13
# O-RAN系セルネットワークにおける敵攻撃のシステムレベル解析とインテリジェンスに対する防御

System-level Analysis of Adversarial Attacks and Defenses on Intelligence in O-RAN based Cellular Networks ( http://arxiv.org/abs/2402.06846v2 )

ライセンス: Link先を確認
Azuka Chiejina, Brian Kim, Kaushik Chowhdury, Vijay K. Shah, (参考訳) Open Radio Access Network 技術におけるオープンアーキテクチャ、オープンインターフェース、インテリジェンスの統合は、5G と 6G のネットワークをトランスフォーメーションするという約束を持っているが、彼らはまた、その普及を妨げるサイバーセキュリティの脆弱性も導入している。 本稿では、O-RANの近リアルタイムRAN Intelligent Controller(近RT RIC)プラットフォーム内のxAppsとして知られる機械学習(ML)インテリジェンスコンポーネントに特化して、サイバー脅威に関するシステムレベルの徹底的な調査を行う。 我々の研究は、近RT RIC の RIC データベースに格納されているスペクトルとキーパフォーマンスメトリクス(KPM)の2種類のテストデータに対する敵攻撃を実行するために設計された悪意のある xApp の開発から始まった。 これらの脅威を軽減するために,教師モデルを高いソフトマックス温度で訓練し,その知識を低ソフトマックス温度で訓練した学生モデルに伝達する蒸留技術を用いて,xApp内の堅牢MLモデルとして展開する。 我々は,これらの攻撃の影響と蒸留防御技術の有効性を評価するために,MLベースの干渉分類(InterClass)xAppを例として利用して,空対LTE/5G O-RANテストベッドの試作を行った。 コンボリューショナルニューラルネットワーク(CNN)とディープニューラルネットワーク(DNN)の2つのバージョンを,それぞれスペクトルとKPMを入力データとして検討した。 その結果,CNNモデルとDNNモデルの両方の精度は100%,96.3%低下し,ネットワーク性能は有意に低下した。 近RT RIC閉鎖制御ループの厳密な遅延制約の下では, 蒸留法は, それらの攻撃を緩和するために, 最大98.3%の精度を達成し, 古典的敵の訓練より優れていることを示す。

While the open architecture, open interfaces, and integration of intelligence within Open Radio Access Network technology hold the promise of transforming 5G and 6G networks, they also introduce cybersecurity vulnerabilities that hinder its widespread adoption. In this paper, we conduct a thorough system-level investigation of cyber threats, with a specific focus on machine learning (ML) intelligence components known as xApps within the O-RAN's near-real-time RAN Intelligent Controller (near-RT RIC) platform. Our study begins by developing a malicious xApp designed to execute adversarial attacks on two types of test data - spectrograms and key performance metrics (KPMs), stored in the RIC database within the near-RT RIC. To mitigate these threats, we utilize a distillation technique that involves training a teacher model at a high softmax temperature and transferring its knowledge to a student model trained at a lower softmax temperature, which is deployed as the robust ML model within xApp. We prototype an over-the-air LTE/5G O-RAN testbed to assess the impact of these attacks and the effectiveness of the distillation defense technique by leveraging an ML-based Interference Classification (InterClass) xApp as an example. We examine two versions of InterClass xApp under distinct scenarios, one based on Convolutional Neural Networks (CNNs) and another based on Deep Neural Networks (DNNs) using spectrograms and KPMs as input data respectively. Our findings reveal up to 100% and 96.3% degradation in the accuracy of both the CNN and DNN models respectively resulting in a significant decline in network performance under considered adversarial attacks. Under the strict latency constraints of the near-RT RIC closed control loop, our analysis shows that the distillation technique outperforms classical adversarial training by achieving an accuracy of up to 98.3% for mitigating such attacks.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-13
# ゼロトラストスコアを用いた企業ネットワークにおけるネットワークレベルのアクセス制御

Zero Trust Score-based Network-level Access Control in Enterprise Networks ( http://arxiv.org/abs/2402.08299v1 )

ライセンス: Link先を確認
Leonard Bradatsch, Oleksandr Miroshkin, Natasa Trkulja, Frank Kargl, (参考訳) Zero Trustのセキュリティは、最近、エンタープライズネットワークのセキュリティに注目を集めている。 その重要なアイデアの1つは、信頼スコアに基づいてネットワークレベルのアクセス決定を行うことだ。 しかし,企業領域におけるスコアベースのアクセス制御には,理解に欠かせない要素がまだ残っており,本論文では3つの重要な側面についてコントリビューションする。 まず、信頼スコアを計算するために使用できる29の信頼属性の包括的リストを提供する。 新しい数学的アプローチを導入することで、これらの属性を定量化する方法を実証する。 第2に、信頼度が許容されるアクセスのために満たさなければならない信頼しきい値を計算するための動的リスクベース手法について述べる。 第3に、最初の2つのコントリビューションを取り入れ、きめ細かい決定可能性を提供する、主観的論理に基づく新しい信頼アルゴリズムを導入する。 本稿では,このアルゴリズムが軽量な付加的信頼アルゴリズムと比較して高い表現性を示す方法について論じる。 性能面では、主観的論理に基づくアプローチのプロトタイプは、追加的なアプローチとしてアクセス決定を行う上で、同様の計算時間を示した。 また, 動的しきい値計算では, 静的しきい値に比べて7%の意思決定時間の増加がみられた。

Zero Trust security has recently gained attention in enterprise network security. One of its key ideas is making network-level access decisions based on trust scores. However, score-based access control in the enterprise domain still lacks essential elements in our understanding, and in this paper, we contribute with respect to three crucial aspects. First, we provide a comprehensive list of 29 trust attributes that can be used to calculate a trust score. By introducing a novel mathematical approach, we demonstrate how to quantify these attributes. Second, we describe a dynamic risk-based method to calculate the trust threshold the trust score must meet for permitted access. Third, we introduce a novel trust algorithm based on Subjective Logic that incorporates the first two contributions and offers fine-grained decision possibilities. We discuss how this algorithm shows a higher expressiveness compared to a lightweight additive trust algorithm. Performance-wise, a prototype of the Subjective Logic-based approach showed similar calculation times for making an access decision as the additive approach. In addition, the dynamic threshold calculation showed only 7% increased decision-making times compared to a static threshold.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-13
# 非均一情報のための符号化に基づくハイブリッドポスト量子暗号システム

Coding-Based Hybrid Post-Quantum Cryptosystem for Non-Uniform Information ( http://arxiv.org/abs/2402.08407v1 )

ライセンス: Link先を確認
Saar Tarnopolsky, Alejandro Cohen, (参考訳) 非一様メッセージに対して、通信速度の高いポスト量子(PQ)セキュリティを提供する有限ブロック長方式で、新しいハイブリッドユニバーサルネットワーク符号化暗号(NU-HUNCC)を導入する。 近年,セキュアな暗号方式を用いてデータをプリミックスし,その一部だけを暗号化することにより,PQセキュリティを実現している。 しばしば実施するのが難しい仮定です。 標準の固定長ロスレスソース符号と圧縮スキームは、正規化された発散における均一な出力を保証する。 しかし、彼は安全を保証するには不十分だ。 提案手法は,一様線形共有シードを用いてPQセキュリティを保証し,非正規化変動距離における効率の良いほぼ均一な圧縮方式を提案する。 具体的には、提案したPQ暗号システムに対して、まず、一様でないメッセージに対して、エンドツーエンドの符号化スキームNU-HUNCCを提供する。 第2に、NU-HUNCCは、リンクの任意のサブセットにアクセス可能な盗聴者に対して、情報理論的個別保護(IS)であることを示す。 第3に、選択した暗号文攻撃(ISS-CCA1)の下で個別にセマンティックに安全である、変更されたセキュリティ定義を導入し、オールオブザーブな盗聴者に対して、NU-HUNCCはその条件を満たすことを示す。 最後に, NU-HUNCCの通信速度と共有種子サイズの無視性を示す分析を行った。

We introduce for non-uniform messages a novel hybrid universal network coding cryptosystem (NU-HUNCC) in the finite blocklength regime that provides Post-Quantum (PQ) security at high communication rates. Recently, hybrid cryptosystems offered PQ security by premixing the data using secure coding schemes and encrypting only a small portion of it, assuming the data is uniformly distributed. An assumption that is often challenging to enforce. Standard fixed-length lossless source coding and compression schemes guarantee a uniform output in normalized divergence. Yet, his is not sufficient to guarantee security. We consider an efficient almost uniform compression scheme in non-normalized variational distance for the proposed hybrid cryptosystem, that by utilizing uniform sub-linear shared seed, guarantees PQ security. Specifically, for the proposed PQ cryptosystem, first, we provide an end-to-end coding scheme, NU-HUNCC, for non-uniform messages. Second, we show that NU-HUNCC is information-theoretic individually secured (IS) against an eavesdropper with access to any subset of the links. Third, we introduce a modified security definition, individually semantically secure under a chosen ciphertext attack (ISS-CCA1), and show that against an all-observing eavesdropper, NU-HUNCC satisfies its conditions. Finally, we provide an analysis that shows the high communication rate of NU-HUNCC and the negligibility of the shared seed size.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-13
# Pandora、脱獄用GPTを検索で強化

Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning ( http://arxiv.org/abs/2402.08416v1 )

ライセンス: Link先を確認
Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, (参考訳) 大規模言語モデル~(LLM)は広く普及し、様々な領域で採用されている。 したがって、これらのモデルの安全性を確保することが最重要となる。 LLMを操作して悪意のあるコンテンツを生成するJailbreak攻撃は、重大な脆弱性として認識されている。 既存の研究は主にLLMに対する直接的ジェイルブレイク攻撃に焦点を当てているが、間接的手法の探索は限られている。 様々なプラグインの統合、特にRetrieval Augmented Generation~(RAG)により、LPMは外部知識ベースをGPTなどの応答生成に組み込むことができるようになり、間接的ジェイルブレイク攻撃のための新たな方法が導入された。 このギャップを埋めるために, LLM, 特に GPT に対する間接的ジェイルブレイク攻撃を調査し, Retrieval Augmented Generation Poisoning という新たな攻撃ベクトルを導入した。 この手法であるPandoraは、即座に操作することでLCMとRAGの相乗効果を利用して予期せぬ応答を生成する。 Pandoraは悪意あるコンテンツを使ってRAGプロセスに影響を与え、ジェイルブレイク攻撃を効果的に開始する。 予備試験の結果、Pandoraは4つのシナリオでジェイルブレイク攻撃を成功させ、直接攻撃よりも成功率が高く、GPT-3.5は64.3倍、GPT-4は34.8倍であることがわかった。

Large Language Models~(LLMs) have gained immense popularity and are being increasingly applied in various domains. Consequently, ensuring the security of these models is of paramount importance. Jailbreak attacks, which manipulate LLMs to generate malicious content, are recognized as a significant vulnerability. While existing research has predominantly focused on direct jailbreak attacks on LLMs, there has been limited exploration of indirect methods. The integration of various plugins into LLMs, notably Retrieval Augmented Generation~(RAG), which enables LLMs to incorporate external knowledge bases into their response generation such as GPTs, introduces new avenues for indirect jailbreak attacks. To fill this gap, we investigate indirect jailbreak attacks on LLMs, particularly GPTs, introducing a novel attack vector named Retrieval Augmented Generation Poisoning. This method, Pandora, exploits the synergy between LLMs and RAG through prompt manipulation to generate unexpected responses. Pandora uses maliciously crafted content to influence the RAG process, effectively initiating jailbreak attacks. Our preliminary tests show that Pandora successfully conducts jailbreak attacks in four different scenarios, achieving higher success rates than direct attacks, with 64.3\% for GPT-3.5 and 34.8\% for GPT-4.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-13
# CaPS: 分散ソースからの協調的でプライベートな合成データ生成

CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources ( http://arxiv.org/abs/2402.08614v1 )

ライセンス: Link先を確認
Sikha Pentyala, Mayana Pereira, Martine De Cock, (参考訳) データは現代の世界の生命体であり、AI、意思決定、研究の進歩の基本的な部分を形成している。 データへの関心が高まり、政府は規制されたデータ世界に向けて重要な一歩を踏み出し、データの共有とデータのユーザビリティに大きな影響を与え、組織の壁の中に大量のデータが閉じ込められている。 合成データ生成(SDG)は、これらの壁を壊し、データ共有を可能にするための魅力的なソリューションであるが、既存のソリューションの主な欠点は、生成モデルトレーニングのための信頼できるアグリゲータの仮定である。 多くのデータ保持者が、その生データを中央のエンティティに委ねたり、法的に許可されたりすることを望まないことを前提として、分散データ保持者から合成表データの協調的かつプライベートな生成のためのフレームワークを提案する。 我々のソリューションは一般に,任意の限界ベースのSDGに適用可能であり,信頼されたアグリゲータをセキュアなマルチパーティ計算(MPC)プロトコルに置き換え,差分プライバシ(DP)を介してプライバシを出力することで,入力プライバシを提供する。 本稿では,最新の選択測度生成型SDGアルゴリズムMWEM+PGMとAIMに対するアプローチの適用性と拡張性を示す。

Data is the lifeblood of the modern world, forming a fundamental part of AI, decision-making, and research advances. With increase in interest in data, governments have taken important steps towards a regulated data world, drastically impacting data sharing and data usability and resulting in massive amounts of data confined within the walls of organizations. While synthetic data generation (SDG) is an appealing solution to break down these walls and enable data sharing, the main drawback of existing solutions is the assumption of a trusted aggregator for generative model training. Given that many data holders may not want to, or be legally allowed to, entrust a central entity with their raw data, we propose a framework for the collaborative and private generation of synthetic tabular data from distributed data holders. Our solution is general, applicable to any marginal-based SDG, and provides input privacy by replacing the trusted aggregator with secure multi-party computation (MPC) protocols and output privacy via differential privacy (DP). We demonstrate the applicability and scalability of our approach for the state-of-the-art select-measure-generate SDG algorithms MWEM+PGM and AIM.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-13
# Congruence-simple semiringアクションに基づく鍵交換プロトコルの暗号解析

Cryptoanalysis of a key exchange protocol based on a congruence-simple semiring action ( http://arxiv.org/abs/2402.09480v1 )

ライセンス: Link先を確認
Otero Sanchez Alvaro, Lopez Ramos Juan Antonio, (参考訳) このようなセミリングのいずれかの分散公開情報から共有鍵を明らかにするアタックを提供することにより、同期型セミリングアクションに基づく以前に導入された鍵交換が安全でないことを示す。

We show that a previously introduced key exchange based on a congruence-simple semiring action is not secure by providing an attack that reveals the shared key from the distributed public information for any of such semirings
翻訳日:2024-03-25 11:19:24 公開日:2024-02-13
# Floralens: ポルトガル原住民の深層学習モデル

Floralens: a Deep Learning Model for the Portuguese Native Flora ( http://arxiv.org/abs/2403.12072v1 )

ライセンス: Link先を確認
António Filgueiras, Eduardo R. B. Marques, Luís M. B. Lopes, Miguel Marques, Hugo Silva, (参考訳) 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network)と呼ばれる機械学習技術は、多くの市民科学プラットフォームにおける生物種のイメージベース同定に重要である。 しかし、ネットワークをトレーニングするための重要なサイズとサンプルデータセットの構築とネットワークアーキテクチャの選択は文書化されていないため、容易に複製できるようにはなっていない。 本稿では,GoogleのAutoML Visionクラウドサービスが提供するような,市販の深層畳み込みニューラルネットワークを用いて,公開可能な研究グレードデータセットから生物分類のためのデータセットを構築するための合理化手法を開発する。 ケーススタディは、iNaturalist, Pl@ntNet, Observation.orgのサンプルデータを追加することで、Sociedade Portuguesa de Bot\^anicaによって提供される高品質なデータセットに固定されたポルトガル原生植物である。 慎重にデータセットを設計することで、既成の機械学習クラウドサービスが、最先端の市民科学プラットフォームが提供するものに匹敵する、比較的少ない労力で正確なモデルを生成することが分かりました。 最も優れたモデルであるFloralensは、Project Biolensの公開ウェブサイトに統合され、他の分類のモデルも収集しています。 モデルのトレーニングに使われるデータセットとその名称はZenodoで公開されている。

Machine-learning techniques, namely deep convolutional neural networks, are pivotal for image-based identification of biological species in many Citizen Science platforms. However, the construction of critically sized and sampled datasets to train the networks and the choice of the network architectures itself remains little documented and, therefore, does not lend itself to be easily replicated. In this paper, we develop a streamlined methodology for building datasets for biological taxa from publicly available research-grade datasets and for deriving models from these datasets using off-the-shelf deep convolutional neural networks such as those provided by Google's AutoML Vision cloud service. Our case study is the Portuguese native flora, anchored in a high-quality dataset, provided by the Sociedade Portuguesa de Bot\^anica, scaled up by adding sampled data from iNaturalist, Pl@ntNet, and Observation.org. We find that with a careful dataset design, off-the-shelf machine-learning cloud services produce accurate models with relatively little effort that rival those provided by state-of-the-art citizen science platforms. The best model we derived, dubbed Floralens, has been integrated into the public website of Project Biolens, where we gather models for other taxa as well. The dataset used to train the model and its namesake is publicly available on Zenodo.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-13
# ポストセレクションとディープラーニングの過ち

Misconduct in Post-Selections and Deep Learning ( http://arxiv.org/abs/2403.00773v1 )

ライセンス: Link先を確認
Juyang Weng(参考訳) 特に「深層学習」の不正行為とポストセレクションに関する理論的論文である。 著者が知る限り、深層学習不正に関する最初の査読論文は [32], [37], [36] である。 学習モード、例えば、教師付き、強化、敵対的、進化的を問わず、ほとんどすべての機械学習手法(単独のシステムを訓練するいくつかの方法を除く)は、同じ不正行為(不正行為と隠蔽)に根ざしている。 著者らは, 検証セット上で, トレーニングされたネットワーク全体の平均誤差を, 善と悪の少なくとも平均誤差で報告しなければならない, [32], [37], [36] に理由付けを行った(この論文では一般クロスバリデーションと呼ぶ)。 さらに、ランク付けエラーの5パーセントも報告している。 ここでの新しい分析から、隠された犯人がポストセレクションであることが分かる。 これは、ランダムな観測データに依存するため、ハンドチューニングまたは検索されたハイパーパラメータの事後選択にも当てはまる。 データの相互評価は、不正行為からの救助後選択を分けるか(1)と(2)? 新しい結果は以下のとおりだ。 具体的には,データ分割にクロスバリデーションを用いることで,機械学習におけるポストセレクションを排除できないことを示す。 一般に、検証セットの誤りに基づく統計的学習者のポスト選択は統計的に無効である。

This is a theoretical paper on "Deep Learning" misconduct in particular and Post-Selection in general. As far as the author knows, the first peer-reviewed papers on Deep Learning misconduct are [32], [37], [36]. Regardless of learning modes, e.g., supervised, reinforcement, adversarial, and evolutional, almost all machine learning methods (except for a few methods that train a sole system) are rooted in the same misconduct -- cheating and hiding -- (1) cheating in the absence of a test and (2) hiding bad-looking data. It was reasoned in [32], [37], [36] that authors must report at least the average error of all trained networks, good and bad, on the validation set (called general cross-validation in this paper). Better, report also five percentage positions of ranked errors. From the new analysis here, we can see that the hidden culprit is Post-Selection. This is also true for Post-Selection on hand-tuned or searched hyperparameters, because they are random, depending on random observation data. Does cross-validation on data splits rescue Post-Selections from the Misconducts (1) and (2)? The new result here says: No. Specifically, this paper reveals that using cross-validation for data splits is insufficient to exonerate Post-Selections in machine learning. In general, Post-Selections of statistical learners based on their errors on the validation set are statistically invalid.
翻訳日:2024-03-11 00:21:51 公開日:2024-02-13
# アクティブショットファインチューニング

Active Few-Shot Fine-Tuning ( http://arxiv.org/abs/2402.15441v1 )

ライセンス: Link先を確認
Jonas H\"ubotter and Bhavya Sukhija and Lenart Treven and Yarden As and Andreas Krause(参考訳) 我々は、下流タスクに対する大規模ニューラルネットワークのアクティブな数ショットの微調整について研究する。 本稿では,古典的アクティブラーニング,トランスダクティブ・アクティブラーニングの一般化の一例として,情報に基づくトランスダクティブ・ラーニング(Transductive Learning)の略であるIDLを提案する。 一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。 我々の知る限りでは、我々はこの種の一般化境界を導出した最初の人物であり、彼らは活発な学習に対して独立した関心を持つかもしれない。 ITLを大規模ニューラルネットワークの微調整に応用することにより、ITLは最先端技術において大幅に改善されることを示す。

We study the active few-shot fine-tuning of large neural networks to downstream tasks. We show that few-shot fine-tuning is an instance of a generalization of classical active learning, transductive active learning, and we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified downstream tasks. Under general regularity assumptions, we prove that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. To the best of our knowledge, we are the first to derive generalization bounds of this kind, and they may be of independent interest for active learning. We apply ITL to the few-shot fine-tuning of large neural networks and show that ITL substantially improves upon the state-of-the-art.
翻訳日:2024-03-03 19:30:39 公開日:2024-02-13
# 情報に基づくトランスダクティブアクティブラーニング

Information-based Transductive Active Learning ( http://arxiv.org/abs/2402.15898v1 )

ライセンス: Link先を確認
Jonas H\"ubotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause(参考訳) 我々は,ドメインのアクセス可能な領域にサンプリングが制限される現実世界の設定に対処するために,アクティブラーニングを一般化する。 そこで本研究では,情報に基づくトランスダクティブ学習を短縮したIDLを提案する。 一般の正則性仮定では、IPLはアクセス可能なデータから得られる最小の不確実性に一様に収束する。 我々は,大規模ニューラルネットワークの短時間微調整と安全なベイズ最適化という2つの応用例でitlを実演する。

We generalize active learning to address real-world settings where sampling is restricted to an accessible region of the domain, while prediction targets may lie outside this region. To this end, we propose ITL, short for information-based transductive learning, an approach which samples adaptively to maximize the information gained about specified prediction targets. We show, under general regularity assumptions, that ITL converges uniformly to the smallest possible uncertainty obtainable from the accessible data. We demonstrate ITL in two key applications: Few-shot fine-tuning of large neural networks and safe Bayesian optimization, and in both cases, ITL significantly outperforms the state-of-the-art.
翻訳日:2024-03-03 19:19:56 公開日:2024-02-13
# glore: グローバルおよびローカルリファインメントによるllm推論を改善するための時間、場所、方法

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements ( http://arxiv.org/abs/2402.10963v1 )

ライセンス: Link先を確認
Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau(参考訳) 最先端の言語モデルは、数学、科学、コーディングタスクにおいて印象的な推論洗練能力を示すことができる。 しかし、最近の研究は、最高のモデルでさえ、外部からのフィードバックにアクセスせずに、 \textit{when and to refine}を識別するのに苦労していることを示している。 結果に基づく報酬モデル(\textbf{orms})は、いつ精錬するかを示す最終回答の正確性を予測するように訓練され、いつ精錬するかを決定するための便利なソリューションを提供する。 Process Based Reward Models (\textbf{PRMs}) は、中間ステップの正しさを予測するために訓練され、どこを洗練すべきかを示すために使われる。 しかし、訓練には費用がかかり、広範な人間のアノテーションを必要とする。 本稿では、最適ポリシーの今後の報奨や$V^{\star}$を近似するために、合成データのみに基づいてトレーニングされたStepwise ORM(\textbf{SORMs})を提案する。 より具体的には、SORMは現在のポリシーを何度もサンプリングする際(ORMの場合のように一度ではなく)、最終回答の正しさを予測するために訓練されます。 実験の結果、SORMはORMと比較して誤った推論ステップを正確に検出でき、改良を行う際の下流の精度が向上することがわかった。 次に、質問とドラフトソリューションのみを入力として、修正された解を予測する \textit{global}リファインメントモデルと、最初の推論エラーの場所を示す批判を入力として取る \textit{local}リファインメントモデルをトレーニングします。 我々は、SORMのトレーニングに使用されるデータを用いて、両方のモデルのトレーニングデータを合成的に生成する。 グローバルとローカルのリファインメントを組み合わせることで、ormをリランクアとして使用することで、個々のサンプルベースラインと3つのサンプルベースラインのどちらよりも大幅に優れています。 この戦略により、GSM8K上のLLaMA-2 13Bモデル(既にRLで微調整されている)のグリーズサンプリング時の精度を 53\% から 65\% に改善できる。

State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify \textit{when and where to refine} without access to external feedback. Outcome-based Reward Models (\textbf{ORMs}), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (\textbf{PRMs}), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (\textbf{SORMs}) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or $V^{\star}$. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train \textit{global} refinement models, which take only the question and a draft solution as input and predict a corrected solution, and \textit{local} refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.
翻訳日:2024-02-25 17:08:56 公開日:2024-02-13
# 言語モデルダイアログにおけるペルソナドリフトの測定と制御

Measuring and Controlling Persona Drift in Language Model Dialogs ( http://arxiv.org/abs/2402.10962v1 )

ライセンス: Link先を確認
Kenneth Li, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Promptingは、言語モデルチャットボットをカスタマイズするための標準ツールであり、特定の"ペルソナ"を実行できる。 プロンプトの使用における暗黙の仮定は、それらが安定していることであり、チャットボットは、会話の間、規定されたペルソナに従ってテキストを生成し続ける。 2つのパーソナライズされたチャットボット間の自己チャットを通じてペルソナの安定性を評価する。 LLaMA2-chat-70Bのような一般的なモデルをテストすると、8ラウンドの会話の中で重要なペルソナドリフトが明らかになる。 この現象を実証的、理論的に分析すると、長い交換で注意が減衰するため、トランスフォーマーの注意機構が重要な役割を果たしていることが示唆される。 注意崩壊とペルソナドリフトに対処するため,2つの強いベースラインに対して良好に比較可能なsplit-softmaxと呼ばれる軽量な手法を提案する。

Prompting is a standard tool for customizing language-model chatbots, enabling them to take on a specific "persona". An implicit assumption in the use of prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated persona for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating persona stability via self-chats between two personalized chatbots. Testing popular models like LLaMA2-chat-70B, we reveal a significant persona drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and persona drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.
翻訳日:2024-02-25 17:08:19 公開日:2024-02-13
# パブリックデータによるOracle効率の良い微分プライベートラーニング

Oracle-Efficient Differentially Private Learning with Public Data ( http://arxiv.org/abs/2402.09483v1 )

ライセンス: Link先を確認
Adam Block, Mark Bun, Rathin Desai, Abhishek Shetty, and Steven Wu(参考訳) プライバシの制約下での多くの関数クラスの学習可能性の統計的な低さから,プライベートラーニングアルゴリズムの性能向上にパブリックデータを活用することに対する近年の関心が高まっている。 このモデルでは、アルゴリズムは常にプライベートサンプルに対する差分プライバシーを保証すると同時に、プライベートデータの分布がパブリックデータに十分近い場合の学習保証も保証しなければならない。 これまでの研究では、十分に公開されていないデータが利用可能であれば、プライベートな学習を統計的に抽出できることが実証されてきたが、結果として得られるアルゴリズムはすべて計算的に非効率である。 本研究では,関数クラスが非プライベートに学習可能である場合,関数クラスに対する最適化オラクルへの呼び出し数に対して,計算効率の概念が適用可能である場合に,パブリックデータを利用してプライベートに学習するアルゴリズムを初めて提案する。 この一般的な結果に加えて、関数クラスが凸である場合やタスクが二分分類である場合の特別な場合において、サンプル複雑性を改善した特別なアルゴリズムを提供する。

Due to statistical lower bounds on the learnability of many function classes under privacy constraints, there has been recent interest in leveraging public data to improve the performance of private learning algorithms. In this model, algorithms must always guarantee differential privacy with respect to the private samples while also ensuring learning guarantees when the private data distribution is sufficiently close to that of the public data. Previous work has demonstrated that when sufficient public, unlabelled data is available, private learning can be made statistically tractable, but the resulting algorithms have all been computationally inefficient. In this work, we present the first computationally efficient, algorithms to provably leverage public data to learn privately whenever a function class is learnable non-privately, where our notion of computational efficiency is with respect to the number of calls to an optimization oracle for the function class. In addition to this general result, we provide specialized algorithms with improved sample complexities in the special cases when the function class is convex or when the task is binary classification.
翻訳日:2024-02-16 18:28:46 公開日:2024-02-13
# Cryptomite: ランダム性抽出器の汎用的でユーザフレンドリなライブラリ

Cryptomite: A versatile and user-friendly library of randomness extractors ( http://arxiv.org/abs/2402.09481v1 )

ライセンス: Link先を確認
Cameron Foreman, Richie Yeung, Alec Edgington and Florian J. Curchod(参考訳) ランダム性抽出実装のPythonライブラリであるCryptomiteを紹介する。 このライブラリは、パラメータ計算モジュールとともに、2つのソース、シード、決定論的ランダムネス抽出器を提供しており、様々なアプリケーションに使いやすく、適している。 また,新しい抽出器の構成や既存の抽出器パラメータの改善を含む理論的結果も提示する。 抽出器の実装は、実際には効率的であり、入力サイズを2^{40} > 10^{12}$bitまで許容する。 これらは数値的にも正確であり(浮動小数点演算を避けるために数論的変換を用いて畳み込みを実装する)、暗号に適している。 アルゴリズムとパラメータ計算は、コード例やパフォーマンスベンチマークなど、詳細に記述されている。

We present Cryptomite, a Python library of randomness extractor implementations. The library offers a range of two-source, seeded and deterministic randomness extractors, together with parameter calculation modules, making it easy to use and suitable for a variety of applications. We also present theoretical results, including new extractor constructions and improvements to existing extractor parameters. The extractor implementations are efficient in practice and tolerate input sizes of up to $2^{40} > 10^{12}$ bits. They are also numerically precise (implementing convolutions using the Number Theoretic Transform to avoid floating point arithmetic), making them well suited to cryptography. The algorithms and parameter calculation are described in detail, including illustrative code examples and performance benchmarking.
翻訳日:2024-02-16 18:28:29 公開日:2024-02-13
# データレコンストラクション攻撃と防御:体系的評価

Data Reconstruction Attacks and Defenses: A Systematic Evaluation ( http://arxiv.org/abs/2402.09478v1 )

ライセンス: Link先を確認
Sheng Liu, Zihan Wang, Qi Lei(参考訳) レコンストラクション攻撃と防御は、機械学習のデータ漏洩問題を理解する上で不可欠である。 しかし、先行研究は、勾配反転攻撃の実証的な観察、理論的根拠の欠如、防御方法の有用性と攻撃方法の計算的制限を両立させることができなかった。 本研究では,連合学習の設定において,強固な再構築攻撃を提案する。 攻撃は中間的な機能を再構築し、以前のほとんどのメソッドとうまく統合し、上回っています。 より強力な攻撃では,最も一般的な防御方法の効果を理論的にも実証的にも徹底的に検討する。 以上より,グラデーション・クリッピング,ドロップアウト,付加ノイズ,局所凝集など様々な防御機構において,最先端の攻撃を防御するための最も効果的な戦略としてグラデーション・プルーニングが出現することが示唆された。

Reconstruction attacks and defenses are essential in understanding the data leakage problem in machine learning. However, prior work has centered around empirical observations of gradient inversion attacks, lacks theoretical groundings, and was unable to disentangle the usefulness of defending methods versus the computational limitation of attacking methods. In this work, we propose a strong reconstruction attack in the setting of federated learning. The attack reconstructs intermediate features and nicely integrates with and outperforms most of the previous methods. On this stronger attack, we thoroughly investigate both theoretically and empirically the effect of the most common defense methods. Our findings suggest that among various defense mechanisms, such as gradient clipping, dropout, additive noise, local aggregation, etc., gradient pruning emerges as the most effective strategy to defend against state-of-the-art attacks.
翻訳日:2024-02-16 18:28:18 公開日:2024-02-13
# カーネル密度推定データ構造の動的保守:実践から理論へ

Dynamic Maintenance of Kernel Density Estimation Data Structure: From Practice to Theory ( http://arxiv.org/abs/2208.03915v2 )

ライセンス: Link先を確認
Jiehao Liang, Zhao Song, Zhaozhuo Xu, Junze Yin, Danyang Zhuo(参考訳) カーネル密度推定(kde)は、機械学習において難しいタスクである。 カーネル関数 $f(x,y)$ と点の集合 $\{x_1, x_2, \cdots, x_n \} \subset \mathbb{R}^d$ が与えられたとき、任意のクエリポイント $y \in \mathbb{R}^d$ に対して $\frac{1}{n}\sum_{i=1}^{n} f(x_i,y)$ を計算したい。 近年,効率的なKDEにデータ構造を用いる傾向が高まっている。 しかし,提案するkdeデータ構造は静的設定に焦点を当てている。 動的に変化するデータ分布に対するKDEデータ構造の堅牢性には対処できない。 本研究では,KDEデータ構造を動的に維持し,逆クエリに対して頑健性を示す。 特に,KDEデータ構造の理論的枠組みについて述べる。 我々のフレームワークでは、KDEデータ構造は4次空間のみを必要とする。 さらに,データ構造は,データセットの動的更新をサブリニア時間でサポートする。 さらに,準線形時間で潜在的な敵と適応的なクエリを実行できる。

Kernel density estimation (KDE) stands out as a challenging task in machine learning. The problem is defined in the following way: given a kernel function $f(x,y)$ and a set of points $\{x_1, x_2, \cdots, x_n \} \subset \mathbb{R}^d$, we would like to compute $\frac{1}{n}\sum_{i=1}^{n} f(x_i,y)$ for any query point $y \in \mathbb{R}^d$. Recently, there has been a growing trend of using data structures for efficient KDE. However, the proposed KDE data structures focus on static settings. The robustness of KDE data structures over dynamic changing data distributions is not addressed. In this work, we focus on the dynamic maintenance of KDE data structures with robustness to adversarial queries. Especially, we provide a theoretical framework of KDE data structures. In our framework, the KDE data structures only require subquadratic spaces. Moreover, our data structure supports the dynamic update of the dataset in sublinear time. Furthermore, we can perform adaptive queries with the potential adversary in sublinear time.
翻訳日:2024-02-15 20:38:59 公開日:2024-02-13
# 再現性向上のためのパラメトリックレベルセット(PalenTIR)

Parametric Level-sets Enhanced To Improve Reconstruction (PaLEnTIR) ( http://arxiv.org/abs/2204.09815v3 )

ライセンス: Link先を確認
Ege Ozsar, Misha Kilmer, Eric Miller, Eric de Sturler, Arvind Saibaba(参考訳) palentirは、区分的な定数オブジェクトの復元と再構築に対応する、格段に強化されたパラメトリックレベルセット(pals)手法である。 我々の重要な貢献は、単一のレベルセット関数を利用して、オブジェクトの数やコントラストの知識を必要とせずに、複数コントラストの断片的なオブジェクトを含むシーンを復元することである。 放射状基底関数 (RBF) を用いた標準的な PaLS 法とは異なり,我々のモデルは異方性基底関数 (ABF) を統合し,より広い形状のクラスを表す能力を拡張する。 さらに、PaLEnTIRはパラメータ識別プロセスの一部として必要となるヤコビ行列の条件付けを改善し、最適化手法を高速化する。 本研究では,2次元および3次元のX線CT,非線形拡散光トモグラフィ(DOT),デノナイズ,デコンボリューションといった様々な実験を通じてPaLEnTIRの有効性を検証する。

We introduce PaLEnTIR, a significantly enhanced parametric level-set (PaLS) method addressing the restoration and reconstruction of piecewise constant objects. Our key contribution involves a unique PaLS formulation utilizing a single level-set function to restore scenes containing multi-contrast piecewise-constant objects without requiring knowledge of the number of objects or their contrasts. Unlike standard PaLS methods employing radial basis functions (RBFs), our model integrates anisotropic basis functions (ABFs), thereby expanding its capacity to represent a wider class of shapes. Furthermore, PaLEnTIR improves the conditioning of the Jacobian matrix, required as part of the parameter identification process, and consequently accelerates optimization methods. We validate PaLEnTIR's efficacy through diverse experiments encompassing sparse and limited angle of view X-ray computed tomography (2D and 3D), nonlinear diffuse optical tomography (DOT), denoising, and deconvolution tasks using both real and simulated data sets.
翻訳日:2024-02-15 20:36:02 公開日:2024-02-13
# 人を自動的に検出するロボット:クラス内変動に頑健なマルチモーダル・コントラスト学習法

Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations ( http://arxiv.org/abs/2203.00187v2 )

ライセンス: Link先を確認
Angus Fung, Beno Benhabib, Goldie Nejat(参考訳) 病院, 長期ケア, 店舗, 空港など, 混み合った, あるいは散らばった人間中心の環境にいる人々のロボットによる検出は, 他者や物に遮られ, 衣服やポーズのバリエーションによって変形するので困難である。 照明が弱いため、識別的な視覚的特徴が失われることもある。 本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。 2段階のトレーニング手法を提案する。 1) 時間不変なマルチモーダルコントラスト学習(TimCLR)と定義する独自の事前学習手法 2)MFRCNN(Multimodal Faster R-CNN)検出器。 TimCLRは教師なし学習を通じてクラス内で不変な人表現を学習する。 本手法は,多様画像列内の自然な変動から画像対を生成し,合成データ拡張に加え,異なるモダリティ間の不変性を伝達するクロスモーダル特徴をコントラストする点においてユニークな手法である。 これらの事前訓練された特徴は、RGB-D画像からの微調整と人物検出のためにMFRCNN検出器によって使用される。 人中心混在環境と散在環境の両方におけるDLアーキテクチャの性能評価実験を行った。 提案手法は, 異なる照明条件下での身体閉塞者やポーズ変形者の検出において, 検出精度の観点から, 既存のユニモーダル・マルチモーダル人物検出手法よりも優れていることを示す。

Robotic detection of people in crowded and/or cluttered human-centered environments including hospitals, long-term care, stores and airports is challenging as people can become occluded by other people or objects, and deform due to variations in clothing or pose. There can also be loss of discriminative visual features due to poor lighting. In this paper, we present a novel multimodal person detection architecture to address the mobile robot problem of person detection under intraclass variations. We present a two-stage training approach using 1) a unique pretraining method we define as Temporal Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster R-CNN (MFRCNN) detector. TimCLR learns person representations that are invariant under intraclass variations through unsupervised learning. Our approach is unique in that it generates image pairs from natural variations within multimodal image sequences, in addition to synthetic data augmentation, and contrasts crossmodal features to transfer invariances between different modalities. These pretrained features are used by the MFRCNN detector for finetuning and person detection from RGB-D images. Extensive experiments validate the performance of our DL architecture in both human-centered crowded and cluttered environments. Results show that our method outperforms existing unimodal and multimodal person detection approaches in terms of detection accuracy in detecting people with body occlusions and pose deformations in different lighting conditions.
翻訳日:2024-02-15 20:35:42 公開日:2024-02-13
# ガウス場を用いた永久数の加法的推定

Additive estimates of the permanent using Gaussian fields ( http://arxiv.org/abs/2212.10672v2 )

ライセンス: Link先を確認
Tantrik Mukerji and Wei-Shih Yang(参考訳) 我々は,$m \times m$ real matrix $a$ の永続性を加算誤差まで推定するランダム化アルゴリズムを提案する。 これを、特定の共分散行列 $c$ を持つ中央結合ガウス確率変数の積の期待として、永続的な $\mathrm{perm}(a)$ of $a$ を見て行う。 このアルゴリズムは、この製品の経験的な平均$s_{n}$を、n$をサンプリングした後出力する。 我々のアルゴリズムは総時間$O(M^{3} + M^{2}N + MN)$で、失敗確率 \begin{equation*} P(|S_{N}-\text{perm}(A)| > t) \leq \frac{3^{M}}{t^{2}N} \prod^{2M}_{i=1} C_{ii} で実行される。 特に、$\mathrm{perm}(A)$を$\epsilon\bigg(\sqrt{3^{2M}\prod^{2M}_{i=1} C_{ii}}\bigg)$の加法誤差に多項式時間で推定することができる。 我々は、Gurvitsによる以前の手順と比較する。 半定値プログラムを用いて特定の$C$を見つける方法と、Max-Cut問題とカットノルムとの関係について論じる。

We present a randomized algorithm for estimating the permanent of an $M \times M$ real matrix $A$ up to an additive error. We do this by viewing the permanent $\mathrm{perm}(A)$ of $A$ as the expectation of a product of centered joint Gaussian random variables with a particular covariance matrix $C$. The algorithm outputs the empirical mean $S_{N}$ of this product after sampling $N$ times. Our algorithm runs in total time $O(M^{3} + M^{2}N + MN)$ with failure probability \begin{equation*} P(|S_{N}-\text{perm}(A)| > t) \leq \frac{3^{M}}{t^{2}N} \prod^{2M}_{i=1} C_{ii}. \end{equation*} In particular, we can estimate $\mathrm{perm}(A)$ to an additive error of $\epsilon\bigg(\sqrt{3^{2M}\prod^{2M}_{i=1} C_{ii}}\bigg)$ in polynomial time. We compare to a previous procedure due to Gurvits. We discuss how to find a particular $C$ using a semidefinite program and a relation to the Max-Cut problem and cut-norms.
翻訳日:2024-02-15 20:24:03 公開日:2024-02-13
# より高速な$k$-means++アルゴリズム

A Faster $k$-means++ Algorithm ( http://arxiv.org/abs/2211.15118v2 )

ライセンス: Link先を確認
Jiehao Liang, Somdeb Sarkhel, Zhao Song, Chenbo Yin, Junze Yin, Danyang Zhuo(参考訳) $k$-means++は、$k$-meansクラスタリングアルゴリズムの初期クラスタセンターを選択するための重要なアルゴリズムである。 そこで本研究では,k$-means++問題をほぼ最適実行時間で解く新しいアルゴリズムを提案する。 n$のデータポイントが$\mathbb{r}^d$で与えられると、現在の最先端のアルゴリズムは$\widetilde{o}(k)$の反復で動作し、各イテレーションは$\widetilde{o}(nd k)$の時間を要する。 従って、全体の実行時間は$\widetilde{O}(n d k^2)$である。 我々は,$\widetilde{o}(nd + nk^2)$ の時間しかかからない新しいアルゴリズム \textsc{fastkmeans++} を提案する。

$k$-means++ is an important algorithm for choosing initial cluster centers for the $k$-means clustering algorithm. In this work, we present a new algorithm that can solve the $k$-means++ problem with nearly optimal running time. Given $n$ data points in $\mathbb{R}^d$, the current state-of-the-art algorithm runs in $\widetilde{O}(k )$ iterations, and each iteration takes $\widetilde{O}(nd k)$ time. The overall running time is thus $\widetilde{O}(n d k^2)$. We propose a new algorithm \textsc{FastKmeans++} that only takes in $\widetilde{O}(nd + nk^2)$ time, in total.
翻訳日:2024-02-15 20:22:53 公開日:2024-02-13
# 非マルコフ環境における強化学習

Reinforcement Learning in Non-Markovian Environments ( http://arxiv.org/abs/2211.01595v4 )

ライセンス: Link先を確認
Siddharth Chandak, Pratik Shah, Vivek S Borkar, Parth Dodhia(参考訳) 任意の非マルコフ環境における強化学習のためにvan royと共著者によって開発された新しいパラダイムに動機づけられ、q-learningアルゴリズムを適用した際の観測の非マルコフ性に起因する誤りを、関連する定式化し、明確にピン留めする。 この観察に基づいて,エージェント設計の基準は,ある条件法則に対してよい近似を求めるべきであることを示唆する。 古典的確率制御に着想を得て, 近似的統計量の再帰的計算に還元されることを示す。 これにより、エージェント設計のためのオートエンコーダベースのスキームが実現され、部分的に観察された強化学習環境上で数値的にテストされる。

Motivated by the novel paradigm developed by Van Roy and coauthors for reinforcement learning in arbitrary non-Markovian environments, we propose a related formulation and explicitly pin down the error caused by non-Markovianity of observations when the Q-learning algorithm is applied on this formulation. Based on this observation, we propose that the criterion for agent design should be to seek good approximations for certain conditional laws. Inspired by classical stochastic control, we show that our problem reduces to that of recursive computation of approximate sufficient statistics. This leads to an autoencoder-based scheme for agent design which is then numerically tested on partially observed reinforcement learning environments.
翻訳日:2024-02-15 20:21:52 公開日:2024-02-13
# 適度偏差理論による最適学習

Optimal Learning via Moderate Deviations Theory ( http://arxiv.org/abs/2305.14496v3 )

ライセンス: Link先を確認
Arnab Ganguly, Tobias Sutter(参考訳) 本稿では,確率的プログラミング問題や様々なSDEモデルとして記述された期待損失の一般パラメータ推定を含む,幅広いモデルにおける信頼区間を用いた関数値の統計的最適学習手法を提案する。 より正確には、適度な偏差原理に基づくアプローチを用いて、高精度な信頼区間を体系的に構築する。 提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。 この手法によって示唆される信頼区間は、データ生成過程によって引き起こされる中程度の偏差率関数によって不確実性が表現されるロバスト最適化問題の解として表現される。 多くのモデルにおいて、これらの最適化問題は無限次元であっても有限凸プログラムとして扱いやすい再構成を許すことを実証する。

This paper proposes a statistically optimal approach for learning a function value using a confidence interval in a wide range of models, including general non-parametric estimation of an expected loss described as a stochastic programming problem or various SDE models. More precisely, we develop a systematic construction of highly accurate confidence intervals by using a moderate deviation principle-based approach. It is shown that the proposed confidence intervals are statistically optimal in the sense that they satisfy criteria regarding exponential accuracy, minimality, consistency, mischaracterization probability, and eventual uniformly most accurate (UMA) property. The confidence intervals suggested by this approach are expressed as solutions to robust optimization problems, where the uncertainty is expressed via the underlying moderate deviation rate function induced by the data-generating process. We demonstrate that for many models these optimization problems admit tractable reformulations as finite convex programs even when they are infinite-dimensional.
翻訳日:2024-02-15 20:14:49 公開日:2024-02-13
# 正規化流れを伴う熱量計のインダクティブシミュレーション

Inductive Simulation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2305.11934v2 )

ライセンス: Link先を確認
Matthew R. Buckley, Claudius Krause, Ian Pang, David Shih(参考訳) 粒子検出器応答のシミュレーションは、大型ハドロン衝突型加速器計算パイプラインで最も高価なステップである。 近年, 流れの正規化は前例のない精度を達成しつつ, このプロセスの高速化を図っているが, 将来の検出器アップグレードに関連する高解像度化にアプローチを拡大することは, メモリ制約の禁止につながることが示されている。 この問題を解決するために, 連続したカロリー層内のエネルギー沈着パターンに基づいて訓練された誘導型正規化流れに基づいて, 高速検出器シミュレーションのためのフレームワークiCaloFlowを導入する。 さらに, 教師留学生蒸留を用いて, 表現力を失うことなくサンプリング速度を向上する。 calochallenge2022のデータセット2と3で示すように、icaloflowは、従来考えられていた10倍から100倍の粒度を持つ検出器ジオメトリの高速で高忠実なシミュレーションを行う際に、流れの正規化の可能性を実現することができる。

Simulating particle detector response is the single most expensive step in the Large Hadron Collider computational pipeline. Recently it was shown that normalizing flows can accelerate this process while achieving unprecedented levels of accuracy, but scaling this approach up to higher resolutions relevant for future detector upgrades leads to prohibitive memory constraints. To overcome this problem, we introduce Inductive CaloFlow (iCaloFlow), a framework for fast detector simulation based on an inductive series of normalizing flows trained on the pattern of energy depositions in pairs of consecutive calorimeter layers. We further use a teacher-student distillation to increase sampling speed without loss of expressivity. As we demonstrate with Datasets 2 and 3 of the CaloChallenge2022, iCaloFlow can realize the potential of normalizing flows in performing fast, high-fidelity simulation on detector geometries that are ~ 10 - 100 times higher granularity than previously considered.
翻訳日:2024-02-15 20:13:42 公開日:2024-02-13
# あなたのように聞こえる: デバイス上で個人化された語彙を学ぶ

Now It Sounds Like You: Learning Personalized Vocabulary On Device ( http://arxiv.org/abs/2305.03584v3 )

ライセンス: Link先を確認
Sid Wang, Ashish Shenoy, Pierce Chuang, John Nguyen(参考訳) 近年,様々な自然言語処理(NLP)タスクの実行能力において,フェデレートラーニング(FL)が著しい進歩を見せている。 本研究は、オンデバイス言語モデリングにパーソナライズされたflを適用することに焦点を当てる。 メモリとレイテンシの制限のため、これらのモデルはサブワードトークン化やビームサーチデコーディングの複雑さをサポートできないため、クローズドボキャブラリ言語モデルをデプロイする決定が下される。 しかし、クローズド・ボキャブラリ・モデルは特定のユーザーに属する外語彙(OOV)を扱えない。 この問題に対処するために,メモリとレイテンシへの影響を最小限に抑えつつ,OOVのカバレッジを改善し,モデル精度を向上させる「OOV拡張」と呼ばれる新しい手法を提案する。 本手法では,知識を中央モデルから効果的に伝達し,単語埋め込みを学習する「oov adapter」を導入する。 OOV拡張は、一連の共通FLベンチマークにおいて標準FLパーソナライズ手法よりも大幅に優れている。

In recent years, Federated Learning (FL) has shown significant advancements in its ability to perform various natural language processing (NLP) tasks. This work focuses on applying personalized FL for on-device language modeling. Due to limitations of memory and latency, these models cannot support the complexity of sub-word tokenization or beam search decoding, resulting in the decision to deploy a closed-vocabulary language model. However, closed-vocabulary models are unable to handle out-of-vocabulary (OOV) words belonging to specific users. To address this issue, We propose a novel technique called "OOV expansion" that improves OOV coverage and increases model accuracy while minimizing the impact on memory and latency. This method introduces a personalized "OOV adapter" that effectively transfers knowledge from a central model and learns word embedding for personalized vocabulary. OOV expansion significantly outperforms standard FL personalization methods on a set of common FL benchmarks.
翻訳日:2024-02-15 20:11:01 公開日:2024-02-13
# MABL:マルチエージェント強化学習のための2レベル遅延可変世界モデル

MABL: Bi-Level Latent-Variable World Model for Sample-Efficient Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2304.06011v2 )

ライセンス: Link先を確認
Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran(参考訳) マルチエージェント強化学習(MARL)手法は、しばしばサンプルの複雑さに悩まされ、収集するデータが希少で高価な実世界の問題での使用を制限する。 潜在変数世界モデルは、MARLトレーニングのために豊富な合成データを生成することでこの問題に対処するために使用されているが、これらのモデルのほとんどは、学習効率を損なう潜在状態へのトレーニング中に利用可能な重要なグローバル情報を符号化することはできない。 グローバルな情報を含む数少ない例外は、学習したポリシーの集中的な実行を前提としている。 高次元入力から2レベル潜在変数世界モデルを学習するモデルベースMARLアルゴリズムMABL(Multi-Agent Bi-Level world model)を提案する。 既存のモデルとは異なり、MABLは学習されたポリシーの分散実行を保証しながら、トレーニング中に重要なグローバル情報を潜在状態にエンコードすることができる。 各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。 実行中、エージェントは下位の潜伏状態のみを使用し、独立して行動する。 重要なことに、MABLはポリシー学習のためのモデルなしのMARLアルゴリズムと組み合わせることができる。 SMAC、Flatland、MAMuJoCoといった複雑な離散的かつ連続的なマルチエージェントタスクを用いた実証評価では、MABLはサンプル効率と全体的な性能の両方においてSOTA多エージェント潜在変数世界モデルを上回っている。

Multi-agent reinforcement learning (MARL) methods often suffer from high sample complexity, limiting their use in real-world problems where data is sparse or expensive to collect. Although latent-variable world models have been employed to address this issue by generating abundant synthetic data for MARL training, most of these models cannot encode vital global information available during training into their latent states, which hampers learning efficiency. The few exceptions that incorporate global information assume centralized execution of their learned policies, which is impractical in many applications with partial observability. We propose a novel model-based MARL algorithm, MABL (Multi-Agent Bi-Level world model), that learns a bi-level latent-variable world model from high-dimensional inputs. Unlike existing models, MABL is capable of encoding essential global information into the latent states during training while guaranteeing the decentralized execution of learned policies. For each agent, MABL learns a global latent state at the upper level, which is used to inform the learning of an agent latent state at the lower level. During execution, agents exclusively use lower-level latent states and act independently. Crucially, MABL can be combined with any model-free MARL algorithm for policy learning. In our empirical evaluation with complex discrete and continuous multi-agent tasks including SMAC, Flatland, and MAMuJoCo, MABL surpasses SOTA multi-agent latent-variable world models in both sample efficiency and overall performance.
翻訳日:2024-02-15 20:10:20 公開日:2024-02-13
# 絡み合った送信機を有するマルチアクセスチャネル

The Multiple-Access Channel with Entangled Transmitters ( http://arxiv.org/abs/2303.10456v5 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, and Holger Boche(参考訳) 従来型マルチアクセスチャネル(mac)と絡み合いリソースとの通信を考慮し,通信開始前に2つの送信機で絡み合いリソースを共有する。 leditzky et al. (2020) は、疑似テレパシーゲームで定義される古典的なmacの例を示し、絡み合った送信機との和率は、そのようなリソースのない最高の達成可能な和率よりも厳密に高いことを示した。 ここでは、エンタングル送信機を有する一般macの容量領域における内外界と外界の境界を定め、その先行結果を特殊ケースとして得ることができることを示す。 メッセージ平均誤差基準の下での古典的なmacの容量領域は、最大誤差基準よりも厳密に大きいことが長年知られている(dueck, 1978)。 絡み合った資源が与えられた場合、その領域は一致する。 さらに、エンタングルメントリソースと会議の複合的な設定に対処し、送信機はレート制限リンクを介して相互に通信することができる。 超深度符号化を用いて、絡み合いは会議レートを2倍にすることができる。

Communication over a classical multiple-access channel (MAC) with entanglement resources is considered, whereby two transmitters share entanglement resources a priori before communication begins. Leditzky et al. (2020) presented an example of a classical MAC, defined in terms of a pseudo telepathy game, such that the sum rate with entangled transmitters is strictly higher than the best achievable sum rate without such resources. Here, we establish inner and outer bounds on the capacity region for the general MAC with entangled transmitters, and show that the previous result can be obtained as a special case. It has long been known that the capacity region of the classical MAC under a message-average error criterion can be strictly larger than with a maximal error criterion (Dueck, 1978). We observe that given entanglement resources, the regions coincide. Furthermore, we address the combined setting of entanglement resources and conferencing, where the transmitters can also communicate with each other over rate-limited links. Using superdense coding, entanglement can double the conferencing rate.
翻訳日:2024-02-15 20:09:39 公開日:2024-02-13
# オープン量子システムの非摂動シミュレーションのための環境の系統的粗粒化

Systematic coarse-graining of environments for the non-perturbative simulation of open quantum systems ( http://arxiv.org/abs/2303.08982v3 )

ライセンス: Link先を確認
Nicola Lorenzoni, Namgee Cho, James Lim, Dario Tamascelli, Susana F. Huelga, Martin B. Plenio(参考訳) 分子系の精密電子振動力学シミュレーションは、多数の振動モードからなる現実的な環境を扱う際に大きな課題となる。 本稿では,有限時間間隔で正確な開システムダイナミクスをキャプチャする有効なフォノンスペクトル密度の構築手法を提案する。 既存の非摂動シミュレーションツールと組み合わせることで、多体オープンシステムダイナミクスに関連する計算コストを大幅に削減できる。

Conducting precise electronic-vibrational dynamics simulations of molecular systems poses significant challenges when dealing with realistic environments composed of numerous vibrational modes. Here, we introduce a technique for the construction of effective phonon spectral densities that capture accurately open system dynamics over a finite time interval of interest. When combined with existing non-perturbative simulation tools, our approach can reduce significantly the computational costs associated with many-body open system dynamics.
翻訳日:2024-02-15 20:08:48 公開日:2024-02-13
# オーバーラップ分布における温度スケーリングの限界について

On the Limitations of Temperature Scaling for Distributions with Overlaps ( http://arxiv.org/abs/2306.00740v3 )

ライセンス: Link先を確認
Muthu Chidambaram and Rong Ge(参考訳) ディープニューラルネットワークの印象的な一般化機能にも関わらず、誤った場合には自信過剰であることが繰り返し示されています。 この問題を解決することはモデルキャリブレーションと呼ばれ、改良されたトレーニングスキームと温度スケーリングのようなトレーニング後のキャリブレーション手順という形で多くの注目を集めている。 温度スケーリングは単純さのため頻繁に用いられるが、しばしば改良されたトレーニングスキームによって置き換えられる。 本研究では,温度スケーリング性能の特定のボトルネックを特定する。 クラスのサポートが重複する分布の一般的な集合に対する経験的リスク最小化器の場合、温度スケーリング性能はクラス間の重複量とともに低下し、多数のクラスが存在する場合、漸近的にランダムに向上しないことを示す。 一方,Mixupデータ拡張技術によって引き起こされる経験的リスクの修正形式を最適化すると,ある程度のキャリブレーション性能が得られることが証明され,一部の状況ではトレーニング時間キャリブレーションが必要であることが示唆された。 また,Mixupがラベルノイズの形でクラスオーバーラップを導入した画像分類ベンチマークにおいて,実験的リスク最小化(複数のキャリブレーション指標)を著しく上回ることを示すことによって,我々の理論的結果が実践を反映していることを検証する。

Despite the impressive generalization capabilities of deep neural networks, they have been repeatedly shown to be overconfident when they are wrong. Fixing this issue is known as model calibration, and has consequently received much attention in the form of modified training schemes and post-training calibration procedures such as temperature scaling. While temperature scaling is frequently used because of its simplicity, it is often outperformed by modified training schemes. In this work, we identify a specific bottleneck for the performance of temperature scaling. We show that for empirical risk minimizers for a general set of distributions in which the supports of classes have overlaps, the performance of temperature scaling degrades with the amount of overlap between classes, and asymptotically becomes no better than random when there are a large number of classes. On the other hand, we prove that optimizing a modified form of the empirical risk induced by the Mixup data augmentation technique can in fact lead to reasonably good calibration performance, showing that training-time calibration may be necessary in some situations. We also verify that our theoretical results reflect practice by showing that Mixup significantly outperforms empirical risk minimization (with respect to multiple calibration metrics) on image classification benchmarks with class overlaps introduced in the form of label noise.
翻訳日:2024-02-15 19:59:34 公開日:2024-02-13
# 摂動支援サンプル合成:不確実性定量の新しいアプローチ

Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty Quantification ( http://arxiv.org/abs/2305.18671v2 )

ライセンス: Link先を確認
Yifei Liu, Rex Shen, and Xiaotong Shen(参考訳) 本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。 このフレームワークは複雑なデータシナリオにおける不確実性の定量化に焦点を当てている。 一方、PASSは生成モデルを用いて、データ摂動によってランク特性を保ちながら生データを密接に反映した合成データを作成し、データの多様性を高め、プライバシを高める。 大きな事前学習された生成モデルからの知識伝達を組み込むことで、passは推定精度を高め、モンテカルロ実験を通じて様々な統計の洗練された分布推定をもたらす。 一方、PAIは統計的に保証された妥当性を誇っている。 ピボット推論では、ピボット分布の事前の知識がなくても正確な結論を得られる。 非ピボタルな状況では、独立したホールドアウトサンプルで学習することで、合成データ生成の信頼性を高める。 本研究では,画像合成,感情語解析,マルチモーダル推論,予測区間の構築といった様々な分野に適用することにより,複雑なデータ駆動タスクにおける不確実性定量化の進展におけるpaiの有効性を実証する。

This paper introduces a novel Perturbation-Assisted Inference (PAI) framework utilizing synthetic data generated by the Perturbation-Assisted Sample Synthesis (PASS) method. The framework focuses on uncertainty quantification in complex data scenarios, particularly involving unstructured data while utilizing deep learning models. On one hand, PASS employs a generative model to create synthetic data that closely mirrors raw data while preserving its rank properties through data perturbation, thereby enhancing data diversity and bolstering privacy. By incorporating knowledge transfer from large pre-trained generative models, PASS enhances estimation accuracy, yielding refined distributional estimates of various statistics via Monte Carlo experiments. On the other hand, PAI boasts its statistically guaranteed validity. In pivotal inference, it enables precise conclusions even without prior knowledge of the pivotal's distribution. In non-pivotal situations, we enhance the reliability of synthetic data generation by training it with an independent holdout sample. We demonstrate the effectiveness of PAI in advancing uncertainty quantification in complex, data-driven tasks by applying it to diverse areas such as image synthesis, sentiment word analysis, multimodal inference, and the construction of prediction intervals.
翻訳日:2024-02-15 19:59:01 公開日:2024-02-13
# 不均一探索空間上のベイズ最適化のための転送学習

Transfer Learning for Bayesian Optimization on Heterogeneous Search Spaces ( http://arxiv.org/abs/2309.16597v2 )

ライセンス: Link先を確認
Zhou Fan, Xinran Han, Zi Wang(参考訳) ベイズ最適化(英: Bayesian optimization, BO)は、一般的なブラックボックス関数最適化法であり、その関数のガウス過程(英語版) (GP) であるベイズモデルに基づいて逐次決定を行う。 モデルの品質を確保するため,「学習」機能に関する観察から学ぶことによって,GP事前設計を自動設計するトランスファーラーニング手法が開発された。 これらのトレーニング関数は通常、"テスト"関数と同じドメイン(最適化されるブラックボックス関数)を持つ必要がある。 本稿では、ドメイン固有のコンテキストから階層型GPの仕様へのニューラルネットマッピングを用いた、異種ドメインのモデル事前学習手法であるMPHDを紹介する。 MPHDはBOとシームレスに統合され、異種検索空間間で知識を伝達することができる。 理論および実験により、mphdの有効性と、ブラックボックス機能最適化課題における優れた性能を示す。

Bayesian optimization (BO) is a popular black-box function optimization method, which makes sequential decisions based on a Bayesian model, typically a Gaussian process (GP), of the function. To ensure the quality of the model, transfer learning approaches have been developed to automatically design GP priors by learning from observations on "training" functions. These training functions are typically required to have the same domain as the "test" function (black-box function to be optimized). In this paper, we introduce MPHD, a model pre-training method on heterogeneous domains, which uses a neural net mapping from domain-specific contexts to specifications of hierarchical GPs. MPHD can be seamlessly integrated with BO to transfer knowledge across heterogeneous search spaces. Our theoretical and empirical results demonstrate the validity of MPHD and its superior performance on challenging black-box function optimization tasks.
翻訳日:2024-02-15 19:49:53 公開日:2024-02-13
# 構成拡散モデルによるデータ保護の訓練

Training Data Protection with Compositional Diffusion Models ( http://arxiv.org/abs/2308.01937v3 )

ライセンス: Link先を確認
Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto(参考訳) 本研究では,異なるデータソース上で異なる拡散モデル(あるいはプロンプト)を訓練し,任意に合成する手法であるpartmentalized diffusion models (cdm)を提案する。 個々のモデルは、独立して、異なる時間に、異なる分布とドメインでトレーニングでき、後にすべてのデータでトレーニングされたパラゴンモデルに匹敵するパフォーマンスを達成するために構成することができる。 さらに、各モデルにはトレーニング中に公開したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。 特に、CDMは大規模拡散モデルに対する完全な選択的忘れと連続学習を可能にし、ユーザのアクセス権に基づいてカスタマイズされたモデルを提供する。 実証的には、クラス条件CDM(8-スプリット)の品質(FID)はモノリシックモデルの10%(きめ細かなビジョンデータセットでは)以内であり、(8倍)最大FID増加率1%のモノリシックモデルと比較してより高速に忘れることができる。 テキスト・画像生成に適用すると、CDMはMSCOCOで訓練されたモノリシックモデルよりも14.33%のアライメント(TIFA)を改善する。 CDMはまた、特定のサンプルを生成する際のデータのサブセット(属性)の重要性を判断し、記憶を減らすことができる。

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs enable perfect selective forgetting and continual learning for large-scale diffusion models, allow serving customized models based on the user's access rights. Empirically the quality (FID) of the class-conditional CDMs (8-splits) is within 10% (on fine-grained vision datasets) of a monolithic model (no splits), and allows (8x) faster forgetting compared monolithic model with a maximum FID increase of 1%. When applied to text-to-image generation, CDMs improve alignment (TIFA) by 14.33% over a monolithic model trained on MSCOCO. CDMs also allow determining the importance of a subset of the data (attribution) in generating particular samples, and reduce memorization.
翻訳日:2024-02-15 19:49:24 公開日:2024-02-13
# ソボレフ空間規則化プレ密度モデル

Sobolev Space Regularised Pre Density Models ( http://arxiv.org/abs/2307.13763v2 )

ライセンス: Link先を確認
Mark Kozdoba, Binyamin Perets, Shie Mannor(参考訳) 本研究では,密度のソボレフノルムの正則化に基づく非パラメトリック密度推定法を提案する。 この方法は統計的に一貫性があり、モデルの帰納バイアスを明確かつ解釈可能である。 関連するカーネルに対して閉解析形式は存在しないが、サンプリングを用いて近似できることを示す。 密度を決定するのに必要な最適化問題は非凸であり、標準勾配法はうまく機能しない。 しかし, 適切な初期化と自然勾配を用いることで, 良好な解が得られることを示す。 最後に, 本手法は, クロスバリデーションにlog-likelihoodを使用できないような事前密度(すなわち, 1 への統合)を提供するが, 代わりに Fisher の発散に基づくスコアマッチング手法を適用可能であることを示す。 提案手法は,近年のanomaly detection benchmark suite (adbench) を包括的に評価し,15以上のアルゴリズムの中で第2位であることを確認した。

We propose a new approach to non-parametric density estimation that is based on regularizing a Sobolev norm of the density. This method is statistically consistent, and makes the inductive bias of the model clear and interpretable. While there is no closed analytic form for the associated kernel, we show that one can approximate it using sampling. The optimization problem needed to determine the density is non-convex, and standard gradient methods do not perform well. However, we show that with an appropriate initialization and using natural gradients, one can obtain well performing solutions. Finally, while the approach provides pre-densities (i.e. not necessarily integrating to 1), which prevents the use of log-likelihood for cross validation, we show that one can instead adapt Fisher divergence based score matching methods for this task. We evaluate the resulting method on the comprehensive recent anomaly detection benchmark suite, ADBench, and find that it ranks second best, among more than 15 algorithms.
翻訳日:2024-02-15 19:46:30 公開日:2024-02-13
# 深部ヘテロケクタスティック回帰の病態の解明

Understanding Pathologies of Deep Heteroskedastic Regression ( http://arxiv.org/abs/2306.16717v2 )

ライセンス: Link先を確認
Eliot Wong-Toi, Alex Boyd, Vincent Fortuin, Stephan Mandt(参考訳) 過度にパラメータ化された回帰モデルは、過度に適合する傾向があることで悪名高い。 この問題は、各データポイントの平均ノイズと残留ノイズの両方を予測するヘテロスケダスティックモデルで悪化する。 極端に言えば、これらのモデルはすべてのトレーニングデータを完璧に適合させ、残音を完全に排除します。 中間地盤の欠如を観察し, モデル正規化強度に依存する相転移を示唆する。 経験的検証は、多くのモデルに平均と分散正規化を適合させることでこの予想を支持している。 遷移を説明するために, 統計的場理論に基づく理論的枠組みを開発し, 実験と定性的一致を与える。 その結果,2次元から1次元の探索へのハイパーパラメータチューニングを簡略化し,計算負担を大幅に軽減した。 UCIデータセットや大規模ClimSim気候データセットを含む多様なデータセットの実験では、さまざまなキャリブレーションタスクのパフォーマンスが大幅に向上した。

Deep, overparameterized regression models are notorious for their tendency to overfit. This problem is exacerbated in heteroskedastic models, which predict both mean and residual noise for each data point. At one extreme, these models fit all training data perfectly, eliminating residual noise entirely; at the other, they overfit the residual noise while predicting a constant, uninformative mean. We observe a lack of middle ground, suggesting a phase transition dependent on model regularization strength. Empirical verification supports this conjecture by fitting numerous models with varying mean and variance regularization. To explain the transition, we develop a theoretical framework based on a statistical field theory, yielding qualitative agreement with experiments. As a practical consequence, our analysis simplifies hyperparameter tuning from a two-dimensional to a one-dimensional search, substantially reducing the computational burden. Experiments on diverse datasets, including UCI datasets and the large-scale ClimSim climate dataset, demonstrate significantly improved performance in various calibration tasks.
翻訳日:2024-02-15 19:45:11 公開日:2024-02-13
# Twitter上でのChatGPTに対する大衆の態度: 感性、トピック、作業

Public Attitudes Toward ChatGPT on Twitter: Sentiments, Topics, and Occupations ( http://arxiv.org/abs/2306.12951v2 )

ライセンス: Link先を確認
Ratanond Koonchanok, Yanling Pan, Hyeju Jang(参考訳) ChatGPTは,成長速度の速いユーザベースを,大規模言語モデル(LLM)を使用したチャットボットとして新記録を樹立した。 様々な言語生成タスクで最先端の能力を示す一方で、社会的影響に関する大衆の関心も高まっている。 本稿では,2022年12月5日から2023年6月10日までのTwitterデータに対して,感情分析やトピックモデリングなどの自然言語処理技術を適用し,ChatGPTに対する公衆の態度を検討した。 私たちの感情分析の結果は、全体の感情は概ねポジティブに中立であり、ネガティブな感情は時間とともに減少していたことを示している。 私たちのトピックモデルによると、最も人気のあるトピックは教育、バー、検索エンジン、openai、マーケティング、サイバーセキュリティでしたが、ランキングは毎月異なります。 また、Twitter利用者の職業を分析し、アートやエンターテイメントの職種がChatGPTについてツイートする頻度が最も高いことを発見した。 さらに、人々は自分の職業に関連するトピックについてツイートする傾向があった。 例えば、サイバーセキュリティはコンピュータと数学に関連する職業において最も議論されているトピックであり、教育は学術や研究において最も議論されているトピックである。 全体として、我々の探索的研究は、ChatGPTの一般の認識に関する洞察を提供する。

ChatGPT sets a new record with the fastest-growing user base, as a chatbot powered by a large language model (LLM). While it demonstrates state-of-the-art capabilities in a variety of language-generation tasks, it also raises widespread public concerns regarding its societal impact. In this paper, we investigated public attitudes towards ChatGPT by applying natural language processing techniques such as sentiment analysis and topic modeling to Twitter data from December 5, 2022 to June 10, 2023. Our sentiment analysis result indicates that the overall sentiment was largely neutral to positive, and negative sentiments were decreasing over time. Our topic model reveals that the most popular topics discussed were Education, Bard, Search Engines, OpenAI, Marketing, and Cybersecurity, but the ranking varies by month. We also analyzed the occupations of Twitter users and found that those with occupations in arts and entertainment tweeted aboutChatGPT most frequently. Additionally, people tended to tweet about topics relevant to their occupation. For instance, Cybersecurity is the most discussed topic among those with occupations related to computer and math, and Education is the most discussed topic among those in academic and research. Overall, our exploratory study provides insights into the public perception of ChatGPT, which could be valuable to both the general public and developers of this technology.
翻訳日:2024-02-15 19:44:13 公開日:2024-02-13
# 画像分類のための複数の異なるブラックボックス説明

Multiple Different Black Box Explanations for Image Classifiers ( http://arxiv.org/abs/2309.14309v3 )

ライセンス: Link先を確認
Hana Chockler, David A. Kelly, Daniel Kroening(参考訳) 画像分類器の既存の説明ツールは通常、画像の分類に1つの説明しか与えない。 しかし、多くの画像では、人間と画像分類器の両方が複数の画像ラベルの説明を受け入れている。 したがって、説明の数だけを制限することは任意であり、分類器の振る舞いについての洞察を厳しく制限する。 本稿では,与えられた画像に対するブラックボックス画像分類器の出力に関する複数の説明を計算するためのアルゴリズムとツールであるMultiReXについて述べる。 本アルゴリズムは因果理論に基づく原理的アプローチを用いる。 本研究では,その理論上の複雑さを分析し,imagenet-miniベンチマークによる画像の96%についてマルチレックスによる複数の説明が得られたことを実験的に示す。

Existing explanation tools for image classifiers usually give only a single explanation for an image's classification. For many images, however, both humans and image classifiers accept more than one explanation for the image label. Thus, restricting the number of explanations to just one is arbitrary and severely limits the insight into the behavior of the classifier. In this paper, we describe an algorithm and a tool, MultiReX, for computing multiple explanations of the output of a black-box image classifier for a given image. Our algorithm uses a principled approach based on causal theory. We analyse its theoretical complexity and provide experimental results showing that MultiReX finds multiple explanations on 96% of the images in the ImageNet-mini benchmark, whereas previous work finds multiple explanations only on 11%.
翻訳日:2024-02-15 19:34:17 公開日:2024-02-13
# 超微細分光と高速全光学的任意の状態初期化とダイヤモンド中の10レベル${}^{73}$Ge空孔核スピンquditの読み出し

Hyperfine spectroscopy and fast, all-optical arbitrary state initialization and readout of a single, ten-level ${}^{73}$Ge vacancy nuclear spin qudit in diamond ( http://arxiv.org/abs/2309.04126v2 )

ライセンス: Link先を確認
C. Adambukulam, B. C. Johnson, A. Morello and A. Laucht(参考訳) 色中心に結合された高スピン核は、スピン光子界面において長寿命のメモリクイトとして機能する。 ダイヤモンド中のゲルマニウム空隙(gev)は、スペクトル特性が優れており、i=9/2$$${}^{73}$ge核の10次元ヒルベルト空間へのアクセスを提供するため、近年注目を集めている。 ここでは、${}^{73}$gev超微細構造を観察し、核スピンの読み出しを行い、${}^{73}$geスピンを$\mu$sの時間スケールで任意の固有状態へ光学的に初期化し、最大$\sim 84\%$とする。 その結果、{}^{73}$gev は高効率スピン光子界面および基礎量子物理学およびメトロロジーのための光学的に対応可能な高スピン量子プラットフォームとして確立された。

A high-spin nucleus coupled to a color center can act as a long-lived memory qudit in a spin-photon interface. The germanium vacancy (GeV) in diamond has attracted recent attention due to its excellent spectral properties and provides access to the ten-dimensional Hilbert space of the $I=9/2$ ${}^{73}$Ge nucleus. Here, we observe the ${}^{73}$GeV hyperfine structure, perform nuclear spin readout, and optically initialize the ${}^{73}$Ge spin into any eigenstate on a $\mu$s timescale and with a fidelity of up to $\sim 84\%$. Our results establish the ${}^{73}$GeV as an optically addressable high-spin quantum platform for a high-efficiency spin-photon interface as well as for foundational quantum physics and metrology.
翻訳日:2024-02-15 19:33:28 公開日:2024-02-13
# ニュアンスパラメータの存在下でのベイズ能動的学習

Bayesian Active Learning in the Presence of Nuisance Parameters ( http://arxiv.org/abs/2310.14968v2 )

ライセンス: Link先を確認
Sabina J. Sloman, Ayush Bharti, Julien Martinelli, and Samuel Kaski(参考訳) 科学的推論,最適化,伝達学習などの多くの設定において,学習者は目標パラメータの推定として扱われる,データ生成プロセス全体を特徴付けるという本質的な関心を持たない,明確に定義された目的を持っている。 通常、学習者はさらに不確実性または変数の源(ニュアサンスパラメータ)と競合する必要がある。 ベイズ的アクティブラーニング(Bayesian active learning, 逐次的最適実験設計)は、ニュアンスパラメータの存在に容易に適応でき、そのような問題に対する自然なアクティブラーニングフレームワークである。 しかしながら、ニュアサンスパラメータの導入は、ターゲットパラメータのベイズ学習者の推定バイアス(負の干渉と呼ばれる現象)につながる可能性がある。 我々は、負の干渉の脅威と、ベイズアクティブ学習者のタスクの性質を根本的に変える方法について特徴づける。 負の干渉の程度は極端に大きいことを示し、ニュアンスパラメータの正確な推定がそれを減らすために重要であることを示す。 ベイズ活発な学習者はジレンマに直面しており、ターゲットの推定に有限の取得予算を費やすか、あるいはニュアンスパラメータを追求するかである。 本研究では,ベイズ転校学習を特別な場合とし,学習環境間の負転校現象について考察した。

In many settings, such as scientific inference, optimization, and transfer learning, the learner has a well-defined objective, which can be treated as estimation of a target parameter, and no intrinsic interest in characterizing the entire data-generating process. Usually, the learner must also contend with additional sources of uncertainty or variables -- with nuisance parameters. Bayesian active learning, or sequential optimal experimental design, can straightforwardly accommodate the presence of nuisance parameters, and so is a natural active learning framework for such problems. However, the introduction of nuisance parameters can lead to bias in the Bayesian learner's estimate of the target parameters, a phenomenon we refer to as negative interference. We characterize the threat of negative interference and how it fundamentally changes the nature of the Bayesian active learner's task. We show that the extent of negative interference can be extremely large, and that accurate estimation of the nuisance parameters is critical to reducing it. The Bayesian active learner is confronted with a dilemma: whether to spend a finite acquisition budget in pursuit of estimation of the target or of the nuisance parameters. Our setting encompasses Bayesian transfer learning as a special case, and our results shed light on the phenomenon of negative transfer between learning environments.
翻訳日:2024-02-15 19:21:47 公開日:2024-02-13
# オープンセット多変量時系列異常検出

Open-Set Multivariate Time-Series Anomaly Detection ( http://arxiv.org/abs/2310.12294v2 )

ライセンス: Link先を確認
Thomas Lai, Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 近年,時系列異常検出法(TSAD)が多数出現している。 既存の手法の多くは教師なしであり、通常のトレーニングサンプルのみを前提としているが、トレーニングフェーズにラベル付き異常サンプルを組み込むことで優れた性能を示す方法はほとんどない。 しかしながら、特定の異常型は、教師なし手法が通常のデータと区別することが本質的に困難であるが、教師付き手法は訓練中に存在するものと類似した異常の検出に制約される。 本稿では,限られた種類の異常から少数のラベル付けされた異常を学習段階に表示し,テスト段階における異常と異常の両方を検出することを目的とした,オープンセットTSAD問題に対する新しいアプローチを提案する試みである。 提案手法は,MOSAD (Multivarate Open-Set timeseries Anomaly Detection) と呼ばれる,有意な時系列特徴を抽出する特徴エクストラクタ (Feature Extractor) と,可視・可視の両方の異常クラスを捕捉する生成型,偏差型,コントラスト型の両方からなるマルチヘッドネットワーク (Multiple-head) と,異常検出のための3つの頭部の洞察を利用した異常検出モジュールからなる。 3つの実世界のデータセットに関する広範囲な実験は、様々な実験環境で既存の方法を超えることを一貫して示しており、tsadフィールドにおける新しい最先端のパフォーマンスを確立している。

Numerous methods for time series anomaly detection (TSAD) methods have emerged in recent years. Most existing methods are unsupervised and assume the availability of normal training samples only, while few supervised methods have shown superior performance by incorporating labeled anomalous samples in the training phase. However, certain anomaly types are inherently challenging for unsupervised methods to differentiate from normal data, while supervised methods are constrained to detecting anomalies resembling those present during training, failing to generalize to unseen anomaly classes. This paper is the first attempt in providing a novel approach for the open-set TSAD problem, in which a small number of labeled anomalies from a limited class of anomalies are visible in the training phase, with the objective of detecting both seen and unseen anomaly classes in the test phase. The proposed method, called Multivariate Open-Set timeseries Anomaly Detection (MOSAD) consists of three primary modules: a Feature Extractor to extract meaningful time-series features; a Multi-head Network consisting of Generative-, Deviation-, and Contrastive heads for capturing both seen and unseen anomaly classes; and an Anomaly Scoring module leveraging the insights of the three heads to detect anomalies. Extensive experiments on three real-world datasets consistently show that our approach surpasses existing methods under various experimental settings, thus establishing a new state-of-the-art performance in the TSAD field.
翻訳日:2024-02-15 19:20:59 公開日:2024-02-13
# 計算効率の向上とAI能力の拡散

Increased Compute Efficiency and the Diffusion of AI Capabilities ( http://arxiv.org/abs/2311.15377v2 )

ライセンス: Link先を確認
Konstantin Pilz, Lennart Heim, Nicholas Brown(参考訳) 高度なaiモデルのトレーニングには、計算リソースや計算に多大な投資が必要です。 しかし、ハードウェア革新が計算コストを削減し、アルゴリズムの進歩によってその使用がより効率的になるため、AIモデルを所定のパフォーマンスにトレーニングするコストは、時間の経過とともに低下します。 我々は、アクセス効果が与えられたパフォーマンスに訓練できるアクターの数を増加させる一方で、パフォーマンス効果がアクタごとに利用できるパフォーマンスを同時に増加させることを見出した。 これにより、大きな計算投資家が新しい機能を開拓し、能力が分散してもパフォーマンス上の優位性を維持することが可能になる。 大規模な計算投資家は、まず新しい機能を開発する傾向があるため、AIモデルに関する情報を共有し、新たなリスクについて評価し、より一般的には、開発とリリースの決定に責任を負うことが特に重要です。 さらに、計算効率が向上するにつれて、政府は、有害なAIモデルに対する防衛を開発することや、特に危険な能力の拡散に積極的に介入することによって、危険なAI能力が広く利用できる世界に備える必要がある。

Training advanced AI models requires large investments in computational resources, or compute. Yet, as hardware innovation reduces the price of compute and algorithmic advances make its use more efficient, the cost of training an AI model to a given performance falls over time - a concept we describe as increasing compute efficiency. We find that while an access effect increases the number of actors who can train models to a given performance over time, a performance effect simultaneously increases the performance available to each actor. This potentially enables large compute investors to pioneer new capabilities, maintaining a performance advantage even as capabilities diffuse. Since large compute investors tend to develop new capabilities first, it will be particularly important that they share information about their AI models, evaluate them for emerging risks, and, more generally, make responsible development and release decisions. Further, as compute efficiency increases, governments will need to prepare for a world where dangerous AI capabilities are widely available - for instance, by developing defenses against harmful AI models or by actively intervening in the diffusion of particularly dangerous capabilities.
翻訳日:2024-02-15 19:09:03 公開日:2024-02-13
# 遅延クラスによる離散的非パラメトリック因果発見

Discrete Nonparametric Causal Discovery Under Latent Class Confounding ( http://arxiv.org/abs/2311.07454v2 )

ライセンス: Link先を確認
Bijan Mazaheri, Spencer Gordon, Yuval Rabani, Leonard Schulman(参考訳) 有向非巡回グラフはシステムの因果構造をモデル化するために用いられる。 ``causal discovery''はこの構造をデータから学ぶ問題を記述する。 データが複数のソース(人口や環境)からの集約である場合、グローバル結合は多くの因果発見アルゴリズムを駆動する条件付き独立性があいまいになる。 この設定は、ミックスモデルまたは潜在クラスと呼ばれることもある。 因果発見のための現代的な手法は、特定のケースで観察されていない共起を回避できるが、グローバルな共起者に対処する唯一の方法はパラメトリックな仮定である。 離散分布には不向きであり、離散変数と非パラメトリック変数に注目して、有界な潜在クラスの下で因果発見を識別できることを実証する。 この問題の実現性は、グローバルな共同設立者の基数、観察された変数の基数、因果構造の疎性の間のトレードオフによって管理される。

Directed acyclic graphs are used to model the causal structure of a system. ``Causal discovery'' describes the problem of learning this structure from data. When data is an aggregate from multiple sources (populations or environments), global confounding obscures conditional independence properties that drive many causal discovery algorithms. This setting is sometimes known as a mixture model or a latent class. While some modern methods for causal discovery are able to work around unobserved confounding in specific cases, the only known ways to deal with a global confounder involve parametric assumptions. that are unsuitable for discrete distributions.Focusing on discrete and non-parametric observed variables, we demonstrate that causal discovery can still be identifiable under bounded latent classes. The feasibility of this problem is governed by a trade-off between the cardinality of the global confounder, the cardinalities of the observed variables, and the sparsity of the causal structure.
翻訳日:2024-02-15 19:08:25 公開日:2024-02-13
# In-context Vectors:潜時空間ステアリングによる文脈学習の効率化と制御性

In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering ( http://arxiv.org/abs/2311.06668v3 )

ライセンス: Link先を確認
Sheng Liu, Haotian Ye, Lei Xing, James Zou(参考訳) 大規模言語モデル(LLM)は、実例に基づく新しいタスクに適応する、創発的なコンテキスト内学習能力を示す。 しかし、コンテキスト内学習は多くの設定において限定的な効果を示しており、定量的に制御することは困難であり、コンテキストウィンドウスペースを取る。 これらの制限を克服するために,文脈内学習を文脈内ベクトル(icv)として再キャストする手法を提案する。 ICVの使用には2つのステップがある。 まず、実演例のフォワードパスを使用して、LCMの潜伏埋め込みからコンテキスト内ベクトルを生成する。 このベクトルは、意図したタスクに関する重要な情報をキャプチャする。 新しいクエリでは、プロンプトにデモを追加する代わりに、ICVを使ってLCMの潜伏状態を変更する。 icvアプローチにはいくつかの利点があります 1) LLM は,より効果的に実演例に従うことができる。 2)ICVの大きさを調整することで制御が容易である。 3) インコンテキストのデモを取り除き,プロンプトの長さを短縮する。 4) ICVは微調整よりも計算効率が高い。 安全,スタイル転送,ロールプレイング,フォーマッティングなど多種多様なタスクに対して,標準のコンテキスト内学習や微調整よりも優れた性能を実現することを実証した。 さらに,対応するISV上の単純ベクトル演算により,LLMに異なる命令を同時に追従するように柔軟に教えることができることを示す。

Large language models (LLMs) demonstrate emergent in-context learning capabilities, where they adapt to new tasks based on example demonstrations. However, in-context learning has seen limited effectiveness in many settings, is difficult to quantitatively control and takes up context window space. To overcome these limitations, we propose an alternative approach that recasts in-context learning as in-context vectors (ICV). Using ICV has two steps. We first use a forward pass on demonstration examples to create the in-context vector from the latent embedding of the LLM. This vector captures essential information about the intended task. On a new query, instead of adding demonstrations to the prompt, we shift the latent states of the LLM using the ICV. The ICV approach has several benefits: 1) it enables the LLM to more effectively follow the demonstration examples; 2) it's easy to control by adjusting the magnitude of the ICV; 3) it reduces the length of the prompt by removing the in-context demonstrations; 4) ICV is computationally much more efficient than fine-tuning. We demonstrate that ICV achieves better performance compared to standard in-context learning and fine-tuning on diverse tasks including safety, style transfer, role-playing and formatting. Moreover, we show that we can flexibly teach LLM to simultaneously follow different types of instructions by simple vector arithmetics on the corresponding ICVs.
翻訳日:2024-02-15 19:08:08 公開日:2024-02-13
# インセンティブアウェア合成制御:インセンティブ探索による正確な偽物推定

Incentive-Aware Synthetic Control: Accurate Counterfactual Estimation via Incentivized Exploration ( http://arxiv.org/abs/2312.16307v2 )

ライセンス: Link先を確認
Daniel Ngo, Keegan Harris, Anish Agarwal, Vasilis Syrgkanis, Zhiwei Steven Wu(参考訳) パネルデータ設定における治療効果を推定するための標準的手法である合成制御法(scms)の設定について検討する。 我々は、頻繁に見過ごされるが、"オーバーラップ"というSCMのユビキタスな仮定に光を当てた: 処理されたユニットは、制御下にあるユニットのある種の組み合わせ(典型的には凸または線形結合)として記述できる。 ユニットが自身の介入を選択し、異なる介入を好むユニット間に十分な大きな不均一性があれば、重複は保たないことを示す。 我々は、通常考慮しない介入を行うために異なる好みのユニットにインセンティブを与えるフレームワークを提案することでこの問題に対処する。 具体的には、情報設計とオンライン学習からツールを活用することで、インセンティブに適合した介入勧告をユニットに提供することにより、パネルデータ設定における探索を動機付けるSCMを提案する。 この推定器は,事前重複仮定を必要とせずに,有効な反事実推定を行う。 そこでは、制御だけでなく、すべての介入の下で対実的な結果を生み出すことを目標としています。 最後に、与えられたパネルデータセットに対してユニットオーバーラップが成立するかどうかを決定するための2つの仮説テストを提供する。

We consider the setting of synthetic control methods (SCMs), a canonical approach used to estimate the treatment effect on the treated in a panel data setting. We shed light on a frequently overlooked but ubiquitous assumption made in SCMs of "overlap": a treated unit can be written as some combination -- typically, convex or linear combination -- of the units that remain under control. We show that if units select their own interventions, and there is sufficiently large heterogeneity between units that prefer different interventions, overlap will not hold. We address this issue by proposing a framework which incentivizes units with different preferences to take interventions they would not normally consider. Specifically, leveraging tools from information design and online learning, we propose a SCM that incentivizes exploration in panel data settings by providing incentive-compatible intervention recommendations to units. We establish this estimator obtains valid counterfactual estimates without the need for an a priori overlap assumption. We extend our results to the setting of synthetic interventions, where the goal is to produce counterfactual outcomes under all interventions, not just control. Finally, we provide two hypothesis tests for determining whether unit overlap holds for a given panel dataset.
翻訳日:2024-02-15 18:59:33 公開日:2024-02-13
# 量子ドットアレイにおけるホールフライング量子ビット

Hole Flying Qubits in Quantum Dot Arrays ( http://arxiv.org/abs/2312.04631v2 )

ライセンス: Link先を確認
D. Fern\'andez-Fern\'andez, Yue Ban, Gloria Platero(参考訳) 量子情報転送は、あらゆる潜在的プラットフォームとアーキテクチャにおけるスケーラブルな量子コンピューティングの基盤である。 ホールスピン量子ビットは、固有のスピン軌道相互作用(SOI)により、量子ゲートの実装に基本となる高速量子演算を約束する。 しかし、量子転送プロトコルにおけるSOIの影響は未解決のままである。 本稿では,穴スピン状態の長距離移動や,半導体量子ドットアレイ内の絡み合ったペアの量子分布など,断熱プロトコルへのショートカットを用いてホールフライング量子ビットを調べる。 電場操作によってsoiの動的制御が可能となり、転送中に量子ゲートが同時に実装できるようになり、量子アルゴリズムを著しく高速化できる可能性が示された。 転送と平行に量子ゲートを実行する能力を利用することで、スピン状態に焦点を合わせ保存するために動的デカップリング方式を用いて、転送忠実度を高める。

Quantum information transfer is fundamental for scalable quantum computing in any potential platform and architecture. Hole spin qubits, owing to their intrinsic spin-orbit interaction (SOI), promise fast quantum operations which are fundamental for the implementation of quantum gates. Yet, the influence of SOI in quantum transfer protocols remains an open question. Here, we investigate hole flying qubits using shortcuts to adiabaticity protocols, i.e., the long-range transfer of hole spin states and the quantum distribution of entangled pairs in semiconductor quantum dot arrays. We demonstrate that electric field manipulation allows dynamical control of the SOI, enabling simultaneously the implementation of quantum gates during the transfer, with the potential to significantly accelerate quantum algorithms. By harnessing the ability to perform quantum gates in parallel with the transfer, we employ dynamical decoupling schemes to focus and preserve the spin state, leading to higher transfer fidelity.
翻訳日:2024-02-15 18:54:43 公開日:2024-02-13
# 脳領域の高次関係の学習

Learning High-Order Relationships of Brain Regions ( http://arxiv.org/abs/2312.02203v2 )

ライセンス: Link先を確認
Weikang Qiu, Huangrui Chu, Selena Wang, Haolan Zuo, Xiaoxiao Li, Yize Zhao, Rex Ying(参考訳) 機能的磁気共鳴画像(fmri)信号からの脳領域間の信頼性と情報的関係の発見は表現型予測に不可欠である。 現在の手法のほとんどは、ペア接続のみに焦点を当て、脳領域の高次関係を見落としているため、これらの相互作用を正確に特徴づけることができない。 これらの高次関係は、最大情報的かつ最小冗長(MIMR)であるべきである。 しかし,指数探索空間と難解な目的の欠如により,このような高次関係の同定は困難であり,未探索である。 このギャップに対応するために、fMRIデータからMIMR高次関係を抽出することを目的としたHYBRIDという新しい手法を提案する。 HYBRIDは、ハイパーエッジ構造を特定するためのコンストラクタと、指数空間での探索を避けるために各ハイパーエッジの重量を計算するWEIGHTERを使用している。 HYBRIDは、理論的保証付きマルチヘッドドロップブートネックという革新的な情報ボトルネックフレームワークを通じて、MIMR目標を達成する。 我々のモデルの有効性を総合的な実験で実証した。 我々のモデルは、脳の接続を研究するための標準プロトコルであるCPMによって測定されるハイパーエッジの品質に関して、平均11.2%の最先端予測モデルよりも優れています。

Discovering reliable and informative relationships among brain regions from functional magnetic resonance imaging (fMRI) signals is essential in phenotypic predictions. Most of the current methods fail to accurately characterize those interactions because they only focus on pairwise connections and overlook the high-order relationships of brain regions. We propose that these high-order relationships should be maximally informative and minimally redundant (MIMR). However, identifying such high-order relationships is challenging and under-explored due to the exponential search space and the absence of a tractable objective. In response to this gap, we propose a novel method named HYBRID which aims to extract MIMR high-order relationships from fMRI data. HYBRID employs a CONSTRUCTOR to identify hyperedge structures, and a WEIGHTER to compute a weight for each hyperedge, which avoids searching in exponential space. HYBRID achieves the MIMR objective through an innovative information bottleneck framework named multi-head drop-bottleneck with theoretical guarantees. Our comprehensive experiments demonstrate the effectiveness of our model. Our model outperforms the state-of-the-art predictive model by an average of 11.2%, regarding the quality of hyperedges measured by CPM, a standard protocol for studying brain connections.
翻訳日:2024-02-15 18:54:13 公開日:2024-02-13
# シミュレーションによるアルゴリズムによる説得

Algorithmic Persuasion Through Simulation ( http://arxiv.org/abs/2311.18138v2 )

ライセンス: Link先を確認
Keegan Harris, Nicole Immorlica, Brendan Lucier, Aleksandrs Slivkins(参考訳) 我々は,送信者が商品購入などのバイナリアクションを取るよう受信者に説得しようとするベイズ説得問題について検討する。 送信者は、製品の品質が高いか低いかなど、世界の(バイナリな)状態について通知されるが、受信者の信念やユーティリティに関する情報は限られている。 顧客調査やユーザスタディ、最近のジェネレーティブAIの進歩に動機付けられ、受信者の振る舞いをシミュレートする託宣をクエリすることで、送信側が受信者についてより深く学ぶことができる。 一定の数のクエリの後、送信側はメッセージポリシーにコミットし、受信側は受信したメッセージに対して期待するユーティリティを最大化するアクションを取る。 受信者タイプ上の配信が与えられた場合、送信者の最適なメッセージポリシーを特徴付ける。 次に,このベイズ型説得ゲームにおいて,送信者の期待効用を最適化する多項式時間問合せアルゴリズムを設計する。 また、近似オラクル、より一般的なクエリ構造、そしてコストのかかるクエリについても検討しています。

We study a Bayesian persuasion problem where a sender wants to persuade a receiver to take a binary action, such as purchasing a product. The sender is informed about the (binary) state of the world, such as whether the quality of the product is high or low, but only has limited information about the receiver's beliefs and utilities. Motivated by customer surveys, user studies, and recent advances in generative AI, we allow the sender to learn more about the receiver by querying an oracle that simulates the receiver's behavior. After a fixed number of queries, the sender commits to a messaging policy and the receiver takes the action that maximizes her expected utility given the message she receives. We characterize the sender's optimal messaging policy given any distribution over receiver types. We then design a polynomial-time querying algorithm that optimizes the sender's expected utility in this Bayesian persuasion game. We also consider approximate oracles, more general query structures, and costly queries.
翻訳日:2024-02-15 18:53:53 公開日:2024-02-13
# 小規模音声分類への大規模自己スーパービジョンの転送性について

On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio Classification ( http://arxiv.org/abs/2402.01274v3 )

ライセンス: Link先を確認
Calum Heggan, Sam Budgett, Timothy Hospedales, Mehrdad Yaghoobi(参考訳) 近年,自己教師型学習は,非競合データから頑健な特徴表現を学習する能力に優れてきた。 自己監督を通じて事前訓練されたネットワークは、Few-Shot Learningを含む下流タスクのための効果的な特徴抽出器として機能する。 数ショット学習のための教師なしアプローチの評価は画像上では十分に確立されているが、音響学では特に欠落している。 本研究は,小規模音声分類における大規模自己教師付きモデルの性能を評価することで,このギャップを解消する。 さらに,モデルのマイナショット学習能力と他のダウンストリームタスクベンチマークとの関係について検討する。 以上の結果から, speechcommandsv2 などの数少ない問題や, 音声ベースの少数ショット問題と下流の様々な音声タスクとの強い相関性が明らかになった。

In recent years, self-supervised learning has excelled for its capacity to learn robust feature representations from unlabelled data. Networks pretrained through self-supervision serve as effective feature extractors for downstream tasks, including Few-Shot Learning. While the evaluation of unsupervised approaches for few-shot learning is well-established in imagery, it is notably absent in acoustics. This study addresses this gap by assessing large-scale self-supervised models' performance in few-shot audio classification. Additionally, we explore the relationship between a model's few-shot learning capability and other downstream task benchmarks. Our findings reveal state-of-the-art performance in some few-shot problems such as SpeechCommandsv2, as well as strong correlations between speech-based few-shot problems and various downstream audio tasks.
翻訳日:2024-02-15 18:46:46 公開日:2024-02-13
# 大規模言語モデルを用いた効率的な因果グラフ発見

Efficient Causal Graph Discovery Using Large Language Models ( http://arxiv.org/abs/2402.01207v3 )

ライセンス: Link先を確認
Thomas Jiralerspong, Xiaoyin Chen, Yash More, Vedant Shah, Yoshua Bengio(参考訳) 完全な因果グラフ発見にLLMを利用する新しいフレームワークを提案する。 従来のLCMベースの手法ではペアワイズクエリ方式が用いられてきたが、より大規模な因果グラフではすぐに非現実的になるようなクエリの二次的な数を必要とする。 対照的に、提案フレームワークは、線形数のクエリしか使用できないような、幅優先探索(BFS)アプローチを採用している。 また,提案手法は観測データを容易に組み込むことができ,性能を向上できることを示す。 提案フレームワークは,時間とデータ効率の向上に加えて,様々なサイズの実世界の因果グラフに対して,最先端の結果が得られる。 その結果,提案手法の因果関係の発見における有効性と有効性を示し,各領域にまたがる因果グラフ発見タスクに適用可能性を示した。

We propose a novel framework that leverages LLMs for full causal graph discovery. While previous LLM-based methods have used a pairwise query approach, this requires a quadratic number of queries which quickly becomes impractical for larger causal graphs. In contrast, the proposed framework uses a breadth-first search (BFS) approach which allows it to use only a linear number of queries. We also show that the proposed method can easily incorporate observational data when available, to improve performance. In addition to being more time and data-efficient, the proposed framework achieves state-of-the-art results on real-world causal graphs of varying sizes. The results demonstrate the effectiveness and efficiency of the proposed method in discovering causal relationships, showcasing its potential for broad applicability in causal graph discovery tasks across different domains.
翻訳日:2024-02-15 18:46:30 公開日:2024-02-13
# アンサンブル学習と正規化ファインチューニングによるバイアス対応

Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning ( http://arxiv.org/abs/2402.00910v2 )

ライセンス: Link先を確認
Ahmed Radwan, Layan Zaafarani, Jetana Abudawood, Faisal AlZahrani, Fares Fourati(参考訳) AIモデルのバイアスに対処することは、公正で正確な予測を保証するために不可欠である。 しかし、トレーニングのために大きな偏りのないデータセットを得ることは困難である。 本稿では,AIモデルのバイアスを除去するための複数の手法を用いた包括的アプローチを提案する。 我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。 そして、すべてのモデルにアンサンブル学習を用い、バイアスのない予測に達する。 我々は,アンサンブルモデルの推論時間をさらに加速するために,単一の偏りのないニューラルネットワークを生じさせる知識蒸留法を用いて解を結論づける。 CIFAR10とHAM10000データセットの実験を通じて,提案手法の有効性を実証し,有望な結果を示す。 この作業は、データ可用性が制限された場合でも、より曖昧で信頼性の高いAIモデルを作成するための継続的な努力に寄与する。

Addressing biases in AI models is crucial for ensuring fair and accurate predictions. However, obtaining large, unbiased datasets for training can be challenging. This paper proposes a comprehensive approach using multiple methods to remove bias in AI models, with only a small dataset and a potentially biased pretrained model. We train multiple models with the counter-bias of the pre-trained model through data splitting, local training, and regularized fine-tuning, gaining potentially counter-biased models. Then, we employ ensemble learning for all models to reach unbiased predictions. To further accelerate the inference time of our ensemble model, we conclude our solution with knowledge distillation that results in a single unbiased neural network. We demonstrate the effectiveness of our approach through experiments on the CIFAR10 and HAM10000 datasets, showcasing promising results. This work contributes to the ongoing effort to create more unbiased and reliable AI models, even with limited data availability.
翻訳日:2024-02-15 18:46:16 公開日:2024-02-13
# 言語モデルを用いたインコンテクスト学習 : 調査

In-context Learning with Retrieved Demonstrations for Language Models: A Survey ( http://arxiv.org/abs/2401.11624v3 )

ライセンス: Link先を確認
Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi(参考訳) 言語モデル、特に訓練済みの大規模言語モデルでは、入力コンテキストでいくつかのデモを行うだけで、新しいタスクに適応できる少数のインコンテキスト学習者(ICL)として顕著な能力を示した。 しかし、モデルがiclを実行する能力は、少数のデモの選択に敏感である。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 実演検索の実装は比較的簡単で,既存のデータベースや検索システムを活用している。 これは学習プロセスの効率性とスケーラビリティを向上するだけでなく、手作業によるサンプル選択に固有のバイアスを低減することも示されている。 iclにおける研究成果の奨励と研究の進展を踏まえ,本研究の広範なレビューを行った。 本研究では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について検討し,比較する。

Language models, especially pre-trained large language models, have showcased remarkable abilities as few-shot in-context learners (ICL), adept at adapting to new tasks with just a few demonstrations in the input context. However, the model's ability to perform ICL is sensitive to the choice of the few-shot demonstrations. Instead of using a fixed set of demonstrations, one recent development is to retrieve demonstrations tailored to each input query. The implementation of demonstration retrieval is relatively straightforward, leveraging existing databases and retrieval systems. This not only improves the efficiency and scalability of the learning process but also has been shown to reduce biases inherent in manual example selection. In light of the encouraging results and growing research in ICL with retrieved demonstrations, we conduct an extensive review of studies in this area. In this survey, we discuss and compare different design choices for retrieval models, retrieval training procedures, and inference algorithms.
翻訳日:2024-02-15 18:44:34 公開日:2024-02-13
# マルコフ雑音を伴う2時間スケール確率近似の中央極限定理:理論と応用

Central Limit Theorem for Two-Timescale Stochastic Approximation with Markovian Noise: Theory and Applications ( http://arxiv.org/abs/2401.09339v2 )

ライセンス: Link先を確認
Jie Hu, Vishwaraj Doshi, Do Young Eun(参考訳) 2時間確率近似(TTSA)は反復確率アルゴリズムの最も一般的なフレームワークの一つである。 これには、SGD変種やバイレベルやミニマックス問題用に設計されたような確率的最適化手法や、勾配に基づく時間差分法(GTD)アルゴリズムのような強化学習が含まれる。 本稿では,中心極限定理 (CLT) により制御されたマルコフ雑音下でのTTSAの深部漸近解析を行い,その基礎となるマルコフ連鎖の影響を受けやすいTTSAの結合力学を明らかにする。 当社のcltを基盤として,分散学習における効率的なサンプリング戦略の応用範囲を,バニラsgdからより広いttsaコンテキストへと拡大し,huなど(2022年)の範囲を拡大した。 さらに,我々のCLT結果を利用して,マルコフサンプルを用いた非線形関数近似によるGTDアルゴリズムの統計的特性を推定し,その同種の漸近的性能,すなわち現在の有限時間境界から明らかでない視点を示す。

Two-timescale stochastic approximation (TTSA) is among the most general frameworks for iterative stochastic algorithms. This includes well-known stochastic optimization methods such as SGD variants and those designed for bilevel or minimax problems, as well as reinforcement learning like the family of gradient-based temporal difference (GTD) algorithms. In this paper, we conduct an in-depth asymptotic analysis of TTSA under controlled Markovian noise via central limit theorem (CLT), uncovering the coupled dynamics of TTSA influenced by the underlying Markov chain, which has not been addressed by previous CLT results of TTSA only with Martingale difference noise. Building upon our CLT, we expand its application horizon of efficient sampling strategies from vanilla SGD to a wider TTSA context in distributed learning, thus broadening the scope of Hu et al. (2022). In addition, we leverage our CLT result to deduce the statistical properties of GTD algorithms with nonlinear function approximation using Markovian samples and show their identical asymptotic performance, a perspective not evident from current finite-time bounds.
翻訳日:2024-02-15 18:44:19 公開日:2024-02-13
# ニューラルネットワークは複雑さの増加統計を学習する

Neural Networks Learn Statistics of Increasing Complexity ( http://arxiv.org/abs/2402.04362v2 )

ライセンス: Link先を確認
Nora Belrose, Quintin Pope, Lucia Quirke, Alex Mallen, Xiaoli Fern(参考訳) 分布の単純さバイアス(DSB)は、ニューラルネットワークがまずデータ分散の低次モーメントを学習し、次に高次相関に移行することを仮定する。 本研究は,低次統計値がトレーニング開始直後のトレーニングセットと一致した最大エントロピー分布において,ネットワークが自動的に良好に学習し,その後にその能力を失うことを示すことによって,DSBに対する説得力のある新たな証拠を示す。 また、トークン$n$-gramの周波数と埋め込みベクトルのモーメントの等価性を証明し、LLMのバイアスに関する経験的証拠を見つけることによって、DSBを離散領域に拡張する。 最後に, 最適な移動手段を用いて, あるクラスの低次統計を手術的に編集し, 初期学習ネットワークが, 対象クラスから抽出されたかのように, 編集されたサンプルを処理していることを示す。 コードはhttps://github.com/EleutherAI/features-across-timeで入手できる。

The distributional simplicity bias (DSB) posits that neural networks learn low-order moments of the data distribution first, before moving on to higher-order correlations. In this work, we present compelling new evidence for the DSB by showing that networks automatically learn to perform well on maximum-entropy distributions whose low-order statistics match those of the training set early in training, then lose this ability later. We also extend the DSB to discrete domains by proving an equivalence between token $n$-gram frequencies and the moments of embedding vectors, and by finding empirical evidence for the bias in LLMs. Finally we use optimal transport methods to surgically edit the low-order statistics of one class to match those of another, and show that early-training networks treat the edited samples as if they were drawn from the target class. Code is available at https://github.com/EleutherAI/features-across-time.
翻訳日:2024-02-15 18:35:24 公開日:2024-02-13
# エンド・ツー・エンド深層学習モデルによる効率的な数値波動伝播

Efficient Numerical Wave Propagation Enhanced By An End-to-End Deep Learning Model ( http://arxiv.org/abs/2402.02304v4 )

ライセンス: Link先を確認
Luis Kaiser, Richard Tsai, Christian Klingenberg(参考訳) 波動モデリングの最近の進歩は、高速だが不正確な粗解器の精度を高めるニューラルネットワークを訓練するために十分な精度の微細解器出力を使用する。 本稿では,Nguyen と Tsai (2023) の業績に基づいて,数値解法と深層学習成分をエンドツーエンドフレームワークに統合する統一システムを提案する。 提案手法では,ネットワークアーキテクチャとデータ生成アルゴリズムの改良について検討する。 安定かつ高速な解法により、高周波波成分を補正する並列時間アルゴリズムであるPararealが利用可能となる。 その結果, 凝集構造は速度を犠牲にすることなく性能を向上し, 正確な波動伝搬における時間的ダイナミクス, およびパラレアルの重要性が示された。

Recent advances in wave modeling use sufficiently accurate fine solver outputs to train a neural network that enhances the accuracy of a fast but inaccurate coarse solver. In this paper we build upon the work of Nguyen and Tsai (2023) and present a novel unified system that integrates a numerical solver with a deep learning component into an end-to-end framework. In the proposed setting, we investigate refinements to the network architecture and data generation algorithm. A stable and fast solver further allows the use of Parareal, a parallel-in-time algorithm to correct high-frequency wave components. Our results show that the cohesive structure improves performance without sacrificing speed, and demonstrate the importance of temporal dynamics, as well as Parareal, for accurate wave propagation.
翻訳日:2024-02-15 18:33:36 公開日:2024-02-13
# 非合意合成親密画像:10ヶ国における有病率・態度・知識

Non-Consensual Synthetic Intimate Imagery: Prevalence, Attitudes, and Knowledge in 10 Countries ( http://arxiv.org/abs/2402.01721v2 )

ライセンス: Link先を確認
Rebecca Umbach, Nicola Henry, Gemma Beard, Colleen Berryessa(参考訳) ディープフェイク技術はユビキタスになり、写真やビデオの操作を「民主化」している。 ディープフェイク技術がよく使われるのは、性的に露骨なコンテンツを作ることで、インターネット上で広く投稿され、共有される。 本稿は,10カ国1万6000人以上の回答者を対象に,非合意型合成近親画像(NSII)の特定の形態として,「ディープフェイクポルノ」に関連する態度と行動について考察する。 調査の結果,初発の社会意識にもかかわらず,ディープフェイクポルノの行動は回答者によって有害であると考えられた。 ディープフェイクポルノの被害者化と実行率について、全回答者の2.2%が個人的被害者化を示し、1.8%が加害行動を示した。 特定の法律を制定した国からの回答は、まだ加害と被害者の体験を報告しており、NSII法は加害を抑えるのに不十分であることを示唆している。 害を予防し、軽減するためのアプローチには、デジタルリテラシー教育や、NSIIコンテンツの検出、防止、対応を行うためのプラットフォームポリシー、プラクティス、ツールが含まれる。

Deepfake technologies have become ubiquitous, "democratizing" the ability to manipulate photos and videos. One popular use of deepfake technology is the creation of sexually explicit content, which can then be posted and shared widely on the internet. Drawing on a survey of over 16,000 respondents in 10 different countries, this article examines attitudes and behaviors related to "deepfake pornography" as a specific form of non-consensual synthetic intimate imagery (NSII). Our study found that deepfake pornography behaviors were considered harmful by respondents, despite nascent societal awareness. Regarding the prevalence of deepfake porn victimization and perpetration, 2.2% of all respondents indicated personal victimization, and 1.8% all of respondents indicated perpetration behaviors. Respondents from countries with specific legislation still reported perpetration and victimization experiences, suggesting NSII laws are inadequate to deter perpetration. Approaches to prevent and reduce harms may include digital literacy education, as well as enforced platform policies, practices, and tools which better detect, prevent, and respond to NSII content.
翻訳日:2024-02-15 18:32:36 公開日:2024-02-13
# マルチステップタスク(PROMST):人間のフィードバックと優先度調整の統合

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment ( http://arxiv.org/abs/2402.08702v1 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan(参考訳) Prompt最適化は、与えられたタスクに対して、大きな言語モデル(LLM)の最良のプロンプトを見つけることを目的としている。 LLMはシングルステップタスクのプロンプト候補の発見と改善に成功している。 しかし, エージェントの現実的なタスクは多段階であり, 1) プロンプト内容がより広範かつ複雑になり, LLM がエラー解析を困難にすること,(2) 個別のステップの影響を評価することが困難であること,(3) 異なる人がタスク実行に関して様々な好みを持っていること,など,新たな課題がもたらされる。 人間はプロンプトの最適化に苦労するが、LLM出力に関するフィードバックを提供するのに長けており、人間設計による潜在的なエラーに関するフィードバックルールを組み込んだ新しいLCM駆動離散プロンプト最適化フレームワークを導入し、改善のために直接提案する。 我々の枠組みは,LLMが親のプロンプトとその関連するフィードバックから新たな候補プロンプトを生成する遺伝的アルゴリズムとして,これらの候補を効率的にサンプリングするために,迅速な性能を予測する学習的ヒューリスティック関数を用いている。 このアプローチは、人間工学的なプロンプトと8つの代表的マルチステップタスク(それぞれGPT-3.5とGPT-4の現在のベストメソッドに対する平均27.7%と28.2%の改善)にまたがるいくつかのプロンプト最適化手法の両方を著しく上回っている。 さらに、タスクのスコア関数は、個人の好みに合わせて変更可能であることを示す。 LLM駆動型マルチステップタスクの自動プロンプト最適化のベンチマークとして機能すると考えています。 DatasetsとCodesはhttps://github.com/yongchao98/PROMSTで入手できる。 Project Pageはhttps://yongchao98.github.io/MIT-REALM-PROMSTで入手できる。

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework that incorporates human-designed feedback rules about potential errors to automatically offer direct suggestions for improvement. Our framework is stylized as a genetic algorithm in which an LLM generates new candidate prompts from a parent prompt and its associated feedback; we use a learned heuristic function that predicts prompt performance to efficiently sample from these candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across eight representative multi-step tasks (an average 27.7% and 28.2% improvement to current best methods on GPT-3.5 and GPT-4, respectively). We further show that the score function for tasks can be modified to better align with individual preferences. We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks. Datasets and Codes are available at https://github.com/yongchao98/PROMST. Project Page is available at https://yongchao98.github.io/MIT-REALM-PROMST.
翻訳日:2024-02-15 18:22:49 公開日:2024-02-13
# オンライン境界割当問題と広告入札問題に対する予測付き原始双対アルゴリズム

Primal-Dual Algorithms with Predictions for Online Bounded Allocation and Ad-Auctions Problems ( http://arxiv.org/abs/2402.08701v1 )

ライセンス: Link先を確認
Eniko Kevi and Nguyen Kim Thang(参考訳) マッチング問題は研究コミュニティ、特にネットワークデザインから広告まで多くのアプリケーションで研究されている。 機械学習の様々な進歩に続いて、ある自然な疑問は、古典的なアルゴリズムが機械学習の恩恵を受け、高品質なソリューションを得ることができるかどうかである。 マッチング問題におけるパフォーマンス改善のごく一部でさえ、研究対象のユースケースに対して大きな利益をもたらす可能性がある。 例えば、ネットワークのスループットや広告の収益は著しく増加する。 本稿では,オンライン境界割当問題とオンライン広告入札問題に対する機械学習予測を用いたアルゴリズムを提案する。 予測の質に応じて競合性能を達成するプライマル・ディレクティブアルゴリズムを構築した。 予測が正確であれば、アルゴリズムの性能は以前の性能限界を超え、予測が誤解を招く場合、アルゴリズムは標準的な最悪の性能保証を維持する。 理論的な発見のために, 生成データに関する実験を行う。

Matching problems have been widely studied in the research community, especially Ad-Auctions with many applications ranging from network design to advertising. Following the various advancements in machine learning, one natural question is whether classical algorithms can benefit from machine learning and obtain better-quality solutions. Even a small percentage of performance improvement in matching problems could result in significant gains for the studied use cases. For example, the network throughput or the revenue of Ad-Auctions can increase remarkably. This paper presents algorithms with machine learning predictions for the Online Bounded Allocation and the Online Ad-Auctions problems. We constructed primal-dual algorithms that achieve competitive performance depending on the quality of the predictions. When the predictions are accurate, the algorithms' performance surpasses previous performance bounds, while when the predictions are misleading, the algorithms maintain standard worst-case performance guarantees. We provide supporting experiments on generated data for our theoretical findings.
翻訳日:2024-02-15 18:22:13 公開日:2024-02-13
# ラウンドトリップ精度を有するコードLLMの教師なし評価

Unsupervised Evaluation of Code LLMs with Round-Trip Correctness ( http://arxiv.org/abs/2402.08699v1 )

ライセンス: Link先を確認
Miltiadis Allamanis, Sheena Panthaplackel, Pengcheng Yin(参考訳) コード大言語モデル(LLM)を評価するために、研究はHumanEvalやMBPPなど、実際のソフトウェアドメインの狭い部分を表すいくつかの手作業によるベンチマークに頼っている。 本研究では,代替評価法としてラウンドトリップ精度(RTC)を導入する。 RTCは、人為的なキュレーションを必要とせず、より広い範囲の現実世界のソフトウェアドメインに対するコードLLM評価を可能にする。 RTCは、モデルに予測(例えば、自然言語を使ったコード記述)を依頼し、その予測を返却し(例えば、予測された記述からコードを合成)、このラウンドトリップが元の入力と意味的に等価なコードにつながるかどうかを確認するという考え方に基づいている。 コード合成と編集の評価にRTCを用いる方法を示す。 RTCは、既存の狭義のコード合成ベンチマークのモデルパフォーマンスと強く相関し、コストのかかる人的アノテーションなしでは従来不可能だったより広い範囲のドメインやタスクに拡張できることに気付きました。

To evaluate code large language models (LLMs), research has relied on a few small manually curated benchmarks, such as HumanEval and MBPP, which represent a narrow part of the real-world software domains. In this work, we introduce round-trip correctness (RTC) as an alternative evaluation method. RTC allows Code LLM evaluation on a broader spectrum of real-world software domains without the need for costly human curation. RTC rests on the idea that we can ask a model to make a prediction (e.g., describe some code using natural language), feed that prediction back (e.g., synthesize code from the predicted description), and check if this round-trip leads to code that is semantically equivalent to the original input. We show how to employ RTC to evaluate code synthesis and editing. We find that RTC strongly correlates with model performance on existing narrow-domain code synthesis benchmarks while allowing us to expand to a much broader set of domains and tasks which was not previously possible without costly human annotations.
翻訳日:2024-02-15 18:21:58 公開日:2024-02-13
# AMEND:ロングテール軌道予測のためのエキスパートフレームワーク

AMEND: A Mixture of Experts Framework for Long-tailed Trajectory Prediction ( http://arxiv.org/abs/2402.08698v1 )

ライセンス: Link先を確認
Ray Coden Mercurius, Ehsan Ahmadi, Soheil Mohamad Alizadeh Shabestary, Amir Rasouli(参考訳) 歩行者の将来の動きの正確な予測は、インテリジェントな運転システムにとって重要である。 このタスクのためのモデルの開発には、多様なサンプルセットを含む豊富なデータセットが必要である。 しかし、既存の自然主義的軌道予測データセットは、単純なサンプルを好んで不均衡であり、困難なシナリオを欠いている。 このようなロングテール効果により、安全クリティカルなシナリオを含むデータ分散のテール部分に予測モデルが過小評価される。 従来の手法では、コントラスト学習やクラス条件付きハイパーネットワークといった手法を用いてロングテール問題に取り組む。 しかし、これらのアプローチはモジュラーではなく、多くの機械学習アーキテクチャに適用できない。 本研究では,専門的な専門家の混合を利用した軌道予測のためのモジュラーモデル非依存フレームワークを提案する。 このアプローチでは、各専門家はデータの特定の部分に関して専門的なスキルで訓練されます。 予測のために,相対的信頼スコアを生成することで,最高の専門家を選択するルータネットワークを利用する。 提案手法は, 歩行者軌道予測データセットを用いて実験を行い, 最先端性能の達成に加えて, ロングテールシナリオにおいて優れた性能を示すことを示す。 さらに,提案する成分の寄与を強調するために,アブレーション研究を行う。

Accurate prediction of pedestrians' future motions is critical for intelligent driving systems. Developing models for this task requires rich datasets containing diverse sets of samples. However, the existing naturalistic trajectory prediction datasets are generally imbalanced in favor of simpler samples and lack challenging scenarios. Such a long-tail effect causes prediction models to underperform on the tail portion of the data distribution containing safety-critical scenarios. Previous methods tackle the long-tail problem using methods such as contrastive learning and class-conditioned hypernetworks. These approaches, however, are not modular and cannot be applied to many machine learning architectures. In this work, we propose a modular model-agnostic framework for trajectory prediction that leverages a specialized mixture of experts. In our approach, each expert is trained with a specialized skill with respect to a particular part of the data. To produce predictions, we utilise a router network that selects the best expert by generating relative confidence scores. We conduct experimentation on common pedestrian trajectory prediction datasets and show that besides achieving state-of-the-art performance, our method significantly performs better on long-tail scenarios. We further conduct ablation studies to highlight the contribution of different proposed components.
翻訳日:2024-02-15 18:21:40 公開日:2024-02-13
# 人工知能と高等教育機関の変容

Artificial intelligence and the transformation of higher education institutions ( http://arxiv.org/abs/2402.08143v1 )

ライセンス: Link先を確認
Evangelos Katsamakas, Oleg V. Pavlov, and Ryan Saklad(参考訳) 人工知能(AI)の進歩と、ChatGPTのような生成AIツールの急速な採用は、高等教育の新しい機会と課題を提示している。 多くの文献が高等教育におけるAIについて論じているが、高等教育機関(HEI)のAI変革の全体像をとらえる体系的なアプローチは欠如している。 このギャップを埋めるため、この記事では複雑なシステムアプローチを取り、一般的なheiでai変換の因果フィードバックメカニズムをマッピングする因果ループダイアグラム(cld)を開発します。 私たちのモデルは、AI変革を駆動する力と、典型的なHEIにおける価値創造に対するAI変革の結果について説明します。 この記事では、学生の学習、研究、管理を改善するために、AI技術の進歩に動機づけられたHEIがAIに投資した方法について、いくつかの強化とバランスの取れたフィードバックループを特定し、分析する。 HEIは、学術的整合性問題に対処し、AIによる仕事の変化に適応するための措置を講じ、その学生にAI補完スキルを強調しなければならない。 しかし、HEIは競争上の脅威に直面し、いくつかの政策トラップが減少につながる可能性がある。 HEIリーダは、AI変革の複雑さを管理し、関連する落とし穴を避けながら、AIフィードバックループから利益を得るためのシステム思想家になる必要があります。 また、長期的なシナリオ、AIの方向性に影響を与えるHEIの概念、今後のAI変革研究の方向性についても論じる。

Artificial intelligence (AI) advances and the rapid adoption of generative AI tools like ChatGPT present new opportunities and challenges for higher education. While substantial literature discusses AI in higher education, there is a lack of a systemic approach that captures a holistic view of the AI transformation of higher education institutions (HEIs). To fill this gap, this article, taking a complex systems approach, develops a causal loop diagram (CLD) to map the causal feedback mechanisms of AI transformation in a typical HEI. Our model accounts for the forces that drive the AI transformation and the consequences of the AI transformation on value creation in a typical HEI. The article identifies and analyzes several reinforcing and balancing feedback loops, showing how, motivated by AI technology advances, the HEI invests in AI to improve student learning, research, and administration. The HEI must take measures to deal with academic integrity problems and adapt to changes in available jobs due to AI, emphasizing AI-complementary skills for its students. However, HEIs face a competitive threat and several policy traps that may lead to decline. HEI leaders need to become systems thinkers to manage the complexity of the AI transformation and benefit from the AI feedback loops while avoiding the associated pitfalls. We also discuss long-term scenarios, the notion of HEIs influencing the direction of AI, and directions for future research on AI transformation.
翻訳日:2024-02-15 18:20:11 公開日:2024-02-13
# マルコフ決定過程の監視

Monitored Markov Decision Processes ( http://arxiv.org/abs/2402.06819v2 )

ライセンス: Link先を確認
Simone Parisi, Montaser Mohammedalamen, Alireza Kazemipour, Matthew E. Taylor, Michael Bowling(参考訳) 強化学習(RL)において、エージェントは、環境と相互作用し、その動作に対するフィードバック(数値報酬)を受け取ることによってタスクを実行することを学習する。 しかし、報酬は常に観測可能であるという仮定は実世界の問題には適用されないことが多い。 例えば、エージェントは人間に行動の監視を依頼するか、フィードバックを受け取るために監視システムを起動する必要がある。 報酬が観測可能になるまでの期間や、報酬が与えられなくなった後の期間があるかもしれない。 言い換えれば、エージェントのアクションに応じて環境が報酬を発生させる場合がありますが、エージェントはそれを観察できません。 本稿では、エージェントが常に報酬を観察できないような、新しいが一般的なRLフレームワークである監視型MDPを定式化する。 我々は,この設定の理論的および実践的な結果について議論し,玩具環境においても生じる課題を示し,新しい設定に取り組むためのアルゴリズムを提案する。 本稿では,新しい問題と既存の問題の両方を包含する強力な新しい形式主義を導入し,今後の研究の基盤を築く。

In reinforcement learning (RL), an agent learns to perform a task by interacting with an environment and receiving feedback (a numerical reward) for its actions. However, the assumption that rewards are always observable is often not applicable in real-world problems. For example, the agent may need to ask a human to supervise its actions or activate a monitoring system to receive feedback. There may even be a period of time before rewards become observable, or a period of time after which rewards are no longer given. In other words, there are cases where the environment generates rewards in response to the agent's actions but the agent cannot observe them. In this paper, we formalize a novel but general RL framework - Monitored MDPs - where the agent cannot always observe rewards. We discuss the theoretical and practical consequences of this setting, show challenges raised even in toy environments, and propose algorithms to begin to tackle this novel setting. This paper introduces a powerful new formalism that encompasses both new and existing problems and lays the foundation for future research.
翻訳日:2024-02-15 18:19:28 公開日:2024-02-13
# LLMによる従属行動の模倣 : 錯覚か現実か?

LLM-driven Imitation of Subrational Behavior : Illusion or Reality? ( http://arxiv.org/abs/2402.08755v1 )

ライセンス: Link先を確認
Andrea Coletta, Kshama Dwarakanath, Penghang Liu, Svitlana Vyetrenko, Tucker Balch(参考訳) 人間や経済世帯などのサブリレーショナルエージェントのモデリングは、強化学習モデルの校正や人体に関わるデータの収集が困難であるため、本質的に困難である。 既存の研究は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデル(LLM)の能力を強調している。 本稿では, 模倣学習をしながら, 補助エージェント政策を学習するために使用される合成ヒト実験を, llmを用いて生成する手法について検討する。 我々は,LLMを人間の暗黙的な計算モデルとして利用することができると仮定し,LLMから派生した合成デモンストレーションを用いて,人間の特徴的なサブリレーショナルな行動(例えば,明視的行動やリスク回避の嗜好)をモデル化する枠組みを提案する。 4つの単純なシナリオを用いて,本フレームワークのサブリレータリティをモデル化する能力について実験的に評価した。 枠組みの信頼性を高めるため、上記のシナリオに関連する先行研究から確立された知見を再現することができる。 最後に、フレームワークの潜在的なメリット、課題、制限について論じます。

Modeling subrational agents, such as humans or economic households, is inherently challenging due to the difficulty in calibrating reinforcement learning models or collecting data that involves human subjects. Existing work highlights the ability of Large Language Models (LLMs) to address complex reasoning tasks and mimic human communication, while simulation using LLMs as agents shows emergent social behaviors, potentially improving our comprehension of human conduct. In this paper, we propose to investigate the use of LLMs to generate synthetic human demonstrations, which are then used to learn subrational agent policies though Imitation Learning. We make an assumption that LLMs can be used as implicit computational models of humans, and propose a framework to use synthetic demonstrations derived from LLMs to model subrational behaviors that are characteristic of humans (e.g., myopic behavior or preference for risk aversion). We experimentally evaluate the ability of our framework to model sub-rationality through four simple scenarios, including the well-researched ultimatum game and marshmallow experiment. To gain confidence in our framework, we are able to replicate well-established findings from prior human studies associated with the above scenarios. We conclude by discussing the potential benefits, challenges and limitations of our framework.
翻訳日:2024-02-15 18:12:44 公開日:2024-02-13
# 隠れたエネルギー異常の解消:スポーツ施設におけるエネルギー管理を最適化するためのディープラーニング

Unveiling Hidden Energy Anomalies: Harnessing Deep Learning to Optimize Energy Management in Sports Facilities ( http://arxiv.org/abs/2402.08742v1 )

ライセンス: Link先を確認
Fodil Fadli, Yassine Himeur, Mariam Elnour and Abbes Amira(参考訳) スポーツ施設における異常検出は省エネと運用効率の最適化の可能性から注目を集めている。 本稿では,スポーツ施設における異常検出における機械学習,特にディープラーニングの役割について検討する。 本研究は,従来の手法の欠点と限界に対処することを目的として,深層学習手法の課題と展望を考察する。 提案手法では,スポーツ施設で収集したデータから特徴抽出を行う。 本稿では、Deep Feedforward Neural Networks (DFNN) を用いて、異常を効果的に識別するためのしきい値推定手法を提案する。 さらに,誤報を低減し,異常検出の信頼性と精度を確保する手法を提案する。 本手法の有効性を評価するため,カタール大学水生センターデータセットを用いて実験を行った。 その結果、従来の手法よりも深層学習に基づく手法が優れていることを示し、実世界のアプリケーションにおけるその可能性を強調した。 通常、94.33%の精度と92.92%のf1-scoreが提案された。

Anomaly detection in sport facilities has gained significant attention due to its potential to promote energy saving and optimizing operational efficiency. In this research article, we investigate the role of machine learning, particularly deep learning, in anomaly detection for sport facilities. We explore the challenges and perspectives of utilizing deep learning methods for this task, aiming to address the drawbacks and limitations of conventional approaches. Our proposed approach involves feature extraction from the data collected in sport facilities. We present a problem formulation using Deep Feedforward Neural Networks (DFNN) and introduce threshold estimation techniques to identify anomalies effectively. Furthermore, we propose methods to reduce false alarms, ensuring the reliability and accuracy of anomaly detection. To evaluate the effectiveness of our approach, we conduct experiments on aquatic center dataset at Qatar University. The results demonstrate the superiority of our deep learning-based method over conventional techniques, highlighting its potential in real-world applications. Typically, 94.33% accuracy and 92.92% F1-score have been achieved using the proposed scheme.
翻訳日:2024-02-15 18:12:18 公開日:2024-02-13
# 非交換可観測体の弱・短周期連続測定における記憶

Memory in a sequence of weak and short duration measurements of non-commuting observables ( http://arxiv.org/abs/2402.08737v1 )

ライセンス: Link先を確認
Sophia M. Walls and Ian J. Ford(参考訳) 非可換可観測物の連続的な投影計測は、過去の測定結果に関する情報を破壊するが、短時間に行われた弱い測定は、システムに乱れを伴わず、その結果、過去の結果の記憶を完全に排除することができない。 量子状態拡散を用いてリンドブラッド方程式を解き、スピン1/2系と2つの絡み合ったスピン1/2サブシステムの数値的確率的軌道を生成し、それぞれs_{z} と s_{x} のスピン観測可能な一連の測定を行う。 次に、完了したS_{z}測定結果のラグ時間の自己相関関数を求める。 第2の軌道群では、システムがs_{z} と s_{x} の選択された固有状態の近傍に到達するとシミュレーションは終了する: 'terminating eigenstates' は、2つの観測可能な各測定間隔の間である。 生成した軌跡から、一定数の計測を行った後、システムが終了する固有状態の1つに到達する「終了可能性」を算出し、シミュレーション終了前の平均測定回数である平均第1の通路を算出できる。 結果は、射影的測定のボルン則統計と比較することができる。 本研究では, S_{z} の自己相関関数は, 短時間かつ弱い測定により, 時間的にゼロでありながら, ボルン則に則して長時間の強い測定ではなくなることを示した。 終端確率と平均第1通過確率は、より弱く短い測定値の下で増大し、s_{z} と s_{x} の特定の固有状態が長期にわたって避けられることが明らかとなった。 バイアスは、与えられたオブザーバブルの前回の測定(s)で訪れた同じ固有状態(メモリ効果)への回帰を支持することができる。

Sequential projective measurements of non-commuting observables destroy information about previous measurement outcomes, but weak measurements conducted over short durations do not cause as much disturbance to the system, and as a result, memory of previous outcomes may not be entirely eliminated. We use Quantum State Diffusion to unravel a Lindblad equation, generating numerical, stochastic trajectories for a spin 1/2 system and a system of two entangled spin 1/2 subsystems, each undergoing a sequence of measurements of S_{z} and S_{x} spin observables. The autocorrelation function of completed S_{z} measurement outcomes for a range of lag times is then found. In a second set of trajectories, the simulation is terminated if the system reaches the vicinity of a chosen set of eigenstates of S_{z} and S_{x}: the `terminating eigenstates', during the respective measurement intervals of the two observables. From the generated trajectories, the `probability of termination' that the system will arrive at one of the terminating eigenstates after a certain number of measurements have been performed, can be calculated, as well as the mean first passage, which is the number of measurements performed, on average, before the simulation ends. Results can then be compared with projective measurement Born rule statistics. We demonstrate that with short and weak measurements the autocorrelation function of S_{z} can be non-zero for a range of lag times, while it vanishes for strong, longer duration measurements in agreement with the Born rule. The probability of termination and the mean first passage increase under weaker and shorter measurements, revealing that the system is able to avoid particular eigenstates of S_{z} and S_{x} for extended periods of time. A bias can develop in favour of a return to the same eigenstate visited in the previous measurement(s) of a given observable: a memory effect.
翻訳日:2024-02-15 18:12:01 公開日:2024-02-13
# ジェネリックワイル半金属における磁気光学ホール応答

Magneto-optical Hall response in generic Weyl semimetals ( http://arxiv.org/abs/2402.08735v1 )

ライセンス: Link先を確認
Marcus St{\aa}lhammar(参考訳) ワイル半金属は、キラル準位を含む特異なランダウ準位構造によって引き起こされるシグネチャ磁気光学特性を予測される。 解析的な研究は、その複雑な性質から導電性のホール成分を欠いていることが多く、キラルな異常はワイルノードが電荷共役ペアに入る必要があるにもかかわらず、1つのノードのみをホストする玩具モデルは、ほぼ排他的に考慮されている。 ここで、私は2つの目的研究を示します。 a) 線形応答理論を用いた汎用ワイル半金属のホール導電率に対する閉形式表現を解析的に導出する b) 2つのノードを有するワイル系における横導電成分の評価にこの一般的な枠組みを適用すること。 本研究は, ノードの傾き, 運動量分離, エネルギー位置, および化学ポテンシャルが磁気光学伝導率に与える影響について検討し, 各種システムで評価されている直流ホール導電率の解析式を導出することにより, これらの研究を補完するものである。 キラルな一対のノードを含むと、キラルレベルからの寄与はサイズは等しいが、2つのノードは反対であり、純寄与は消滅する、バンド内遷移が起こるエネルギースケールはスカラーアウトされ、バンド間遷移のエネルギースケールに接近し、バンド内遷移が材料中のマスクシグネチャの光学的特徴に近づくという仮説が強まった。 この一般的な定式化は、一般のワイル半金属の大きな族に適用することができ、理論的な予測と候補物質の実験的観察の間のミスマッチの源泉を解明するための重要な部分を構成する。

Weyl semimetals are predicted to host signature magneto-optical properties sourced by their peculiar Landau level structure, including the chiral level. Analytical studies are often leaving out the Hall component of the conductivity due to its complicated nature, and even though the chiral anomaly requires Weyl nodes to come in charge-conjugate pairs, toy-models hosting only one node are considered almost exclusively; numerical studies including several Weyl nodes are on the other hand often limited to high-field quantum limits or DC studies. Here, I present a twofold purpose study, where I a) analytically derive a closed-form expression also for the Hall conductivity of a generic Weyl semimetal using linear response theory, and b) apply this general framework to evaluate the transverse conductivity components for Weyl systems with two nodes. I study how various model parameters, including the tilt, momentum separation, and energy location of the nodes, as well as the chemical potential affect the magneto-optical conductivity, and complement these studies with deriving an analytical expression for the DC Hall conductivity, which is also evaluated in various systems. Including a chiral pair of nodes result two important differences compared to earlier studies; the contribution from the chiral level is equal in size but opposite at the two nodes, making the net contribution to disappear; the energy scales at which intraband transitions occur is smeared out and approaches that of interband transitions, strengthening the hypothesis that intraband transitions mask signature optical features in materials. This general formalism can be applied for a large family of generic Weyl semimetals, and comprise an important piece towards unravelling the source of the mismatch between theoretical predictions and experimental observations in candidate materials.
翻訳日:2024-02-15 18:11:27 公開日:2024-02-13
# 専門家はカンニングしない:ペアを予測して知らないことを学ぶ

Experts Don't Cheat: Learning What You Don't Know By Predicting Pairs ( http://arxiv.org/abs/2402.08733v1 )

ライセンス: Link先を確認
Daniel D. Johnson, Daniel Tarlow, David Duvenaud, Chris J. Maddison(参考訳) モデル ${\widehat{p}}_{\theta}(Y|X)$ が確率的実世界のプロセス $p(Y|X)$ をどの程度知っているかを特定することは、不正あるいは不正な回答や不正なアクションの発生を避けるために重要である。 しかし、確率論的予測は、応答ごとのノイズ(摂動的不確実性)とプロセスに関する知識の欠如(認識的不確実性)を区別しないため、生成モデルにとってこれは難しい。 本稿では,約$p(Y|X)$と$p(Y|X)$と$p(Y|X)$の差を推定し,モデルに約$p(Y|X)$を教える一般的な戦略を提案する。 注意すべきことに、不正行為(つまり、予測を改善するたびに不正行為)が二階校正に等しいことを証明し、これは通常の校正の原則的拡張であり、正当に正しい頻繁な信頼区間を$p(Y|X)$で構築し、不正確な応答を高い確率で検出することができる。 提案手法は,不明瞭な画像分類,(合成)言語モデリング,部分的に観察可能なナビゲーションタスクなどにおいて,既存の手法よりも優れているモデルを正確に推定する。

Identifying how much a model ${\widehat{p}}_{\theta}(Y|X)$ knows about the stochastic real-world process $p(Y|X)$ it was trained on is important to ensure it avoids producing incorrect or "hallucinated" answers or taking unsafe actions. But this is difficult for generative models because probabilistic predictions do not distinguish between per-response noise (aleatoric uncertainty) and lack of knowledge about the process (epistemic uncertainty), and existing epistemic uncertainty quantification techniques tend to be overconfident when the model underfits. We propose a general strategy for teaching a model to both approximate $p(Y|X)$ and also estimate the remaining gaps between ${\widehat{p}}_{\theta}(Y|X)$ and $p(Y|X)$: train it to predict pairs of independent responses drawn from the true conditional distribution, allow it to "cheat" by observing one response while predicting the other, then measure how much it cheats. Remarkably, we prove that being good at cheating (i.e. cheating whenever it improves your prediction) is equivalent to being second-order calibrated, a principled extension of ordinary calibration that allows us to construct provably-correct frequentist confidence intervals for $p(Y|X)$ and detect incorrect responses with high probability. We demonstrate empirically that our approach accurately estimates how much models don't know across ambiguous image classification, (synthetic) language modeling, and partially-observable navigation tasks, outperforming existing techniques.
翻訳日:2024-02-15 18:10:51 公開日:2024-02-13
# 箱の中を2回考えると、wignerの友人は本当にquantumなのか?

Thinking twice inside the box: is Wigner's friend really quantum? ( http://arxiv.org/abs/2402.08727v1 )

ライセンス: Link先を確認
Caroline L. Jones and Markus P. Mueller(参考訳) ウィグナーの友人パラドックスに対する近年の関心は高まり、いくつかの新しい思考実験と無自我定理が引き起こされた。 主な物語は、ウィグナーの友人が量子論特有の反直観的特徴を強調しており、量子測定問題と密接に関連しているということである。 ここではこの見解に異議を唱える。 我々は、ウィグナーの友人のパラドックスの要点は、量子物理学を前提にせずに再現することができ、物理学と哲学の基礎においてより広範なエニグマのクラスを基礎としている。 これを示すために、最近提案されたいくつかの拡張されたウィグナーの友人シナリオについて考察し、エージェントの重複を含む古典的な思考実験によって観察の絶対性に対するそれらの影響が再現可能であることを示す。 重要なことに、これらの古典的なシナリオのいくつかは、量子的シナリオよりも技術的に実装が容易である。 そして、これらのシナリオの基本的な構造的要素は、我々が「制限A」と呼ぶ特徴であり、本質的には、物理理論が全てのエージェントの観測を確率論的に説明できない。 最後に、この難しさは物理学と哲学の基礎にある他のパズルの核心であり、宇宙論のボルツマン脳問題に対して明確に証明している。 我々の分析は、ウィグナーの友人は、量子物理学の境界を超える人間の知識のフロンティアに対処して、より大きな文脈で研究されるべきであることを示唆している。

There has been a surge of recent interest in the Wigner's friend paradox, sparking several novel thought experiments and no-go theorems. The main narrative has been that Wigner's friend highlights a counterintuitive feature that is unique to quantum theory, and which is closely related to the quantum measurement problem. Here, we challenge this view. We argue that the gist of the Wigner's friend paradox can be reproduced without assuming quantum physics, and that it underlies a much broader class of enigmas in the foundations of physics and philosophy. To show this, we first consider several recently proposed extended Wigner's friend scenarios, and demonstrate that their implications for the absoluteness of observations can be reproduced by classical thought experiments that involve the duplication of agents. Crucially, some of these classical scenarios are technologically much easier to implement than their quantum counterparts. Then, we argue that the essential structural ingredient of all these scenarios is a feature that we call "Restriction A": essentially, that a physical theory cannot give us a probabilistic description of the observations of all agents. Finally, we argue that this difficulty is at the core of other puzzles in the foundations of physics and philosophy, and demonstrate this explicitly for cosmology's Boltzmann brain problem. Our analysis suggests that Wigner's friend should be studied in a larger context, addressing a frontier of human knowledge that exceeds the boundaries of quantum physics: to obtain reliable predictions for experiments in which these predictions can be privately but not intersubjectively verified.
翻訳日:2024-02-15 18:10:17 公開日:2024-02-13
# 訓練された量子ニューラルネットワークはガウス過程である

Trained quantum neural networks are Gaussian processes ( http://arxiv.org/abs/2402.08726v1 )

ライセンス: Link先を確認
Filippo Girardi, Giacomo De Palma(参考訳) 我々は、パラメトリックな1量子ビットゲートと固定2量子ビットゲートからなる量子ニューラルネットワークを無限幅の限界で研究し、生成された関数は、全ての量子ビット上の1量子ビット観測可能な合計の期待値である。 まず、ランダムに初期化パラメータを持つ未学習ネットワークが生成する関数の確率分布が、測定されたキュービットが他の数個のキュービットとしか相関しない場合、分布中にガウス過程に収束することを証明する。 そして,教師付き学習問題に対して,二乗損失を伴う勾配降下によるネットワークのトレーニングを解析的に特徴付ける。 ネットワークが不毛の台地の影響を受けていない限り、トレーニングされたネットワークはトレーニングセットに完全に適合し、トレーニング後に発生する関数の確率分布がガウス過程に収束することを証明する。 最後に,ネットワークの出力における測定の統計的ノイズを考察し,その測定値の多項式数が従来のすべての結果を保持するのに十分であり,ネットワークが常に多項式時間で訓練できることを示す。

We study quantum neural networks made by parametric one-qubit gates and fixed two-qubit gates in the limit of infinite width, where the generated function is the expectation value of the sum of single-qubit observables over all the qubits. First, we prove that the probability distribution of the function generated by the untrained network with randomly initialized parameters converges in distribution to a Gaussian process whenever each measured qubit is correlated only with few other measured qubits. Then, we analytically characterize the training of the network via gradient descent with square loss on supervised learning problems. We prove that, as long as the network is not affected by barren plateaus, the trained network can perfectly fit the training set and that the probability distribution of the function generated after training still converges in distribution to a Gaussian process. Finally, we consider the statistical noise of the measurement at the output of the network and prove that a polynomial number of measurements is sufficient for all the previous results to hold and that the network can always be trained in polynomial time.
翻訳日:2024-02-15 18:09:49 公開日:2024-02-13
# 変分量子アルゴリズムにおけるユニタリノイズを超えて-ノイズ誘起バレンプラトーと固定点

Beyond unital noise in variational quantum algorithms: noise-induced barren plateaus and fixed points ( http://arxiv.org/abs/2402.08721v1 )

ライセンス: Link先を確認
P. Singkanipa, D.A. Lidar(参考訳) 変分量子アルゴリズム(vqas)は大きな期待を持っているが、指数関数的に小さな勾配の課題に直面している。 このバレンプラトー(BP)現象は、VQAの指数的トレーニングオーバーヘッドをもたらす。 おそらく最も多いのがノイズによって引き起こされる不毛高原(nibps)であり、これはオープンシステム効果から生じる不可避なbpの一種であり、単位的ノイズチャネルには存在することが知られている。 ここでは、NIBPの研究を任意の正のトレース保存マップに一般化し、ユニタリケースと非ユニタリケースの両方にNIBPの存在を確立し、NIBPが出現する回路深さの対数境界に固執する。 VQAコスト関数のノイズ誘起定点(NIFP)の関連現象を同定し,単位雑音と非単位雑音の両方にその存在を証明した。 その過程で、VQAのパラメータシフトルールをノイズ設定に拡張する。 解析結果を示す非分極チャネルと振幅減衰チャネルの数値シミュレーションとともに、NIBPとNIFPを生じる関連するパラメータに関して厳密な境界を提供する。

Variational quantum algorithms (VQAs) hold much promise but face the challenge of exponentially small gradients. Unmitigated, this barren plateau (BP) phenomenon leads to an exponential training overhead for VQAs. Perhaps the most pernicious are noise-induced barren plateaus (NIBPs), a type of unavoidable BP arising from open system effects, which have so far been shown to exist for unital noise channels. Here, we generalize the study of NIBPs to arbitrary, completely positive, trace-preserving maps, establishing the existence of NIBPs in both the unital and non-unital cases and tightening to logarithmic earlier bounds on the circuit depth at which an NIBP appears. We identify the associated phenomenon of noise-induced fixed points (NIFP) of the VQA cost function and prove its existence for both unital and non-unital noise. Along the way, we extend the parameter shift rule of VQAs to the noisy setting. We provide rigorous bounds in terms of the relevant parameters that give rise to NIBPs and NIFPs, along with numerical simulations of the depolarizing and amplitude-damping channels that illustrate our analytical results.
翻訳日:2024-02-15 18:09:31 公開日:2024-02-13
# 測定により誘導されるアーベル格子ゲージ理論の異常流入、双対性、および量子シミュレーション

Anomaly inflow, dualities, and quantum simulation of abelian lattice gauge theories induced by measurements ( http://arxiv.org/abs/2402.08720v1 )

ライセンス: Link先を確認
Takuya Okuda, Aswin Parayil Mana, Hiroki Sukeno(参考訳) 以前の研究では、一般次元におけるアーベル格子ゲージ理論(極限のトーリック符号を含むウェグナーモデル)の量子シミュレーションは、高形式で一般化された大域対称性を持つ対称性保護トポロジカル(SPT)状態の局所的適応測定によって達成できることを示した。 資源SPT状態の絡み合い構造はゲージ理論の幾何学的構造を反映している。 本研究では, バルク測定により得られた境界状態の異常ゲージ変動がバルク理論のそれと一致することを示すことにより, 境界における模擬ゲージ理論の分解相とバルクにおけるSPT状態との間の異常流入機構を明確に示す。 さらに,物質場(フラドキン・シェンカーモデル)を用いた格子ゲージ理論の測定に基づく量子シミュレーションのための資源状態と測定パターンを構築し,シミュレーションされた状態のゲージ不変性を誤差に対して保護するための簡単なスキームを提案する。 さらに、格子ゲージ理論の資源状態の波動関数とパラメータ化された積状態の波動関数の重なりを考慮し、高次大域対称性のゲージングに対応する欠陥を挿入した分割関数と、部分重なりによって引き起こされる状態が異なる(対称性に保護された)位相秩序を持つ測定誘起位相との正確な双対性を導出する。 格子ゲージ理論と非可逆性の量子ハミルトニアンを双対化する測定支援作用素も提示される。

A previous work demonstrated that quantum simulation of abelian lattice gauge theories (Wegner models including the toric code in a limit) in general dimensions can be achieved by local adaptive measurements on symmetry-protected topological (SPT) states with higher-form generalized global symmetries. The entanglement structure of the resource SPT state reflects the geometric structure of the gauge theory. In this work, we explicitly demonstrate the anomaly inflow mechanism between the deconfining phase of the simulated gauge theory on the boundary and the SPT state in the bulk, by showing that the anomalous gauge variation of the boundary state obtained by bulk measurement matches that of the bulk theory. Moreover, we construct the resource state and the measurement pattern for the measurement-based quantum simulation of a lattice gauge theory with a matter field (Fradkin-Shenker model), where a simple scheme to protect gauge invariance of the simulated state against errors is proposed. We further consider taking an overlap between the wave function of the resource state for lattice gauge theories and that of a parameterized product state, and we derive precise dualities between partition functions with insertion of defects corresponding to gauging higher-form global symmetries, as well as measurement-induced phases where states induced by a partial overlap possess different (symmetry-protected) topological orders. Measurement-assisted operators to dualize quantum Hamiltonians of lattice gauge theories and their non-invertibility are also presented.
翻訳日:2024-02-15 18:09:11 公開日:2024-02-13
# PRDP:拡散モデルの大規模逆解析のための近位逆差予測

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models ( http://arxiv.org/abs/2402.08714v1 )

ライセンス: Link先を確認
Fei Deng, Qifei Wang, Wei Wei, Matthias Grundmann, Tingbo Hou(参考訳) 報酬の微調整は、基礎モデルを下流の目標に合わせるための有望なアプローチとして現れました。 言語領域で顕著な成功は、人間の好みを反映した報酬を最大化するために強化学習(RL)を使用することで達成されている。 しかしながら、視覚領域では、既存のrlベースの報酬微調整方法は、大規模トレーニングにおける不安定性によって制限され、複雑で目に見えないプロンプトに一般化できない。 本稿では,100K以上のプロンプトを持つ大規模プロンプトデータセットにおいて,拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするPRDPを提案する。 我々の重要なイノベーションは、RLの目標と同じ最適解を持つRDP(Reward Difference Prediction)目標であり、トレーニングの安定性を享受しています。 具体的には、RDPの目的は、生成した画像対の報酬差を予測する拡散モデルを実行する教師付き回帰目標である。 完全報酬差分予測を求める拡散モデルがRL目標の最大値であることを理論的に証明する。 RDPの目的を安定的に最適化するための近位更新を伴うオンラインアルゴリズムをさらに開発する。 実験では,PRDPがRL法を基礎とした小規模学習における報酬最大化能力に適合することを示した。 さらに、Human Preference Dataset v2とPick-a-Pic v1データセットからテキストプロンプトを大規模にトレーニングすることで、PRDPは複雑な未確認プロンプトの多様なセットで優れた生成品質を達成する一方、RLベースのメソッドは完全に失敗する。

Reward finetuning has emerged as a promising approach to aligning foundation models with downstream objectives. Remarkable success has been achieved in the language domain by using reinforcement learning (RL) to maximize rewards that reflect human preference. However, in the vision domain, existing RL-based reward finetuning methods are limited by their instability in large-scale training, rendering them incapable of generalizing to complex, unseen prompts. In this paper, we propose Proximal Reward Difference Prediction (PRDP), enabling stable black-box reward finetuning for diffusion models for the first time on large-scale prompt datasets with over 100K prompts. Our key innovation is the Reward Difference Prediction (RDP) objective that has the same optimal solution as the RL objective while enjoying better training stability. Specifically, the RDP objective is a supervised regression objective that tasks the diffusion model with predicting the reward difference of generated image pairs from their denoising trajectories. We theoretically prove that the diffusion model that obtains perfect reward difference prediction is exactly the maximizer of the RL objective. We further develop an online algorithm with proximal updates to stably optimize the RDP objective. In experiments, we demonstrate that PRDP can match the reward maximization ability of well-established RL-based methods in small-scale training. Furthermore, through large-scale training on text prompts from the Human Preference Dataset v2 and the Pick-a-Pic v1 dataset, PRDP achieves superior generation quality on a diverse set of complex, unseen prompts whereas RL-based methods completely fail.
翻訳日:2024-02-15 18:08:44 公開日:2024-02-13
# BECoTTA: 連続的なテスト時間適応のためのエキスパートの入力依存オンラインブレンディング

BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation ( http://arxiv.org/abs/2402.08712v1 )

ライセンス: Link先を確認
Daeun Lee, Jaehong Yoon, Sung Ju Hwang(参考訳) 連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。 しかし、CTTAの進歩にもかかわらず、忘れられた適応トレードオフと効率性はまだ解明されていない。 さらに、現在のCTTAシナリオは、現実世界のドメインがシームレスに変更されたとしても、相容れない状況のみを前提としている。 そこで本稿では,CTTAの入力依存型かつ効率的なフレームワークであるBECoTTAを提案する。 2つのコアコンポーネントを含むMixture-of-Domain Low-rank Experts (MoDE)を提案する。 一 複数のドメインルータによるドメイン適応的知識の選択的取得を支援するドメイン適応的ルーティング (ii)各ドメインとエキスパート間の依存性を最大化するために、ドメイン専門家による相乗効果の損失。 提案手法は,訓練可能なパラメータを約98%少なく抑えながら,複数のCTTAシナリオより優れていた。 また,エキスパートの構築,ドメイン適応型エキスパートの効果,可視化などの手法の分析を行った。

Continual Test Time Adaptation (CTTA) is required to adapt efficiently to continuous unseen domains while retaining previously learned knowledge. However, despite the progress of CTTA, forgetting-adaptation trade-offs and efficiency are still unexplored. Moreover, current CTTA scenarios assume only the disjoint situation, even though real-world domains are seamlessly changed. To tackle these challenges, this paper proposes BECoTTA, an input-dependent yet efficient framework for CTTA. We propose Mixture-of-Domain Low-rank Experts (MoDE) that contains two core components: i) Domain-Adaptive Routing, which aids in selectively capturing the domain-adaptive knowledge with multiple domain routers, and (ii) Domain-Expert Synergy Loss to maximize the dependency between each domain and expert. We validate our method outperforms multiple CTTA scenarios including disjoint and gradual domain shits, while only requiring ~98% fewer trainable parameters. We also provide analyses of our method, including the construction of experts, the effect of domain-adaptive experts, and visualizations.
翻訳日:2024-02-15 18:08:13 公開日:2024-02-13
# エルゴード確率微分方程式に対する数値近似分布に対するwasserstein距離推定の補正

Correction to "Wasserstein distance estimates for the distributions of numerical approximations to ergodic stochastic differential equations" ( http://arxiv.org/abs/2402.08711v1 )

ライセンス: Link先を確認
Daniel Paulin, Peter A. Whalley(参考訳) ワーセルシュタイン-2 距離におけるエルゴード sdes の数値的離散化の非漸近的保証を分析する方法は、sanz-serna と zygalakis によって「エルゴード確率微分方程式に対する数値近似の分布に対するwasserstein距離推定」として提示された。 彼らは強い順2であり、ステップごとに1つの勾配評価しか必要としないUBU積分器を解析し、特に目標分布から離れたワッサーシュタイン-2で$\epsilon > 0$に達するための$$\mathcal{O}(d^{1/4}\epsilon^{-1/2})$のステップにおいて、望ましい非漸近保証をもたらす。 しかし、Sanz-Serna と Zygalakis (2021) の局所誤差推定には誤りがあり、特にこれらの複雑性推定を達成するためにはより強い仮定が必要である。 この注釈は、多くの関心の応用において実際に観察される次元依存性と理論を調和させる。

A method for analyzing non-asymptotic guarantees of numerical discretizations of ergodic SDEs in Wasserstein-2 distance is presented by Sanz-Serna and Zygalakis in ``Wasserstein distance estimates for the distributions of numerical approximations to ergodic stochastic differential equations". They analyze the UBU integrator which is strong order two and only requires one gradient evaluation per step, resulting in desirable non-asymptotic guarantees, in particular $\mathcal{O}(d^{1/4}\epsilon^{-1/2})$ steps to reach a distance of $\epsilon > 0$ in Wasserstein-2 distance away from the target distribution. However, there is a mistake in the local error estimates in Sanz-Serna and Zygalakis (2021), in particular, a stronger assumption is needed to achieve these complexity estimates. This note reconciles the theory with the dimension dependence observed in practice in many applications of interest.
翻訳日:2024-02-15 18:07:58 公開日:2024-02-13
# 類似性核によるゼロショット分子生成

Zero Shot Molecular Generation via Similarity Kernels ( http://arxiv.org/abs/2402.08708v1 )

ライセンス: Link先を確認
Rokas Elijo\v{s}ius, Fabian Zills, Ilyes Batatia, Sam Walton Norwood, D\'avid P\'eter Kov\'acs, Christian Holm and G\'abor Cs\'anyi(参考訳) 生成モデリングは、望ましい性質を持つ構造を直接提案することで、新しい化学物質の発見を加速することを目的としている。 近年, スコアベース, 拡散, 生成モデルは, 従来の手法よりも大幅に向上している。 彼らの成功の鍵は、スコアと物理的な力の密接な関係であり、強力な同変ニューラルネットワークの使用を可能にする。 しかし、学習者の行動はまだよく理解されていない。 本稿では,分子生成のためのエネルギーベースの拡散モデルを訓練することによりスコアを解析する。 生成過程において、スコアは当初の復元ポテンシャルに似ており、最後に量子力学的力が現れる。 2つのエンドポイントの間には、大きな分子の構築を可能にする特別な特性を示す。 実験モデルから得られた知見を用いて、ゼロショット分子生成の新しい手法である類似性に基づく分子生成(SiMGen)を提案する。 SiMGenは、時間依存の類似性カーネルと事前訓練された機械学習力場からの記述子を組み合わせて、それ以上の訓練をせずに分子を生成する。 提案手法は, 点雲先行による分子形状を完全に制御し, 条件生成を支援する。 また、ユーザーがsimgen online(https://zndraw.icp.uni-stuttgart.de)で構造を生成できるインタラクティブなwebツールもリリースしています。

Generative modelling aims to accelerate the discovery of novel chemicals by directly proposing structures with desirable properties. Recently, score-based, or diffusion, generative models have significantly outperformed previous approaches. Key to their success is the close relationship between the score and physical force, allowing the use of powerful equivariant neural networks. However, the behaviour of the learnt score is not yet well understood. Here, we analyse the score by training an energy-based diffusion model for molecular generation. We find that during the generation the score resembles a restorative potential initially and a quantum-mechanical force at the end. In between the two endpoints, it exhibits special properties that enable the building of large molecules. Using insights from the trained model, we present Similarity-based Molecular Generation (SiMGen), a new method for zero shot molecular generation. SiMGen combines a time-dependent similarity kernel with descriptors from a pretrained machine learning force field to generate molecules without any further training. Our approach allows full control over the molecular shape through point cloud priors and supports conditional generation. We also release an interactive web tool that allows users to generate structures with SiMGen online (https://zndraw.icp.uni-stuttgart.de).
翻訳日:2024-02-15 18:07:34 公開日:2024-02-13
# apples, oranges, and software engineering: 潜在変数の二次研究のための選択課題の研究

Apples, Oranges, and Software Engineering: Study Selection Challenges for Secondary Research on Latent Variables ( http://arxiv.org/abs/2402.08706v1 )

ライセンス: Link先を確認
Marvin Wyrich and Marvin Mu\~noz Bar\'on and Justus Bogner(参考訳) ソフトウェアエンジニアリング(SE)は、プログラミングの経験、チームの生産性、コードの理解、システムのセキュリティなど、研究者と実践者の両方にとって重要な抽象概念でいっぱいです。 したがって、そのような概念の影響と結果についての研究を要約することを目的とした二次研究は大きな価値となる。 しかし、抽象概念を直接測定できないことが二次研究の課題となる:seにおける一次研究は、様々な方法でそのような概念を運用することができる。 標準化された測定器はめったに使用できず、たとえそうであっても、多くの研究者はそれを使用せず、あるいは研究された概念の定義も提供していない。 二次研究を行うSE研究者はそれを決定する必要がある a) 同一の構成を測定することを意図した初等研究,及び b) 同じ構成物について、大きく異なる測定値の比較及び集計方法 本経験報告では,潜伏変数の二次研究における研究選択の課題について論じる。 我々は、リンゴとオレンジの比較を行わないように、比較と合成のためにどの一次研究を含めるべきかを決定することが特に難しい2つの事例について報告した。 本報告は,この問題を体系的に解決するための戦略開発に関する議論を巻き起こし,ソフトウェア工学におけるより効率的で厳格な二次研究の道を開くことを目的としている。

Software engineering (SE) is full of abstract concepts that are crucial for both researchers and practitioners, such as programming experience, team productivity, code comprehension, and system security. Secondary studies aimed at summarizing research on the influences and consequences of such concepts would therefore be of great value. However, the inability to measure abstract concepts directly poses a challenge for secondary studies: primary studies in SE can operationalize such concepts in many ways. Standardized measurement instruments are rarely available, and even if they are, many researchers do not use them or do not even provide a definition for the studied concept. SE researchers conducting secondary studies therefore have to decide a) which primary studies intended to measure the same construct, and b) how to compare and aggregate vastly different measurements for the same construct. In this experience report, we discuss the challenge of study selection in SE secondary research on latent variables. We report on two instances where we found it particularly challenging to decide which primary studies should be included for comparison and synthesis, so as not to end up comparing apples with oranges. Our report aims to spark a conversation about developing strategies to address this issue systematically and pave the way for more efficient and rigorous secondary studies in software engineering.
翻訳日:2024-02-15 18:07:14 公開日:2024-02-13
# De Novoドラッグデザインのための生成AIに関する調査:分子とタンパク質生成の新しいフロンティア

A Survey of Generative AI for De Novo Drug Design: New Frontiers in Molecule and Protein Generation ( http://arxiv.org/abs/2402.08703v1 )

ライセンス: Link先を確認
Xiangru Tang, Howard Dai, Elizabeth Knight, Fang Wu, Yunyang Li, Tianxiao Li, Mark Gerstein(参考訳) 人工知能(AI)駆動の手法は歴史的にコストがかかる薬物設計プロセスを大幅に改善することができる。 デ・ノボの医薬品設計のための生成モデルは、特に、将来有望な方向性を示す、スクラッチから完全に新規な生物学的化合物の創出に焦点を当てている。 この分野の急速な発展と創薬プロセスの複雑さが組み合わさって、新しい研究者が参入するのは難しい風景を生み出している。 本研究では,de novoの薬物設計を,小分子とタンパク質生成という2つの包括的なテーマに分類した。 各テーマの中で、さまざまなサブタスクとアプリケーションを識別し、重要なデータセット、ベンチマーク、モデルアーキテクチャを強調し、トップモデルのパフォーマンスを比較する。 私たちは、ai駆動の薬物設計に広範なアプローチを取り、各サブタスク内の様々なメソッドのマイクロレベル比較と、さまざまな分野にわたるマクロレベルの観察の両方を可能にします。 我々は2つのアプリケーション間の並列的な課題とアプローチについて議論し、AI駆動のデノボドラッグデザインの今後の方向性を強調した。 すべての対象ソースの整理されたリポジトリはhttps://github.com/gersteinlab/GenAI4Drug.comで公開されている。

Artificial intelligence (AI)-driven methods can vastly improve the historically costly drug design process, with various generative models already in widespread use. Generative models for de novo drug design, in particular, focus on the creation of novel biological compounds entirely from scratch, representing a promising future direction. Rapid development in the field, combined with the inherent complexity of the drug design process, creates a difficult landscape for new researchers to enter. In this survey, we organize de novo drug design into two overarching themes: small molecule and protein generation. Within each theme, we identify a variety of subtasks and applications, highlighting important datasets, benchmarks, and model architectures and comparing the performance of top models. We take a broad approach to AI-driven drug design, allowing for both micro-level comparisons of various methods within each subtask and macro-level observations across different fields. We discuss parallel challenges and approaches between the two applications and highlight future directions for AI-driven de novo drug design as a whole. An organized repository of all covered sources is available at https://github.com/gersteinlab/GenAI4Drug.
翻訳日:2024-02-15 18:06:39 公開日:2024-02-13
# 非人間化言語検出のためのデータセット

A Dataset for the Detection of Dehumanizing Language ( http://arxiv.org/abs/2402.08764v1 )

ライセンス: Link先を確認
Paul Engelmann, Peter Brunsgaard Trolle, Christian Hardmeier(参考訳) 非人間化(dehumanization)とは、集団の排除と虐待を可能にする精神的なプロセスである。 本稿では,テキストを非人間化する2つのデータセット,大規模な自動収集コーパス,より小さな手動注釈付きデータセットを提案する。 どちらのデータセットも、政治談話と映画の字幕からの対話の組み合わせを含んでいる。 提案手法は,非人間化パターンの探索的解析と自動分類を可能にするため,多種多様な非人間化データを提供する。 どちらのデータセットも公開されます。

Dehumanization is a mental process that enables the exclusion and ill treatment of a group of people. In this paper, we present two data sets of dehumanizing text, a large, automatically collected corpus and a smaller, manually annotated data set. Both data sets include a combination of political discourse and dialogue from movie subtitles. Our methods give us a broad and varied amount of dehumanization data to work with, enabling further exploratory analysis and automatic classification of dehumanization patterns. Both data sets will be publicly released.
翻訳日:2024-02-15 17:58:24 公開日:2024-02-13
# 対向攻撃に対する自由空間分割モデルを用いた屋内ロボットナビゲーションのロバスト性向上

Enhancing Robustness of Indoor Robotic Navigation with Free-Space Segmentation Models Against Adversarial Attacks ( http://arxiv.org/abs/2402.08763v1 )

ライセンス: Link先を確認
Qiyuan An, Christos Sevastopoulos, Fillia Makedon(参考訳) 屋内ロボットナビゲーションにおける取り組みは、RGB画像の自由空間を特定するためのセグメンテーションモデルの精度に依存する。 しかし、ディープラーニングモデルは敵の攻撃に対して脆弱であり、現実のデプロイメントにとって大きな課題となる。 本研究では,ニューラルネットワークの隠蔽層内の脆弱性を特定し,従来の対人訓練を強化するための実践的アプローチを提案する。 本手法では,新しい距離損失関数を導入し,クリーン画像と逆画像の隠れ層間のギャップを最小化する。 実験は、敵の摂動に対するモデルの堅牢性を改善するのに十分な性能を示す。

Endeavors in indoor robotic navigation rely on the accuracy of segmentation models to identify free space in RGB images. However, deep learning models are vulnerable to adversarial attacks, posing a significant challenge to their real-world deployment. In this study, we identify vulnerabilities within the hidden layers of neural networks and introduce a practical approach to reinforce traditional adversarial training. Our method incorporates a novel distance loss function, minimizing the gap between hidden layers in clean and adversarial images. Experiments demonstrate satisfactory performance in improving the model's robustness against adversarial perturbations.
翻訳日:2024-02-15 17:58:15 公開日:2024-02-13
# JAMDEC:小言語モデルによる制約付きデコードによる教師なしオーサシップ難読化

JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding over Small Language Models ( http://arxiv.org/abs/2402.08761v1 )

ライセンス: Link先を確認
Jillian Fisher, Ximing Lu, Jaehun Jung, Liwei Jiang, Zaid Harchaoui, Yejin Choi(参考訳) オンラインコンテンツの永続性と著者識別技術の強化は、必要に応じてオンライン著作者のアイデンティティとプライバシを保護する強力な計算手法を要求、例えば科学論文の盲目レビュー、匿名オンラインレビュー、精神保健フォーラムでの匿名の対話などである。 本稿では,著者の難読化に対する教師なしの推論時間アプローチを提案し,著者の難読化の独特な課題への対処法を提案する。 我々は,任意のテキストや著者に対して原則的に適用可能な,著者の難読化のためのユーザ制御型推論時間アルゴリズムであるjamdecを紹介する。 私たちのアプローチは、gpt2-xlのような小さな言語モデルに基づいており、オリジナルのコンテンツをプロプライエタリなllmのapiに開示しないようにするとともに、アルゴリズムによる拡張によって、小規模言語モデルと大規模言語モデルのパフォーマンスギャップを低減します。 このアプローチの背後にある重要なアイデアは、制約付きデコードを通じて、より小さな言語モデルの創造力を高めると同時に、ユーザ指定のコントロールと柔軟性も可能にすることです。 実験の結果,GPT3.5 175Bと競合する2桁の大小モデルであるGPT3.5 175Bに対して,GPT2-XLによる手法は従来手法よりも優れていた。

The permanence of online content combined with the enhanced authorship identification techniques calls for stronger computational methods to protect the identity and privacy of online authorship when needed, e.g., blind reviews for scientific papers, anonymous online reviews, or anonymous interactions in the mental health forums. In this paper, we propose an unsupervised inference-time approach to authorship obfuscation to address the unique challenges of authorship obfuscation: lack of supervision data for diverse authorship and domains, and the need for a sufficient level of revision beyond simple paraphrasing to obfuscate the authorship, all the while preserving the original content and fluency. We introduce JAMDEC, a user-controlled, inference-time algorithm for authorship obfuscation that can be in principle applied to any text and authorship. Our approach builds on small language models such as GPT2-XL in order to help avoid disclosing the original content to proprietary LLM's APIs, while also reducing the performance gap between small and large language models via algorithmic enhancement. The key idea behind our approach is to boost the creative power of smaller language models through constrained decoding, while also allowing for user-specified controls and flexibility. Experimental results demonstrate that our approach based on GPT2-XL outperforms previous state-of-the-art methods based on comparably small models, while performing competitively against GPT3.5 175B, a propriety model that is two orders of magnitudes larger.
翻訳日:2024-02-15 17:58:05 公開日:2024-02-13
# ベイズ戦略分類

Bayesian Strategic Classification ( http://arxiv.org/abs/2402.08758v1 )

ライセンス: Link先を確認
Lee Cohen, Saeed Sharifi-Malvajerdi, Kevin Stangl, Ali Vakilian, Juba Ziani(参考訳) 戦略的分類において、エージェントは、学習者の分類器から肯定的な分類を得るために、その特徴をコストで修正する。 学習者の典型的な反応は、その戦略行動に対して堅牢であるように分類器を慎重に修正することである。 エージェント操作について推論する場合、戦略分類を研究するほとんどの論文は、以下の強い仮定に依存している: エージェントは学習者によってデプロイされた分類器の正確なパラメータを完全に知る。 これは、現実の予測タスクで複雑またはプロプライエタリな機械学習技術を使用する場合、しばしば非現実的な仮定である。 戦略分類における学習者による部分的情報公開の研究を開始する。 我々はエージェントが分類器の知識を十分に持っているという従来の仮定から脱却する。 代わりに、学習者がどの分類器を使うかに先立って共通の分布を持つエージェントを考える。 私たちのモデルの学習者は、エージェントにデプロイされた分類器に関する情報を真に明らかにするが、必ずしも完全ではない。 学習者の目標は、精度を最大化するために分類器に関する十分な情報を公開することである。 エージェントの操作能力を高めつつも,そのような部分的な情報公開が学習者の正確さにどのように寄与するかを示す。 一般の場合、エージェントの最良の応答を計算することは困難であるが、学習者の仮説クラスが線形分類器のクラスである場合や、エージェントのコスト関数が定義した部分モジュラリティの自然な概念を満たす場合、エージェントの最良の応答を解くことができるオラクル効率のアルゴリズムが存在することを示す。 次に,学習者の最適化問題に注意を向け,学習者の期待する精度を最大化するために,学習者がどの程度の情報を公開するべきかというアルゴリズム上の問題に対して,肯定的かつ否定的な結果を与える。

In strategic classification, agents modify their features, at a cost, to ideally obtain a positive classification from the learner's classifier. The typical response of the learner is to carefully modify their classifier to be robust to such strategic behavior. When reasoning about agent manipulations, most papers that study strategic classification rely on the following strong assumption: agents fully know the exact parameters of the deployed classifier by the learner. This often is an unrealistic assumption when using complex or proprietary machine learning techniques in real-world prediction tasks. We initiate the study of partial information release by the learner in strategic classification. We move away from the traditional assumption that agents have full knowledge of the classifier. Instead, we consider agents that have a common distributional prior on which classifier the learner is using. The learner in our model can reveal truthful, yet not necessarily complete, information about the deployed classifier to the agents. The learner's goal is to release just enough information about the classifier to maximize accuracy. We show how such partial information release can, counter-intuitively, benefit the learner's accuracy, despite increasing agents' abilities to manipulate. We show that while it is intractable to compute the best response of an agent in the general case, there exist oracle-efficient algorithms that can solve the best response of the agents when the learner's hypothesis class is the class of linear classifiers, or when the agents' cost function satisfies a natural notion of submodularity as we define. We then turn our attention to the learner's optimization problem and provide both positive and negative results on the algorithmic problem of how much information the learner should release about the classifier to maximize their expected accuracy.
翻訳日:2024-02-15 17:57:39 公開日:2024-02-13
# 非線形非符号型シュリンガー方程式

Nonlinear, non-signaling Schr\"odinger equation ( http://arxiv.org/abs/2402.08757v1 )

ライセンス: Link先を確認
Tam\'as Geszti(参考訳) 密度行列の \textit{coordinate-diagonal} 要素の進化を線形に保ち、非シグナリングを保証するSchr\"odinger's wave equationの非線形拡張が提案されている。 この方程式は、波のパケットの拡散を逆にする負の運動エネルギー項を含む: 崩壊する、ある有効質量$m$が普遍臨界質量を超えて成長し、およそ$\mu = 2\cdot10^{-23}~$kgと推定されるので、線形量子運動エネルギーは無視され、量子古典的境界を示す。 提案手法を実験的に検証するために, 大きな分子の干渉が提案されている。

A nonlinear extension of Schr\"odinger's wave equation is proposed that ensures non-signaling by keeping linear the evolution of \textit{coordinate-diagonal} elements of the density matrix. The equation contains a negative kinetic energy term that turns spreading of wave packets into its opposite: collapsing, as some effective mass $M$ grows beyond a universal critical mass, estimated to be about $\mu = 2\cdot10^{-23}~$kg; then linear quantum kinetic energy gets negligible, which marks the quantum-classical border. Interference of large molecules is suggested for an experimental check of the proposed framework.
翻訳日:2024-02-15 17:57:11 公開日:2024-02-13
# 質問の仕方を学ぶ: マルチモーダル基礎モデルのプロンプトをサイクルコンシスタンシーが洗練する

Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal Foundation Models ( http://arxiv.org/abs/2402.08756v1 )

ライセンス: Link先を確認
Maurice Diesendruck, Jianzhe Lin, Shima Imani, Gayathri Mahalingam, Mingyang Xu, Jie Zhao(参考訳) LLMがゼロショット推論を行う場合、通常はタスク仕様のプロンプトを使用し、完了を生成する。 しかしながら、コンプリートからタスク仕様まで、リバースの可能性を探る作業はありません。 本稿では,サイクル教師付き学習をコンテキスト内で完全に行うために両方向を用いる。 私たちのゴールは、フォワードマップ f : X -> Y (例: 画像 -> 生成されたキャプション) と後方マップ g : Y -> X (例: キャプション -> 生成されたイメージ) を結合して、サイクル一貫性"loss" (プロンプトへの更新として表現される) を構築して g(f(X)) ~= X を強制することです。 重要なことは、CyclePromptは、高価な微調整なしで、トレーニングデータなしで、外部環境(例えば、コンパイラ、API)の複雑さのないモデルパフォーマンスを強化することである。 コード生成と画像キャプションという2つのドメインでcyclepromptをデモします。 humanevalコーディングベンチマークの結果から、トレーニングデータや外部環境の使用に依存しないモデルの中で、リーダボードが第1位、全体が第3位になりました。 GPT4ベースラインと比較して、精度は80.5%から87.2%に向上した。 視覚言語空間では、自然な (VQAv2) と図形的な (FigureQA) 視覚質問応答ベンチマークに対して、ベースラインゼロショットの GPT4Vキャプションより優れた詳細な画像キャプションを生成する。 私たちの知る限りでは、これはプロンプトのための自己監督学習の最初の使用です。

When LLMs perform zero-shot inference, they typically use a prompt with a task specification, and generate a completion. However, there is no work to explore the possibility of the reverse - going from completion to task specification. In this paper, we employ both directions to perform cycle-supervised learning entirely in-context. Our goal is to create a forward map f : X -> Y (e.g. image -> generated caption), coupled with a backward map g : Y -> X (e.g. caption -> generated image) to construct a cycle-consistency "loss" (formulated as an update to the prompt) to enforce g(f(X)) ~= X. The technique, called CyclePrompt, uses cycle-consistency as a free supervisory signal to iteratively craft the prompt. Importantly, CyclePrompt reinforces model performance without expensive fine-tuning, without training data, and without the complexity of external environments (e.g. compilers, APIs). We demonstrate CyclePrompt in two domains: code generation and image captioning. Our results on the HumanEval coding benchmark put us in first place on the leaderboard among models that do not rely on extra training data or usage of external environments, and third overall. Compared to the GPT4 baseline, we improve accuracy from 80.5% to 87.2%. In the vision-language space, we generate detailed image captions which outperform baseline zero-shot GPT4V captions, when tested against natural (VQAv2) and diagrammatic (FigureQA) visual question-answering benchmarks. To the best of our knowledge, this is the first use of self-supervised learning for prompting.
翻訳日:2024-02-15 17:56:56 公開日:2024-02-13
# On-Fly Syntax Highlighting: 一般化とスピードアップ

On-the-Fly Syntax Highlighting: Generalisation and Speed-ups ( http://arxiv.org/abs/2402.08754v1 )

ライセンス: Link先を確認
Marco Edoardo Palma, Alex Wolf, Pasquale Salza, Harald C. Gall(参考訳) オンザフライ構文強調は、視覚二次表記値を言語派生の各文字と素早く関連付けるタスクである。 この領域の研究は、しばしばソースコードを画面に表示し、シンタックスハイライト機構に大きく依存するオンラインソフトウェア開発ツールの普及によって進められている。 この文脈では、この領域における3つの対照的な要求、すなわちスピード、正確性、開発コストに直面する。 スピード制約は、ツールのユーザビリティを保証するために不可欠であり、エンドユーザーがオンラインソースコードにアクセスし、システムのオーバーヘッドを最小限にする応答性を示す。 同時に、コードの理解性を高めるために、正確なハイライトを達成することが重要です。 それでも、正確な結果を得るためには、文法的正確性が異なる場合でも、検討中のコードで文法解析を行う能力が必要である。 さらに、多数のプログラミング言語のバージョンを考えると、そのようなリゾルバの開発コストに対処することが不可欠である。 この分野における現在の最先端のアプローチは、プログラミング言語のオリジナルのlexerとparserを活用して、oracleを強調する構文を作成し、その後、ベースリカレントニューラルネットワークモデルのトレーニングに使用される。 このような解の一般化の課題が続く中、本論文では、原著を3つの主要なプログラミング言語に拡張し、その結果を総合的にレビューすることで、この問題に対処する。 さらに、新しい畳み込みベースニューラルネットワークモデルの導入により、評価性能とトレーニングコストの当初の制限が緩和される。 本研究では、GPU上でのモデル実行の性能向上について検討し、新しいCNNの実装は精度を維持しつつ、従来の手法よりもはるかに高速であることを示した。

On-the-fly syntax highlighting is the task of rapidly associating visual secondary notation values with each character of a language derivation. Research in this domain is driven by the prevalence of online software development tools, which frequently display source code on screen and heavily rely on syntax highlighting mechanisms. In this context, three contrasting demands confront resolvers in this space: speed, accuracy, and development costs. Speed constraints are essential to ensure tool usability, manifesting as responsiveness for end users accessing online source code and minimising system overhead. Simultaneously, achieving precise highlighting is critical for enhancing code comprehensibility. Nevertheless, obtaining accurate results necessitates the capacity to perform grammatical analysis on the code under consideration, even in cases of varying grammatical correctness. Furthermore, addressing the development costs of such resolvers is imperative, given the multitude of programming language versions. The current state-of-the-art approach in this field leverages the original lexer and parser of programming languages to create syntax highlighting oracles, subsequently used for training base Recurrent Neural Network models. As the question of the generalisation of such a solution persists, this paper addresses this aspect by extending the original work to three additional mainstream programming languages and conducting a comprehensive review of the outcomes. Moreover, the original limitations in evaluation performance and training costs are mitigated through the introduction of a novel Convolutional based Neural Network model. This study examines the performance gains of running models on GPUs, finding that the new CNN implementation is much faster than previous methods while maintaining high accuracy.
翻訳日:2024-02-15 17:56:20 公開日:2024-02-13
# 全ダウンストリームエージェントに対するスワップ後悔の予測

Forecasting for Swap Regret for All Downstream Agents ( http://arxiv.org/abs/2402.08753v1 )

ライセンス: Link先を確認
Aaron Roth, Mirah Shi(参考訳) 本研究は, 最善を尽くす下流エージェントが, 実用機能が何であれ, スワップ後悔の軽減を保証されるよう, 予測を行うことの課題について検討する。 Foster and Vohra (1997) 以降、校正された予測に最も適したエージェントは、スワップ後悔をしていないことが知られている。 残念なことに、逐次的対向環境における校正予測を保証する最もよく知られたアルゴリズムは、予測空間の次元と指数関数的に減少する速度で行う。 In this work, we show that by making predictions that are not calibrated, but are unbiased subject to a carefully selected collection of events, we can guarantee arbitrary downstream agents diminishing swap regret at rates that substantially improve over the rates that result from calibrated forecasts -- while maintaining the appealing property that our forecasts give guarantees for any downstream agent, without our forecasting algorithm needing to know their utility function. We give separate results in the ``low'' (1 or 2) dimensional setting and the ``high'' ($> 2$) dimensional setting. In the low dimensional setting, we show how to make predictions such that all agents who best respond to our predictions have diminishing swap regret -- in 1 dimension, at the optimal $O(\sqrt{T})$ rate. 高次元設定では、下流エージェントがスムーズに応答するという仮定の下で、後悔のスケーリングを$O(T^{2/3})$(厳密には次元独立指数)で保証する予測を行う方法を示す。 私たちの結果は、予測空間の次元に指数関数的に依存する校正された予測に最も反応するエージェントに由来する率とは対照的である。

We study the problem of making predictions so that downstream agents who best respond to them will be guaranteed diminishing swap regret, no matter what their utility functions are. It has been known since Foster and Vohra (1997) that agents who best-respond to calibrated forecasts have no swap regret. Unfortunately, the best known algorithms for guaranteeing calibrated forecasts in sequential adversarial environments do so at rates that degrade exponentially with the dimension of the prediction space. In this work, we show that by making predictions that are not calibrated, but are unbiased subject to a carefully selected collection of events, we can guarantee arbitrary downstream agents diminishing swap regret at rates that substantially improve over the rates that result from calibrated forecasts -- while maintaining the appealing property that our forecasts give guarantees for any downstream agent, without our forecasting algorithm needing to know their utility function. We give separate results in the ``low'' (1 or 2) dimensional setting and the ``high'' ($> 2$) dimensional setting. In the low dimensional setting, we show how to make predictions such that all agents who best respond to our predictions have diminishing swap regret -- in 1 dimension, at the optimal $O(\sqrt{T})$ rate. In the high dimensional setting we show how to make forecasts that guarantee regret scaling at a rate of $O(T^{2/3})$ (crucially, a dimension independent exponent), under the assumption that downstream agents smoothly best respond. Our results stand in contrast to rates that derive from agents who best respond to calibrated forecasts, which have an exponential dependence on the dimension of the prediction space.
翻訳日:2024-02-15 17:55:53 公開日:2024-02-13
# エッジ着色格子グラフ

Edge coloring lattice graphs ( http://arxiv.org/abs/2402.08752v1 )

ライセンス: Link先を確認
Joris Kattem\"olle(参考訳) 無限格子グラフのエッジカラー化の理論を開発し、格子グラフのパッチの適切なエッジカラー化に必要な十分条件を証明し、変換により格子グラフ全体の適切なエッジカラー化を誘導する。 この条件は無限格子グラフのほとんど最小または最小の辺彩色を見つける方法の基礎となる。 ほぼ最小限のエッジカラー化が要求される場合、実行時間は$o(\mu^2 d^4)$であり、ここで$\mu$は格子グラフの1つのセル(または‘basis graph’)内のエッジの数であり、$d$は2つのセル間の最大距離であり、一方のセルから他方へのエッジが存在する。 最小のエッジカラー化が要求される場合、実行時間の上限が不足するので、実際には制限は必要ありません。我々はこの方法を使用して、控えめな計算リソースを利用して、プレーンの全$k$-uniform tilingのメッシュを$k\leq 6$で最小化します。 これらのグラフはすべて Vizing class~I である。 エッジカラーリングを量子回路に関連づけて,量子シミュレーション,量子最適化,量子状態検証といった分野において,極端に詳細な量子回路を提供することにより,直接的応用を見出す。

We develop the theory of the edge coloring of infinite lattice graphs, proving a necessary and sufficient condition for a proper edge coloring of a patch of a lattice graph to induce a proper edge coloring of the entire lattice graph by translation. This condition forms the cornerstone of a method that finds nearly minimal or minimal edge colorings of infinite lattice graphs. In case a nearly minimal edge coloring is requested, the running time is $O(\mu^2 D^4)$, where $\mu$ is the number of edges in one cell (or `basis graph') of the lattice graph and $D$ is the maximum distance between two cells so that there is an edge from within one cell to the other. In case a minimal edge coloring is requested, we lack an upper bound on the running time, which we find need not pose a limitation in practice; we use the method to minimal edge color the meshes of all $k$-uniform tilings of the plane for $k\leq 6$, while utilizing modest computational resources. We find that all these lattice graphs are Vizing class~I. Relating edge colorings to quantum circuits, our work finds direct application by offering minimal-depth quantum circuits in the areas of quantum simulation, quantum optimization, and quantum state verification.
翻訳日:2024-02-15 17:55:25 公開日:2024-02-13
# 神経回路の最も近い隣接表現

Nearest Neighbor Representations of Neural Circuits ( http://arxiv.org/abs/2402.08751v1 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima, and Jehoshua Bruck(参考訳) ニューラルネットワークは多くのタスクで人間の脳の計算力を捉えた。 同様に脳アーキテクチャにインスパイアされたNearest Neighbor(NN)表現は、計算の新しいアプローチである。 NN表現とニューラルネットワークの密接な対応を確立する。 NN表現を用いた単一ニューロンの表現法は知られていたが,小深度ニューラルネットワークにおいても結果は得られなかった。 具体的には、ディープ2しきい値回路に対して、その表現するビット数に明示的に拘束されたNN表現に対して明示的な構成を提供する。 例えば、凸多面体のNN表現(閾値ゲートのAND)、IP2、閾値ゲートのOR、線形または正確な決定リストなどがある。

Neural networks successfully capture the computational power of the human brain for many tasks. Similarly inspired by the brain architecture, Nearest Neighbor (NN) representations is a novel approach of computation. We establish a firmer correspondence between NN representations and neural networks. Although it was known how to represent a single neuron using NN representations, there were no results even for small depth neural networks. Specifically, for depth-2 threshold circuits, we provide explicit constructions for their NN representation with an explicit bound on the number of bits to represent it. Example functions include NN representations of convex polytopes (AND of threshold gates), IP2, OR of threshold gates, and linear or exact decision lists.
翻訳日:2024-02-15 17:54:58 公開日:2024-02-13
# AI合成顔画像の検出に向けて

Towards the Detection of AI-Synthesized Human Face Images ( http://arxiv.org/abs/2402.08750v1 )

ライセンス: Link先を確認
Yuhang Lu, Touradj Ebrahimi(参考訳) 過去数年間、画像生成と操作は、ディープラーニングに基づく生成AIの急速な開発により、目覚ましい進歩を遂げてきた。 近年,ディープフェイク技術による顔画像操作問題への取り組みが注目されている。 しかし、純粋に合成された顔画像を検出する問題は少ない範囲で研究されている。 特に最近の拡散モデル(DM)は画像合成において顕著な成功を収めている。 既存の検出器は、異なる生成モデルによって生成された合成画像間の一般化に苦慮している。 本研究では,gans (generative adversarial networks) とdmsによる人間の顔画像を含む総合ベンチマークを行い,最先端検出器の一般化能力とロバスト性の評価を行った。 そして、異なる生成モデルによって導入された偽造跡を周波数領域で分析し、様々な洞察を得る。 さらに、周波数表現で訓練された検出器が、他の見えない生成モデルとよく一致できることを実証する。

Over the past years, image generation and manipulation have achieved remarkable progress due to the rapid development of generative AI based on deep learning. Recent studies have devoted significant efforts to address the problem of face image manipulation caused by deepfake techniques. However, the problem of detecting purely synthesized face images has been explored to a lesser extent. In particular, the recent popular Diffusion Models (DMs) have shown remarkable success in image synthesis. Existing detectors struggle to generalize between synthesized images created by different generative models. In this work, a comprehensive benchmark including human face images produced by Generative Adversarial Networks (GANs) and a variety of DMs has been established to evaluate both the generalization ability and robustness of state-of-the-art detectors. Then, the forgery traces introduced by different generative models have been analyzed in the frequency domain to draw various insights. The paper further demonstrates that a detector trained with frequency representation can generalize well to other unseen generative models.
翻訳日:2024-02-15 17:54:48 公開日:2024-02-13
# ディープラーニングと説明可能な人工知能を用いた脳MR画像の動画像の自動検出

Automated detection of motion artifacts in brain MR images using deep learning and explainable artificial intelligence ( http://arxiv.org/abs/2402.08749v1 )

ライセンス: Link先を確認
Marina Manso Jimeno, Keerthi Sravan Ravi, Maggie Fung, John Thomas Vaughan, Jr., Sairam Geethanath(参考訳) アーティファクトの画像の検査を含む品質評価は、データ品質と下流の分析や解釈の成功を保証するために、MRIデータ取得において重要なステップである。 本研究は,T1強調脳画像における剛性運動を検出する深層学習モデルを示す。 2D CNNを3つのクラスに分類し、公開のレトロスペクティブと予測データセットでテストしました。 Grad-CAMヒートマップは障害モードの識別を可能にし、モデルの結果の解釈を提供した。 このモデルは6つのモーションシミュレーションされた振り返りデータセットで85%と80%の平均精度とリコール基準を達成した。 さらに, 予測データセットにおけるモデルの分類では, 画像品質指標である平均エッジ強度と比較して, 強い逆相関(-0.84)を示した。 このモデルはArtifactIDツールの一部であり、ギブスリング、ラップアラウンド、モーションアーティファクトのインライン自動検出を目的としている。 このツールは、時間を要するQAプロセスの一部を自動化し、現場での専門知識を強化します。

Quality assessment, including inspecting the images for artifacts, is a critical step during MRI data acquisition to ensure data quality and downstream analysis or interpretation success. This study demonstrates a deep learning model to detect rigid motion in T1-weighted brain images. We leveraged a 2D CNN for three-class classification and tested it on publicly available retrospective and prospective datasets. Grad-CAM heatmaps enabled the identification of failure modes and provided an interpretation of the model's results. The model achieved average precision and recall metrics of 85% and 80% on six motion-simulated retrospective datasets. Additionally, the model's classifications on the prospective dataset showed a strong inverse correlation (-0.84) compared to average edge strength, an image quality metric indicative of motion. This model is part of the ArtifactID tool, aimed at inline automatic detection of Gibbs ringing, wrap-around, and motion artifacts. This tool automates part of the time-consuming QA process and augments expertise on-site, particularly relevant in low-resource settings where local MR knowledge is scarce.
翻訳日:2024-02-15 17:54:16 公開日:2024-02-13
# ニューロンの最も近い隣接表現

Nearest Neighbor Representations of Neurons ( http://arxiv.org/abs/2402.08748v1 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima, and Jehoshua Bruck(参考訳) Nearest Neighbor(NN)表現は、脳にインスパイアされた新しい計算モデルである。 NN表現を用いたニューロン(閾値関数)の表現の複雑さについて検討した。 2つのアンカー(NNが計算される点)が閾値関数のNN表現に十分であることが知られているが、解像度(アンカーのエントリに必要な最大ビット数)は$O(n\log{n})$である。 本研究では,アンカー数と閾値関数のnn表現の解決とのトレードオフについて検討した。 良く知られたしきい値関数 EQUALITY, COMPARISON, ODD-MAX-BIT は 2 または 3 個のアンカーを必要とし、$O(n)$ の分解能は$n$ と $O(\log{n})$ の多項式的に多数のアンカーで表すことができる。 すべてのしきい値関数に対して、多項式的に大きなサイズと対数分解能を持つNN表現が$n$で存在すると推測する。

The Nearest Neighbor (NN) Representation is an emerging computational model that is inspired by the brain. We study the complexity of representing a neuron (threshold function) using the NN representations. It is known that two anchors (the points to which NN is computed) are sufficient for a NN representation of a threshold function, however, the resolution (the maximum number of bits required for the entries of an anchor) is $O(n\log{n})$. In this work, the trade-off between the number of anchors and the resolution of a NN representation of threshold functions is investigated. We prove that the well-known threshold functions EQUALITY, COMPARISON, and ODD-MAX-BIT, which require 2 or 3 anchors and resolution of $O(n)$, can be represented by polynomially large number of anchors in $n$ and $O(\log{n})$ resolution. We conjecture that for all threshold functions, there are NN representations with polynomially large size and logarithmic resolution in $n$.
翻訳日:2024-02-15 17:53:58 公開日:2024-02-13
# ADS:新しい画像発見のための近似デンストグラフ

ADS: Approximate Densest Subgraph for Novel Image Discovery ( http://arxiv.org/abs/2402.08743v1 )

ライセンス: Link先を確認
Shanfeng Hu(参考訳) 画像リポジトリの量は増え続けている。 コンテンツベースのアドレッシングが利用可能であるにもかかわらず、私たちはまだ大きなコレクションから異なる特徴の画像を発見できる軽量なツールを持っていません。 本稿では,新しい画像発見のための高速かつ訓練不要なアルゴリズムを提案する。 我々のアルゴリズムの鍵は、画像の集合を知覚距離重み付きグラフとして定式化し、その中で、最もユニークな画像の部分集合に対応するK-デンスト部分グラフを見つけることである。 この問題を解くにはNPハードだけでなく、潜在的に巨大な距離行列の完全な計算を必要とするが、我々はそれをKスパース固有ベクトル問題に緩和し、距離行列を明示的に計算することなく確率勾配勾配(SGD)を効率的に解くことを提案する。 合成データセットと実データの両方の最先端データを比較した結果,メモリフットプリントを小さくすることで,新たな画像をより正確にマイニングできることがわかった。

The volume of image repositories continues to grow. Despite the availability of content-based addressing, we still lack a lightweight tool that allows us to discover images of distinct characteristics from a large collection. In this paper, we propose a fast and training-free algorithm for novel image discovery. The key of our algorithm is formulating a collection of images as a perceptual distance-weighted graph, within which our task is to locate the K-densest subgraph that corresponds to a subset of the most unique images. While solving this problem is not just NP-hard but also requires a full computation of the potentially huge distance matrix, we propose to relax it into a K-sparse eigenvector problem that we can efficiently solve using stochastic gradient descent (SGD) without explicitly computing the distance matrix. We compare our algorithm against state-of-the-arts on both synthetic and real datasets, showing that it is considerably faster to run with a smaller memory footprint while able to mine novel images more accurately.
翻訳日:2024-02-15 17:53:37 公開日:2024-02-13
# グラフニューラルネットワークを用いた曖昧なノード分類

Disambiguated Node Classification with Graph Neural Networks ( http://arxiv.org/abs/2402.08824v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xiang Zhang, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域にわたるグラフ構造化データから学習において大きな成功を収めている。 その大きな成功にもかかわらず、一つの批判的な課題は、既存の作品、すなわち、過度に表現されたグラフ領域に効果的に一般化できるメッセージ伝達の学習によってしばしば見過ごされる。 これらの少数地域はしばしば不規則なホモフィリー/ヘテロフィリーパターンと多様な近隣階級の分布を示し、曖昧さをもたらす。 本研究では,GNNにおけるあいまいさ問題,表現学習への影響,及びこの問題に対処するためのより豊かな監視信号の開発について検討する。 異なるグラフ領域における曖昧性の存在とノード位置との関係を解析し,gnnの詳細な評価を行った。 ノードの埋め込みを曖昧にするために,特にあいまいな領域のノードに対する表現学習を改善するために,追加の最適化ガイダンスを利用する新しい手法である {\methodを提案する。 {\method} は、予測の時間的矛盾に基づいて曖昧なノードを特定し、トポロジを意識した対比学習を用いて曖昧な正規化を導入する。 {\displaystyle {\method} はノード表現の識別性を促進し、メッセージ伝播による意味混合を緩和し、曖昧性問題に効果的に対応できる。 実験結果は、 {\method} の効率を検証し、低表示グラフ領域における gnn の性能を改善する可能性を強調した。

Graph Neural Networks (GNNs) have demonstrated significant success in learning from graph-structured data across various domains. Despite their great successful, one critical challenge is often overlooked by existing works, i.e., the learning of message propagation that can generalize effectively to underrepresented graph regions. These minority regions often exhibit irregular homophily/heterophily patterns and diverse neighborhood class distributions, resulting in ambiguity. In this work, we investigate the ambiguity problem within GNNs, its impact on representation learning, and the development of richer supervision signals to fight against this problem. We conduct a fine-grained evaluation of GNN, analyzing the existence of ambiguity in different graph regions and its relation with node positions. To disambiguate node embeddings, we propose a novel method, {\method}, which exploits additional optimization guidance to enhance representation learning, particularly for nodes in ambiguous regions. {\method} identifies ambiguous nodes based on temporal inconsistency of predictions and introduces a disambiguation regularization by employing contrastive learning in a topology-aware manner. {\method} promotes discriminativity of node representations and can alleviating semantic mixing caused by message propagation, effectively addressing the ambiguity problem. Empirical results validate the efficiency of {\method} and highlight its potential to improve GNN performance in underrepresented graph regions.
翻訳日:2024-02-15 17:47:04 公開日:2024-02-13
# コンピューティングパワーと人工知能のガバナンス

Computing Power and the Governance of Artificial Intelligence ( http://arxiv.org/abs/2402.08797v1 )

ライセンス: Link先を確認
Girish Sastry, Lennart Heim, Haydn Belfield, Markus Anderljung, Miles Brundage, Julian Hazell, Cullen O'Keefe, Gillian K. Hadfield, Richard Ngo, Konstantin Pilz, George Gor, Emma Bluemke, Sarah Shoker, Janet Egan, Robert F. Trager, Shahar Avin, Adrian Weller, Yoshua Bengio, Diane Coyle(参考訳) コンピュータパワー(Compute)は、人工知能(AI)の能力の開発と展開に不可欠である。 その結果、政府や企業はAIを管理する手段として計算を活用し始めている。 例えば、政府は国内計算能力に投資し、競合国への計算の流れを制御し、特定の分野への計算アクセスを補助している。 しかし、これらの取り組みは、AI開発とデプロイメントを管理するために計算をどのように使用できるかという表面を掻くだけである。 AI(データとアルゴリズム)に対する他の重要な入力とは対照的に、AI関連計算は特に効果的な介入点である。 これらの特徴は、最先端のAIモデルにおける計算の特異な重要性と並行して、計算の管理は、AIの安全性と有益な使用を保証するなど、共通の政策目標を達成するのに寄与する可能性があることを示唆している。 より正確には、政策立案者は計算を使ってAIの規制の可視性を促進し、有益な結果を促進するためにリソースを割り当て、無責任または悪意のあるAI開発と使用に対する制限を強制することができる。 しかし、計算ベースのポリシーや技術はこれらの領域で支援する可能性を秘めているが、その実装準備には大きな変化がある。 いくつかのアイデアは、現在パイロット化されているが、基本的な研究の必要性によって妨げられているものもある。 さらに、プライバシーや経済的影響、権力の集中といった分野において、ナイーブあるいは低範囲のガバナンスアプローチは重大なリスクを負う。 最終的には、コンピューティングガバナンスからのリスクを最小限に抑えるためのガードレールを提案します。

Computing power, or "compute," is crucial for the development and deployment of artificial intelligence (AI) capabilities. As a result, governments and companies have started to leverage compute as a means to govern AI. For example, governments are investing in domestic compute capacity, controlling the flow of compute to competing countries, and subsidizing compute access to certain sectors. However, these efforts only scratch the surface of how compute can be used to govern AI development and deployment. Relative to other key inputs to AI (data and algorithms), AI-relevant compute is a particularly effective point of intervention: it is detectable, excludable, and quantifiable, and is produced via an extremely concentrated supply chain. These characteristics, alongside the singular importance of compute for cutting-edge AI models, suggest that governing compute can contribute to achieving common policy objectives, such as ensuring the safety and beneficial use of AI. More precisely, policymakers could use compute to facilitate regulatory visibility of AI, allocate resources to promote beneficial outcomes, and enforce restrictions against irresponsible or malicious AI development and usage. However, while compute-based policies and technologies have the potential to assist in these areas, there is significant variation in their readiness for implementation. Some ideas are currently being piloted, while others are hindered by the need for fundamental research. Furthermore, naive or poorly scoped approaches to compute governance carry significant risks in areas like privacy, economic impacts, and centralization of power. We end by suggesting guardrails to minimize these risks from compute governance.
翻訳日:2024-02-15 17:46:38 公開日:2024-02-13
# BEFUnet: 精密医用画像分割のためのハイブリッドCNN変換器アーキテクチャ

BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation ( http://arxiv.org/abs/2402.08793v1 )

ライセンス: Link先を確認
Omid Nejati Manzari, Javad Mirzapour Kaleybar, Hooman Saadat, Shahin Maleki(参考訳) 医療画像の正確なセグメンテーションは、様々な医療応用に不可欠である。 畳み込みニューラルネットワーク(CNN)、特にU-Netのようなフル畳み込みニューラルネットワーク(FCN)は、医用画像分割タスクにおいて顕著な成功を収めている。 しかしながら、特に形状、スケール、テクスチャが著しく異なる物体に対して、グローバルコンテキストと長距離関係を捉えることに制限がある。 トランスフォーマーは自然言語処理や画像認識において最先端の成果を得ているが、画像の局所性や翻訳の不変性といった問題により、医用画像セグメンテーションの課題に直面している。 そこで本稿では,生体情報とエッジ情報を融合して正確な医用画像分割を行う,革新的なu字型ネットワークbefunetを提案する。 befunetには3つの主要なモジュールがあり、その中には新しいlocal cross-attention feature (lcaf) fusion module、新しいdouble-level fusion (dlf) module、デュアルブランチエンコーダが含まれる。 二重分岐エンコーダは、エッジエンコーダとボディーエンコーダとからなる。 エッジエンコーダは効果的なエッジ情報抽出にPDCブロックを使用し、ボディエンコーダはSwin Transformerを使用してグローバルな注意を払って意味情報をキャプチャする。 LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。 この局所的なアプローチは、グローバルなクロスアテンションに比べて計算の複雑さを著しく低減し、正確な特徴マッチングを保証する。 BEFUnetは、医療画像セグメンテーションデータセットの様々な評価指標に対して、既存の手法よりも優れた性能を示す。

The accurate segmentation of medical images is critical for various healthcare applications. Convolutional neural networks (CNNs), especially Fully Convolutional Networks (FCNs) like U-Net, have shown remarkable success in medical image segmentation tasks. However, they have limitations in capturing global context and long-range relations, especially for objects with significant variations in shape, scale, and texture. While transformers have achieved state-of-the-art results in natural language processing and image recognition, they face challenges in medical image segmentation due to image locality and translational invariance issues. To address these challenges, this paper proposes an innovative U-shaped network called BEFUnet, which enhances the fusion of body and edge information for precise medical image segmentation. The BEFUnet comprises three main modules, including a novel Local Cross-Attention Feature (LCAF) fusion module, a novel Double-Level Fusion (DLF) module, and dual-branch encoder. The dual-branch encoder consists of an edge encoder and a body encoder. The edge encoder employs PDC blocks for effective edge information extraction, while the body encoder uses the Swin Transformer to capture semantic information with global attention. The LCAF module efficiently fuses edge and body features by selectively performing local cross-attention on features that are spatially close between the two modalities. This local approach significantly reduces computational complexity compared to global cross-attention while ensuring accurate feature matching. BEFUnet demonstrates superior performance over existing methods across various evaluation metrics on medical image segmentation datasets.
翻訳日:2024-02-15 17:46:12 公開日:2024-02-13
# 知識強化生成モデルによる分子生成と創薬の改善

Improving Molecule Generation and Drug Discovery with a Knowledge-enhanced Generative Model ( http://arxiv.org/abs/2402.08790v1 )

ライセンス: Link先を確認
Aditya Malusare and Vaneet Aggarwal(参考訳) 生成モデルの最近の進歩は、分子や新しい薬物候補を生成するための最先端のベンチマークを確立している。 これらの成功にもかかわらず、生成モデルと広範な生物医学的知識の活用の間には大きなギャップがあり、しばしば知識グラフの中で体系化され、生成過程を通知し拡張する能力は実現されていない。 本稿では,知識強化型生成モデルK-DReAMの開発により,この分割を橋渡しする新しい手法を提案する。 本研究では,意味的整合性を保ちながら知識グラフの機能を拡張するスケーラブルな手法を開発し,このコンテキスト情報を生成フレームワークに組み込んで拡散モデルを導出する。 知識グラフの組込みと生成モデルの統合は, 有効性と合成性を確保しつつ, 特定の特徴を有する新規な薬剤候補を創出するための堅牢なメカニズムを提供する。 K-DReAMは、非条件およびターゲット生成タスクの両方において最先端の生成モデルより優れている。

Recent advancements in generative models have established state-of-the-art benchmarks in generating molecules and novel drug candidates. Despite these successes, a significant gap persists between generative models and the utilization of extensive biomedical knowledge, often systematized within knowledge graphs, whose potential to inform and enhance generative processes has not been realized. In this paper, we present a novel approach that bridges this divide by developing a framework for knowledge-enhanced generative models called K-DReAM. We develop a scalable methodology to extend the functionality of knowledge graphs while preserving semantic integrity and incorporate this contextual information into a generative framework to guide a diffusion-based model. The integration of knowledge graph embeddings with our generative model furnishes a robust mechanism for producing novel drug candidates possessing specific characteristics while ensuring validity and synthesizability. K-DReAM outperforms state-of-the-art generative models on both unconditional and targeted generation tasks.
翻訳日:2024-02-15 17:45:43 公開日:2024-02-13
# 低リソース環境における胸部x線利用の最適化

Leveraging cough sounds to optimize chest x-ray usage in low-resource settings ( http://arxiv.org/abs/2402.08789v1 )

ライセンス: Link先を確認
Alexander Philip, Sanya Chawla, Lola Jover, George P. Kafentzis, Joe Brew, Vishakh Saraf, Shibu Vijayan, Peter Small, Carlos Chaccour(参考訳) 胸部X線は、呼吸器疾患のトリアージ、診断、管理において一般的に用いられる道具である。 リソース制限設定では、このリソースを最適化することで、医療システムや患者にとって貴重なコスト削減と、コンサルティング時間の改善につながる可能性がある。 インドのビハール州パーニアにあるキリスト教医療センター(cmch)にて,胸部x線検査を施行した137例について,前向きに収集したデータを用いた。 それぞれの患者は、x線撮影を待っている間に少なくとも5回せきを行った。 音響AI法を用いて, 集音音の解析を行った。 クロス・バリデーションは,各症例のうつ音の時間的特徴とスペクトル的特徴について行った。 特徴は標準的な統計手法で要約された。 胸部X線異常を予測するために, 3つのモデルを開発し, 試験し, 比較した。 これら3つの手法は、通常値と異常値のある程度の差を、受信側が0.7から0.78までの特性曲線を演算する領域で最適に再現できるモデルを得た。 制限と比較的小さなサンプルサイズにもかかわらず、この研究は、AI対応のアルゴリズムが、胸部X線検査で提示される個人が正常または異常な結果をもたらすかを予測するために、うず音を使用できることを示している。 これらの結果は、低所得国と中所得国における限られた医療資源の最適化の可能性を考慮し、この研究を拡大することを目指している。

Chest X-ray is a commonly used tool during triage, diagnosis and management of respiratory diseases. In resource-constricted settings, optimizing this resource can lead to valuable cost savings for the health care system and the patients as well as to and improvement in consult time. We used prospectively-collected data from 137 patients referred for chest X-ray at the Christian Medical Center and Hospital (CMCH) in Purnia, Bihar, India. Each patient provided at least five coughs while awaiting radiography. Collected cough sounds were analyzed using acoustic AI methods. Cross-validation was done on temporal and spectral features on the cough sounds of each patient. Features were summarized using standard statistical approaches. Three models were developed, tested and compared in their capacity to predict an abnormal result in the chest X-ray. All three methods yielded models that could discriminate to some extent between normal and abnormal with the logistic regression performing best with an area under the receiver operating characteristic curves ranging from 0.7 to 0.78. Despite limitations and its relatively small sample size, this study shows that AI-enabled algorithms can use cough sounds to predict which individuals presenting for chest radiographic examination will have a normal or abnormal results. These results call for expanding this research given the potential optimization of limited health care resources in low- and middle-income countries.
翻訳日:2024-02-15 17:45:28 公開日:2024-02-13
# 可聴型DNN-HMMカントン音声からテキストシステム

Syllable based DNN-HMM Cantonese Speech to Text System ( http://arxiv.org/abs/2402.08788v1 )

ライセンス: Link先を確認
Timothy Wong and Claire Li and Sam Lam and Billy Chiu and Qin Lu and Minglei Li and Dan Xiong and Roy Shing Yu and Vincent T.Y. Ng(参考訳) 本稿では,音節ベース音響モデルを用いたカントン音声テキスト(STT)システムの構築について報告する。 これは、文章スキルに認知障害があるが、言語を通じてアイデアを表現できない障害のある学生を支援するsttシステムを構築するための取り組みの一環である。 カントン語音声認識では、音響モデルの基本的な単位は、従来の初期終音節(if)または、終音がさらに核とコーダに分割されてカントン語における音節内変化を反映したオンセット・ヌクレウス・コーダ音節(onc)である。 Kaldi ツールキットを用いて,我々のシステムは,I-vector を用いた話者適応学習手法を使わずに,ハイブリッド型Deep Neural Network と Hidden Markov Model (DNN-HMM) のためのGPUを用いて,確率勾配降下最適化モデルを用いて訓練を行う。 話者適応訓練(GMM-SAT)とDNNを併用した同じガウス混合モデルの入力特性を,すべて使用した。 i-vectorベースのdnn-hmmを用いた音節音響モデルにおいて,単語誤り率 (wer) は9.66%,リアルタイム係数 (rtf) は1.38812。

This paper reports our work on building up a Cantonese Speech-to-Text (STT) system with a syllable based acoustic model. This is a part of an effort in building a STT system to aid dyslexic students who have cognitive deficiency in writing skills but have no problem expressing their ideas through speech. For Cantonese speech recognition, the basic unit of acoustic models can either be the conventional Initial-Final (IF) syllables, or the Onset-Nucleus-Coda (ONC) syllables where finals are further split into nucleus and coda to reflect the intra-syllable variations in Cantonese. By using the Kaldi toolkit, our system is trained using the stochastic gradient descent optimization model with the aid of GPUs for the hybrid Deep Neural Network and Hidden Markov Model (DNN-HMM) with and without I-vector based speaker adaptive training technique. The input features of the same Gaussian Mixture Model with speaker adaptive training (GMM-SAT) to DNN are used in all cases. Experiments show that the ONC-based syllable acoustic modeling with I-vector based DNN-HMM achieves the best performance with the word error rate (WER) of 9.66% and the real time factor (RTF) of 1.38812.
翻訳日:2024-02-15 17:44:58 公開日:2024-02-13
# 大規模言語モデルのためのマシンアンラーニングの再考

Rethinking Machine Unlearning for Large Language Models ( http://arxiv.org/abs/2402.08787v1 )

ライセンス: Link先を確認
Sijia Liu, Yuanshun Yao, Jinghan Jia, Stephen Casper, Nathalie Baracaldo, Peter Hase, Xiaojun Xu, Yuguang Yao, Hang Li, Kush R. Varshney, Mohit Bansal, Sanmi Koyejo, Yang Liu(参考訳) LLMアンラーニングと呼ばれる大規模言語モデル(LLM)の領域における機械学習(MU)について検討する。 このイニシアチブは、本質的な知識生成の完全性を維持しつつ、因果関係のない情報に影響を与えないように、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。 我々は、LLMのライフサイクル管理において、LLMのアンラーニングが重要な要素となり、安全で安全で信頼性の高いだけでなく、完全な再トレーニングを必要とせずに、資源効率の高い生成AIを開発する上で、不可欠な基盤となる可能性があると想定している。 概念的定式化や方法論,メトリクス,アプリケーションから,LLMにおける未学習の風景をナビゲートする。 特に,未学習スコープやデータモデルインタラクション,多面的有効性評価など,既存のllmアンラーニング研究の見過ごされがちな側面を強調する。 また,llmアンラーニングとモデル編集,影響関数,モデル説明,敵対的トレーニング,強化学習といった関連分野との関係についても考察した。 さらに,llmアンラーニングのための効果的な評価フレームワークを概説し,著作権保護やプライバシー保護,社会技術的被害軽減への応用について検討する。

We explore machine unlearning (MU) in the domain of large language models (LLMs), referred to as LLM unlearning. This initiative aims to eliminate undesirable data influence (e.g., sensitive or illegal information) and the associated model capabilities, while maintaining the integrity of essential knowledge generation and not affecting causally unrelated information. We envision LLM unlearning becoming a pivotal element in the life-cycle management of LLMs, potentially standing as an essential foundation for developing generative AI that is not only safe, secure, and trustworthy, but also resource-efficient without the need of full retraining. We navigate the unlearning landscape in LLMs from conceptual formulation, methodologies, metrics, and applications. In particular, we highlight the often-overlooked aspects of existing LLM unlearning research, e.g., unlearning scope, data-model interaction, and multifaceted efficacy assessment. We also draw connections between LLM unlearning and related areas such as model editing, influence functions, model explanation, adversarial training, and reinforcement learning. Furthermore, we outline an effective assessment framework for LLM unlearning and explore its applications in copyright and privacy safeguards and sociotechnical harm reduction.
翻訳日:2024-02-15 17:44:32 公開日:2024-02-13
# instructgraph: グラフ中心の命令チューニングと好みアライメントによる大規模言語モデルの拡張

InstructGraph: Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment ( http://arxiv.org/abs/2402.08785v1 )

ライセンス: Link先を確認
Jianing Wang, Junda Wu, Yupeng Hou, Yao Liu, Ming Gao, Julian McAuley(参考訳) 現在の大規模言語モデル(llm)は、パラメータ更新でグラフ推論や生成タスクをよりうまく解決するだろうか? 本稿では,命令チューニングと選好アライメントにより,グラフ推論と生成の能力をllmに付与するフレームワークinstructgraphを提案する。 具体的には、まず、外部グラフ固有のエンコーダを使わずにグラフを単純に表現できる、すべてのグラフデータを普遍的なコードライクな形式に統一する構造化形式冗長化手法を提案する。 さらに、グラフ推論および生成タスクの解法において、LLMを誘導するグラフ命令チューニングステージを導入する。 最後に,グラフタスクの潜在的幻覚化問題と選好アライメントのためのサンプル負のインスタンスを同定し,モデルの出力信頼性を高めることを目的とする。 複数のグラフ中心タスクにわたる大規模な実験により、InstructGraphは最高のパフォーマンスを達成でき、GPT-4とLLaMA2をそれぞれ13\%と38\%以上上回る結果となった。

Do current large language models (LLMs) better solve graph reasoning and generation tasks with parameter updates? In this paper, we propose InstructGraph, a framework that empowers LLMs with the abilities of graph reasoning and generation by instruction tuning and preference alignment. Specifically, we first propose a structured format verbalizer to unify all graph data into a universal code-like format, which can simply represent the graph without any external graph-specific encoders. Furthermore, a graph instruction tuning stage is introduced to guide LLMs in solving graph reasoning and generation tasks. Finally, we identify potential hallucination problems in graph tasks and sample negative instances for preference alignment, the target of which is to enhance the output's reliability of the model. Extensive experiments across multiple graph-centric tasks exhibit that InstructGraph can achieve the best performance and outperform GPT-4 and LLaMA2 by more than 13\% and 38\%, respectively.
翻訳日:2024-02-15 17:44:09 公開日:2024-02-13
# 暗黙的神経表現の確率的訓練のためのプリコンディショナー

Preconditioners for the Stochastic Training of Implicit Neural Representations ( http://arxiv.org/abs/2402.08784v1 )

ライセンス: Link先を確認
Shin-Fang Chng, Hemanth Saratchandran, Simon Lucey(参考訳) 複雑な連続多次元信号をニューラルネットワークとして符号化する強力な技術として、暗黙の神経表現が登場し、コンピュータビジョン、ロボット工学、幾何学における幅広い応用を可能にしている。 アダムは確率的な習熟度のために訓練によく使用されるが、訓練期間は長い。 そこで我々は,精度を犠牲にすることなく,加速訓練のための代替最適化手法を検討する。 L-BFGSのような従来の2階最適化は確率的な設定では最適ではないため、大規模データセットには適さない。 代わりに、曲率認識型対角線前処理器を用いた確率的トレーニングを提案し、画像、形状再構成、ニューラルラジアンス場(NeRF)などの様々な信号モダリティで有効性を示す。

Implicit neural representations have emerged as a powerful technique for encoding complex continuous multidimensional signals as neural networks, enabling a wide range of applications in computer vision, robotics, and geometry. While Adam is commonly used for training due to its stochastic proficiency, it entails lengthy training durations. To address this, we explore alternative optimization techniques for accelerated training without sacrificing accuracy. Traditional second-order optimizers like L-BFGS are suboptimal in stochastic settings, making them unsuitable for large-scale data sets. Instead, we propose stochastic training using curvature-aware diagonal preconditioners, showcasing their effectiveness across various signal modalities such as images, shape reconstruction, and Neural Radiance Fields (NeRF).
翻訳日:2024-02-15 17:43:50 公開日:2024-02-13
# 2次元自動運転車の深部Q-Learning:カスタムトラック環境の実装と評価

Enhanced Deep Q-Learning for 2D Self-Driving Cars: Implementation and Evaluation on a Custom Track Environment ( http://arxiv.org/abs/2402.08780v1 )

ライセンス: Link先を確認
Sagar Pathak, Bidhya Shrestha and Kritish Pahi(参考訳) 本研究は,DQNネットワークの性能向上を目的とした,2次元(2次元)カスタムトラック上での自動運転車のためのディープQラーニングネットワーク(DQN)の実装を提案する。 これは、メンフィス大学の地図を囲むトラックでpygameを使ったカスタム運転環境の開発と、dqnモデルの設計と実装を含んでいる。 このアルゴリズムは、車載の7つのセンサーからのデータを利用して、車とトラックの距離を測定する。 これらのセンサーは車両の前方に位置し、20度間隔が離れており、前方の広い範囲を感知することができる。 我々は、DQNとDQNの修正版を優先的なアクション選択機構で実装し、これを修正DQNと呼ぶ。 このモデルは1000回以上訓練され、エージェントが受け取る報酬の平均は40回程度であり、これは元のdqnより約60%高く、バニラニューラルネットワークより約50%高い。

This research project presents the implementation of a Deep Q-Learning Network (DQN) for a self-driving car on a 2-dimensional (2D) custom track, with the objective of enhancing the DQN network's performance. It encompasses the development of a custom driving environment using Pygame on a track surrounding the University of Memphis map, as well as the design and implementation of the DQN model. The algorithm utilizes data from 7 sensors installed in the car, which measure the distance between the car and the track. These sensors are positioned in front of the vehicle, spaced 20 degrees apart, enabling them to sense a wide area ahead. We successfully implemented the DQN and also a modified version of the DQN with a priority-based action selection mechanism, which we refer to as modified DQN. The model was trained over 1000 episodes, and the average reward received by the agent was found to be around 40, which is approximately 60% higher than the original DQN and around 50% higher than the vanilla neural network.
翻訳日:2024-02-15 17:43:35 公開日:2024-02-13
# DNABERT-S:ゲノムモデルを用いたDNA埋め込みの学習

DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation Models ( http://arxiv.org/abs/2402.08777v1 )

ライセンス: Link先を確認
Zhihan Zhou, Winmin Wu, Harrison Ho, Jiayi Wang, Lizhen Shi, Ramana V Davuluri, Zhong Wang, Han Liu(参考訳) 効果的なDNA埋め込みは、ゲノム基盤モデルの大幅な進歩にもかかわらず、特にモデル微調整のためのラベル付きデータを持たないシナリオにおいて、ゲノム解析において重要である。 主な例としてメタゲノミクス・ビンニング(Metagenomics binning)は、微生物の研究において重要なプロセスであり、数千の異なる、しばしば非形質化された種から派生した複雑なDNA配列から、その種によってDNA配列を分類することを目的としている。 有効DNA埋め込みモデルの欠如を補うため,DNABERT-Sを導入した。 ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・識別するようモデルに訓練する、対照的な目的であるManifold Instance Mixup(MI-Mix)を導入する。 提案したC$^2$LR(Curriculum Contrastive Learning)戦略によりさらに強化する。 18種類のデータセットの実証結果から,DNABERT-Sは顕著な性能を示した。 これは、10ショットの種分類におけるトップベースラインのパフォーマンスを2ショットの訓練で上回り、また、調整されたランドインデックス(ARI)を2倍にし、メッサージノミクスのビンニングにおいて正しく同定された種の数を著しく増加させた。 コード、データ、事前学習されたモデルはhttps://github.com/zhihan1996/dnabert_sで公開されている。

Effective DNA embedding remains crucial in genomic analysis, particularly in scenarios lacking labeled data for model fine-tuning, despite the significant advancements in genome foundation models. A prime example is metagenomics binning, a critical process in microbiome research that aims to group DNA sequences by their species from a complex mixture of DNA sequences derived from potentially thousands of distinct, often uncharacterized species. To fill the lack of effective DNA embedding models, we introduce DNABERT-S, a genome foundation model that specializes in creating species-aware DNA embeddings. To encourage effective embeddings to error-prone long-read DNA sequences, we introduce Manifold Instance Mixup (MI-Mix), a contrastive objective that mixes the hidden representations of DNA sequences at randomly selected layers and trains the model to recognize and differentiate these mixed proportions at the output layer. We further enhance it with the proposed Curriculum Contrastive Learning (C$^2$LR) strategy. Empirical results on 18 diverse datasets showed DNABERT-S's remarkable performance. It outperforms the top baseline's performance in 10-shot species classification with just a 2-shot training while doubling the Adjusted Rand Index (ARI) in species clustering and substantially increasing the number of correctly identified species in metagenomics binning. The code, data, and pre-trained model are publicly available at https://github.com/Zhihan1996/DNABERT_S.
翻訳日:2024-02-15 17:43:15 公開日:2024-02-13
# LDTrack:拡散モデルを用いたサービスロボットによる動的人物追跡

LDTrack: Dynamic People Tracking by Service Robots using Diffusion Models ( http://arxiv.org/abs/2402.08774v1 )

ライセンス: Link先を確認
Angus Fung, Beno Benhabib, Goldie Nejat(参考訳) 乱雑で混み合った人間中心の環境でのダイナミックな人々の追跡は、オクルージョン、ポーズ変形、照明のバリエーションなどクラス内変異が存在するため、ロボット工学の課題である。 本稿では,条件付き潜時拡散モデルである潜時拡散トラック(ldtrack)を用いて,クラス内変動下で複数の動的人物を追跡する新しいディープラーニングアーキテクチャを提案する。 条件付き潜在拡散モデルを利用して時間的人物の埋め込みを捉えることで、我々のアーキテクチャは時間とともに人の外観変化に対応できる。 我々は,高次元の潜伏空間内での拡散処理を可能にする潜在特徴エンコーダネットワークを導入し,人物の外観,動き,位置,アイデンティティ,文脈情報などの豊富な特徴の抽出と時間的改善を可能にする。 集団実験により, クラス内変動下での混在する人中心環境において, LDTrackの他の最先端追跡法に対する効果が示された。 すなわち,本手法は,統計的に有意な追跡精度と追跡精度の両方において,既存の深層学習ロボットよりも優れることを示す。

Tracking of dynamic people in cluttered and crowded human-centered environments is a challenging robotics problem due to the presence of intraclass variations including occlusions, pose deformations, and lighting variations. This paper introduces a novel deep learning architecture, using conditional latent diffusion models, the Latent Diffusion Track (LDTrack), for tracking multiple dynamic people under intraclass variations. By uniquely utilizing conditional latent diffusion models to capture temporal person embeddings, our architecture can adapt to appearance changes of people over time. We incorporated a latent feature encoder network which enables the diffusion process to operate within a high-dimensional latent space to allow for the extraction and spatial-temporal refinement of such rich features as person appearance, motion, location, identity, and contextual information. Extensive experiments demonstrate the effectiveness of LDTrack over other state-of-the-art tracking methods in cluttered and crowded human-centered environments under intraclass variations. Namely, the results show our method outperforms existing deep learning robotic people tracking methods in both tracking accuracy and tracking precision with statistical significance.
翻訳日:2024-02-15 17:42:49 公開日:2024-02-13
# 先行制約と時間制約を考慮した衝突探索による最適タスク割り当てと経路計画

Optimal Task Assignment and Path Planning using Conflict-Based Search with Precedence and Temporal Constraints ( http://arxiv.org/abs/2402.08772v1 )

ライセンス: Link先を確認
Yu Quan Chong, Jiaoyang Li, Katia Sycara(参考訳) MAPF(Multi-Agent Path Finding)問題では、エージェントの集合に対する衝突のないパスを見つけ出し、開始時点から目標地点まで誘導する。 しかしMAPFは、いくつかの実用的なタスク関連の制約を考慮していない。 例えば、エージェントは特定の実行時間でゴール位置でアクションを実行し、所定の順序と時間枠に従う必要がある。 さらに、目標の割り当てはエージェントに対して事前に定義されず、最適化の目的には明確な定義が欠落する可能性がある。 本稿では,タスクの割り当て,経路計画,ユーザ定義の目的をコヒーレントなフレームワークに組み込むため,タスクの割り当てと経路探索を優先順位と時間的制約(tapf-ptc)の問題で検討する。 RL(Regress Learning)におけるユーザ定義報酬関数の戻りによって定量化される目的を最大化することにより,優先的制約と時間的制約に従うタスク代入と衝突のない経路を同時に生成する。 実験により,本アルゴリズムであるcbs-ta-ptc は marl に対する優先度と時間制約を効率的に処理し,目標割当・経路探索 (tapf) 法を適用できることを実証した。

The Multi-Agent Path Finding (MAPF) problem entails finding collision-free paths for a set of agents, guiding them from their start to goal locations. However, MAPF does not account for several practical task-related constraints. For example, agents may need to perform actions at goal locations with specific execution times, adhering to predetermined orders and timeframes. Moreover, goal assignments may not be predefined for agents, and the optimization objective may lack an explicit definition. To incorporate task assignment, path planning, and a user-defined objective into a coherent framework, this paper examines the Task Assignment and Path Finding with Precedence and Temporal Constraints (TAPF-PTC) problem. We augment Conflict-Based Search (CBS) to simultaneously generate task assignments and collision-free paths that adhere to precedence and temporal constraints, maximizing an objective quantified by the return from a user-defined reward function in reinforcement learning (RL). Experimentally, we demonstrate that our algorithm, CBS-TA-PTC, can solve highly challenging bomb-defusing tasks with precedence and temporal constraints efficiently relative to MARL and adapted Target Assignment and Path Finding (TAPF) methods.
翻訳日:2024-02-15 17:42:31 公開日:2024-02-13
# flash: 同時異種間の連合学習

FLASH: Federated Learning Across Simultaneous Heterogeneities ( http://arxiv.org/abs/2402.08769v1 )

ライセンス: Link先を確認
Xiangyu Chang, Sk Miraj Ahmed, Srikanth V. Krishnamurthy, Basak Guler, Ananthram Swami, Samet Oymak, Amit K. Roy-Chowdhury(参考訳) federated learning(fl)の重要な前提は、ローカルデータを交換することなく、さまざまなデータ所有者(クライアント)セットでmlモデルをトレーニングすることだ。 クライアントの不均一性は、データの分散の変化だけでなく、データ品質、計算/通信遅延からも生じる可能性がある。 例えば、低レイテンシクライアントはデータ品質が劣るかもしれないし、その逆もある。 本研究では,クライアントのデータ品質,データ分散,レイテンシに関連する統計情報を交換することで,幅広い異質性の源において最先端のflフレームワークを上回る軽量で柔軟なクライアント選択アルゴリズムであるflash(federated learning across concurrent heterogeneity)を提案する。 FLASHは、我々の知る限り、これらの不均一性を統一的に扱うための最初の方法である。 そのためにflashは、コンテキスト多腕バンディット(cmab)を通じて学習ダイナミクスをモデル化し、最も有望なクライアントを動的に選択する。 広範な実験を通じて、flashは統一アプローチのおかげで、最先端のベースライン -- 絶対精度で最大10% -- に対して、相当かつ一貫した改善を達成していることを実証した。 重要なことに、flashは、非常に異種な設定を扱うように設計されたフェデレーションアグリゲーションメソッドよりも優れており、それらとの統合によってパフォーマンスが向上する。

The key premise of federated learning (FL) is to train ML models across a diverse set of data-owners (clients), without exchanging local data. An overarching challenge to this date is client heterogeneity, which may arise not only from variations in data distribution, but also in data quality, as well as compute/communication latency. An integrated view of these diverse and concurrent sources of heterogeneity is critical; for instance, low-latency clients may have poor data quality, and vice versa. In this work, we propose FLASH(Federated Learning Across Simultaneous Heterogeneities), a lightweight and flexible client selection algorithm that outperforms state-of-the-art FL frameworks under extensive sources of heterogeneity, by trading-off the statistical information associated with the client's data quality, data distribution, and latency. FLASH is the first method, to our knowledge, for handling all these heterogeneities in a unified manner. To do so, FLASH models the learning dynamics through contextual multi-armed bandits (CMAB) and dynamically selects the most promising clients. Through extensive experiments, we demonstrate that FLASH achieves substantial and consistent improvements over state-of-the-art baselines -- as much as 10% in absolute accuracy -- thanks to its unified approach. Importantly, FLASH also outperforms federated aggregation methods that are designed to handle highly heterogeneous settings and even enjoys a performance boost when integrated with them.
翻訳日:2024-02-15 17:42:05 公開日:2024-02-13
# 乳癌診断における逆行性ロバスト特徴学習

Adversarially Robust Feature Learning for Breast Cancer Diagnosis ( http://arxiv.org/abs/2402.08768v1 )

ライセンス: Link先を確認
Degan Hao, Dooman Arefan, Margarita Zuley, Wendie Berg, Shandong Wu(参考訳) 敵対的なデータは、ディープラーニングアプリケーションの誤動作を引き起こす可能性がある。 標準でクリーンなデータで正確でありながら、敵対的データに堅牢なディープラーニングモデルを開発することが不可欠である。 本研究では, 乳がん診断の現実的応用を目的とした, 対向的頑健な特徴学習法 (ARFL) を提案する。 ARFLは、特徴相関尺度を目的関数として組み込んで、頑健な特徴の学習を促進し、刺激的な特徴を抑制する。 乳がん診断におけるARFLの効果を明らかにするため, 乳房画像9,548枚からなる2つの独立した乳房画像データセットを用いて, 診断モデルを構築し, 評価した。 われわれは,本手法がいくつかの最先端手法より優れており,臨床現場での対人攻撃に対する乳癌診断の安全性を高めることができることを示す広範な実験を行った。

Adversarial data can lead to malfunction of deep learning applications. It is essential to develop deep learning models that are robust to adversarial data while accurate on standard, clean data. In this study, we proposed a novel adversarially robust feature learning (ARFL) method for a real-world application of breast cancer diagnosis. ARFL facilitates adversarial training using both standard data and adversarial data, where a feature correlation measure is incorporated as an objective function to encourage learning of robust features and restrain spurious features. To show the effects of ARFL in breast cancer diagnosis, we built and evaluated diagnosis models using two independent clinically collected breast imaging datasets, comprising a total of 9,548 mammogram images. We performed extensive experiments showing that our method outperformed several state-of-the-art methods and that our method can enhance safer breast cancer diagnosis against adversarial attacks in clinical settings.
翻訳日:2024-02-15 17:41:36 公開日:2024-02-13
# メンタルヘルス対話における身体的AIエージェントの文脈感性バックチャネルスマイル生成の学習

Learning to Generate Context-Sensitive Backchannel Smiles for Embodied AI Agents with Applications in Mental Health Dialogues ( http://arxiv.org/abs/2402.08837v1 )

ライセンス: Link先を確認
Maneesh Bilalpur, Mert Inan, Dorsa Zeinali, Jeffrey F. Cohn and Malihe Alikhani(参考訳) 効果的なスクリーニング、診断、治療のためのメンタルヘルス資源の欠如に対処することは重要な課題である。 この不足は、特に治療支援のアクセシビリティと有効性を高めるために、革新的な解決策の必要性を浮き彫りにしている。 高度にインタラクティブな能力を持つ具体化されたエージェントは、伝統的な介護方法の有望で費用対効果の高いサプリメントとして現れる。 これらのエージェントの有効性には、バックチャネルのような非言語的な行動をシミュレートする能力が重要である。 インボディードエージェントのラプポート構築能力を向上させるため,精神保健,病気,関係性などの話題に関する親密な対面会話のビデオに,バックチャネルの笑顔を付加した。 我々は、話者とリスナーの行動がバックチャネルスマイルの持続時間と強度に影響すると仮定した。 音声韻律と言語と話者とリスナーの人口統計から得られた手がかりを用いて,バックチャネル・スマイルの強度の有意な予測因子が得られた。 本研究は,遺伝子組換え剤の逆チャネル笑顔生成を世代問題として導入した。 注意に基づく生成モデルでは,聞き手情報がベースライン話者中心生成手法よりもパフォーマンスが向上することが示唆された。 スマイル強度の有意な予測器を用いた条件付き生成は、生成品質の実証的測定において統計的に有意な改善をもたらす。 本研究では,生成した笑顔を具体化エージェントに伝達することで,バックチャネルスマイルを持つエージェントはより人間らしく,バックチャネルスマイルのないエージェントよりも非個人的会話に魅力的な選択肢であることが示唆された。

Addressing the critical shortage of mental health resources for effective screening, diagnosis, and treatment remains a significant challenge. This scarcity underscores the need for innovative solutions, particularly in enhancing the accessibility and efficacy of therapeutic support. Embodied agents with advanced interactive capabilities emerge as a promising and cost-effective supplement to traditional caregiving methods. Crucial to these agents' effectiveness is their ability to simulate non-verbal behaviors, like backchannels, that are pivotal in establishing rapport and understanding in therapeutic contexts but remain under-explored. To improve the rapport-building capabilities of embodied agents we annotated backchannel smiles in videos of intimate face-to-face conversations over topics such as mental health, illness, and relationships. We hypothesized that both speaker and listener behaviors affect the duration and intensity of backchannel smiles. Using cues from speech prosody and language along with the demographics of the speaker and listener, we found them to contain significant predictors of the intensity of backchannel smiles. Based on our findings, we introduce backchannel smile production in embodied agents as a generation problem. Our attention-based generative model suggests that listener information offers performance improvements over the baseline speaker-centric generation approach. Conditioned generation using the significant predictors of smile intensity provides statistically significant improvements in empirical measures of generation quality. Our user study by transferring generated smiles to an embodied agent suggests that agent with backchannel smiles is perceived to be more human-like and is an attractive alternative for non-personal conversations over agent without backchannel smiles.
翻訳日:2024-02-15 17:34:15 公開日:2024-02-13
# 不確実性を考慮したn$_2$o排出と気候変動を考慮した知的農業経営

Intelligent Agricultural Management Considering N$_2$O Emission and Climate Variability with Uncertainties ( http://arxiv.org/abs/2402.08832v1 )

ライセンス: Link先を確認
Zhaoan Wang, Shaoping Xiao, Jun Wang, Ashwin Parab, Shivam Patel(参考訳) 本研究では, 農業における人工知能(AI), 特に強化学習(RL)の活用方法について検討し, 農作物の収量向上, 微チューン窒素利用, 水処理, 硝酸塩流出および温室効果ガスの削減について, 土壌からの窒素酸化物(N$_2$O)排出に着目した。 気候変動や農業知識の制限に直面するため、農業環境とAIエージェントの相互作用をモデル化するために、作物シミュレーターを用いた部分観測可能なマルコフ決定プロセス(POMDP)を用いる。 本稿では,Recurrent Neural Network (RNN) を用いた深層Q-learningを適用し,最適な行動の訓練を行う。 また,N$2$O排出を予測する機械学習(ML)モデルを開発し,これらの予測をシミュレータに統合する。 本研究は,確率論的気象モデルを用いて,確率的MLアプローチと気候変動を考慮したN$2$O排出予測の不確実性に対処し,予測信頼性と意思決定を改善するための幅広い排出結果を提供する。 気候変動の影響を取り入れることで, エージェントの適応性を高め, 回復力のある農業実践を目指す。 これらのエージェントは、n$_2$o排出を罰し、温暖な気温や雨の少ない気候変化に効果的に適応することで、作物の生産性を環境問題と一致させることができる。 この戦略は気候変動下での農業経営を改善し、持続可能な農業におけるAIの役割を強調している。

This study examines how artificial intelligence (AI), especially Reinforcement Learning (RL), can be used in farming to boost crop yields, fine-tune nitrogen use and watering, and reduce nitrate runoff and greenhouse gases, focusing on Nitrous Oxide (N$_2$O) emissions from soil. Facing climate change and limited agricultural knowledge, we use Partially Observable Markov Decision Processes (POMDPs) with a crop simulator to model AI agents' interactions with farming environments. We apply deep Q-learning with Recurrent Neural Network (RNN)-based Q networks for training agents on optimal actions. Also, we develop Machine Learning (ML) models to predict N$_2$O emissions, integrating these predictions into the simulator. Our research tackles uncertainties in N$_2$O emission estimates with a probabilistic ML approach and climate variability through a stochastic weather model, offering a range of emission outcomes to improve forecast reliability and decision-making. By incorporating climate change effects, we enhance agents' climate adaptability, aiming for resilient agricultural practices. Results show these agents can align crop productivity with environmental concerns by penalizing N$_2$O emissions, adapting effectively to climate shifts like warmer temperatures and less rain. This strategy improves farm management under climate change, highlighting AI's role in sustainable agriculture.
翻訳日:2024-02-15 17:33:31 公開日:2024-02-13
# eCeLLM: 大規模かつ高品質なインストラクションデータからEコマースのための大規模言語モデルを一般化する

eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data ( http://arxiv.org/abs/2402.08831v1 )

ライセンス: Link先を確認
Bo Peng, Xinyi Ling, Ziru Chen, Huan Sun, Xia Ning(参考訳) 効果的なeコマースモデルの開発に多大な努力をすることで、従来のeコマースモデルはジェネラリストのeコマースモデリングに限られた成功を示し、新しいユーザーや新製品のパフォーマンスに不満を抱いている。 一方、大規模言語モデル(LLM)は、多くの分野において、ジェネラリストモデリングとドメイン外一般化性において優れた性能を示す。 本稿では,電子商取引における電子商取引のパワーを完全に解き放つために,電子商取引のための最初のオープンソースで大規模で高品質なベンチマークインストラクションデータセットであるECInstructを構築した。 我々はECInstructを活用し,命令チューニング汎用LLMによるeコマースLLMであるeCeLLMを開発した。 包括的実験と評価の結果、eCeLLMモデルは、最も高度なGPT-4を含むベースラインモデルや、ドメイン内評価における最先端タスク固有モデルよりも大幅に優れていることが示された。 さらに、eCeLLMは、見えない製品や見えない指示を含むドメイン外の設定に対して優れた一般化性を示し、ジェネラリストeコマースモデルとしての優位性を強調している。 ECInstructデータセットとeCeLLMモデルの両方は、電子商取引において多目的かつ効果的なLLMを強化する大きな可能性を示している。 ECInstructとeCeLLMモデルはhttps://ninglab.github.io/eCeLLMを通じて公開されている。

With tremendous efforts on developing effective e-commerce models, conventional e-commerce models show limited success in generalist e-commerce modeling, and suffer from unsatisfactory performance on new users and new products - a typical out-of-domain generalization challenge. Meanwhile, large language models (LLMs) demonstrate outstanding performance in generalist modeling and out-of-domain generalizability in many fields. Toward fully unleashing their power for e-commerce, in this paper, we construct ECInstruct, the first open-sourced, large-scale, and high-quality benchmark instruction dataset for e-commerce. Leveraging ECInstruct, we develop eCeLLM, a series of e-commerce LLMs, by instruction-tuning general-purpose LLMs. Our comprehensive experiments and evaluation demonstrate that eCeLLM models substantially outperform baseline models, including the most advanced GPT-4, and the state-of-the-art task-specific models in in-domain evaluation. Moreover, eCeLLM exhibits excellent generalizability to out-of-domain settings, including unseen products and unseen instructions, highlighting its superiority as a generalist e-commerce model. Both the ECInstruct dataset and the eCeLLM models show great potential in empowering versatile and effective LLMs for e-commerce. ECInstruct and eCeLLM models are publicly accessible through https://ninglab.github.io/eCeLLM.
翻訳日:2024-02-15 17:33:02 公開日:2024-02-13
# 言語モデルにおけるシーケンスグラフの実現と曖昧性

Sequence graphs realizations and ambiguity in language models ( http://arxiv.org/abs/2402.08830v1 )

ライセンス: Link先を確認
Sammy Khalife, Yann Ponty, Laurent Bulteau(参考訳) いくつかのポピュラー言語モデルは、入力テキスト中のローカルコンテキストを単語の袋として表現する。 このような表現は、頂点がxで生じる異なる単語である列グラフによって自然に符号化され、エッジはサイズ w のスライディングウィンドウ内で2つの単語の(順序付けられた)共起を表す。 しかし、この圧縮表現は一般に単射的ではなく、ある程度の曖昧さをもたらす可能性がある。 いくつかのシーケンスグラフは、列としていくつかの実現を許容するが、他のグラフは任意の実現を認めない。 本稿では,コンビネーションと計算の観点から,シーケンスグラフの実現可能性と曖昧性について検討する。 ウィンドウサイズw,グラフ配向の有無,重み(多重度)の存在/吸収など,複数の設定下でのシーケンスグラフの実現の有無と列挙について考察する。 w = 2 の場合、非有向/重み付け設定を除いて、すべての場合において実現可能性と列挙のための多項式時間アルゴリズムを提供する。 大きさが 3 のウィンドウでは、w が定数と見なされる場合でも、対応する W[1]-ハードネスの結果により厳密な(実現可能性と列挙性の両方)問題に対する XP アルゴリズムを提案する非方向/非重み付きケースの顕著な例外を除いて、すべての変量体の硬さを証明する。 我々は、実現可能性問題を解決するための整数プログラム定式化と、列挙問題を解くための動的プログラミングで締めくくった。 この研究は、両方の問題に対してNPへのメンバシップを開放するが、これはインスタンスエンコーディングの指数的なサイズを持つ最小化の存在による非自明な問題である。

Several popular language models represent local contexts in an input text as bags of words. Such representations are naturally encoded by a sequence graph whose vertices are the distinct words occurring in x, with edges representing the (ordered) co-occurrence of two words within a sliding window of size w. However, this compressed representation is not generally bijective, and may introduce some degree of ambiguity. Some sequence graphs may admit several realizations as a sequence, while others may not admit any realization. In this paper, we study the realizability and ambiguity of sequence graphs from a combinatorial and computational point of view. We consider the existence and enumeration of realizations of a sequence graph under multiple settings: window size w, presence/absence of graph orientation, and presence/absence of weights (multiplicities). When w = 2, we provide polynomial time algorithms for realizability and enumeration in all cases except the undirected/weighted setting, where we show the #P-hardness of enumeration. For a window of size at least 3, we prove hardness of all variants, even when w is considered as a constant, with the notable exception of the undirected/unweighted case for which we propose an XP algorithms for both (realizability and enumeration) problems, tight due to a corresponding W[1]-hardness result. We conclude with an integer program formulation to solve the realizability problem, and with dynamic programming to solve the enumeration problem. This work leaves open the membership to NP for both problems, a non-trivial question due to the existence of minimum realizations having exponential size on the instance encoding.
翻訳日:2024-02-15 17:32:37 公開日:2024-02-13
# 二次的結果を用いた個別化治療規則の活用

Fusing Individualized Treatment Rules Using Secondary Outcomes ( http://arxiv.org/abs/2402.08828v1 )

ライセンス: Link先を確認
Daiqi Gao, Yuanjia Wang, Donglin Zeng(参考訳) 個別治療規則(英: individualized treatment rule、ITR)は、個々の特徴変数に基づいて患者に対する治療を推奨する決定規則である。 多くの実践において、一次結果に理想的なITRは、他の二次結果に最小限のダメージを与えることが期待されている。 したがって、本研究の目的は、一次結果の値関数を最大化するだけでなく、二次結果の最適ルールを極力近似するITRを学習することである。 この目的を達成するために、異なる結果に基づいてITRを奨励する融合ペナルティを導入し、同様のレコメンデーションを提供する。 代理損失関数を用いてITRを推定する2つのアルゴリズムを提案する。 我々は、一次結果の推定itrと二次結果の最適itrとの一致率が、二次結果が考慮されていない場合よりも早く真の合意率に収束することを証明する。 さらに,提案手法における値関数の非漸近特性と誤分類率を導出する。 最後に、シミュレーション研究と実データ例を用いて、提案手法の有限サンプル性能を実証する。

An individualized treatment rule (ITR) is a decision rule that recommends treatments for patients based on their individual feature variables. In many practices, the ideal ITR for the primary outcome is also expected to cause minimal harm to other secondary outcomes. Therefore, our objective is to learn an ITR that not only maximizes the value function for the primary outcome, but also approximates the optimal rule for the secondary outcomes as closely as possible. To achieve this goal, we introduce a fusion penalty to encourage the ITRs based on different outcomes to yield similar recommendations. Two algorithms are proposed to estimate the ITR using surrogate loss functions. We prove that the agreement rate between the estimated ITR of the primary outcome and the optimal ITRs of the secondary outcomes converges to the true agreement rate faster than if the secondary outcomes are not taken into consideration. Furthermore, we derive the non-asymptotic properties of the value function and misclassification rate for the proposed method. Finally, simulation studies and a real data example are used to demonstrate the finite-sample performance of the proposed method.
翻訳日:2024-02-15 17:32:07 公開日:2024-02-13
# randumb: 継続的表現学習の有効性を疑問視するシンプルなアプローチ

RanDumb: A Simple Approach that Questions the Efficacy of Continual Representation Learning ( http://arxiv.org/abs/2402.08823v1 )

ライセンス: Link先を確認
Ameya Prabhu, Shiven Sinha, Ponnurangam Kumaraguru, Philip H.S. Torr, Ozan Sener, Puneet K. Dokania(参考訳) 我々は,連続表現学習の有効性を検討するためにrandumbを提案する。 RanDumb は RBF-Kernel を近似した固定ランダム変換を用いて生のピクセルを埋め込み、データを見る前に初期化し、上に単純な線形分類器を学習する。 RanDumbは、多くの連続学習ベンチマークで深層ネットワークを用いて継続的に学習された表現を著しく上回り、これらのシナリオにおける表現学習の貧弱なパフォーマンスを示す。 RanDumbは前例を保存せず、データに1回のパスを実行し、一度に1つのサンプルを処理する。 GDumbはGDumbを補完し、GDumbは特にパフォーマンスが劣る低水準で運用している。 randumb がランダム変換を事前訓練された特徴抽出器に置き換える事前訓練されたモデルを持つシナリオに拡張されると、同じ一貫した結論に達する。 我々の調査は、効率的な連続表現学習を必要とするモデルを効果的に設計し、訓練する方法の理解に疑問を投げかけており、広く研究されている問題定式化そのものを再検討する必要がある。 私たちのコードはhttps://github.com/drimpossible/randumbで利用可能です。

We propose RanDumb to examine the efficacy of continual representation learning. RanDumb embeds raw pixels using a fixed random transform which approximates an RBF-Kernel, initialized before seeing any data, and learns a simple linear classifier on top. We present a surprising and consistent finding: RanDumb significantly outperforms the continually learned representations using deep networks across numerous continual learning benchmarks, demonstrating the poor performance of representation learning in these scenarios. RanDumb stores no exemplars and performs a single pass over the data, processing one sample at a time. It complements GDumb, operating in a low-exemplar regime where GDumb has especially poor performance. We reach the same consistent conclusions when RanDumb is extended to scenarios with pretrained models replacing the random transform with pretrained feature extractor. Our investigation is both surprising and alarming as it questions our understanding of how to effectively design and train models that require efficient continual representation learning, and necessitates a principled reinvestigation of the widely explored problem formulation itself. Our code is available at https://github.com/drimpossible/RanDumb.
翻訳日:2024-02-15 17:31:49 公開日:2024-02-13
# 勾配最適化における廊下形状

Corridor Geometry in Gradient-Based Optimization ( http://arxiv.org/abs/2402.08818v1 )

ライセンス: Link先を確認
Benoit Dherin and Mihaela Rosca(参考訳) 我々は、勾配流の解である最も急勾配の連続曲線が直線になるとき、損失面の領域を廊下として特徴づける。 回廊は、勾配降下と勾配流れが同じ軌道をたどる領域であり、損失は直線的に減少するので、回廊は勾配に基づく最適化に対する洞察を与える。 その結果、廊下内部には勾配降下と勾配流の間のドリフトによって生じる暗黙の規則化効果や訓練不安定性は存在しない。 廊下における損失線形減少を利用して、勾配降下に対する学習率適応スキームを考案し、このスキームをCLR(Corridor Learning Rate)と呼ぶ。 CLRの定式化は、凸最適化の文脈で発見されたPolyakのステップサイズという特殊なケースと一致する。 polyakのステップサイズはニューラルネットワークにも優れた収束性があることが最近示されている。

We characterize regions of a loss surface as corridors when the continuous curves of steepest descent -- the solutions of the gradient flow -- become straight lines. We show that corridors provide insights into gradient-based optimization, since corridors are exactly the regions where gradient descent and the gradient flow follow the same trajectory, while the loss decreases linearly. As a result, inside corridors there are no implicit regularization effects or training instabilities that have been shown to occur due to the drift between gradient descent and the gradient flow. Using the loss linear decrease on corridors, we devise a learning rate adaptation scheme for gradient descent; we call this scheme Corridor Learning Rate (CLR). The CLR formulation coincides with a special case of Polyak step-size, discovered in the context of convex optimization. The Polyak step-size has been shown recently to have also good convergence properties for neural networks; we further confirm this here with results on CIFAR-10 and ImageNet.
翻訳日:2024-02-15 17:31:27 公開日:2024-02-13
# 非有界ステップコストMDPにおけるモデル近似

Model approximation in MDPs with unbounded per-step cost ( http://arxiv.org/abs/2402.08813v1 )

ライセンス: Link先を確認
Berk Bozkurt, Aditya Mahajan, Ashutosh Nayyar, Yi Ouyang(参考訳) 我々は、無限水平割引コストのMarkov決定プロセス$\mathcal{M}$に対して、近似モデル$\hat{\mathcal{M}}$にしかアクセスできない場合に制御ポリシーを設計する問題を考える。 近似モデルの最適ポリシー $\hat{\pi}^{\star}$ は、元のモデル $\mathcal{m}$ で使われる場合、どれくらいうまく動作するか? 我々は、$\mathcal{m}$ で使われるとき、$\hat{\pi}^\star $ の値関数と$\mathcal{m}$ の最適値関数との差の重み付きノルムを境界として、この質問に答える。 そして、ステップごとのコストのアフィン変換を考慮し、結果を拡張し、より強固な上限を得る。 さらに、原モデルと近似モデルの遷移核間の重み付き距離とコスト関数間の重み付き距離に明示的に依存する上界を提供する。 結果を説明するための例を示す。

We consider the problem of designing a control policy for an infinite-horizon discounted cost Markov decision process $\mathcal{M}$ when we only have access to an approximate model $\hat{\mathcal{M}}$. How well does an optimal policy $\hat{\pi}^{\star}$ of the approximate model perform when used in the original model $\mathcal{M}$? We answer this question by bounding a weighted norm of the difference between the value function of $\hat{\pi}^\star $ when used in $\mathcal{M}$ and the optimal value function of $\mathcal{M}$. We then extend our results and obtain potentially tighter upper bounds by considering affine transformations of the per-step cost. We further provide upper bounds that explicitly depend on the weighted distance between cost functions and weighted distance between transition kernels of the original and approximate models. We present examples to illustrate our results.
翻訳日:2024-02-15 17:31:11 公開日:2024-02-13
# Intelligent Canvas: 高速プロトタイピング,イテレーション,キュレーションによるデザインライクな探索的ビジュアルデータ解析の実現

Intelligent Canvas: Enabling Design-Like Exploratory Visual Data Analysis through Rapid Prototyping, Iteration and Curation ( http://arxiv.org/abs/2402.08812v1 )

ライセンス: Link先を確認
Zijian Ding, Joel Chan(参考訳) 複雑なデータ分析は、本質的には、探索的 \re{visual analysis} 法による予期せぬ洞察を求め、論理的、段階的に処理する。 しかし、ノートやダッシュボードのような既存のインターフェイスは、ビジュアルデータ分析のための探索と比較に制限がある。 これらの制限に対処するために,生成aiをデータ分析に統合した"デザインライクな"インテリジェントキャンバス環境を導入し,迅速なプロトタイピング,イテレーション,比較可視化管理を提供する。 この2つのコントリビューションには、生成AIコンポーネントをキャンバスインターフェースに統合することや、キャンバスインターフェースの有効性を評価するユーザスタディ(N=10)による経験的発見が含まれている。

Complex data analysis inherently seeks unexpected insights through exploratory \re{visual analysis} methods, transcending logical, step-by-step processing. However, \re{existing interfaces such as notebooks and dashboards have limitations in exploration and comparison for visual data analysis}. Addressing these limitations, we introduce a "design-like" intelligent canvas environment integrating generative AI into data analysis, offering rapid prototyping, iteration, and comparative visualization management. Our dual contributions include the integration of generative AI components into a canvas interface, and empirical findings from a user study (N=10) evaluating the effectiveness of the canvas interface.
翻訳日:2024-02-15 17:30:51 公開日:2024-02-13
# マルチスケール光神経科学のための深層および浅層データサイエンス

Deep and shallow data science for multi-scale optical neuroscience ( http://arxiv.org/abs/2402.08811v1 )

ライセンス: Link先を確認
Gal Mishne and Adam Charles(参考訳) 過去20年間で、脳の光学的イメージングは劇的に拡大した。 新しい光学、指標、実験パラダイムにより、シナプスから大脳皮質全体へのインビボイメージングが可能になった。 スケールにわたるデータの洪水に合わせるため、生物学的に関係のある情報を抽出する必要性を満たす計算方法が継続的に開発されている。 この追求では、特定のアルゴリズムを必要とするいくつかの領域(例えば、SNRとマイクロスケールデータの解像度制限)で課題が発生する。 これらのアルゴリズムは、例えば最先端の機械学習を使用して、所定のスケールの詳細を最大限に学習し、処理パイプラインを最適化することができる。 対照的に、グラフ信号処理のような他の手法は、神経画像のスケールに共通する特定のサブプロブレムに対する解決策を提供するために、スケール固有の詳細の一部を抽象化しようとする。 本稿では,データ品質と可変性がアルゴリズムの利用や普及を阻害する可能性を明らかにすることを目的として,アルゴリズム設計の限界とトレードオフについて議論する。

Optical imaging of the brain has expanded dramatically in the past two decades. New optics, indicators, and experimental paradigms are now enabling in-vivo imaging from the synaptic to the cortex-wide scales. To match the resulting flood of data across scales, computational methods are continuously being developed to meet the need of extracting biologically relevant information. In this pursuit, challenges arise in some domains (e.g., SNR and resolution limits in micron-scale data) that require specialized algorithms. These algorithms can, for example, make use of state-of-the-art machine learning to maximally learn the details of a given scale to optimize the processing pipeline. In contrast, other methods, however, such as graph signal processing, seek to abstract away from some of the details that are scale-specific to provide solutions to specific sub-problems common across scales of neuroimaging. Here we discuss limitations and tradeoffs in algorithmic design with the goal of identifying how data quality and variability can hamper algorithm use and dissemination.
翻訳日:2024-02-15 17:30:38 公開日:2024-02-13
# ノルム境界無限幅ニューラルネットワークにおける深さ分離

Depth Separation in Norm-Bounded Infinite-Width Neural Networks ( http://arxiv.org/abs/2402.08808v1 )

ライセンス: Link先を確認
Suzanna Parkinson, Greg Ongie, Rebecca Willett, Ohad Shamir, Nathan Srebro(参考訳) 無限幅ニューラルネットワークにおける深度分離について検討し,重みの総和$\ell_2$-norm(ネットワーク内の全重みの平方数)で複雑性を制御した。 従来の深さ分離の結果は幅の分離に焦点が当てられていたが,ネットワーク幅が不有界である場合でも,ネットワークの一般化をうまく学べるかどうか,深度が決定できるかどうかの洞察は得られていない。 ここでは,学習能力に必要なサンプルの複雑さの観点から分離について検討する。 具体的には、ノルム制御深度-3 reluネットワークによる入力次元におけるサンプル複雑性多項式で学習できるが、ノルム制御深さ2 reluネットワークによるサブ指数的サンプル複雑性では学習できない関数が存在することを示す。 また、逆方向の同様の文は不可能であり、標準制御深度-2 ReLU ネットワークで多項式サンプルの複雑性を学習可能な関数は、標準制御深度-3 ReLU ネットワークで多項式サンプルの複雑性を学習できる。

We study depth separation in infinite-width neural networks, where complexity is controlled by the overall squared $\ell_2$-norm of the weights (sum of squares of all weights in the network). Whereas previous depth separation results focused on separation in terms of width, such results do not give insight into whether depth determines if it is possible to learn a network that generalizes well even when the network width is unbounded. Here, we study separation in terms of the sample complexity required for learnability. Specifically, we show that there are functions that are learnable with sample complexity polynomial in the input dimension by norm-controlled depth-3 ReLU networks, yet are not learnable with sub-exponential sample complexity by norm-controlled depth-2 ReLU networks (with any value for the norm). We also show that a similar statement in the reverse direction is not possible: any function learnable with polynomial sample complexity by a norm-controlled depth-2 ReLU network with infinite width is also learnable with polynomial sample complexity by a norm-controlled depth-3 ReLU network.
翻訳日:2024-02-15 17:30:22 公開日:2024-02-13
# 複数の大規模言語モデルからの洞察を組み合わせることで診断精度が向上

Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy ( http://arxiv.org/abs/2402.08806v1 )

ライセンス: Link先を確認
Gioele Barabucci, Victor Shia, Eugene Chu, Benjamin Harack, Nathan Fu(参考訳) 背景: OpenAIのGPT-4やGoogleのPaLM 2のような大規模言語モデル(LLM)は、実行可能な診断支援ツールとして提案されている。 しかし、医学的なトピックを専門に訓練したllmでさえ、実際の応用に十分な診断精度を欠く可能性がある。 方法: 集団知能法と実生活症例200件の臨床検査データを用いて, 個別の商用LCM(OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama)を問うことにより得られた鑑別診断の精度を評価し, 比較した。 2)同一のllmの組み合わせから応答を集約して合成した鑑別診断の精度に逆らう。 結果: 複数 LLM からの応答の集約は, 単一の LLM が生成する差分診断と比較して, より正確な差分診断(平均精度: 75.3 % pm 1.6pp$)につながることがわかった(平均精度: 59.0 % pm 6.1pp$)。 考察: 異なるLSMの応答を組み合わせた差分診断を合成するための集団知能法を用いることで, 診断支援ツールとしてのLCMの受容に向けた必要な2つのステップが達成される: 1) 高い診断精度を示し, (2) 単一商用ベンダーへの依存を排除した。

Background: Large language models (LLMs) such as OpenAI's GPT-4 or Google's PaLM 2 are proposed as viable diagnostic support tools or even spoken of as replacements for "curbside consults". However, even LLMs specifically trained on medical topics may lack sufficient diagnostic accuracy for real-life applications. Methods: Using collective intelligence methods and a dataset of 200 clinical vignettes of real-life cases, we assessed and compared the accuracy of differential diagnoses obtained by asking individual commercial LLMs (OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama 2) against the accuracy of differential diagnoses synthesized by aggregating responses from combinations of the same LLMs. Results: We find that aggregating responses from multiple, various LLMs leads to more accurate differential diagnoses (average accuracy for 3 LLMs: $75.3\%\pm 1.6pp$) compared to the differential diagnoses produced by single LLMs (average accuracy for single LLMs: $59.0\%\pm 6.1pp$). Discussion: The use of collective intelligence methods to synthesize differential diagnoses combining the responses of different LLMs achieves two of the necessary steps towards advancing acceptance of LLMs as a diagnostic support tool: (1) demonstrate high diagnostic accuracy and (2) eliminate dependence on a single commercial vendor.
翻訳日:2024-02-15 17:30:00 公開日:2024-02-13
# ChatGPT vs. LLaMA: スタックオーバーフローにおける影響、信頼性、課題

ChatGPT vs LLaMA: Impact, Reliability, and Challenges in Stack Overflow Discussions ( http://arxiv.org/abs/2402.08801v1 )

ライセンス: Link先を確認
Leuson Da Silva and Jordan Samhi and Foutse Khomh(参考訳) 2022年11月にリリースされて以来、ChatGPTは、プログラミングとソフトウェア開発に関する開発者の問い合わせのための主要なプラットフォームであるStack Overflowを揺るがした。 ChatGPTは、技術的疑問に対する人間的な即時応答を生成する能力を示し、生成AIの時代における人間駆動プラットフォームの役割の進化について、開発者コミュニティ内での議論に火をつけた。 ChatGPTのリリースから2ヶ月後、MetaはLLaMAという独自のLarge Language Model (LLM)で回答を発表した。 そこで我々は,Stack Overflowからの質問を分析し,これらのLSMを用いて対処する実験を行った。 このようにして、私たちは (ii) Stack Overflowで時間の経過とともにユーザエンゲージメントの進化を測定する。 2) LLMsの回答の信頼性と長期にわたってStack Overflowを置き換える可能性の定量化。 三 LLMが失敗した理由を特定し、理解すること。 (4)LLMの比較。 ChatGPTとLLaMAは人間の専門知識に挑戦するが、一部のドメインではそれを上回りません。 また,新たなLSMの使用と開発に関する知見がもたらす影響についても考察した。

Since its release in November 2022, ChatGPT has shaken up Stack Overflow, the premier platform for developers' queries on programming and software development. Demonstrating an ability to generate instant, human-like responses to technical questions, ChatGPT has ignited debates within the developer community about the evolving role of human-driven platforms in the age of generative AI. Two months after ChatGPT's release, Meta released its answer with its own Large Language Model (LLM) called LLaMA: the race was on. We conducted an empirical study analyzing questions from Stack Overflow and using these LLMs to address them. This way, we aim to (ii) measure user engagement evolution with Stack Overflow over time; (ii) quantify the reliability of LLMs' answers and their potential to replace Stack Overflow in the long term; (iii) identify and understand why LLMs fails; and (iv) compare LLMs together. Our empirical results are unequivocal: ChatGPT and LLaMA challenge human expertise, yet do not outperform it for some domains, while a significant decline in user posting activity has been observed. Furthermore, we also discuss the impact of our findings regarding the usage and development of new LLMs.
翻訳日:2024-02-15 17:29:32 公開日:2024-02-13
# 時間変化制約を用いた投影自由なオンライン凸最適化

Projection-Free Online Convex Optimization with Time-Varying Constraints ( http://arxiv.org/abs/2402.08799v1 )

ライセンス: Link先を確認
Dan Garber, Ben Kretzu(参考訳) 本稿では,オンライン凸最適化を,動作を固定制約集合として実行可能とし,さらに時間変動制約を概ね満たすために平均的に要求する,敵対的時間変動制約と組み合わせることを考える。 固定可能な集合(ハード制約)が投影し難いシナリオによって動機付けられ、線形最適化オラクル(LOO)を通してのみこの集合にアクセスするプロジェクションフリーアルゴリズムを考える。 我々は、長さ$t$ のシーケンス上で、loo への$t$ コールを使用して、$\tilde{o}(t^{3/4})$ regret w.r.t の損失と$o(t^{7/8})$制約違反($t$を除くすべての量を無視している)を保証するアルゴリズムを提案する。 特に、これらの境界は列の任意の間隔を保持する。 また、ソフト制約への1次オラクルアクセスのみを必要とするより効率的なアルゴリズムを提案し、シーケンス全体と類似のバウンダリを実現する。 我々は、後者をバンディットフィードバックの設定に拡張し、期待値の同様の境界($t$の関数として)を得る。

We consider the setting of online convex optimization with adversarial time-varying constraints in which actions must be feasible w.r.t. a fixed constraint set, and are also required on average to approximately satisfy additional time-varying constraints. Motivated by scenarios in which the fixed feasible set (hard constraint) is difficult to project on, we consider projection-free algorithms that access this set only through a linear optimization oracle (LOO). We present an algorithm that, on a sequence of length $T$ and using overall $T$ calls to the LOO, guarantees $\tilde{O}(T^{3/4})$ regret w.r.t. the losses and $O(T^{7/8})$ constraints violation (ignoring all quantities except for $T$) . In particular, these bounds hold w.r.t. any interval of the sequence. We also present a more efficient algorithm that requires only first-order oracle access to the soft constraints and achieves similar bounds w.r.t. the entire sequence. We extend the latter to the setting of bandit feedback and obtain similar bounds (as a function of $T$) in expectation.
翻訳日:2024-02-15 17:29:10 公開日:2024-02-13
# スピン結合分子軌道:化学直観と量子化学

Spin-coupled molecular orbitals: chemical intuition meets quantum chemistry ( http://arxiv.org/abs/2402.08858v1 )

ライセンス: Link先を確認
Daniel Marti-Dafcik, Nicholas Lee, Hugh G. A. Burton, David P. Tew(参考訳) 分子軌道理論は、化学結合を理解するための概念的ツールとして、および初期量子化学の理論的枠組みとして強力である。 その成功にもかかわらず、mo理論はディラディカル状態やホモリシス結合分裂を正確に記述できないという欠点を十分に記述している。 この貢献として、スピン結合根基状態を含む一般化MO理論を導入する。 結合が破られると電子状態が少数の原子価配置の間で遷移し、非局在化分子軌道とスピン結合した局所化軌道の両方の占有によって特徴づけられる。 本理論は,ab initio理論と組み合わせた化学結合モデルを提供し,化学的に直感的かつ定性的に正確である。 我々の理論の活用は古典的な計算に重大な課題をもたらすが、スピン結合状態の予測可能な構造は量子コンピュータを利用するアルゴリズムに理想的である。 本手法は,初期状態重なり問題を克服し,量子計算化学の可能性を解き放つための系統的経路を提供する。

Molecular orbital theory is powerful both as a conceptual tool for understanding chemical bonding, and as a theoretical framework for ab initio quantum chemistry. Despite its undoubted success, MO theory has well documented shortcomings, most notably that it fails to correctly describe diradical states and homolytic bond fission. In this contribution, we introduce a generalised MO theory that includes spin-coupled radical states. We show through archetypical examples that when bonds break, the electronic state transitions between a small number of valence configurations, characterised by occupation of both delocalised molecular orbitals and spin-coupled localised orbitals. Our theory provides a model for chemical bonding that is both chemically intuitive and qualitatively accurate when combined with ab initio theory. Although exploitation of our theory presents significant challenges for classical computing, the predictable structure of spin-coupled states is ideally suited to algorithms that exploit quantum computers. Our approach provides a systematic route to overcoming the initial state overlap problem and unlocking the potential of quantum computational chemistry.
翻訳日:2024-02-15 17:19:33 公開日:2024-02-13
# 関係関数の近似と注意機構

Approximation of relation functions and attention mechanisms ( http://arxiv.org/abs/2402.08856v1 )

ライセンス: Link先を確認
Awni Altabaa, John Lafferty(参考訳) ニューラルネットワークの特徴マップの内部積は、入力間の関係をモデル化する方法として、幅広い機械学習フレームワークに現れる。 本研究では,ニューラルネットワークの内部積の近似特性について検討する。 自己を持つ多層パーセプトロンの内積は、対称正定値関係関数の普遍的近似子であることが示されている。 非対称関係関数の場合、2つの異なる多層パーセプトロンの内積は普遍的近似子であることが示されている。 どちらの場合も、与えられた近似の精度を達成するのに必要なニューロンの数にバウンドが与えられる。 対称の場合、函数類は再生核ヒルベルト空間の核と同一視できるが、非対称の場合、函数類は再生核バナッハ空間の核と同一視することができる。 最後に、これらの近似結果をトランスフォーマーの基盤となるアテンションメカニズムの解析に適用し、抽象的なプレオーダーによって定義された任意の検索機構が、その内部積関係を通してアテンションによって近似可能であることを示す。 この結果は、経済学におけるデブリュー表現定理を用いて、実用関数の観点で選好関係を表現する。

Inner products of neural network feature maps arises in a wide variety of machine learning frameworks as a method of modeling relations between inputs. This work studies the approximation properties of inner products of neural networks. It is shown that the inner product of a multi-layer perceptron with itself is a universal approximator for symmetric positive-definite relation functions. In the case of asymmetric relation functions, it is shown that the inner product of two different multi-layer perceptrons is a universal approximator. In both cases, a bound is obtained on the number of neurons required to achieve a given accuracy of approximation. In the symmetric case, the function class can be identified with kernels of reproducing kernel Hilbert spaces, whereas in the asymmetric case the function class can be identified with kernels of reproducing kernel Banach spaces. Finally, these approximation results are applied to analyzing the attention mechanism underlying Transformers, showing that any retrieval mechanism defined by an abstract preorder can be approximated by attention through its inner product relations. This result uses the Debreu representation theorem in economics to represent preference relations in terms of utility functions.
翻訳日:2024-02-15 17:19:14 公開日:2024-02-13
# GhostWriter: パーソナライゼーションとエージェンシーによるコラボレーション型AI記述体験の拡大

GhostWriter: Augmenting Collaborative Human-AI Writing Experiences Through Personalization and Agency ( http://arxiv.org/abs/2402.08855v1 )

ライセンス: Link先を確認
Catherine Yeh, Gonzalo Ramos, Rachel Ng, Andy Huntington, Richard Banks(参考訳) 大規模言語モデル(LLM)はより広く普及し、様々な形式の筆記補助を提供するのにユビキタスな用途を見出した。 しかし,LSMを利用した書記システムでは,個人化や制御の制限によりユーザをフラストレーションし,迅速なエンジニアリングの経験が欠如している場合にはさらに悪化させる可能性がある。 私たちはデザインをこれらの課題に対処する方法の1つと考え、ユーザーが強化されたエージェンシーとパーソナライゼーションをエクササイズできるaiエンハンスメントライティングデザインプローブであるghostwriterを紹介します。 GhostWriter は LLM を活用して,ユーザの意図した書き込みスタイルを暗黙的に学習すると同時に,手動のスタイル編集やアノテーションを通じて明示的な指導モーメントを可能にする。 GhostWriterを2つの異なる書き込みタスクで使用した18人の参加者を対象に、ユーザがパーソナライズされたテキスト世代の作成を支援し、システムの書き込みスタイルを制御する複数の方法を提供する。 本研究は,AIを活用した文章作成と今後の作業へのデザインレコメンデーションの提供に関する知見を提示する。

Large language models (LLMs) are becoming more prevalent and have found a ubiquitous use in providing different forms of writing assistance. However, LLM-powered writing systems can frustrate users due to their limited personalization and control, which can be exacerbated when users lack experience with prompt engineering. We see design as one way to address these challenges and introduce GhostWriter, an AI-enhanced writing design probe where users can exercise enhanced agency and personalization. GhostWriter leverages LLMs to learn the user's intended writing style implicitly as they write, while allowing explicit teaching moments through manual style edits and annotations. We study 18 participants who use GhostWriter on two different writing tasks, observing that it helps users craft personalized text generations and empowers them by providing multiple ways to control the system's writing style. From this study, we present insights regarding people's relationship with AI-assisted writing and offer design recommendations for future work.
翻訳日:2024-02-15 17:18:57 公開日:2024-02-13
# ハイブリッド逆強化学習

Hybrid Inverse Reinforcement Learning ( http://arxiv.org/abs/2402.08848v1 )

ライセンス: Link先を確認
Juntao Ren, Gokul Swamy, Zhiwei Steven Wu, J. Andrew Bagnell, Sanjiban Choudhury(参考訳) 模倣学習に対する逆強化学習は二重刃の剣である。 一方、少数の専門家によるデモから学ぶことは、行動的クローニングアプローチよりも、エラーの複雑化に対して堅牢である。 一方,学習者は計算コストのかかる強化学習(RL)問題を繰り返し解く必要がある。 多くの場合、この計算の多くは専門家と非常に異なるポリシーを検索するのに費やされている。 本研究では,オンラインデータとエキスパートデータの混在を学習するハイブリッドRLを用いて,不要な探索を抑えることを提案する。 直感的には、専門家データは学習者がトレーニング中に良い状態に焦点を合わせ、強力なポリシーを計算するのに必要な探索量を削減します。 特に、そのようなアプローチでは学習者を環境内の任意の状態にリセットする必要がない。 より正式には、逆RLから専門家競合RL(グローバル最適RLではなく)への還元により、IRLアプローチの利点を維持しつつ、内部ポリシー探索ループ間の相互作用を劇的に低減できる。 これにより、強力なポリシー性能を保証するモデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出できる。 経験的に、当社のアプローチは、標準的な逆rlや他の一連の連続制御タスクのベースラインよりもはるかにサンプル効率が高いことが分かりました。

The inverse reinforcement learning approach to imitation learning is a double-edged sword. On the one hand, it can enable learning from a smaller number of expert demonstrations with more robustness to error compounding than behavioral cloning approaches. On the other hand, it requires that the learner repeatedly solve a computationally expensive reinforcement learning (RL) problem. Often, much of this computation is wasted searching over policies very dissimilar to the expert's. In this work, we propose using hybrid RL -- training on a mixture of online and expert data -- to curtail unnecessary exploration. Intuitively, the expert data focuses the learner on good states during training, which reduces the amount of exploration required to compute a strong policy. Notably, such an approach doesn't need the ability to reset the learner to arbitrary states in the environment, a requirement of prior work in efficient inverse RL. More formally, we derive a reduction from inverse RL to expert-competitive RL (rather than globally optimal RL) that allows us to dramatically reduce interaction during the inner policy search loop while maintaining the benefits of the IRL approach. This allows us to derive both model-free and model-based hybrid inverse RL algorithms with strong policy performance guarantees. Empirically, we find that our approaches are significantly more sample efficient than standard inverse RL and several other baselines on a suite of continuous control tasks.
翻訳日:2024-02-15 17:18:38 公開日:2024-02-13
# 時空ブリッジディフフュージョン

Space-Time Bridge-Diffusion ( http://arxiv.org/abs/2402.08847v1 )

ライセンス: Link先を確認
Hamidreza Behjoo, Michael Chertkov(参考訳) 本研究では,高次元実数値確率分布から独立かつ同値に分布する新しい合成試料を,基底真理(gt)標本集合によって暗黙的に定義される新しい手法を提案する。 本手法の中心は,時空間次元と空間次元にまたがる時空間混合戦略の統合である。 提案手法は,GTサンプルで表される対象分布への抽出容易な初期確率分布から最適輸送を実現するために設計された3つの相互関係確率過程に基礎を置いている。 (a)ガウス条件付き確率密度を与える時空混合を含む線形過程 b) 初期状態ベクトルと最終状態ベクトルに条件付されたそれらのブリッジ拡散アナログ (c) スコアマッチングによる非線形確率過程の洗練 我々のトレーニング体制の要点は、非線形モデルと潜在的に線形モデルを微調整し、GTデータと密接に一致させることである。 数値実験による時空拡散手法の有効性を検証し,より広範な将来理論と実験の基盤を築き,本手法の完全認証,特により効率的な(おそらくシミュレーション不要な)推論を提供する。

In this study, we introduce a novel method for generating new synthetic samples that are independent and identically distributed (i.i.d.) from high-dimensional real-valued probability distributions, as defined implicitly by a set of Ground Truth (GT) samples. Central to our method is the integration of space-time mixing strategies that extend across temporal and spatial dimensions. Our methodology is underpinned by three interrelated stochastic processes designed to enable optimal transport from an easily tractable initial probability distribution to the target distribution represented by the GT samples: (a) linear processes incorporating space-time mixing that yield Gaussian conditional probability densities, (b) their bridge-diffusion analogs that are conditioned to the initial and final state vectors, and (c) nonlinear stochastic processes refined through score-matching techniques. The crux of our training regime involves fine-tuning the nonlinear model, and potentially the linear models - to align closely with the GT data. We validate the efficacy of our space-time diffusion approach with numerical experiments, laying the groundwork for more extensive future theory and experiments to fully authenticate the method, particularly providing a more efficient (possibly simulation-free) inference.
翻訳日:2024-02-15 17:18:17 公開日:2024-02-13
# 強 ASR 容量 LLM に対する恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for LLM with Strong ASR Capacity ( http://arxiv.org/abs/2402.08846v1 )

ライセンス: Link先を確認
Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, Shiliang Zhang, Xie Chen(参考訳) 本稿では,音声認識(asr)という音声処理分野における最も重要な課題の1つを,音声認識基盤エンコーダと大規模言語モデル(llm)を用いて解決することに焦点を当てる。 最近の作品では、音声エンコーダの出力を時間的に圧縮する、プロジェクタのモードアライメントに取り組む、llmのパラメータ効率の良い微調整を行うといった複雑な設計がなされている。 そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。 より具体的には、LLMと音声エンコーダの様々な組み合わせをベンチマークし、探索することにより、SLAM-ASRと呼ばれる最適なLLMベースのASRシステムを実現する。 提案されたSLAM-ASRはクリーンなセットアップと、線形プロジェクタのみを訓練するタスク固有の設計を提供する。 我々の知る限り、SLAM-ASR は LLM ベースの ASR モデルの中で Librispeech ベンチマークで最高の性能を達成し、また、大規模なペアデータに基づいてトレーニングされた最新の LLM ベースのオーディオユニバーサルモデルよりも優れています。 最後に,LLMに基づくASRのモーダルアライメントプロセスにおける能力の出現について検討する。 我々は,LLMを多機能化して拡張する研究を促進し,LLMベースのASRコミュニティに光を当てることを望む。

In this paper, we focus on solving one of the most important tasks in the field of speech processing, i.e., automatic speech recognition (ASR), with speech foundation encoders and large language models (LLM). Recent works have complex designs such as compressing the output temporally for the speech encoder, tackling modal alignment for the projector, and utilizing parameter-efficient fine-tuning for the LLM. We found that delicate designs are not necessary, while an embarrassingly simple composition of off-the-shelf speech encoder, LLM, and the only trainable linear projector is competent for the ASR task. To be more specific, we benchmark and explore various combinations of LLMs and speech encoders, leading to the optimal LLM-based ASR system, which we call SLAM-ASR. The proposed SLAM-ASR provides a clean setup and little task-specific design, where only the linear projector is trained. To the best of our knowledge, SLAM-ASR achieves the best performance on the Librispeech benchmark among LLM-based ASR models and even outperforms the latest LLM-based audio-universal model trained on massive pair data. Finally, we explore the capability emergence of LLM-based ASR in the process of modal alignment. We hope that our study can facilitate the research on extending LLM with cross-modality capacity and shed light on the LLM-based ASR community.
翻訳日:2024-02-15 17:17:59 公開日:2024-02-13
# 因果説明のための2段階摂動試験による必要・十分性の特徴

Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation ( http://arxiv.org/abs/2402.08845v1 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Zhengting Huang, Yuxuan Zhu, Julien Horwood, Zhifeng Hao, Zijian Li, Jose Miguel Hernandez-Lobato(参考訳) We investigate the problem of explainability in machine learning.To address this problem, Feature Attribution Methods (FAMs) measure the contribution of each feature through a perturbation test, where the difference in prediction is compared under different perturbations.However, such perturbation tests may not accurately distinguish the contributions of different features, when their change in prediction is the same after perturbation.In order to enhance the ability of FAMs to distinguish different features' contributions in this challenging setting, we propose to utilize the probability (PNS) that perturbing a feature is a necessary and sufficient cause for the prediction to change as a measure of feature importance.Our approach, Feature Attribution with Necessity and Sufficiency (FANS), computes the PNS via a perturbation test involving two stages (factual and interventional). 実際には,反事実サンプルを生成するために,観測されたサンプルに対する再サンプリングに基づくアプローチを用いて条件分布を近似し,最後に,ファンと勾配に基づく最適化を組み合わせることで,そのサブセットを最大psnで抽出し,ファンが既存の機能帰属手法を6つのベンチマークで上回ることを示す。

We investigate the problem of explainability in machine learning.To address this problem, Feature Attribution Methods (FAMs) measure the contribution of each feature through a perturbation test, where the difference in prediction is compared under different perturbations.However, such perturbation tests may not accurately distinguish the contributions of different features, when their change in prediction is the same after perturbation.In order to enhance the ability of FAMs to distinguish different features' contributions in this challenging setting, we propose to utilize the probability (PNS) that perturbing a feature is a necessary and sufficient cause for the prediction to change as a measure of feature importance.Our approach, Feature Attribution with Necessity and Sufficiency (FANS), computes the PNS via a perturbation test involving two stages (factual and interventional).In practice, to generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution.Finally, we combine FANS and gradient-based optimization to extract the subset with the largest PNS.We demonstrate that FANS outperforms existing feature attribution methods on six benchmarks.
翻訳日:2024-02-15 17:17:30 公開日:2024-02-13
# 読み出し後復号によるパリティエンコーディングに基づくアニールの誤り補正

Error correction of parity-encoding-based annealing through post-readout decoding ( http://arxiv.org/abs/2402.08839v1 )

ライセンス: Link先を確認
Yoshihiro Nambu(参考訳) Lechner, Hauke, Zoller らは、平面基板上に作製されたスピン間の幾何学的局所的相互作用のみを用いて、短期QAハードウェアにおける限られた接続性の問題を回避するために、QA(quantum annealing) のためのパリティ符号化スピン埋め込み方式を提案した。 それにもかかわらず、論理情報の冗長符号化、すなわち多くのスピンを使って論理情報を埋め込み、計算コストを増加させ、効率を低下させる。 本研究では,この冗長符号化をモンテカルロシミュレーションにより,論理情報を取得するためにスピンの適切なデコード,すなわち古典後処理を組み込むことにより,パリティエンコード方式の非効率性と計算コストの問題を解決することができることを示した。 本研究は,QAを短期量子技術で実現するためのパリティ符号化方式の可能性を明らかにするものである。

Lechner, Hauke, and Zoller proposed a parity-encoded spin-embedding scheme for quantum annealing (QA) with all-to-all connectivity to avoid the issue of limited connectivity in near-term QA hardware and to enable the implementation thereof using only geometrically local interactions between spins fabricated on the planar substrate. Nevertheless, the redundant encoding of logical information, i.e., using a large number of spins to embed the logical information, increases the computational cost and reduces the efficiency. In this study, we show through Monte Carlo simulation that this redundant encoding may be exploited to solve the problems of the inefficiency and computational cost of the parity-encoded scheme by incorporating appropriate decoding, namely classical post-processing, of the spins to retrieve the logical information. Our findings open up the possibility of parity-encoded schemes for realizing the QA with near-term quantum technologies.
翻訳日:2024-02-15 17:17:13 公開日:2024-02-13
# Premier-TACO : 時間的行動駆動型コントラスト損失によるマルチタスク表現の事前学習

Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss ( http://arxiv.org/abs/2402.06187v3 )

ライセンス: Link先を確認
Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daum\'e III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang(参考訳) 逐次意思決定タスクにおける数ショットポリシー学習効率の向上を目的としたマルチタスク特徴表現学習手法であるPremier-TACOを提案する。 Premier-TACOは、一般的な特徴表現を事前トレーニングするために、マルチタスクのオフラインデータセットのサブセットを活用する。 これは、新しいネガティブなサンプルサンプリング戦略を取り入れることで、最先端の視覚制御タスクで知られている時間的アクションコントラッシブラーニング(TACO)の目標を推し進める。 この戦略は、TACOの計算効率を大幅に向上させ、大規模なマルチタスクのオフライン事前訓練を可能にするために重要である。 Deepmind Control Suite, MetaWorld, LIBEROなど, 多様な連続制御ベンチマークにおいて, 視覚表現の事前訓練におけるPremier-TACOの有効性を実証し, 新規タスクの数発の模倣学習を著しく向上させた。 我々のコード、事前トレーニングデータ、および事前トレーニングされたモデルチェックポイントはhttps://github.com/PremierTACO/premier-taco.comでリリースされる。 プロジェクトのWebページはhttps://premiertaco.github.io.comにある。

We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO's computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco. Our project webpage is at https://premiertaco.github.io.
翻訳日:2024-02-15 12:03:22 公開日:2024-02-13
# 雑音安定性を考慮した深部アクティブラーニング

Deep Active Learning with Noise Stability ( http://arxiv.org/abs/2205.13340v2 )

ライセンス: Link先を確認
Xingjian Li, Pengkun Yang, Yangcheng Gu, Xueying Zhan, Tianyang Wang, Min Xu, Chengzhong Xu(参考訳) アクティブラーニングにはラベルなしデータの不確実性推定が不可欠である。 バックボーンモデルとして使用されるディープニューラルネットワークでは、モデル推論の過度な信頼のため、データ選択プロセスは非常に難しい。 既存の方法は、この課題に対処するために、特別な学習スタイル(例えば、敵対者)や補助モデルを利用する。 これにより、複雑で非効率なパイプラインが生まれ、メソッドが非現実的になる。 本研究では,ノイズの安定性を生かしてデータ不確かさを推定する新しいアルゴリズムを提案する。 鍵となるアイデアは、モデルパラメータがノイズによってランダムに摂動した場合、元の観測結果から出力を計測することである。 ガウス雑音理論を用いて理論解析を行い,本手法が大規模かつ多様な勾配を持つ部分集合を好むことを示す。 本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。 最先端のアクティブな学習ベースラインと比較して、競争力のあるパフォーマンスを達成する。

Uncertainty estimation for unlabeled data is crucial to active learning. With a deep neural network employed as the backbone model, the data selection process is highly challenging due to the potential over-confidence of the model inference. Existing methods resort to special learning fashions (e.g. adversarial) or auxiliary models to address this challenge. This tends to result in complex and inefficient pipelines, which would render the methods impractical. In this work, we propose a novel algorithm that leverages noise stability to estimate data uncertainty. The key idea is to measure the output derivation from the original observation when the model parameters are randomly perturbed by noise. We provide theoretical analyses by leveraging the small Gaussian noise theory and demonstrate that our method favors a subset with large and diverse gradients. Our method is generally applicable in various tasks, including computer vision, natural language processing, and structural data analysis. It achieves competitive performance compared against state-of-the-art active learning baselines.
翻訳日:2024-02-14 20:40:02 公開日:2024-02-13
# 形式的方法:学界から産業実践へ。 旅行ガイド

Formal Methods: From Academia to Industrial Practice. A Travel Guide ( http://arxiv.org/abs/2002.07279v3 )

ライセンス: Link先を確認
Marieke Huisman, Dilian Gurov, and Alexander Malkis(参考訳) 何十年もの間、フォーマルな手法は、ソフトウェア産業がより信頼性があり信頼できるソフトウェアを作るのを助けるための道のりだと考えられている。 しかし、この強い信念と多くの個人の成功ストーリーにもかかわらず、産業ソフトウェア開発における本当の変化は発生していないようだ。 実際、ソフトウェア産業そのものは急速に前進しており、形式的な方法が達成できることと日々のソフトウェア開発プラクティスとのギャップは小さくなってはいない(成長しているかもしれない)。 過去には、このギャップを埋めるために、フォーマルな方法論の研究方法に関する多くの勧告がすでになされている。 本稿は,このギャップがいまだに残っている理由を考察し,形式的手法研究コミュニティがそれを橋渡しするために何ができるかを,独自の推奨事項として提示する。 我々の推薦はオープンリサーチの問題に焦点を絞らない。 実際、フォーマルなメソッドツールとテクニックは、すでに高品質であり、多くの非自明な問題に対処できます。 影響を達成する方法、この問題に対する様々な利害関係者の考え方を変える方法、特に研究コミュニティとしての私たちの行動を変える方法、競合する代わりに協力してこの問題に取り組む方法などです。

For many decades, formal methods are considered to be the way forward to help the software industry to make more reliable and trustworthy software. However, despite this strong belief and many individual success stories, no real change in industrial software development seems to be occurring. In fact, the software industry itself is moving forward rapidly, and the gap between what formal methods can achieve and the daily software-development practice does not appear to be getting smaller (and might even be growing). In the past, many recommendations have already been made on how to develop formal-methods research in order to close this gap. This paper investigates why the gap nevertheless still exists and provides its own recommendations on what can be done by the formal-methods-research community to bridge it. Our recommendations do not focus on open research questions. In fact, formal-methods tools and techniques are already of high quality and can address many non-trivial problems; we do give some technical recommendations on how tools and techniques can be made more accessible. To a greater extent, we focus on the human aspect: how to achieve impact, how to change the way of thinking of the various stakeholders about this issue, and in particular, as a research community, how to alter our behaviour, and instead of competing, collaborate to address this issue.
翻訳日:2024-02-14 20:39:49 公開日:2024-02-13
# 実行時局所ロバスト性検証によるニューラルネットワークの入力検証

Input Validation for Neural Networks via Runtime Local Robustness Verification ( http://arxiv.org/abs/2002.03339v2 )

ライセンス: Link先を確認
Jiangchao Liu, Liqian Chen, Antoine Mine and Ji Wang(参考訳) 局所ロバスト性検証は、ニューラルネットワークがロバストなwrtであることを検証する。 特定の距離内の特定の入力に対する摂動。 この距離ロバスト性半径と呼んでいます 正当分類入力のロバスト性半径は、特に強敵攻撃による攻撃を含む誤分類入力のロバスト性半径よりもはるかに大きいことが観察された。 別の観察では、正しく分類された入力のロバスト性半径はしばしば正規分布に従う。 これら2つの観測に基づいて,実行時局所ロバストネス検証によるニューラルネットワークの入力検証を提案する。 実験により,ニューラルネットワークを敵の例から保護し,精度を向上させることができることがわかった。

Local robustness verification can verify that a neural network is robust wrt. any perturbation to a specific input within a certain distance. We call this distance Robustness Radius. We observe that the robustness radii of correctly classified inputs are much larger than that of misclassified inputs which include adversarial examples, especially those from strong adversarial attacks. Another observation is that the robustness radii of correctly classified inputs often follow a normal distribution. Based on these two observations, we propose to validate inputs for neural networks via runtime local robustness verification. Experiments show that our approach can protect neural networks from adversarial examples and improve their accuracies.
翻訳日:2024-02-14 20:39:24 公開日:2024-02-13
# 深層クラスタリングにおける目的関数ミスマッチ低減のためのテンソルカーネルの活用

Leveraging tensor kernels to reduce objective function mismatch in deep clustering ( http://arxiv.org/abs/2001.07026v3 )

ライセンス: Link先を確認
Daniel J. Trosten, Sigurd L{\o}kse, Robert Jenssen, Michael Kampffmeyer(参考訳) Objective Function Mismatch (OFM) は、ある目的の最適化が別の目的の最適化に悪影響を与える場合に発生する。 本稿では,深層クラスタリングにおけるofmについて検討し,深層クラスタリングに対するautoencoderベースのアプローチが,クラスタリング性能の低下と,再構築目標とクラスタリング目標の間のofm量の低減に寄与する可能性を見出した。 ミスマッチを低減するため,補助目標の構造保存性を維持しつつ,Unsupervised Companion Objectives (UCOs) と呼ばれる深層クラスタリングのための新しい補助目標セットを提案する。 UCOはネットワークの中間表現にクラスタリングの目的を定式化するためにカーネル関数に依存している。 一般に、中間表現は特徴次元に加えて、例えば空間や時間といった他の次元を含むことができる。 したがって、ベクトルカーネルのベクトル化と適用は、他の次元に含まれる情報を無視するため、そのような表現に最適である。 この欠点に対処するため、任意のランクのテンソル用に設計された構造展開テンソルカーネルをUCOに装備する。 したがって、UCOは幅広い種類のネットワークアーキテクチャに適応することができる。 また,OFMの新しい回帰尺度を提案し,トレーニング中に観測されたOFMの量を正確に定量化する。 実験の結果,UCOと主クラスタリングのOFMは,類似のオートエンコーダモデルに比べて低いことがわかった。 さらに、自動エンコーダに基づくアプローチとは対照的に、UCOはモデルのクラスタリング性能を向上させる。 私たちの実験のコードはhttps://github.com/danieltrosten/tk-ucoで入手できます。

Objective Function Mismatch (OFM) occurs when the optimization of one objective has a negative impact on the optimization of another objective. In this work we study OFM in deep clustering, and find that the popular autoencoder-based approach to deep clustering can lead to both reduced clustering performance, and a significant amount of OFM between the reconstruction and clustering objectives. To reduce the mismatch, while maintaining the structure-preserving property of an auxiliary objective, we propose a set of new auxiliary objectives for deep clustering, referred to as the Unsupervised Companion Objectives (UCOs). The UCOs rely on a kernel function to formulate a clustering objective on intermediate representations in the network. Generally, intermediate representations can include other dimensions, for instance spatial or temporal, in addition to the feature dimension. We therefore argue that the na\"ive approach of vectorizing and applying a vector kernel is suboptimal for such representations, as it ignores the information contained in the other dimensions. To address this drawback, we equip the UCOs with structure-exploiting tensor kernels, designed for tensors of arbitrary rank. The UCOs can thus be adapted to a broad class of network architectures. We also propose a novel, regression-based measure of OFM, allowing us to accurately quantify the amount of OFM observed during training. Our experiments show that the OFM between the UCOs and the main clustering objective is lower, compared to a similar autoencoder-based model. Further, we illustrate that the UCOs improve the clustering performance of the model, in contrast to the autoencoder-based approach. The code for our experiments is available at https://github.com/danieltrosten/tk-uco.
翻訳日:2024-02-14 20:39:12 公開日:2024-02-13
# Einstein-Podolsky-Rosen ステアリングとベル非局所性

Joint Measurability, Einstein-Podolsky-Rosen Steering, and Bell Nonlocality ( http://arxiv.org/abs/1406.6976v4 )

ライセンス: Link先を確認
Marco T\'ulio Quintino, Tam\'as V\'ertesi, Nicolas Brunner(参考訳) 量子測定の不整合と量子非局所性の関係について検討する。 量子非局所性の形式であるEPRステアリング(英語版)を実証するために、共同測定不能な任意の測定セット(すなわち非互換)が使用できることを示す。 これは、EPRステアリングと(非)関節測定可能性が等価であることを示す。 さらに,ベル非局所性と共同計測可能性の関係を考察し,両概念が同値であることを示す。 具体的には、不整合量子測定の集合を示し、ベルの不等式の大きなクラスに違反しないことを示す。 これは、局所的な隠れ変数モデルを持つ特定の絡み合った状態と同様、ベル局所である不整合量子測度の存在を示唆している。

We investigate the relation between the incompatibility of quantum measurements and quantum nonlocality. We show that any set of measurements that is not jointly measurable (i.e. incompatible) can be used for demonstrating EPR steering, a form of quantum nonlocality. This implies that EPR steering and (non) joint measurability can be viewed as equivalent. Moreover, we discuss the connection between Bell nonlocality and joint measurability, and give evidence that both notions are inequivalent. Specifically, we exhibit a set of incompatible quantum measurements and show that it does not violate a large class of Bell inequalities. This suggest the existence of incompatible quantum measurements which are Bell local, similarly to certain entangled states which admit a local hidden variable model.
翻訳日:2024-02-14 20:38:42 公開日:2024-02-13
# 位相空間におけるアハラノフ・ボーム効果

Aharonov-Bohm effect in phase space ( http://arxiv.org/abs/2211.13199v2 )

ライセンス: Link先を確認
Jose A. R. Cembranos, David Garc\'ia-L\'opez and Zoe G. del Toro(参考訳) アハルノフ・ボーム効果(英: aharonov-bohm effect)は、上記の粒子に到達できない領域内に位置する電磁界を囲む荷電粒子の波動関数における測定可能な位相シフトによって特徴づけられる真の量子効果である。 しかし、位相空間の記述の大部分は準確率分布に基づいているため、この定義は不可能である。 この研究において、量子力学の2つの異なる形式論の中で初めてアハラノフ・ボーム効果を特徴づける。 その1つは、標準可換関係とワイル変換に依存する位相空間形式論である。 この枠組みでは、準確率ウィグナー関数を用いて量子系の一貫した記述を得ることが目的である。 もう1つはセガル・バルグマン形式論であり、我々は生成と消滅作用素の可換関係によって量子力学を数学的に記述し、接続する。 どちらの形式も導入した後、アハルノフ-ボーム効果は非零電位で決定されるものと非零磁気ベクトルポテンシャルで決定されるものという2つの特定の場合について研究する。 その後、以前の2つのケースを包含するアハロノフ・ボーム効果のより一般的な記述と、構成空間における通常の量子力学形式論におけるこの効果のよく知られた記述と同値であることが証明される。 最後に、アハラノフ-ボーム効果を考察し、位置不確かさと運動量の不確かさを持つ状態を記述する密度演算子を使い、電ポテンシャルの下でのウィグナー関数の時間的発展における特徴的な干渉パターンを通してその現象を表現し、この現象の本質的な量子性を強調した。

The Aharonov-Bohm effect is a genuine quantum effect typically characterized by a measurable phase shift in the wave function for a charged particle that encircles an electromagnetic field located in a region inaccessible to the mentioned particle. However, this definition is not possible in the majority of the phase space descriptions since they are based on quasiprobability distributions. In this work, we characterize for the first time the Aharonov-Bohm effect within two different formalisms of quantum mechanics. One of them is the phase-space formalism relying on the canonical commutation relations and Weyl transform. In this framework, the aim is to obtain a consistent description of the quantum system by means of the quasiprobability Wigner function. The other one is the Segal-Bargmann formalism, which we mathematically describe and connect with quantum mechanics by means of the commutation relations of the creation and annihilation operators. After an introduction of both formalisms, we study the Aharonov-Bohm effect within them for two specific cases: One determined by a non-zero electric potential, and another determined by a non-zero magnetic vector potential. Subsequently, we obtain a more general description of the Aharonov-Bohm effect that encompasses the two previous cases and that we prove to be equivalent to the well-known description of this effect in the usual quantum mechanics formalism in configuration space. Finally, we delve into the Aharonov-Bohm effect, employing a density operator to depict states with positional and momentum uncertainty, showcasing its manifestation through distinctive interference patterns in the temporal evolution of Wigner functions under an electric potential, and emphasizing the intrinsically quantum nature of this phenomenon.
翻訳日:2024-02-14 20:35:44 公開日:2024-02-13
# CCPrefix:多クラス分類のための対実的コントラスト前修正

CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class Classification ( http://arxiv.org/abs/2211.05987v2 )

ライセンス: Link先を確認
Yang Li, Canran Xu, Guodong Long, Tao Shen, Chongyang Tao and Jing Jiang(参考訳) 近年,事前学習した言語モデルを自然言語分類タスクの幅広い範囲に効率的に適応するプレフィックスチューニングが提案されている。 ソフトプレフィックスをタスク固有の指標と言語動詞化器として活用し、事前学習した言語モデルから定式化のギャップを狭める。 しかし、ラベル空間が著しく大きくなる(多クラス分類)と、このようなチューニング技術は、多クラスラベルが短い言語句で意味的類似の動詞化子で表されるため、曖昧さの問題に悩まされる。 これを克服するために、最も曖昧なクラスを各インスタンスにマージする人為的決定プロセスに着想を得て、多数のクラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。 基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。 我々は、全教師付き設定と少数ショット設定の両方において、多クラスベンチマークデータセットで実験を行い、このモデルが以前のベースラインを上回ることを示している。

Recently, prefix-tuning was proposed to efficiently adapt pre-trained language models to a broad spectrum of natural language classification tasks. It leverages soft prefix as task-specific indicators and language verbalizers as categorical-label mentions to narrow the formulation gap from pre-training language models. However, when the label space increases considerably (i.e., many-class classification), such a tuning technique suffers from a verbalizer ambiguity problem since the many-class labels are represented by semantic-similar verbalizers in short language phrases. To overcome this, inspired by the human-decision process that the most ambiguous classes would be mulled over for each instance, we propose a brand-new prefix-tuning method, Counterfactual Contrastive Prefix-tuning (CCPrefix), for many-class classification. Basically, an instance-dependent soft prefix, derived from fact-counterfactual pairs in the label space, is leveraged to complement the language verbalizers in many-class classification. We conduct experiments on many-class benchmark datasets in both the fully supervised setting and the few-shot setting, which indicates that our model outperforms former baselines.
翻訳日:2024-02-14 20:35:13 公開日:2024-02-13
# 変分量子固有解法におけるゲート誤差の影響の定量化

Quantifying the effect of gate errors on variational quantum eigensolvers for quantum chemistry ( http://arxiv.org/abs/2211.04505v2 )

ライセンス: Link先を確認
Kieran Dalton, Christopher K. Long, Yordan S. Yordanov, Charles G. Smith, Crispin H. W. Barnes, Normann Mertig and David R. M. Arvidsson-Shukur(参考訳) 変分量子固有解法(VQEs)は、短期的な量子優位性を示す主要な候補である。 ここでは,種々の分子に対するゲート型VQEの密度行列シミュレーションを行う。 許容可能な非分極ゲートエラーのレベルを数値化する。 私たちはそれを見つけました (i)最高の性能のVQEは、化学精度で4〜14ドルの軌道を持つ小さな分子の基底状態エネルギーを予測するために、10^{-6}$と10^{-4}$(10^{-4}$と10^{-2}$)のゲートエラー確率を必要とする。 (II)アンサッツ回路を構成するADAPT-VQEは、固定回路VQEを反復的に上回る。 三 ADAPT-VQEは、物理的に動機づけられた要素よりもゲート効率の高い回路でより良い性能を発揮する。 (iv)VQEが化学的精度を達成するための最大ゲートエラー確率$p_c$は、$p_c\approxprop\ncx^{-1}$としてノイズの多い2ビットゲートの$$\ncx$で減少する。 さらに、$p_c$はエラー緩和であってもシステムサイズによって減少し、より大きな分子はより低いゲートエラーを必要とすることを意味する。 したがって、ゲートベースvqesによる量子アドバンテージは、ゲートエラー確率が桁違いに減少しない限り、あり得ない。

Variational quantum eigensolvers (VQEs) are leading candidates to demonstrate near-term quantum advantage. Here, we conduct density-matrix simulations of leading gate-based VQEs for a range of molecules. We numerically quantify their level of tolerable depolarizing gate-errors. We find that: (i) The best-performing VQEs require gate-error probabilities between $10^{-6}$ and $10^{-4}$ ( $10^{-4}$ and $10^{-2}$ with error mitigation) to predict, within chemical accuracy, ground-state energies of small molecules with $4-14$ orbitals. (ii) ADAPT-VQEs that construct ansatz circuits iteratively outperform fixed-circuit VQEs. (iii) ADAPT-VQEs perform better with circuits constructed from gate-efficient rather than physically-motivated elements. (iv) The maximally-allowed gate-error probability, $p_c$, for any VQE to achieve chemical accuracy decreases with the number $\ncx$ of noisy two-qubit gates as $p_c\approxprop\ncx^{-1}$. Additionally, $p_c$ decreases with system size, even with error mitigation, implying that larger molecules require even lower gate-errors. Thus, quantum advantage via gate-based VQEs is unlikely unless gate-error probabilities are decreased by orders of magnitude.
翻訳日:2024-02-14 20:34:51 公開日:2024-02-13
# 想像すらできないことについて、私たちは何を知っているだろうか?

What can we know about that which we cannot even imagine? ( http://arxiv.org/abs/2208.03886v4 )

ライセンス: Link先を確認
David H. Wolpert(参考訳) このエッセイでは一連の質問を検討します。 最初の疑問は、知性の生物学的機能、特に人間の知性の認知的補綴に関するものである。 これらは、おそらく人類がこれまでに開発した最も重要な認知補綴物である人間の言語に関する疑問に繋がる。 人間の言語にカプセル化される認知力についてラプソーズするのは伝統的ですが、人間言語がいかに恐ろしいほど制限されているかを強調します。 これは、人間数学が究極的には人間の言語で定式化されているかどうかという疑問にもつながります。 次に、これらの質問を組み合わせることで、このエッセイの指導的関心事に対する、部分的で、ある種の、サイドサイドの回答を提示します。

In this essay I will consider a sequence of questions. The first questions concern the biological function of intelligence in general, and cognitive prostheses of human intelligence in particular. These will lead into questions concerning human language, perhaps the most important cognitive prosthesis humanity has ever developed. While it is traditional to rhapsodize about the cognitive power encapsulated in human language, I will emphasize how horribly limited human language is - and therefore how limited our cognitive abilities are, despite their being augmented with language. This will lead to questions of whether human mathematics, being ultimately formulated in terms of human language, is also deeply limited. I will then combine these questions to pose a partial, sort-of, sideways answer to the guiding concern of this essay: what we can ever discern about that we cannot even conceive?
翻訳日:2024-02-14 20:34:22 公開日:2024-02-13
# Scoring Rule Minimizationによる生成ネットワークの確率予測

Probabilistic Forecasting with Generative Networks via Scoring Rule Minimization ( http://arxiv.org/abs/2112.08217v3 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Rilwan Adewoyin, Peter Dueben, Ritabrata Dutta(参考訳) 確率的予測は過去の観測に基づいて将来の結果の確率分布を提供する。 本稿では,高次元空間上の分布を潜在変数からのドロー変換によりパラメトリゼーションする生成型ニューラルネットワークを用いて確率的予測を行う。 生成ネットワークは通常、敵対的な枠組みで訓練される。 これとは対照的に,本研究では,関心現象の時系列記録に基づいて,予測順序(あるいは述語)のスコアリングルールを最小化するために,生成ネットワークを訓練することを提案する。 そこで本フレームワークでは,不安定な逆数トレーニングによる不確実な過パラメータチューニングや不確実な過小評価を回避し,確率予測における生成ネットワークの信頼性の確保を図る。 さらに,対象の最小化と従属データとの整合性を証明し,一方,対向訓練では独立性を仮定する。 本研究では,2つのカオス力学モデルとグローバル気象観測のベンチマークデータセットに関するシミュレーション研究を行い,最後に,関連する文献から抽出した空間データの採点規則を定義する。 提案手法は,特に確率的キャリブレーションにおいて,高パラメータチューニングの少ない手法よりも優れている。

Probabilistic forecasting relies on past observations to provide a probability distribution for a future outcome, which is often evaluated against the realization using a scoring rule. Here, we perform probabilistic forecasting with generative neural networks, which parametrize distributions on high-dimensional spaces by transforming draws from a latent variable. Generative networks are typically trained in an adversarial framework. In contrast, we propose to train generative networks to minimize a predictive-sequential (or prequential) scoring rule on a recorded temporal sequence of the phenomenon of interest, which is appealing as it corresponds to the way forecasting systems are routinely evaluated. Adversarial-free minimization is possible for some scoring rules; hence, our framework avoids the cumbersome hyperparameter tuning and uncertainty underestimation due to unstable adversarial training, thus unlocking reliable use of generative networks in probabilistic forecasting. Further, we prove consistency of the minimizer of our objective with dependent data, while adversarial training assumes independence. We perform simulation studies on two chaotic dynamical models and a benchmark data set of global weather observations; for this last example, we define scoring rules for spatial data by drawing from the relevant literature. Our method outperforms state-of-the-art adversarial approaches, especially in probabilistic calibration, while requiring less hyperparameter tuning.
翻訳日:2024-02-14 20:33:26 公開日:2024-02-13
# 修正量子力学の新展開

A new development of modified quantum mechanics ( http://arxiv.org/abs/2111.05122v3 )

ライセンス: Link先を確認
Yu-kuo Zhao, Yu-xin Dong(参考訳) 本稿では,新しい修正量子力学とその水素様原子軌道に基づく原子微細構造の非対称変分法に関する新しいアルゴリズムを提案する。 加えて、我々が知っているように、原子の微細構造のab initio計算は相対論的量子力学を創り出す最初の駆動力であり、その新しい展開は興味深く重要な話題である。 しかし、多体シュロディンガー方程式とランジュバンのアンペア力の磁気ポテンシャル積分に対する解析的解が存在しないため、厳密に証明(あるいは反論)しようとはしないので、本手法を用いて第2周期の原子微細構造を計算し、この数値実験法により実験的な観測値に近いことを証明する(我々の計算精度は相対論的ハーツリー・フォック法より優れている)。 したがって、我々の議論は肯定的な探究と推測である。

Here, we propose a new modified quantum mechanics and its new algorithms of atomic fine-structure,asymmetric variational method based on hydrogen-like atom orbit. In addition, as we all know, the ab initio calculation of atomic fine-structure is the first driving force to create relativistic quantum mechanics, so every new development of it is an interesting and important hot topic. But we will not try to prove (or refute) strictly, because there is no analytical solution to the multi-body Schrodinger equation and the magnetic potential integral of ampere force of Langevin, so we use our method to calculate the atom fine-structure of within the second period, and prove that our calculation is closer to the experimental observation value through this numerical experiment method (Our calculation accuracy is better than those of relativistic Hartree-Fock method). Therefore, our discussion is a positive exploration and conjecture.
翻訳日:2024-02-14 20:32:27 公開日:2024-02-13
# 多次元オンライン意思決定のための確率的低ランクテンソルバンド

Stochastic Low-rank Tensor Bandits for Multi-dimensional Online Decision Making ( http://arxiv.org/abs/2007.15788v3 )

ライセンス: Link先を確認
Jie Zhou, Botao Hao, Zheng Wen, Jingfei Zhang, Will Wei Sun(参考訳) 多次元オンライン意思決定は、オンラインレコメンデーションやデジタルマーケティングなど、多くの実アプリケーションにおいて重要な役割を果たす。 これらの問題において、各時点の決定は、異なる種類のエンティティからの選択の組み合わせである。 そこで我々は,低ランクテンソルとして平均報酬を表現できる帯域幅のクラスである確率的低ランクテンソルバンドビットを導入する。 コンテキストのないテンソルバンディットとコンテキストを持つテンソルバンディットの2つの設定を考える。 最初の設定では、プラットフォームは最も期待される報酬、すなわち真の報酬テンソルの最大のエントリーで最適な決定を見つけることを目的としている。 第二の設定では、テンソルのいくつかのモードは文脈であり、残りモードは決定であり、ゴールは文脈情報から最適な決定を見つけることである。 本研究では,コンテキストのないテンソルバンディットに対して,2つの学習アルゴリズムのテンソル除去とテンソルepoch-greedyを提案する。 既存の競争法と比較すると、テンソルの除去は全体的後悔の最良の境界を持ち、テンソルのエポックグリーディは報酬テンソルの次元へのよりシャープな依存を持つ。 さらに,コンテキスト付きテンソルバンディットに対するテンソルアンサンブルサンプリングと呼ばれる事実上有効ベイズアルゴリズムを開発した。 オンライン広告データの大規模なシミュレーションと実解析は、我々の理論的な結果を裏付け、我々のアルゴリズムがテンソルの低ランク構造を無視した様々な最先端のアプローチより優れていることを示す。

Multi-dimensional online decision making plays a crucial role in many real applications such as online recommendation and digital marketing. In these problems, a decision at each time is a combination of choices from different types of entities. To solve it, we introduce stochastic low-rank tensor bandits, a class of bandits whose mean rewards can be represented as a low-rank tensor. We consider two settings, tensor bandits without context and tensor bandits with context. In the first setting, the platform aims to find the optimal decision with the highest expected reward, a.k.a, the largest entry of true reward tensor. In the second setting, some modes of the tensor are contexts and the rest modes are decisions, and the goal is to find the optimal decision given the contextual information. We propose two learning algorithms tensor elimination and tensor epoch-greedy for tensor bandits without context, and derive finite-time regret bounds for them. Comparing with existing competitive methods, tensor elimination has the best overall regret bound and tensor epoch-greedy has a sharper dependency on dimensions of the reward tensor. Furthermore, we develop a practically effective Bayesian algorithm called tensor ensemble sampling for tensor bandits with context. Extensive simulations and real analysis in online advertising data back up our theoretical findings and show that our algorithms outperform various state-of-the-art approaches that ignore the tensor low-rank structure.
翻訳日:2024-02-14 20:30:35 公開日:2024-02-13
# Points2Surf: Point Cloudのパッチから不適切な表面を学ぶ

Points2Surf: Learning Implicit Surfaces from Point Cloud Patches ( http://arxiv.org/abs/2007.10453v2 )

ライセンス: Link先を確認
Philipp Erler, Paul Guerrero, Stefan Ohrhallinger, Michael Wimmer, Niloy J. Mitra(参考訳) スキャンベースのアセット生成ワークフローにおける重要なステップは、順序のないポイントクラウドをサーフェスに変換することだ。 古典的な方法(例えばポアソン再構成)はノイズや部分的なスキャンによって劣化し始める。 したがって、部分的なスキャンからでも完全な表面を生成するために、ディープラーニングベースの手法が最近提案されている。 しかし、このようなデータ駆動手法は、幾何学的および位相的な大きなバリエーションを持つ新しい形状への一般化に苦しむ。 Points2Surfはパッチベースの新しい学習フレームワークで、正常なスキャンから正確な表面を直接生成する。 詳細なローカルパッチと粗いグローバル情報の組み合わせによる事前学習は、一般化性能と再構築精度を向上させる。 合成データと実データの両方に対する広範な比較により,従来の未確認クラス(平均的には Points2Surf は SPR で30%,深層学習ベース SotA で 270% 以上)に対して,より長い計算時間と小規模な位相雑音のわずかな増大で,我々の手法の利点が明らかとなった。 私たちのソースコード、事前トレーニングされたモデル、データセットは、https://github.com/ErlerPhilipp/points2surfで利用可能です。

A key step in any scanning-based asset creation workflow is to convert unordered point clouds to a surface. Classical methods (e.g., Poisson reconstruction) start to degrade in the presence of noisy and partial scans. Hence, deep learning based methods have recently been proposed to produce complete surfaces, even from partial scans. However, such data-driven methods struggle to generalize to new shapes with large geometric and topological variations. We present Points2Surf, a novel patch-based learning framework that produces accurate surfaces directly from raw scans without normals. Learning a prior over a combination of detailed local patches and coarse global information improves generalization performance and reconstruction accuracy. Our extensive comparison on both synthetic and real data demonstrates a clear advantage of our method over state-of-the-art alternatives on previously unseen classes (on average, Points2Surf brings down reconstruction error by 30% over SPR and by 270%+ over deep learning based SotA methods) at the cost of longer computation times and a slight increase in small-scale topological noise in some cases. Our source code, pre-trained model, and dataset are available on: https://github.com/ErlerPhilipp/points2surf
翻訳日:2024-02-14 20:30:11 公開日:2024-02-13
# 深層学習におけるバッチの正規化

Making Batch Normalization Great in Federated Deep Learning ( http://arxiv.org/abs/2303.06530v3 )

ライセンス: Link先を確認
Jike Zhong, Hong-You Chen, Wei-Lun Chao(参考訳) バッチ正規化(BN)は集中型ディープラーニングにおいて収束と一般化を改善するために広く使われている。 しかしながら、分散化されたデータを持つフェデレーション学習(FL)では、BNによるトレーニングはパフォーマンスを阻害し、グループ正規化(GN)に置き換えることを推奨している。 本稿では,先行研究における実証研究を拡大することで,この代替案を再考する。 意外なことに、BNは多くのFL設定でGNよりも優れています。 例外は高周波通信と極端な非IID方式である。 我々は,クライアント間のbn統計のミスマッチや局所トレーニング中の勾配のずれなど,この問題の原因と考えられる要因を再検討する。 BNの強度を維持しながら、これらの要因の影響を低減できる簡単なプラクティスを実証的に特定する。 FIXBNと名付けられた私たちのアプローチは、追加のトレーニングや通信コストなしで実装が比較的簡単で、幅広いFL設定で好適に機能します。 この研究が将来のflの実用的利用と理論的分析に有用な参考となることを願っている。

Batch Normalization (BN) is widely used in {centralized} deep learning to improve convergence and generalization. However, in {federated} learning (FL) with decentralized data, prior work has observed that training with BN could hinder performance and suggested replacing it with Group Normalization (GN). In this paper, we revisit this substitution by expanding the empirical study conducted in prior work. Surprisingly, we find that BN outperforms GN in many FL settings. The exceptions are high-frequency communication and extreme non-IID regimes. We reinvestigate factors that are believed to cause this problem, including the mismatch of BN statistics across clients and the deviation of gradients during local training. We empirically identify a simple practice that could reduce the impacts of these factors while maintaining the strength of BN. Our approach, which we named FIXBN, is fairly easy to implement, without any additional training or communication costs, and performs favorably across a wide range of FL settings. We hope that our study could serve as a valuable reference for future practical usage and theoretical analysis in FL.
翻訳日:2024-02-14 20:22:53 公開日:2024-02-13
# nsimplex zen:ユークリッド空間とヒルベルト空間に対する新しい次元還元

nSimplex Zen: A Novel Dimensionality Reduction for Euclidean and Hilbert Spaces ( http://arxiv.org/abs/2302.11508v2 )

ライセンス: Link先を確認
Richard Connor, Lucia Vadicamo(参考訳) 次元低減技術は、高次元空間から低次元空間への値のマッピングを行う。 その結果、物理メモリを少なくし、より高速な距離計算が可能な空間となる。 これらの技法は、縮小次元空間の必要特性が元の空間に対して許容できる精度を与える場合に広く用いられる。 多くの変換が記述されている。 それらは線形と位相の2つの主要なグループに分類されている。 主成分分析 (PCA) やランダム射影 (RP) のような線形手法は行列に基づくユークリッド空間の低次元への変換を定義する。 多次元スケーリング(MDS)のようなトポロジカルな手法は、近辺関係のような高次的な側面を保存しようと試み、いくつかは非ユークリッド空間に適用できる。 ここでは次元を減少させる新しいトポロジカル手法であるnSimplex Zenを紹介する。 MDSと同様に、元の空間で測定されたペア距離にのみ依存する。 座標ではなく距離を用いることで、コサイン、ジェンセン=シャノン、二次形式距離など、ユークリッド空間と他のヒルベルト空間の両方にこの技術を適用することができる。 ほぼ全ての場合において、高次元空間の幾何学的性質により、新しい手法は、特に極低次元への縮小において、他の手法よりも優れた性質を与える。

Dimensionality reduction techniques map values from a high dimensional space to one with a lower dimension. The result is a space which requires less physical memory and has a faster distance calculation. These techniques are widely used where required properties of the reduced-dimension space give an acceptable accuracy with respect to the original space. Many such transforms have been described. They have been classified in two main groups: linear and topological. Linear methods such as Principal Component Analysis (PCA) and Random Projection (RP) define matrix-based transforms into a lower dimension of Euclidean space. Topological methods such as Multidimensional Scaling (MDS) attempt to preserve higher-level aspects such as the nearest-neighbour relation, and some may be applied to non-Euclidean spaces. Here, we introduce nSimplex Zen, a novel topological method of reducing dimensionality. Like MDS, it relies only upon pairwise distances measured in the original space. The use of distances, rather than coordinates, allows the technique to be applied to both Euclidean and other Hilbert spaces, including those governed by Cosine, Jensen-Shannon and Quadratic Form distances. We show that in almost all cases, due to geometric properties of high-dimensional spaces, our new technique gives better properties than others, especially with reduction to very low dimensions.
翻訳日:2024-02-14 20:22:14 公開日:2024-02-13
# 一般パラメータ化と線形収束を考慮した政策鏡用新フレームワーク

A Novel Framework for Policy Mirror Descent with General Parameterization and Linear Convergence ( http://arxiv.org/abs/2301.13139v4 )

ライセンス: Link先を確認
Carlo Alfano, Rui Yuan, Patrick Rebeschini(参考訳) TRPOやPPOのような強化学習における近代的なポリシー最適化手法は、パラメータ化されたポリシーの使用によって成功している。 しかし、このクラスのアルゴリズム、特に表の設定では理論的な保証が確立されているが、一般的なパラメータ化スキームの使用はほとんど不当である。 本稿では,一般パラメータ化を自然に適応するミラー降下に基づくポリシー最適化のための新しい枠組みを提案する。 このスキームによって引き起こされるポリシークラスは、既知のクラス、例えばsoftmaxを復元し、ミラーマップの選択に応じて新しいクラスを生成する。 この枠組みを用いて,一般パラメータ化を含むポリシー勾配に基づく手法の線形収束を保証する最初の結果を得る。 一般的なパラメータ化スキームに適合するフレームワークの能力を実証するため、浅層ニューラルネットワークを用いた場合のサンプル複雑性を示し、従来の最適結果の改善を示し、古典的な制御タスクにおける理論的主張の有効性を実証的に検証した。

Modern policy optimization methods in reinforcement learning, such as TRPO and PPO, owe their success to the use of parameterized policies. However, while theoretical guarantees have been established for this class of algorithms, especially in the tabular setting, the use of general parameterization schemes remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parameterizations. The policy class induced by our scheme recovers known classes, e.g., softmax, and generates new ones depending on the choice of mirror map. Using our framework, we obtain the first result that guarantees linear convergence for a policy-gradient-based method involving general parameterization. To demonstrate the ability of our framework to accommodate general parameterization schemes, we provide its sample complexity when using shallow neural networks, show that it represents an improvement upon the previous best results, and empirically validate the effectiveness of our theoretical claims on classic control tasks.
翻訳日:2024-02-14 20:21:25 公開日:2024-02-13
# サブサンプリングによる実用的微分プライベートハイパーパラメータチューニング

Practical Differentially Private Hyperparameter Tuning with Subsampling ( http://arxiv.org/abs/2301.11989v3 )

ライセンス: Link先を確認
Antti Koskela and Tejas Kulkarni(参考訳) 差分プライベート(DP)機械学習(ML)アルゴリズムのハイパーパラメータをチューニングするには、しばしば機密データを使用する必要があり、これはハイパーパラメータ値を介してプライベート情報をリークする可能性がある。 最近、papernot と steinke (2022) は、ランダムな探索サンプルの数がランダム化されるdpハイパーパラメータチューニングアルゴリズムのクラスを提案した。 一般的に、これらのアルゴリズムはdpプライバシパラメータである$\varepsilon$を非チューニングのdp mlモデルトレーニングよりも大幅に増加させており、ハイパーパラメータ候補の評価には新たなトレーニング実行が必要になるため、計算量的に重い。 本稿では,高パラメータチューニングのための機密データのランダムなサブセットのみを用いてDP境界と計算コストを下げることと,最適な値をより大きなデータセットに外挿することに集中する。 本稿では,提案手法に対するR'enyi差分プライバシー解析を行い,Papernot と Steinke による基本手法よりも優れたプライバシー利用トレードオフをもたらすことを示す。

Tuning the hyperparameters of differentially private (DP) machine learning (ML) algorithms often requires use of sensitive data and this may leak private information via hyperparameter values. Recently, Papernot and Steinke (2022) proposed a certain class of DP hyperparameter tuning algorithms, where the number of random search samples is randomized itself. Commonly, these algorithms still considerably increase the DP privacy parameter $\varepsilon$ over non-tuned DP ML model training and can be computationally heavy as evaluating each hyperparameter candidate requires a new training run. We focus on lowering both the DP bounds and the computational cost of these methods by using only a random subset of the sensitive data for the hyperparameter tuning and by extrapolating the optimal values to a larger dataset. We provide a R\'enyi differential privacy analysis for the proposed method and experimentally show that it consistently leads to better privacy-utility trade-off than the baseline method by Papernot and Steinke.
翻訳日:2024-02-14 20:21:09 公開日:2024-02-13
# 光子相互作用によるブロッホ振動の制御と増幅

Control and amplification of Bloch oscillations via photon-mediated interactions ( http://arxiv.org/abs/2301.08296v2 )

ライセンス: Link先を確認
Haoqing Zhang, Anjun Chu, Chengyi Luo, James K. Thompson, Ana Maria Rey(参考訳) 定常波キャビティと非共振格子とキャビティ波長で支持された光学格子における光子媒介相互作用による原子ブロッホ振動を制御・増強する手法を提案する。 提案手法では,光学キャビティ内の位置依存原子光結合を用いて,熱ガスから始まるターゲット格子上の原子配列を空間的に準備する。 この初期状態において、分散位置依存原子キャビティカップリングを利用して単粒子ブロッホ振動の非破壊的測定を行い、原子運動によって自己調整された長距離相互作用を生成する。 後者は、深い格子系における動的相転移の発生と、浅い格子系におけるブロッホ振動の増幅に繋がる。 本研究は,多体動力学的な自己可変ポテンシャルを探索するために,最先端の空洞QED実験で利用できる新しい可能性を紹介する。

We propose a scheme to control and enhance atomic Bloch oscillations via photon-mediated interactions in an optical lattice supported by a standing-wave cavity with incommensurate lattice and cavity wavelengths. Our scheme uses position-dependent atom-light couplings in an optical cavity to spatially prepare an array of atoms at targeted lattice sites starting from a thermal gas. On this initial state we take advantage of dispersive position-dependent atom-cavity couplings to perform non-destructive measurements of single-particle Bloch oscillations, and to generate long-range interactions self-tuned by atomic motion. The latter leads to the generation of dynamical phase transitions in the deep lattice regime and the amplification of Bloch oscillations in the shallow lattice regime. Our work introduces new possibilities accessible in state-of-the-art cavity QED experiments for the exploration of many-body dynamics in self-tunable potentials.
翻訳日:2024-02-14 20:20:12 公開日:2024-02-13
# 鳥眼視レイアウトによるストリートビュー画像生成

Street-View Image Generation from a Bird's-Eye View Layout ( http://arxiv.org/abs/2301.04634v4 )

ライセンス: Link先を確認
Alexander Swerdlow, Runsheng Xu, Bolei Zhou(参考訳) Bird's-Eye View (BEV) パーセプションは、ビューを横断する簡潔で統一された空間表現を提供し、様々な下流運転アプリケーションに恩恵を与え、近年注目を集めている。 同時に、自動運転のためのデータ駆動シミュレーションは最近の研究の焦点となっているが、完全なデータ駆動と制御可能なアプローチはほとんどない。 現実のシナリオからの知覚データを使用する代わりに、シミュレーションの理想的なモデルは、与えられたHDマップとトラフィックレイアウトに沿った現実的なストリートビュー画像を生成する。 本稿では,交通シナリオのBEVレイアウトにマッチする現実的かつ空間的に整合した周辺画像の集合を合成する条件生成モデルであるBEVGenを提案する。 bevgenは、カメラとマップビューの関係を学習し、一貫性を確保する、新しいクロスビュー変換と空間的注意設計を取り入れている。 提案したNuScenesとArgoverse 2データセットについて評価を行った。 訓練後、bevgenは道路や車線を正確に描画し、様々な気象条件や時間帯の交通シーンを生成することができる。

Bird's-Eye View (BEV) Perception has received increasing attention in recent years as it provides a concise and unified spatial representation across views and benefits a diverse set of downstream driving applications. At the same time, data-driven simulation for autonomous driving has been a focal point of recent research but with few approaches that are both fully data-driven and controllable. Instead of using perception data from real-life scenarios, an ideal model for simulation would generate realistic street-view images that align with a given HD map and traffic layout, a task that is critical for visualizing complex traffic scenarios and developing robust perception models for autonomous driving. In this paper, we propose BEVGen, a conditional generative model that synthesizes a set of realistic and spatially consistent surrounding images that match the BEV layout of a traffic scenario. BEVGen incorporates a novel cross-view transformation with spatial attention design which learns the relationship between cameras and map views to ensure their consistency. We evaluate the proposed model on the challenging NuScenes and Argoverse 2 datasets. After training, BEVGen can accurately render road and lane lines, as well as generate traffic scenes with diverse different weather conditions and times of day.
翻訳日:2024-02-14 20:19:57 公開日:2024-02-13
# 因果DAGのサブセット検証と探索アルゴリズム

Subset verification and search algorithms for causal DAGs ( http://arxiv.org/abs/2301.03180v3 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur(参考訳) 変数間の因果関係の学習は因果関係の基本的な課題であり、有向非巡回グラフ(DAG)は因果関係を表現するための一般的な選択である。 因果グラフを観測結果からマルコフ同値クラスまでしか回収できないため、リカバリ作業にしばしば介入が用いられる。 介入は一般的にコストがかかり、実行される介入の数を最小化するアルゴリズムを設計することが重要である。 本研究では,エッジのサブセット(ターゲットエッジ)間の因果関係を学ぶのに必要な介入の最小セットを特定する問題について検討する。 忠実性,因果便益性,理想的な介入という仮定の下で,基礎となる真理因果グラフが既知の場合(サブセット検証)と未知の場合(サブセット探索)という2つの設定でこの問題を研究する。 サブセット検証問題に対して、最小サイズの介入集合を計算するための効率的なアルゴリズムを提供し、これらの結果をさらに、境界サイズの非原子的介入とノード依存の介入コストに拡張する。 部分集合探索問題の場合、最悪の場合、(適応性やランダム化を伴う)アルゴリズムが、部分集合検証数と比較して対象辺の頂点被覆よりも漸近的に良い近似比を達成することができないことを示す。 因果グラフ全体を復元したい場合には,探索問題に対する対数近似アルゴリズムが存在するので,この結果は意外である。 以上の結果を得るため,本研究で研究されている部分的検証・探索問題以上の応用が期待できる介入因果グラフの興味深い構造的性質を示す。

Learning causal relationships between variables is a fundamental task in causal inference and directed acyclic graphs (DAGs) are a popular choice to represent the causal relationships. As one can recover a causal graph only up to its Markov equivalence class from observations, interventions are often used for the recovery task. Interventions are costly in general and it is important to design algorithms that minimize the number of interventions performed. In this work, we study the problem of identifying the smallest set of interventions required to learn the causal relationships between a subset of edges (target edges). Under the assumptions of faithfulness, causal sufficiency, and ideal interventions, we study this problem in two settings: when the underlying ground truth causal graph is known (subset verification) and when it is unknown (subset search). For the subset verification problem, we provide an efficient algorithm to compute a minimum sized interventional set; we further extend these results to bounded size non-atomic interventions and node-dependent interventional costs. For the subset search problem, in the worst case, we show that no algorithm (even with adaptivity or randomization) can achieve an approximation ratio that is asymptotically better than the vertex cover of the target edges when compared with the subset verification number. This result is surprising as there exists a logarithmic approximation algorithm for the search problem when we wish to recover the whole causal graph. To obtain our results, we prove several interesting structural properties of interventional causal graphs that we believe have applications beyond the subset verification/search problems studied here.
翻訳日:2024-02-14 20:19:38 公開日:2024-02-13
# 計算学習理論による組合せ最適化問題の近似のためのインプリンシプル超多項式量子利点

An in-principle super-polynomial quantum advantage for approximating combinatorial optimization problems via computational learning theory ( http://arxiv.org/abs/2212.08678v4 )

ライセンス: Link先を確認
Niklas Pirnay, Vincent Ulitzsch, Frederik Wilde, Jens Eisert, Jean-Pierre Seifert(参考訳) 様々な科学的、産業的な文脈で大きく機能する問題に対処する研究分野である組合せ最適化は、量子コンピュータの応用可能性の中核的な分野の1つとして認識されている。 しかし、量子アルゴリズムがこのタイプの問題に対して、いかにして古典的アルゴリズムよりも優れているかはまだ不明である。 本研究では,計算学習理論と暗号概念を用いて,量子コンピュータが,コンビネート最適化問題に対する解近似において,古典的コンピュータよりも原理上超多項的優位性を有することを証明した。 具体的には、カーンズとヴァリアントによる基礎研究に基づいて新しい還元を導入し、古典的コンピュータが多項式因子を近似することが難しい問題の種類を特定する。 同時に、多項式係数内の最適解を効率的に近似できる量子アルゴリズムを与える。 この研究で発見された量子アドバンテージの核は、最終的にショアの量子アルゴリズムからファクタリングに借用されている。 具体的には、いわゆる整数プログラミング問題の特殊事例を近似する超多項式的優位性を示す。 そのために私たちは、ベアリングインスタンスを利用するための明示的なエンドツーエンドの構成を提供します。 この結果は、量子デバイスは、原理的に、古典的効率的なアルゴリズムの範囲を超えた組合せ最適化解を近似する力を持っていることを示している。 また,このような有利な問題インスタンスの構築方法について,明確なガイダンスも提供する。

Combinatorial optimization - a field of research addressing problems that feature strongly in a wealth of scientific and industrial contexts - has been identified as one of the core potential fields of applicability of quantum computers. It is still unclear, however, to what extent quantum algorithms can actually outperform classical algorithms for this type of problems. In this work, by resorting to computational learning theory and cryptographic notions, we prove that quantum computers feature an in-principle super-polynomial advantage over classical computers in approximating solutions to combinatorial optimization problems. Specifically, building on seminal work by Kearns and Valiant and introducing a new reduction, we identify special types of problems that are hard for classical computers to approximate up to polynomial factors. At the same time, we give a quantum algorithm that can efficiently approximate the optimal solution within a polynomial factor. The core of the quantum advantage discovered in this work is ultimately borrowed from Shor's quantum algorithm for factoring. Concretely, we prove a super-polynomial advantage for approximating special instances of the so-called integer programming problem. In doing so, we provide an explicit end-to-end construction for advantage bearing instances. This result shows that quantum devices have, in principle, the power to approximate combinatorial optimization solutions beyond the reach of classical efficient algorithms. Our results also give clear guidance on how to construct such advantage-bearing problem instances.
翻訳日:2024-02-14 20:18:51 公開日:2024-02-13
# 大規模環境における静的・動的シーンの効率的な3次元再構成・ストリーミング・可視化

Efficient 3D Reconstruction, Streaming and Visualization of Static and Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale Environments ( http://arxiv.org/abs/2211.14310v3 )

ライセンス: Link先を確認
Leif Van Holland, Patrick Stotko, Stefan Krumpen, Reinhard Klein, Michael Weinmann(参考訳) 静的でダイナミックなシーンエンティティを備えたルームスケールシーンのテレプレゼンスシステムの目覚ましい進歩にもかかわらず、数平方メートル以上の大きな動的環境を持つシナリオにその能力を拡張することは依然として困難である。 本稿では,1台のコンシューマグレードのRGB-Dカメラを用いた軽量シーンキャプチャをベースとして,静的シーンと動的シーンの双方を実用的な帯域幅要件で共有することを目的とした。 To this end, we present a system which is built upon a novel hybrid volumetric scene representation in terms of the combination of a voxel-based scene representation for the static contents, that not only stores the reconstructed surface geometry but also contains information about the object semantics as well as their accumulated dynamic movement over time, and a point-cloud-based representation for dynamic scene parts, where the respective separation from static parts is achieved based on semantic and instance information extracted for the input frames. 静的コンテンツと動的コンテンツの両方を独立して同時にストリーミングすることで、静的モデルに潜在的に移行するが、静的なシーンエンティティが再び動的になるまでシームレスに統合され、リモートクライアントでの静的データと動的データの融合により、我々のシステムはリアルタイムに近い速度でVRベースのライブテレプレゼンスを実現することができる。 本評価では, デザイン選択に関する視覚的品質, 性能, アブレーション研究の観点から, 新たなアプローチの可能性を示す。

Despite the impressive progress of telepresence systems for room-scale scenes with static and dynamic scene entities, expanding their capabilities to scenarios with larger dynamic environments beyond a fixed size of a few square-meters remains challenging. In this paper, we aim at sharing 3D live-telepresence experiences in large-scale environments beyond room scale with both static and dynamic scene entities at practical bandwidth requirements only based on light-weight scene capture with a single moving consumer-grade RGB-D camera. To this end, we present a system which is built upon a novel hybrid volumetric scene representation in terms of the combination of a voxel-based scene representation for the static contents, that not only stores the reconstructed surface geometry but also contains information about the object semantics as well as their accumulated dynamic movement over time, and a point-cloud-based representation for dynamic scene parts, where the respective separation from static parts is achieved based on semantic and instance information extracted for the input frames. With an independent yet simultaneous streaming of both static and dynamic content, where we seamlessly integrate potentially moving but currently static scene entities in the static model until they are becoming dynamic again, as well as the fusion of static and dynamic data at the remote client, our system is able to achieve VR-based live-telepresence at close to real-time rates. Our evaluation demonstrates the potential of our novel approach in terms of visual quality, performance, and ablation studies regarding involved design choices.
翻訳日:2024-02-14 20:17:54 公開日:2024-02-13
# lms: コード解析のためのコード構文とセマンティクスの理解

LMs: Understanding Code Syntax and Semantics for Code Analysis ( http://arxiv.org/abs/2305.12138v4 )

ライセンス: Link先を確認
Wei Ma, Shangqing Liu, Zhihao Lin, Wenhan Wang, Qiang Hu, Ye Liu, Cen Zhang, Liming Nie, Li Li, Yang Liu(参考訳) 大規模言語モデル~(LLM)は、コードや文書生成といったSEタスクにおいて優れたパフォーマンスを示すことによって、ソフトウェア工学(SE)に革命をもたらす大きな可能性を示している。 しかし、ソフトウェア工学における高い信頼性とリスクコントロール要件は、LLMの解釈可能性の欠如を懸念する。 この問題に対処するため,我々はLLMの能力とSEにおけるコード解析の限界を評価する研究を行った。 我々は、コード分析に関連するSEタスクに対処するために人工知能に必要な能力~(AI)モデルを3つのカテゴリに分類する。 1)構文理解。 2)静的な行動の理解,及び 3)動的行動理解。 本研究は,抽象構文木 (AST) や制御フローグラフ (CFG) ,コールグラフ (CG) など,LLMがコード構文や意味構造を理解する能力に注目した。 GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという4つの最先端基礎モデルを採用した。 C、Java、Python、Solidityを含む言語横断タスクにおけるLLMの性能を評価した。 その結果,LLMにはコード構文を理解する能力がある一方で,コード意味論,特に動的意味論の理解に苦慮していることがわかった。 LLMは抽象構文木(AST)パーサに類似した機能を有し、静的コード解析の初期能力を示す。 さらに,本研究は,llmがコード意味構造を解釈し,存在しない事実をつくり出す際に幻覚になりやすいことを浮き彫りにした。 これらの結果から,LLM出力の正当性を検証し,SEにおける信頼性を保証する方法を検討する必要があることが示唆された。 さらに重要なことは、llmが生成するコードは通常構文が正しいが脆弱である理由に対する最初の答えを提供します。

Large language models~(LLMs) demonstrate significant potential to revolutionize software engineering (SE) by exhibiting outstanding performance in SE tasks such as code and document generation. However, the high reliability and risk control requirements in software engineering raise concerns about the lack of interpretability of LLMs. To address this concern, we conducted a study to evaluate the capabilities of LLMs and their limitations for code analysis in SE. We break down the abilities needed for artificial intelligence~(AI) models to address SE tasks related to code analysis into three categories: 1) syntax understanding, 2) static behavior understanding, and 3) dynamic behavior understanding. Our investigation focused on the ability of LLMs to comprehend code syntax and semantic structures, which include abstract syntax trees (AST), control flow graphs (CFG), and call graphs (CG). We employed four state-of-the-art foundational models, GPT4, GPT3.5, StarCoder and CodeLlama-13b-instruct. We assessed the performance of LLMs on cross-language tasks involving C, Java, Python, and Solidity. Our findings revealed that while LLMs have a talent for understanding code syntax, they struggle with comprehending code semantics, particularly dynamic semantics. We conclude that LLMs possess capabilities similar to an Abstract Syntax Tree (AST) parser, demonstrating initial competencies in static code analysis. Furthermore, our study highlights that LLMs are susceptible to hallucinations when interpreting code semantic structures and fabricating nonexistent facts. These results indicate the need to explore methods to verify the correctness of LLM output to ensure its dependability in SE. More importantly, our study provides an initial answer to why the codes generated by LLM are usually syntax-correct but vulnerable.
翻訳日:2024-02-14 20:09:38 公開日:2024-02-13
# クリックカウント検出器を用いたガウスボソンサンプリング

Gaussian boson sampling with click-counting detectors ( http://arxiv.org/abs/2305.00853v2 )

ライセンス: Link先を確認
Gabriele Bressanini, Hyukjoon Kwon, M. S. Kim(参考訳) ガウス・ボソンサンプリングは、現在の技術能力の到達範囲内で量子優位を実験的に実証する第一候補である。 当初の提案では光子数分解検出器を用いるが、後者は広くは利用できない。 一方、安価なしきい値検出器を単一のクリックカウント検出器に組み合わせることで、近似光子数分解能を達成することができる。 クリックカウント検出器を用いて,一般のマルチモードガウス状態からのサンプリング問題を調べ,与えられた結果を得る確率が,kensingtonianと呼ばれる新しい行列関数と関連していることを示す。 後者がトロントとハフニアンにどのように関係しているかを示し、既知のガウスボソンサンプリング変種の間のギャップを埋める。 次に、標準的な複雑性理論的な予想の下では、モデルが効率的にシミュレートできないことを証明する。

Gaussian boson sampling constitutes a prime candidate for an experimental demonstration of quantum advantage within reach with current technological capabilities. The original proposal employs photon-number-resolving detectors, however the latter are not widely available. On the other hand, inexpensive threshold detectors can be combined into a single click-counting detector to achieve approximate photon number resolution. We investigate the problem of sampling from a general multi-mode Gaussian state using click-counting detectors and show that the probability of obtaining a given outcome is related to a new matrix function which is dubbed as the Kensingtonian. We show how the latter relates to the Torontonian and the Hafnian, thus bridging the gap between known Gaussian boson sampling variants. We then prove that, under standard complexity-theoretical conjectures, the model can not be simulated efficiently.
翻訳日:2024-02-14 20:08:10 公開日:2024-02-13
# 条件付き拡散モデルに基づく電力顧客のためのカスタマイズ負荷プロファイル合成

Customized Load Profiles Synthesis for Electricity Customers Based on Conditional Diffusion Models ( http://arxiv.org/abs/2304.12076v2 )

ライセンス: Link先を確認
Zhenyi Wang, Hongcai Zhang(参考訳) 顧客のロードプロファイルは、現代の電力システムでデータ分析アプリケーションをサポートするための重要なリソースである。 しかし、収集コストとデータプライバシの問題のため、データ分析には歴史的負荷プロファイルが不十分であることが多い。 このようなデータ不足問題に対処するために、ロードプロファイル合成は、顧客が高性能なデータ駆動モデルを構築するための合成トレーニングデータを提供する効果的な技術である。 それでも、顧客負荷の多様性が高いため、各顧客データによって訓練された生成モデルを用いて、各顧客に対する高品質な負荷プロファイルを合成することは依然として困難である。 本論文では,異種顧客を対象とした条件付き拡散モデルに基づく新しい負荷プロファイル合成手法を提案する。 具体的には、まず、カスタマイズされた合成を条件付きデータ生成問題に変換する。 次に,従来の拡散モデルを条件拡散モデルに拡張し,条件データ生成を実現し,顧客の負荷特性とアプリケーション要求に応じて,各顧客専用の負荷プロファイルを合成する。 さらに,条件拡散モデルを実装するために,残差層を積み重ねた雑音推定モデルを設計し,スキップ接続を用いて生成性能を向上させる。 また,負荷プロファイルの複雑な時間依存性をよりよく抽出するために注意機構を利用する。 最後に,提案手法の有効性と優位性を検証するために,公開データセットに基づく数値ケーススタディを行った。

Customers' load profiles are critical resources to support data analytics applications in modern power systems. However, there are usually insufficient historical load profiles for data analysis, due to the collection cost and data privacy issues. To address such data shortage problems, load profiles synthesis is an effective technique that provides synthetic training data for customers to build high-performance data-driven models. Nonetheless, it is still challenging to synthesize high-quality load profiles for each customer using generation models trained by the respective customer's data owing to the high heterogeneity of customer load. In this paper, we propose a novel customized load profiles synthesis method based on conditional diffusion models for heterogeneous customers. Specifically, we first convert the customized synthesis into a conditional data generation issue. We then extend traditional diffusion models to conditional diffusion models to realize conditional data generation, which can synthesize exclusive load profiles for each customer according to the customer's load characteristics and application demands. In addition, to implement conditional diffusion models, we design a noise estimation model with stacked residual layers, which improves the generation performance by using skip connections. The attention mechanism is also utilized to better extract the complex temporal dependency of load profiles. Finally, numerical case studies based on a public dataset are conducted to validate the effectiveness and superiority of the proposed method.
翻訳日:2024-02-14 20:07:57 公開日:2024-02-13
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v5 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, and Ronggang Wang(参考訳) 効果的な受容場(erf)は変換符号化において重要な役割を担っており、変換中にどれだけの冗長性を除去できるか、また逆変換中にテクスチャを合成するのにどれだけの空間的プリエントを使うことができるかを決定する。 既存の手法では、ERFが十分大きくない小さなカーネルのスタックや、高解像度画像符号化の可能性を制限する重い非局所的な注意機構に頼っている。 この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。 具体的には,学習画像圧縮コミュニティにおいて初めて,少ない複雑さを維持しつつ冗長性を向上させるために,カーネルベースの奥行き方向畳み込みをいくつか導入した。 画像の多様性の幅が広いため,自己条件で重みを生成することで畳み込みの適応性を高めることを提案する。 大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。 また,大規模カーネルの潜在能力を十分に活用するためのトレーニング手法の改善についても検討した。 さらに,チャネル間の相互作用を高めるために,チャネル重要度を自己条件で生成する適応的なチャネルワイドビット割り当てを提案する。 提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。 大規模な実験により,提案したLLICモデルは,対応するベースラインよりも大幅に改善され,最先端のパフォーマンスが達成され,性能と複雑性のトレードオフが向上した。

Effective Receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed at most during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERF remains not large enough instead, or heavy non-local attention mechanisms, which limit the potential of high resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in learned image compression community, we introduce a few large kernel-based depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to wide range of image diversity, we propose to enhance the adaptability of convolutions via generating weights in a self-conditioned manner. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter point-wise interactions. We also investigate improved training techniques to fully exploit the potential of large kernels. In addition, to enhance the interactions among channels, we propose the adaptive channel-wise bit allocation via generating channel importance factor in a self-conditioned manner. To demonstrate the effectiveness of proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, LLIC-TCM. Extensive experiments demonstrate our proposed LLIC models have significant improvements over corresponding baselines and achieve state-of-the-art performances and better trade-off between performance and complexity.
翻訳日:2024-02-14 20:07:38 公開日:2024-02-13
# テクストエッジを用いたネットワークのクラスタリングと表現のためのdeep latent position topic model

The Deep Latent Position Topic Model for Clustering and Representation of Networks with Textual Edges ( http://arxiv.org/abs/2304.08242v3 )

ライセンス: Link先を確認
R\'emi Boutin, Pierre Latouche, Charles Bouveyron(参考訳) 他のユーザが公開するテキストコンテンツを共有することにつながる数値的なインタラクションは、ノードに個人が関連づけられ、エッジで交換されたテキストが生成されるネットワークによって自然に表現される。 このような不均一で複雑なデータ構造を理解するには、ノードを均質なグループにクラスタリングし、データの理解可能な視覚化を強制される。 両問題に対処するために,変分グラフオートエンコーダアプローチに基づくモデルベースのクラスタリング戦略であるDeep-LPTMと,議論のトピックを特徴付ける確率的モデルを導入する。 Deep-LPTMは2つの埋め込み空間にノードとエッジの合同表現を構築することができる。 パラメータは変分推論アルゴリズムを用いて推定される。 また,クラスタリングと可視化特性を考慮したモデル選択のためのモデル選択基準であるic2lについても紹介する。 合成データに関する広範なベンチマーク研究が提供されている。 特に、Deep-LPTMは最先端のETSBMやSTBMよりもノードの分割を回復する。 最終的に、Enron社のEメールは分析され、結果の視覚化が行われ、グラフ構造の意義あるハイライトが示される。

Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering nodes into homogeneous groups as well as rendering a comprehensible visualisation of the data is mandatory. To address both issues, we introduce Deep-LPTM, a model-based clustering strategy relying on a variational graph auto-encoder approach as well as a probabilistic model to characterise the topics of discussion. Deep-LPTM allows to build a joint representation of the nodes and of the edges in two embeddings spaces. The parameters are inferred using a variational inference algorithm. We also introduce IC2L, a model selection criterion specifically designed to choose models with relevant clustering and visualisation properties. An extensive benchmark study on synthetic data is provided. In particular, we find that Deep-LPTM better recovers the partitions of the nodes than the state-of-the art ETSBM and STBM. Eventually, the emails of the Enron company are analysed and visualisations of the results are presented, with meaningful highlights of the graph structure.
翻訳日:2024-02-14 20:06:40 公開日:2024-02-13
# ハイブリッド量子ロータデバイスの熱力学

Thermodynamics of hybrid quantum rotor devices ( http://arxiv.org/abs/2304.08122v2 )

ライセンス: Link先を確認
Heather Leitch, Kenza Hammam, Gabriele De Chiara(参考訳) 量子回転子と相互作用する2つの量子ビットと、異なる温度で2つの平衡貯留層に散逸的に結合したハイブリッド量子デバイスの熱力学について検討する。 衝突モデルを用いてシステムのダイナミクスと結果として生じる定常状態をモデル化することにより、装置の機能をサーマルエンジン、冷蔵庫、加速器として識別する。 また, 熱整流器としての動作能力についても検討し, 整流係数と熱流の両面を同時に最適化する。 熱整流の類似性を示し, ロータの運動エネルギーへのエネルギー変換に関心を持っていることから, 外部負荷による作業抽出を制御できる角運動量整流の概念を導入する。

We investigate the thermodynamics of a hybrid quantum device consisting of two qubits collectively interacting with a quantum rotor and coupled dissipatively to two equilibrium reservoirs at different temperatures. By modelling the dynamics and the resulting steady state of the system using a collision model, we identify the functioning of the device as a thermal engine, a refrigerator or an accelerator. In addition, we also look into the device's capacity to operate as a heat rectifier, and optimise both the rectification coefficient and the heat flow simultaneously. Drawing an analogy to heat rectification and since we are interested in the conversion of energy into the rotor's kinetic energy, we introduce the concept of angular momentum rectification which may be employed to control work extraction through an external load.
翻訳日:2024-02-14 20:06:20 公開日:2024-02-13
# 非エルミート皮膚効果における非正常性のトポロジー的増強

Topological enhancement of non-normality in non-Hermitian skin effects ( http://arxiv.org/abs/2304.06689v3 )

ライセンス: Link先を確認
Yusuke O. Nakai, Nobuyuki Okuma, Daichi Nakamura, Kenji Shimomura, Masatoshi Sato(参考訳) 非エルミート皮膚効果は非エルミート系に固有の代表的な現象であり、開境界条件 (OBC) 下のエネルギースペクトルと固有状態は周期境界条件 (PBC) 下のものと大きく異なる。 PBCの非自明なトポロジーは非エルミート皮膚効果を特徴付けるが、OBCの適切な測定方法はまだ明らかになっていない。 本稿では, OBCによる非正常化の位相的増強が非エルミート皮膚効果を正確に定量することを明らかにする。 皮膚効果のスペクトルおよび状態変化に対応して,非正常の2つのスカラー尺度を導入し,非エルミート皮膚効果はOBC下においてマクロ的に増強すると主張した。 また,非エルミート皮膚効果の位相遷移を正確に記述し,平均対称性で保護された非エルミート皮膚効果の欠如を明らかにした。 非正規性のトポロジカルエンハンスメントは、Bauer-Fike定理によるOBCスペクトルの摂動感度と異常時間進化ダイナミクスを支配している。

The non-Hermitian skin effects are representative phenomena intrinsic to non-Hermitian systems: the energy spectra and eigenstates under the open boundary condition (OBC) drastically differ from those under the periodic boundary condition (PBC). Whereas a non-trivial topology under the PBC characterizes the non-Hermitian skin effects, their proper measure under the OBC has not been clarified yet. This paper reveals that topological enhancement of non-normality under the OBC accurately quantifies the non-Hermitian skin effects. Correspondingly to spectrum and state changes of the skin effects, we introduce two scalar measures of non-normality and argue that the non-Hermitian skin effects enhance both macroscopically under the OBC. We also show that the enhanced non-normality correctly describes phase transitions causing the non-Hermitian skin effects and reveals the absence of non-Hermitian skin effects protected by average symmetry. The topological enhancement of non-normality governs the perturbation sensitivity of the OBC spectra and the anomalous time-evolution dynamics through the Bauer-Fike theorem.
翻訳日:2024-02-14 20:06:07 公開日:2024-02-13
# 対向防御強化のための最適軌道によるブリッジ輸送とジャコビアン正規化

Bridging Optimal Transport and Jacobian Regularization by Optimal Trajectory for Enhanced Adversarial Defense ( http://arxiv.org/abs/2303.11793v3 )

ライセンス: Link先を確認
Binh M. Le, Shahroz Tariq, Simon S. Woo(参考訳) ディープニューラルネットワーク、特に視覚タスクは、特に敵の摂動に影響を受けやすい。 この課題を克服するには、堅牢な分類器の開発が不可欠である。 分類器の堅牢性の最近の進歩を踏まえ、敵の訓練と2つの重要な防御であるヤコビ正規化の複雑さを深く掘り下げる。 我々の研究は、これらの2つのアプローチの流派(理論的にも経験的にも)を慎重に分析し、それぞれのアプローチが分類器の堅牢な学習にどのように影響するかを実証する最初のものである。 次に, otjr と呼ばれるヤコビ正則化法を用いて, 入力ヤコビ正則化を a 出力表現アラインメントに橋渡しし, 最適輸送理論を応用した新しい最適輸送法を提案する。 特にスライスされたワッサースタイン距離を用いて、データセット内のクラスの数に関係なく、敵のサンプルの表現をクリーンなサンプルの表現に効率的に近づけることができる。 SW距離は、反対サンプルの運動方向を与えるが、これはヤコビアン正則化にとってより情報的かつ強力である。 提案手法は,cifar-10で52.57%,cifar-100データセットで28.3%,autoattackで52.57%の精度を実現している。 さらに,本モデルの実用性を検証するため,インターネットをベースとした画像のオンライン攻撃に対する実世界の検証を行った。 これらの実演は,実世界のシナリオにおけるその意義と適用性を肯定し,高度な敵の摂動に対抗できるモデルの能力を強調した。

Deep neural networks, particularly in vision tasks, are notably susceptible to adversarial perturbations. To overcome this challenge, developing a robust classifier is crucial. In light of the recent advancements in the robustness of classifiers, we delve deep into the intricacies of adversarial training and Jacobian regularization, two pivotal defenses. Our work is the first carefully analyzes and characterizes these two schools of approaches, both theoretically and empirically, to demonstrate how each approach impacts the robust learning of a classifier. Next, we propose our novel Optimal Transport with Jacobian regularization method, dubbed OTJR, bridging the input Jacobian regularization with the a output representation alignment by leveraging the optimal transport theory. In particular, we employ the Sliced Wasserstein distance that can efficiently push the adversarial samples' representations closer to those of clean samples, regardless of the number of classes within the dataset. The SW distance provides the adversarial samples' movement directions, which are much more informative and powerful for the Jacobian regularization. Our empirical evaluations set a new standard in the domain, with our method achieving commendable accuracies of 52.57% on CIFAR-10 and 28.3% on CIFAR-100 datasets under the AutoAttack. Further validating our model's practicality, we conducted real-world tests by subjecting internet-sourced images to online adversarial attacks. These demonstrations highlight our model's capability to counteract sophisticated adversarial perturbations, affirming its significance and applicability in real-world scenarios.
翻訳日:2024-02-14 20:05:45 公開日:2024-02-13
# 畳み込みニューラルネットワークを用いた単眼サイクリスト検出

Monocular Cyclist Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2303.11223v2 )

ライセンス: Link先を確認
Charles Tang(参考訳) サイクリングは持続可能性と健康上の利益のために輸送手段として人気が高まっている。 しかし、特に道路で大型車両に遭遇した場合、サイクリストは増加するリスクに直面します。 本研究は,盲点に対する運転者の注意不足に起因する車両と自転車の衝突回数を減らすことを目的としている。 そこで我々は,物体検出畳み込みニューラルネットワーク(EfficientDet Lite や SSD MobileNetV2 など)でサイクリストを検出可能な,最先端のリアルタイム単眼サイクリスト検出を設計した。 まず,提案する自転車検出モデルは,2万以上の画像からなる新たに提案された自転車用画像データセット上で,0.900map (iou: 0.5) 以上を達成している。 次に、カメラモジュールを備えたGoogle Coral Dev Boardミニコンピュータにモデルが展開され、速度を解析して15ミリ秒の推論時間に達した。 最後に、エンドツーエンドのサイクリスト検出装置をリアルタイムでテストしてトラフィックシナリオをモデル化し、パフォーマンスと実現可能性についてさらに分析した。 サイクリスト検出装置は、サイクリストを正確にかつ迅速に検出でき、サイクリストの安全性を著しく向上させる可能性があると結論づけた。 今後の研究により、自動車業界における提案装置の実現可能性や、自転車の安全性の向上が期待できる。

Cycling is an increasingly popular method of transportation for sustainability and health benefits. However, cyclists face growing risks, especially when encountering large vehicles on the road. This study aims to reduce the number of vehicle-cyclist collisions, which are often caused by poor driver attention to blind spots. To achieve this, we designed a state-of-the-art real-time monocular cyclist detection that can detect cyclists with object detection convolutional neural networks, such as EfficientDet Lite and SSD MobileNetV2. First, our proposed cyclist detection models achieve greater than 0.900 mAP (IoU: 0.5), fine-tuned on a newly proposed cyclist image dataset comprising over 20,000 images. Next, the models were deployed onto a Google Coral Dev Board mini-computer with a camera module and analyzed for speed, reaching inference times as low as 15 milliseconds. Lastly, the end-to-end cyclist detection device was tested in real-time to model traffic scenarios and analyzed further for performance and feasibility. We concluded that this cyclist detection device can accurately and quickly detect cyclists and has the potential to improve cyclist safety significantly. Future studies could determine the feasibility of the proposed device in the vehicle industry and improvements to cyclist safety over time.
翻訳日:2024-02-14 20:05:15 公開日:2024-02-13
# ermを用いたマルチロバスト学習

Agnostic Multi-Robust Learning Using ERM ( http://arxiv.org/abs/2303.08944v2 )

ライセンス: Link先を確認
Saba Ahmadi, Avrim Blum, Omar Montasser, Kevin Stangl(参考訳) 頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。 対照的に、攻撃者は1回だけ摂動を成功させる必要がある。 Xiangら。 2022]は,画像分類におけるパッチアタックの文脈において,指数関数から多項式数への摂動を効果的に減らし,ERMオラクルを用いて学習するアルゴリズムを提案した。 しかし、その保証を達成するために、それらのアルゴリズムは、自然な例を堅牢に実現する必要がある。 堅牢なエラーがゼロの分類器が存在しない非ロバストに実現可能なケースに、アプローチを拡張できるか? 最初のコントリビューションは、この問題を、Feigeらによって提案されたアルゴリズムに還元することで、肯定的に答えることです。 2015年]は適用可能で、その過程で保証を拡張することができる。 次に,マルチグループ設定に結果を拡張し,(潜在的に)豊富なサブグループの集合に対するロバストな損失の少ない予測子を学習することを目的とした,新しい無知なマルチロバスト学習問題を導入する。

A fundamental problem in robust learning is asymmetry: a learner needs to correctly classify every one of exponentially-many perturbations that an adversary might make to a test-time natural example. In contrast, the attacker only needs to find one successful perturbation. Xiang et al.[2022] proposed an algorithm that in the context of patch attacks for image classification, reduces the effective number of perturbations from an exponential to a polynomial number of perturbations and learns using an ERM oracle. However, to achieve its guarantee, their algorithm requires the natural examples to be robustly realizable. This prompts the natural question; can we extend their approach to the non-robustly-realizable case where there is no classifier with zero robust error? Our first contribution is to answer this question affirmatively by reducing this problem to a setting in which an algorithm proposed by Feige et al.[2015] can be applied, and in the process extend their guarantees. Next, we extend our results to a multi-group setting and introduce a novel agnostic multi-robust learning problem where the goal is to learn a predictor that achieves low robust loss on a (potentially) rich collection of subgroups.
翻訳日:2024-02-14 20:04:53 公開日:2024-02-13
# 一般化フィボナッチドライブの量子ダイナミクスにおける完全ヒルベルト空間エルゴディディティ

Complete Hilbert-Space Ergodicity in Quantum Dynamics of Generalized Fibonacci Drives ( http://arxiv.org/abs/2306.11792v3 )

ライセンス: Link先を確認
Sa\'ul Pilatowsky-Cameo, Ceren B. Dag, Wen Wei Ho, and Soonwon Choi(参考訳) 量子力学のエルゴディディティはしばしばエネルギー固有状態の統計的性質によって定義され、ベリーの単一粒子量子カオスにおける予想と多体設定における固有状態熱化仮説によって実証される。 本研究では、量子系がより強固なエルゴード性を示すことができるかどうかを検証し、時間発展状態が時間とともにヒルベルト空間全体を一様に訪問する。 そのような現象を完全ヒルベルト空間エルゴディディティ(CHSE)と呼び、これは本質的に動的概念としてのエルゴディディティという直感的な概念に似ている。 chse は、完全なヒルベルト空間の探索を妨げる(quasi)エネルギー固有状態が存在するため、時間非依存あるいは時間-周期的なハミルトニアンダイナミクスを保持できない。 しかし、フィボナッチワードとその一般化によって生成される最小の記号的複雑性を持つ非周期的だが決定論的ドライブの族が存在し、CHSEが発生することが証明できる。 本研究は,一般時間依存量子システムにおける熱化の理解の基礎を提供する。

Ergodicity of quantum dynamics is often defined through statistical properties of energy eigenstates, as exemplified by Berry's conjecture in single-particle quantum chaos and the eigenstate thermalization hypothesis in many-body settings. In this work, we investigate whether quantum systems can exhibit a stronger form of ergodicity, wherein any time-evolved state uniformly visits the entire Hilbert space over time. We call such a phenomenon complete Hilbert-space ergodicity (CHSE), which is more akin to the intuitive notion of ergodicity as an inherently dynamical concept. CHSE cannot hold for time-independent or even time-periodic Hamiltonian dynamics, owing to the existence of (quasi)energy eigenstates which precludes exploration of the full Hilbert space. However, we find that there exists a family of aperiodic, yet deterministic drives with minimal symbolic complexity -- generated by the Fibonacci word and its generalizations -- for which CHSE can be proven to occur. Our results provide a basis for understanding thermalization in general time-dependent quantum systems.
翻訳日:2024-02-14 19:57:56 公開日:2024-02-13
# 線形応答による非平衡量子プローブ

Non-equilibrium quantum probing through linear response ( http://arxiv.org/abs/2306.08500v2 )

ライセンス: Link先を確認
Sherry Blair, Giorgio Zicari, Alessio Belenchia, Alessandro Ferraro, Mauro Paternostro(参考訳) 線形応答理論の形式論は、開量子系が非平衡定常状態に向かって進化する物理的状況を含むように拡張することができる。 ここでは、Konopik と Lutz [Phys] が提案したフレームワークを使用します。 Rev. Research {\bf 1}, 033156 (2019)] は、力学のユニタリ摂動を超えていく。 2つの結合量子高調波発振器からなるオープンシステムについて検討し、ハミルトニアンダイナミクスや非ユニタリ摂動に影響を及ぼすユニタリ摂動に対するシステムの応答を調べ、その温度やスクイーズなど環境の性質に影響を及ぼす。 線形応答は, 量子探索法と組み合わせることで, 非単体力学の場合であっても, 環境の摂動や特性について, 有効な定量的情報を提供できることを示す。

The formalism of linear response theory can be extended to encompass physical situations where an open quantum system evolves towards a non-equilibrium steady-state. Here, we use the framework put forward by Konopik and Lutz [Phys. Rev. Research {\bf 1}, 033156 (2019)] to go beyond unitary perturbations of the dynamics. Considering an open system comprised of two coupled quantum harmonic oscillators, we study the system's response to unitary perturbations, affecting the Hamiltonian dynamics, as well as non-unitary perturbations, affecting the properties of the environment, e.g., its temperature and squeezing. We show that linear response, combined with a quantum probing approach, can effectively provide valuable quantitative information about the perturbation and characteristics of the environment, even in cases of non-unitary dynamics.
翻訳日:2024-02-14 19:57:19 公開日:2024-02-13
# Slot-VAE:スロット注意によるオブジェクト中心のシーン生成

Slot-VAE: Object-Centric Scene Generation with Slot Attention ( http://arxiv.org/abs/2306.06997v2 )

ライセンス: Link先を確認
Yanbo Wang, Letao Liu, Justin Dauwels(参考訳) スロット注意は、コンピュータビジョンタスクにおいて、監督を必要とせずに、目覚ましいオブジェクト中心表現学習性能を示す。 合成モデリングによって引き起こされたオブジェクト中心の結合能力にもかかわらず、スロットアテンションは新規シーンを生成する能力に欠ける。 本稿では,オブジェクト中心のシーン生成のための階層型VAEフレームワークとスロットアテンションを統合した生成モデルであるSlot-VAEを提案する。 各画像に対して、モデルは、高レベルなシーン構造とオブジェクト中心のスロット表現を同時に推定し、個々のオブジェクトコンポーネントを埋め込む。 生成中、スロット表現がグローバルシーン表現から生成され、コヒーレントなシーン構造が保証される。 Slot-VAEによるシーン生成能力の評価は,サンプル品質とシーン構造精度において,スロット表現に基づく生成ベースラインよりも優れていることを示す。

Slot attention has shown remarkable object-centric representation learning performance in computer vision tasks without requiring any supervision. Despite its object-centric binding ability brought by compositional modelling, as a deterministic module, slot attention lacks the ability to generate novel scenes. In this paper, we propose the Slot-VAE, a generative model that integrates slot attention with the hierarchical VAE framework for object-centric structured scene generation. For each image, the model simultaneously infers a global scene representation to capture high-level scene structure and object-centric slot representations to embed individual object components. During generation, slot representations are generated from the global scene representation to ensure coherent scene structures. Our extensive evaluation of the scene generation ability indicates that Slot-VAE outperforms slot representation-based generative baselines in terms of sample quality and scene structure accuracy.
翻訳日:2024-02-14 19:57:05 公開日:2024-02-13
# 分散オンライン学習のための最適勾配追跡

Optimized Gradient Tracking for Decentralized Online Learning ( http://arxiv.org/abs/2306.06375v2 )

ライセンス: Link先を確認
Shivangi Dubey Sharma (1) and Ketan Rajawat (1), ((1) Indian Institute of Technology Kanpur)(参考訳) 本研究は,ネットワーク内の複数のノードに分散した時間変化関数の総和を最適に追跡することを目的とした分散オンライン学習の課題を考察する。 関数とその勾配の局所的な可用性は、ノード間の協調とコンセンサスを必要とする。 我々は,最先端のアプローチを含む既存のアプローチを統一する一般化勾配追跡(ggt)フレームワークを発表した。 提案したGGTアルゴリズムの性能は、非常に一般的な条件下で、勾配境界性仮定を必要とせず、所望の後悔境界が得られるような、新しい半定プログラムベース解析を用いて理論的に解析される。 結果は、様々な最先端のアルゴリズムと、様々な古典的な分散アルゴリズムの新しい動的バージョンを含むGGTの特殊なケースに適用できる。 さらに後悔を最小限に抑えるため、GGTの縮合版は4つの自由パラメータしか持たないと考える。 問題パラメータのみを用いたパラメータのオフラインチューニング手順についても詳述する。 その結果、最適化されたggt(oggt)アルゴリズムは、改善された動的後悔境界を達成するだけでなく、合成データと実世界のデータセットの両方で最先端のアルゴリズムを上回る。

This work considers the problem of decentralized online learning, where the goal is to track the optimum of the sum of time-varying functions, distributed across several nodes in a network. The local availability of the functions and their gradients necessitates coordination and consensus among the nodes. We put forth the Generalized Gradient Tracking (GGT) framework that unifies a number of existing approaches, including the state-of-the-art ones. The performance of the proposed GGT algorithm is theoretically analyzed using a novel semidefinite programming-based analysis that yields the desired regret bounds under very general conditions and without requiring the gradient boundedness assumption. The results are applicable to the special cases of GGT, which include various state-of-the-art algorithms as well as new dynamic versions of various classical decentralized algorithms. To further minimize the regret, we consider a condensed version of GGT with only four free parameters. A procedure for offline tuning of these parameters using only the problem parameters is also detailed. The resulting optimized GGT (oGGT) algorithm not only achieves improved dynamic regret bounds, but also outperforms all state-of-the-art algorithms on both synthetic and real-world datasets.
翻訳日:2024-02-14 19:56:49 公開日:2024-02-13
# 説明可能な人工知能における敵の攻撃と防御

Adversarial attacks and defenses in explainable artificial intelligence: A survey ( http://arxiv.org/abs/2306.06123v3 )

ライセンス: Link先を確認
Hubert Baniecki and Przemyslaw Biecek(参考訳) 説明可能な人工知能(XAI)手法は、統計的および深層学習モデルのデバッグと信頼、および予測の解釈の方法として描かれる。 しかし、最近の敵機械学習(AdvML)の進歩は、最先端の説明手法の限界と脆弱性を強調し、彼らのセキュリティと信頼性に疑問を呈している。 モデル推論の操作、不正、公正な証拠を操作する可能性は、高い意思決定と知識発見に適用した場合に有害な結果をもたらす。 この調査は、機械学習モデルの説明に対する敵対的攻撃に関する研究と公平度メトリクスに関する総合的な概要を提供する。 本稿では,AdvML と XAI の交差する研究分野の研究者や実践者にとって共通基盤となる手法の統一的な表記法と分類法を紹介する。 攻撃から防御する方法とロバストな解釈方法の設計について論じる。 我々は,XAIにおける既存の不正確性のリストに貢献し,敵のXAI(AdvXAI)における新たな研究方向性を概説する。 今後の課題は、報告された安全問題を考慮した説明方法や評価プロトコルの改善である。

Explainable artificial intelligence (XAI) methods are portrayed as a remedy for debugging and trusting statistical and deep learning models, as well as interpreting their predictions. However, recent advances in adversarial machine learning (AdvML) highlight the limitations and vulnerabilities of state-of-the-art explanation methods, putting their security and trustworthiness into question. The possibility of manipulating, fooling or fairwashing evidence of the model's reasoning has detrimental consequences when applied in high-stakes decision-making and knowledge discovery. This survey provides a comprehensive overview of research concerning adversarial attacks on explanations of machine learning models, as well as fairness metrics. We introduce a unified notation and taxonomy of methods facilitating a common ground for researchers and practitioners from the intersecting research fields of AdvML and XAI. We discuss how to defend against attacks and design robust interpretation methods. We contribute a list of existing insecurities in XAI and outline the emerging research directions in adversarial XAI (AdvXAI). Future work should address improving explanation methods and evaluation protocols to take into account the reported safety issues.
翻訳日:2024-02-14 19:56:28 公開日:2024-02-13
# 組合せ最適化のためのニューラルアルゴリズム推論

Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v5 )

ライセンス: Link先を確認
Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o(参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。 長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。 現在のCO問題の解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。 対照的に、TSPのようなCO問題のために設計されたヒューリスティックスは、最小分散木を見つけるような、確立されたアルゴリズムを頻繁に活用する。 本稿では,最近のアルゴリズム推論の進歩を活用し,CO問題の学習を改善することを提案する。 具体的には、COインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。 以上の結果から,この学習装置を用いることで,非アルゴリズム的情報深層学習モデルよりも優れた性能が得られることが示された。

Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. Current neural-based methods for solving CO problems often overlook the inherent "algorithmic" nature of the problems. In contrast, heuristics designed for CO problems, e.g. TSP, frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of CO problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on CO instances. Our results demonstrate that by using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models.
翻訳日:2024-02-14 19:56:10 公開日:2024-02-13
# ユークリッド距離関数を用いた拡散モデルの解釈と改善

Interpreting and Improving Diffusion Models Using the Euclidean Distance Function ( http://arxiv.org/abs/2306.04848v3 )

ライセンス: Link先を確認
Frank Permenter and Chenyang Yuan(参考訳) ディノイジングは直観的に投影と関係がある。 実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ同値である。 したがって、妄想を学ぶことは、プロジェクトを学ぶことです。 本稿では,この観測をユークリッド距離関数に適用した近似勾配勾配の拡散モデルの再解釈に利用する。 そこで本研究では, DDIM サンプルの直進収束解析を, デノイザの投射誤差に関する簡単な仮定で行う。 最後に, DDIMに対する2つの簡単な修正に基づく新しいサンプリング手法を提案する。 CIFAR-10 と CelebA のモデルでは,5-10 の関数評価が達成され,遅延拡散モデルでは高品質なサンプルを生成することができる。

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to reinterpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection-error of the denoiser. Finally, we propose a new sampler based on two simple modifications to DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.
翻訳日:2024-02-14 19:55:54 公開日:2024-02-13
# 非有界状態空間におけるオンライン強化学習の安定化のための学習

Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces ( http://arxiv.org/abs/2306.01896v2 )

ライセンス: Link先を確認
Brahma S. Pavse, Matthew Zurek, Yudong Chen, Qiaomin Xie, Josiah P. Hanna(参考訳) 多くの強化学習(RL)アプリケーションでは、所望の状態に到達し、制御されたシステムを所望の状態の周囲の許容範囲内に一定期間保持する政策が望まれる。 後者の目標は安定性と呼ばれ、状態空間が非有界である場合には特に重要であり、状態が互いに任意に遠く離れることができ、エージェントが所望の状態から遠ざかることができる。 例えば、待ちジョブのキューがバウンドなしで成長可能な確率的キューネットワークでは、望ましい状態は全ゼロのキュー長である。 ここで、安定したポリシーはキュー長が有限であることを保証する一方、最適なポリシーはキュー長を最小化する。 最適ポリシーも安定しているので、RLアルゴリズムが暗黙的に安定ポリシーを与えると期待する。 しかし,本研究では,オンライントレーニング中に所望の状態までの距離を最小化する深いrlアルゴリズムが不安定な政策,すなわち所望の状態から遠ざかる政策をもたらすことを発見した。 我々は、この不安定さを、不安定化行動に対する信用割り当ての低さによるものとみなす。 次に2つのアイデアに基づいたアプローチを紹介します 1)リアプノフベースのコストシェーピング技術と 2) 非有界状態空間への状態変換。 我々は,様々な待ち行列ネットワークとトラヒック信号制御問題に関する実証研究を行い,トランジッションダイナミクスの知識を持つ強力なベースラインに対して,このアプローチが競合的に動作することを見出した。

In many reinforcement learning (RL) applications, we want policies that reach desired states and then keep the controlled system within an acceptable region around the desired states over an indefinite period of time. This latter objective is called stability and is especially important when the state space is unbounded, such that the states can be arbitrarily far from each other and the agent can drift far away from the desired states. For example, in stochastic queuing networks, where queues of waiting jobs can grow without bound, the desired state is all-zero queue lengths. Here, a stable policy ensures queue lengths are finite while an optimal policy minimizes queue lengths. Since an optimal policy is also stable, one would expect that RL algorithms would implicitly give us stable policies. However, in this work, we find that deep RL algorithms that directly minimize the distance to the desired state during online training often result in unstable policies, i.e., policies that drift far away from the desired state. We attribute this instability to poor credit-assignment for destabilizing actions. We then introduce an approach based on two ideas: 1) a Lyapunov-based cost-shaping technique and 2) state transformations to the unbounded state space. We conduct an empirical study on various queueing networks and traffic signal control problems and find that our approach performs competitively against strong baselines with knowledge of the transition dynamics.
翻訳日:2024-02-14 19:55:21 公開日:2024-02-13
# 双曲空間における弱教師付き視聴覚暴力検出の学習

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space ( http://arxiv.org/abs/2305.18797v3 )

ライセンス: Link先を確認
Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Ping Yang, Zizhao Wu(参考訳) 近年,音声・視覚的暴力検出の弱さが注目されている。 このタスクの目的は、ビデオレベルのラベルに基づいて、マルチモーダルデータ内の暴力的セグメントを特定することである。 この分野の進歩にもかかわらず、以前の研究で使われた伝統的なユークリッドニューラルネットワークは、特徴空間の制限のために、高度に差別的な表現を捉えるのが困難である。 そこで我々は,双曲空間におけるスニペット埋め込みを学習し,モデル識別を改善する新しいフレームワークhypervdを提案する。 本フレームワークはマルチモーダル融合のためのdetour fusionモジュールから成り,オーディオ信号と視覚信号間の不整合を効果的に緩和する。 さらに,双曲空間におけるスニペット間の特徴的類似性と時間的関係を推定する,完全双曲グラフ畳み込みネットワークの2つの分枝を寄与する。 この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。 XD-Violenceベンチマークの大規模な実験により,本手法は最先端の手法よりも大きなマージンで優れていることが示された。

In recent years, the task of weakly supervised audio-visual violence detection has gained considerable attention. The goal of this task is to identify violent segments within multimodal data based on video-level labels. Despite advances in this field, traditional Euclidean neural networks, which have been used in prior research, encounter difficulties in capturing highly discriminative representations due to limitations of the feature space. To overcome this, we propose HyperVD, a novel framework that learns snippet embeddings in hyperbolic space to improve model discrimination. Our framework comprises a detour fusion module for multimodal fusion, effectively alleviating modality inconsistency between audio and visual signals. Additionally, we contribute two branches of fully hyperbolic graph convolutional networks that excavate feature similarities and temporal relationships among snippets in hyperbolic space. By learning snippet representations in this space, the framework effectively learns semantic discrepancies between violent and normal events. Extensive experiments on the XD-Violence benchmark demonstrate that our method outperforms state-of-the-art methods by a sizable margin.
翻訳日:2024-02-14 19:54:56 公開日:2024-02-13
# 安定-ペナルティ-適応的フォロー・ザ・レギュラライズド・リーダー:スパシリティ、ゲーム依存、そしてベスト・オブ・ボズ・ワールド

Stability-penalty-adaptive follow-the-regularized-leader: Sparsity, game-dependency, and best-of-both-worlds ( http://arxiv.org/abs/2305.17301v2 )

ライセンス: Link先を確認
Taira Tsuchiya, Shinji Ito, Junya Honda(参考訳) 問題の難しさへの適応性は、アルゴリズムの適用性を広げるためのシーケンシャルな意思決定問題の鍵となる性質である。 FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。 この適応性をさらに一般化するために,ftrlのためのspa学習率と呼ばれる汎用適応学習率を開発した。 この学習速度は、FTRLの後悔が分解されるアルゴリズムの安定性とペナルティに依存して、共同で後悔をもたらす。 この結果から,空間性,ゲーム依存性,世界最良性(BOBW)の3種類の適応性を持つアルゴリズムを確立した。 スパーシティが現実の問題に頻繁に現れるという事実にもかかわらず、$k$-armsを持つ既存のスパースなマルチアームバンディットアルゴリズムは、スパーシティレベル$s \leq k$が事前に知られていると仮定している。 この問題に対処するために、我々はまず、対数係数まで既存の下限に一致する$t$ラウンドの敵対的レジームにおいて、$\tilde{o}(\sqrt{st})$の後悔の限界で$s$非依存のアルゴリズムを確立する。 一方,BOBWアルゴリズムは,確率的・敵対的両体制において,ほぼ最適に後悔することを目指している。 SPA学習率と$s$非依存アルゴリズムの手法と、正規化器の変更に応じてFTRL出力の変動をバウンドする新たな解析を組み合わせることで、空間依存境界を持つ最初のBOBWアルゴリズムを確立する。 さらに,部分的監視について検討し,提案するスパ学習率フレームワークにより,ゲーム依存のバウンドとbowを同時に達成できることを実証する。

Adaptivity to the difficulties of a problem is a key property in sequential decision-making problems to broaden the applicability of algorithms. Follow-the-regularized-leader (FTRL) has recently emerged as one of the most promising approaches for obtaining various types of adaptivity in bandit problems. Aiming to further generalize this adaptivity, we develop a generic adaptive learning rate, called stability-penalty-adaptive (SPA) learning rate for FTRL. This learning rate yields a regret bound jointly depending on stability and penalty of the algorithm, into which the regret of FTRL is typically decomposed. With this result, we establish several algorithms with three types of adaptivity: sparsity, game-dependency, and best-of-both-worlds (BOBW). Despite the fact that sparsity appears frequently in real problems, existing sparse multi-armed bandit algorithms with $k$-arms assume that the sparsity level $s \leq k$ is known in advance, which is often not the case in real-world scenarios. To address this issue, we first establish $s$-agnostic algorithms with regret bounds of $\tilde{O}(\sqrt{sT})$ in the adversarial regime for $T$ rounds, which matches the existing lower bound up to a logarithmic factor. Meanwhile, BOBW algorithms aim to achieve a near-optimal regret in both the stochastic and adversarial regimes. Leveraging the SPA learning rate and the technique for $s$-agnostic algorithms combined with a new analysis to bound the variation in FTRL output in response to changes in a regularizer, we establish the first BOBW algorithm with a sparsity-dependent bound. Additionally, we explore partial monitoring and demonstrate that the proposed SPA learning rate framework allows us to achieve a game-dependent bound and the BOBW simultaneously.
翻訳日:2024-02-14 19:54:37 公開日:2024-02-13
# 高次元データセットからの微分プライベート低次元合成データ

Differentially Private Low-dimensional Synthetic Data from High-dimensional Datasets ( http://arxiv.org/abs/2305.17148v2 )

ライセンス: Link先を確認
Yiyun He, Thomas Strohmer, Roman Vershynin, Yizhe Zhu(参考訳) 個人に関する機密情報を保護しながら、データ分析を可能にする強力なメカニズムを提供する。 しかし、データが高次元空間にある場合、合成データの精度は次元性の呪いに苦しむ。 本稿では,ワッサーシュタイン距離に対する実用性を保証する高次元データセットから,低次元合成データを効率的に生成する微分プライベートアルゴリズムを提案する。 我々のアルゴリズムの重要なステップは、次元の呪いを回避し、ほぼ最適に近い精度のプライベート主成分分析 (pca) 手順である。 標準摂動解析とは異なり, 共分散行列のスペクトルギャップを仮定することなく, プライベートPCAの解析を行う。

Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the synthetic data suffers from the curse of dimensionality. In this paper, we propose a differentially private algorithm to generate low-dimensional synthetic data efficiently from a high-dimensional dataset with a utility guarantee with respect to the Wasserstein distance. A key step of our algorithm is a private principal component analysis (PCA) procedure with a near-optimal accuracy bound that circumvents the curse of dimensionality. Unlike the standard perturbation analysis, our analysis of private PCA works without assuming the spectral gap for the covariance matrix.
翻訳日:2024-02-14 19:53:54 公開日:2024-02-13
# この土地は『Your, My} Land: Evaluating Geopolitical Biases in Language Models』である

This Land is {Your, My} Land: Evaluating Geopolitical Biases in Language Models ( http://arxiv.org/abs/2305.14610v3 )

ライセンス: Link先を確認
Bryan Li, Samar Haider, Chris Callison-Burch(参考訳) スプラトリー諸島は中国、フィリピン、ベトナムに属していますか。 事前訓練された大型言語モデル (LLM) は、中国語、タガログ語、ベトナム語など、各主張国の言語で質問された場合、異なる回答をすることができる。 これは、一貫して答える可能性が高い多言語人間とは対照的である。 本稿では,異なる言語で問合せされた場合,llmが地理的知識を不整合に覚えていることを示す。 対象とするケーススタディとして,本質的に物議を醸している多言語課題である領土紛争を考える。 BorderLinesは251の領域をカバーする領土紛争のデータセットで、各主張国(計49の言語)の言語における複数の選択に関する質問に関連付けられている。 また,異なる言語間の応答のバイアスと一貫性を正確に定量化するための評価指標も提案する。 次に、データセットとメトリクスに基づいて様々な多言語LLMを評価し、それらの内部知識を探索し、提案したメトリクスを使用して、これらのモデルが異なる言語でどのように反応するかの多くの矛盾を検出する。 最後に,地政学的バイアスを増幅あるいは緩和することを目的とした,いくつかの迅速な修正戦略を検討する。

Do the Spratly Islands belong to China, the Philippines, or Vietnam? A pretrained large language model (LLM) may answer differently if asked in the languages of each claimant country: Chinese, Tagalog, or Vietnamese. This contrasts with a multilingual human, who would likely answer consistently. In this paper, we show that LLMs recall certain geographical knowledge inconsistently when queried in different languages--a phenomenon we term geopolitical bias. As a targeted case study, we consider territorial disputes, an inherently controversial and multilingual task. We introduce BorderLines, a dataset of territorial disputes which covers 251 territories, each associated with a set of multiple-choice questions in the languages of each claimant country (49 languages in total). We also propose a suite of evaluation metrics to precisely quantify bias and consistency in responses across different languages. We then evaluate various multilingual LLMs on our dataset and metrics to probe their internal knowledge and use the proposed metrics to discover numerous inconsistencies in how these models respond in different languages. Finally, we explore several prompt modification strategies, aiming to either amplify or mitigate geopolitical bias, which highlights how brittle LLMs are and how they tailor their responses depending on cues from the interaction context.
翻訳日:2024-02-14 19:53:45 公開日:2024-02-13
# AI検出のための透かし条件付きテキスト生成:解答課題とセマンティックな透かし対策

Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy ( http://arxiv.org/abs/2307.13808v2 )

ライセンス: Link先を確認
Yu Fu, Deyi Xiong, Yue Dong(参考訳) 言語モデルに関連する潜在的なリスクを軽減するため、近年のAI検出研究は、ランダムな語彙制限を通じて透かしを機械生成テキストに組み込むことを提案し、この情報を用いて検出する。 これらの透かしはパープレキシティをわずかに低下させるだけだが,条件付きテキスト生成の性能に有意な障害があることが明らかとなった。 この問題に対処するために,条件付きテキスト生成と入力コンテキストの特性を考慮した,シンプルで効果的な意味認識型透かしアルゴリズムを提案する。 提案手法は,検出能力を維持しつつ要約やデータ対テキスト生成などのタスクにおいて,bart や flan-t5 など様々なテキスト生成モデルにおいて大幅に改善することを示す。

To mitigate potential risks associated with language models, recent AI detection research proposes incorporating watermarks into machine-generated text through random vocabulary restrictions and utilizing this information for detection. While these watermarks only induce a slight deterioration in perplexity, our empirical investigation reveals a significant detriment to the performance of conditional text generation. To address this issue, we introduce a simple yet effective semantic-aware watermarking algorithm that considers the characteristics of conditional text generation and the input context. Experimental results demonstrate that our proposed method yields substantial improvements across various text generation models, including BART and Flan-T5, in tasks such as summarization and data-to-text generation while maintaining detection ability.
翻訳日:2024-02-14 19:45:08 公開日:2024-02-13
# 代替特徴選択による最適横特徴集合の探索

Finding Optimal Diverse Feature Sets with Alternative Feature Selection ( http://arxiv.org/abs/2307.11607v2 )

ライセンス: Link先を確認
Jakob Bach(参考訳) 特徴選択は小さく、解釈可能で、高精度な予測モデルを得るために人気がある。 従来の機能選択手法は、1つの機能セットのみを生成するが、いくつかのシナリオでは十分ではない。 例えば、ユーザーは同様の予測品質を持つ代替機能セットを見つけ、データの異なる説明を提供することに興味があるかもしれない。 本稿では,代替機能の選択を導入し,最適化問題として定式化する。 特に,制約によって代替品を定義し,利用者が代替品の数や相違を制御できるようにする。 代替品の同時検索と同様に逐次検索も検討する。 次に,従来の機能選択手法を目的として統合する方法について述べる。 特に,最適化問題に対処するための解法に基づく探索手法について述べる。 さらに,この最適化問題の複雑性を分析し,np困難性を証明する。 さらに,一定の条件下で定数近似が存在することを示し,対応するヒューリスティック探索法を提案する。 最後に,30個のバイナリ分類データセットを用いた包括的実験において,代替機能の選択を評価する。 代替特徴集合が実際に高い予測品質を持つ可能性があることを観察し、この結果に影響する要因を分析する。

Feature selection is popular for obtaining small, interpretable, yet highly accurate prediction models. Conventional feature-selection methods typically yield one feature set only, which might not suffice in some scenarios. For example, users might be interested in finding alternative feature sets with similar prediction quality, offering different explanations of the data. In this article, we introduce alternative feature selection and formalize it as an optimization problem. In particular, we define alternatives via constraints and enable users to control the number and dissimilarity of alternatives. We consider sequential as well as simultaneous search for alternatives. Next, we discuss how to integrate conventional feature-selection methods as objectives. In particular, we describe solver-based search methods to tackle the optimization problem. Further, we analyze the complexity of this optimization problem and prove NP-hardness. Additionally, we show that a constant-factor approximation exists under certain conditions and propose corresponding heuristic search methods. Finally, we evaluate alternative feature selection in comprehensive experiments with 30 binary-classification datasets. We observe that alternative feature sets may indeed have high prediction quality, and we analyze factors influencing this outcome.
翻訳日:2024-02-14 19:44:52 公開日:2024-02-13
# Amortized Variational Inference: When and Why?

Amortized Variational Inference: When and Why? ( http://arxiv.org/abs/2307.11018v3 )

ライセンス: Link先を確認
Charles C. Margossian and David M. Blei(参考訳) 確率潜在変数モデルでは、因子化(または平均場)変分推論(F-VI)は各潜時変数に対して別のパラメトリック分布に適合する。 amortized variational inference (a-vi) は、代わりに共通の推論関数を学習し、各観測結果を対応する潜在変数の近似後方にマッピングする。 通常、A-VIは変分オートエンコーダの訓練においてコグとして使用されるが、A-VIがF-VIの一般的な代替品としても使用できる理由である。 本稿では,ベイズ近似にA-VIをいつ,なぜ利用できるのかを考察する。 A-VI が F-VI の最適解を得るために必要で十分かつ検証可能な潜在変数モデル上で条件を導出し,アモータイズギャップを閉じる。 これらの条件は、機械学習において多くのモデルを含む幅広いクラスである単純な階層モデルによって一意に検証される。 次に、より広範なモデルのクラスにおいて、AVIの推論関数の領域を拡張してその解を改善する方法を示し、例えば隠れマルコフモデルのように、償却ギャップを閉じることができないような例を示す。

In a probabilistic latent variable model, factorized (or mean-field) variational inference (F-VI) fits a separate parametric distribution for each latent variable. Amortized variational inference (A-VI) instead learns a common inference function, which maps each observation to its corresponding latent variable's approximate posterior. Typically, A-VI is used as a cog in the training of variational autoencoders, however it stands to reason that A-VI could also be used as a general alternative to F-VI. In this paper we study when and why A-VI can be used for approximate Bayesian inference. We derive conditions on a latent variable model which are necessary, sufficient, and verifiable under which A-VI can attain F-VI's optimal solution, thereby closing the amortization gap. We prove these conditions are uniquely verified by simple hierarchical models, a broad class that encompasses many models in machine learning. We then show, on a broader class of models, how to expand the domain of AVI's inference function to improve its solution, and we provide examples, e.g. hidden Markov models, where the amortization gap cannot be closed.
翻訳日:2024-02-14 19:44:38 公開日:2024-02-13
# AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする

AlpaGasus: Training A Better Alpaca with Fewer Data ( http://arxiv.org/abs/2307.08701v5 )

ライセンス: Link先を確認
Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin(参考訳) 大規模言語モデル(LLM)は、教師付き命令/レスポンスデータに対する命令ファインタニング(IFT)を通じて命令追従能力を強化する。 しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。 本稿では,強力なllm(例えばchatgpt)を用いて低品質データを自動的に識別しフィルタする,簡便で効果的なデータ選択戦略を提案する。 この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。 AlpaGasusは、複数のテストセットと制御されたヒトの評価において、GPT-4で評価されたオリジナルのAlpacaよりも大幅に優れている。 13bの変種は、テストタスクにおける教師のllm(つまり52kデータを生成するtext-davinci-003)の90\%$のパフォーマンスに匹敵する。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。 さらに,本手法の有効性を,多種多様なデータセット,ベースモデル,LLMフィルタで実証した。 全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。 私たちのプロジェクトページは、https://lichang-chen.github.io/alpagasus/で閲覧できます。

Large language models (LLMs) strengthen instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and filters out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the efficacy of our method across diverse datasets, base models, and LLM filters. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: https://lichang-chen.github.io/AlpaGasus/
翻訳日:2024-02-14 19:44:16 公開日:2024-02-13
# リニア光学による非線形処理

Nonlinear Processing with Linear Optics ( http://arxiv.org/abs/2307.08533v3 )

ライセンス: Link先を確認
Mustafa Yildirim, Niyazi Ulas Dinc, Ilker Oguz, Demetri Psaltis and Christophe Moser(参考訳) ディープニューラルネットワークは、巨大な電子コンピューティングのコストにもかかわらず、複数のデータ処理層を利用して隠れた表現を抽出することで、目覚ましいブレークスルーを達成した。 エネルギー効率と速度を向上させるため、ニューラルネットワークの光実装は、光帯域と光配線のエネルギー効率の利点を活用することを目的としている。 低出力光非線形性がない場合、多層光ネットワークの実装における課題は、電子部品に頼らずに複数の光層を実現することである。 本研究では,データで表される散乱ポテンシャルと散乱場との非線形関係を利用して,プログラム可能な線形および非線形変換を低光出力で同時に合成することのできる,多重散乱を用いた新しいフレームワークを提案する。 理論的および実験的研究により、多重散乱によるデータの繰り返しは、低出力連続波光における非線形光学計算を可能にすることが示されている。 さらに、この光学フレームワークのスケーリングは、最先端の深層デジタルネットワークのような電力法則に従うことを実証的に見出した。

Deep neural networks have achieved remarkable breakthroughs by leveraging multiple layers of data processing to extract hidden representations, albeit at the cost of large electronic computing power. To enhance energy efficiency and speed, the optical implementation of neural networks aims to harness the advantages of optical bandwidth and the energy efficiency of optical interconnections. In the absence of low-power optical nonlinearities, the challenge in the implementation of multilayer optical networks lies in realizing multiple optical layers without resorting to electronic components. In this study, we present a novel framework that uses multiple scattering that is capable of synthesizing programmable linear and nonlinear transformations concurrently at low optical power by leveraging the nonlinear relationship between the scattering potential, represented by data, and the scattered field. Theoretical and experimental investigations show that repeating the data by multiple scattering enables non-linear optical computing at low power continuous wave light. Moreover, we empirically found that scaling of this optical framework follows the power law as in state-of-the-art deep digital networks.
翻訳日:2024-02-14 19:43:49 公開日:2024-02-13
# ランダムウォークからグラフスプリントへ:連続時間動的グラフ上の低遅延ノード埋め込みフレームワーク

From random-walks to graph-sprints: a low-latency node embedding framework on continuous-time dynamic graphs ( http://arxiv.org/abs/2307.08433v4 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, Hugo Ferreira, Jo\~ao Ascens\~ao, Pedro Ribeiro, Pedro Bizarro(参考訳) 多くの現実世界のデータセットは基盤となる動的グラフ構造を持ち、エンティティとその相互作用は時間とともに進化する。 機械学習モデルは、下流タスクにおける潜在能力を最大限活用するために、これらのダイナミクスを考慮すべきである。 グラフ表現学習における従来のアプローチは、幅優先探索のようなkホップ近傍のサンプリングや、深さ優先探索のようなランダムウォークに重点を置いていた。 しかし、これらの手法は計算コストが高く、動的グラフ上のリアルタイム低レイテンシ推論には適さない。 これらの制限を克服するため,我々は連続時間動的グラフ(CTDG)のための汎用的特徴抽出フレームワークとしてグラフプリントを提案し,レイテンシが低く,最先端の高レイテンシモデルと競合する。 これを実現するために,ランダムウォークに基づく特徴量に対する低レイテンシのストリーミング近似を提案する。 本フレームワークでは,マルチホップ情報を要約した時間認識ノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。 提案手法を3つのオープンソースデータセットと2つの社内データセットで評価し、3つの最先端アルゴリズム(TGN-attn,TGN-ID,Jodie)と比較した。 グラフプリント機能と機械学習分類器が組み合わさって、競合性能(ノード分類タスクのベースラインを5つのデータセットで上回る)を達成することを実証した。 同時に、グラフプリントは推論遅延を著しく減少させ、実験環境では桁違いのスピードアップを達成する。

Many real-world datasets have an underlying dynamic graph structure, where entities and their interactions evolve over time. Machine learning models should consider these dynamics in order to harness their full potential in downstream tasks. Previous approaches for graph representation learning have focused on either sampling k-hop neighborhoods, akin to breadth-first search, or random walks, akin to depth-first search. However, these methods are computationally expensive and unsuitable for real-time, low-latency inference on dynamic graphs. To overcome these limitations, we propose graph-sprints a general purpose feature extraction framework for continuous-time-dynamic-graphs (CTDGs) that has low latency and is competitive with state-of-the-art, higher latency models. To achieve this, a streaming, low latency approximation to the random-walk based features is proposed. In our framework, time-aware node embeddings summarizing multi-hop information are computed using only single-hop operations on the incoming edges. We evaluate our proposed approach on three open-source datasets and two in-house datasets, and compare with three state-of-the-art algorithms (TGN-attn, TGN-ID, Jodie). We demonstrate that our graph-sprints features, combined with a machine learning classifier, achieve competitive performance (outperforming all baselines for the node classification tasks in five datasets). Simultaneously, graph-sprints significantly reduce inference latencies, achieving close to an order of magnitude speed-up in our experimental setting.
翻訳日:2024-02-14 19:43:33 公開日:2024-02-13
# 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2307.06887v3 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari, Sanjay Shakkottai(参考訳) ますます普及している機械学習のパラダイムは、多くのタスクでニューラルネットワーク(nn)をオフラインで事前トレーニングし、ダウンストリームタスクに適応させることである。 このアプローチは様々な文脈において強力なダウンストリーム性能をもたらし、マルチタスク事前学習が効果的な特徴学習につながることを示す。 最近のいくつかの理論的研究により、浅いNNはいずれかが有意義な特徴を学ぶことが示されている。 (i)"em single"タスクで訓練されていること、または (ii)それらは線形であり、"em multiple} タスクで訓練された "em nonlinear} nns のより近い実践的な場合についてはほとんど知られていない。 本研究では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。 私たちの重要な洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。 この結果から,2層 ReLU NN 上の単純な勾配に基づくマルチタスク学習アルゴリズムにより,データを$d\gg r$-dimensional 入力空間内の$r$-dimensional 部分空間に投影した値に依存したラベル付きバイナリ分類タスクが,このプロジェクションを復元し,サンプルとニューロンの複雑さを$d$と独立にダウンストリームタスクに一般化できることを示した。 対照的に、1つのタスクの引き分けよりも高い確率で、この1つのタスクのトレーニングでは、$r$の接地的特徴をすべて学習することは保証できない。

An increasingly popular machine learning paradigm is to pretrain a neural network (NN) on many tasks offline, then adapt it to downstream tasks, often by re-training only the last linear layer of the network. This approach yields strong downstream performance in a variety of contexts, demonstrating that multitask pretraining leads to effective feature learning. Although several recent theoretical studies have shown that shallow NNs learn meaningful features when either (i) they are trained on a {\em single} task or (ii) they are {\em linear}, very little is known about the closer-to-practice case of {\em nonlinear} NNs trained on {\em multiple} tasks. In this work, we present the first results proving that feature learning occurs during training with a nonlinear model on multiple tasks. Our key insight is that multi-task pretraining induces a pseudo-contrastive loss that favors representations that align points that typically have the same label across tasks. Using this observation, we show that when the tasks are binary classification tasks with labels depending on the projection of the data onto an $r$-dimensional subspace within the $d\gg r$-dimensional input space, a simple gradient-based multitask learning algorithm on a two-layer ReLU NN recovers this projection, allowing for generalization to downstream tasks with sample and neuron complexity independent of $d$. In contrast, we show that with high probability over the draw of a single task, training on this single task cannot guarantee to learn all $r$ ground-truth features.
翻訳日:2024-02-14 19:43:02 公開日:2024-02-13
# ディープニューラルネットワーク検証のための認証証明チェッカーを目指して

Towards a Certified Proof Checker for Deep Neural Network Verification ( http://arxiv.org/abs/2307.06299v2 )

ライセンス: Link先を確認
Remi Desmartin, Omri Isac, Grant Passmore, Kathrin Stark, Guy Katz and Ekaterina Komendantskaya(参考訳) 近年のディープニューラルネットワーク(dnn)の発展により、安全性クリティカルなシステムへの採用が進み、安全性の保証の必要性が高まっている。 これらのDNNの安全性特性は、検証コミュニティが開発したツールを用いて証明することができる。 しかし、これらのツール自体が実装バグや数値安定性の問題を起こしやすいため、信頼性が疑わしい。 これを解決するために、一部の検証者は、信頼できるチェッカーによってチェックできる結果の証明を生成する。 本稿では,DNN検証のための検証チェッカーの実装について述べる。 数値安定性と高い妥当性を提供することにより、既存の実装を改善する。 これを実現するために、工業的定理証明器であるimandraの2つの重要な能力、すなわち無限精度実数演算とその形式的検証基盤を活用した。 これまでのところ、我々はImandraに証明チェッカーを実装し、その正当性を規定し、チェッカーのコンプライアンスを検証し始めた。 現在進行中の作業は、チェッカーの正式な検証を完了し、パフォーマンスをさらに最適化することに集中しています。

Recent developments in deep neural networks (DNNs) have led to their adoption in safety-critical systems, which in turn has heightened the need for guaranteeing their safety. These safety properties of DNNs can be proven using tools developed by the verification community. However, these tools are themselves prone to implementation bugs and numerical stability problems, which make their reliability questionable. To overcome this, some verifiers produce proofs of their results which can be checked by a trusted checker. In this work, we present a novel implementation of a proof checker for DNN verification. It improves on existing implementations by offering numerical stability and greater verifiability. To achieve this, we leverage two key capabilities of Imandra, an industrial theorem prover: its support of infinite precision real arithmetic and its formal verification infrastructure. So far, we have implemented a proof checker in Imandra, specified its correctness properties and started to verify the checker's compliance with them. Our ongoing work focuses on completing the formal verification of the checker and further optimizing its performance.
翻訳日:2024-02-14 19:42:31 公開日:2024-02-13
# 駆動1次元準周期モデルにおけるファミリービックス動的スケーリングとKardar-Parisi-Zhang様表面粗さの超拡散成長

Family-Vicsek dynamical scaling and Kardar-Parisi-Zhang-like superdiffusive growth of surface roughness in a driven one-dimensional quasiperiodic model ( http://arxiv.org/abs/2307.03807v3 )

ライセンス: Link先を確認
Sreemayee Aditya, Nilanjan Roy(参考訳) 量子系の力学的普遍性クラスの研究は、非平衡物理学の重要な側面であり、あまり研究されていない。 本研究では,周期駆動を伴う一次元準周期モデルにおけるスピンレスフェルミオンの非平衡ダイナミクスを考慮し,粒子数ゆらぎに伴う「量子表面粗さ」の動的一パラメータ系ファミリービクセック(fv)スケーリングの存在を報告する。 周期駆動がなければ、モデルは2つの部分微分臨界線と他の位相から三重点によって分離された部分微分臨界位相を持つことが興味深い。 相間駆動の存在下での臨界相の運命の解析は、臨界相は極めて脆弱であり、駆動パラメータによって非局在化または局所化状態へ吸収される傾向があることを示している。 さらに、周期駆動は量子カルダー・パリ・チャン(KPZ)のような超拡散的力学挙動を示すことに共謀しうるが、古典的なものは存在しないようである。 さらに実効的なフロケハミルトニアンを構築し、これは駆動モデルで発生する特徴を質的に捉える。

The investigation of the dynamical universality classes of quantum systems is an important, and rather less explored, aspect of non-equilibrium physics. In this work, considering the out-of-equilibrium dynamics of spinless fermions in a one-dimensional quasiperiodic model with and without a periodic driving, we report the existence of the dynamical one-parameter based Family-Vicsek (FV) scaling of the "quantum surface-roughness" associated with the particle-number fluctuations. In absence of periodic driving, the model is interestingly shown to host a subdiffusive critical phase separated by two subdiffusive critical lines and a triple point from other phases. An analysis of the fate of critical phase in the presence of (inter-phase) driving indicates that the critical phase is quite fragile and has a tendency to get absorbed into the delocalized or localized regime depending on the driving parameters. Furthermore, periodic driving can conspire to show quantum Kardar-Parisi-Zhang (KPZ)-like superdiffusive dynamical behavior, which seems to have no classical counterpart. We further construct an effective Floquet Hamiltonian, which qualitatively captures this feature occurring in the driven model
翻訳日:2024-02-14 19:42:14 公開日:2024-02-13
# 予測符号化と不確かさ最小化によるアクティブセンシング

Active Sensing with Predictive Coding and Uncertainty Minimization ( http://arxiv.org/abs/2307.00668v3 )

ライセンス: Link先を確認
Abdelrahman Sharafeldin, Nabil Imam, Hannah Choi(参考訳) 本稿では,予測符号化と不確実性最小化という2つの生物学的計算に着想を得たエンドツーエンド探索手法を提案する。 この手順は、タスクに依存しない本質的に駆動された方法での探索設定に適用できる。 まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。 第2に,エージェントが視覚的環境を積極的にサンプリングして情報を収集する,より複雑なアクティブビジョンタスクに適用する。 本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。 さらに,これらの表現を下流分類に適用することで,パラメータの複雑さを低く抑えつつ,他のベースラインと比較してデータ効率と学習速度が向上することを示す。 最後に,このモデルのモジュール性により,内部機構を探索し,探索中の知覚と行動の相互作用を解析できる。

We present an end-to-end procedure for embodied exploration inspired by two biological computations: predictive coding and uncertainty minimization. The procedure can be applied to exploration settings in a task-independent and intrinsically driven manner. We first demonstrate our approach in a maze navigation task and show that it can discover the underlying transition distributions and spatial features of the environment. Second, we apply our model to a more complex active vision task, where an agent actively samples its visual environment to gather information. We show that our model builds unsupervised representations through exploration that allow it to efficiently categorize visual scenes. We further show that using these representations for downstream classification leads to superior data efficiency and learning speed compared to other baselines while maintaining lower parameter complexity. Finally, the modularity of our model allows us to probe its internal mechanisms and analyze the interaction between perception and action during exploration.
翻訳日:2024-02-14 19:41:51 公開日:2024-02-13
# ドメインウォールカラーコード

The domain wall color code ( http://arxiv.org/abs/2307.00054v2 )

ライセンス: Link先を確認
Konstantin Tiurev, Arthur Pesah, Peter-Jan H. S. Derks, Joschka Roffe, Jens Eisert, Markus S. Kesselring, and Jan-Michael Reiner(参考訳) 量子誤り訂正カラーコードの新しい変種であるドメインウォールカラーコードを導入し、バイアスドノイズを受ける量子ビットに対して、非常に高い符号容量誤差しきい値を示す。 無限バイアス状態において、2次元カラーコードは一連の繰り返し符号に分離され、エラー訂正しきい値が50%となる。 興味深いことに、有限バイアスにおいて、我々のカラーコードは、全ての単一キュービットパウリノイズチャネルに対するノイズ調整されたXZZX表面コードと同一の閾値を示す。 コードの設計原則は、ドメインの交差時にコードの興奮を透過するドメイン壁を導入することである。 実用的な実装のために、マッチングアルゴリズムに基づいたスケーラブルな制限デコーダでドメインウォールコードを補完する。 提案するコードは、現実的なノイズに適した、リソース効率のよい量子誤り訂正符号として同定される。

We introduce the domain wall color code, a new variant of the quantum error-correcting color code that exhibits exceptionally high code-capacity error thresholds for qubits subject to biased noise. In the infinite bias regime, a two-dimensional color code decouples into a series of repetition codes, resulting in an error-correcting threshold of 50%. Interestingly, at finite bias, our color code demonstrates thresholds identical to those of the noise-tailored XZZX surface code for all single-qubit Pauli noise channels. The design principle of the code is that it introduces domain walls which permute the code's excitations upon domain crossing. For practical implementation, we supplement the domain wall code with a scalable restriction decoder based on a matching algorithm. The proposed code is identified as a comparably resource-efficient quantum error-correcting code highly suitable for realistic noise.
翻訳日:2024-02-14 19:41:36 公開日:2024-02-13
# グラフ状態生成のための融合ゲートの代替としてのボソン減算

Boson subtraction as an alternative to fusion gates for generating graph states ( http://arxiv.org/abs/2306.15148v2 )

ライセンス: Link先を確認
Seungbeom Chin(参考訳) 量子ビットグラフ状態は測定に基づく量子計算(mbqc)において不可欠な計算資源である。 光学においてグラフ状態を生成する最もよく知られた方法は融合ゲートを使うことであり、多くの場合、高価なリソース状態を必要とする。 本研究では,線形量子ネットワーク(lqg)のグラフ画像に基づくグラフ状態を生成するための代替手法を提案する。 これらの減算スキームは、単一光子源とより柔軟な測定要素を持つ効率的なヘラルド光学セットアップに対応する。 キャタピラーグラフは、線形グラフ、星グラフ、星グラフのネットワークなど、一方向量子コンピューティングのための様々な有用なグラフ構造を包含する。 従来型の核融合ゲートを用いてクラスタ状態を生成するためのリソースとして活用できる。 ボソン減算作用素はより一般的な概念であり、融合ゲートを包含し、従って最適化できることを示す。

Qubit graph states are essential computational resources in measurement-based quantum computations (MBQC). The most well-known method to generate graph states in optics is to use fusion gates, which in many cases require expensive entangled resource states. In this work, we propose an alternative approach to generate graph states based on the graph picture of linear quantum networks (LQG picture), through which we can devise schemes that generate caterpillar graph states with boson subtractions. These subtraction schemes correspond to efficient heralded optical setups with single-photon sources and more flexible measurement elements than fusion gates. Caterpillar graph states encompass various useful graph structures for one-way quantum computing, such as linear graphs, star graphs, and networks of star graphs. We can exploit them as resources for generating cluster states using conventional Type II fusion gates. Our results demonstrate that the boson subtraction operator is a more general concept that encompasses and can therefore optimize fusion gates.
翻訳日:2024-02-14 19:41:25 公開日:2024-02-13
# 超音波およびマンモグラフィー画像における乳腺腫瘍検出のためのセグメンテーションモデルとU-Netの比較解析

Comparative Analysis of Segment Anything Model and U-Net for Breast Tumor Detection in Ultrasound and Mammography Images ( http://arxiv.org/abs/2306.12510v2 )

ライセンス: Link先を確認
Mohsen Ahmadi, Masoumeh Farhadi Nia, Sara Asgarian, Kasra Danesh, Elyas Irankhah, Ahmad Gholizadeh Lonbar, Abbas Sharifi(参考訳) 本研究の目的は,乳房超音波(BUS)およびマンモグラフィー画像中の腫瘍領域を同定・デライン化できるアルゴリズムを開発することである。 この技術は、2つの高度なディープラーニングアーキテクチャ、すなわち U-Net と SAM を腫瘍セグメンテーションに用いている。 U-Netモデルは医用画像セグメンテーション用に特別に設計され、深層畳み込みニューラルネットワークフレームワークを利用して入力画像から有意義な特徴を抽出する。 一方、事前訓練されたSAMアーキテクチャでは、空間的依存関係をキャプチャし、セグメンテーション結果を生成するメカニズムが組み込まれている。 良性腫瘍と悪性腫瘍の両方をカバーするバス画像およびマンモグラフィ画像に注釈付き腫瘍領域を含む多彩なデータセット上で評価を行う。 このデータセットは、異なる腫瘍タイプにわたるアルゴリズムのパフォーマンスの包括的な評価を可能にする。 以上の結果から,U-Netモデルは,BUS画像とマンモグラフィ画像の両方の腫瘍領域を正確に同定し,セグメンテーションするために,事前訓練されたSAMアーキテクチャよりも優れていることが示された。 U-Netは不規則な形状、不明瞭な境界、高い腫瘍の不均一性を含む難治性症例において優れた性能を示す。 対照的に、事前訓練されたSAMアーキテクチャーは、特に悪性腫瘍や境界の弱い物や複雑な形状の物に対して、腫瘍領域を正確に識別する限界を示す。 これらの知見は,医用画像分割に適したディープラーニングアーキテクチャを選択することの重要性を強調した。 U-Netモデルは、腫瘍検出のための堅牢で正確なツールとしての可能性を示し、事前訓練されたSAMアーキテクチャは、セグメンテーション性能を向上させるためのさらなる改善の必要性を示唆している。

In this study, the main objective is to develop an algorithm capable of identifying and delineating tumor regions in breast ultrasound (BUS) and mammographic images. The technique employs two advanced deep learning architectures, namely U-Net and pretrained SAM, for tumor segmentation. The U-Net model is specifically designed for medical image segmentation and leverages its deep convolutional neural network framework to extract meaningful features from input images. On the other hand, the pretrained SAM architecture incorporates a mechanism to capture spatial dependencies and generate segmentation results. Evaluation is conducted on a diverse dataset containing annotated tumor regions in BUS and mammographic images, covering both benign and malignant tumors. This dataset enables a comprehensive assessment of the algorithm's performance across different tumor types. Results demonstrate that the U-Net model outperforms the pretrained SAM architecture in accurately identifying and segmenting tumor regions in both BUS and mammographic images. The U-Net exhibits superior performance in challenging cases involving irregular shapes, indistinct boundaries, and high tumor heterogeneity. In contrast, the pretrained SAM architecture exhibits limitations in accurately identifying tumor areas, particularly for malignant tumors and objects with weak boundaries or complex shapes. These findings highlight the importance of selecting appropriate deep learning architectures tailored for medical image segmentation. The U-Net model showcases its potential as a robust and accurate tool for tumor detection, while the pretrained SAM architecture suggests the need for further improvements to enhance segmentation performance.
翻訳日:2024-02-14 19:41:08 公開日:2024-02-13
# ピックオールラベル損失を伴うマルチラベル学習における神経崩壊

Neural Collapse in Multi-label Learning with Pick-all-label Loss ( http://arxiv.org/abs/2310.15903v3 )

ライセンス: Link先を確認
Pengyu Li, Yutong Wang, Xiao Li, Qing Qu(参考訳) マルチラベル分類(MLab)タスクのためのディープニューラルネットワークについて,ニューラル崩壊レンズ(NC)を用いて検討した。 先行研究は,マルチクラス分類設定に制限されており,最終層の特徴として,以下の特性からなるnc現象が広く見られる。 (i)各クラス内の特徴の変動性はゼロに崩壊する。 (ii)特徴点集合は、等角タイトフレーム(etf)を形成し、 3)最後の層分類器は、ある程度のスケーリングで機能に崩壊する。 我々は,本研究を多ラベル学習に一般化し,一般化されたNC現象がMLab NCと呼ばれる「ピック・オール・ラベル」の定式化を伴うことを初めて証明する。 ETF幾何は単一ラベルを持つ機能に対して一貫しているが、マルチラベルシナリオでは、単一ラベルインスタンスのスケールされた平均値である「タグワイド平均」プロパティと呼ばれる独自の組合せ的側面を導入している。 理論的には、特徴に関する適切な仮定の下では、ピック・オール・ラベルのクロスエントロピー損失の唯一の大域的オプティマイザがマルチラベルncを満たすことを証明している。 実際、mlab学習のためのより効率的なトレーニング技術によって、より優れたテストパフォーマンスが達成できることを実証する。

We study deep neural networks for the multi-label classification (MLab) task through the lens of neural collapse (NC). Previous works have been restricted to the multi-class classification setting and discovered a prevalent NC phenomenon comprising of the following properties for the last-layer features: (i) the variability of features within every class collapses to zero, (ii) the set of feature means form an equi-angular tight frame (ETF), and (iii) the last layer classifiers collapse to the feature mean upon some scaling. We generalize the study to multi-label learning, and prove for the first time that a generalized NC phenomenon holds with the "pick-all-label" formulation, which we term as MLab NC. While the ETF geometry remains consistent for features with a single label, multi-label scenarios introduce a unique combinatorial aspect we term the "tag-wise average" property, where the means of features with multiple labels are the scaled averages of means for single-label instances. Theoretically, under proper assumptions on the features, we establish that the only global optimizer of the pick-all-label cross-entropy loss satisfy the multi-label NC. In practice, we demonstrate that our findings can lead to better test performance with more efficient training techniques for MLab learning.
翻訳日:2024-02-14 19:34:15 公開日:2024-02-13
# drivegpt4: 大言語モデルによるエンドツーエンドの自動運転

DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model ( http://arxiv.org/abs/2310.01412v3 )

ライセンス: Link先を確認
Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K. Wong, Zhenguo Li, Hengshuang Zhao(参考訳) マルチモーダル大言語モデル(MLLM)は、画像やビデオを含む非テキストデータを扱う能力と推論能力から、研究コミュニティにおいて顕著な関心領域として浮上している。 本研究は, MLLMの自律運転領域への応用を, LLMに基づく新しい解釈可能なエンド・ツー・エンド自動運転システムであるDriveGPT4の導入により拡張することを目的とする。 複数フレームのビデオ入力とテキストクエリを処理できるDriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。 さらに、DriveGPT4はエンドツーエンドで低レベル車両制御信号を予測する。 これらの高度な機能は、ミックスフィナントトレーニング戦略と合わせて、自動運転アプリケーション用に特別に調整された、bespoke visual instruction tuning datasetの利用によって達成される。 DriveGPT4は、解釈可能なエンドツーエンドの自動運転ソリューションの開発にLLMを活用する先駆的な取り組みである。 BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的性能が向上した。 さらに、ドメイン固有のデータの微調整により、DriveGPT4は、GPT4-Vと対照的に自律走行グラウンドの点において、近いあるいは改善された結果を得ることができる。 コードとデータセットは公開される予定だ。

Multimodal large language models (MLLMs) have emerged as a prominent area of interest within the research community, given their proficiency in handling and reasoning with non-textual data, including images and videos. This study seeks to extend the application of MLLMs to the realm of autonomous driving by introducing DriveGPT4, a novel interpretable end-to-end autonomous driving system based on LLMs. Capable of processing multi-frame video inputs and textual queries, DriveGPT4 facilitates the interpretation of vehicle actions, offers pertinent reasoning, and effectively addresses a diverse range of questions posed by users. Furthermore, DriveGPT4 predicts low-level vehicle control signals in an end-to-end fashion. These advanced capabilities are achieved through the utilization of a bespoke visual instruction tuning dataset, specifically tailored for autonomous driving applications, in conjunction with a mix-finetuning training strategy. DriveGPT4 represents the pioneering effort to leverage LLMs for the development of an interpretable end-to-end autonomous driving solution. Evaluations conducted on the BDD-X dataset showcase the superior qualitative and quantitative performance of DriveGPT4. Additionally, the fine-tuning of domain-specific data enables DriveGPT4 to yield close or even improved results in terms of autonomous driving grounding when contrasted with GPT4-V. The code and dataset will be publicly available.
翻訳日:2024-02-14 19:33:36 公開日:2024-02-13
# 平均平滑度をもつ効率的無依存学習

Efficient Agnostic Learning with Average Smoothness ( http://arxiv.org/abs/2309.17016v2 )

ライセンス: Link先を確認
Steve Hanneke, Aryeh Kontorovich, Guy Kornowski(参考訳) ashlagi et al. (2021) によって始められた平均平滑性の概念に従い, 任意の未知の分布に対する関数の「効果的な」平滑性を測定する分布自由非パラメトリック回帰について検討した。 Hanneke et al. (2023) の最近の研究は、現実化可能なケースにおける平均滑らかな関数に対する厳密な一様収束境界を確立し、計算効率の良い実化可能な学習アルゴリズムを提供したが、これらの結果はどちらも一般的な無依存(すなわち雑音)の場合のアナログを欠いている。 この作業では、これらのギャップを完全に埋めます。 まず, 分布を伴わない一様収束を, 平均-smoothness クラスに限定して提供する。 第2に,抽出したサンプル複雑性を,計算効率のよい非依存学習アルゴリズムとマッチングする。 この結果は,データの内部幾何学的に記述され,任意の全有界距離空間を包含するものであるが,最近得られた平均スムース関数の学習を不可知な設定に移すための保証が示されている。 証明の核心では、関数クラスの一様収束率は、その括弧エントロピー(独立興味を持つかもしれない)の観点から定まる。

We study distribution-free nonparametric regression following a notion of average smoothness initiated by Ashlagi et al. (2021), which measures the "effective" smoothness of a function with respect to an arbitrary unknown underlying distribution. While the recent work of Hanneke et al. (2023) established tight uniform convergence bounds for average-smooth functions in the realizable case and provided a computationally efficient realizable learning algorithm, both of these results currently lack analogs in the general agnostic (i.e. noisy) case. In this work, we fully close these gaps. First, we provide a distribution-free uniform convergence bound for average-smoothness classes in the agnostic setting. Second, we match the derived sample complexity with a computationally efficient agnostic learning algorithm. Our results, which are stated in terms of the intrinsic geometry of the data and hold over any totally bounded metric space, show that the guarantees recently obtained for realizable learning of average-smooth functions transfer to the agnostic setting. At the heart of our proof, we establish the uniform convergence rate of a function class in terms of its bracketing entropy, which may be of independent interest.
翻訳日:2024-02-14 19:33:12 公開日:2024-02-13
# CATfOOD: 外部性能と校正のための対実的強化トレーニング

CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration ( http://arxiv.org/abs/2309.07822v3 )

ライセンス: Link先を確認
Rachneet Sachdeva, Martin Tutek, Iryna Gurevych(参考訳) 近年,大規模言語モデル (LLM) は,特にプロンプトに条件付けされたテキストの生成において,特に顕著な能力を示した。 本研究では,小言語モデルの学習データ(SLM)を,自動生成した逆ファクト~(CF)インスタンス(最小限の変更された入力)で拡張し,抽出された質問応答〜(QA)設定におけるSLMのアウト・オブ・ドメイン〜(OOD)性能を改善するために,LLMを用いて検討する。 各種LLM発電機において,データ拡張はOOD性能を継続的に向上し,信頼性に基づくモデルと合理的なキャリブレータモデルのキャリブレーションを改善する。 さらに,これらの性能改善は,CFインスタンスの表面形状や意味内容の多様性と相関する。 最後に, キャリブレーションが容易なCF拡張モデルは, 重要度を割り当てる際のエントロピーがはるかに低いことを示し, 合理的拡張キャリブレータは簡潔な説明を好むことを示す。

In recent years, large language models (LLMs) have shown remarkable capabilities at scale, particularly at generating text conditioned on a prompt. In our work, we investigate the use of LLMs to augment training data of small language models~(SLMs) with automatically generated counterfactual~(CF) instances -- i.e. minimally altered inputs -- in order to improve out-of-domain~(OOD) performance of SLMs in the extractive question answering~(QA) setup. We show that, across various LLM generators, such data augmentation consistently enhances OOD performance and improves model calibration for both confidence-based and rationale-augmented calibrator models. Furthermore, these performance improvements correlate with higher diversity of CF instances in terms of their surface form and semantic content. Finally, we show that CF augmented models which are easier to calibrate also exhibit much lower entropy when assigning importance, indicating that rationale-augmented calibrators prefer concise explanations.
翻訳日:2024-02-14 19:32:49 公開日:2024-02-13
# 大規模言語モデルに基づく評価は多言語評価のスケールアップの解決策か?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation? ( http://arxiv.org/abs/2309.07462v2 )

ライセンス: Link先を確認
Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram(参考訳) 大規模言語モデル(llm)は様々な自然言語処理(nlp)タスクにおいて優れているが、その評価は、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のために不十分である。 LLMを他のモデルのアウトプットをランク付けまたはスコア付けする評価器として採用することは、人間のアノテータや確立されたベンチマークに関連する制約に対処する、実行可能なソリューションとして現れます。 本研究では,3つのテキスト生成タスク,5つのメトリクス,8言語にまたがる20ドルの人的判断に対して,LLMに基づく評価装置,特にGPT-4の校正による多言語評価の強化の可能性を検討する。 本稿では,gpt4に基づく評価器の高得点への偏りを明らかにし,母国語話者判断,特に低リソース・非ラテン文字言語における校正の必要性を強調し,多言語間におけるllm性能の正確性を保証する。

Large Language Models (LLMs) excel in various Natural Language Processing (NLP) tasks, yet their evaluation, particularly in languages beyond the top $20$, remains inadequate due to existing benchmarks and metrics limitations. Employing LLMs as evaluators to rank or score other models' outputs emerges as a viable solution, addressing the constraints tied to human annotators and established benchmarks. In this study, we explore the potential of LLM-based evaluators, specifically GPT-4 in enhancing multilingual evaluation by calibrating them against $20$K human judgments across three text-generation tasks, five metrics, and eight languages. Our analysis reveals a bias in GPT4-based evaluators towards higher scores, underscoring the necessity of calibration with native speaker judgments, especially in low-resource and non-Latin script languages, to ensure accurate evaluation of LLM performance across diverse languages.
翻訳日:2024-02-14 19:32:29 公開日:2024-02-13
# スピン-1/2粒子の重力デコヒーレンスへのオープン量子系アプローチ

Open Quantum System Approach to the Gravitational Decoherence of Spin-1/2 Particles ( http://arxiv.org/abs/2309.07236v2 )

ライセンス: Link先を確認
Mohammad Sharifian, Moslem Zarei, Mehdi Abdi, Nicola Bartolo, and Sabino Matarrese(参考訳) 本稿では,空間重ね合わせにおける圧縮重力波と質量粒子系との相互作用によるデコヒーレンス効果について検討する。 本稿では,空間重ね合わせにおける圧縮重力波と質量粒子系との相互作用によるデコヒーレンス効果について検討する。 まず, 圧縮重力波によって誘起される物体の空間的重ね合わせにおいて, 確立されたデコヒーレンスを得るために, オープン量子システムアプローチを用いる。 その後,スピン1/2粒子系に着目し,デコヒーレンス速度は重力波のスクイーズ強度とスクイーズ角の両方に依存することが明らかとなった。 その結果,r_p\geq1.2$のスクイーズ強度と$\varphi_p=\pi/2$のスクイーズ角を有する圧縮重力波は,スピン1/2粒子の雲の1 s自由落下内で1 %のデコヒーレンスを誘導できることがわかった。 この研究は、圧縮された重力波と質量粒子とそのスピンの系における空間重ね合わせ状態のコヒーレンスの関係に光を当てている。 デコヒーレンスがスクイーズ強度およびスピン=1/2$粒子の場合には、スクイーズ角への依存は、量子重力接続のさらなる探索と理解の道を開く。 このような実験的な設定は、インフレーションによって初期の宇宙で生成された重力波のスクイーズ効果(および量子関連特性)のレベルを調べるためにも用いられることを示唆する。

This paper investigates the decoherence effect resulting from the interaction of squeezed gravitational waves with a system of massive particles in spatial superposition. This paper investigates the decoherence effect resulting from the interaction of squeezed gravitational waves with a system of massive particles in spatial superposition. We first employ the open quantum system approach to obtain the established decoherence in a spatial superposition of massive objects induced by squeezed gravitational waves. Subsequently, we focus on the spin-1/2 particle system, and our analysis reveals that the decoherence rate depends on both the squeezing strength and the squeezing angle of the gravitational waves. Our results demonstrate that squeezed gravitational waves with squeezing strengths of $r_p\geq1.2$ and a squeezing angle of $\varphi_p=\pi/2$ can induce a 1 % decoherence within 1 s free falling of a cloud of spin-1/2 particles. This investigation sheds light on the relationship between squeezed gravitational waves and the coherence of spatial superposition states in systems of massive particles and their spin. The dependence of decoherence on squeezing strength and, in the case of spin-$1/2$ particles, on the squeezing angle paves the way for further exploration and understanding of the quantum-gravity connection. We suggest that such an experimental setup could also be employed to eventually investigate the level of squeezing effect (and hence quantum-related properties) of gravitational waves produced in the early universe from inflation.
翻訳日:2024-02-14 19:32:09 公開日:2024-02-13
# マルチエンコーダオートエンコーダによる自己改善ブラインド音源分離

Self-Supervised Blind Source Separation via Multi-Encoder Autoencoders ( http://arxiv.org/abs/2309.07138v2 )

ライセンス: Link先を確認
Matthew B. Webster and Joonnyong Lee(参考訳) ブラインドソース分離(BSS)の課題は、ソースや混合システムの事前の知識なしに、ソースを混合から分離することである。 これはしばしば混合系と源の両方について制限的な仮定を必要とする難しい問題である。 本稿では,完全自己教師付き学習によるマルチエンコーダの自然特徴部分空間特殊化能力を活用して,非線形混合系のbssに対処する新しい手法を提案する。 トレーニングフェーズでは、マルチエンコーダネットワークの別々の符号化空間に入力をアンミックスし、デコーダ内でこれらの表現をリミックスして入力を再構成する。 そこで,提案手法では,1つの符号化のみをマスキングすることで,デコーダが音源信号を推定できる新しい符号化方式を提案する。 この目的のために、デコーダの層全体にわたる未混合符号化空間間の間隔を促進させるいわゆる経路分離損失や、コヒーレントソース推定のためのデコーダ上のゼロ再構成損失も導入する。 本手法を慎重に評価するため,ポリソムノグラフィ睡眠研究からおもちゃデータセットと実世界の生体信号記録を用いて呼吸抽出実験を行った。

The task of blind source separation (BSS) involves separating sources from a mixture without prior knowledge of the sources or the mixing system. This is a challenging problem that often requires making restrictive assumptions about both the mixing system and the sources. In this paper, we propose a novel method for addressing BSS of non-linear mixtures by leveraging the natural feature subspace specialization ability of multi-encoder autoencoders with fully self-supervised learning without strong priors. During the training phase, our method unmixes the input into the separate encoding spaces of the multi-encoder network and then remixes these representations within the decoder for a reconstruction of the input. Then to perform source inference, we introduce a novel encoding masking technique whereby masking out all but one of the encodings enables the decoder to estimate a source signal. To this end, we also introduce a so-called pathway separation loss that encourages sparsity between the unmixed encoding spaces throughout the decoder's layers and a so-called zero reconstruction loss on the decoder for coherent source estimations. In order to carefully evaluate our method, we conduct experiments on a toy dataset and with real-world biosignal recordings from a polysomnography sleep study for extracting respiration.
翻訳日:2024-02-14 19:31:39 公開日:2024-02-13
# 説明可能性に対するシャプリー値の反論

A Refutation of Shapley Values for Explainability ( http://arxiv.org/abs/2309.03041v2 )

ライセンス: Link先を確認
Xuanxiang Huang, Joao Marques-Silva(参考訳) 最近の研究は、Shapley値がルールに基づく説明における特徴の相対的重要性に関する誤解を招く情報を提供するブール関数の存在を実証した。 このような誤解を招く情報は、様々な問題に大別された。 これらの問題はそれぞれ、予測に関係または関係のない特徴に関係しており、ルールベースの説明可能性に対するシェープリー値の不備に関して重要な問題である。 この初期の研究は、少数の特徴に基づいて定義されたブール関数と関連するインスタンスを識別するブルートフォースのアプローチを考案し、そのような不適切な発見問題を示し、規則に基づく説明可能性に対するシェープリー値の不適切性の証拠として役立った。 しかし、顕著な疑問は、任意の数の特徴を持つブール関数に対して、そのような不適切な発見問題の発生頻度である。 力ずくのアプローチが、この問題に取り組む方法に関する洞察を提供する可能性は低いことは明らかです。 本稿は, 種々の特徴に対して, 1つ以上の不適切な発見問題を示すブール関数が存在することを証明し, 特徴帰属法の理論的根拠として, シェープリー値の使用に対する決定的な議論を提起する。

Recent work demonstrated the existence of Boolean functions for which Shapley values provide misleading information about the relative importance of features in rule-based explanations. Such misleading information was broadly categorized into a number of possible issues. Each of those issues relates with features being relevant or irrelevant for a prediction, and all are significant regarding the inadequacy of Shapley values for rule-based explainability. This earlier work devised a brute-force approach to identify Boolean functions, defined on small numbers of features, and also associated instances, which displayed such inadequacy-revealing issues, and so served as evidence to the inadequacy of Shapley values for rule-based explainability. However, an outstanding question is how frequently such inadequacy-revealing issues can occur for Boolean functions with arbitrary large numbers of features. It is plain that a brute-force approach would be unlikely to provide insights on how to tackle this question. This paper answers the above question by proving that, for any number of features, there exist Boolean functions that exhibit one or more inadequacy-revealing issues, thereby contributing decisive arguments against the use of Shapley values as the theoretical underpinning of feature-attribution methods in explainability.
翻訳日:2024-02-14 19:31:03 公開日:2024-02-13
# エリート進化アルゴリズムにおける適合度レベルのドリフト解析

Drift Analysis with Fitness Levels for Elitist Evolutionary Algorithms ( http://arxiv.org/abs/2309.00851v3 )

ライセンス: Link先を確認
Jun He and Yuren Zhou(参考訳) 適合レベル法(fitness level method)は、楕円型進化アルゴリズムのヒット時間を分析するための一般的なツールである。 その考え方は、検索スペースを複数のフィットネスレベルに分割し、フィットネスレベル間の遷移確率を用いてヒットタイムの上下境界を推定することである。 しかし、この方法によって生成される下界はしばしば緩い。 フィットネスレベル法に関するオープンな疑問は、フィットネスレベル間の遷移確率に基づいて構築できる最も厳密な下限と上限の関係である。 この質問に答えるために、ドリフト解析を適合度レベルと組み合わせ、最も厳密な有界問題を、適合度レベルに対する制約付き多目的最適化問題として定義する。 } フィットネスレベルから最も厳密なメトリクス境界が構築され、初めて証明される。 すると、線形境界は計量境界から導出され、異なる種類の線形境界に対する異なる適合度レベル法を開発するのに使用できるフレームワークが確立される。 フレームワークは汎用的で有望で、両方のフィットネスランドスケープにショートカットなしでタイトな時間境界を描くために使用することができる。 これはTwoMax1関数を最大化する (1+1) EA の例で示される。

The fitness level method is a popular tool for analyzing the hitting time of elitist evolutionary algorithms. Its idea is to divide the search space into multiple fitness levels and estimate lower and upper bounds on the hitting time using transition probabilities between fitness levels. However, the lower bound generated by this method is often loose. An open question regarding the fitness level method is what are the tightest lower and upper time bounds that can be constructed based on transition probabilities between fitness levels. To answer this question, {\color{red} we combine drift analysis with fitness levels and define the tightest bound problem as a constrained multi-objective optimization problem subject to fitness levels.} The tightest metric bounds from fitness levels are constructed and proven for the first time. Then linear bounds are derived from metric bounds and a framework is established that can be used to develop different fitness level methods for different types of linear bounds. The framework is generic and promising, as it can be used to draw tight time bounds on both fitness landscapes without and with shortcuts. This is demonstrated in the example of the (1+1) EA maximizing the TwoMax1 function
翻訳日:2024-02-14 19:30:27 公開日:2024-02-13
# 勾配支配確率最適化のための均質化手法

A Homogenization Approach for Gradient-Dominated Stochastic Optimization ( http://arxiv.org/abs/2308.10630v2 )

ライセンス: Link先を確認
Jiyuan Tan, Chenyu Xue, Chuwen Zhang, Qi Deng, Dongdong Ge, Yinyu Ye(参考訳) 勾配支配性は強い凸性よりも弱い条件であるが、非凸最適化においても十分に大域収束を保証する。 この特性は、機械学習、強化学習(RL)、および運用管理に広く応用されている。 本稿では,最近提案されたホモゲナイズアプローチに基づき,勾配支配特性を享受する確率関数に対する確率的等質二階降下法(shsodm)を提案する。 理論的には, サンプルの複雑性解析を行い, さらに分散低減手法を取り入れた拡張結果を示す。 以上の結果から,SHSODMは勾配優先確率最適化法において,立方正則化を伴わない他の2次法で達成される最もよく知られたサンプル複雑性と一致した。 経験的に、均質化アプローチは、ニュートン型システムではなく、各イテレーションにおける極値固有ベクトル問題の解法にのみ依存するので、より安価な計算コストと、不条件問題における頑健さの利点を得る。 いくつかのRLタスクに関する数値実験は、SHSODMの他のオフザシェルフ法と比較して優れた性能を示す。

Gradient dominance property is a condition weaker than strong convexity, yet sufficiently ensures global convergence even in non-convex optimization. This property finds wide applications in machine learning, reinforcement learning (RL), and operations management. In this paper, we propose the stochastic homogeneous second-order descent method (SHSODM) for stochastic functions enjoying gradient dominance property based on a recently proposed homogenization approach. Theoretically, we provide its sample complexity analysis, and further present an enhanced result by incorporating variance reduction techniques. Our findings show that SHSODM matches the best-known sample complexity achieved by other second-order methods for gradient-dominated stochastic optimization but without cubic regularization. Empirically, since the homogenization approach only relies on solving extremal eigenvector problem at each iteration instead of Newton-type system, our methods gain the advantage of cheaper computational cost and robustness in ill-conditioned problems. Numerical experiments on several RL tasks demonstrate the better performance of SHSODM compared to other off-the-shelf methods.
翻訳日:2024-02-14 19:29:41 公開日:2024-02-13
# TorchQL: マシンラーニングにおける統合制約のプログラミングフレームワーク

TorchQL: A Programming Framework for Integrity Constraints in Machine Learning ( http://arxiv.org/abs/2308.06686v2 )

ライセンス: Link先を確認
Aaditya Naik, Adam Stein, Yinjun Wu, Eric Wong, Mayur Naik(参考訳) 機械学習アプリケーションでエラーを見つけるには、データの振る舞いを徹底的に調査する必要がある。 実践者が使用する既存のアプローチは、しばしばアドホックであり、このプロセスのスケールアップに必要な抽象化が欠如している。 本稿では、機械学習アプリケーションの正確性を評価し改善するプログラミングフレームワークであるTorchQLを紹介する。 TorchQLを使用することで、マシンラーニングモデルやデータセットに対する整合性制約を指定およびチェックするためのクエリの記述が可能になる。 リレーショナル代数と関数型プログラミングをシームレスに統合し、8つの直感的演算子のみを使用して高度に表現的なクエリを可能にする。 本研究では,ビデオフレームを横断する物体の時間的不整合を自律運転で発見すること,時系列医療記録におけるデータインプテーションエラーの検出,実世界画像におけるデータラベルエラーの検出,言語モデルのバイアスと制約結果の評価など,多様なユースケースにおけるtorchqlを評価した。 我々の実験によると、TorchQLはPandasやMongoDBのようなベースラインよりも最大13倍高速なクエリ実行を可能にし、ネイティブPythonよりも最大40%短いクエリを実行できます。 また、ユーザ調査を実施して、torchqlがpythonに慣れた開発者が複雑な整合性制約を指定できるほど自然であることを確認しました。

Finding errors in machine learning applications requires a thorough exploration of their behavior over data. Existing approaches used by practitioners are often ad-hoc and lack the abstractions needed to scale this process. We present TorchQL, a programming framework to evaluate and improve the correctness of machine learning applications. TorchQL allows users to write queries to specify and check integrity constraints over machine learning models and datasets. It seamlessly integrates relational algebra with functional programming to allow for highly expressive queries using only eight intuitive operators. We evaluate TorchQL on diverse use-cases including finding critical temporal inconsistencies in objects detected across video frames in autonomous driving, finding data imputation errors in time-series medical records, finding data labeling errors in real-world images, and evaluating biases and constraining outputs of language models. Our experiments show that TorchQL enables up to 13x faster query executions than baselines like Pandas and MongoDB, and up to 40% shorter queries than native Python. We also conduct a user study and find that TorchQL is natural enough for developers familiar with Python to specify complex integrity constraints.
翻訳日:2024-02-14 19:29:24 公開日:2024-02-13
# 言語モデルからのデコード制御

Controlled Decoding from Language Models ( http://arxiv.org/abs/2310.17022v2 )

ライセンス: Link先を確認
Sidharth Mudgal and Jong Lee and Harish Ganapathy and YaGuang Li and Tao Wang and Yanping Huang and Zhifeng Chen and Heng-Tze Cheng and Michael Collins and Trevor Strohman and Jilin Chen and Alex Beutel and Ahmad Beirami(参考訳) KL正規化強化学習(KL-regularized reinforcement learning、RL)は、高い報奨結果に対する言語モデル応答を制御するための一般的なアライメントフレームワークである。 本稿では,制御復号化 (CD) と呼ばれる,このRL目的のためのモジュラーソルバを提案する。 トレーニング時、プレフィックススコアラは、報酬の値関数を学習し、解からrl目標へのサンプリングを可能とし、凍結ベースモデルから生成を制御するために、推論時に使用される。 一般的なベンチマークの制御機構としてCDが有効であることを示す。 また、プレフィックススコアラーは複数の報酬を学習でき、異なる報酬の組み合わせは推論時に設定可能であり、追加のトレーニングなしで多目的rl問題を効果的に解決できることを示した。 そこで本研究では,CD転送を未確認ベースモデルに適用する利点について述べる。 最後に、cdは推論時にブロック的なデコード形式で適用可能であり、基本的に人気のあるn$戦略と強化学習によるトークンレベルの制御とのギャップを埋める。 これにより、CDは言語モデルのアライメントに有望なアプローチとなる。

KL-regularized reinforcement learning (RL) is a popular alignment framework to control the language model responses towards high reward outcomes. We propose a modular solver for this RL objective, called controlled decoding (CD), which exerts control through a separate prefix scorer module. At training time, the prefix scorer learns a value function for the reward, and it is used at inference time to control the generation from a frozen base model, provably sampling from a solution to the RL objective. We empirically demonstrate that CD is effective as a control mechanism on popular benchmarks. We also show that a single prefix scorer can learn multiple rewards and different reward combinations can be configurable at inference time, effectively solving a multi-objective RL problem with no additional training. We show that the benefits of applying CD transfer to an unseen base model with no further tuning. Finally, we show that CD can be applied in a blockwise decoding fashion at inference-time, essentially bridging the gap between the popular best-of-$n$ strategy and token-level control through reinforcement learning. This makes CD a promising approach for alignment of language models.
翻訳日:2024-02-14 19:21:41 公開日:2024-02-13
# 有限エネルギーエアリービームのダイナミクスを探る:軌道解析の観点から

Exploring the dynamics of finite-energy Airy beams: A trajectory analysis perspective ( http://arxiv.org/abs/2310.17020v2 )

ライセンス: Link先を確認
A. S. Sanz, R. Mart\'inez-Herrero(参考訳) 実際には、エアリービームは近似的にしか再生できず、空間拡張が制限され、従って有限エネルギー量となる。 この目的のために,開口関数の伝達特性の簡便なチューニングに基づいて,文献に異なる手順が報告されている。 そこで本研究では, 遮断効果と, 設計ビームの伝搬特性について検討するため, 強度分布伝播の研究によく用いられる密度プロットを補完する軌道法に基づく新しい視点を用いる。 理想的なエアリービームと共起する3つの異なる開口関数を考える。 示すように、対応する軌道は、通常の標準ツールによって提供されるグローバル情報とは対照的に、ビームが行う局所的な位相変化と直接接続により解析されたビームが示す伝播ダイナミクスに関するより深い物理的洞察を明らかにする。 さらに,エネルギーフラックスが伝播の各段階の最大値にどの程度寄与するか,あるいは自己加速的横伝播の持続時間など,変化を生じさせることなく,その強度分布を断片的に解析できる新しいパラメータ,すなわちエスケープレートを導入する。 この研究で示された解析は、有限エネルギーのエアリービームの挙動に関する洞察を与え、したがって、この特異な種類のビームを利用する設計と応用に寄与することが期待される。

In practice, Airy beams can only be reproduced in an approximate manner, with a limited spatial extension and hence a finite energy content. To this end, different procedures have been reported in the literature, based on a convenient tuning of the transmission properties of aperture functions. In order to investigate the effects generated by the truncation and hence the propagation properties displayed by the designed beams, here we resort to a new perspective based on a trajectory methodology, complementary to the density plots more commonly used to study the intensity distribution propagation. We consider three different aperture functions, which are convoluted with an ideal Airy beam. As it is shown, the corresponding trajectories reveals a deeper physical insight about the propagation dynamics exhibited by the beams analyzed due to their direct connection with the local phase variations undergone by the beams, which is in contrast with the global information provided by the usual standard tools. Furthermore, we introduce a new parameter, namely, the escape rate, which allow us to perform piecewise analyses of the intensity distribution without producing any change on it, e.g., determining unambiguously how much energy flux contributes to the leading maximum at each stage of the propagation, or for how long self-accelerating transverse propagation survives. The analysis presented in this work thus provides an insight into the behavior of finite-energy Airy beams, and therefore is expected to contribute to the design and applications exploiting this singular type of beams.
翻訳日:2024-02-14 19:21:20 公開日:2024-02-13
# DNAエンコードライブラリーの構成的深層確率モデル

Compositional Deep Probabilistic Models of DNA Encoded Libraries ( http://arxiv.org/abs/2310.13769v2 )

ライセンス: Link先を確認
Benson Chen, Mohammad M. Sultan, Theofanis Karaletsos(参考訳) DNAエンコードライブラリー(DEL)は、組み合わされた小さな分子を利用して高効率なスクリーニングを行う強力なツールであることが証明されている。 これらの選択実験は、複数の段階の洗浄、溶出、特異なDNAバーコードによる強力なバインダーの同定を含むが、しばしば複雑なデータを生成する。 この複雑さは、基礎となる信号を隠蔽し、貴重な洞察を明らかにするために機械学習のような計算ツールを適用する必要がある可能性がある。 分子表現をモノシンソン, ジシンソン, トリシンソン構造ブロックに分解し, 組込みシンソン間の潜在反応をモデル化することにより, これらの分子の固有の階層構造を付加するDELデータ合成モデルDEL-Composeを導入する。 さらに,データノイズをより効果的に考慮するための共変量要素の統合など,delカウントデータの観測モデルを改善する手法について検討する。 一般的な2つのベンチマークデータセット (CA-IX と HRP) にわたって,本モデルでは,基準値と比較して高い性能を示し,正しい薬局網を充実させ,本質的な解釈可能な構造を通じて貴重な洞察を提供し,DELデータ解析のための堅牢なツールを提供する。

DNA-Encoded Library (DEL) has proven to be a powerful tool that utilizes combinatorially constructed small molecules to facilitate highly-efficient screening assays. These selection experiments, involving multiple stages of washing, elution, and identification of potent binders via unique DNA barcodes, often generate complex data. This complexity can potentially mask the underlying signals, necessitating the application of computational tools such as machine learning to uncover valuable insights. We introduce a compositional deep probabilistic model of DEL data, DEL-Compose, which decomposes molecular representations into their mono-synthon, di-synthon, and tri-synthon building blocks and capitalizes on the inherent hierarchical structure of these molecules by modeling latent reactions between embedded synthons. Additionally, we investigate methods to improve the observation models for DEL count data such as integrating covariate factors to more effectively account for data noise. Across two popular public benchmark datasets (CA-IX and HRP), our model demonstrates strong performance compared to count baselines, enriches the correct pharmacophores, and offers valuable insights via its intrinsic interpretable structure, thereby providing a robust tool for the analysis of DEL data.
翻訳日:2024-02-14 19:20:53 公開日:2024-02-13
# 因果発見のためのモデルベース強化学習を用いたDAG空間における木探索

Tree Search in DAG Space with Model-based Reinforcement Learning for Causal Discovery ( http://arxiv.org/abs/2310.13576v2 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) 因果構造を特定することは、戦略的な意思決定から生物学や経済学まで、様々な分野の中心である。 本研究では,有向非巡回グラフを漸進的に構築する木探索に基づく因果発見のためのモデルベース強化学習手法cd-uctを提案する。 また,DAG空間のより深い離散的な探索とサンプリングを可能にするエッジを除外する効率的なアルゴリズムの妥当性を定式化し,証明する。 提案手法は離散変数と連続変数の両方を持つ因果ベイズネットワークに広く適用することができる。 合成および実世界のデータセットの総合的な評価を行い、CD-UCTは最先端のモデルフリー強化学習技術とグリージー検索を著しく上回り、組合せ手法の進歩に期待できることを示す。

Identifying causal structure is central to many fields ranging from strategic decision-making to biology and economics. In this work, we propose CD-UCT, a model-based reinforcement learning method for causal discovery based on tree search that builds directed acyclic graphs incrementally. We also formalize and prove the correctness of an efficient algorithm for excluding edges that would introduce cycles, which enables deeper discrete search and sampling in DAG space. The proposed method can be applied broadly to causal Bayesian networks with both discrete and continuous random variables. We conduct a comprehensive evaluation on synthetic and real-world datasets, showing that CD-UCT substantially outperforms the state-of-the-art model-free reinforcement learning technique and greedy search, constituting a promising advancement for combinatorial methods.
翻訳日:2024-02-14 19:20:30 公開日:2024-02-13
# LPFormer: リンク予測のための適応グラフ変換器

LPFormer: An Adaptive Graph Transformer for Link Prediction ( http://arxiv.org/abs/2310.11009v3 )

ライセンス: Link先を確認
Harry Shomer, Yao Ma, Haitao Mao, Juanhui Li, Bo Wu, Jiliang Tang(参考訳) リンク予測は、さまざまなドメインでアプリケーションを見たグラフ構造化データに関する一般的なタスクである。 古典的には手作りのヒューリスティックが用いられた。 ヒューリスティック測度は、リンク形成に関連する基礎因子とよく相関するように選択される。 近年,メッセージパッシングニューラルネットワーク(MPNN)とヒューリスティックス手法の利点を組み合わせた新しい手法が出現している。 これらの手法は、候補リンク内のノード間の関係をキャプチャする"ペアワイズエンコーディング"と合わせて、MPNNの出力を用いて予測を行う。 多数のデータセットで高いパフォーマンスを達成することが示されている。 しかし、現在のペアエンコーディングはしばしば強い帰納バイアスを伴い、全てのリンクを分類するために同じ基礎的要素を使用する。 これは、異なる要因から形成される様々なリンクを適切に分類する方法を学ぶ既存の方法の能力を制限する。 この制限に対処するために,各リンクに対してペアワイズエンコーディングを適応的に学習する新しい手法である {\bf lpformer} を提案する。 lpformerは、リンク予測に不可欠な複数の因子をモデル化することで、ノード間に存在するペアワイズエンコーディングを学習するアテンションモジュールを介してリンクファクタをモデル化する。 大規模な実験では、LPFormerは効率を保ちながら、多数のデータセット上でSOTA性能を達成することができる。

Link prediction is a common task on graph-structured data that has seen applications in a variety of domains. Classically, hand-crafted heuristics were used for this task. Heuristic measures are chosen such that they correlate well with the underlying factors related to link formation. In recent years, a new class of methods has emerged that combines the advantages of message-passing neural networks (MPNN) and heuristics methods. These methods perform predictions by using the output of an MPNN in conjunction with a "pairwise encoding" that captures the relationship between nodes in the candidate link. They have been shown to achieve strong performance on numerous datasets. However, current pairwise encodings often contain a strong inductive bias, using the same underlying factors to classify all links. This limits the ability of existing methods to learn how to properly classify a variety of different links that may form from different factors. To address this limitation, we propose a new method, {\bf LPFormer}, which attempts to adaptively learn the pairwise encodings for each link. LPFormer models the link factors via an attention module that learns the pairwise encoding that exists between nodes by modeling multiple factors integral to link prediction. Extensive experiments demonstrate that LPFormer can achieve SOTA performance on numerous datasets while maintaining efficiency.
翻訳日:2024-02-14 19:20:16 公開日:2024-02-13
# 人間カリキュラムによる授業チューニング

Instruction Tuning with Human Curriculum ( http://arxiv.org/abs/2310.09518v2 )

ライセンス: Link先を確認
Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo(参考訳) 命令調整型大規模言語モデル(llm)の構築において、人間の知識を深く理解することの重要性は、命令の多様化の重要性によってしばしば見過ごされる。 本研究は,人間教育の体系的発展と認知的刺激的性質から着想を得た構造化認知学習方法論を2つの重要なステップで統合し,新しい指導チューニング手法を提案する。 まず、人間の教育フレームワークを参考に設計した人工的な指導データ生成パイプラインに、各指導のトピックや認知的厳密さを詳述したメタデータが組み込まれている。 具体的には,構造的カリキュラム学習のための古典的な教育モデルであるbloomの分類法に触発された,厳密さのさまざまなレベルに関する質問に,世代フレームワークが融合している。 第2に,データ生成パイプラインが生み出す質問の複雑さと認知力の厳密さを活かして,質問がより複雑な方法で提示されるように指示を整理する。 LLaMA 2でMMLUを3.06改良し, 単体サンプリングやラウンドロビンと比較して, 有意な性能向上を実現した。 我々は広範な実験を行い、我々のアプローチの利点が他の8つのベンチマークで一貫して観察されていることを発見した。 LLMの訓練後の学習プロセスと、その人間との類似性に光を当てることを願っています。

In building instruction-tuned large language models (LLMs), the importance of a deep understanding of human knowledge can be often overlooked by the importance of instruction diversification. This research proposes a novel approach to instruction tuning by integrating a structured cognitive learning methodology that takes inspiration from the systematic progression and cognitively stimulating nature of human education through two key steps. First, our synthetic instruction data generation pipeline, designed with some references to human educational frameworks, is enriched with meta-data detailing topics and cognitive rigor for each instruction. Specifically, our generation framework is infused with questions of varying levels of rigorousness, inspired by Bloom's Taxonomy, a classic educational model for structured curriculum learning. Second, during instruction tuning, we curate instructions such that questions are presented in an increasingly complex manner utilizing the information on question complexity and cognitive rigorousness produced by our data generation pipeline. Our human-inspired curriculum learning yields significant performance enhancements compared to uniform sampling or round-robin, improving MMLU by 3.06 on LLaMA 2. We conduct extensive experiments and find that the benefits of our approach are consistently observed in eight other benchmarks. We hope that our work will shed light on the post-training learning process of LLMs and its similarity with their human counterpart.
翻訳日:2024-02-14 19:19:52 公開日:2024-02-13
# FedMFS:選択的モーダル通信を用いた多モード融合学習

FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication ( http://arxiv.org/abs/2310.07048v3 )

ライセンス: Link先を確認
Liangqi Yuan and Dong-Jun Han and Vishnu Pandi Chellapandi and Stanislaw H. \.Zak and Christopher G. Brinton(参考訳) multimodal federated learning (fl) は、デバイスが複数のモダリティ(圧力、動き、その他の種類のデータを測定するセンサーなど)で計測値を集めているfl設定でのモデルトレーニングを強化することを目的としている。 しかし、特に異種ネットワーク設定において、マルチモーダルFLに対する重要な課題は未解決のままである。 (i)各装置が収集するモダリティの集合は多様であり、 (ii) 通信制限は、デバイスがローカルに訓練されたモダリティモデルをサーバにアップロードすることを妨げている。 本稿では,上記の課題に対処可能な新しいマルチモーダル融合fl手法であるfedmfs(federated multimodal fusion learning with selective modality communication)を提案する。 鍵となるアイデアは、各デバイスに対するモダリティ選択基準の導入である。 (i)Shapley値分析によって測定されたモダリティの影響 (ii)通信オーバーヘッドの指標としてのモダリティモデルサイズ。 これにより、fedmfはリソースの制約やアプリケーション要件に応じて、通信コストに対して柔軟にパフォーマンスのバランスをとることができる。 実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。

Multimodal federated learning (FL) aims to enrich model training in FL settings where devices are collecting measurements across multiple modalities (e.g., sensors measuring pressure, motion, and other types of data). However, key challenges to multimodal FL remain unaddressed, particularly in heterogeneous network settings: (i) the set of modalities collected by each device will be diverse, and (ii) communication limitations prevent devices from uploading all their locally trained modality models to the server. In this paper, we propose Federated Multimodal Fusion learning with Selective modality communication (FedMFS), a new multimodal fusion FL methodology that can tackle the above mentioned challenges. The key idea is the introduction of a modality selection criterion for each device, which weighs (i) the impact of the modality, gauged by Shapley value analysis, against (ii) the modality model size as a gauge for communication overhead. This enables FedMFS to flexibly balance performance against communication costs, depending on resource constraints and application requirements. Experiments on the real-world ActionSense dataset demonstrate the ability of FedMFS to achieve comparable accuracy to several baselines while reducing the communication overhead by over 4x.
翻訳日:2024-02-14 19:18:37 公開日:2024-02-13
# 連続変数、離散変数、カテゴリー変数を混合した制約付き最適化問題に対するベイズ的品質・多様性アプローチ

Bayesian Quality-Diversity approaches for constrained optimization problems with mixed continuous, discrete and categorical variables ( http://arxiv.org/abs/2310.05955v3 )

ライセンス: Link先を確認
Loic Brevault and Mathieu Balesdent(参考訳) 航空宇宙工学に関わるような複雑なシステム設計問題は、設計するシステムの性能を予測するために、数値的にコストのかかるシミュレーションコードを使用する必要がある。 この文脈では、これらのコードは最適化プロセスに埋め込まれ、設計上の制約を満たしながら最適な設計を提供する。 近年,デザイン空間の探索を強化し,特徴関数に関して最適な多角化ソリューションの集合を提供するために,品質多様性と呼ばれる新しいアプローチが提案されている。 これらの機能はトレードオフを評価するのに興味深い。 さらに、複雑な設計問題は、しばしば混合連続的、離散的、カテゴリー的設計変数を含み、最適化問題における技術的選択を考慮に入れることができる。 集中高忠実度シミュレーションに適した既存のベイズ品質多様性アプローチは、混合変数制約最適化問題には適用されない。 これらの制約を克服するために,混合変数ベイズ最適化戦略に基づく新しい品質多様性方法論が限定的なシミュレーション予算の文脈で提案されている。 ベイズ最適化におけるガウス過程の適応共分散モデルと専用エンリッチメント戦略を用いることで、離散的選択と制約の存在に対処しつつ、古典的品質多様性アプローチに関して、計算コストを最大2桁削減することができる。 提案手法の性能は,解析的問題と2つの航空宇宙システム設計問題のベンチマークに基づいて評価し,収束速度の点で効率性を強調した。 提案手法は複雑なシステム設計のための意思決定者にとって貴重なトレードオフを提供する。

Complex system design problems, such as those involved in aerospace engineering, require the use of numerically costly simulation codes in order to predict the performance of the system to be designed. In this context, these codes are often embedded into an optimization process to provide the best design while satisfying the design constraints. Recently, new approaches, called Quality-Diversity, have been proposed in order to enhance the exploration of the design space and to provide a set of optimal diversified solutions with respect to some feature functions. These functions are interesting to assess trade-offs. Furthermore, complex design problems often involve mixed continuous, discrete, and categorical design variables allowing to take into account technological choices in the optimization problem. Existing Bayesian Quality-Diversity approaches suited for intensive high-fidelity simulations are not adapted to mixed variables constrained optimization problems. In order to overcome these limitations, a new Quality-Diversity methodology based on mixed variables Bayesian optimization strategy is proposed in the context of limited simulation budget. Using adapted covariance models and dedicated enrichment strategy for the Gaussian processes in Bayesian optimization, this approach allows to reduce the computational cost up to two orders of magnitude, with respect to classical Quality-Diversity approaches while dealing with discrete choices and the presence of constraints. The performance of the proposed method is assessed on a benchmark of analytical problems as well as on two aerospace system design problems highlighting its efficiency in terms of speed of convergence. The proposed approach provides valuable trade-offs for decision-markers for complex system design.
翻訳日:2024-02-14 19:18:14 公開日:2024-02-13
# スワップ:ロバストネットワークプルーニングのためのスパースエントロピーwasserstein回帰

SWAP: Sparse Entropic Wasserstein Regression for Robust Network Pruning ( http://arxiv.org/abs/2310.04918v3 )

ライセンス: Link先を確認
Lei You and Hei Victor Cheng(参考訳) 本研究では、経験的フィッシャー情報行列(FIM)の計算において、不正確な勾配が存在するというニューラルネットワークプルーニングの問題に取り組む。 本稿では, 最適輸送問題 (ot) の幾何学的属性を活かした, エントロピー的ワッサースタイン回帰 (ewr) ネットワークプルーニング定式化であるスワップを導入する。 EWRの最適化に使用される標準線形回帰(LR)の「スワップ」は、データポイント間の近傍補間を採用することでノイズ緩和に優れるが、限界余分な計算コストを発生させる。 SWAPのユニークな強みは、ノイズ低減と共分散情報保存のバランスをとる本質的な能力である。 様々なネットワーク上で実施された大規模な実験では、SWAPと最先端(SoTA)ネットワークプルーニングアルゴリズムの同等の性能を示す。 提案手法は,ネットワークサイズやターゲットのスパース性が大きい場合,ノイズデータやアナログメモリ,逆襲攻撃などにより,ノイズ勾配が存在する場合に,さらに大きな利得が得られる。 特に,提案手法では,ネットワークパラメータの4分の1以下しか残っていないmobilenetv1の精度が6%向上し,テスト損失が8%向上した。

This study tackles the issue of neural network pruning that inaccurate gradients exist when computing the empirical Fisher Information Matrix (FIM). We introduce SWAP, an Entropic Wasserstein regression (EWR) network pruning formulation, capitalizing on the geometric attributes of the optimal transport (OT) problem. The "swap" of a commonly used standard linear regression (LR) with the EWR in optimization is analytically showcased to excel in noise mitigation by adopting neighborhood interpolation across data points, yet incurs marginal extra computational cost. The unique strength of SWAP is its intrinsic ability to strike a balance between noise reduction and covariance information preservation. Extensive experiments performed on various networks show comparable performance of SWAP with state-of-the-art (SoTA) network pruning algorithms. Our proposed method outperforms the SoTA when the network size or the target sparsity is large, the gain is even larger with the existence of noisy gradients, possibly from noisy data, analog memory, or adversarial attacks. Notably, our proposed method achieves a gain of 6% improvement in accuracy and 8% improvement in testing loss for MobileNetV1 with less than one-fourth of the network parameters remaining.
翻訳日:2024-02-14 19:17:36 公開日:2024-02-13
# 緩和群畳み込みによる物理系の対称性破壊の発見

Discovering Symmetry Breaking in Physical Systems with Relaxed Group Convolution ( http://arxiv.org/abs/2310.02299v6 )

ライセンス: Link先を確認
Rui Wang, Elyssa Hofgard, Han Gao, Robin Walters, Tess E. Smidt(参考訳) 対称性の破れのモデル化は、微視的粒子相互作用から流体力学や宇宙構造のような巨視的な現象まで、物理系の挙動や性質の基本的な変化を理解するのに不可欠である。 したがって、非対称性の源を特定することは物理系を理解するための重要なツールである。 本稿では,リラックスした群畳み込みを用いたデータの非対称性の学習に着目する。 このフレキシブルな畳み込み法は、データと整合した最も高いレベルの同値性を維持し、様々な物理系の微妙な対称性を破る要因を発見できるという理論的および実証的な証拠を提供する。 結晶構造の相転移,乱流の等方性と均質性破壊,振り子系の時間反転対称性破壊など,様々な物理系において解釈可能かつ物理的に意味のある様々な対称性破壊因子を明らかにするために,緩和群畳み込み構造を用いる。

Modeling symmetry breaking is essential for understanding the fundamental changes in the behaviors and properties of physical systems, from microscopic particle interactions to macroscopic phenomena like fluid dynamics and cosmic structures. Thus, identifying sources of asymmetry is an important tool for understanding physical systems. In this paper, we focus on learning asymmetries of data using relaxed group convolutions. We provide both theoretical and empirical evidence that this flexible convolution technique allows the model to maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in various physical systems. We employ various relaxed group convolution architectures to uncover various symmetry-breaking factors that are interpretable and physically meaningful in different physical systems, including the phase transition of crystal structure, the isotropy and homogeneity breaking in turbulent flow, and the time-reversal symmetry breaking in pendulum systems.
翻訳日:2024-02-14 19:17:12 公開日:2024-02-13
# 生成AIを用いた単体テスト生成 : 自動生成ツールの比較性能解析

Unit Test Generation using Generative AI : A Comparative Performance Analysis of Autogeneration Tools ( http://arxiv.org/abs/2312.10622v2 )

ライセンス: Link先を確認
Shreya Bhatia, Tarushi Gandhi, Dhruv Kumar, Pankaj Jalote(参考訳) ユニットテストの生成は、ソフトウェア開発において重要なタスクであり、プログラマにかなりの時間と労力を要求する。 LLM(Large Language Models)の出現は、単体テストスクリプト生成のための新しい道を導入する。 本研究では,Python プログラムの単体テストスクリプト生成における LLM の有効性と,既存の単体テストジェネレータ (Pynguin) が生成した単体テストジェネレータ (Pynguin) との比較を実験的に検討することを目的とする。 実験では、3種類のコードユニットを検討します。 1)手続き書, 2)関数ベースのモジュラコード,及び 3) クラスベースのコード。 生成されたテストケースは、カバレッジ、正確性、可読性などの基準に基づいて評価される。 以上の結果から,ChatGPTの性能はPynguinに匹敵するが,いくつかのケースではPynguinよりも優れていた。 また、いくつかのカテゴリでChatGPTが生成したアサーションの約3分の1は間違っていた。 また,chatgpt と pynguin の文の重複は最小であり,これらのツールの組み合わせによってユニットテスト生成性能が向上する可能性が示唆された。 最後に,我々の実験では,ChatGPTの性能が向上し,はるかに高いカバレッジを実現した。

Generating unit tests is a crucial task in software development, demanding substantial time and effort from programmers. The advent of Large Language Models (LLMs) introduces a novel avenue for unit test script generation. This research aims to experimentally investigate the effectiveness of LLMs, specifically exemplified by ChatGPT, for generating unit test scripts for Python programs, and how the generated test cases compare with those generated by an existing unit test generator (Pynguin). For experiments, we consider three types of code units: 1) Procedural scripts, 2) Function-based modular code, and 3) Class-based code. The generated test cases are evaluated based on criteria such as coverage, correctness, and readability. Our results show that ChatGPT's performance is comparable with Pynguin in terms of coverage, though for some cases its performance is superior to Pynguin. We also find that about a third of assertions generated by ChatGPT for some categories were incorrect. Our results also show that there is minimal overlap in missed statements between ChatGPT and Pynguin, thus, suggesting that a combination of both tools may enhance unit test generation performance. Finally, in our experiments, prompt engineering improved ChatGPT's performance, achieving a much higher coverage.
翻訳日:2024-02-14 19:08:56 公開日:2024-02-13
# 異常検出のためのタグ付き正規化$k$-Distances

Bagged Regularized $k$-Distances for Anomaly Detection ( http://arxiv.org/abs/2312.01046v2 )

ライセンス: Link先を確認
Yuchao Cai and Yuheng Ma and Hanfang Yang and Hanyuan Hang(参考訳) ラベル付き例がない場合にデータセット内の異常を識別することを含む教師なし異常検出のパラダイムを検討する。 距離に基づく手法は教師なしの異常検出にはトップパーパフォーミングであるが、最寄りの隣接者数の選択に対する感度に苦しむ。 本稿では,教師なし異常検出問題を凸最適化問題に変換する新しい距離ベースアルゴリズムであるbagged regularized $k$- distances for anomaly detection (brdad)を提案する。 我々のBRDADアルゴリズムは、重み付けされた密度推定のための$k$-distances(BWDDE)の実証的リスクの有限標本境界を最小化して重みを選択する。 このアプローチにより,距離ベースアルゴリズムにおけるハイパーパラメータ選択の感度問題に対処できる。 さらに,大規模データセットを扱う場合には,brdadアルゴリズムの組込みバグング手法によって効率問題に対処することができる。 理論的には,我々のアルゴリズムに対するAUCの高速収束率を確立し,バッグング手法が計算複雑性を大幅に減少させることを示す。 実用的な手法として,アルゴリズムのパラメータ選択の不感性を説明するために,異常検出ベンチマークの数値実験を行った。 さらに,実世界のデータセットにバッグ技術を適用することにより,有望な改善がもたらされる。

We consider the paradigm of unsupervised anomaly detection, which involves the identification of anomalies within a dataset in the absence of labeled examples. Though distance-based methods are top-performing for unsupervised anomaly detection, they suffer heavily from the sensitivity to the choice of the number of the nearest neighbors. In this paper, we propose a new distance-based algorithm called bagged regularized $k$-distances for anomaly detection (BRDAD) converting the unsupervised anomaly detection problem into a convex optimization problem. Our BRDAD algorithm selects the weights by minimizing the surrogate risk, i.e., the finite sample bound of the empirical risk of the bagged weighted $k$-distances for density estimation (BWDDE). This approach enables us to successfully address the sensitivity challenge of the hyperparameter choice in distance-based algorithms. Moreover, when dealing with large-scale datasets, the efficiency issues can be addressed by the incorporated bagging technique in our BRDAD algorithm. On the theoretical side, we establish fast convergence rates of the AUC regret of our algorithm and demonstrate that the bagging technique significantly reduces the computational complexity. On the practical side, we conduct numerical experiments on anomaly detection benchmarks to illustrate the insensitivity of parameter selection of our algorithm compared with other state-of-the-art distance-based methods. Moreover, promising improvements are brought by applying the bagging technique in our algorithm on real-world datasets.
翻訳日:2024-02-14 19:08:34 公開日:2024-02-13
# 熱電流変動による整流ローレンツ力

Rectified Lorentz Force from Thermal Current Fluctuations ( http://arxiv.org/abs/2312.00666v3 )

ライセンス: Link先を確認
Carsten Henkel(参考訳) 有限温度保持された導電媒体において、自由キャリアはブラウン運動を行い、変動する電磁場を生成する。 平均的なローレンツ力密度を計算し、薄い地下の層では0にならず、表面を向いているが、バルクでは0になってしまう。 これは補正されたゆらぎの基本的な例であり、カシミール力や放射熱輸送と同様である。 また,ドリュードモデルといわゆるプラズマモデルとの区別実験を行った。

In a conducting medium held at finite temperature, free carriers are performing Brownian motion and generate fluctuating electromagnetic fields. We compute the averaged Lorentz force density that turns out nonzero in a thin sub-surface layer, pointing towards the surface, while vanishing in the bulk. This is an elementary example of rectified fluctuations, similar to the Casimir force or radiative heat transport. Our results also provide an experimental way to distinguish between the Drude and so-called plasma models.
翻訳日:2024-02-14 19:08:09 公開日:2024-02-13
# 大規模学習可能なベクトル記憶圧縮の実験的解析

Experimental Analysis of Large-scale Learnable Vector Storage Compression ( http://arxiv.org/abs/2311.15578v2 )

ライセンス: Link先を確認
Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, Bin Cui(参考訳) 学習可能な埋め込みベクトルは機械学習において最も重要なアプリケーションの一つであり、様々なデータベース関連ドメインで広く使われている。 しかし、レコメンデーションタスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルの大規模なメモリ消費につながるため、モデルのトレーニングと展開に大きな課題が生じる。 近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。 しかしながら、これらの方法の相対的な性能はいまだに不明である。 既存の実験的な比較は、これらのメソッドのサブセットのみをカバーし、限られたメトリクスにフォーカスする。 本稿では,埋め込み圧縮の包括的比較分析と実験的評価を行う。 我々は,これらの手法を特徴と方法論に基づいて分類する新しい分類法を紹介し,14の代表的な手法を統合するモジュラーベンチマークフレームワークを更に開発する。 統一的なテスト環境では、ベンチマークはそれぞれのアプローチをかなり評価し、異なるメモリ予算の下でその強みと弱みを示し、ユースケースに基づいて最適なメソッドを推奨します。 有用なガイドラインの提供に加えて,現在の方法の限界を明らかにし,今後の研究の方向性を示唆する。

Learnable embedding vector is one of the most important applications in machine learning, and is widely used in various database-related domains. However, the high dimensionality of sparse data in recommendation tasks and the huge volume of corpus in retrieval-related tasks lead to a large memory consumption of the embedding table, which poses a great challenge to the training and deployment of models. Recent research has proposed various methods to compress the embeddings at the cost of a slight decrease in model quality or the introduction of other overheads. Nevertheless, the relative performance of these methods remains unclear. Existing experimental comparisons only cover a subset of these methods and focus on limited metrics. In this paper, we perform a comprehensive comparative analysis and experimental evaluation of embedding compression. We introduce a new taxonomy that categorizes these techniques based on their characteristics and methodologies, and further develop a modular benchmarking framework that integrates 14 representative methods. Under a uniform test environment, our benchmark fairly evaluates each approach, presents their strengths and weaknesses under different memory budgets, and recommends the best method based on the use case. In addition to providing useful guidelines, our study also uncovers the limitations of current methods and suggests potential directions for future research.
翻訳日:2024-02-14 19:07:59 公開日:2024-02-13
# 2レベル原子の駆動散逸性雲の定常状態における非ガウス相関

Non-Gaussian correlations in the steady-state of driven-dissipative clouds of two-level atoms ( http://arxiv.org/abs/2311.13503v2 )

ライセンス: Link先を確認
Giovanni Ferioli, Sara Pancaldi, Antoine Glicenstein, David Clement, Antoine Browaeys, Igor Ferrier-Barbut(参考訳) レーザー駆動の高密度アンサンブルである$^{87}$rb原子から放射される2次コヒーレンス関数$g^{(2)}(\tau)$の実験的検討を行った。 我々はガウスのカオス光に有効なシーゲルト関係から明らかな離脱を観察する。 強度と一階のコヒーレンスを測定することで、違反はコヒーレントフィールドの出現によるものではないと結論付ける。 これは、光が非ガウス統計に従うことを示し、原子媒体の非ガウス相関に由来する。 より具体的には、この駆動散逸多体系の定常状態は、一階のコヒーレンスがない場合に高次相関を維持する。 これらの発見は、その起源を明らかにするための新しい理論的および実験的探索を求め、非ガウス的な光の状態を実現するための新たな視点を開く。

We report experimental measurements of the second-order coherence function $g^{(2)}(\tau)$ of the light emitted by a laser-driven dense ensemble of $^{87}$Rb atoms. We observe a clear departure from the Siegert relation valid for Gaussian chaotic light. Measuring intensity and first-order coherence, we conclude that the violation is not due to the emergence of a coherent field. This indicates that the light obeys non-Gaussian statistics, stemming from non-Gaussian correlations in the atomic medium. More specifically, the steady-state of this driven-dissipative many-body system sustains high-order correlations in the absence of first-order coherence. These findings call for new theoretical and experimental explorations to uncover their origin and they open new perspectives for the realization of non-Gaussian states of light.
翻訳日:2024-02-14 19:07:39 公開日:2024-02-13
# gr\"obner基底を計算するための学習

Learning to Compute Gr\"obner Bases ( http://arxiv.org/abs/2311.12904v2 )

ライセンス: Link先を確認
Hiroshi Kera, Yuki Ishihara, Yuta Kambe, Tristan Vaccon, Kazuhiro Yokoyama(参考訳) 多項式系を解くこと、あるいは関連するGr\"オブナー基底を計算することは、計算代数学の基本的な課題である。 しかし、悪名高い計算コスト(最悪の場合、変数の数で2倍の指数関数的な時間複雑性)で知られている。 本稿では,変圧器の訓練により,初めて「オブナー基底計算」を実現する。 この訓練には多項式系と関連する gr\"obner 基底の多くの対が必要であり、gr\"obner 基底のランダム生成とそれらの非gr\"obner多項式系への変換という2つの新しい代数的問題を引き起こす。 我々は、これらの問題をゼロ次元根基イデアル(様々な応用に現れるイデアル)で解決する。 実験の結果,提案手法はnaiveアプローチよりも3桁から6桁高速であり,gr\"obner基底の計算における重要な課題を克服していることがわかった。

Solving a polynomial system, or computing an associated Gr\"obner basis, has been a fundamental task in computational algebra. However, it is also known for its notoriously expensive computational cost - doubly exponential time complexity in the number of variables in the worst case. In this paper, we achieve for the first time Gr\"obner basis computation through the training of a Transformer. The training requires many pairs of a polynomial system and the associated Gr\"obner basis, raising two novel algebraic problems: random generation of Gr\"obner bases and the transformation of them into non-Gr\"obner polynomial systems, termed as backward Gr\"obner problem. We resolve these problems with zero-dimensional radical ideals, the ideals appearing in various applications. The experiments show that the proposed dataset generation method is three to six orders of magnitude faster than a naive approach, overcoming a crucial challenge in learning to compute Gr\"obner bases.
翻訳日:2024-02-14 19:07:27 公開日:2024-02-13
# 多段階対話ワークフロー動作予測

Multi-Step Dialogue Workflow Action Prediction ( http://arxiv.org/abs/2311.09593v2 )

ライセンス: Link先を確認
Ramya Ramakrishnan, Ethan R. Elenberg, Hashan Narangodage, Ryan McDonald(参考訳) タスク指向の対話において、システムは、タスクを完了させるために一連のガイドラインに従うワークフローと呼ばれる一連のアクションに従う必要があることが多い。 本稿では、システムが複数のワークフローアクションを予測できるマルチステップワークフローアクション予測の新たな問題を提案する。 複数のステップの正確な予測により、マルチターン自動化が可能になり、より複雑なタスクに集中するための時間を解放することができる。 実装が簡単でありながら、よりアクション自動化につながる3つのモデリングアプローチを提案する。 1) トレーニングデータセットの微調整 2)検索と大規模言語モデルを活用した少数ショットインコンテキスト学習 3) 過去のアクションシーケンスをグラフに集約して予測するゼロショットグラフトラバース。 マルチステップ動作予測は、タスク成功の予測のような下流対話タスクの精度を向上させる機能を生成し、システムを監視する人間からのフィードバックを必要とせず、ステップの自動化を20%向上させることができることを示す。

In task-oriented dialogue, a system often needs to follow a sequence of actions, called a workflow, that complies with a set of guidelines in order to complete a task. In this paper, we propose the novel problem of multi-step workflow action prediction, in which the system predicts multiple future workflow actions. Accurate prediction of multiple steps allows for multi-turn automation, which can free up time to focus on more complex tasks. We propose three modeling approaches that are simple to implement yet lead to more action automation: 1) fine-tuning on a training dataset, 2) few-shot in-context learning leveraging retrieval and large language model prompting, and 3) zero-shot graph traversal, which aggregates historical action sequences into a graph for prediction. We show that multi-step action prediction produces features that improve accuracy on downstream dialogue tasks like predicting task success, and can increase automation of steps by 20% without requiring as much feedback from a human overseeing the system.
翻訳日:2024-02-14 19:07:11 公開日:2024-02-13
# 因果関係における省略ラベル:パラドックスの研究

Omitted Labels in Causality: A Study of Paradoxes ( http://arxiv.org/abs/2311.06840v2 )

ライセンス: Link先を確認
Bijan Mazaheri, Siddharth Jain, Matthew Cook, Jehoshua Bruck(参考訳) 我々は、トレーニングデータが可能なラベルのサブセットに限定される ``omitted label contexts''' と呼ぶものを調べる。 この設定は専門の人間専門家や特定の研究に共通している。 我々は、省略ラベル文脈における因果推論のより一般的な難しさを説明するために、よく研究されたパラドックス(シンプソンとコンドルチェット)を頼りにしている。 多くの因果推論が構築される基本原理とは対照的に、 ``correct'' 調整は時々交換不能な処理と制御群を必要とする。 これらの落とし穴は、異なる文脈と形式の構造から導かれる結論のネットワークの研究につながり、これらのネットワークと社会的選択理論の間の興味深い関係を証明している。

We explore what we call ``omitted label contexts,'' in which training data is limited to a subset of the possible labels. This setting is common among specialized human experts or specific focused studies. We lean on well-studied paradoxes (Simpson's and Condorcet) to illustrate the more general difficulties of causal inference in omitted label contexts. Contrary to the fundamental principles on which much of causal inference is built, we show that ``correct'' adjustments sometimes require non-exchangeable treatment and control groups. These pitfalls lead us to the study networks of conclusions drawn from different contexts and the structures the form, proving an interesting connection between these networks and social choice theory.
翻訳日:2024-02-14 19:06:57 公開日:2024-02-13
# PowerFlowNet:メッセージパッシンググラフニューラルネットワークを用いた電力フロー近似

PowerFlowNet: Power Flow Approximation Using Message Passing Graph Neural Networks ( http://arxiv.org/abs/2311.03415v3 )

ライセンス: Link先を確認
Nan Lin, Stavros Orfanoudakis, Nathan Ordonez Cardenas, Juan S. Giraldo, Pedro P. Vergara(参考訳) 高精度かつ効率的な電力フロー解析(PF)は、現代の電気ネットワークの運用と計画において重要である。 したがって、小規模および大規模の電力ネットワークに対して、正確かつ高速なソリューションを提供するスケーラブルなアルゴリズムが必要である。 電力ネットワークをグラフと解釈できるため、グラフニューラルネットワーク(GNN)は、基礎となるグラフ構造を介して情報共有を利用することで、PF近似の精度と速度を改善するための有望なアプローチとして登場した。 本研究では,従来のNewton-Raphson法と同じような性能を示すPF近似のための新しいGNNアーキテクチャであるPowerFlowNetを紹介するが,単純なIEEE 14バスシステムでは4倍,フランス高電圧ネットワーク(6470rte)では145倍の高速化を実現している。 一方、DC緩和法などの従来の近似手法では、性能と実行時間で大幅に上回っているため、PowerFlowNetは実世界のPF分析に非常に有望なソリューションである。 さらに,powerflownetの性能,スケーラビリティ,解釈可能性,アーキテクチャ依存性を徹底的に検証し,詳細な実験評価を行い,本手法の有効性を検証する。 この評価は、電力系統解析におけるGNNの挙動と潜在的な応用に関する洞察を与える。

Accurate and efficient power flow (PF) analysis is crucial in modern electrical networks' operation and planning. Therefore, there is a need for scalable algorithms that can provide accurate and fast solutions for both small and large scale power networks. As the power network can be interpreted as a graph, Graph Neural Networks (GNNs) have emerged as a promising approach for improving the accuracy and speed of PF approximations by exploiting information sharing via the underlying graph structure. In this study, we introduce PowerFlowNet, a novel GNN architecture for PF approximation that showcases similar performance with the traditional Newton-Raphson method but achieves it 4 times faster in the simple IEEE 14-bus system and 145 times faster in the realistic case of the French high voltage network (6470rte). Meanwhile, it significantly outperforms other traditional approximation methods, such as the DC relaxation method, in terms of performance and execution time; therefore, making PowerFlowNet a highly promising solution for real-world PF analysis. Furthermore, we verify the efficacy of our approach by conducting an in-depth experimental evaluation, thoroughly examining the performance, scalability, interpretability, and architectural dependability of PowerFlowNet. The evaluation provides insights into the behavior and potential applications of GNNs in power system analysis.
翻訳日:2024-02-14 19:06:43 公開日:2024-02-13
# 2つの絡み合い条件とネガティビティとの関連

Two entanglement conditions and their connection to negativity ( http://arxiv.org/abs/2311.00142v2 )

ライセンス: Link先を確認
Mark Hillery, Camilla Polvara, Vadim Oganesyan, and Nada Ali(参考訳) 両部交絡を検出するために使用可能な2つの条件について検討し、状態の負性性に対する低い境界を与えるために使用できることを示す。 まず2量子状態から始まり、そこで何をしたかがより一般的な状態に拡張できることを示す。 得られた境界は、多くの例を用いて研究される。 また、ある状態のシュミットベクトルについてある程度の知識があれば、より良い境界が見つかることも示している。

We examine two conditions that can be used to detect bipartite entanglement, and show that they can be used to provide lower bounds on the negativity of states. We begin with two-qubit states, and then show how what was done there can be extended to more general states. The resulting bounds are then studied by means of a number of examples. We also show that if one has some knowledge of the Schmidt vectors of a state, better bounds can be found.
翻訳日:2024-02-14 19:06:20 公開日:2024-02-13
# adiabatic connection からの交換のみのウイルス関係

Exchange-only virial relation from the adiabatic connection ( http://arxiv.org/abs/2310.19144v2 )

ライセンス: Link先を確認
Andre Laestadius, Mih\'aly A. Csirik, Markus Penz, Nicolas Tancogne-Dejean, Michael Ruggenthaler, Angel Rubio, Trygve Helgaker(参考訳) レヴィとパーデューによる交換のみの処女関係は再考される。 断熱接続を呼び起こすと、交換エネルギーは普遍密度汎函数 w.r.t の右微分として導入され、結合強度は$\lambda$ at $\lambda=0$ となる。 これは交換エネルギーの全交換相関エネルギーの高密度極限としての交換エネルギーのレヴィ・パーデュー定義と一致する。 結合強度の異なる固定密度に対して$v$-representabilityを頼りにすることで、明示的な局所交換ポテンシャルを持たない交換のみの仮想関係を証明できる。 代わりに、この関係は、交換相関ポテンシャル $v_\mathrm{xc}^\lambda$ を含む極限 (\lambda \searrow 0$) の項であり、これは $v$-representability の仮定によって存在する。 一方、局所交換ポテンシャル $v_\mathrm{x}$ はそのような極限として存在することは保証されない。

The exchange-only virial relation due to Levy and Perdew is revisited. Invoking the adiabatic connection, we introduce the exchange energy in terms of the right-derivative of the universal density functional w.r.t. the coupling strength $\lambda$ at $\lambda=0$. This agrees with the Levy-Perdew definition of the exchange energy as a high-density limit of the full exchange-correlation energy. By relying on $v$-representability for a fixed density at varying coupling strength, we prove an exchange-only virial relation without an explicit local-exchange potential. Instead, the relation is in terms of a limit ($\lambda \searrow 0$) involving the exchange-correlation potential $v_\mathrm{xc}^\lambda$, which exists by assumption of $v$-representability. On the other hand, a local-exchange potential $v_\mathrm{x}$ is not warranted to exist as such a limit.
翻訳日:2024-02-14 19:05:49 公開日:2024-02-13
# 生成aiを用いた学術論文の重ね合わせ技術

Techniques for supercharging academic writing with generative AI ( http://arxiv.org/abs/2310.17143v2 )

ライセンス: Link先を確認
Zhicheng Lin(参考訳) 学術的な執筆は研究企業にとって欠かせないが退屈な部分である。 このパースペクティブは、生成的人工知能(AI)、特に大きな言語モデル(LLM)を使用するための原則と方法を示し、学術的な文章の品質と効率を高める。 我々は、書面におけるAIの関与の根拠(なぜ)、プロセス(方法)、自然(何)を明確にする人間とAIの協調フレームワークを紹介します。 このフレームワークは、エンゲージメントの短期的および長期的理由と、その基盤となるメカニズム(認知的オフロードや想像的刺激など)の両方を指摘します。 これは、人間とAIの共同執筆のための2段階のモデルを通じて概念化された、筆記プロセス全体におけるAIの役割と、筆記支援のタイプとレベルのモデルによって表現される書記におけるAIアシストの性質を明らかにする。 この枠組みに基づいて、我々は、AIを筆記ルーチン(アウトライン、ドラフト、編集)に組み込む効果的なプロンプト技術と、厳格な奨学金の維持、さまざまなジャーナルポリシーの遵守、AIへの過度な依存を避ける戦略について説明する。 究極的には、AIを学術的な文章に統合することで、コミュニケーションの負担を緩和し、著者に権限を与え、発見を加速し、科学の多様性を促進することができる。

Academic writing is an indispensable yet laborious part of the research enterprise. This Perspective maps out principles and methods for using generative artificial intelligence (AI), specifically large language models (LLMs), to elevate the quality and efficiency of academic writing. We introduce a human-AI collaborative framework that delineates the rationale (why), process (how), and nature (what) of AI engagement in writing. The framework pinpoints both short-term and long-term reasons for engagement and their underlying mechanisms (e.g., cognitive offloading and imaginative stimulation). It reveals the role of AI throughout the writing process, conceptualized through a two-stage model for human-AI collaborative writing, and the nature of AI assistance in writing, represented through a model of writing-assistance types and levels. Building on this framework, we describe effective prompting techniques for incorporating AI into the writing routine (outlining, drafting, and editing) as well as strategies for maintaining rigorous scholarship, adhering to varied journal policies, and avoiding overreliance on AI. Ultimately, the prudent integration of AI into academic writing can ease the communication burden, empower authors, accelerate discovery, and promote diversity in science.
翻訳日:2024-02-14 19:05:12 公開日:2024-02-13
# 付加的非パラメトリック回帰に対する確率的グラディエントDescence

Stochastic Gradient Descent for Additive Nonparametric Regression ( http://arxiv.org/abs/2401.00691v2 )

ライセンス: Link先を確認
Xin Chen and Jason M. Klusowski(参考訳) 本稿では,メモリストレージと計算要求を満足する加算モデルの反復的学習アルゴリズムを提案する。 このアルゴリズムは、成分関数の切断基底展開の係数に適用される確率的勾配降下の関数対応と見なすことができる。 得られた推定器は、モデルミス特定を可能にするオラクルの不等式を満たすことを示す。 また, 3つの異なるトレーニング段階において, 学習率を慎重に選択することにより, そのリスクが, データの次元依存性, トレーニングサンプルのサイズに依存する点において, 最適であることを示す。 2つの実世界のデータセットに対する従来のバックフィッティングと比較することで、計算上のメリットをさらに説明します。

This paper introduces an iterative algorithm for training additive models that enjoys favorable memory storage and computational requirements. The algorithm can be viewed as the functional counterpart of stochastic gradient descent, applied to the coefficients of a truncated basis expansion of the component functions. We show that the resulting estimator satisfies an oracle inequality that allows for model mis-specification. In the well-specified setting, by choosing the learning rate carefully across three distinct stages of training, we demonstrate that its risk is minimax optimal in terms of the dependence on the dimensionality of the data and the size of the training sample. We further illustrate the computational benefits by comparing the approach with traditional backfitting on two real-world datasets.
翻訳日:2024-02-14 18:56:35 公開日:2024-02-13
# lefl: フェデレーション学習における低エントロピークライアントサンプリング

LEFL: Low Entropy Client Sampling in Federated Learning ( http://arxiv.org/abs/2312.17430v2 )

ライセンス: Link先を確認
Waqwoya Abebe, Pablo Munoz, Ali Jannesari(参考訳) Federated Learning(FL)は、複数のクライアントが協力して、プライベートデータを使用して単一のグローバルモデルを最適化する、機械学習パラダイムである。 グローバルモデルは、一連のトレーニングラウンドを通じてFLトレーニングプロセスを編成する中央サーバによって維持される。 各ラウンドで、サーバはクライアントプールからクライアントをサンプリングし、さらに最適化するために最新のグローバルモデルパラメータを送信する。 ナイーブサンプリング戦略はランダムクライアントサンプリングを実装し、プライバシの理由からクライアントデータ分布を見積もらない。 そこで本研究では,データプライバシを尊重しつつ,学習した高レベルの特徴に基づいて,クライアントを1回クラスタリングすることで,新たなサンプリング戦略LEFLを提案する。 これにより、サーバは各ラウンドでクラスタ間で階層化されたクライアントサンプリングを実行することができる。 このアプローチで選択されたサンプルクライアントのデータセットは、グローバルデータ分布に対して低い相対エントロピーをもたらす。 その結果、flトレーニングはノイズが少なくなり、いくつかの実験でグローバルモデルの収束率を最大7.4%向上させる。 さらに、目標精度を達成するために必要な通信ラウンドを大幅に削減する。

Federated learning (FL) is a machine learning paradigm where multiple clients collaborate to optimize a single global model using their private data. The global model is maintained by a central server that orchestrates the FL training process through a series of training rounds. In each round, the server samples clients from a client pool before sending them its latest global model parameters for further optimization. Naive sampling strategies implement random client sampling and fail to factor client data distributions for privacy reasons. Hence we propose LEFL, an alternative sampling strategy by performing a one-time clustering of clients based on their model's learned high-level features while respecting data privacy. This enables the server to perform stratified client sampling across clusters in every round. We show datasets of sampled clients selected with this approach yield a low relative entropy with respect to the global data distribution. Consequently, the FL training becomes less noisy and significantly improves the convergence of the global model by as much as 7.4% in some experiments. Furthermore, it also significantly reduces the communication rounds required to achieve a target accuracy.
翻訳日:2024-02-14 18:56:23 公開日:2024-02-13
# 大規模言語モデルに対する空でない一般化境界

Non-Vacuous Generalization Bounds for Large Language Models ( http://arxiv.org/abs/2312.17173v2 )

ライセンス: Link先を確認
Sanae Lotfi, Marc Finzi, Yilun Kuang, Tim G. J. Rudner, Micah Goldblum, Andrew Gordon Wilson(参考訳) 現代の言語モデルには何十億というパラメータが含まれており、トレーニングデータを超えて一般化できるか、単にトレーニングコーパスを再現するかという疑問を提起している。 本研究では,事前訓練された大言語モデル (LLM) に対して,非空の一般化境界を初めて提供し,言語モデルが未知のデータに一般化する正規性を発見できることを示す。 特に,予測スムージングを用いた非バウンドログ類似損失に有効な圧縮バウンダリを導出し,バウンダリを拡張してサブサンプリング処理を行い,大規模データセットにおけるバウンダリ計算を高速化する。 非空一般化境界に対する極端な圧縮レベルを達成するために、低次元非線形パラメータ化であるSubLoRAを考案する。 このアプローチを用いることで、より大きなモデルはより一般化境界を持ち、より小さなモデルよりも圧縮性が高いことが分かる。

Modern language models can contain billions of parameters, raising the question of whether they can generalize beyond the training data or simply regurgitate their training corpora. We provide the first non-vacuous generalization bounds for pretrained large language models (LLMs), indicating that language models are capable of discovering regularities that generalize to unseen data. In particular, we derive a compression bound that is valid for the unbounded log-likelihood loss using prediction smoothing, and we extend the bound to handle subsampling, accelerating bound computation on massive datasets. To achieve the extreme level of compression required for non-vacuous generalization bounds, we devise SubLoRA, a low-dimensional non-linear parameterization. Using this approach, we find that larger models have better generalization bounds and are more compressible than smaller models.
翻訳日:2024-02-14 18:56:09 公開日:2024-02-13
# ARTrackV2: 自動回帰トラッカーの表示方法と説明方法

ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to Describe ( http://arxiv.org/abs/2312.17133v3 )

ライセンス: Link先を確認
Yifan Bai, Zeyang Zhao, Yihong Gong, Xing Wei(参考訳) ARTrackV2は、追跡の2つの重要な側面、すなわち、どこを見るか(ローカライゼーション)と、ターゲットオブジェクトをビデオフレーム間でどのように記述するか(外観分析)の2点を統合する。 artrackv2は、前者の基盤を基盤として、オブジェクトの軌跡を「読み出し」し、その外観を自己回帰的に「書き直す」ための統一的な生成フレームワークを導入することで、概念を拡張している。 このアプローチは、動きと視覚的特徴の合同進化をモデル化する時間連続的な方法論を育む。 さらに、ARTrackV2はその効率性と単純さで際立つもので、フレーム内オートレグレッションの低さと外観更新のための手動パラメータを回避している。 そのシンプルさにもかかわらず、artrackv2は、既存のベンチマークデータセットで最先端のパフォーマンスを実現し、優れた効率性を示している。 特にARTrackV2は、GOT-10kで79.5\%、TrackingNetで86.1\%のAOスコアを達成し、ARTrackより3.6 \times$速い。 コードはリリースされます。

We present ARTrackV2, which integrates two pivotal aspects of tracking: determining where to look (localization) and how to describe (appearance analysis) the target object across video frames. Building on the foundation of its predecessor, ARTrackV2 extends the concept by introducing a unified generative framework to "read out" object's trajectory and "retell" its appearance in an autoregressive manner. This approach fosters a time-continuous methodology that models the joint evolution of motion and visual features, guided by previous estimates. Furthermore, ARTrackV2 stands out for its efficiency and simplicity, obviating the less efficient intra-frame autoregression and hand-tuned parameters for appearance updates. Despite its simplicity, ARTrackV2 achieves state-of-the-art performance on prevailing benchmark datasets while demonstrating remarkable efficiency improvement. In particular, ARTrackV2 achieves AO score of 79.5\% on GOT-10k, and AUC of 86.1\% on TrackingNet while being $3.6 \times$ faster than ARTrack. The code will be released.
翻訳日:2024-02-14 18:55:53 公開日:2024-02-13
# perp: llms時代のprune-retrainパラダイム再考

PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs ( http://arxiv.org/abs/2312.15230v2 )

ライセンス: Link先を確認
Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta(参考訳) ニューラルネットワークはプルーニングによって効率よく圧縮でき、予測性能を維持しながら、ストレージと計算要求を大幅に削減できる。 イテレーティブマグニチュードプルーニング(imp, han et al., 2015)のようなシンプルで効果的な方法は、重要なパラメータを少なくし、プルーニング後のパフォーマンスを回復するためにコストのかかる再トレーニング手順を必要とする。 しかし、LLM(Large Language Models)の台頭に伴い、メモリと計算の制約により、完全なリトレーニングが不可能になっている。 本研究では,高表現率パラメータの小さなサブセットだけを更新するだけで,完全なリトレーニングよりも性能を回復あるいは改善できることを示すことで,全てのパラメータをリトレーニングする実践に挑戦する。 驚くべきことに、GPTアーキテクチャのパラメータの0.27%-0.35%しか再トレーニングを行ない、様々な範囲でOne Shot IMPに匹敵するパフォーマンスを実現している。 我々のアプローチであるPERP(Parager-Efficient Retraining after Pruning)は、計算とメモリの要求を大幅に削減し、1つのNVIDIA A100 GPU上で最大300億のパラメータモデルのプルーニングと再トレーニングを可能にする。 大規模刈り込みはLLMの刈り取りに適していないと考えられるが,本研究は,Wanda (Sun et al., 2023) や SparseGPT (Frantar & Alistarh, 2023) などの最先端のリトレーニングフリーアプローチに対して,PERPが強力な競合相手として位置づけることを示し,再トレーニングを避けるための有望な代替手段を開拓した。

Neural Networks can be efficiently compressed through pruning, significantly reducing storage and computational demands while maintaining predictive performance. Simple yet effective methods like Iterative Magnitude Pruning (IMP, Han et al., 2015) remove less important parameters and require a costly retraining procedure to recover performance after pruning. However, with the rise of Large Language Models (LLMs), full retraining has become infeasible due to memory and compute constraints. In this study, we challenge the practice of retraining all parameters by demonstrating that updating only a small subset of highly expressive parameters is often sufficient to recover or even improve performance compared to full retraining. Surprisingly, retraining as little as 0.27%-0.35% of the parameters of GPT-architectures achieves comparable performance to One Shot IMP across various sparsity levels. Our approach, Parameter-Efficient Retraining after Pruning (PERP), drastically reduces compute and memory demands, enabling pruning and retraining of up to 30 billion parameter models on a single NVIDIA A100 GPU within minutes. Despite magnitude pruning being considered as unsuited for pruning LLMs, our findings show that PERP positions it as a strong contender against state-of-the-art retraining-free approaches such as Wanda (Sun et al., 2023) and SparseGPT (Frantar & Alistarh, 2023), opening up a promising alternative to avoiding retraining.
翻訳日:2024-02-14 18:55:33 公開日:2024-02-13
# 2部状態の量子零定理次元の証人

Quantum null-hypothesis dimension witness for a bipartite state ( http://arxiv.org/abs/2312.13996v2 )

ライセンス: Link先を確認
Josep Batle, Tomasz Bia{\l}ecki, Tomasz Rybotycki, Jakub Tworzyd{\l}o, Adam Bednorz(参考訳) 両部量子系の次元性について,Null witness testの構築を通して検討する。 このテストは、与えられた絡み合った状態が期待される量子次元と一致するかどうかを評価し、また実空間と複素空間を区別する。 提案手法は,各当事者の局所的な測定値を用いて,状態の正確な表現に必要な最小限の既約次元を決定することを目的とする。 実験はIBMの量子コンピュータ上で実証され、統計的誤差の理論的予測と一致している。 この研究はまた、証人の量の上界を示す様々な次元の数値的な結果も提供する。

We investigate the dimensionality of bipartite quantum systems through the construction of a null witness test. This test assesses whether a given entangled state conforms with the expected quantum dimension, and also distinguishes between real and complex spaces. By employing local measurements on each party, the proposed method aims to determine the minimal irreducible dimension necessary to represent the state accurately. Experimental feasibility is demonstrated on IBM quantum computers, showing agreement with theoretical expectations within statistical errors. The study also provides numerical results for various dimensions, showcasing the upper bounds of the witness quantity.
翻訳日:2024-02-14 18:54:56 公開日:2024-02-13
# 水素分子とリチウム原子の超低温衝突における超微粒子とゼーマン相互作用

Hyperfine and Zeeman interactions in ultracold collisions of molecular hydrogen with atomic lithium ( http://arxiv.org/abs/2312.13652v2 )

ライセンス: Link先を確認
Hubert J\'o\'zwiak, Timur V. Tscherbul, Piotr Wcis{\l}o(参考訳) 本稿では, 高温Li-H$_{2}$衝突に対する超微粒子相互作用とゼーマン相互作用の影響を, 直近のabイニシアチブポテンシャルエネルギー表面を用いて, 外部磁場の存在下での厳密な量子散乱法を提案する。 弾性-非弾性衝突の比は、衝突エネルギーが1.5 k未満の場合には100を超え、非弾性衝突のほとんどの非弾性衝突は核スピンの空間固定射影を維持できることを実証する。 h$_{2}$ の核スピンと li の電子スピンの間の異方的超微細構造相互作用は、リチウム中の電子スピン緩和と核スピン-電子スピン交換の2つの過程を媒介するので、超低温状態における非弾性散乱に大きな影響を与えることが示されている。 弾性衝突の優位性とH$_{2}$を維持する非弾性衝突の正当性を考えると,原子リチウムによる水素分子の交感冷却の可能性が開かれ,超低温衝突の今後の探索とH$_{2}$分子の高精度分光法が確立される。

We present a rigorous quantum scattering study of the effects of hyperfine and Zeeman interactions on cold Li - H$_{2}$ collisions in the presence of an external magnetic field using a recent ab initio potential energy surface. We find that the low-field-seeking states of H$_{2}$ predominantly undergo elastic collisions: the ratio of elastic-to-inelastic collisions exceeds 100 for collision energies below 1.5 K. Furthermore, we demonstrate that most inelastic collisions conserve the space-fixed projection of the nuclear spin. We show that the anisotropic hyperfine interaction between the nuclear spin of H$_{2}$ and the electron spin of Li can have a significant effect on inelastic scattering in the ultracold regime, as it mediates two processes: the electron spin relaxation in lithium, and the nuclear spin - electron spin exchange. Given the predominance of elastic collisions and the propensity of inelastic collisions to retain H$_{2}$ in its low-field-seeking states, our results open up the possibility of sympathetic cooling of molecular hydrogen by atomic lithium, paving the way for future exploration of ultracold collisions and high-precision spectroscopy of H$_{2}$ molecules.
翻訳日:2024-02-14 18:54:45 公開日:2024-02-13
# k$-meansによる画像分類における敵対的ロバスト性

Adversarial Robustness on Image Classification with $k$-means ( http://arxiv.org/abs/2312.09533v2 )

ライセンス: Link先を確認
Rollin Omari, Junae Kim and Paul Montague(参考訳) 本稿では,逆操作に対する$k$-meansクラスタリングアルゴリズムの堅牢性向上のための課題と戦略を検討する。 攻撃に対するクラスタリングアルゴリズムの脆弱性を評価し,関連するセキュリティリスクを強調した。 本研究では,訓練におけるインクリメンタルアタック強度の影響を調査し,教師付きモデルと教師なしモデル間の伝達可能性の概念を導入し,教師なしモデルのサンプル分布に対する感受性を強調する。 また, 対人シナリオにおけるテスト性能を向上させる対人トレーニング手法を導入, 評価し, 連続学習, セントロイド初期化, 対人ステップカウントなど, 提案手法における様々なパラメータの重要性を強調した。

In this paper we explore the challenges and strategies for enhancing the robustness of $k$-means clustering algorithms against adversarial manipulations. We evaluate the vulnerability of clustering algorithms to adversarial attacks, emphasising the associated security risks. Our study investigates the impact of incremental attack strength on training, introduces the concept of transferability between supervised and unsupervised models, and highlights the sensitivity of unsupervised models to sample distributions. We additionally introduce and evaluate an adversarial training method that improves testing performance in adversarial scenarios, and we highlight the importance of various parameters in the proposed training method, such as continuous learning, centroid initialisation, and adversarial step-count.
翻訳日:2024-02-14 18:54:26 公開日:2024-02-13
# 大規模言語モデルは臨床推論者である:プロンプト生成合理的な診断フレームワーク

Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales ( http://arxiv.org/abs/2312.07399v2 )

ライセンス: Link先を確認
Taeyoon Kwon, Kai Tzu-iunn Ong, Dongjin Kang, Seungjun Moon, Jeong Ryong Lee, Dosik Hwang, Yongsik Sim, Beomseok Sohn, Dongha Lee, Jinyoung Yeo(参考訳) 機械推論は、大規模言語モデル(LLM)によって近年大きく進歩している。 しかし、臨床領域では、nlp主導のほとんどのプロジェクトは、主に臨床分類や読解に焦点が当てられ、臨床医の高価な合理的な注釈による疾患診断のための未熟な臨床推論に焦点が当てられている。 本研究では,時間的かつ労力効率のよい方法で,プロンプトベース学習を通じて診断プロセスを合理化し,その合理化を理化するための,‘reasoning-aware’診断フレームワークを提案する。 具体的には,llmが診断的根拠を生成し,提示された患者データと臨床的思考連鎖(clinical chain-of-thought:clinical cot)という診断への道筋について考察する。 LLMs/LMsの臨床的推論能力について実験的に検証し,様々な場面で理性発生と疾患診断の両方について分析した。 さらに,本分野の今後の研究を円滑に進めつつ,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。

Machine reasoning has made great progress in recent years owing to large language models (LLMs). In the clinical domain, however, most NLP-driven projects mainly focus on clinical classification or reading comprehension, and under-explore clinical reasoning for disease diagnosis due to the expensive rationale annotation with clinicians. In this work, we present a ``reasoning-aware'' diagnosis framework that rationalizes the diagnostic process via prompt-based learning in a time- and labor-efficient manner, and learns to reason over the prompt-generated rationales. Specifically, we address the clinical reasoning for disease diagnosis, where the LLM generates diagnostic rationales providing its insight on presented patient data and the reasoning path towards the diagnosis, namely Clinical Chain-of-Thought (Clinical CoT). We empirically demonstrate LLMs/LMs' ability of clinical reasoning via extensive experiments and analyses on both rationale generation and disease diagnosis in various settings. We further propose a novel set of criteria for evaluating machine-generated rationales' potential for real-world clinical settings, facilitating and benefiting future research in this area.
翻訳日:2024-02-14 18:54:11 公開日:2024-02-13
# 計算著作権:音楽生成aiのロイヤリティモデルに向けて

Computational Copyright: Towards A Royalty Model for Music Generative AI ( http://arxiv.org/abs/2312.06646v2 )

ライセンス: Link先を確認
Junwei Deng, Jiaqi Ma(参考訳) 生成的AIの進歩は、特に音楽産業において著作権問題に拍車をかけた。 本稿では,これらの課題の経済的側面に焦点をあて,著作権分野における経済的影響が中心的な課題となっていることを強調する。 ブラックボックス生成AI技術の複雑さは、示唆するだけでなく、アルゴリズム的なソリューションを必要とする。 しかし、このようなソリューションはほとんど失われており、この状況における規制上の課題につながった。 我々は、AI音楽生成プラットフォーム上での収益分配のためのロイヤリティモデルの提案によって、現在のアプローチのギャップを埋めることを目指している。 我々の手法は、SpotifyやYouTubeのようなプラットフォームにおける既存のロイヤリティモデルの詳細な分析と、これらをAI生成音楽のユニークなコンテキストに適応させることを含む。 私たちが対処する重要な課題は、トレーニングデータに影響力のある著作権コンテンツへのai生成音楽の帰属です。 そこで本研究では,データ帰属手法を用いたアルゴリズムソリューションを提案する。 実験結果は,これらの解の有効性を検証する。 この研究は、aiの分野における技術的進歩と経済的および法的考察を統合するための先駆的な取り組みであり、ai技術の不透明な性質によって生じる課題に対する計算的著作権ソリューションを提供する。

The advancement of generative AI has given rise to pressing copyright challenges, particularly in music industry. This paper focuses on the economic aspects of these challenges, emphasizing that the economic impact constitutes a central issue in the copyright arena. The complexity of the black-box generative AI technologies not only suggests but necessitates algorithmic solutions. However, such solutions have been largely missing, leading to regulatory challenges in this landscape. We aim to bridge the gap in current approaches by proposing potential royalty models for revenue sharing on AI music generation platforms. Our methodology involves a detailed analysis of existing royalty models in platforms like Spotify and YouTube, and adapting these to the unique context of AI-generated music. A significant challenge we address is the attribution of AI-generated music to influential copyrighted content in the training data. To this end, we present algorithmic solutions employing data attribution techniques. Our experimental results verify the effectiveness of these solutions. This research represents a pioneering effort in integrating technical advancements with economic and legal considerations in the field of generative AI, offering a computational copyright solution for the challenges posed by the opaque nature of AI technologies.
翻訳日:2024-02-14 18:53:50 公開日:2024-02-13
# 長編エゴセントリックビデオにおける質疑応答

Grounded Question-Answering in Long Egocentric Videos ( http://arxiv.org/abs/2312.06505v2 )

ライセンス: Link先を確認
Shangzhe Di and Weidi Xie(参考訳) ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。 本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。 この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そのあいまいさによるオープンな回答評価の難しさなど、ユニークな課題を示す。 提案手法はこれらの課題に対処する i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。 (二)大規模言語モデルによる効率的かつスケーラブルなデータ合成 三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。 また,QAEgo4DおよびEgo4D-NLQベンチマークにおいて,最先端性能を実現する手法の有効性を示す。 今後の研究のために、コード、モデル、構築されたデータセットを公開する予定です。

Existing approaches to video understanding, mainly designed for short videos from a third-person perspective, are limited in their applicability in certain fields, such as robotics. In this paper, we delve into open-ended question-answering (QA) in long, egocentric videos, which allows individuals or robots to inquire about their own past visual experiences. This task presents unique challenges, including the complexity of temporally grounding queries within extensive video content, the high resource demands for precise data annotation, and the inherent difficulty of evaluating open-ended answers due to their ambiguous nature. Our proposed approach tackles these challenges by (i) integrating query grounding and answering within a unified model to reduce error propagation; (ii) employing large language models for efficient and scalable data synthesis; and (iii) introducing a close-ended QA task for evaluation, to manage answer ambiguity. Extensive experiments demonstrate the effectiveness of our method, which also achieves state-of-the-art performance on the QAEgo4D and Ego4D-NLQ benchmarks. We plan to publicly release the codes, model, and constructed datasets for future research.
翻訳日:2024-02-14 18:53:31 公開日:2024-02-13
# ヘテロフィアとスペクトルを考慮したグラフに基づく不正検出の再検討

Revisiting Graph-Based Fraud Detection in Sight of Heterophily and Spectrum ( http://arxiv.org/abs/2312.06441v2 )

ライセンス: Link先を確認
Fan Xu, Nan Wang, Hao Wu, Xuezhi Wen, Xibin Zhao, Hai Wan(参考訳) graph-based fraud detection (gfd)は、難解な半教師付きノードバイナリ分類タスクと見なすことができる。 近年、グラフニューラルネットワーク(GNN)がGFDに広く適用され、近隣情報を集約することでノードの異常な可能性を特徴づけている。 しかし、不正グラフは本質的にヘテロ親和性を持つため、ほとんどのGNNはホモフィリーの仮定により性能が劣る。 また,異種不均衡問題が存在するため,既存のモデルでは貴重なノードラベル情報を十分に利用していない。 以上の課題に対処するため,本研究では,セミ教師付きGNNベースの不正検知器SEC-GFDを提案する。 ハイブリッドフィルタモジュールとローカル環境制約モジュールとを具備し、2つのモジュールをそれぞれヘテロフィリーおよびラベル利用問題を解決するために利用する。 最初の加群はスペクトル領域の観点から始まり、ヘテロフィイ問題をある程度解決する。 具体的には、スペクトルエネルギー分布とヘテロフィリーの相関に基づいて、スペクトルを様々な混合周波数帯域に分割する。 そして、ノードラベル情報をフル活用するために、局所環境制約モジュールを適応的に設計する。 4つの実世界の不正検出データセットの総合的な実験結果は、SEC-GFDが他の競合グラフベースの不正検出よりも優れていることを示している。 私たちはコードをhttps://github.com/sunxkissed/sec-gfdでリリースします。

Graph-based fraud detection (GFD) can be regarded as a challenging semi-supervised node binary classification task. In recent years, Graph Neural Networks (GNN) have been widely applied to GFD, characterizing the anomalous possibility of a node by aggregating neighbor information. However, fraud graphs are inherently heterophilic, thus most of GNNs perform poorly due to their assumption of homophily. In addition, due to the existence of heterophily and class imbalance problem, the existing models do not fully utilize the precious node label information. To address the above issues, this paper proposes a semi-supervised GNN-based fraud detector SEC-GFD. This detector includes a hybrid filtering module and a local environmental constraint module, the two modules are utilized to solve heterophily and label utilization problem respectively. The first module starts from the perspective of the spectral domain, and solves the heterophily problem to a certain extent. Specifically, it divides the spectrum into various mixed-frequency bands based on the correlation between spectrum energy distribution and heterophily. Then in order to make full use of the node label information, a local environmental constraint module is adaptively designed. The comprehensive experimental results on four real-world fraud detection datasets denote that SEC-GFD outperforms other competitive graph-based fraud detectors. We release our code at https://github.com/Sunxkissed/SEC-GFD.
翻訳日:2024-02-14 18:53:14 公開日:2024-02-13
# 教師なし不均一マッピングのためのマスク付き符号化による皮質異常の学習

Learning Cortical Anomaly through Masked Encoding for Unsupervised Heterogeneity Mapping ( http://arxiv.org/abs/2312.02762v3 )

ライセンス: Link先を確認
Hao-Chun Yang, Ole Andreassen, Lars Tjelta Westlye, Andre F. Marquand, Christian F. Beckmann, Thomas Wolfers(参考訳) 脳の読み出しに基づく異種精神疾患の検出は、症状の複雑さと信頼できるバイオマーカーの欠如のため、依然として困難である。 本稿では、皮質表面の特徴を用いた複雑な脳疾患の教師なし検出を目的とした、新しい自己教師型フレームワークであるCAM(Cortical Anomaly Detection through Masked Image Modeling)を紹介する。 我々はこの枠組みを心理スペクトル上の個人の検出に利用し、その能力を最先端の手法と比較し、SchizoaffectiveのAUCが0.696、Schizophreniformの0.769をラベルなしで達成した。 さらに, 統合失調症によく関与する非定型的皮質領域, 三角性パースおよびいくつかの前頭葉領域の解析は, 本研究のアプローチにさらなる自信を与える。 総じて,皮質異常に基づく複雑な脳疾患の異常検出のためのスケーラブルなアプローチを示す。 コードはhttps://github.com/chadHGY/CAMで公開される。

The detection of heterogeneous mental disorders based on brain readouts remains challenging due to the complexity of symptoms and the absence of reliable biomarkers. This paper introduces CAM (Cortical Anomaly Detection through Masked Image Modeling), a novel self-supervised framework designed for the unsupervised detection of complex brain disorders using cortical surface features. We employ this framework for the detection of individuals on the psychotic spectrum and demonstrate its capabilities compared to state-of-the-art methods, achieving an AUC of 0.696 for Schizoaffective and 0.769 for Schizophreniform, without the need for any labels. Furthermore, the analysis of atypical cortical regions, including Pars Triangularis and several frontal areas often implicated in schizophrenia, provides further confidence in our approach. Altogether, we demonstrate a scalable approach for anomaly detection of complex brain disorders based on cortical abnormalities. The code will be made available at https://github.com/chadHGY/CAM.
翻訳日:2024-02-14 18:52:52 公開日:2024-02-13
# ユーザレビューによるモバイルアプリ市場競争のダイナミクスの解明

Unveiling Competition Dynamics in Mobile App Markets through User Reviews ( http://arxiv.org/abs/2312.01981v2 )

ライセンス: Link先を確認
Quim Motger, Xavier Franch, Vincenzo Gervasi and Jordi Marco(参考訳) モバイルアプリリポジトリに公開されたユーザレビューは、特定の市場セグメントにおけるユーザの満足度とエンゲージメントを理解するために不可欠である。 レビューのマニュアル分析は膨大なデータ量のために現実的ではなく、自動分析はデータ合成やレポートといった課題に直面している。 これにより、アプリケーションプロバイダがパターンや重要なイベントを識別する作業、特に競合アプリの影響を評価する作業が複雑になる。 さらに、レビューベースの調査は、潜在的な競合分析を除いて、ほとんどが単一のアプリまたは単一のアプリプロバイダに限られている。 したがって、特定のマーケットセグメント内でクロスアプリ分析をサポートするためにユーザーレビューを活用するという、オープンリサーチの課題がある。 マイクロブログアプリ市場におけるケーススタディ研究の手法に倣って,モバイルアプリ市場分析を支援する新しい手法を提案する。 提案手法は,新たに公開されたユーザレビューに基づいて定量的指標とイベント検出技術を活用する。 モバイルアプリのライフサイクルにおける過去のベースライン指標と比較することにより、重要なイベントが積極的に特定され、要約される。 本研究の結果から,ソフトウェアやリリースベースのイベント,コンテキストイベント,新たな競争相手の出現など,選択された市場セグメント内の関連事象の検出に関する実証的証拠が得られた。

User reviews published in mobile app repositories are essential for understanding user satisfaction and engagement within a specific market segment. Manual analysis of reviews is impractical due to the large data volume, and automated analysis faces challenges like data synthesis and reporting. This complicates the task for app providers in identifying patterns and significant events, especially in assessing the influence of competitor apps. Furthermore, review-based research is mostly limited to a single app or a single app provider, excluding potential competition analysis. Consequently, there is an open research challenge in leveraging user reviews to support cross-app analysis within a specific market segment. Following a case-study research method in the microblogging app market, we introduce an automatic, novel approach to support mobile app market analysis. Our approach leverages quantitative metrics and event detection techniques based on newly published user reviews. Significant events are proactively identified and summarized by comparing metric deviations with historical baseline indicators within the lifecycle of a mobile app. Results from our case study show empirical evidence of the detection of relevant events within the selected market segment, including software- or release-based events, contextual events and the emergence of new competitors.
翻訳日:2024-02-14 18:52:33 公開日:2024-02-13
# SERL: サンプル効率の良いロボット強化学習用ソフトウェアスイート

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning ( http://arxiv.org/abs/2401.16013v3 )

ライセンス: Link先を確認
Jianlan Luo, Zheyuan Hu, Charles Xu, You Liang Tan, Jacob Berg, Archit Sharma, Stefan Schaal, Chelsea Finn, Abhishek Gupta, Sergey Levine(参考訳) 近年、ロボット強化学習(RL)の分野で大きな進歩を遂げており、複雑な画像観察、現実世界での訓練、デモや先行経験などの補助的なデータの導入を可能にしている。 しかし、これらの進歩にもかかわらず、ロボットRLの使用は困難である。 実践者の間では、これらのアルゴリズムの特定の実装の詳細は、しばしばアルゴリズムの選択と同じくらいのパフォーマンスにおいて重要である(そうでないとしても)。 我々は,ロボットRLの普及と,ロボットRL法のさらなる発展に対する重要な課題が,そのような手法の比較不能性であると考えている。 この課題に対処するため,我々は,効率のよいオフポリシー深層rl法と,報奨計算と環境再設定の手法,広く採用されているロボットのための高品質なコントローラ,課題の多い例タスクを含む,注意深く実装されたライブラリを開発した。 このライブラリをコミュニティのリソースとして提供し,その設計選択を説明し,実験結果を示す。 意外なことに、我々の実装は、非常に効率的な学習を実現し、PCBボードアセンブリ、ケーブルルーティング、オブジェクト移動のポリシーを平均25分から50分の間に取得し、文献に類似したタスクに対して報告された最先端の結果よりも改善できる。 これらの政策は完璧またはほぼ完全な成功率を達成し、摂動下でも極端な堅牢性を実現し、創発的な回復と修正行動を示す。 これらの有望な成果と私たちの高品質なオープンソース実装が、ロボティクスコミュニティにとってロボットRLのさらなる発展を促進するツールになることを期待しています。 私たちのコード、ドキュメンテーション、ビデオはhttps://serl-robot.github.io/で確認できます。

In recent years, significant progress has been made in the field of robotic reinforcement learning (RL), enabling methods that handle complex image observations, train in the real world, and incorporate auxiliary data, such as demonstrations and prior experience. However, despite these advances, robotic RL remains hard to use. It is acknowledged among practitioners that the particular implementation details of these algorithms are often just as important (if not more so) for performance as the choice of algorithm. We posit that a significant challenge to widespread adoption of robotic RL, as well as further development of robotic RL methods, is the comparative inaccessibility of such methods. To address this challenge, we developed a carefully implemented library containing a sample efficient off-policy deep RL method, together with methods for computing rewards and resetting the environment, a high-quality controller for a widely-adopted robot, and a number of challenging example tasks. We provide this library as a resource for the community, describe its design choices, and present experimental results. Perhaps surprisingly, we find that our implementation can achieve very efficient learning, acquiring policies for PCB board assembly, cable routing, and object relocation between 25 to 50 minutes of training per policy on average, improving over state-of-the-art results reported for similar tasks in the literature. These policies achieve perfect or near-perfect success rates, extreme robustness even under perturbations, and exhibit emergent recovery and correction behaviors. We hope that these promising results and our high-quality open-source implementation will provide a tool for the robotics community to facilitate further developments in robotic RL. Our code, documentation, and videos can be found at https://serl-robot.github.io/
翻訳日:2024-02-14 18:46:19 公開日:2024-02-13
# ALMs:オーサリング属性のためのオーサライザ言語モデル

ALMs: Authorial Language Models for Authorship Attribution ( http://arxiv.org/abs/2401.12005v2 )

ライセンス: Link先を確認
Weihang Huang and Akira Murakami and Jack Grieve(参考訳) 本稿では,候補著者の著作に基づいて微調整された因果関係言語モデルを用いて算出された質問文書のパープレキシティに基づいて,質問文書の最も可能性の高い著者を特定することを含む,著作者言語モデル(alms)と呼ばれる著者帰属法を提案する。 CCAT50データセットとBlogs50データセットを使用して、ALMを最先端システムと比較した。 ALMは,Blogs50で83.6%,CCAT50で74.9%,マクロ平均精度で83.6%のスコアを達成している。 短いテキストにおけるalmsの性能を評価するために,テキストアブレーションテストも行った。 マクロ平均精度が70%に達するには,blogs50では40トークン,ccat50では400トークン,blogs50では60トークン,ccat50では70トークンが必要となる。

In this paper, we introduce an authorship attribution method called Authorial Language Models (ALMs) that involves identifying the most likely author of a questioned document based on the perplexity of the questioned document calculated for a set of causal language models fine-tuned on the writings of a set of candidate author. We benchmarked ALMs against state-of-art-systems using the CCAT50 dataset and the Blogs50 datasets. We find that ALMs achieves a macro-average accuracy score of 83.6% on Blogs50, outperforming all other methods, and 74.9% on CCAT50, matching the performance of the best method. To assess the performance of ALMs on shorter texts, we also conducted text ablation testing. We found that to reach a macro-average accuracy of 70%, ALMs needs 40 tokens on Blogs50 and 400 tokens on CCAT50, while to reach 60% ALMs requires 20 tokens on Blogs50 and 70 tokens on CCAT50.
翻訳日:2024-02-14 18:45:48 公開日:2024-02-13
# 生成コンテキストによるBlinded: オープンドメインQAのための生成コンテキストと検索コンテキストをマージする言語モデル

Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts for Open-Domain QA? ( http://arxiv.org/abs/2401.11911v2 )

ライセンス: Link先を確認
Hexiang Tan, Fei Sun, Wanli Yang, Yuanzhuo Wang, Qi Cao, Xueqi Cheng(参考訳) 補助情報は、LLM(Large Language Models)を強化する鍵となっているが、LLMがこれらのコンテキストをどのように統合し、特に生成し、取り出すかについては、あまり知られていない。 そこで本研究では,LLMの応答が生成コンテキストと検索コンテキストの統合から導かれるのかを,生成コンテキストと検索コンテキストのいずれかに関連付けられているのかを判定する枠組みを定式化する。 これを実現するために、各質問が生成されたコンテキストと検索されたコンテキストの両方とペアリングされるような、矛盾するコンテキストを持つデータセットを構築します。 実験の結果,LLM(GPT-4/3.5およびLlama2)は,誤った情報を提供する場合でも,生成したコンテキストに対して有意な偏りを示した。 さらに、このバイアスに寄与する2つの重要な要因を特定します。 i) LLMが生成する文脈は,通常,質問とより類似し,選択の可能性を高める。 二 検索した文脈におけるセグメンテーションのプロセスは、その完全性を損なうため、LLMの完全利用を阻害する。 我々の分析は、LLMが様々な文脈を融合する方法の理解を深め、LLMの現在の拡張方法を進める上で貴重な洞察を提供する。

While auxiliary information has become a key to enhance Large Language Models (LLMs), relatively little is known about how LLMs merge these contexts, specifically generated and retrieved. To study this, we formulate a systematic framework to identify whether LLMs' responses, derived from the integration of generated and retrieved contexts, are attributed to either generated or retrieved contexts. To achieve this, we construct datasets with conflicting contexts, where each question is paired with both generated and retrieved contexts, yet only one of them contains the correct answer. Our experiments reveal a significant bias in LLMs (GPT-4/3.5 and Llama2) towards generated contexts, even when they provide incorrect information. We further identify two key factors contributing to this bias: i) contexts generated by LLMs typically show greater similarity to the questions, increasing their likelihood of selection; ii) the segmentation process used in retrieved contexts disrupts their completeness, thereby hindering their full utilization in LLMs. Our analysis enhances the understanding of how LLMs merge diverse contexts, offering valuable insights for advancing current augmentation methods for LLMs.
翻訳日:2024-02-14 18:45:32 公開日:2024-02-13
# AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法

AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models ( http://arxiv.org/abs/2401.09002v2 )

ライセンス: Link先を確認
Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang(参考訳) 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。 本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。 それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。 さらに,ジェイルブレイクタスク用に特別に調整した包括的基底真理データセットを開発した。 このデータセットは、現在の研究にとって重要なベンチマークとなるだけでなく、将来の研究のための基礎的なリソースを確立し、この進化分野における一貫性と比較分析を可能にします。 従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。 Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。

In our research, we pioneer a novel approach to evaluate the effectiveness of jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2, diverging from traditional robustness-focused binary evaluations. Our study introduces two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework, using a scoring range from 0 to 1, offers a unique perspective, enabling a more comprehensive and nuanced evaluation of attack effectiveness and empowering attackers to refine their attack prompts with greater understanding. Furthermore, we have developed a comprehensive ground truth dataset specifically tailored for jailbreak tasks. This dataset not only serves as a crucial benchmark for our current study but also establishes a foundational resource for future research, enabling consistent and comparative analyses in this evolving field. Upon meticulous comparison with traditional evaluation methods, we discovered that our evaluation aligns with the baseline's trend while offering a more profound and detailed assessment. We believe that by accurately evaluating the effectiveness of attack prompts in the Jailbreak task, our work lays a solid foundation for assessing a wider array of similar or even more complex tasks in the realm of prompt injection, potentially revolutionizing this field.
翻訳日:2024-02-14 18:45:06 公開日:2024-02-13
# Floquet Fluxonium Molecule: 結合した超伝導量子ビットの劣化を抑える

The Floquet Fluxonium Molecule: Driving Down Dephasing in Coupled Superconducting Qubits ( http://arxiv.org/abs/2401.08762v2 )

ライセンス: Link先を確認
Matthew Thibodeau, Angela Kou, Bryan K. Clark(参考訳) 量子状態の保存と操作を低エラー率で長時間行うことが可能な高コヒーレンス量子ビットは、量子コンピュータのためのビルディングブロックである。 本研究では,フロッケフラックスドライブを用いて静磁束分子のスペクトルを変化させる超伝導量子ビットアーキテクチャを提案する。 計算固有状態は2つの重要な特性を持つ: ビットフリップを最小化する非結合サポートと、フラックスノイズを強調する一階および二階の不感性である。 3つの主なエラータイプの割合は数値シミュレーションによって推定され、予測コヒーレンス時間は計算部分空間で約50ms、消去寿命は約500ドルである。 約500nsの時間スケールに付加的なフラックス変調による高忠実度シングルキュービット回転ゲートのプロトコルを提供する。 結果から,駆動キュービットは静的キュービットよりも優れることがわかった。

High-coherence qubits, which can store and manipulate quantum states for long times with low error rates, are necessary building blocks for quantum computers. We propose a superconducting qubit architecture that uses a Floquet flux drive to modify the spectrum of a static fluxonium molecule. The computational eigenstates have two key properties: disjoint support to minimize bit flips, along with first- and second-order insensitivity to flux noise dephasing. The rates of the three main error types are estimated through numerical simulations, with predicted coherence times of approximately 50 ms in the computational subspace and erasure lifetimes of about 500 $\mu$s. We give a protocol for high-fidelity single qubit rotation gates via additional flux modulation on timescales of roughly 500 ns. Our results indicate that driven qubits are able to outperform some of their static counterparts.
翻訳日:2024-02-14 18:44:42 公開日:2024-02-13
# IBM量子コンピュータを用いた重力光学のディジタル量子シミュレーション

Digital quantum simulation of gravitational optomechanics with IBM quantum computers ( http://arxiv.org/abs/2401.08370v2 )

ライセンス: Link先を確認
Pablo Guillermo Carmona Rufo, Anupam Mazumdar, Sougato Bose and Carlos Sab\'in(参考訳) 量子力学発振器と光学場との相互作用を制御し、重力効果によってそれらの間の量子絡み合いを生成するハミルトニアンの作用のデジタル量子シミュレーションを紹介する。 これはboson-qubitマッピングプロトコルと、ibm quantum platformで利用可能な量子コンピュータでシミュレーションを実行するためのデジタルゲート分解を使用することで実現されています。 本稿では,2つの異なる量子コンピュータにおいて,誤差軽減とポストセレクション手法を適用した実験結果について述べる。 得られた結果は90%以上の忠実度に対応しており、量子重力場のシミュレーションによって実際に絡み合いが生じたことを示している。

We showcase the digital quantum simulation of the action of a Hamiltonian that governs the interaction between a quantum mechanical oscillator and an optical field, generating quantum entanglement between them via gravitational effects. This is achieved by making use of a boson-qubit mapping protocol and a digital gate decomposition that allow us to run the simulations in the quantum computers available in the IBM Quantum platform. We present the obtained results for the fidelity of the experiment in two different quantum computers, after applying error mitigation and post-selection techniques. The achieved results correspond to fidelities over 90%, which indicates that entanglement was indeed generated through the simulation of a quantum gravitational field.
翻訳日:2024-02-14 18:44:25 公開日:2024-02-13
# 量子近似最適化アルゴリズムの最適パラメータのインスタンス依存性について:インスタンス空間解析による考察

On the Instance Dependence of Optimal Parameters for the Quantum Approximate Optimisation Algorithm: Insights via Instance Space Analysis ( http://arxiv.org/abs/2401.08142v2 )

ライセンス: Link先を確認
Vivek Katial, Kate Smith-Miles, Charles Hill(参考訳) 量子近似最適化アルゴリズム(QAOA)の性能は、回路の各層における最適パラメータの設定に依存する。 これは簡単な作業ではなく、風景が「不毛の高原」のような問題に悩まされているときに最適なパラメータを見つけるという課題に多くの文献が焦点を当てている。 最適なパラメータを探索するのに利用できる最適化ヒューリスティックには多くの選択肢があり、それぞれに独自のパラメータとパフォーマンスに影響を与える初期化選択がある。 近年では、このような最適パラメータ探索が必要かどうかという疑問が提起され、特定のタイプの問題インスタンスに対して、最適なパラメータが特定の値に集中する傾向が示されている。 しかし、これらの既存の研究はMaxCutの特定のインスタンスクラスのみを調べており、インスタンス独立性の主張が様々なインスタンスに適用されるかどうかは不明である。 本稿では,インスタンス空間解析を用いて,QAOAの性能に対するインスタンス特性の依存性について検討する。 最大カット問題に着目し,パラメータ初期化戦略の有効性を評価し,量子インスタンスベースパラメータ初期化(qibpi)と呼ばれるインスタンス特性に基づく新しい初期化手法を提案する。 本研究は,初期化パラメータの選択におけるインスタンス特性の洞察を用いることで,QAOA性能が向上することを明らかにする。 また、特定のインスタンスクラス内では、より小さなインスタンスのパラメータがより大きなインスタンスに転送可能であることも示しています。 この研究は、量子アルゴリズムのさらなるインスタンス空間解析の基礎を提供し、より広範なインスタンスのクラスが、特定のよく研究されたテスト問題やクラスに限らないよう検討することを奨励する。

The performance of the Quantum Approximate Optimisation Algorithm (QAOA) relies on the setting of optimal parameters in each layer of the circuit. This is no trivial task, and much literature has focused on the challenge of finding optimal parameters when the landscape is plagued with problems such as "barren plateaus". There are many choices of optimisation heuristics that can be used to search for optimal parameters, each with its own parameters and initialisation choices that affect performance. More recently, the question of whether such optimal parameter search is even necessary has been posed, with some studies showing that optimal parameters tend to be concentrated on certain values for specific types of problem instances. However, these existing studies have only examined specific instance classes of MaxCut, so it is uncertain if the claims of instance independence apply to a diverse range of instances. In this paper, we use Instance Space Analysis to study the dependence of instance characteristics on the performance of QAOA. Focusing on the MaxCut problem, we assess the effectiveness of parameter initialisation strategies and introduce a new initialisation approach based on instance characteristics called Quantum Instance-Based Parameter Initialisation (QIBPI). This study reveals that using insights about instance characteristics in choosing initialisation parameters can improve QAOA performance. We also show that, within certain instance classes, parameters from smaller instances can be transferred to larger ones. This research provides a foundation for further instance space analysis for quantum algorithms and encourages a broader class of instances to be considered to ensure conclusions are not limited to particular well-studied test problems or classes.
翻訳日:2024-02-14 18:44:13 公開日:2024-02-13
# matsynth: 現代のpbr材料データセット

MatSynth: A Modern PBR Materials Dataset ( http://arxiv.org/abs/2401.06056v2 )

ライセンス: Link先を確認
Giuseppe Vecchio, Valentin Deschaintre(参考訳) 4000以上のCC0超高分解能PBR材料のデータセットであるMatSynthを紹介する。 物質は、ジオメトリーの表面における光の相互作用を定義する、仮想的な照準可能な資産の重要な構成要素である。 その重要性から、その表現、創造、獲得に多大な研究が費やされた。 しかし、過去6年間で、ほとんどの材料買収や世代の研究は、同じユニークなデータセットか、会社が所有する巨大な手続き資料ライブラリに頼っていた。 このデータセットでは、以前よりはるかに大きく、より多様性があり、高解像度の材料セットを提案する。 我々は,データ収集プロセスについて慎重に議論し,本データセットが物質取得および生成アプリケーションにもたらすメリットを実証する。 完全なデータには、各材料の起源、ライセンス、カテゴリ、タグ、作成方法、利用可能な場合、説明と物理サイズ、および様々な環境照明の下で1Kの3M+レンダリングを含むメタデータが含まれる。 MatSynthデータセットは、プロジェクトページからリリースされている。

We introduce MatSynth, a dataset of 4,000+ CC0 ultra-high resolution PBR materials. Materials are crucial components of virtual relightable assets, defining the interaction of light at the surface of geometries. Given their importance, significant research effort was dedicated to their representation, creation and acquisition. However, in the past 6 years, most research in material acquisiton or generation relied either on the same unique dataset, or on company-owned huge library of procedural materials. With this dataset we propose a significantly larger, more diverse, and higher resolution set of materials than previously publicly available. We carefully discuss the data collection process and demonstrate the benefits of this dataset on material acquisition and generation applications. The complete data further contains metadata with each material's origin, license, category, tags, creation method and, when available, descriptions and physical size, as well as 3M+ renderings of the augmented materials, in 1K, under various environment lightings. The MatSynth dataset is released through the project page at: https://www.gvecchio.com/matsynth.
翻訳日:2024-02-14 18:43:44 公開日:2024-02-13
# ストックデータの時系列予測における超複雑ニューラルネットワーク

Hypercomplex neural network in time series forecasting of stock data ( http://arxiv.org/abs/2401.04632v2 )

ライセンス: Link先を確認
Rados{\l}aw Kycia, Agnieszka Niemczynowicz(参考訳) 本稿では,時系列予測のための4次元(4次元)超複素代数に基づくニューラルネットワーク(nn)アーキテクチャの3つのクラスをテストする。 入力層に畳み込み、長短期記憶(LSTM)、あるいは4次元代数の高複素層を含むように異なるアーキテクチャを評価した。 4つの関連する株式市場時系列が入力データとして使われ、予測はそのうちの1つに焦点を当てている。 各アーキテクチャクラスに対するハイパーパラメータ最適化を行い、各クラスで最高の性能を持つニューラルネットワークを比較した。 その結果,高複素密集層を持つアーキテクチャは,他のアーキテクチャと同等に平均絶対誤差 (mae) の精度が得られるが,学習可能なパラメータは極めて少ないことがわかった。 その結果、超複雑ニューラルネットワークは、他のテスト済みアーキテクチャよりも高速に時系列データを学習し、処理する能力を示す。 さらに,入力時系列の順序付けが有効性に顕著な影響を及ぼすことがわかった。

The goal of this paper is to test three classes of neural network (NN) architectures based on four-dimensional (4D) hypercomplex algebras for time series prediction. We evaluate different architectures, varying the input layers to include convolutional, Long Short-Term Memory (LSTM), or dense hypercomplex layers for 4D algebras. Four related Stock Market time series are used as input data, with the prediction focused on one of them. Hyperparameter optimization for each architecture class was conducted to compare the best-performing neural networks within each class. The results indicate that, in most cases, architectures with hypercomplex dense layers achieve similar Mean Absolute Error (MAE) accuracy compared to other architectures, but with significantly fewer trainable parameters. Consequently, hypercomplex neural networks demonstrate the ability to learn and process time series data faster than the other tested architectures. Additionally, it was found that the ordering of the input time series have a notable impact on effectiveness.
翻訳日:2024-02-14 18:42:32 公開日:2024-02-13
# Transformer Oversmoothing における記録線の設定

Setting the Record Straight on Transformer Oversmoothing ( http://arxiv.org/abs/2401.04301v2 )

ライセンス: Link先を確認
Gb\`etondji J-S Dovonon, Michael M. Bronstein, Matt J. Kusner(参考訳) トランスフォーマーベースのモデルは最近、さまざまなドメインでかなり成功しています。 同時に、最近の研究はトランスフォーマーは本質的に低域通過フィルタであり、徐々に入力を過度に過大評価すると主張している。 これは一般化を制限し、特にモデル深度が増加すると心配である。 この欠点を考えると、トランスフォーマーはこれらの成功をどうやって達成できるのか? 本研究では、トランスフォーマーは本質的に低域通過フィルタではないことを示す。 代わりに、トランスフォーマーがオーバームースかどうかは、更新方程式の固有スペクトルに依存する。 さらに, モデル深度の増加に伴い, 平滑化が一般化を損なうことはない。 我々の分析は、過密化や階級崩壊の密接な関係の現象における先行研究を延長する。 この解析に基づいて,フィルタ動作の制御を可能にする変圧器更新方程式の重みをパラメータ化するための簡易な手法を導出する。 画像分類タスクでは、シャープ化の代わりにスムース化が一般化を改善することが示される。 テキスト生成タスクでは、スムーズかシャープに強制されるトランスフォーマーは、より悪い一般化をもたらす。 この研究によって、ML研究者や実践者が将来のTransformerモデルを開発する際に、さらなる洞察と活用を得られることを期待しています。

Transformer-based models have recently become wildly successful across a diverse set of domains. At the same time, recent work has argued that Transformers are inherently low-pass filters that gradually oversmooth the inputs. This is worrisome as it limits generalization, especially as model depth increases. A natural question is: How can Transformers achieve these successes given this shortcoming? In this work we show that in fact Transformers are not inherently low-pass filters. Instead, whether Transformers oversmooth or not depends on the eigenspectrum of their update equations. Further, depending on the task, smoothing does not harm generalization as model depth increases. Our analysis extends prior work in oversmoothing and in the closely-related phenomenon of rank collapse. Based on this analysis, we derive a simple way to parameterize the weights of the Transformer update equations that allows for control over its filtering behavior. For image classification tasks we show that smoothing, instead of sharpening, can improve generalization. Whereas for text generation tasks Transformers that are forced to either smooth or sharpen have worse generalization. We hope that this work gives ML researchers and practitioners additional insight and leverage when developing future Transformer models.
翻訳日:2024-02-14 18:41:49 公開日:2024-02-13
# 多言語性のピンチによる多言語指導チューニング

Multilingual Instruction Tuning With Just a Pinch of Multilinguality ( http://arxiv.org/abs/2401.01854v3 )

ライセンス: Link先を確認
Uri Shaham, Jonathan Herzig, Roee Aharoni, Idan Szpektor, Reut Tsarfaty, Matan Eyal(参考訳) 命令調整型大規模言語モデル(LLM)がグローバルに普及するにつれ、複数の言語で命令に従う能力はますます重要になっている。 本研究では,多言語LLMの命令チューニングにおける多言語性が,事前学習コーパスからの言語間の命令追従に与える影響について検討する。 まず、多くの言語が単言語チューニングから他の言語に命令追従機能を転送していることを示す。 さらに、英語のチューニングセットに統合された40の多言語例のみが、チューニング中の目視言語と目視言語の両方において、多言語命令追従を大幅に改善することがわかった。 一般に,多言語混合でチューニングされたモデルが,単言語に調整されたモデルと比較して,複数の言語で比較して同等あるいは優れた性能を示すことを観察する。 最後に、たった2-4言語でも命令チューニングセットの多様化が言語間一般化を著しく改善することを発見した。 以上の結果から,多言語命令調整モデルの構築は,多言語命令応答のごくわずかなセットで行うことができることが示唆された。

As instruction-tuned large language models (LLMs) gain global adoption, their ability to follow instructions in multiple languages becomes increasingly crucial. In this work, we investigate how multilinguality during instruction tuning of a multilingual LLM affects instruction-following across languages from the pre-training corpus. We first show that many languages transfer some instruction-following capabilities to other languages from even monolingual tuning. Furthermore, we find that only 40 multilingual examples integrated in an English tuning set substantially improve multilingual instruction-following, both in seen and unseen languages during tuning. In general, we observe that models tuned on multilingual mixtures exhibit comparable or superior performance in multiple languages compared to monolingually tuned models, despite training on 10x fewer examples in those languages. Finally, we find that diversifying the instruction tuning set with even just 2-4 languages significantly improves cross-lingual generalization. Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instruction-responses.
翻訳日:2024-02-14 18:41:34 公開日:2024-02-13
# llbezpeky: 脆弱性検出に大規模な言語モデルを活用する

LLbezpeky: Leveraging Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.01269v2 )

ライセンス: Link先を確認
Noble Saji Mathews, Yelizaveta Brus, Yousra Aafer, Meiyappan Nagappan, Shane McIntosh(参考訳) セキュアなシステムの構築に関する研究と進展は続いているが、androidアプリケーションは依然として脆弱性を抱えており、効果的な検出方法を必要としている。 静的および動的分析ツールを含む現在の戦略には、圧倒的な数の偽陽性や、採用が難しい分析範囲の限定といった制限がある。 過去数年間、脆弱性検出のための機械学習ベースのアプローチが広く研究されてきたが、実際の適用性はデータ要件と機能エンジニアリングの課題によって制限されている。 LLM(Large Language Models)は、その膨大なパラメータを持ち、人間やプログラミング言語のセマンティックスを理解する大きな可能性を示している。 Androidセキュリティのコンテキストにおける脆弱性検出のためのLLMの有効性について検討する。 私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。 実験の結果,LLMはGheraベンチマークの91.67%のケースで,安全でないアプリを正しくフラグ付けするアプリケーション内での問題を見つける上で,私たちの期待を上回る結果となった。 実験から得た推論を用いて,堅牢で実行可能な脆弱性検出システムの構築を行い,その効果を実証する。 私たちの実験では、さまざまな単純な構成がTrue Positive(TP)とFalse Positive(FP)のレートにどのように影響するかも明らかにしました。

Despite the continued research and progress in building secure systems, Android applications continue to be ridden with vulnerabilities, necessitating effective detection methods. Current strategies involving static and dynamic analysis tools come with limitations like overwhelming number of false positives and limited scope of analysis which make either difficult to adopt. Over the past years, machine learning based approaches have been extensively explored for vulnerability detection, but its real-world applicability is constrained by data requirements and feature engineering challenges. Large Language Models (LLMs), with their vast parameters, have shown tremendous potential in understanding semnatics in human as well as programming languages. We dive into the efficacy of LLMs for detecting vulnerabilities in the context of Android security. We focus on building an AI-driven workflow to assist developers in identifying and rectifying vulnerabilities. Our experiments show that LLMs outperform our expectations in finding issues within applications correctly flagging insecure apps in 91.67% of cases in the Ghera benchmark. We use inferences from our experiments towards building a robust and actionable vulnerability detection system and demonstrate its effectiveness. Our experiments also shed light on how different various simple configurations can affect the True Positive (TP) and False Positive (FP) rates.
翻訳日:2024-02-14 18:40:44 公開日:2024-02-13
# 適応的勾配法で正方形ルートを除去できるか? 2次展望

Can We Remove the Square-Root in Adaptive Gradient Methods? A Second-Order Perspective ( http://arxiv.org/abs/2402.03496v2 )

ライセンス: Link先を確認
Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E. Turner, Alireza Makhzani(参考訳) adam(w)のような適応勾配最適化は、トランスフォーマーのような多くのディープラーニングアーキテクチャのデフォルトのトレーニングアルゴリズムである。 彼らの対角プレコンディショナーは、平方根を介してパラメータ更新に組み込まれた勾配外積に基づいている。 これらの方法はしばしば近似二階法として動機づけられるが、平方根は基本的な差を表す。 本研究では,根を取り除くと適応的手法の挙動がどう変化するか,すなわち2次動機づけの強化について検討する。 驚くべきことに、このような二乗根なし適応法は畳み込みアーキテクチャの一般化ギャップをsgdに縮めつつ、トランスフォーマー上でのルートベースの対応式の性能を維持している。 二階視点は、非対角プレコンディショナーを用いた適応法の開発にも実用的な利点がある。 shampooのようなルートベースとは対照的に、数値的に不安定な行列平方根は必要とせず、低精度でうまく機能する。 これは、現在見過ごされている適応性の役割が適応的手法の成功に与えられているかという重要な疑問を提起する。

Adaptive gradient optimizers like Adam(W) are the default training algorithms for many deep learning architectures, such as transformers. Their diagonal preconditioner is based on the gradient outer product which is incorporated into the parameter update via a square root. While these methods are often motivated as approximate second-order methods, the square root represents a fundamental difference. In this work, we investigate how the behavior of adaptive methods changes when we remove the root, i.e. strengthen their second-order motivation. Surprisingly, we find that such square-root-free adaptive methods close the generalization gap to SGD on convolutional architectures, while maintaining their root-based counterpart's performance on transformers. The second-order perspective also has practical benefits for the development of adaptive methods with non-diagonal preconditioner. In contrast to root-based counterparts like Shampoo, they do not require numerically unstable matrix square roots and therefore work well in low precision, which we demonstrate empirically. This raises important questions regarding the currently overlooked role of adaptivity for the success of adaptive methods since the success is often attributed to sign descent induced by the root.
翻訳日:2024-02-14 18:32:31 公開日:2024-02-13
# 量子コンピュータの利点とリスクを評価する

Assessing the Benefits and Risks of Quantum Computers ( http://arxiv.org/abs/2401.16317v2 )

ライセンス: Link先を確認
Travis L. Scholten, Carl J. Williams, Dustin Moody, Michele Mosca, William Hurley ("whurley"), William J. Zeng, Matthias Troyer and Jay M. Gambetta(参考訳) 量子コンピューティングは、国家の繁栄とセキュリティに大きく影響する可能性のある新興技術である。 経済的な利益と国家安全保障のリスクが表れる時間枠を理解することは、この技術の慎重な開発を確実にするために不可欠である。 この問題について、セキュリティの専門家や政策決定者に対して、現在量子コンピュータの潜在的な使用とリスクについて知られていることをレビューし、現在の研究文献を活用する。 現在利用可能な量子コンピュータの成熟度は、大規模で産業的に関係のある問題に対してプロダクションで使用できるレベルに達していないため、セキュリティリスクを負うものではないと考えられている。 我々は、新しい近似手法(変分アルゴリズム、エラー軽減、回路編み)とビジネス関連量子アプリケーションの商業的探索という2つの大規模トレンドを特定し、近い将来に有用で実用的な量子コンピューティングを可能にする。 重要なことに、これらの手法は、現在使用されている暗号システム上での暗号解析に必要なリソースを変更することはない。 暗号解析の現在および既知のアルゴリズムを解析した結果、現在および近未来の量子コンピュータで動作可能なもの(そして誤り訂正を必要とするもの)を超える大きさの回路が必要であることがわかったが、これらの問題に対する量子アルゴリズムの改善が文献で行われていることを認めている。 さらに、サイバーセキュリティのリスクは、我々が調査し議論する新しい量子セーフ暗号プロトコルへの移行によって、十分に管理できる。 以上を踏まえると、量子コンピュータは、暗号的に関連のある計算を行うことができる前に、経済的に影響のある計算を行うことができるという信頼性の高い期待がある。

Quantum computing is an emerging technology with potentially far-reaching implications for national prosperity and security. Understanding the timeframes over which economic benefits and national security risks may manifest themselves is vital for ensuring the prudent development of this technology. To inform security experts and policy decision makers on this matter, we review what is currently known on the potential uses and risks of quantum computers, leveraging current research literature. The maturity of currently-available quantum computers is not yet at a level such that they can be used in production for large-scale, industrially-relevant problems, and they are not believed to currently pose security risks. We identify 2 large-scale trends -- new approximate methods (variational algorithms, error mitigation, and circuit knitting) and the commercial exploration of business-relevant quantum applications -- which, together, may enable useful and practical quantum computing in the near future. Crucially, these methods do not appear likely to change the required resources for cryptanalysis on currently-used cryptosystems. From an analysis we perform of the current and known algorithms for cryptanalysis, we find they require circuits of a size exceeding those that can be run by current and near-future quantum computers (and which will require error correction), though we acknowledge improvements in quantum algorithms for these problems are taking place in the literature. In addition, the risk to cybersecurity can be well-managed by the migration to new, quantum-safe cryptographic protocols, which we survey and discuss. Given the above, we conclude there is a credible expectation that quantum computers will be capable of performing computations which are economically-impactful before they will be capable of performing ones which are cryptographically-relevant.
翻訳日:2024-02-14 18:31:58 公開日:2024-02-13
# マルコフ連鎖における中心極限定理の収束率とTD学習への応用

Rates of Convergence in the Central Limit Theorem for Markov Chains, with an Application to TD Learning ( http://arxiv.org/abs/2401.15719v2 )

ライセンス: Link先を確認
R. Srikant(参考訳) スタイン法を用いてベクトル値マルティンゲール差分に対する非漸近中心極限定理を証明し、ポアソン方程式を用いてマルコフ連鎖の関数に結果を拡張する。 その結果、平均化を伴う時間差学習(td)のための非漸近中心極限定理の確立にこれらの結果が適用可能であることを示した。

We prove a non-asymptotic central limit theorem for vector-valued martingale differences using Stein's method, and use Poisson's equation to extend the result to functions of Markov Chains. We then show that these results can be applied to establish a non-asymptotic central limit theorem for Temporal Difference (TD) learning with averaging.
翻訳日:2024-02-14 18:31:23 公開日:2024-02-13
# oracleの骨スクリプト認識と解読のためのオープンデータセット

An open dataset for oracle bone script recognition and decipherment ( http://arxiv.org/abs/2401.15365v2 )

ライセンス: Link先を確認
Pengjie Wang, Kaile Zhang, Xinyu Wang, Shengwei Han, Yongge Liu, Jinpeng Wan, Haisu Guan, Zhebin Kuang, Lianwen Jin, Xiang Bai, Yuliang Liu(参考訳) Oracle Bone Script (OBS) は、古代中国最古の書物として知られており、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な知見を持っている。 これらの著作の歴史的・文化的意義は過大評価されない。 しかし、時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題となっている。 人工知能(AI)の出現により、OBSの解釈を支援するAIが実現可能な選択肢となった。 しかし、この分野の進歩は高品質なデータセットの欠如によって妨げられている。 本稿では,HUST-OBSデータセットの作成について詳述する。 このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。 さらに、すべての画像とラベルは、oracle bone studiesの専門家によってレビューされ、修正されています。 このデータセットは、未知のOBSを解読する将来の研究を刺激し、支援することを期待している。

Oracle Bone Script (OBS), one of the earliest known forms of ancient Chinese writing, holds invaluable insights into the humanities and geography of the Shang Dynasty, dating back 3,000 years. The immense historical and cultural significance of these writings cannot be overstated. However, the passage of time has obscured much of their meaning, presenting a significant challenge in deciphering these ancient texts. With the advent of Artificial Intelligence (AI), employing AI to assist in interpreting OBS has become a feasible option. Yet, progress in this area has been hindered by a lack of high-quality datasets. To address this issue, this paper details the creation of the HUST-OBS dataset. This dataset encompasses 77,064 images of 1,588 individual deciphered scripts and 62,989 images of 9,411 undeciphered characters, with a total of 140,053 images, compiled from diverse sources. Additionally, all images and labels have been reviewed and corrected by experts in oracle bone studies. The hope is that this dataset could inspire and assist future research in deciphering those unknown OBS.
翻訳日:2024-02-14 18:31:15 公開日:2024-02-13
# AIリスク管理の進化: NIST AIリスク管理フレームワークに基づく成熟度モデル

Evolving AI Risk Management: A Maturity Model based on the NIST AI Risk Management Framework ( http://arxiv.org/abs/2401.15229v2 )

ライセンス: Link先を確認
Ravit Dotan, Borhane Blili-Hamelin, Ravi Madhavan, Jeanna Matthews, Joshua Scarpino(参考訳) 研究者、政府機関、組織は、AIの潜在的な社会技術的損害を軽減するために、責任あるAIコミュニティを一般的な原則から具体的で運用可能なプラクティスに変えることを繰り返し呼びかけている。 nist ai rmfのようなフレームワークは、社会技術的被害軽減の運用における推奨プラクティスに関する新たなコンセンサスを具体化している。 しかし、現在民間の組織は、この新興のコンセンサスをはるかに遅れている。 実装は散発的で選択的です。 最悪の場合、それは非効率であり、信頼に値するプロセスの誤解を招き、正当性の外観を与え、実質的な有害な行為に役立てるリスクを負う。 本稿では,NIST AI RMFに基づくフレキシブル成熟度モデルである社会工学的調和緩和のベストプラクティスに関する新たなコンセンサスに対して,組織がどのような立場にあるかを評価するための基盤を提供する。

Researchers, government bodies, and organizations have been repeatedly calling for a shift in the responsible AI community from general principles to tangible and operationalizable practices in mitigating the potential sociotechnical harms of AI. Frameworks like the NIST AI RMF embody an emerging consensus on recommended practices in operationalizing sociotechnical harm mitigation. However, private sector organizations currently lag far behind this emerging consensus. Implementation is sporadic and selective at best. At worst, it is ineffective and can risk serving as a misleading veneer of trustworthy processes, providing an appearance of legitimacy to substantively harmful practices. In this paper, we provide a foundation for a framework for evaluating where organizations sit relative to the emerging consensus on sociotechnical harm mitigation best practices: a flexible maturity model based on the NIST AI RMF.
翻訳日:2024-02-14 18:30:55 公開日:2024-02-13
# 非交叉クラスによる認識問題の代数的解法

Algebraic methods for solving recognition problems with non-crossing classes ( http://arxiv.org/abs/2401.13666v2 )

ライセンス: Link先を確認
Anvar Kabulov, Alimdzhan Babadzhanov, Islambek Saymanov(参考訳) 本稿では,パターン認識の様々なモデルについて考察する。 同時に、認識演算子と決定ルールという2つの演算子の形式でモデルを検討することが提案されている。 演算子を認識するために代数演算を導入し、これらの演算子の応用に基づいて認識アルゴリズムのファミリを作成する。 モデルに対して、拡張の完全性を保証する上述の見積もりが構築される。

In this paper, we propose to consider various models of pattern recognition. At the same time, it is proposed to consider models in the form of two operators: a recognizing operator and a decision rule. Algebraic operations are introduced on recognizing operators, and based on the application of these operators, a family of recognizing algorithms is created. An upper estimate is constructed for the model, which guarantees the completeness of the extension.
翻訳日:2024-02-14 18:29:53 公開日:2024-02-13
# EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction

EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction ( http://arxiv.org/abs/2401.12561v2 )

ライセンス: Link先を確認
Yifan Liu, Chenxin Li, Chen Yang, Yixuan Yuan(参考訳) 内視鏡的ビデオから変形可能な組織を再構築することは,多くの下流手術において不可欠である。 しかし、既存の手法はレンダリング速度が遅く、実用性が大幅に制限されている。 本稿では,3次元ガウススティング(3DGS)上に構築されたリアルタイムの内視鏡的シーン再構築フレームワークであるEndoGaussianを紹介する。 効率的なガウス表現と高度に最適化されたレンダリングエンジンを統合することで、我々のフレームワークはレンダリング速度をリアルタイムレベルまで大幅に向上させる。 内視鏡的シーンに3DGSを適用するために,非自明なガウス初期化と組織変形問題を扱うために,ホロスティックガウス初期化(HGI)と時空間ガウス追跡(SGT)の2つの戦略を提案する。 HGIでは,直近の深度推定モデルを用いて,入力された両眼/眼球画像列の深度マップを,どのピクセルが再投影され,組み合わせられて全体初期化されるかに基づいて予測する。 SPTでは、効率的な符号化ボクセルと軽量な変形デコーダから構成される変形場を用いて表面力学をモデル化し、ガウス的追跡を微調整とレンダリングの負担で行うことを提案する。 公開データセットの実験では、レンダリング速度の向上(195 FPSリアルタイム、100$\times$ gain)、レンダリング品質の向上(37.848 PSNR)、トレーニングオーバーヘッドの低減(2分/秒)など、多くの面で従来のSOTAに対する有効性を示している。 コードは \url{https://yifliu3.github.io/endogaussian/} で入手できる。

Reconstructing deformable tissues from endoscopic videos is essential in many downstream surgical applications. However, existing methods suffer from slow rendering speed, greatly limiting their practical use. In this paper, we introduce EndoGaussian, a real-time endoscopic scene reconstruction framework built on 3D Gaussian Splatting (3DGS). By integrating the efficient Gaussian representation and highly-optimized rendering engine, our framework significantly boosts the rendering speed to a real-time level. To adapt 3DGS for endoscopic scenes, we propose two strategies, Holistic Gaussian Initialization (HGI) and Spatio-temporal Gaussian Tracking (SGT), to handle the non-trivial Gaussian initialization and tissue deformation problems, respectively. In HGI, we leverage recent depth estimation models to predict depth maps of input binocular/monocular image sequences, based on which pixels are re-projected and combined for holistic initialization. In SPT, we propose to model surface dynamics using a deformation field, which is composed of an efficient encoding voxel and a lightweight deformation decoder, allowing for Gaussian tracking with minor training and rendering burden. Experiments on public datasets demonstrate our efficacy against prior SOTAs in many aspects, including better rendering speed (195 FPS real-time, 100$\times$ gain), better rendering quality (37.848 PSNR), and less training overhead (within 2 min/scene), showing significant promise for intraoperative surgery applications. Code is available at: \url{https://yifliu3.github.io/EndoGaussian/}.
翻訳日:2024-02-14 18:29:47 公開日:2024-02-13
# oracle bone characterの進化のためのオープンデータセット:evobc

An open dataset for the evolution of oracle bone characters: EVOBC ( http://arxiv.org/abs/2401.12467v2 )

ライセンス: Link先を確認
Haisu Guan, Jinpeng Wan, Yuliang Liu, Pengjie Wang, Kaile Zhang, Zhebin Kuang, Xinyu Wang, Xiang Bai, Lianwen Jin(参考訳) 現存する最古の漢字は、他の東アジアの言語と密接に関連する神託の骨碑文に由来する。 これらの碑文は人類学や考古学に多大な価値がある。 しかし、oracle bone scriptの解読は依然として大きな課題であり、現存する4,500以上の文字のうち、約1,600文字しか解明されていない。 この古筆体系を包括的に理解するには、さらなる学術調査が必要である。 人工知能技術は、特にその進化に関して、オラクルの骨の文字を解読するための有望な道である。 しかしながら、課題のひとつは、これらの文字の進化を時間とともにマッピングするデータセットがないことだ。 本研究では,Oracle Bone Characters - OBC (紀元前15世紀), Bronze Inscriptions - BI (紀元前13世紀~紀元前221年), Seal Script - SS (11世紀~紀元前8世紀), Spring and Autumn period Characters - SAC (紀元前770年~紀元前476年), Warring States period Characters - WSC (紀元前475年~紀元前221年), Clerical Script - CS (紀元前221年~紀元前220年)の6つの歴史的段階にまたがる古代文字を体系的に収集した。 その後、13,714の異なる文字カテゴリを表す229,170の画像からなるEVOBC(EVolution Oracle Bone Characters)という広範なデータセットを構築した。 構築したデータセット上で検証とシミュレートを行い,oracle bone scriptの研究を支援するための高い有効性を示した。 このオープンアクセス可能なデータセットは、複数の時代にわたる古代中国のスクリプトのデジタル化を目的としており、glyphフォームの進化を調べることで、oracle bone scriptの解読を容易にする。

The earliest extant Chinese characters originate from oracle bone inscriptions, which are closely related to other East Asian languages. These inscriptions hold immense value for anthropology and archaeology. However, deciphering oracle bone script remains a formidable challenge, with only approximately 1,600 of the over 4,500 extant characters elucidated to date. Further scholarly investigation is required to comprehensively understand this ancient writing system. Artificial Intelligence technology is a promising avenue for deciphering oracle bone characters, particularly concerning their evolution. However, one of the challenges is the lack of datasets mapping the evolution of these characters over time. In this study, we systematically collected ancient characters from authoritative texts and websites spanning six historical stages: Oracle Bone Characters - OBC (15th century B.C.), Bronze Inscriptions - BI (13th to 221 B.C.), Seal Script - SS (11th to 8th centuries B.C.), Spring and Autumn period Characters - SAC (770 to 476 B.C.), Warring States period Characters - WSC (475 B.C. to 221 B.C.), and Clerical Script - CS (221 B.C. to 220 A.D.). Subsequently, we constructed an extensive dataset, namely EVolution Oracle Bone Characters (EVOBC), consisting of 229,170 images representing 13,714 distinct character categories. We conducted validation and simulated deciphering on the constructed dataset, and the results demonstrate its high efficacy in aiding the study of oracle bone script. This openly accessible dataset aims to digitalize ancient Chinese scripts across multiple eras, facilitating the decipherment of oracle bone script by examining the evolution of glyph forms.
翻訳日:2024-02-14 18:29:17 公開日:2024-02-13
# 強化学習エージェントにおける創発的支配階層

Emergent Dominance Hierarchies in Reinforcement Learning Agents ( http://arxiv.org/abs/2401.12258v3 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky(参考訳) 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。 マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。 社会的慣習や規範は、しばしば人間の制度に触発され、このバランスを取るための道具として用いられる。 本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行について考察する。 我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。 明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを示す。 支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
翻訳日:2024-02-14 18:28:40 公開日:2024-02-13
# マルチモーダル大言語モデルを用いた非言語抽象推論の奇妙なケース

The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models ( http://arxiv.org/abs/2401.12117v2 )

ライセンス: Link先を確認
Kian Ahrabian, Zhivar Sourati, Kexuan Sun, Jiarui Zhang, Yifan Jiang, Fred Morstatter, Jay Pujara(参考訳) 大規模言語モデル(LLM)はいまだ新しいドメインに採用され、新しいアプリケーションで利用されているが、我々は新しい世代の基盤モデル、すなわちマルチモーダルな大規模言語モデル(MLLM)が流入している。 これらのモデルは言語情報と視覚情報を統合し、2つのモードの交差点でより複雑な推論能力を示す新しい可能性を開く。 しかし、MLLMの革新的展望にもかかわらず、推論能力に対する私たちの理解は限られている。 本研究では,Ravenのプログレッシブ行列のバリエーションを用いて,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。 実験では,オープンソースモデルとクローズドソースモデルの間に大きなギャップがあることを示しながら,そのような問題を解決することの難しさを明らかにした。 また,個々の視覚モジュールとテキストモジュールの致命的な欠点を明らかにし,モデルを低性能天井に適用した。 最後に、MLLMの性能を向上させるために、Chain-of-Thoughtプロンプトなどの様々な手法を実験し、その結果、性能が最大100%向上した。

While large language models (LLMs) are still being adopted to new domains and utilized in novel applications, we are experiencing an influx of the new generation of foundation models, namely multi-modal large language models (MLLMs). These models integrate verbal and visual information, opening new possibilities to demonstrate more complex reasoning abilities at the intersection of the two modalities. However, despite the revolutionizing prospect of MLLMs, our understanding of their reasoning abilities is limited. In this study, we assess the nonverbal abstract reasoning abilities of open-source and closed-source MLLMs using variations of Raven's Progressive Matrices. Our experiments expose the difficulty of solving such problems while showcasing the immense gap between open-source and closed-source models. We also reveal critical shortcomings with individual visual and textual modules, subjecting the models to low-performance ceilings. Finally, to improve MLLMs' performance, we experiment with various methods, such as Chain-of-Thought prompting, resulting in a significant (up to 100%) boost in performance.
翻訳日:2024-02-14 18:28:23 公開日:2024-02-13
# モノのインターネットにおける識別問題を解決する論理認識法

Logical recognition method for solving the problem of identification in the Internet of Things ( http://arxiv.org/abs/2402.04338v2 )

ライセンス: Link先を確認
Islambek Saymanov(参考訳) 近年登場した論理代数法と価値論理の応用の新しい分野は、様々な対象や現象、医学的または技術的診断、近代的な機械の構築、テストの問題のチェックなどを認識することで、論理関数を機能空間全体に最適な拡張を構築することができる。 例えば、論理認識システムでは、離散解析に基づく論理手法とそれに基づく命題計算は、独自の認識アルゴリズムを構築するために用いられる。 一般の場合、論理認識法の使用は、認識される対象や現象の論理的特徴である変数が特徴空間全体にわたってk値関数の最適継続によって表現される論理的接続の存在を提供する。 本研究の目的は、ある特徴空間からベクトルとして指定される非交差オブジェクトの論理的特徴とクラスを持つ参照テーブルからなるオブジェクト認識のための論理的手法を開発することである。 この方法は、参照テーブルを至るところで定義されていない論理関数として考慮し、論理関数を機能空間全体への最適な継続を構築することで、クラス全体の空間への拡張を決定する。

A new area of application of methods of algebra of logic and to valued logic, which has emerged recently, is the problem of recognizing a variety of objects and phenomena, medical or technical diagnostics, constructing modern machines, checking test problems, etc., which can be reduced to constructing an optimal extension of the logical function to the entire feature space. For example, in logical recognition systems, logical methods based on discrete analysis and propositional calculus based on it are used to build their own recognition algorithms. In the general case, the use of a logical recognition method provides for the presence of logical connections expressed by the optimal continuation of a k-valued function over the entire feature space, in which the variables are the logical features of the objects or phenomena being recognized. The goal of this work is to develop a logical method for object recognition consisting of a reference table with logical features and classes of non-intersecting objects, which are specified as vectors from a given feature space. The method consists of considering the reference table as a logical function that is not defined everywhere and constructing an optimal continuation of the logical function to the entire feature space, which determines the extension of classes to the entire space.
翻訳日:2024-02-14 18:20:34 公開日:2024-02-13
# QuEST: 効率的な選択ファインタニングによる低ビット拡散モデル量子化

QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning ( http://arxiv.org/abs/2402.03666v2 )

ライセンス: Link先を確認
Haoxuan Wang, Yuzhang Shang, Zhihang Yuan, Junyi Wu, Yan Yan(参考訳) 拡散モデルは画像生成タスクで著しく成功したが、実際のデプロイメントは高いメモリ消費と時間消費によって抑制されている。 量子化は拡散モデル圧縮と加速の方法であるが、既存の手法はモデルが低ビットに量子化されると完全に失敗する。 本稿では,不均衡な活性化分布,不正確な時間情報,特定のモジュールの摂動に対する脆弱性という,現在の手法の有効性を損なう量子化拡散モデルの3つの特性を明らかにする。 分散不均衡に起因する高密度低ビット量子化の難しさを軽減するため,活性化分布に適応する量子化モデルを微調整する。 この考え方に基づき、重要な時間情報を保持する層とビット幅の低減に敏感な層という2つの重要な種類の量子化層を識別し、性能劣化を効率良く緩和するために微調整する。 提案手法がアクティベーション分布を変化させ、意味のある時間情報を提供し、より簡単で正確な量子化を容易にすることを実証的に検証する。 本手法は,3つの高分解能画像生成タスクで評価され,様々なビット幅設定で最先端の性能を実現するとともに,フル4ビット(すなわちw4a4)の安定拡散で可読性画像を生成する最初の方法である。 コードは公開されている。

Diffusion models have achieved remarkable success in image generation tasks, yet their practical deployment is restrained by the high memory and time consumption. While quantization paves a way for diffusion model compression and acceleration, existing methods totally fail when the models are quantized to low-bits. In this paper, we unravel three properties in quantized diffusion models that compromise the efficacy of current methods: imbalanced activation distributions, imprecise temporal information, and vulnerability to perturbations of specific modules. To alleviate the intensified low-bit quantization difficulty stemming from the distribution imbalance, we propose finetuning the quantized model to better adapt to the activation distribution. Building on this idea, we identify two critical types of quantized layers: those holding vital temporal information and those sensitive to reduced bit-width, and finetune them to mitigate performance degradation with efficiency. We empirically verify that our approach modifies the activation distribution and provides meaningful temporal information, facilitating easier and more accurate quantization. Our method is evaluated over three high-resolution image generation tasks and achieves state-of-the-art performance under various bit-width settings, as well as being the first method to generate readable images on full 4-bit (i.e. W4A4) Stable Diffusion. Code is been made publicly available.
翻訳日:2024-02-14 18:20:14 公開日:2024-02-13
# 強化学習のための視覚言語モデルの提案

Vision-Language Models Provide Promptable Representations for Reinforcement Learning ( http://arxiv.org/abs/2402.02651v2 )

ライセンス: Link先を確認
William Chen and Oier Mees and Aviral Kumar and Sergey Levine(参考訳) 人間は背景の世界知識を生かして新しい行動を学ぶことができる。 対照的に、強化学習(RL)で訓練されたエージェントは通常、スクラッチから行動を学ぶ。 そこで本研究では,インターネット規模で事前学習した視覚言語モデル (VLM) に符号化された多量の一般・索引可能な世界知識を具体化するための新しい手法を提案する。 視覚的な観察に基礎を置き、vlmの内部知識に基づいて意味的特徴をエンコードする埋め込みであり、タスクコンテキストと補助情報を提供するプロンプトによって引き起こされる。 本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。 汎用的なVLMから抽出した埋め込みを訓練したポリシーは、汎用的な非プロンプト可能な画像埋め込みを訓練した同等のポリシーより優れていた。 また,本手法は命令追従法より優れ,ドメイン固有の埋め込みと互換性がある。

Humans can quickly learn new behaviors by leveraging background world knowledge. In contrast, agents trained with reinforcement learning (RL) typically learn behaviors from scratch. We thus propose a novel approach that uses the vast amounts of general and indexable world knowledge encoded in vision-language models (VLMs) pre-trained on Internet-scale data for embodied RL. We initialize policies with VLMs by using them as promptable representations: embeddings that are grounded in visual observations and encode semantic features based on the VLM's internal knowledge, as elicited through prompts that provide task context and auxiliary information. We evaluate our approach on visually-complex, long horizon RL tasks in Minecraft and robot navigation in Habitat. We find that our policies trained on embeddings extracted from general-purpose VLMs outperform equivalent policies trained on generic, non-promptable image embeddings. We also find our approach outperforms instruction-following methods and performs comparably to domain-specific embeddings.
翻訳日:2024-02-14 18:19:30 公開日:2024-02-13
# あなたの拡散モデルは 秘密裏に頑健な分類器です

Your Diffusion Model is Secretly a Certifiably Robust Classifier ( http://arxiv.org/abs/2402.02316v2 )

ライセンス: Link先を確認
Huanran Chen, Yinpeng Dong, Shitong Shao, Zhongkai Hao, Xiao Yang, Hang Su, Jun Zhu(参考訳) 拡散モデルは最近、ロバスト分類のための生成的分類器として採用されている。 しかし、拡散分類器の堅牢性に関する包括的な理論的理解はいまだに欠けており、将来のより強力な攻撃に弱いかどうか疑問視する。 本研究では,最先端認定ロバスト性を有する新しい拡散分類器であるノイズ拡散分類器~(ndcs)を提案する。 具体的には、拡散分類器を一般化し、これらの分布に対する証拠の下限(ELBO)を導出し、ELBOを用いて確率を近似し、ベイズの定理による分類確率を計算する。 これらの一般化拡散分類器をランダム化平滑化と統合し,非定数リプシッツ性を有する平滑化分類器を構成する。 実験の結果,提案したNDCの信頼性は良好であった。 特に,CIFAR-10では,それぞれ0.25および0.5未満の標準値を持つ逆摂動下で,80\%+と70\%+の確証されたロバスト性を,追加データを持たない単一オフザシェルフ拡散モデルを用いて達成した。

Diffusion models are recently employed as generative classifiers for robust classification. However, a comprehensive theoretical understanding of the robustness of diffusion classifiers is still lacking, leading us to question whether they will be vulnerable to future stronger attacks. In this study, we propose a new family of diffusion classifiers, named Noised Diffusion Classifiers~(NDCs), that possess state-of-the-art certified robustness. Specifically, we generalize the diffusion classifiers to classify Gaussian-corrupted data by deriving the evidence lower bounds (ELBOs) for these distributions, approximating the likelihood using the ELBO, and calculating classification probabilities via Bayes' theorem. We integrate these generalized diffusion classifiers with randomized smoothing to construct smoothed classifiers possessing non-constant Lipschitzness. Experimental results demonstrate the superior certified robustness of our proposed NDCs. Notably, we are the first to achieve 80\%+ and 70\%+ certified robustness on CIFAR-10 under adversarial perturbations with $\ell_2$ norm less than 0.25 and 0.5, respectively, using a single off-the-shelf diffusion model without any additional data.
翻訳日:2024-02-14 18:19:18 公開日:2024-02-13
# 並列大規模ランキング選択のためのサンプル効率の高いクラスタリングと探索手順

Sample-Efficient Clustering and Conquer Procedures for Parallel Large-Scale Ranking and Selection ( http://arxiv.org/abs/2402.02196v2 )

ライセンス: Link先を確認
Zishi Zhang, Yijie Peng(参考訳) 本稿では,クラスタ化のための相関情報を利用してサンプル効率のボトルネックを解消する並列大規模ランキング選択(r&s)問題に対する新しい「クラスタ化と克服」手法を提案する。 並列コンピューティング環境では、相関ベースのクラスタリングは、理論的に達成可能な最適な還元率である$\mathcal{o}(p)$サンプル複雑性低減率を達成することができる。 提案するフレームワークは汎用性が高く,固定予算と固定精度の両方のパラダイムの下で,様々なR&S手法をシームレスに統合することができる。 高精度な相関推定と正確なクラスタリングを必要とせずに改善を実現することができる。 ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。 これは、相関のような貴重な構造情報を活用することは、従来の対比較によるスクリーニングの必要性を回避するための有効な経路であることを示唆している。 さらに,大規模問題に適した並列数ショットクラスタリングアルゴリズムを提案する。

We propose novel "clustering and conquer" procedures for the parallel large-scale ranking and selection (R&S) problem, which leverage correlation information for clustering to break the bottleneck of sample efficiency. In parallel computing environments, correlation-based clustering can achieve an $\mathcal{O}(p)$ sample complexity reduction rate, which is the optimal reduction rate theoretically attainable. Our proposed framework is versatile, allowing for seamless integration of various prevalent R&S methods under both fixed-budget and fixed-precision paradigms. It can achieve improvements without the necessity of highly accurate correlation estimation and precise clustering. In large-scale AI applications such as neural architecture search, a screening-free version of our procedure surprisingly surpasses fully-sequential benchmarks in terms of sample efficiency. This suggests that leveraging valuable structural information, such as correlation, is a viable path to bypassing the traditional need for screening via pairwise comparison--a step previously deemed essential for high sample efficiency but problematic for parallelization. Additionally, we propose a parallel few-shot clustering algorithm tailored for large-scale problems.
翻訳日:2024-02-14 18:18:52 公開日:2024-02-13
# presaise - 企業のための規範型aiソリューション

PresAIse, A Prescriptive AI Solution for Enterprises ( http://arxiv.org/abs/2402.02006v2 )

ライセンス: Link先を確認
Wei Sun, Scott McFaddin, Linh Ha Tran, Shivaram Subramanian, Kristjan Greenewald, Yeshi Tenzin, Zack Xue, Youssef Drissi, Markus Ettl(参考訳) 規範的AIは意思決定の変革であり、因果的な洞察と行動可能なレコメンデーションを提供する。 その大きな可能性にもかかわらず、企業の採用はしばしばいくつかの課題に直面している。 最初の課題は、適切な意思決定の前提条件である正確な因果推論のための観測データの制限によって引き起こされる。 2つ目は、企業の意思決定設定に不可欠なレコメンデーションの解釈可能性に関するものである。 第3の課題は、データサイエンティストとビジネスユーザの間のサイロであり、効果的なコラボレーションを妨げる。 本稿は、IBM Researchのイニシアチブの概要であり、一連の規範的AIソリューションを提供することによって、これらの課題のいくつかに対処することを目的としている。 さまざまな研究論文から洞察を得て、ソリューションスイートには、スケーラブルな因果推論方法、解釈可能な意思決定アプローチ、対話エージェントを介して通信ギャップを橋渡しする大規模言語モデル(LLM)の統合が含まれている。 概念実証であるPresAIseは、非MLの専門家が自然言語インターフェースを介して規範的なAIモデルと対話できるようにし、戦略的意思決定のための高度な分析を民主化することで、ソリューションの可能性を示す。

Prescriptive AI represents a transformative shift in decision-making, offering causal insights and actionable recommendations. Despite its huge potential, enterprise adoption often faces several challenges. The first challenge is caused by the limitations of observational data for accurate causal inference which is typically a prerequisite for good decision-making. The second pertains to the interpretability of recommendations, which is crucial for enterprise decision-making settings. The third challenge is the silos between data scientists and business users, hindering effective collaboration. This paper outlines an initiative from IBM Research, aiming to address some of these challenges by offering a suite of prescriptive AI solutions. Leveraging insights from various research papers, the solution suite includes scalable causal inference methods, interpretable decision-making approaches, and the integration of large language models (LLMs) to bridge communication gaps via a conversation agent. A proof-of-concept, PresAIse, demonstrates the solutions' potential by enabling non-ML experts to interact with prescriptive AI models via a natural language interface, democratizing advanced analytics for strategic decision-making.
翻訳日:2024-02-14 18:18:32 公開日:2024-02-13
# 長尺を超える:あらゆるタイプの未知のハイパーパラメータによるベイズ最適化

Beyond Lengthscales: No-regret Bayesian Optimisation With Unknown Hyperparameters Of Any Type ( http://arxiv.org/abs/2402.01632v2 )

ライセンス: Link先を確認
Juliusz Ziomek, Masaki Adachi, Michael A. Osborne(参考訳) ベイズ最適化はガウスのプロセスモデルに適合する必要があり、これは代わりにハイパーパラメータの指定を必要とする。 ガウス過程のハイパーパラメーターに対する一般的に用いられる最大極大推定器は、データが空間を均一に満たす場合に限り一貫したものであり、ベイズ最適化ではそうはならない。 ハイパーパラメータ推定の正確性に関する保証はなく、これらのハイパーパラメータはガウス過程の適合性に大きな影響を与える可能性があるため、未知のハイパーパラメータによるベイズ最適化の理論解析は非常に難しい。 従来提案された非regret特性を持つアルゴリズムは、未知の長さスケールの特別なケースのみを扱うことができ、カーネルヒルベルト空間ノルムを再現し、頻繁なケースにのみ適用できた。 本稿では,任意の形状の未知のハイパーパラメータの場合の非回帰特性を初めて享受するアルゴリズムであるHE-GP-UCBを提案し,ベイズ的および頻繁な設定をサポートする。 我々の証明アイデアは新しく、ベイズ最適化の他の変種にも容易に拡張できる。 我々はアルゴリズムを未知のハイパーパラメータ下での可逆ロバストな最適化設定に拡張することでこれを示す。 最後に, 玩具問題に対して経験的にアルゴリズムを評価し, 最大確率推定値を上回ることができることを示した。

Bayesian optimisation requires fitting a Gaussian process model, which in turn requires specifying hyperparameters - most of the theoretical literature assumes those hyperparameters are known. The commonly used maximum likelihood estimator for hyperparameters of the Gaussian process is consistent only if the data fills the space uniformly, which does not have to be the case in Bayesian optimisation. Since no guarantees exist regarding the correctness of hyperparameter estimation, and those hyperparameters can significantly affect the Gaussian process fit, theoretical analysis of Bayesian optimisation with unknown hyperparameters is very challenging. Previously proposed algorithms with the no-regret property were only able to handle the special case of unknown lengthscales, reproducing kernel Hilbert space norm and applied only to the frequentist case. We propose a novel algorithm, HE-GP-UCB, which is the first algorithm enjoying the no-regret property in the case of unknown hyperparameters of arbitrary form, and which supports both Bayesian and frequentist settings. Our proof idea is novel and can easily be extended to other variants of Bayesian optimisation. We show this by extending our algorithm to the adversarially robust optimisation setting under unknown hyperparameters. Finally, we empirically evaluate our algorithm on a set of toy problems and show that it can outperform the maximum likelihood estimator.
翻訳日:2024-02-14 18:18:14 公開日:2024-02-13
# CABINET:テーブル質問応答のためのコンテンツ関連に基づくノイズ低減

CABINET: Content Relevance based Noise Reduction for Table Question Answering ( http://arxiv.org/abs/2402.01155v3 )

ライセンス: Link先を確認
Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy(参考訳) 大規模言語モデル(LLM)の表理解能力は,質問応答(QA)をテーブル上で行うことで,広範囲に研究されている。 通常、テーブル全体の小さな部分だけが、与えられた質問に対する答えを導出するのに関係している。 無関係な部品はノイズとして機能し、ノイズに対するLSMの脆弱性のため、情報の邪魔となる。 そこで,本研究では,llmが表データに焦点を合わせることを可能にする枠組みであるキャビネット(表質問応答のためのコンテント関連に基づくノイズ低減)を提案する。 CABINETは、QA LLMと差分訓練されたUnsupervised Relevance Scorer(URS)と、QA LLM(QA LLM)に応答する前に入力された質問に対する関連性に基づいてテーブル内容を測定する。 関連スコアラをさらに支援するために、CABINETは、質問に関連する行と列の基準を記述した解析文を生成し、対応するテーブルセルの内容を強調する弱教師付きモジュールを使用している。 CABINET は様々な表形式の LLM ベースラインと GPT3 ベースのインコンテキスト学習手法を著しく上回り、ノイズに対して堅牢であり、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、WikiSQL データセット上で新たな SoTA パフォーマンスを確立する。 コードとデータセットはhttps://github.com/Sohanpatnaik106/CABINET_QAで公開しています。

Table understanding capability of Large Language Models (LLMs) has been extensively studied through the task of question-answering (QA) over tables. Typically, only a small part of the whole table is relevant to derive the answer for a given question. The irrelevant parts act as noise and are distracting information, resulting in sub-optimal performance due to the vulnerability of LLMs to noise. To mitigate this, we propose CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering) - a framework to enable LLMs to focus on relevant tabular data by suppressing extraneous information. CABINET comprises an Unsupervised Relevance Scorer (URS), trained differentially with the QA LLM, that weighs the table content based on its relevance to the input question before feeding it to the question-answering LLM (QA LLM). To further aid the relevance scorer, CABINET employs a weakly supervised module that generates a parsing statement describing the criteria of rows and columns relevant to the question and highlights the content of corresponding table cells. CABINET significantly outperforms various tabular LLM baselines, as well as GPT3-based in-context learning methods, is more robust to noise, maintains outperformance on tables of varying sizes, and establishes new SoTA performance on WikiTQ, FeTaQA, and WikiSQL datasets. We release our code and datasets at https://github.com/Sohanpatnaik106/CABINET_QA.
翻訳日:2024-02-14 18:17:50 公開日:2024-02-13
# 予測可能な性能保証を伴うAIエラー訂正のための弱教師付き学習者

Weakly Supervised Learners for Correction of AI Errors with Provable Performance Guarantees ( http://arxiv.org/abs/2402.00899v3 )

ライセンス: Link先を確認
Ivan Y. Tyukin, Tatiana Tyukina, Daniel van Helden, Zedong Zheng, Evgeny M. Mirkes, Oliver J. Sutton, Qinghua Zhou, Alexander N. Gorban, Penelope Allison(参考訳) 本稿では,最優先性能保証付き弱教師付きAI誤り訂正器を導入することにより,AIエラーを処理する新しい手法を提案する。 これらのAI補正は、その決定を承認または拒否することで、以前に構築されたいくつかの下位分類器の決定を緩和する役割を持つ補助マップである。 決定の拒絶は、決定の棄却を示唆する信号として用いることができる。 この作業の重要な技術的焦点は、不正確な決定の確率の限界を通して、これらの新しいai修正者のパフォーマンス保証を提供することである。 これらの境界は分布非依存であり、データ次元の仮定に依存しない。 私たちの経験的な例は、トレーニングデータが不足している実世界の課題において、画像分類器のパフォーマンス向上にフレームワークを適用する方法を示している。

We present a new methodology for handling AI errors by introducing weakly supervised AI error correctors with a priori performance guarantees. These AI correctors are auxiliary maps whose role is to moderate the decisions of some previously constructed underlying classifier by either approving or rejecting its decisions. The rejection of a decision can be used as a signal to suggest abstaining from making a decision. A key technical focus of the work is in providing performance guarantees for these new AI correctors through bounds on the probabilities of incorrect decisions. These bounds are distribution agnostic and do not rely on assumptions on the data dimension. Our empirical example illustrates how the framework can be applied to improve the performance of an image classifier in a challenging real-world task where training data are scarce.
翻訳日:2024-02-14 18:17:23 公開日:2024-02-13
# CroissantLLM: 真にバイリンガルなフランス語と英語の言語モデル

CroissantLLM: A Truly Bilingual French-English Language Model ( http://arxiv.org/abs/2402.00786v3 )

ライセンス: Link先を確認
Manuel Faysse, Patrick Fernandes, Nuno M. Guerreiro, Ant\'onio Loison, Duarte M. Alves, Caio Corro, Nicolas Boizard, Jo\~ao Alves, Ricardo Rei, Pedro H. Martins, Antoni Bigata Casademunt, Fran\c{c}ois Yvon, Andr\'e F.T. Martins, Gautier Viaud, C\'eline Hudelot, Pierre Colombo(参考訳) 3Tの英語とフランス語のトークンセットで事前訓練された1.3B言語モデルであるCroissantLLMを導入し、研究と産業コミュニティに、コンシューマグレードのローカルハードウェア上で迅速に動作する高性能で完全にオープンソースなバイリンガルモデルをもたらす。 そこで我々は,英語とフランス語の事前学習データ比率1:1,カスタムトークンエーザ,バイリンガル微調整データセットを用いて,本質的なバイリンガルモデルを訓練するアプローチを開拓した。 特に、手動でキュレートされ、高品質で、さまざまなデータソースを備えたフランスの分割を含むトレーニングデータセットをリリースします。 英語以外でのパフォーマンスを評価するために,分類タスクと生成タスクからなる新しいベンチマークである FrenchBench を構築し,フランス語におけるモデルパフォーマンスの直交的な側面を網羅した。 さらに、透明性に根ざし、さらに大規模な言語モデル研究を促進するために、コードベースと、さまざまなモデルサイズ、トレーニングデータ分散、トレーニングステップ、微調整されたチャットモデル、強力な翻訳モデルにまたがる数十のチェックポイントをリリースします。 私たちはfmtiフレームワークを通じてモデルを評価し、透明性基準の81パーセントを検証することで、ほとんどのオープンイニシアティブのスコアをはるかに超えました。 この研究は、言語モデルにおける多言語性の理解を強化するために、従来の英語中心の作業から切り離されたNLPの景観を豊かにする。

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
翻訳日:2024-02-14 18:17:12 公開日:2024-02-13
# 思考の連鎖は最も弱いリンクと同じくらい強い:推論連鎖の検証者のためのベンチマーク

A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains ( http://arxiv.org/abs/2402.00559v3 )

ライセンス: Link先を確認
Alon Jacovi, Yonatan Bitton, Bernd Bohnet, Jonathan Herzig, Or Honovich, Michael Tseng, Michael Collins, Roee Aharoni, Mor Geva(参考訳) ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチであり、より正確な推論チェーンがダウンストリームタスクのパフォーマンスを改善するのが一般的である。 最近の論文では、正当性を評価し改善するための推論を検証する自動手法について論じている。 しかし、このような検証方法を徹底的に評価するための詳細なステップレベルのデータセットは使用できず、この方向の進展を妨げている。 ReVEAL: Reasoning Verification Evaluationは、オープンドメイン質問応答設定における複雑な連鎖推論の自動検証をベンチマークするためのデータセットである。 revealには、関連する包括的ラベル、エビデンスパスへの帰属、言語モデルの回答における各推論ステップの論理的正当性、さまざまなデータセットと最先端言語モデルが含まれる。 検証者が推論チェインの検証に苦慮していること、特に論理的正当性の検証と矛盾の検出が示されている。

Prompting language models to provide step-by-step answers (e.g., "Chain-of-Thought") is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce REVEAL: Reasoning Verification Evaluation, a dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question-answering settings. REVEAL includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model's answer, across a variety of datasets and state-of-the-art language models. Evaluation on REVEAL shows that verifiers struggle at verifying reasoning chains - in particular, verifying logical correctness and detecting contradictions.
翻訳日:2024-02-14 18:16:45 公開日:2024-02-13
# Dempster-Shafer理論を用いた結節解析におけるてんかん不確かさの治療

Treatment of Epistemic Uncertainty in Conjunction Analysis with Dempster-Shafer Theory ( http://arxiv.org/abs/2402.00060v2 )

ライセンス: Link先を確認
Luis Sanchez and Massimiliano Vasile and Silvia Sanvido and Klaus Mertz and Christophe Taillan(参考訳) 本稿では,CDM(Conjunction Data Messages)におけるてんかん不確実性のモデル化と,衝突の確率に対する信頼度に応じた協調事象の分類について述べる。 本論文で提案するアプローチは,デンプスター・シェーファー理論(dst)に基づき,観察されたcdmが未知の分布の族から引き出されるという仮定から始まったものである。 dvoetzky-kiefer-wolfowitz(dkw)の不等式は、cdmの時系列から始まった未知の分布の族上の強固な境界を構築するために用いられる。 DSt構造は、DKWの不等式で構築された確率ボックスから導出される。 DSt構造は、時系列に沿った各点におけるCDMの不確実性をカプセル化し、与えられた衝突確率の実現における信念と妥当性の計算を可能にする。 本稿で提案する方法論は,多くの実イベントにおいて検証され,欧州宇宙機関とフランス宇宙機関の既存プラクティスと比較される。 本論文では,欧州宇宙機関が行ったアプローチよりも,より保守的な分類システムを示すとともに,衝突の確率における不確実性の定量化について述べる。

The paper presents an approach to the modelling of epistemic uncertainty in Conjunction Data Messages (CDM) and the classification of conjunction events according to the confidence in the probability of collision. The approach proposed in this paper is based on the Dempster-Shafer Theory (DSt) of evidence and starts from the assumption that the observed CDMs are drawn from a family of unknown distributions. The Dvoretzky-Kiefer-Wolfowitz (DKW) inequality is used to construct robust bounds on such a family of unknown distributions starting from a time series of CDMs. A DSt structure is then derived from the probability boxes constructed with DKW inequality. The DSt structure encapsulates the uncertainty in the CDMs at every point along the time series and allows the computation of the belief and plausibility in the realisation of a given probability of collision. The methodology proposed in this paper is tested on a number of real events and compared against existing practices in the European and French Space Agencies. We will show that the classification system proposed in this paper is more conservative than the approach taken by the European Space Agency but provides an added quantification of uncertainty in the probability of collision.
翻訳日:2024-02-14 18:16:26 公開日:2024-02-13
# 学習アルゴリズム構成におけるトランスフォーマー言語モデルの限界

Limits of Transformer Language Models on Learning Algorithmic Compositions ( http://arxiv.org/abs/2402.05785v2 )

ライセンス: Link先を確認
Jonathan Thomm, Aleksandar Terzic, Geethan Karunaratne, Giacomo Camposampiero, Bernhard Sch\"olkopf, Abbas Rahimi(参考訳) 離散アルゴリズム学習におけるトランスフォーマー言語モデルの性能解析を行う。 この目的のために,複数の個別サブタスクの構成を要求する2つの新しいタスクを導入する。 LLaMAモデルをスクラッチからトレーニングし,GPT-4とGeminiで学習プリミティブの学習組成を測定する。 最新のトランスフォーマー言語モデルの合成能力は非常に限定的であり、新しいアルゴリズム構成のために全てのサブタスクを再学習するよりもサンプル単位のスケールが最悪である。 また、複雑性理論の定理として、フィードフォワードモデルを記憶する勾配勾配が指数関数的に非効率であることを示す。

We analyze the capabilities of Transformer language models on learning discrete algorithms. To this end, we introduce two new tasks demanding the composition of several discrete sub-tasks. On both training LLaMA models from scratch and prompting on GPT-4 and Gemini we measure learning compositions of learned primitives. We observe that the compositional capabilities of state-of-the-art Transformer language models are very limited and sample-wise scale worse than relearning all sub-tasks for a new algorithmic composition. We also present a theorem in complexity theory, showing that gradient descent on memorizing feedforward models can be exponentially data inefficient.
翻訳日:2024-02-14 18:05:18 公開日:2024-02-13
# 並列観測予測によるトークンベース世界モデルの改善

Improving Token-Based World Models with Parallel Observation Prediction ( http://arxiv.org/abs/2402.05643v2 )

ライセンス: Link先を確認
Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor(参考訳) 離散シンボルのシーケンスに適用するトランスフォーマーの成功に動機づけられたトークンベースの世界モデル(tbwms)が最近,サンプル効率のよい手法として提案されている。 TBWMでは、世界モデルはエージェント体験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。 しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながる。 このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。 POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。 我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。 REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。 私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。

Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}.
翻訳日:2024-02-14 18:05:09 公開日:2024-02-13
# 償却推論の拡散モデルについて:確率制御とサンプリングのベンチマークと改善

On diffusion models for amortized inference: Benchmarking and improving stochastic control and sampling ( http://arxiv.org/abs/2402.05098v2 )

ライセンス: Link先を確認
Marcin Sendera, Minsu Kim, Sarthak Mittal, Pablo Lemos, Luca Scimeca, Jarrid Rector-Brooks, Alexandre Adam, Yoshua Bengio, Nikolay Malkin(参考訳) 与えられた非正規化密度やエネルギー関数を持つ分布からサンプルへの拡散モデルをトレーニングする問題について検討する。 シミュレーションに基づく変分法や非政治的手法(連続生成フローネットワーク)など,拡散構造推論手法のベンチマークを行った。 我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。 また,リプレイバッファを用いて,ターゲット空間における局所探索に基づくオフポリシー法の新しい探索戦略を提案し,様々なターゲット分布におけるサンプルの質を向上させることを示す。 調査したサンプリングメソッドとベンチマークのコードは、https://github.com/gfnorg/gfn-diffusionで公開されています。

We study the problem of training diffusion models to sample from a distribution with a given unnormalized density or energy function. We benchmark several diffusion-structured inference methods, including simulation-based variational approaches and off-policy methods (continuous generative flow networks). Our results shed light on the relative advantages of existing algorithms while bringing into question some claims from past work. We also propose a novel exploration strategy for off-policy methods, based on local search in the target space with the use of a replay buffer, and show that it improves the quality of samples on a variety of target distributions. Our code for the sampling methods and benchmarks studied is made public at https://github.com/GFNOrg/gfn-diffusion as a base for future work on diffusion models for amortized inference.
翻訳日:2024-02-14 18:04:50 公開日:2024-02-13
# 医用画像解析のための領域一般化に関する調査

A Survey on Domain Generalization for Medical Image Analysis ( http://arxiv.org/abs/2402.05035v2 )

ライセンス: Link先を確認
Ziwei Niu and Shuyi Ouyang and Shiao Xie and Yen-wei Chen and Lanfen Lin(参考訳) 近年の深層学習(DL)の進展に伴い,医療画像解析(MedIA)がコンピュータ支援診断システムにおいて重要なツールとして出現している。 しかし、よく訓練されたディープモデルは、異なる医療現場、モダリティ、およびドメインシフト問題として知られるシーケンスに展開する際に、大きなパフォーマンス劣化を経験することが多い。 これを踏まえて、MedIAのドメイン一般化(DG)は、未知のデータ分散を効果的に一般化し、堅牢に実行することで、ドメインシフトの課題に対処することを目指している。 本稿では,この分野の実質的な発展について概観する。 まず,医療分野におけるドメインシフトとドメイン一般化を形式的に定義し,関連するいくつかの設定について考察する。 次に,データ操作レベル,特徴表現レベル,モデルトレーニングレベルという3つの視点から最新の手法を要約し,各視点について詳細なアルゴリズムを提示する。 さらに、よく使われるデータセットも紹介する。 最後に,既存の文献を要約し,今後の研究課題について述べる。 この調査のために、サポートリソースを収集したGitHubプロジェクトも、リンクで作成しました。

Medical Image Analysis (MedIA) has emerged as a crucial tool in computer-aided diagnosis systems, particularly with the advancement of deep learning (DL) in recent years. However, well-trained deep models often experience significant performance degradation when deployed in different medical sites, modalities, and sequences, known as a domain shift issue. In light of this, Domain Generalization (DG) for MedIA aims to address the domain shift challenge by generalizing effectively and performing robustly across unknown data distributions. This paper presents the a comprehensive review of substantial developments in this area. First, we provide a formal definition of domain shift and domain generalization in medical field, and discuss several related settings. Subsequently, we summarize the recent methods from three viewpoints: data manipulation level, feature representation level, and model training level, and present some algorithms in detail for each viewpoints. Furthermore, we introduce the commonly used datasets. Finally, we summarize existing literature and present some potential research topics for the future. For this survey, we also created a GitHub project by collecting the supporting resources, at the link: https://github.com/Ziwei-Niu/DG_for_MedIA
翻訳日:2024-02-14 18:04:35 公開日:2024-02-13
# 一般ヒルベルト空間における確率勾配Descenceを用いた演算子学習

Learning Operators with Stochastic Gradient Descent in General Hilbert Spaces ( http://arxiv.org/abs/2402.04691v2 )

ライセンス: Link先を確認
Lei Shi and Jia-Qi Yang(参考訳) 本研究では、確率勾配勾配(SGD)を利用して一般ヒルベルト空間間の作用素を学習する。 対象演算子が固有構造と複雑性を表現するための弱かつ強正則性条件を提案する。 これらの条件下では、SGDアルゴリズムの収束率の上限を確立し、最小限の低境界解析を行い、さらに、収束解析と規則性条件により、SGDアルゴリズムを用いた演算子学習問題のトラクタビリティを定量的に特徴づける。 非線形演算子学習には, 収束解析が依然として有効であることが重要である。 SGD推定器は非線形対象作用素の最適線形近似に収束することを示す。 さらに、ベクトル値および実数値再生カーネルヒルベルト空間に基づく演算子学習問題に対する解析の適用により、新たな収束結果が得られ、既存の文献の結論が洗練される。

This study investigates leveraging stochastic gradient descent (SGD) to learn operators between general Hilbert spaces. We propose weak and strong regularity conditions for the target operator to depict its intrinsic structure and complexity. Under these conditions, we establish upper bounds for convergence rates of the SGD algorithm and conduct a minimax lower bound analysis, further illustrating that our convergence analysis and regularity conditions quantitatively characterize the tractability of solving operator learning problems using the SGD algorithm. It is crucial to highlight that our convergence analysis is still valid for nonlinear operator learning. We show that the SGD estimator will converge to the best linear approximation of the nonlinear target operator. Moreover, applying our analysis to operator learning problems based on vector-valued and real-valued reproducing kernel Hilbert spaces yields new convergence results, thereby refining the conclusions of existing literature.
翻訳日:2024-02-14 18:04:16 公開日:2024-02-13
# 変圧器アーキテクチャの限界について

On Limitations of the Transformer Architecture ( http://arxiv.org/abs/2402.08164v1 )

ライセンス: Link先を確認
Binghui Peng, Srini Narayanan, Christos Papadimitriou(参考訳) 大型言語モデル(LLM)における幻覚の根本原因は何か? 通信複雑度を用いて、関数のドメインが十分に大きい場合、トランスフォーマー層が関数を構成することができないこと(例えば、系図上の人の祖父母を特定する)を証明する。 また,llmでは難しいと考えられる構成的タスクの核となるいくつかの数学的タスクは,計算複雑性の分野においてある程度受け入れられている予想が真であるとして,トランスフォーマーによって解ける可能性は低いことを指摘した。

What are the root causes of hallucinations in large language models (LLMs)? We use Communication Complexity to prove that the Transformer layer is incapable of composing functions (e.g., identify a grandparent of a person in a genealogy) if the domains of the functions are large enough; we show through examples that this inability is already empirically present when the domains are quite small. We also point out that several mathematical tasks that are at the core of the so-called compositional tasks thought to be hard for LLMs are unlikely to be solvable by Transformers, for large enough instances and assuming that certain well accepted conjectures in the field of Computational Complexity are true.
翻訳日:2024-02-14 17:08:47 公開日:2024-02-13
# 反復投票における平均ケース分析

Average-Case Analysis of Iterative Voting ( http://arxiv.org/abs/2402.08144v1 )

ライセンス: Link先を確認
Joshua Kavner, Lirong Xia(参考訳) 反復投票は、社会的選択において戦略決定を繰り返し行う自然なモデルであり、エージェントがグループ決定を確定する前に投票を更新する機会がある。 先行研究は、アナーキーの価格の適応により、真正の投票プロファイルに対して、平衡における選択された結果の福祉に関する反復的な複数の効果を分析した。 しかし、先行分析では、エージェントの嗜好が公平な文化によって分配される場合の最悪のケースと平均ケースのパフォーマンスについてしか研究されていない。 本研究は, 平均ケース分析をより広範な分布に拡張し, 反復的複数回による漸近的福祉の改善や低下を区別する。

Iterative voting is a natural model of repeated strategic decision-making in social choice when agents have the opportunity to update their votes prior to finalizing the group decision. Prior work has analyzed the efficacy of iterative plurality on the welfare of the chosen outcome at equilibrium, relative to the truthful vote profile, via an adaptation of the price of anarchy. However, prior analyses have only studied the worst-case and average-case performances when agents' preferences are distributed by the impartial culture. This work extends average-case analyses to a wider class of distributions and distinguishes when iterative plurality improves or degrades asymptotic welfare.
翻訳日:2024-02-14 17:08:36 公開日:2024-02-13
# H2O-SDF:物体表面場を用いた3次元室内再構成のための2相学習

H2O-SDF: Two-phase Learning for 3D Indoor Reconstruction using Object Surface Fields ( http://arxiv.org/abs/2402.08138v1 )

ライセンス: Link先を確認
Minyoung Park, Mirae Do, YeonJae Shin, Jaeseok Yoo, Jongkwang Hong, Joongrock Kim, Chul Lee(参考訳) ニューラルレージアンス・フィールド(NeRF)、シグネクテッド・ディスタンス・フィールド(SDF)、オクショナンシー・フィールド(Occupancy Fields)を用いた3次元屋内シーン再構築のソリューションとして最近登場した。 本研究では,屋内環境における対象領域と非対象領域を識別する二相学習手法H2O-SDFを提案する。 この方法はニュアンスバランスを実現し、部屋のレイアウトの幾何学的整合性を慎重に保ちつつ、特定のオブジェクトの表面の詳細を複雑に捉える。 この2相学習フレームワークの基盤は、これまで他の手法で高周波ディテールの捕捉を妨げていた永続的消失勾配問題を解決するために設計された新しい概念である、object surface field(osf)の導入です。 提案手法はアブレーション研究を含むいくつかの実験により検証された。

Advanced techniques using Neural Radiance Fields (NeRF), Signed Distance Fields (SDF), and Occupancy Fields have recently emerged as solutions for 3D indoor scene reconstruction. We introduce a novel two-phase learning approach, H2O-SDF, that discriminates between object and non-object regions within indoor environments. This method achieves a nuanced balance, carefully preserving the geometric integrity of room layouts while also capturing intricate surface details of specific objects. A cornerstone of our two-phase learning framework is the introduction of the Object Surface Field (OSF), a novel concept designed to mitigate the persistent vanishing gradient problem that has previously hindered the capture of high-frequency details in other methods. Our proposed approach is validated through several experiments that include ablation studies.
翻訳日:2024-02-14 17:08:23 公開日:2024-02-13
# 電力系統における効率的な量子線形解法のためのフレキシブルフレームワークの早期探索

Early Exploration of a Flexible Framework for Efficient Quantum Linear Solvers in Power Systems ( http://arxiv.org/abs/2402.08136v1 )

ライセンス: Link先を確認
Muqing Zheng, Yousu Chen, Xiu Yang and Ang Li(参考訳) 再生可能エネルギー資源の急速な統合は電力グリッド管理における重大な課題をもたらす。 高度なコンピューティングと機械学習技術はグリッドモデリングとシミュレーションを高速化するいくつかのソリューションを提供するが、古典的なコンピュータでは効果的に対処できない複雑な問題が存在する。 量子コンピューティングは有望な技術であり、特に再生可能エネルギー源の比率が高いシナリオにおいて、電力システムの管理方法を根本的に変える可能性がある。 hhlアルゴリズムがよく知られた量子解であるパワーフロー解析のような電力系統応用に欠かせない大規模な線形方程式系を解くことが重要な側面である。 しかし、HHL量子回路はしばしば過剰な深さを示し、現在のノイズ中間スケール量子(NISQ)デバイスでは実用的ではない。 本稿では,電力システムアプリケーションとQiskitで利用可能な量子線形解器のギャップを埋める,NWQSimを利用した汎用フレームワークを提案する。 この枠組みにより研究者は量子線形解法を用いて効率よく電力系統を探索できる。 革新的なゲート融合戦略,回路深度低減,GPUアクセラレーションにより,シミュレータは資源効率を大幅に向上させる。 電力流のケーススタディでは、Qiskit Aerと比較して8倍のスピードアップが実証されている。

The rapid integration of renewable energy resources presents formidable challenges in managing power grids. While advanced computing and machine learning techniques offer some solutions for accelerating grid modeling and simulation, there remain complex problems that classical computers cannot effectively address. Quantum computing, a promising technology, has the potential to fundamentally transform how we manage power systems, especially in scenarios with a higher proportion of renewable energy sources. One critical aspect is solving large-scale linear systems of equations, crucial for power system applications like power flow analysis, for which the Harrow-Hassidim-Lloyd (HHL) algorithm is a well-known quantum solution. However, HHL quantum circuits often exhibit excessive depth, making them impractical for current Noisy-Intermediate-Scale-Quantum (NISQ) devices. In this paper, we introduce a versatile framework, powered by NWQSim, that bridges the gap between power system applications and quantum linear solvers available in Qiskit. This framework empowers researchers to efficiently explore power system applications using quantum linear solvers. Through innovative gate fusion strategies, reduced circuit depth, and GPU acceleration, our simulator significantly enhances resource efficiency. Power flow case studies have demonstrated up to a eight-fold speedup compared to Qiskit Aer, all while maintaining comparable levels of accuracy.
翻訳日:2024-02-14 17:08:05 公開日:2024-02-13
# 対称非負行列分解のためのランダム化アルゴリズム

Randomized Algorithms for Symmetric Nonnegative Matrix Factorization ( http://arxiv.org/abs/2402.08134v1 )

ライセンス: Link先を確認
Koby Hayashi, Sinan G. Aksoy, Grey Ballard, Haesun Park(参考訳) 対称非負行列分解(symnmf)は、非負低ランク行列とその転置の積を持つ対称行列を近似するデータ解析および機械学習の技法である。 SymNMF のための高速でスケーラブルなアルゴリズムを設計するために,その計算のための2つのランダム化アルゴリズムを開発した。 最初のアルゴリズムはランダム化された行列スケッチを用いて初期低ランクの入力行列を計算し、この入力を使用してSymNMFを高速に計算する。 第2のアルゴリズムは、制約付き最小二乗問題の概ね解くために、ランダム化レバレッジスコアサンプリングを使用する。 SymNMF の多くの成功した手法は、制約付き最小二乗問題の列を(ほぼ)解くことに頼っている。 理論的には、非負の最小二乗問題を高い確率で選択した精度で解くことができる。 最後に,実世界の大規模データセット上のグラフクラスタリングタスクに適用することにより,両方の手法が効果的に動作することを示す。 これらの実験により,本手法は解法の品質を概ね維持し,高密度および大粒のスパース問題に対して大幅な高速化を実現することが示された。

Symmetric Nonnegative Matrix Factorization (SymNMF) is a technique in data analysis and machine learning that approximates a symmetric matrix with a product of a nonnegative, low-rank matrix and its transpose. To design faster and more scalable algorithms for SymNMF we develop two randomized algorithms for its computation. The first algorithm uses randomized matrix sketching to compute an initial low-rank input matrix and proceeds to use this input to rapidly compute a SymNMF. The second algorithm uses randomized leverage score sampling to approximately solve constrained least squares problems. Many successful methods for SymNMF rely on (approximately) solving sequences of constrained least squares problems. We prove theoretically that leverage score sampling can approximately solve nonnegative least squares problems to a chosen accuracy with high probability. Finally we demonstrate that both methods work well in practice by applying them to graph clustering tasks on large real world data sets. These experiments show that our methods approximately maintain solution quality and achieve significant speed ups for both large dense and large sparse problems.
翻訳日:2024-02-14 17:07:43 公開日:2024-02-13
# 高次元システムにおける効率的な推論のためのガウスアンサンブル信念

Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems ( http://arxiv.org/abs/2402.08193v1 )

ライセンス: Link先を確認
Dan MacKinlay, Russell Tsuchida, Dan Pagendam, Petra Kuhnert(参考訳) 高次元モデルの効率的な推論は、マシンラーニングにおいて依然として中心的な課題である。 本稿では,gaussian ensemble belief propagation (genbp)アルゴリズム,almanフィルタとgaussian belief propagation (gabp)法の融合について述べる。 GEnBPは、グラフィックモデル構造で低ランクのローカルメッセージを渡すことでアンサンブルを更新する。 この組み合わせはそれぞれの方法から好ましい品質を継承する。 アンサンブル技術により、GEnBPは高次元状態、パラメータ、複雑なノイズ、ブラックボックス生成プロセスを扱うことができる。 グラフィカルモデル構造におけるローカルメッセージの使用は、このアプローチが分散コンピューティングに適していることを保証し、複雑な依存構造を効率的に扱うことができる。 GEnBPは、アンサンブルサイズが推論次元よりもかなり小さい場合に特に有利である。 このシナリオは時空間モデリング、画像処理、物理モデル反転といった分野にしばしば現れる。 GEnBPは、連立学習システムパラメータ、観測パラメータ、潜時状態変数などの一般的な問題構造に適用できる。

Efficient inference in high-dimensional models remains a central challenge in machine learning. This paper introduces the Gaussian Ensemble Belief Propagation (GEnBP) algorithm, a fusion of the Ensemble Kalman filter and Gaussian belief propagation (GaBP) methods. GEnBP updates ensembles by passing low-rank local messages in a graphical model structure. This combination inherits favourable qualities from each method. Ensemble techniques allow GEnBP to handle high-dimensional states, parameters and intricate, noisy, black-box generation processes. The use of local messages in a graphical model structure ensures that the approach is suited to distributed computing and can efficiently handle complex dependence structures. GEnBP is particularly advantageous when the ensemble size is considerably smaller than the inference dimension. This scenario often arises in fields such as spatiotemporal modelling, image processing and physical model inversion. GEnBP can be applied to general problem structures, including jointly learning system parameters, observation parameters, and latent state variables.
翻訳日:2024-02-14 16:57:45 公開日:2024-02-13
# リンク予測のためのランドマーク付きグラフの階層的位置埋め込みとクラスタリング

Hierarchical Position Embedding of Graphs with Landmarks and Clustering for Link Prediction ( http://arxiv.org/abs/2402.08174v1 )

ライセンス: Link先を確認
Minsang Kim and Seungjun Baek(参考訳) リンク予測タスクでは,グラフ内のノードの位置情報を学習することが重要である。 本稿ではランドマークと呼ばれる代表ノードを用いた位置情報の表現を提案する。 高い集中度を持つ少数のノードがランドマークとして選択され、ノードの位置の参照ポイントとして機能する。 我々は、よく知られたランダムグラフモデルに対するこの選択戦略を正当化し、ランドマークを含む平均経路長の閉形式境界を導出する。 パワーローグラフのモデルでは、ランドマークはノード間距離に関する漸近的に正確な情報を提供する。 本稿では,実用的なネットワークに理論的知見を適用し,ランドマークとクラスタリング(HPLC)を用いた階層的位置埋め込みを提案する。 HPLCはランドマークの選択とグラフクラスタリングを組み合わせることで,グラフを高次ノードをランドマークとして選択する密結合クラスタに分割する。 HPLCは、ノードのランドマーク間距離、ランドマーク間距離、クラスタの階層的グループ化など、さまざまな階層レベルのランドマークに基づくノードの位置情報を活用する。 実験の結果,HPLCはHIT@K,MRR,AUCを用いて,各種データセット上でのリンク予測の最先端性能を実現することがわかった。 コードは \url{https://github.com/kmswin1/HPLC} で入手できる。

Learning positional information of nodes in a graph is important for link prediction tasks. We propose a representation of positional information using representative nodes called landmarks. A small number of nodes with high degree centrality are selected as landmarks, which serve as reference points for the nodes' positions. We justify this selection strategy for well-known random graph models and derive closed-form bounds on the average path lengths involving landmarks. In a model for power-law graphs, we prove that landmarks provide asymptotically exact information on inter-node distances. We apply theoretical insights to practical networks and propose Hierarchical Position embedding with Landmarks and Clustering (HPLC). HPLC combines landmark selection and graph clustering, where the graph is partitioned into densely connected clusters in which nodes with the highest degree are selected as landmarks. HPLC leverages the positional information of nodes based on landmarks at various levels of hierarchy such as nodes' distances to landmarks, inter-landmark distances and hierarchical grouping of clusters. Experiments show that HPLC achieves state-of-the-art performances of link prediction on various datasets in terms of HIT@K, MRR, and AUC. The code is available at \url{https://github.com/kmswin1/HPLC}.
翻訳日:2024-02-14 16:57:30 公開日:2024-02-13
# ai倫理労働における認識力、客観性、ジェンダー--所在する苦情の正当化

Epistemic Power, Objectivity and Gender in AI Ethics Labor: Legitimizing Located Complaints ( http://arxiv.org/abs/2402.08171v1 )

ライセンス: Link先を確認
David Gray Widder(参考訳) 正統なAI倫理労働とは何であり、その結果、AI倫理の主張が正当であるという認識的な用語は何だろうか? 研究者,開発者,オープンソースコントリビュータ,アーティスト,活動家を含む75人の技術者によるインタビューに基づいて,ai倫理を実践するさまざまな認識論的基盤について検討する。 AI倫理に対する外部からの攻撃を「進歩」の障害とする文脈において、学術的な権威、自動化、定量化に向けてAI倫理の実践がいかに到達し、ある程度の正当性を達成したかを示します。 本稿では,フェミニストの人類学と科学技術研究(STS)の研究者であるダイアナ・フォーサイスとルーシー・シーズマンの著作と,ポストコロニアルフェミニストのサラ・アフメドとブラックフェミニストのクリスティ・ドットソンの著作をまとめた。 私は、定量化の疫学的な力を確固たるものにすることで、支配的なAI倫理の実践は、同じプロジェクトの正当部分として具現化され、生きた経験を過小評価する程度に、AI倫理を等しく反対の措置でプロジェクトとして正当化するリスクを負うと論じます。 それに対して、私は謙虚な技術的実践のアイデアを提唱し、スケッチする: 定量化または技術的プラクティスは、認識力の階層を平らにすることを目的として、その認識限界を明確にすることを目的としています。

What counts as legitimate AI ethics labor, and consequently, what are the epistemic terms on which AI ethics claims are rendered legitimate? Based on 75 interviews with technologists including researchers, developers, open source contributors, artists, and activists, this paper explores various epistemic bases from which AI ethics is practiced. In the context of outside attacks on AI ethics as an impediment to "progress," I show how some AI ethics practices have reached toward scholarly authority, automation and quantification and achieved some legitimacy, while those based on richly embodied and situated lived experience have not. This paper draws the works of feminist Anthropology and Science and Technology Studies (STS) scholars Diana Forsythe and Lucy Suchman together with the works of postcolonial feminist theorist Sara Ahmed and Black feminist theorist Kristie Dotson to examine the implications of dominant AI ethics practices. I argue that by entrenching the epistemic power of quantification, dominant AI ethics practices risk legitimizing AI ethics as a project in equal and opposite measure to the extent that they delegitimize and marginalize embodied and lived experiences as legitimate parts of the same project. In response, I propose and sketch the idea of humble technical practices: quantified or technical practices which specifically seek to make their epistemic limits clear, with a view to flattening hierarchies of epistemic power.
翻訳日:2024-02-14 16:57:11 公開日:2024-02-13
# LLaGA: 大規模言語とグラフアシスタント

LLaGA: Large Language and Graph Assistant ( http://arxiv.org/abs/2402.08170v1 )

ライセンス: Link先を確認
Runjin Chen, Tong Zhao, Ajay Jaiswal, Neil Shah, Zhangyang Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ分析の進歩を促進する。 近年、GPT-4のような大規模言語モデル(LLM)の台頭は、ディープラーニングの新しい時代を告げている。 しかし、グラフデータへの彼らの応用は、グラフ構造を言語に翻訳することが本質的に困難であるため、異なる課題をもたらす。 この目的のために、グラフ構造化データの複雑さを扱うためにLLM機能を効果的に統合する革新的なモデルである \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{G}raph \textbf{A}ssistant (\textbf{LLaGA}) を導入する。 LLaGA は LLM の汎用性を維持しながら、グラフデータを LLM 入力と互換性のあるフォーマットに適合させる。 LLaGAはグラフノードを構造認識シーケンスに再編成し、それを多目的プロジェクタを通じてトークン埋め込み空間にマッピングすることでこれを実現している。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して機能し、データセットやタスクを表示できないように拡張し、グラフの説明を提供する。 LLaGAは4つのデータセットと3つのタスクを1つのモデルで比較し、教師付きおよびゼロショットのシナリオで最先端のグラフモデルを上回っていることを示す。 我々のコードは \url{https://github.com/ChenRunjin/LLaGA} で入手できる。

Graph Neural Networks (GNNs) have empowered the advance in graph-structured data analysis. Recently, the rise of Large Language Models (LLMs) like GPT-4 has heralded a new era in deep learning. However, their application to graph data poses distinct challenges due to the inherent difficulty of translating graph structures to language. To this end, we introduce the \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{G}raph \textbf{A}ssistant (\textbf{LLaGA}), an innovative model that effectively integrates LLM capabilities to handle the complexities of graph-structured data. LLaGA retains the general-purpose nature of LLMs while adapting graph data into a format compatible with LLM input. LLaGA achieves this by reorganizing graph nodes to structure-aware sequences and then mapping these into the token embedding space through a versatile projector. LLaGA excels in versatility, generalizability and interpretability, allowing it to perform consistently well across different datasets and tasks, extend its ability to unseen datasets or tasks, and provide explanations for graphs. Our extensive experiments across popular graph benchmarks show that LLaGA delivers outstanding performance across four datasets and three tasks using one single model, surpassing state-of-the-art graph models in both supervised and zero-shot scenarios. Our code is available at \url{https://github.com/ChenRunjin/LLaGA}
翻訳日:2024-02-14 16:56:38 公開日:2024-02-13
# 非局所異常と拡張半量子ゲーム

A Nonlocality Anomaly and Extended Semiquantum Games ( http://arxiv.org/abs/2402.08168v1 )

ライセンス: Link先を確認
Yiruo Lin(参考訳) 非局所性を利用したタスクにおいて、部分的に絡み合った状態が最大絡み合った状態を上回り得る非局所性異常と、異常を取り除くいくつかの方法について議論する。 局所測定のジョイント確率の観点から、異常が発生するために必要な条件が与えられる。 古典的コミュニケーションを含むように半量子ゲームを拡張することにより、半量子確率に関して異常を除去することが示される。

A nonlocality anomaly in which a partially entangled state can outperform a maximally entangled state in a task exploiting nonlocality and several ways to remove the anomaly are discussed. A necessary condition for the anomaly to occur is given in terms of joint probabilities of local measurements. By extending semiquantum games to include classical communication, the anomaly is shown to be removed with respect to semiquantum probabilities.
翻訳日:2024-02-14 16:56:09 公開日:2024-02-13
# 二成分2x2エンタングル状態の可換性について

On convertibility among bipartite 2x2 entangled states ( http://arxiv.org/abs/2402.08166v1 )

ライセンス: Link先を確認
Yiruo Lin(参考訳) 2x2の絡み合った状態間のコンバーチビリティの条件について、いくつかの進展が報告されている: 絡み合った状態のランクに関連する不コンバーチビリティ条件は、分離可能な操作の下で低いランクの絡み合った状態に変換することは不可能である、特定のローカル操作と古典通信(LOCC)は、ワーナー状態、ベル対角状態、最大絡み合った混合状態(MEMS)の3つのサブクラスのコンバーチビリティを解析するために使用される。 MEMSは、所定の形成の絡み合いの順に絡み合った状態の底にあるかもしれないと推測されている。 密度行列が共通の基底で対角線と定義される二部類状態の一般サブクラスにおける可換性を体系的に計算する方法が提案される。 この研究で採用されたLOCCの集合は、多くの一般2x2絡み合った状態の変換性に十分な条件を与えるために一般化可能であると論じられている。

Some progress is reported on conditions for convertibility among bipartite 2x2 entangled states: An inconvertibility condition related to the rank of an entangled state is given that it is impossible to convert to an entangled state with lower rank under separable operations; a particular set of local operations and classical communication (LOCC) is used to analyze convertibility of three subclasses of states - Werner states, Bell diagonal states and maximally entangled mixed states (MEMS). It is conjectured that MEMS may lie on the bottom of entangled state ordering for given entanglement of formation. A plausible way is suggested of systematically calculating convertibility in a general subclass of bipartite states whose density matrices are defined to be diagonal in a common basis. The set of LOCC adopted in this work is argued to be generalizable to provide sufficient conditions for convertibility among a large range of general 2x2 entangled states.
翻訳日:2024-02-14 16:56:03 公開日:2024-02-13
# バグ"とは何か? ソフトウェア研究における主観性、疫学力および意味について

What is a "bug"? On subjectivity, epistemic power, and implications for software research ( http://arxiv.org/abs/2402.08165v1 )

ライセンス: Link先を確認
David Gray Widder and Claire Le Goues(参考訳) ソフトウェア研究と実践でかなりの労力がバグに費やされている。 発見、レポート、追跡、トリアージ、自動修正、"バグの臭い"の検出 - これらは、大規模プロジェクトの時間と開発コストのかなりの部分を占め、ソフトウェア工学、プログラミング言語などの研究者にとって重要な関心事である。 しかし、正確にはバグとは何か? セグメンテーションの欠陥が喜びを引き起こすことはめったにないが、ほとんどのバグはそれほど明確ではない。 オックスフォード英語辞典によると、"bug"という言葉は少なくとも1870年代以降、工学的な"defect"の口語として用いられてきた。 現代のソフトウェア指向の定義の多くは、開発者が意図するものと、プログラムが実際に行うものとを区別している。 形式検証は、その当初から、望まれる振る舞いを多かれ少なかれ完全にエンコードすることを期待する形式仕様からの逸脱を特定する手段を開発した。 しかし、ソフトウェアには完全な仕様と正式な仕様が伴うことは滅多になく、この意図は暗黙的あるいは部分的に文書化されたものとして扱われる。 International Software Testing Qualificationsのボードには,“人間がエラー(ミス)を犯し,プログラムコードあるいはドキュメントに欠陥(フォールト,バグ)を発生させる”,と書かれている。コードの欠陥が実行された場合,システムは,すべきこと(あるいはすべきでないこと)を行なわなかったり,障害を発生させたりします。欠陥は失敗するかも知れませんが,すべてではないのです。”。 ほとんどの情報源はこの正確さを禁じている。 影響のある論文"finding bugs is easy"は、"バグパターンは、しばしばエラーとなるコードイディオム"から始まり、特に詳細化されていない。 他の作業は仕様の不完全な実用的プロキシに依存している。 例えば、自動プログラム修復研究では、バグは失敗したテストケースに対応している: テストが通過すると、バグは修正されると考えられる。 しかし、非常に単純な定義を問うと、彼らは崩壊し始めます。

Considerable effort in software research and practice is spent on bugs. Finding, reporting, tracking, triaging, attempting to fix them automatically, detecting "bug smells" -these comprise a substantial portion of large projects' time and development cost, and are of significant interest to researchers in Software Engineering, Programming Languages, and beyond. But, what is a bug, exactly? While segmentation faults rarely spark joy, most bugs are not so clear cut. Per the Oxford English Dictionary, the word "bug" has been a colloquialism for an engineering "defect" at least since the 1870s. Most modern software-oriented definitions speak to a disconnect between what a developer intended and what a program actually does. Formal verification, from its inception, has developed means to identify deviations from a formal specification, expected to more or less fully encode desired behavior. However, software is rarely accompanied by full and formal specifications, and this intention is instead treated as implicit or partially-documented at best. The International Software Testing Qualifications board writes: "A human being can make an error (mistake), which produces a defect (fault, bug) in the program code, or in a document. If a defect in code is executed, the system may fail to do what it should do (or do something it shouldn't), causing a failure. Defects may result in failures, but not all [do]". Most sources forsake this precision. The influential paper "Finding bugs is easy" begins by saying "bug patterns are code idioms that are often errors"-with no particular elaboration. Other work relies on imperfect practical proxies for specifications. For example, in automatic program repair research, a bug corresponds to a failing test case: when the test passes, the bug is considered fixed. However, when we interrogate fairly straightforward definitions, they start to break down...
翻訳日:2024-02-14 16:55:42 公開日:2024-02-13
# 低線量ct画像同期のためのポアソン流一貫性モデル

Poisson flow consistency models for low-dose CT image denoising ( http://arxiv.org/abs/2402.08159v1 )

ライセンス: Link先を確認
Dennis Hein, Adam Wang, and Ge Wang(参考訳) 拡散とポアソンフローモデルは、幅広い生成タスクにおいて顕著な成功を収めた。 それにもかかわらず、反復的な性質は計算コストのかかるサンプリングとなり、必要な関数評価(NFE)の数はシングルステップ法よりも桁違いに大きい。 一貫性モデル(consistency model)は、ハイクオリティなデータの単一ステップサンプリングを可能にする、最近のディープジェネレーションモデルのクラスである。 本稿では,poisson flow generative models (pfgm)++で得られる柔軟性と,一貫性モデルの高品質な単一ステップサンプリングを組み合わせた,新しい画像デノイジング手法を提案する。 提案手法はまず,PFGM++を教師付き方式で学習することにより,雑音分布と後続の関心分布の軌跡を学習する。 これらの事前訓練されたPFGM++は、その後、ポアソンフロー一貫性モデル(PFCM)に、一貫性蒸留の更新版を通じて「蒸留」される。 我々はこの手法をポアソン流動整合モデル (PS-PFCM) と呼ぶ。 その結果, pfgm++における拡張変数の次元性であるハイパーパラメータdのチューニングの柔軟性が増すことにより, 臨床低線量ct画像においてnfe=1の現況拡散型モデルである一貫性モデルよりも優れることがわかった。 特に、PFCMは、それ自体が深層生成モデルの新たなファミリーであり、CIFAR-10データセットの初期結果を提供する。

Diffusion and Poisson flow models have demonstrated remarkable success for a wide range of generative tasks. Nevertheless, their iterative nature results in computationally expensive sampling and the number of function evaluations (NFE) required can be orders of magnitude larger than for single-step methods. Consistency models are a recent class of deep generative models which enable single-step sampling of high quality data without the need for adversarial training. In this paper, we introduce a novel image denoising technique which combines the flexibility afforded in Poisson flow generative models (PFGM)++ with the, high quality, single step sampling of consistency models. The proposed method first learns a trajectory between a noise distribution and the posterior distribution of interest by training PFGM++ in a supervised fashion. These pre-trained PFGM++ are subsequently "distilled" into Poisson flow consistency models (PFCM) via an updated version of consistency distillation. We call this approach posterior sampling Poisson flow consistency models (PS-PFCM). Our results indicate that the added flexibility of tuning the hyperparameter D, the dimensionality of the augmentation variables in PFGM++, allows us to outperform consistency models, a current state-of-the-art diffusion-style model with NFE=1 on clinical low-dose CT images. Notably, PFCM is in itself a novel family of deep generative models and we provide initial results on the CIFAR-10 dataset.
翻訳日:2024-02-14 16:55:08 公開日:2024-02-13
# プライバシアウェアエージェントの集団意思決定

Group Decision-Making among Privacy-Aware Agents ( http://arxiv.org/abs/2402.08156v1 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian(参考訳) プライバシーやセキュリティの懸念にもかかわらず、個人はどのように情報を交換して相互に学び合うのか? 例えば、議論の多いトピックを熟考し、個人的な経験を開示することに関心を持つ個人を考える。 個人のプライバシーを維持し、効果的な社会的学習を可能にすることはどちらも重要なデシダータであるが、基本的には互いに相反し、和解が困難である。 我々は、差分プライバシー(dp)に基づく厳密な統計保証を用いて情報漏洩を制御する。 我々のエージェントは、隣人と通信した後、彼らの信念を更新するためにログリニアルールを使用します。 信条にDPランダム化ノイズを加えることで、コミュニケーションエージェントは、彼らのプライベート情報とそのネットワーク近隣について、もっともらしい識別性が得られる。 2つの学習環境を,有限個のプライベート信号が与えられた分散最大様相推定用と,無限の断続的な信号ストリームからオンライン学習用と考えて検討した。 有限ケースにおけるノイズ情報集約は、低品質状態の拒絶と、アルゴリズム出力にすべての高品質状態が受け入れられることの間の興味深いトレードオフをもたらす。 その結果,グループ意思決定の結果の質,学習精度,通信コスト,エージェントが備えているプライバシー保護の水準の両面でのトレードオフの性質が明らかになった。

How can individuals exchange information to learn from each other despite their privacy needs and security concerns? For example, consider individuals deliberating a contentious topic and being concerned about divulging their private experiences. Preserving individual privacy and enabling efficient social learning are both important desiderata but seem fundamentally at odds with each other and very hard to reconcile. We do so by controlling information leakage using rigorous statistical guarantees that are based on differential privacy (DP). Our agents use log-linear rules to update their beliefs after communicating with their neighbors. Adding DP randomization noise to beliefs provides communicating agents with plausible deniability with regard to their private information and their network neighborhoods. We consider two learning environments one for distributed maximum-likelihood estimation given a finite number of private signals and another for online learning from an infinite, intermittent signal stream. Noisy information aggregation in the finite case leads to interesting tradeoffs between rejecting low-quality states and making sure all high-quality states are accepted in the algorithm output. Our results flesh out the nature of the trade-offs in both cases between the quality of the group decision outcomes, learning accuracy, communication cost, and the level of privacy protections that the agents are afforded.
翻訳日:2024-02-14 16:54:43 公開日:2024-02-13
# cma-r:うわさ検出のためのcausal mediation analysis

CMA-R:Causal Mediation Analysis for Explaining Rumour Detection ( http://arxiv.org/abs/2402.08155v1 )

ライセンス: Link先を確認
Lin Tian, Xiuzhen Zhang, Jey Han Lau(参考訳) 因果媒介分析を適用し、Twitter上での噂検出のためのニューラルモデルの決定過程を説明する。 入力とネットワークレベルでの介入は、モデル出力におけるツイートと単語の因果的影響を明らかにする。 我々のアプローチであるCMA-R(Causal Mediation Analysis for Rumour Detection)は、モデル予測を説明する健全なツイートを特定し、物語の真実性を決定する批判的ツイートに対して、人間の判断と強い合意を示す。 CMA-Rは、適切なツイートの因果的な影響のある単語をさらに強調し、これらのブラックボックスの噂検出システムに解釈可能性と透明性の別のレイヤを提供する。 コードはhttps://github.com/ltian678/cma-r。

We apply causal mediation analysis to explain the decision-making process of neural models for rumour detection on Twitter. Interventions at the input and network level reveal the causal impacts of tweets and words in the model output. We find that our approach CMA-R -- Causal Mediation Analysis for Rumour detection -- identifies salient tweets that explain model predictions and show strong agreement with human judgements for critical tweets determining the truthfulness of stories. CMA-R can further highlight causally impactful words in the salient tweets, providing another layer of interpretability and transparency into these blackbox rumour detection systems. Code is available at: https://github.com/ltian678/cma-r.
翻訳日:2024-02-14 16:54:22 公開日:2024-02-13
# シグモダル分類モデルにおけるベイズ的残差に対する勾配-流適応的重要度サンプリング

Gradient-flow adaptive importance sampling for Bayesian leave one out cross-validation for sigmoidal classification models ( http://arxiv.org/abs/2402.08151v1 )

ライセンス: Link先を確認
Joshua C Chang, Xiangting Li, Shixin Xu, Hao-Ren Yao, Julia Porcino, Carson Chow(参考訳) 本稿では,ベイズ分類モデルに対するモンテカルロ近似のモンテカルロ近似を安定化するために,勾配-フロー誘導適応重要度サンプリング(is)変換を導入する。 例えば、AICや計算LOC/PRC曲線やAUROCやAUPRCのような派生メトリクスのLOOアナログを計算することで、モデル一般化可能性を評価するためにこの方法論を利用することができる。 変分と勾配流の計算により、勾配情報を利用した2つの単純な非線形単段変換を導出し、モデルの事前訓練された全データ後段を目標のloo後段予測分布に近づける。 これにより、変換は重み付けを安定させる。 変換は確率関数の勾配を含むので、結果のモンテカルロ積分はモデルヘッセンに関してヤコビ行列式に依存する。 ロジスティック回帰や浅いrelu活性化型人工ニューラルネットワークの場合には、これらのヤコビ行列式の閉形式式を導出し、完全なヘッセン行列とそのスペクトルを計算する必要性を回避する単純な近似を与える。 この手法を不安定なLOOIS重みを生成することが知られている$n\ll p$データセット上で検証する。

We introduce a set of gradient-flow-guided adaptive importance sampling (IS) transformations to stabilize Monte-Carlo approximations of point-wise leave one out cross-validated (LOO) predictions for Bayesian classification models. One can leverage this methodology for assessing model generalizability by for instance computing a LOO analogue to the AIC or computing LOO ROC/PRC curves and derived metrics like the AUROC and AUPRC. By the calculus of variations and gradient flow, we derive two simple nonlinear single-step transformations that utilize gradient information to shift a model's pre-trained full-data posterior closer to the target LOO posterior predictive distributions. In doing so, the transformations stabilize importance weights. Because the transformations involve the gradient of the likelihood function, the resulting Monte Carlo integral depends on Jacobian determinants with respect to the model Hessian. We derive closed-form exact formulae for these Jacobian determinants in the cases of logistic regression and shallow ReLU-activated artificial neural networks, and provide a simple approximation that sidesteps the need to compute full Hessian matrices and their spectra. We test the methodology on an $n\ll p$ dataset that is known to produce unstable LOO IS weights.
翻訳日:2024-02-14 16:54:07 公開日:2024-02-13
# 大規模言語モデルとモンテカルロ木探索を用いたマルチステップ合成の検証

Verified Multi-Step Synthesis using Large Language Models and Monte Carlo Tree Search ( http://arxiv.org/abs/2402.08147v1 )

ライセンス: Link先を確認
David Brandfonbrener, Sibi Raja, Tarun Prasad, Chloe Loughridge, Jianang Yang, Simon Henniger, William E. Byrd, Robert Zinkov, Nada Amin(参考訳) 本稿では,モンテカルロ木探索(MCTS)を用いて大規模言語モデル(LLM)を誘導し,Dafny,Lean,Coqの検証プログラムを生成する手法を提案する。 提案手法はvmctsと呼ばれ,各ステップで部分プログラムをチェックすることにより,探索アルゴリズム内の検証器を活用する。 llmの事前設定と組み合わせることで、検証者のフィードバックはオープンソースモデルの合成能力を高める。 5つの検証済みプログラミング問題の組において、ベースモデルが1時間ソリューションを再サンプリングしても問題を解くことができない4つの問題において、vmctは6分以内に問題を解決できることがわかった。 VMCTSのベースモデルは、これらの問題に対するプラグインと複数の再試行を備えたChatGPT4と競合する。 私たちのコードとベンチマークは、https://github.com/namin/llm-verified-with-monte-carlo-tree-searchで利用可能です。

We present an approach using Monte Carlo Tree Search (MCTS) to guide Large Language Models (LLMs) to generate verified programs in Dafny, Lean and Coq. Our method, which we call VMCTS, leverages the verifier inside the search algorithm by checking partial programs at each step. In combination with the LLM prior, the verifier feedback raises the synthesis capabilities of open source models. On a set of five verified programming problems, we find that in four problems where the base model cannot solve the question even when re-sampling solutions for one hour, VMCTS can solve the problems within 6 minutes. The base model with VMCTS is even competitive with ChatGPT4 augmented with plugins and multiple re-tries on these problems. Our code and benchmarks are available at https://github.com/namin/llm-verified-with-monte-carlo-tree-search .
翻訳日:2024-02-14 16:53:47 公開日:2024-02-13
# 時間秩序進化による半導体量子ドット中の電子スピンのユニタリ制御

Hamiltonian engineering with time-ordered evolution for unitary control of electron spins in semiconductor quantum dots ( http://arxiv.org/abs/2402.08146v1 )

ライセンス: Link先を確認
Bohdan Khromets, Zach D. Merino and Jonathan Baugh(参考訳) 本稿では,横量子ドット内の電子スピンに基づくスケーラブル量子コンピュータアーキテクチャのための一元制御パルス設計法を提案する。 スピン相互作用の同時制御を用い、1-および2-量子論理ゲートの普遍集合に対するスピンハミルトンパラメータパルスの関数形式を導出する。 これには、大域的な振動場の存在下での弱局所g因子変動を伴う選択的スピン回転と、g因子と交換結合の同時制御を伴う制御相演算が含まれる。 制御スキームを多ビットゲート演算に一般化する方法とハミルトンパラメータの制約あるいは不完全な制御の場合について概説する。

We present a unitary control pulse design method for a scalable quantum computer architecture based on electron spins in lateral quantum dots. We employ simultaneous control of spin interactions and derive the functional forms of spin Hamiltonian parameter pulses for a universal set of 1- and 2-qubit logic gates. This includes selective spin rotations with the weak local g-factor variations in the presence of the global oscillating field, and a Control-Phase operation with the simultaneous control of g-factors and exchange couplings. We outline how to generalize the control scheme to multiqubit gate operations and the case of constrained or imperfect control of the Hamiltonian parameters.
翻訳日:2024-02-14 16:53:32 公開日:2024-02-13
# 非定常環境における一般化可能な計画と学習のための疫学探査

Epistemic Exploration for Generalizable Planning and Learning in Non-Stationary Settings ( http://arxiv.org/abs/2402.08145v1 )

ライセンス: Link先を確認
Rushang Karia, Pulkit Verma, Alberto Speranzon, Siddharth Srivastava(参考訳) 本稿では,関係表現を用いた非定常確率環境における連続計画とモデル学習のための新しいアプローチを提案する。 このような能力は、不確実で絶え間なく進化する現実世界におけるシーケンシャルな意思決定システムの展開に不可欠である。 未知の(そして非定常的な)遷移システムやタスクの変更でこのような実践的な環境で作業し、提案されたフレームワークはエージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行う。 これらの探索を用いて収集されたデータは、環境力学の継続的な変化にもかかわらず、現在のタスクを解決するための一般化可能な確率モデルを学ぶために使用される。 いくつかのベンチマークドメインにおける経験的評価は、このアプローチが非定常設定のサンプル複雑性の観点から、計画およびrlベースラインを大きく上回っていることを示している。 理論的には、システムは定常性が保たれたときに望ましい収束特性を示すように反転する。

This paper introduces a new approach for continual planning and model learning in non-stationary stochastic environments expressed using relational representations. Such capabilities are essential for the deployment of sequential decision-making systems in the uncertain, constantly evolving real world. Working in such practical settings with unknown (and non-stationary) transition systems and changing tasks, the proposed framework models gaps in the agent's current state of knowledge and uses them to conduct focused, investigative explorations. Data collected using these explorations is used for learning generalizable probabilistic models for solving the current task despite continual changes in the environment dynamics. Empirical evaluations on several benchmark domains show that this approach significantly outperforms planning and RL baselines in terms of sample complexity in non-stationary settings. Theoretical results show that the system reverts to exhibit desirable convergence properties when stationarity holds.
翻訳日:2024-02-14 16:53:12 公開日:2024-02-13
# metatra:unseenドメインにおける一般化軌道予測のためのメタラーニング

MetaTra: Meta-Learning for Generalized Trajectory Prediction in Unseen Domain ( http://arxiv.org/abs/2402.08221v1 )

ライセンス: Link先を確認
Xiaohe Li, Feilong Huang, Zide Fan, Fangli Mou, Yingyan Hou, Chen Qian, Lijie Wen(参考訳) 軌道予測は、自動運転やロボットナビゲーションなど、さまざまな分野で広く注目を集めている。 しかしながら、異なるシナリオにわたる軌道パターンの大幅な変化のため、既知の環境で訓練されたモデルは、しばしば目に見えないものへと変化する。 モデル更新を必要とせず,未認識領域を直接処理できる一般化モデルを学ぶために,メタラーニングに基づく新しい軌道予測法metatraを提案する。 このアプローチにはデュアルトラクタトランスフォーマ(dual-tt)が組み込まれており、多様なシナリオにおいて個々の意図と集団運動パターン内の相互作用を徹底的に探究することができる。 そこで本研究では,ソースドメインとターゲットドメインの一般化プロセスをシミュレートするメタラーニングフレームワークを提案する。 さらに,予測結果の安定性を高めるため,MetaMixという機能拡張手法とともに,SPT(Serial and Parallel Training)戦略を提案する。 いくつかの実世界のデータセットの実験結果から、MetaTraは他の最先端の手法を超えるだけでなく、特にドメインの一般化の領域において、プラグアンドプレイの能力を示すことが確認された。

Trajectory prediction has garnered widespread attention in different fields, such as autonomous driving and robotic navigation. However, due to the significant variations in trajectory patterns across different scenarios, models trained in known environments often falter in unseen ones. To learn a generalized model that can directly handle unseen domains without requiring any model updating, we propose a novel meta-learning-based trajectory prediction method called MetaTra. This approach incorporates a Dual Trajectory Transformer (Dual-TT), which enables a thorough exploration of the individual intention and the interactions within group motion patterns in diverse scenarios. Building on this, we propose a meta-learning framework to simulate the generalization process between source and target domains. Furthermore, to enhance the stability of our prediction outcomes, we propose a Serial and Parallel Training (SPT) strategy along with a feature augmentation method named MetaMix. Experimental results on several real-world datasets confirm that MetaTra not only surpasses other state-of-the-art methods but also exhibits plug-and-play capabilities, particularly in the realm of domain generalization.
翻訳日:2024-02-14 16:45:23 公開日:2024-02-13
# 弱分布オーバーラップ下におけるマルコフ決定過程のオフポリシィ評価

Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap ( http://arxiv.org/abs/2402.08201v1 )

ライセンス: Link先を確認
Mohammad Mehrabi and Stefan Wager(参考訳) 2つのロバストな手法は、連続的無知の下でマルコフ決定プロセス(MDP)において、政治的でない評価をかなり約束する: それらは、1/\sqrt{T}$と水平線$T$に収束し、大きなサンプルで統計的に効率的であることを示し、標準強化学習技術を用いて予備推定タスクを実行できるモジュール実装を可能にする。 しかし、既存の結果は、ターゲットポリシーとデータ収集ポリシーの定常分布が互いに有界な要素内にあるという強い分布重なり仮定を強く利用しており、この仮定は通常、MDPの状態空間が有界である場合にのみ信頼できるものである。 本稿では,分布重なりという弱い概念の下で,mdpにおけるオフポリシー評価の課題を再検討し,この設定でうまく機能する2重結合型推定器(tdr)のクラスを導入する。 対象の分布比とデータ収集ポリシーが二乗積分可能(ただし必ずしも有界ではない)の場合、このアプローチは、強い分布重なりの下で確立された大きなサンプル挙動を回復する。 この比が2乗積分可能でないとき、TDR は依然として整合であるが、1/\sqrt{T}$ よりも遅い値であり、さらにこの収束率は混合条件のみを用いて定義される MDP のクラスに対して最小値である。 提案手法を数値的に検証し, 実験において, 強い分布重なりが生じない場合に, 正確なオフポリシー評価を可能にする上で, 適切な切断が重要な役割を担っていることを見出した。

Doubly robust methods hold considerable promise for off-policy evaluation in Markov decision processes (MDPs) under sequential ignorability: They have been shown to converge as $1/\sqrt{T}$ with the horizon $T$, to be statistically efficient in large samples, and to allow for modular implementation where preliminary estimation tasks can be executed using standard reinforcement learning techniques. Existing results, however, make heavy use of a strong distributional overlap assumption whereby the stationary distributions of the target policy and the data-collection policy are within a bounded factor of each other -- and this assumption is typically only credible when the state space of the MDP is bounded. In this paper, we re-visit the task of off-policy evaluation in MDPs under a weaker notion of distributional overlap, and introduce a class of truncated doubly robust (TDR) estimators which we find to perform well in this setting. When the distribution ratio of the target and data-collection policies is square-integrable (but not necessarily bounded), our approach recovers the large-sample behavior previously established under strong distributional overlap. When this ratio is not square-integrable, TDR is still consistent but with a slower-than-$1/\sqrt{T}$; furthermore, this rate of convergence is minimax over a class of MDPs defined only using mixing conditions. We validate our approach numerically and find that, in our experiments, appropriate truncation plays a major role in enabling accurate off-policy evaluation when strong distributional overlap does not hold.
翻訳日:2024-02-14 16:45:01 公開日:2024-02-13
# クラスワイズスパージャ特徴生成のための微調整テキスト・画像拡散モデル

Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation ( http://arxiv.org/abs/2402.08200v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung, Huy H. Nguyen, Hitoshi Kiya, Isao Echizen(参考訳) 本稿では,大規模テキストから画像への拡散モデルを用いてスプリアス特徴を生成する手法を提案する。 以前の研究では、imagenetのような大規模データセットのスプリアス機能を検出し、スプリアスイメージネットを導入したが、すべてのスプリアスイメージが異なる分類器でスプリアスであるとは限らない。 スプリアス画像は分類器の依存度を測定するのに役立つが、よりスプリアスな特徴を見つけるために多くの画像をインターネットからフィルタリングすることは時間がかかる。 そこで本研究では,大規模テキスト・画像拡散モデルのパーソナライズを行う既存手法を用いて,対向的ロバストモデルのニューラル特徴に基づく新たなスプリアス特徴類似性損失を提案する。 正確には、Spurious ImageNetからのいくつかの参照画像と、提案したスプリアス-フィーチャー類似性損失を組み込んだ修正目的とを微調整する。 実験の結果,異なる分類器で常に散在する散発的画像を生成することができた。 さらに、生成されたスプリアス画像は、Spurious ImageNetの参照画像と視覚的に類似している。

We propose a method for generating spurious features by leveraging large-scale text-to-image diffusion models. Although the previous work detects spurious features in a large-scale dataset like ImageNet and introduces Spurious ImageNet, we found that not all spurious images are spurious across different classifiers. Although spurious images help measure the reliance of a classifier, filtering many images from the Internet to find more spurious features is time-consuming. To this end, we utilize an existing approach of personalizing large-scale text-to-image diffusion models with available discovered spurious images and propose a new spurious feature similarity loss based on neural features of an adversarially robust model. Precisely, we fine-tune Stable Diffusion with several reference images from Spurious ImageNet with a modified objective incorporating the proposed spurious-feature similarity loss. Experiment results show that our method can generate spurious images that are consistently spurious across different classifiers. Moreover, the generated spurious images are visually similar to reference images from Spurious ImageNet.
翻訳日:2024-02-14 16:44:27 公開日:2024-02-13
# psc-cpi : 効率良く汎用的な複合タンパク質相互作用予測のためのマルチスケールタンパク質配列構造コントラスト

PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for Efficient and Generalizable Compound-Protein Interaction Prediction ( http://arxiv.org/abs/2402.08198v1 )

ライセンス: Link先を確認
Lirong Wu, Yufei Huang, Cheng Tan, Zhangyang Gao, Bozhen Hu, Haitao Lin, Zicheng Liu, Stan Z. Li(参考訳) 化合物-プロテイン相互作用(CPI)予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。 既存のディープラーニングベースの手法では、タンパク質配列や構造の単一モダリティのみを使用し、2つのモダリティの結合分布のコモデリングが欠如しており、モダリティの欠如やドメインシフトといったさまざまな要因により、複雑な現実世界のシナリオにおいて大幅なパフォーマンス低下を引き起こす可能性がある。 さらに重要なことは、これらの手法は単一の固定スケールでタンパク質配列と構造をモデル化するだけで、キータンパク質断片に埋め込まれたようなよりきめ細かいマルチスケール情報を無視する。 本稿では、タンパク質配列と構造間の依存性を、モダリティ内およびクロスモダリティコントラストを通じて捉える、cpi予測(psc-cpi)のための、新しい多スケールタンパク質配列構造コントラストフレームワークを提案する。 さらに、アミノ酸レベルから配列レベルまで、異なるスケールでコントラストを行うことができるように、長さ可変タンパク質の増強を適用する。 最後に, モデル一般化可能性をより公平に評価するために, トレーニング段階で化合物やタンパク質が観察されたかどうかに基づいて, テストデータを4つの設定に分割した。 広範な実験により、psc-cpiは4つの設定すべてにおいて、特に訓練中に化合物やタンパク質が観測されていない、より難しい「アンセエン・バイザー」設定においてよく一般化することが示されている。 さらに、モダリティの欠如、すなわち単一のモダリティタンパク質データのみによる推論に遭遇しても、psc-cpiは以前のアプローチと同等あるいはそれ以上のパフォーマンスを示す。

Compound-Protein Interaction (CPI) prediction aims to predict the pattern and strength of compound-protein interactions for rational drug discovery. Existing deep learning-based methods utilize only the single modality of protein sequences or structures and lack the co-modeling of the joint distribution of the two modalities, which may lead to significant performance drops in complex real-world scenarios due to various factors, e.g., modality missing and domain shifting. More importantly, these methods only model protein sequences and structures at a single fixed scale, neglecting more fine-grained multi-scale information, such as those embedded in key protein fragments. In this paper, we propose a novel multi-scale Protein Sequence-structure Contrasting framework for CPI prediction (PSC-CPI), which captures the dependencies between protein sequences and structures through both intra-modality and cross-modality contrasting. We further apply length-variable protein augmentation to allow contrasting to be performed at different scales, from the amino acid level to the sequence level. Finally, in order to more fairly evaluate the model generalizability, we split the test data into four settings based on whether compounds and proteins have been observed during the training stage. Extensive experiments have shown that PSC-CPI generalizes well in all four settings, particularly in the more challenging ``Unseen-Both" setting, where neither compounds nor proteins have been observed during training. Furthermore, even when encountering a situation of modality missing, i.e., inference with only single-modality protein data, PSC-CPI still exhibits comparable or even better performance than previous approaches.
翻訳日:2024-02-14 16:44:08 公開日:2024-02-13
# 変圧器追従のための最適情報流

Optimized Information Flow for Transformer Tracking ( http://arxiv.org/abs/2402.08195v1 )

ライセンス: Link先を確認
Janani Kugarajeevan, Thanikasalam Kokul, Amirthalingam Ramanan, Subha Fernando(参考訳) ワンストリームトランスフォーマートラッカーは、ターゲットテンプレートと検索領域トークン間のインタラクションにより、相互誘導でターゲット指向の機能を抽出できるため、過去3年間で、挑戦的なベンチマークデータセットにおいて優れたパフォーマンスを示している。 以前のアプローチでは、テンプレートと検索トークン間の自由双方向情報フローが、トラッカーの識別能力に影響を与えることなく可能であった。 本研究では,トークンの情報フローに関する詳細な研究を行い,その結果に基づいて,トラッカの識別能力を向上させるための新しい最適化情報フロートラッキング(oiftrack)フレームワークを提案する。 提案したOIFTrackは,検索領域内の多数の非ターゲットトークンがターゲット固有の特徴の重要性を低下させるため,初期エンコーダ層における全ての検索トークンからターゲットテンプレートトークンへのインタラクションをブロックする。 提案するトラッカーのより深いエンコーダ層では,探索トークンをターゲット探索トークンと非ターゲット探索トークンに分割し,ターゲット探索トークンからテンプレートトークンへの双方向フローにより,ターゲットの外観変化をキャプチャする。 また,提案トラッカーには動的背景手がかりが組み込まれているため,対象の周辺情報を捕捉することで,障害対象の回避に成功している。 OIFTrackは、特に一発追跡ベンチマークのGOT-10kで優れた性能を発揮し、平均74.6\%のオーバーラップを達成した。 この作業のコード、モデル、結果は \url{https://github.com/jananikugaa/oiftrack} で入手できる。

One-stream Transformer trackers have shown outstanding performance in challenging benchmark datasets over the last three years, as they enable interaction between the target template and search region tokens to extract target-oriented features with mutual guidance. Previous approaches allow free bidirectional information flow between template and search tokens without investigating their influence on the tracker's discriminative capability. In this study, we conducted a detailed study on the information flow of the tokens and based on the findings, we propose a novel Optimized Information Flow Tracking (OIFTrack) framework to enhance the discriminative capability of the tracker. The proposed OIFTrack blocks the interaction from all search tokens to target template tokens in early encoder layers, as the large number of non-target tokens in the search region diminishes the importance of target-specific features. In the deeper encoder layers of the proposed tracker, search tokens are partitioned into target search tokens and non-target search tokens, allowing bidirectional flow from target search tokens to template tokens to capture the appearance changes of the target. In addition, since the proposed tracker incorporates dynamic background cues, distractor objects are successfully avoided by capturing the surrounding information of the target. The OIFTrack demonstrated outstanding performance in challenging benchmarks, particularly excelling in the one-shot tracking benchmark GOT-10k, achieving an average overlap of 74.6\%. The code, models, and results of this work are available at \url{https://github.com/JananiKugaa/OIFTrack}
翻訳日:2024-02-14 16:43:35 公開日:2024-02-13
# 擬ランダム状態からの量子デジタル署名のブラックボックス分離について

On black-box separations of quantum digital signatures from pseudorandom states ( http://arxiv.org/abs/2402.08194v1 )

ライセンス: Link先を確認
Andrea Coladangelo and Saachi Mutreja(参考訳) デジタルシグネチャはブラックボックス方式で一方通行関数から構築できることはよく知られている。 片道関数は古典暗号において本質的に最小の仮定であるが、量子設定ではそうではない。 定性的に弱い量子仮定(例えば、efiペア、一方向状態生成器、擬似乱数状態)は、非自明な量子暗号には十分であることが知られている。 コミットメント、ゼロ知識証明、マルチパーティ計算さえもこれらの仮定から構築できることは知られているが、量子デジタルシグネチャスキーム(QDS)にも同じことが当てはまるかどうかは未解決のままである。 この研究で、$\textit{does not}$は、線形あるいはより大きな出力長を持つ擬ランダム状態からの古典的なシグネチャを持つQDSスキームのブラックボックス構成が存在することを示す。 この結果は、古典的シグネチャを持つ$\textit{one-time}$ secure QDSスキームを記述したが、標準の$\textit{multi-time}$ secureシグネチャを構築するという疑問を解き放った森前と山川(2022年)を補完する。

It is well-known that digital signatures can be constructed from one-way functions in a black-box way. While one-way functions are essentially the minimal assumption in classical cryptography, this is not the case in the quantum setting. A variety of qualitatively weaker and inherently quantum assumptions (e.g. EFI pairs, one-way state generators, and pseudorandom states) are known to be sufficient for non-trivial quantum cryptography. While it is known that commitments, zero-knowledge proofs, and even multiparty computation can be constructed from these assumptions, it has remained an open question whether the same is true for quantum digital signatures schemes (QDS). In this work, we show that there $\textit{does not}$ exist a black-box construction of a QDS scheme with classical signatures from pseudorandom states with linear, or greater, output length. Our result complements that of Morimae and Yamakawa (2022), who described a $\textit{one-time}$ secure QDS scheme with classical signatures, but left open the question of constructing a standard $\textit{multi-time}$ secure one.
翻訳日:2024-02-14 16:43:09 公開日:2024-02-13
# The COLOSSEUM: ロボットマニピュレーションの一般化評価ベンチマーク

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation ( http://arxiv.org/abs/2402.08191v1 )

ライセンス: Link先を確認
Wilbert Pumacay, Ishika Singh, Jiafei Duan, Ranjay Krishna, Jesse Thomason, Dieter Fox(参考訳) 大規模で現実的なロボット応用を実現するためには,ロボット政策が環境条件の変化にどの程度適応するかを評価する必要がある。 残念なことに、ほとんどの研究はトレーニング環境と近い、あるいは同一の環境におけるロボットのパフォーマンスを評価している。 我々は,環境摂動の12軸にわたるモデルの系統的評価を可能にする,20種類の操作タスクを備えた新しいシミュレーションベンチマークであるThe COLOSSEUMを提案する。 これらの摂動には、色、テクスチャ、オブジェクトのサイズ、テーブルトップ、背景の変化が含まれます。 このコロッセウムを用いて4つの最先端操作モデルを比較し,これらの摂動因子において,その成功率は30~50%に低下することを明らかにした。 複数の摂動が一斉に適用されると、成功率は$\geq$75%低下する。 対象物や対象物の色,照明条件の変化が,モデル性能を最も低下させる摂動であることを確認した。 実験結果の生態学的妥当性を検証するため,シミュレーションの結果は実世界の同様の摂動と相関している(\bar{R}^2 = 0.614$)。 我々は、他者がCOLOSSEUMを使用するためのソースコードを公開し、現実世界の摂動を再現するために使用されるオブジェクトを3Dプリントするコードをリリースする。 最終的には、COLOSSEUMが、操作の一般化を体系的に改善するモデリング決定を識別するためのベンチマークとして機能することを願っている。 詳細はhttps://robot-colosseum.github.io.を参照。

To realize effective large-scale, real-world robotic applications, we must evaluate how well our robot policies adapt to changes in environmental conditions. Unfortunately, a majority of studies evaluate robot performance in environments closely resembling or even identical to the training setup. We present THE COLOSSEUM, a novel simulation benchmark, with 20 diverse manipulation tasks, that enables systematical evaluation of models across 12 axes of environmental perturbations. These perturbations include changes in color, texture, and size of objects, table-tops, and backgrounds; we also vary lighting, distractors, and camera pose. Using THE COLOSSEUM, we compare 4 state-of-the-art manipulation models to reveal that their success rate degrades between 30-50% across these perturbation factors. When multiple perturbations are applied in unison, the success rate degrades $\geq$75%. We identify that changing the number of distractor objects, target object color, or lighting conditions are the perturbations that reduce model performance the most. To verify the ecological validity of our results, we show that our results in simulation are correlated ($\bar{R}^2 = 0.614$) to similar perturbations in real-world experiments. We open source code for others to use THE COLOSSEUM, and also release code to 3D print the objects used to replicate the real-world perturbations. Ultimately, we hope that THE COLOSSEUM will serve as a benchmark to identify modeling decisions that systematically improve generalization for manipulation. See https://robot-colosseum.github.io/ for more details.
翻訳日:2024-02-14 16:42:47 公開日:2024-02-13
# グラフニューラルネットワークと深部演算子ネットワークによる時間依存PDE学習による不規則格子の高精度化

Learning time-dependent PDE via graph neural networks and deep operator network for robust accuracy on irregular grids ( http://arxiv.org/abs/2402.08187v1 )

ライセンス: Link先を確認
Sung Woong Cho, Jae Yong Lee, Hyung Ju Hwang(参考訳) ディープラーニングを用いた科学計算は近年大きな進歩を遂げている。 偏微分方程式(PDE)のパラメータから対応する解への演算子学習モデルへの関心が高まっている。 ディープオペレータネットワーク(deeponet)とフーリエニューラルオペレータ(fourier neural operator)は、入力と出力として関数を扱うのに適した構造で設計されており、ソリューションオペレーターのサロゲートモデルとしてリアルタイム予測を可能にする。 また、グラフニューラルネットワーク(GNN)に基づく代理モデルの研究にも大きな進展があり、特に時間依存PDEのダイナミクスをターゲットにしている。 本稿では,GNNをベースとした自己回帰モデルであるGraphDeepONetを提案する。 GraphDeepONetは、既存のGNNベースのPDEソルバモデルと比較して、ソリューションの予測に堅牢な精度を示す。 不規則なグリッドでも一貫したパフォーマンスを維持し、deeponetから受け継いだ利点を活用し、任意のグリッドでの予測を可能にする。 さらに、従来のDeepONetとその変種とは異なり、GraphDeepONetは時間依存のPDEソリューションの時間外挿を可能にする。 また,任意の時間間隔にわたって連続作用素を近似するグラフdeeponetの普遍近似能力を理論的に解析する。

Scientific computing using deep learning has seen significant advancements in recent years. There has been growing interest in models that learn the operator from the parameters of a partial differential equation (PDE) to the corresponding solutions. Deep Operator Network (DeepONet) and Fourier Neural operator, among other models, have been designed with structures suitable for handling functions as inputs and outputs, enabling real-time predictions as surrogate models for solution operators. There has also been significant progress in the research on surrogate models based on graph neural networks (GNNs), specifically targeting the dynamics in time-dependent PDEs. In this paper, we propose GraphDeepONet, an autoregressive model based on GNNs, to effectively adapt DeepONet, which is well-known for successful operator learning. GraphDeepONet exhibits robust accuracy in predicting solutions compared to existing GNN-based PDE solver models. It maintains consistent performance even on irregular grids, leveraging the advantages inherited from DeepONet and enabling predictions on arbitrary grids. Additionally, unlike traditional DeepONet and its variants, GraphDeepONet enables time extrapolation for time-dependent PDE solutions. We also provide theoretical analysis of the universal approximation capability of GraphDeepONet in approximating continuous operators across arbitrary time intervals.
翻訳日:2024-02-14 16:42:21 公開日:2024-02-13
# データ駆動型気象予報の強化:ERA5のタイムスライディングデータ強化

Advancing Data-driven Weather Forecasting: Time-Sliding Data Augmentation of ERA5 ( http://arxiv.org/abs/2402.08185v1 )

ライセンス: Link先を確認
Minjong Cheon, Daehyun Kang, Yo-Hwan Choi, and Seon-Yu Kang(参考訳) 従来の数値気象予測(nwp)モデルを模倣し、地球規模の大気再分析データに由来する最新のディープラーニング技術は、数年のうちに大きな革命を引き起こした。 この新たなパラダイムでは、計算資源に制約されることが多い高解像度データへの共通依存から逸脱し、地球規模の天気予報や気候データ解析に低解像度データ(2.5度)を用いる新しい戦略を導入する。 データ駆動型気象予報(ddwp)フレームワークの評価、特にサンプルサイズの妥当性、モデルの構造的改善、気候データによる現在の気候トレンドの表現能力に重点を置いています。 The Adaptive Fourier Neural Operator (AFNO) model via FourCastNet and a proposed time-sliding method to inflate the dataset of the ECMWF Reanalysis v5 (ERA5)により、より多くの変数を追加して従来のアプローチを改善し、データ拡張と処理に対する新しいアプローチを提案する。 その結果, 提案手法は低分解能にもかかわらず, 高分解能モデルに匹敵する大気条件の予測精度が高いことがわかった。 さらに,現在の気候動向を反映するモデルの習熟度と将来の気候事象を予測する可能性を確認し,気候変動戦略におけるその有用性を強調した。 この研究は気象予報の領域において重要なステップであり、よりアクセス可能で包括的な気候モデリングのための信頼できる予測と道を開く上で、低分解能データの実現可能性を示している。 この研究から得られた洞察は、気候科学の発展に寄与するだけでなく、この分野における将来のイノベーションの基盤となった。

Modern deep learning techniques, which mimic traditional numerical weather prediction (NWP) models and are derived from global atmospheric reanalysis data, have caused a significant revolution within a few years. In this new paradigm, our research introduces a novel strategy that deviates from the common dependence on high-resolution data, which is often constrained by computational resources, and instead utilizes low-resolution data (2.5 degrees) for global weather prediction and climate data analysis. Our main focus is evaluating data-driven weather prediction (DDWP) frameworks, specifically addressing sample size adequacy, structural improvements to the model, and the ability of climate data to represent current climatic trends. By using the Adaptive Fourier Neural Operator (AFNO) model via FourCastNet and a proposed time-sliding method to inflate the dataset of the ECMWF Reanalysis v5 (ERA5), this paper improves on conventional approaches by adding more variables and a novel approach to data augmentation and processing. Our findings reveal that despite the lower resolution, the proposed approach demonstrates considerable accuracy in predicting atmospheric conditions, effectively rivaling higher-resolution models. Furthermore, the study confirms the model's proficiency in reflecting current climate trends and its potential in predicting future climatic events, underscoring its utility in climate change strategies. This research marks a pivotal step in the realm of meteorological forecasting, showcasing the feasibility of lower-resolution data in producing reliable predictions and opening avenues for more accessible and inclusive climate modeling. The insights gleaned from this study not only contribute to the advancement of climate science but also lay the groundwork for future innovations in the field.
翻訳日:2024-02-14 16:41:59 公開日:2024-02-13
# シナリオ独立表現によるマルチエージェント転送強化学習の実現

Enabling Multi-Agent Transfer Reinforcement Learning via Scenario Independent Representation ( http://arxiv.org/abs/2402.08184v1 )

ライセンス: Link先を確認
Ayesha Siddika Nipu, Siming Liu, Anthony Harris(参考訳) マルチエージェント強化学習(MARL)アルゴリズムは、動的マルチエージェントシステム(MAS)におけるエージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。 しかし、このようなタスクをスクラッチから学習することは困難であり、特に多数の対話型エージェントを持つMASにとって、必ずしも実現不可能であるとは限らない。 したがって、過去の経験やその他のエージェントから得た知識を再利用することで、学習プロセスとMARLアルゴリズムを効率的に高速化することができる。 本研究では,多種多様な状態空間を固定サイズの入力に統一することで,MAS内の異なるシナリオで一貫した深層学習ポリシーを実現できる新しいフレームワークを提案する。 我々は、starcraft multi-agent challenge (smac)環境における様々なシナリオにおいて、このアプローチを評価し、スクラッチから学習するエージェントと比較して、他のシナリオから学習した操作スキルを用いて、マルチエージェント学習性能が大幅に向上することを示した。 さらに,我々はカリキュラム・トランスファー・ラーニング(ctl)を採用し,難易度レベルに整理された事前設計された均質な学習シナリオを通じて,学習方針の知識とスキルの段階的獲得を可能にした。 このプロセスはエージェント間の知識伝達を促進し、より複雑なヘテロジニアスシナリオにおけるマルチエージェント学習のパフォーマンスを高める。

Multi-Agent Reinforcement Learning (MARL) algorithms are widely adopted in tackling complex tasks that require collaboration and competition among agents in dynamic Multi-Agent Systems (MAS). However, learning such tasks from scratch is arduous and may not always be feasible, particularly for MASs with a large number of interactive agents due to the extensive sample complexity. Therefore, reusing knowledge gained from past experiences or other agents could efficiently accelerate the learning process and upscale MARL algorithms. In this study, we introduce a novel framework that enables transfer learning for MARL through unifying various state spaces into fixed-size inputs that allow one unified deep-learning policy viable in different scenarios within a MAS. We evaluated our approach in a range of scenarios within the StarCraft Multi-Agent Challenge (SMAC) environment, and the findings show significant enhancements in multi-agent learning performance using maneuvering skills learned from other scenarios compared to agents learning from scratch. Furthermore, we adopted Curriculum Transfer Learning (CTL), enabling our deep learning policy to progressively acquire knowledge and skills across pre-designed homogeneous learning scenarios organized by difficulty levels. This process promotes inter- and intra-agent knowledge transfer, leading to high multi-agent learning performance in more complicated heterogeneous scenarios.
翻訳日:2024-02-14 16:41:27 公開日:2024-02-13
# ピクセル文表現学習

Pixel Sentence Representation Learning ( http://arxiv.org/abs/2402.08183v1 )

ライセンス: Link先を確認
Chenghao Xiao, Zhuoxu Huang, Danlu Chen, G Thomas Hudson, Yizhi Li, Haoran Duan, Chenghua Lin, Jie Fu, Jungong Han, Noura Al Moubayed(参考訳) 事前学習された言語モデルは、文と文書レベルのセマンティクスを捉えることで長く知られている。 しかし、教師なし視覚表現学習からNLPへの摂動に基づく手法の移行は未解決の問題である。 これは主に、言語モデルのトークン化によるサブワード単位の離散性によるものであり、入力の小さな摂動を制限することで意味論的保存された正の対を形成する。 本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。 認知・言語科学を題材として,タイポスや単語順のシャッフルといった視覚的に接地したテキスト摂動法を用いて,人間の認知パターンと共振し,テキストの摂動を連続的に知覚する,教師なしの視覚表現学習フレームワークを提案する。 このアプローチは,大規模非教師なしのトピックアライメントトレーニングと自然言語推論の監督によってさらに強化され,既存のnlpメソッドとsemantic textual similarity (sts)で同等のパフォーマンスを達成している。 さらに,本手法が持つゼロショット言語間伝達可能性と,反復学習中の言語間における独自の跳躍パターンを提示する。 我々の知る限り、これは文章や文書の意味を理解する従来の言語モデルに欠ける最初の表現学習手法であり、人間のような文章理解に近づきつつあることを示す。 私たちのコードはhttps://github.com/gowitheflow-1998/Pixel-Linguistで利用可能です。

Pretrained language models are long known to be subpar in capturing sentence and document-level semantics. Though heavily investigated, transferring perturbation-based methods from unsupervised visual representation learning to NLP remains an unsolved problem. This is largely due to the discreteness of subword units brought by tokenization of language models, limiting small perturbations of inputs to form semantics-preserved positive pairs. In this work, we conceptualize the learning of sentence-level textual semantics as a visual representation learning process. Drawing from cognitive and linguistic sciences, we introduce an unsupervised visual sentence representation learning framework, employing visually-grounded text perturbation methods like typos and word order shuffling, resonating with human cognitive patterns, and enabling perturbation to texts to be perceived as continuous. Our approach is further bolstered by large-scale unsupervised topical alignment training and natural language inference supervision, achieving comparable performance in semantic textual similarity (STS) to existing state-of-the-art NLP methods. Additionally, we unveil our method's inherent zero-shot cross-lingual transferability and a unique leapfrogging pattern across languages during iterative training. To our knowledge, this is the first representation learning method devoid of traditional language models for understanding sentence and document semantics, marking a stride closer to human-like textual comprehension. Our code is available at https://github.com/gowitheflow-1998/Pixel-Linguist
翻訳日:2024-02-14 16:41:03 公開日:2024-02-13
# 変動連続テスト時間適応

Variational Continual Test-Time Adaptation ( http://arxiv.org/abs/2402.08182v1 )

ライセンス: Link先を確認
Fan Lyu, Kaile Du, Yuyang Li, Hanyu Zhao, Zhang Zhang, Guangcan Liu, Liang Wang(参考訳) 事前のドリフトは、ラベルのないテストデータのみを使用するCTTA(Continuous Test-Time Adaptation)メソッドにおいて重要である。 本稿では,CTTAの不確実性を測定するための変分ベイズアプローチであるVCoTTAを紹介する。 原点では,事前学習した決定論的モデルを変分ウォームアップ戦略によりベイズニューラルネットワーク(BNN)に変換し,不確実性をモデルに注入する。 テスト期間中は,生徒モデルに対する変分推論と教師モデルに対する指数移動平均を用いた平均教師更新戦略を採用する。 我々の新しいアプローチは,教師モデルと教師モデルの両方の事前知識を組み合わせることで,学生モデルを更新する。 証拠の下位境界は、学生モデルと教師モデルの間の交叉エントロピーとして定式化され、それ以前の混合のKL(Kulback-Leibler)分散とともに定式化される。 3つのデータセットの実験結果から,CTTAフレームワーク内でのドリフトを緩和する手法の有効性が示された。

The prior drift is crucial in Continual Test-Time Adaptation (CTTA) methods that only use unlabeled test data, as it can cause significant error propagation. In this paper, we introduce VCoTTA, a variational Bayesian approach to measure uncertainties in CTTA. At the source stage, we transform a pre-trained deterministic model into a Bayesian Neural Network (BNN) via a variational warm-up strategy, injecting uncertainties into the model. During the testing time, we employ a mean-teacher update strategy using variational inference for the student model and exponential moving average for the teacher model. Our novel approach updates the student model by combining priors from both the source and teacher models. The evidence lower bound is formulated as the cross-entropy between the student and teacher models, along with the Kullback-Leibler (KL) divergence of the prior mixture. Experimental results on three datasets demonstrate the method's effectiveness in mitigating prior drift within the CTTA framework.
翻訳日:2024-02-14 16:40:36 公開日:2024-02-13
# ロジスティック損失を伴うオンライン多クラス分類におけるFenchel-Young LossesとSurrogate Regretの改善によるオンライン構造化予測

Online Structured Prediction with Fenchel--Young Losses and Improved Surrogate Regret for Online Multiclass Classification with Logistic Loss ( http://arxiv.org/abs/2402.08180v1 )

ライセンス: Link先を確認
Shinsaku Sakaue, Han Bao, Taira Tsuchiya, Taihei Oki(参考訳) 本稿では,全情報フィードバックによるオンライン構造化予測について検討する。 オンライン多クラス分類において、van der Hoeven (2020) は、時間地平線とは無関係に、上品な \emph{exploit-the-surrogate-gap} フレームワークを導入することで、補遺境界を得た。 しかし、このフレームワークは主に、推定スコアを出力に変換するための分類固有の手順に依存するため、マルチクラス分類に限られている。 我々は,多クラス分類におけるロジスティックな損失を含む大規模なサロゲート損失ファミリーである 'emph{Fenchel-Young loss} によるオンライン構造化予測にエクスプロイト・ザ・サロゲート・ギャップ・フレームワークを拡張し,構造化予測問題における有限サロゲート・リセット境界を求める。 この目的のために,推定スコアを一般的な構造化出力に変換する \emph{randomized decoding} を提案し,解析する。 さらに、ロジスティック損失を伴うオンラインマルチクラス分類にデコードを適用することで、o(b^2)$というサロゲートな後悔が得られ、ここでは$b$がドメインの$\ell_2$-diameterである。 この境界は対数的因子に強くなり、ファン・デル・ホーヴェン (2020) による以前の$O(dB^2)$の上限は、クラスの数である$d$の因子によって改善される。

This paper studies online structured prediction with full-information feedback. For online multiclass classification, van der Hoeven (2020) has obtained surrogate regret bounds independent of the time horizon, or \emph{finite}, by introducing an elegant \emph{exploit-the-surrogate-gap} framework. However, this framework has been limited to multiclass classification primarily because it relies on a classification-specific procedure for converting estimated scores to outputs. We extend the exploit-the-surrogate-gap framework to online structured prediction with \emph{Fenchel--Young losses}, a large family of surrogate losses including the logistic loss for multiclass classification, obtaining finite surrogate regret bounds in various structured prediction problems. To this end, we propose and analyze \emph{randomized decoding}, which converts estimated scores to general structured outputs. Moreover, by applying our decoding to online multiclass classification with the logistic loss, we obtain a surrogate regret bound of $O(B^2)$, where $B$ is the $\ell_2$-diameter of the domain. This bound is tight up to logarithmic factors and improves the previous bound of $O(dB^2)$ due to van der Hoeven (2020) by a factor of $d$, the number of classes.
翻訳日:2024-02-14 16:40:19 公開日:2024-02-13
# LoTa-Bench: エージェントの言語指向タスクプランナのベンチマーク

LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents ( http://arxiv.org/abs/2402.08178v1 )

ライセンス: Link先を確認
Jae-Woo Choi and Youngwoo Yoon and Hyobin Ong and Jaehong Kim and Minsu Jang(参考訳) 大規模言語モデル (LLM) はタスク計画のための代替ソリューションとして最近注目されている。 しかし,言語指向タスクプランナの性能比較は困難となり,事前学習モデル選択や迅速な構築など,さまざまな要因がもたらす影響について,詳細な調査が行われている。 そこで本研究では,ホームサービス実施エージェントのタスクプランニング性能を自動定量化するベンチマークシステムを提案する。 タスクプランナは2組のデータセットとシミュレータでテストされます。 1)ALFREDとAI2-THOR 2) Watch-And-HelpとVirtualHomeの拡張。 提案するベンチマークシステムを用いて,LLMとプロンプトを用いた広範囲な実験を行い,ベースラインプランナの強化について検討する。 提案するベンチマークツールは,言語指向タスクプランナの開発を加速することを期待している。

Large language models (LLMs) have recently received considerable attention as alternative solutions for task planning. However, comparing the performance of language-oriented task planners becomes difficult, and there exists a dearth of detailed exploration regarding the effects of various factors such as pre-trained model selection and prompt construction. To address this, we propose a benchmark system for automatically quantifying performance of task planning for home-service embodied agents. Task planners are tested on two pairs of datasets and simulators: 1) ALFRED and AI2-THOR, 2) an extension of Watch-And-Help and VirtualHome. Using the proposed benchmark system, we perform extensive experiments with LLMs and prompts, and explore several enhancements of the baseline planner. We expect that the proposed benchmark tool would accelerate the development of language-oriented task planners.
翻訳日:2024-02-14 16:39:44 公開日:2024-02-13
# 統計的任意オートエンコーダアーキテクチャのエンドツーエンド政策学習

End-to-End Policy Learning of a Statistical Arbitrage Autoencoder Architecture ( http://arxiv.org/abs/2402.08233v1 )

ライセンス: Link先を確認
Fabian Krause, Jan-Peter Calliess(参考訳) 統計アービタージュ(StatArb)では、古典的な平均回帰トレーディング戦略は、通常、合成資産の平均を特定するために、資産価格またはPCAベースのモデルにヒンジする。 そのような(線形)モデルが特定されると、トレーディング信号を生成するために別の平均反転戦略が考案される。 このようなアプローチを一般化し、真にデータ駆動にすることで、statarbにおけるオートエンコーダアーキテクチャの有用性を探求する。 最初のアプローチとして、米国株のリターンに基づいて訓練された標準のAutoencoderを使用して、Ornstein-Uhlenbeck(OU)プロセスに基づいたトレーディング戦略を導出する。 このモデルをさらに強化するために、ポリシー学習アプローチを採用し、ポートフォリオ取引ポリシーの空間のニューラルネットワーク表現にAutoencoderネットワークを組み込む。 この統合は、ポートフォリオアロケーションを直接出力し、ニューラルネットワークポリシのリスク調整されたリターンのバックプロパゲーションによってエンドツーエンドでトレーニング可能である。 本研究は,この革新的なエンドツーエンド政策学習アプローチが戦略開発プロセスを単純化するだけでなく,古典的な2段階アプローチに対するエンドツーエンドトレーニングの可能性を示すコンペティターよりも優れた総利益をもたらすことを示した。

In Statistical Arbitrage (StatArb), classical mean reversion trading strategies typically hinge on asset-pricing or PCA based models to identify the mean of a synthetic asset. Once such a (linear) model is identified, a separate mean reversion strategy is then devised to generate a trading signal. With a view of generalising such an approach and turning it truly data-driven, we study the utility of Autoencoder architectures in StatArb. As a first approach, we employ a standard Autoencoder trained on US stock returns to derive trading strategies based on the Ornstein-Uhlenbeck (OU) process. To further enhance this model, we take a policy-learning approach and embed the Autoencoder network into a neural network representation of a space of portfolio trading policies. This integration outputs portfolio allocations directly and is end-to-end trainable by backpropagation of the risk-adjusted returns of the neural policy. Our findings demonstrate that this innovative end-to-end policy learning approach not only simplifies the strategy development process, but also yields superior gross returns over its competitors illustrating the potential of end-to-end training over classical two-stage approaches.
翻訳日:2024-02-14 16:33:00 公開日:2024-02-13
# 標的外介入による因果発見

Causal Discovery under Off-Target Interventions ( http://arxiv.org/abs/2402.08229v1 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur, Caroline Uhler(参考訳) 因果グラフ発見は様々な分野の応用において重要な問題である。 しかし、観測データだけでは、基礎となる因果グラフはそのマルコフ同値クラスまでしか回復できず、真のグラフを狭めるにはさらなる仮定や介入が必要となる。 本研究は,確率的介入の設定による因果発見問題に対処し,実施する介入数の最小化という自然な目標を掲げる。 そこで本研究では,脂肪手介入やCRISPR遺伝子ノックアウトなどのシナリオを捉えつつ,文献中の適応的ノイズレス介入を仮定する確率的介入モデルを提案する。 本モデルでは,検証と探索の因果的発見における2つの基本的な問題を考察し,多対数競合比の近似アルゴリズムを提供し,予備的な実験結果を提供する。

Causal graph discovery is a significant problem with applications across various disciplines. However, with observational data alone, the underlying causal graph can only be recovered up to its Markov equivalence class, and further assumptions or interventions are necessary to narrow down the true graph. This work addresses the causal discovery problem under the setting of stochastic interventions with the natural goal of minimizing the number of interventions performed. We propose the following stochastic intervention model which subsumes existing adaptive noiseless interventions in the literature while capturing scenarios such as fat-hand interventions and CRISPR gene knockouts: any intervention attempt results in an actual intervention on a random subset of vertices, drawn from a distribution dependent on attempted action. Under this model, we study the two fundamental problems in causal discovery of verification and search and provide approximation algorithms with polylogarithmic competitive ratios and provide some preliminary experimental results.
翻訳日:2024-02-14 16:32:39 公開日:2024-02-13
# gnnのアウトオブディストリビューション一般化に関する研究--アーキテクチャの観点から

Investigating Out-of-Distribution Generalization of GNNs: An Architecture Perspective ( http://arxiv.org/abs/2402.08228v1 )

ライセンス: Link先を確認
Kai Guo, Hongzhi Wen, Wei Jin, Yaming Guo, Jiliang Tang, Yi Chang(参考訳) グラフニューラルネットワーク(GNN)は、テストデータがトレーニングデータの同じ分布から来るという仮定の下で、顕著なパフォーマンスを示している。 しかし、現実のシナリオでは、この仮定は必ずしも有効とは限らない。 その結果、グラフの文脈でOOD(Out-of-Distribution)問題を探求することに注目が集まっている。 既存の取り組みのほとんどは、データ駆動手法と戦略に基づく学習という、2つの‘textbf{model-agnostic’の観点からのグラフOODの一般化の改善に集中している。 しかし、既存の研究と直交するグラフ OOD 一般化に対するよく知られた \textbf{GNN model architectures} の影響を調べることには、限定的な注意が払われている。 本稿では,近年のGNNの共通構築ブロックを調べることで,アーキテクチャの観点からのグラフのOOD一般化に関する包括的調査を行う。 広範な実験を通して、グラフ自己認識機構と疎結合アーキテクチャの両方がグラフOOD一般化に肯定的に寄与することを明らかにする。 対照的に、線形分類層はグラフOOD一般化能力を損なう傾向がある。 さらに、これらの発見を裏付ける深い理論的洞察と議論を提供する。 これらの知見により、グラフ自己保持機構と疎結合アーキテクチャの両方の堅牢性を活用するために設計された新しいGNNバックボーンモデルであるDGATを開発することができる。 広範な実験結果から,本モデルの有効性が示され,様々なトレーニング戦略において有意かつ一貫した強化が得られた。

Graph neural networks (GNNs) have exhibited remarkable performance under the assumption that test data comes from the same distribution of training data. However, in real-world scenarios, this assumption may not always be valid. Consequently, there is a growing focus on exploring the Out-of-Distribution (OOD) problem in the context of graphs. Most existing efforts have primarily concentrated on improving graph OOD generalization from two \textbf{model-agnostic} perspectives: data-driven methods and strategy-based learning. However, there has been limited attention dedicated to investigating the impact of well-known \textbf{GNN model architectures} on graph OOD generalization, which is orthogonal to existing research. In this work, we provide the first comprehensive investigation of OOD generalization on graphs from an architecture perspective, by examining the common building blocks of modern GNNs. Through extensive experiments, we reveal that both the graph self-attention mechanism and the decoupled architecture contribute positively to graph OOD generalization. In contrast, we observe that the linear classification layer tends to compromise graph OOD generalization capability. Furthermore, we provide in-depth theoretical insights and discussions to underpin these discoveries. These insights have empowered us to develop a novel GNN backbone model, DGAT, designed to harness the robust properties of both graph self-attention mechanism and the decoupled architecture. Extensive experimental results demonstrate the effectiveness of our model under graph OOD, exhibiting substantial and consistent enhancements across various training strategies.
翻訳日:2024-02-14 16:32:25 公開日:2024-02-13
# インスタンス難読化によるプライバシ保護言語モデル推論

Privacy-Preserving Language Model Inference with Instance Obfuscation ( http://arxiv.org/abs/2402.08227v1 )

ライセンス: Link先を確認
Yixiang Yao, Fei Wang, Srivatsan Ravi, Muhao Chen(参考訳) 言語モデル・アズ・ア・サービス(LMaaS)は、開発者や研究者が事前訓練された言語モデルを使用して推論を行うための便利なアクセスを提供する。 それでも、プライベート情報を含む入力データと推論結果は、サービスコール中にプレーンテキストとして公開され、プライバシー上の問題が発生する。 近年の研究では、入力データをノイズ付加やコンテンツ摂動といった手法でユーザエンドからプライバシ保存表現に変換することにより、プライバシの問題に対処し始めている一方、推論結果保護、すなわちプライバシの探索は依然として空白のページである。 LMaaSのブラックボックス方式を維持するためには、特に決定のためにデータプライバシ保護を行うのは、プロセスがモデルにシームレスで、限られた通信と計算オーバーヘッドを伴わなければならないため、難しい作業である。 そこで本研究では,自然言語理解タスクにおける決定的プライバシ問題に対処することを目的としたIOI手法を提案する。 さらに,様々なベンチマークタスクにおいて,提案手法のプライバシー保護強度と性能を評価するための総合的な実験を行った。

Language Models as a Service (LMaaS) offers convenient access for developers and researchers to perform inference using pre-trained language models. Nonetheless, the input data and the inference results containing private information are exposed as plaintext during the service call, leading to privacy issues. Recent studies have started tackling the privacy issue by transforming input data into privacy-preserving representation from the user-end with the techniques such as noise addition and content perturbation, while the exploration of inference result protection, namely decision privacy, is still a blank page. In order to maintain the black-box manner of LMaaS, conducting data privacy protection, especially for the decision, is a challenging task because the process has to be seamless to the models and accompanied by limited communication and computation overhead. We thus propose Instance-Obfuscated Inference (IOI) method, which focuses on addressing the decision privacy issue of natural language understanding tasks in their complete life-cycle. Besides, we conduct comprehensive experiments to evaluate the performance as well as the privacy-protection strength of the proposed method on various benchmarking tasks.
翻訳日:2024-02-14 16:31:59 公開日:2024-02-13
# NISQ機器の騒音認識ユーティリティ最適化

Noise Aware Utility Optimization of NISQ Devices ( http://arxiv.org/abs/2402.08226v1 )

ライセンス: Link先を確認
Jean-Baptiste Waring, Christophe Pere and Sebastien Le Beux(参考訳) 実用性の時代に入るためには、ノイズの多い中間スケール量子(NISQ)デバイスは大きな量子ビット鎖の長距離絡み合いを可能にする必要がある。 しかし, 超伝導NISQデバイスとの接続が限られているため, 長距離エンタングルゲートが線形深さで実現されている。 さらに, 平均CNOTゲート密度の時間依存性劣化が観察された。 老化により、この現象はさらに絡み合い能力を低下させる。 私たちの目標は、実用性を達成するための現在の取り組みを支援し、現在のデバイスのユーティリティ寿命を拡張する機会を提供することです。 これを実現するために、ユーザが提供するcnotと読み出しエラー要求を、回路の実行可能なコンプライアントパーティションに変換する方法を提案する。 長さ50 qubits のランダムな cnot チェーンでは最大 52% の忠実性が向上し,10 段階ごとに 10 から 40 のチェーンでは 11.8% と 47.7% の一貫性が向上した。

In order to enter the era of utility, noisy intermediate-scale quantum (NISQ) devices need to enable long-range entanglement of large qubit chains. However, due to the limited connectivity of superconducting NISQ devices, long-range entangling gates are realized in linear depth. Furthermore, a time-dependent degradation of the average CNOT gate fidelity is observed. Likely due to aging, this phenomenon further degrades entanglement capabilities. Our aim is to help in the current efforts to achieve utility and provide an opportunity to extend the utility lifespan of current devices --albeit by selecting fewer, high quality resources. To achieve this, we provide a method to transform user-provided CNOT and readout error requirements into a compliant partition onto which circuits can be executed. We demonstrate an improvement of up to 52% in fidelity for a random CNOT chain of length 50 qubits and consistent improvements between 11.8% and 47.7% for chains between 10 and 40 in varying in increments of 10, respectively.
翻訳日:2024-02-14 16:31:39 公開日:2024-02-13
# インコンテキスト書き換えによるブラックボックスロバストネスの改善

Improving Black-box Robustness with In-Context Rewriting ( http://arxiv.org/abs/2402.08225v1 )

ライセンス: Link先を確認
Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen(参考訳) マシンラーニングモデルは、しばしば非分散(in-distribution, id)データに優れているが、ood(unseen out-distribution)入力に苦しむ。 OODロバスト性を改善するほとんどのテクニックは、重量が凍結されたり、再トレーニングがコストがかかるり、あるいはAPI経由でモデルを利用するような、モデルが事実上ブラックボックスであるような設定には適用できない。 TTA(Test-time augmentation)は、テスト入力の複数の拡張にまたがる予測を集約することでブラックボックス制約を傍受するロバスト性を改善する単純なポストホック手法である。 TTAは、効果的な自然言語拡張を生成することの難しさから、NLPでの使用が制限されている。 本研究では,LLM生成オーグメンテーションをTTAのオーグメンテーション関数として用いるLLM-TTAを提案する。 LLM-TTA は BERT と T5 のモデルにおいて、感情、毒性、ニュース分類といった従来の拡張機能よりも優れており、BERT の OOD の堅牢性は平均 4.30 ポイント向上している。 予測エントロピーに基づいて入力を選択的に増補し、高価なllm増補率を削減し、生成した増補の平均数を57.76%削減しながら性能向上を維持する。 LLM-TTAはタスクモデルアーキテクチャに非依存であり、OODラベルを必要としない。 再現性のためのデータ、モデル、コードを共有しています。

Machine learning models often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.30 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.76%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility.
翻訳日:2024-02-14 16:31:20 公開日:2024-02-13
# BBox-Adapter: ブラックボックス大言語モデルの軽量適応

BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models ( http://arxiv.org/abs/2402.08219v1 )

ライセンス: Link先を確認
Haotian Sun, Yuchen Zhuang, Wei Wei, Chao Zhang, Bo Dai(参考訳) GPT-4やGeminiのような最先端の大規模言語モデル(LLM)を特定のタスクに適用することは困難である。 パラメータの不透明性、埋め込み、さらには出力確率のため、既存の微調整適応法は適用できない。 したがって、これらのブラックボックス LLM の適用は、API サービスを通じてのみ可能であり、透明性、プライバシ、コストに関する懸念を提起する。 これらの課題に対処するために、ブラックボックスLLM用の新しい軽量アダプタであるBBox-Adapterを紹介する。 BBox-Adapterは、ターゲットデータを正、ソースデータを負として扱うことにより、ターゲットとソースのドメインデータを区別する。 ランキングベースのノイズコントラスト推定(NCE)損失を使用して、ソースドメインのデータをペナルティ化しながら、ターゲットドメインデータの可能性を促進する。 さらに、グラウンドトゥルース、人間、AIフィードバックからリアルタイムのポジティブデータサンプリングと、以前の適応からのネガティブデータを含む、オンライン適応メカニズムも備えている。 広範な実験により、bbox-adapterの有効性とコスト効率が実証された。 様々なタスクやドメインのモデルパフォーマンスを最大6.77%改善するとともに、トレーニングと推論のコストをそれぞれ31.30xと1.84x削減する。

Adapting state-of-the-art Large Language Models (LLMs) like GPT-4 and Gemini for specific tasks is challenging. Due to the opacity in their parameters, embeddings, and even output probabilities, existing fine-tuning adaptation methods are inapplicable. Consequently, adapting these black-box LLMs is only possible through their API services, raising concerns about transparency, privacy, and cost. To address these challenges, we introduce BBox-Adapter, a novel lightweight adapter for black-box LLMs. BBox-Adapter distinguishes target and source domain data by treating target data as positive and source data as negative. It employs a ranking-based Noise Contrastive Estimation (NCE) loss to promote the likelihood of target domain data while penalizing that of the source domain. Furthermore, it features an online adaptation mechanism, which incorporates real-time positive data sampling from ground-truth, human, or AI feedback, coupled with negative data from previous adaptations. Extensive experiments demonstrate BBox-Adapter's effectiveness and cost efficiency. It improves model performance by up to 6.77% across diverse tasks and domains, while reducing training and inference costs by 31.30x and 1.84x, respectively.
翻訳日:2024-02-14 16:30:52 公開日:2024-02-13
# ヒトの作業記憶タスクで訓練した前頭前頭前歯部ゲーティング動作のトランスフォーマー機構

Transformer Mechanisms Mimic Frontostriatal Gating Operations When Trained on Human Working Memory Tasks ( http://arxiv.org/abs/2402.08211v1 )

ライセンス: Link先を確認
Aaron Traylor, Jack Merullo, Michael J. Frank, Ellie Pavlick(参考訳) Transformerニューラルネットワークアーキテクチャに基づくモデルでは、複雑な"認知ブランチ"を必要とするさまざまなタスク、あるいは目標の追求を他の目標を達成する上で維持する能力において、成功している。 認知神経科学において、このようなタスクの成功は、選択的 \textit{gating} のための洗練された前頭骨機構に依存しており、ニューロンのクラスターの形で、記憶の異なる「アドレス」への情報のロールアドレス付き更新(後に読み出し)を可能にする。 しかし、トランスフォーマーは意図的にそのような機構を組み込んでいない。 そのため、トランスフォーマーがこのような課題をどう解決するか、そしてそれを助けるメカニズムが人間の脳のゲーティング機構とどんな類似性を持つのか、という疑問が開かれています。 本研究では,計算認知神経科学における作業記憶ゲーティングを明示的に研究するために設計されたタスクに触発された単純なシーケンスモデリングタスクで訓練されたバニラ注意のみのトランスフォーマーの内部に現れるメカニズムを分析する。 トレーニングの結果、トランスフォーマー内の自己保持機構は、より生物学的に着想を得た以前のアーキテクチャに明示的に組み込まれた入力と出力のゲーティング機構を反映する方法で特化していることがわかった。 これらの結果は、現代のAIアーキテクチャと人間の脳のモデルとの計算的類似性に関する将来の研究の機会を示唆している。

Models based on the Transformer neural network architecture have seen success on a wide variety of tasks that appear to require complex "cognitive branching" -- or the ability to maintain pursuit of one goal while accomplishing others. In cognitive neuroscience, success on such tasks is thought to rely on sophisticated frontostriatal mechanisms for selective \textit{gating}, which enable role-addressable updating -- and later readout -- of information to and from distinct "addresses" of memory, in the form of clusters of neurons. However, Transformer models have no such mechanisms intentionally built-in. It is thus an open question how Transformers solve such tasks, and whether the mechanisms that emerge to help them to do so bear any resemblance to the gating mechanisms in the human brain. In this work, we analyze the mechanisms that emerge within a vanilla attention-only Transformer trained on a simple sequence modeling task inspired by a task explicitly designed to study working memory gating in computational cognitive neuroscience. We find that, as a result of training, the self-attention mechanism within the Transformer specializes in a way that mirrors the input and output gating mechanisms which were explicitly incorporated into earlier, more biologically-inspired architectures. These results suggest opportunities for future research on computational similarities between modern AI architectures and models of the human brain.
翻訳日:2024-02-14 16:30:32 公開日:2024-02-13
# 量子コンピューティング強化アルゴリズムがKRASの新しいインヒビターを発表

Quantum Computing-Enhanced Algorithm Unveils Novel Inhibitors for KRAS ( http://arxiv.org/abs/2402.08210v1 )

ライセンス: Link先を確認
Mohammad Ghazi Vakili, Christoph Gorgulla, AkshatKumar Nigam, Dmitry Bezrukov, Daniel Varoli, Alex Aliper, Daniil Polykovsky, Krishna M. Padmanabha Das, Jamie Snider, Anna Lyakisheva, Ardalan Hosseini Mansob, Zhong Yao, Lela Bitar, Eugene Radchenko, Xiao Ding, Jinxin Liu, Fanye Meng, Feng Ren, Yudong Cao, Igor Stagljar, Al\'an Aspuru-Guzik, Alex Zhavoronkov(参考訳) 治療効果のある小さな分子の発見は、化学と生物学における長年の課題である。 研究者たちは、新しい計算技術を活用して、薬の開発プロセスを効率化し、ヒット率を高め、薬を市場に出すコストを削減する。 この目的のために,16量子ビットibm量子コンピュータでトレーニングされた量子アルゴリズムの計算能力と,小型分子の設計のための古典的手法の信頼性をシームレスに統合した量子古典的生成モデルを提案する。 癌治療において重要な標的である新規KRAS阻害剤の設計にハイブリッド遺伝子モデルを適用した。 研究期間中に15個の有望分子を合成し,対象分子に作用する能力を評価する実験を行った。 特に、これらの候補のうち2つの分子であるISM061-018-2とISM061-22は、それぞれ固有の足場を特徴とし、KRASとの効果的な関与を示すことで際立った。 ISM061-018-2は広スペクトルKRAS阻害薬として同定され、KRAS-G12Dに1.4 \mu M$で結合性を示す。 同時に、ISM061-22は特定の変異選択性を示し、KRAS G12RおよびQ61H変異に対する高い活性を示した。 私たちの知る限りでは、この研究は初めて量子生成モデルを用いて生物学的ヒットを実験的に確認し、有効な治療法を生み出すための量子支援薬物発見の実用可能性を示した。 さらに,分散学習の有効性は,量子コンピューティング資源のスケーラビリティ可能性の基盤となる量子ビット数と相関することが明らかとなった。 全体としては、この結果がより高度な量子生成モデルの開発への一歩になると予測している。

The discovery of small molecules with therapeutic potential is a long-standing challenge in chemistry and biology. Researchers have increasingly leveraged novel computational techniques to streamline the drug development process to increase hit rates and reduce the costs associated with bringing a drug to market. To this end, we introduce a quantum-classical generative model that seamlessly integrates the computational power of quantum algorithms trained on a 16-qubit IBM quantum computer with the established reliability of classical methods for designing small molecules. Our hybrid generative model was applied to designing new KRAS inhibitors, a crucial target in cancer therapy. We synthesized 15 promising molecules during our investigation and subjected them to experimental testing to assess their ability to engage with the target. Notably, among these candidates, two molecules, ISM061-018-2 and ISM061-22, each featuring unique scaffolds, stood out by demonstrating effective engagement with KRAS. ISM061-018-2 was identified as a broad-spectrum KRAS inhibitor, exhibiting a binding affinity to KRAS-G12D at $1.4 \mu M$. Concurrently, ISM061-22 exhibited specific mutant selectivity, displaying heightened activity against KRAS G12R and Q61H mutants. To our knowledge, this work shows for the first time the use of a quantum-generative model to yield experimentally confirmed biological hits, showcasing the practical potential of quantum-assisted drug discovery to produce viable therapeutics. Moreover, our findings reveal that the efficacy of distribution learning correlates with the number of qubits utilized, underlining the scalability potential of quantum computing resources. Overall, we anticipate our results to be a stepping stone towards developing more advanced quantum generative models in drug discovery.
翻訳日:2024-02-14 16:30:06 公開日:2024-02-13
# マルチアーマッドバンドを用いたデータクリーニングのための閾値データ共有

Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits ( http://arxiv.org/abs/2402.08209v1 )

ライセンス: Link先を確認
Hiroyuki Namba, Shota Horiguchi, Masaki Hamamoto, Masashi Egi(参考訳) データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。 data shapleyは、各インスタンスのモデルパフォーマンスへの寄与を評価する一般的な理論的保証の方法であるが、計算コストが高いトレーニングデータのすべてのサブセットでのトレーニングが必要である。 本稿では,しきい値化バンディットアルゴリズムを用いて,シャープリー値の低いインスタンスのサブセットを高速に識別する反復手法を提案する。 提案手法は,十分な回数の反復を行うと,有害なインスタンスを正確に選択できることを理論的に保証する。 各種モデルとデータセットを用いた実験評価により,提案手法はモデル性能を維持しながら計算速度を効率的に向上することを示した。

Data cleansing aims to improve model performance by removing a set of harmful instances from the training dataset. Data Shapley is a common theoretically guaranteed method to evaluate the contribution of each instance to model performance; however, it requires training on all subsets of the training data, which is computationally expensive. In this paper, we propose an iterativemethod to fast identify a subset of instances with low data Shapley values by using the thresholding bandit algorithm. We provide a theoretical guarantee that the proposed method can accurately select harmful instances if a sufficiently large number of iterations is conducted. Empirical evaluation using various models and datasets demonstrated that the proposed method efficiently improved the computational speed while maintaining the model performance.
翻訳日:2024-02-14 16:29:35 公開日:2024-02-13
# 自動車応用におけるAIベースのソフトウェア要素の進化的横冗長安全性機構

Inherent Diverse Redundant Safety Mechanisms for AI-based Software Elements in Automotive Applications ( http://arxiv.org/abs/2402.08208v1 )

ライセンス: Link先を確認
Mandar Pitale, Alireza Abbaspour, Devesh Upadhyay(参考訳) 本稿では,自律運転システムにおける人工知能(AI)アルゴリズム,特にAIベースのソフトウェア要素の役割と課題について考察する。 これらのaiシステムは、複雑な高次元環境でリアルタイム臨界関数を実行するのに基本である。 それらは、マルチモーダル知覚、認知、運動計画、車線維持、緊急ブレーキなどの意思決定といった重要なタスクを扱う。 主な関心事は、AIモデルの初期のトレーニングデータを超えて一般化する能力(と必要性)に関連している。 この一般化問題は、モデルがトレーニングや検証データで表現されない入力に頻繁に遭遇するリアルタイムシナリオで明らかになる。 そのような場合、aiシステムは、分散またはドメインシフトに直面したにもかかわらず、効果的に機能しなくてはならない。 本稿では、自律運転のような安全クリティカルなアプリケーションにおける過信AIモデルに関連するリスクについて検討する。 これらのリスクを軽減するために,自信過剰なパフォーマンス維持を支援するaiモデルのトレーニング手法を提案する。 これには、確実にレポートアーキテクチャを実装し、多様なトレーニングデータを確保することが含まれる。 aiモデルの安全メカニズムを提供するために、様々な分散ベースの方法が存在するが、特に安全クリティカルな自動車応用の文脈において、これらの方法の体系的な評価が特に欠如している。 文献における多くの手法は、安全クリティカルエッジアプリケーションに必要な迅速な応答時間にうまく適応しない。 本稿では,これらの手法を概観し,安全性に問題のあるアプリケーションに対する適合性を考察し,その強みと限界を強調した。 また、迅速かつ正確な意思決定プロセスにおいて、自動運転車におけるAIアルゴリズムの安全性と信頼性を高めるための潜在的な改善を提案する。

This paper explores the role and challenges of Artificial Intelligence (AI) algorithms, specifically AI-based software elements, in autonomous driving systems. These AI systems are fundamental in executing real-time critical functions in complex and high-dimensional environments. They handle vital tasks like multi-modal perception, cognition, and decision-making tasks such as motion planning, lane keeping, and emergency braking. A primary concern relates to the ability (and necessity) of AI models to generalize beyond their initial training data. This generalization issue becomes evident in real-time scenarios, where models frequently encounter inputs not represented in their training or validation data. In such cases, AI systems must still function effectively despite facing distributional or domain shifts. This paper investigates the risk associated with overconfident AI models in safety-critical applications like autonomous driving. To mitigate these risks, methods for training AI models that help maintain performance without overconfidence are proposed. This involves implementing certainty reporting architectures and ensuring diverse training data. While various distribution-based methods exist to provide safety mechanisms for AI models, there is a noted lack of systematic assessment of these methods, especially in the context of safety-critical automotive applications. Many methods in the literature do not adapt well to the quick response times required in safety-critical edge applications. This paper reviews these methods, discusses their suitability for safety-critical applications, and highlights their strengths and limitations. The paper also proposes potential improvements to enhance the safety and reliability of AI algorithms in autonomous vehicles in the context of rapid and accurate decision-making processes.
翻訳日:2024-02-14 16:29:22 公開日:2024-02-13
# 道路網への画像翻訳:非自己回帰的シーケンス対シーケンスアプローチ

Translating Images to Road Network:A Non-Autoregressive Sequence-to-Sequence Approach ( http://arxiv.org/abs/2402.08207v1 )

ライセンス: Link先を確認
Jiachen Lu, Renyuan Peng, Xinyue Cai, Hang Xu, Hongyang Li, Feng Wen, Wei Zhang, Li Zhang(参考訳) 道路ランドマークとその相互接続の正確な位置化を可能にするため,道路網の抽出は高精細地図の生成に不可欠である。 しかし、道路ネットワークの生成は、ユークリッド(例えば、道路ランドマークの位置)と非ユークリッド(例えば、道路トポロジー接続)構造の相反する組み合わせによって大きな課題となっている。 既存の方法は2つのタイプのデータドメインを効果的にマージするのに苦労するが、それを適切に扱う方法はほとんどない。 代わりに、ユークリッドデータと非ユークリッドデータの両方を roadnet sequence と呼ばれる整数列に投影することで、両方のデータドメインの統一表現を確立します。 RoadNet Sequenceを理解するために自動回帰シーケンス列変換モデルをモデル化するだけでなく、RoadNet Sequenceの依存関係を自動回帰と非自己回帰の混合に分離する。 これを踏まえて,提案手法では,非自己回帰的依存関係を活用しつつ,自己回帰的依存関係に対するギャップを解消し,効率と精度の両面で成功を収める。 nuScenesデータセットの大規模な実験は、既存の最先端の代替手段と比較して、RoadNet Sequence表現と非自己回帰アプローチの優位性を示している。 コードはhttps://github.com/fudan-zvg/RoadNetworkTRansformerで公開されている。

The extraction of road network is essential for the generation of high-definition maps since it enables the precise localization of road landmarks and their interconnections. However, generating road network poses a significant challenge due to the conflicting underlying combination of Euclidean (e.g., road landmarks location) and non-Euclidean (e.g., road topological connectivity) structures. Existing methods struggle to merge the two types of data domains effectively, but few of them address it properly. Instead, our work establishes a unified representation of both types of data domain by projecting both Euclidean and non-Euclidean data into an integer series called RoadNet Sequence. Further than modeling an auto-regressive sequence-to-sequence Transformer model to understand RoadNet Sequence, we decouple the dependency of RoadNet Sequence into a mixture of auto-regressive and non-autoregressive dependency. Building on this, our proposed non-autoregressive sequence-to-sequence approach leverages non-autoregressive dependencies while fixing the gap towards auto-regressive dependencies, resulting in success on both efficiency and accuracy. Extensive experiments on nuScenes dataset demonstrate the superiority of RoadNet Sequence representation and the non-autoregressive approach compared to existing state-of-the-art alternatives. The code is open-source on https://github.com/fudan-zvg/RoadNetworkTRansformer.
翻訳日:2024-02-14 16:28:59 公開日:2024-02-13
# ヘックス格子上の非恒等不忠実分布に対するサブシステム表面およびコンパス符号感度

Subsystem surface and compass code sensitivities to non-identical infidelity distributions on heavy-hex lattice ( http://arxiv.org/abs/2402.08203v1 )

ライセンス: Link先を確認
Malcolm S. Carroll, James R. Wootton and Andrew W. Cross(参考訳) 量子コードにエンコードされた論理量子ビットは、疑似スレッショルドよりも低い物理エラー率で高いエラー率を示す。 論理誤差率と疑似スレッショルドは特定の回路やノイズモデルで推定でき、これらの推定は量子ビット性能の近似目標を与える。 しかし、推定は一様誤差率を仮定することが多いが、実際のデバイスは非同一の誤差率の静的分布および/または動的分布を持ち、異常値を示す可能性がある。 これらの分布は量子プロセッサの期待性能の評価、比較、ランク付けをより難しくする。 本研究では,部分分割六角格子上のサブシステム表面符号とコンパス符号の雑音分布のパラメータに依存する論理誤差率を数値的に検討する。 3つの顕著な観察結果が得られた:(1) 平均論理誤差レートは、広いパラメータ範囲における高次モーメント(例えば、分散または外れ値)に敏感な物理的量子ビット不整合分布の平均に依存する;(2) 論理誤差レートは、1つまたは少数の「悪い」箇所で誤差が増加するにつれて飽和し、(3) 位置特定誤差率を意識したデコーダは、論理誤差率を適度に改善する。 これらの結果が外乱発生源や不均一な量子ビット誤り率の文脈における意味を論じる。

Logical qubits encoded into a quantum code exhibit improved error rates when the physical error rates are sufficiently low, below the pseudothreshold. Logical error rates and pseudothresholds can be estimated for specific circuits and noise models, and these estimates provide approximate goals for qubit performance. However, estimates often assume uniform error rates, while real devices have static and/or dynamic distributions of non-identical error rates and may exhibit outliers. These distributions make it more challenging to evaluate, compare, and rank the expected performance of quantum processors. We numerically investigate how the logical error rate depends on parameters of the noise distribution for the subsystem surface code and the compass code on a subdivided hexagonal lattice. Three notable observations are found: (1) the average logical error rate depends on the average of the physical qubit infidelity distribution without sensitivity to higher moments (e.g., variance or outliers) for a wide parameter range; (2) the logical error rate saturates as errors increase at one or a few "bad" locations; and (3) a decoder that is aware of location specific error rates modestly improves the logical error rate. We discuss the implications of these results in the context of several different practical sources of outliers and non-uniform qubit error rates.
翻訳日:2024-02-14 16:28:31 公開日:2024-02-13
# 分類における識別の対立:不均衡データに対するカーネル空間の辺縁的マイノリティに基づくスモート

Confronting Discrimination in Classification: Smote Based on Marginalized Minorities in the Kernel Space for Imbalanced Data ( http://arxiv.org/abs/2402.08202v1 )

ライセンス: Link先を確認
Lingyun Zhong(参考訳) 金融詐欺検出は、不正行為の事例は極めて稀であるが、誤認された場合の予測不可能な経済損失につながる、階級不均衡を特徴とする典型的な課題である。 これらのクリティカルマイノリティのサンプルを正確に分類することは、分類において困難なタスクである。 主な難点は、マイノリティのサンプルに対する「簡易的な差別」を示す主流の分類器から生じ、その結果、頻繁に誤分類され、問題の鍵は、多数派とマイノリティのサンプルの間の特徴空間が重なり合うことである。 これらの課題に対処するためには、オーバーサンプリングは実現可能な解決策であるが、現在の古典的なオーバーサンプリング手法は、しばしばサンプル選択に必要な注意を欠いている。 そこで本研究では,決定境界とサンプル近接関係に基づく新しい分類オーバーサンプリング手法を提案する。 この方法は、臨界サンプルと決定超平面の間の距離、および周囲のサンプルの密度を慎重に考慮し、カーネル空間における適応的なオーバーサンプリング戦略をもたらす。 最後に,提案手法を古典的金融詐欺データセット上で検証し,提案手法がマイノリティの分類精度を向上させるための有効かつ堅牢なソリューションであることを示す。

Financial fraud detection poses a typical challenge characterized by class imbalance, where instances of fraud are extremely rare but can lead to unpredictable economic losses if misidentified. Precisely classifying these critical minority samples represents a challenging task within the classification. The primary difficulty arises from mainstream classifiers, which often exhibit "implicit discrimination" against minority samples in evaluation metrics, which results in frequent misclassifications, and the key to the problem lies in the overlap of feature spaces between majority and minority samples. To address these challenges, oversampling is a feasible solution, yet current classical oversampling methods often lack the necessary caution in sample selection, exacerbating feature space overlap. In response, we propose a novel classification oversampling approach based on the decision boundary and sample proximity relationships. This method carefully considers the distance between critical samples and the decision hyperplane, as well as the density of surrounding samples, resulting in an adaptive oversampling strategy in the kernel space. Finally, we test the proposed method on a classic financial fraud dataset, and the results show that our proposed method provides an effective and robust solution that can improve the classification accuracy of minorities.
翻訳日:2024-02-14 16:28:02 公開日:2024-02-13
# 補助損失によるエンコーダ最適化による機械画像符号化の改善

Improving Image Coding for Machines through Optimizing Encoder via Auxiliary Loss ( http://arxiv.org/abs/2402.08267v1 )

ライセンス: Link先を確認
Kei Iino, Shunsuke Akamatsu, Hiroshi Watanabe, Shohei Enomoto, Akira Sakamoto, Takeharu Eda(参考訳) 機械用画像符号化(ICM)は、人間の視覚ではなく認識モデルを用いて、機械分析のための画像を圧縮することを目的としている。 したがって、icmでは、エンコーダが機械認識タスクに必要な情報を認識・圧縮することが重要である。 学習したIMMには、タスク損失に基づく圧縮モデルの最適化と、ROI(Rerea of Interest)に基づくビット割り当ての2つの主要なアプローチがある。 これらのアプローチは、エンコーダに認識能力を提供する。 しかし、認識モデルが深い場合にはタスク損失の最適化が難しくなり、ROIベースの手法は評価中に余分なオーバーヘッドを伴うことが多い。 本研究では,エンコーダに補助的損失を付与し,認識能力と速度歪み性能を向上させるための新しいICMモデルのトレーニング手法を提案する。 本手法は,従来の訓練法と比較して,オブジェクト検出とセマンティックセグメンテーションタスクにおいて,Bjontegaard Deltaレートを27.7%,20.3%向上させる。

Image coding for machines (ICM) aims to compress images for machine analysis using recognition models rather than human vision. Hence, in ICM, it is important for the encoder to recognize and compress the information necessary for the machine recognition task. There are two main approaches in learned ICM; optimization of the compression model based on task loss, and Region of Interest (ROI) based bit allocation. These approaches provide the encoder with the recognition capability. However, optimization with task loss becomes difficult when the recognition model is deep, and ROI-based methods often involve extra overhead during evaluation. In this study, we propose a novel training method for learned ICM models that applies auxiliary loss to the encoder to improve its recognition capability and rate-distortion performance. Our method achieves Bjontegaard Delta rate improvements of 27.7% and 20.3% in object detection and semantic segmentation tasks, compared to the conventional training method.
翻訳日:2024-02-14 16:20:04 公開日:2024-02-13
# テキストと画像の拡散を優先的に調整するDense Reward View

A Dense Reward View on Aligning Text-to-Image Diffusion with Preference ( http://arxiv.org/abs/2402.08265v1 )

ライセンス: Link先を確認
Shentao Yang, Tianqi Chen, Mingyuan Zhou(参考訳) 好みのテキスト・画像拡散モデル(T2I)が研究の注目を集めている。 優先データによるT2Iを直接最適化する以前の研究は存在するが、これらの手法は、生成過程のシーケンシャルな性質を無視しつつ、拡散逆鎖全体の遅延報酬のバンドイット仮定の下で開発されている。 文学上、これはアライメントの有効性と効率を損なう可能性がある。 本稿では, t2i逆鎖の初期段階を強調する, より精細な報酬の視点を取り, 移動可能なアライメント目標を導出する。 特に,dpoスタイルの明示的後退損失に時間的ディスカウントを導入し,時間対称性を壊し,t2i生成階層に適合させる。 単一および複数プロンプト生成実験において,本手法は定量的および定性的に,強い関連するベースラインと競合する。 我々のアプローチの洞察を説明するために、さらなる研究が行われた。

Aligning text-to-image diffusion model (T2I) with preference has been gaining increasing research attention. While prior works exist on directly optimizing T2I by preference data, these methods are developed under the bandit assumption of a latent reward on the entire diffusion reverse chain, while ignoring the sequential nature of the generation process. From literature, this may harm the efficacy and efficiency of alignment. In this paper, we take on a finer dense reward perspective and derive a tractable alignment objective that emphasizes the initial steps of the T2I reverse chain. In particular, we introduce temporal discounting into the DPO-style explicit-reward-free loss, to break the temporal symmetry therein and suit the T2I generation hierarchy. In experiments on single and multiple prompt generation, our method is competitive with strong relevant baselines, both quantitatively and qualitatively. Further studies are conducted to illustrate the insight of our approach.
翻訳日:2024-02-14 16:19:45 公開日:2024-02-13
# QuApprox: 変分量子回路の近似性をベンチマークするためのフレームワーク

QuApprox: A Framework for Benchmarking the Approximability of Variational Quantum Circuit ( http://arxiv.org/abs/2402.08261v1 )

ライセンス: Link先を確認
Jinyang Li, Ang Li, Weiwen Jiang(参考訳) 変分量子回路(VQC)のような既存の量子ニューラルネットワークモデルのほとんどは、入力データの非線形関係を探索する能力に制限されている。 これは、自然言語処理、医用画像処理、無線通信といった現実的な応用に取り組む上で、徐々に大きな障害となっている。 近年、vqcsが非線形操作を可能にする研究が進められている。 しかしながら、与えられたVQCの近似性についてはまだ不明である(すなわち、指定された設計で扱える非線形性の順序)。 この問題に対して,与えられたVQCの近似をベンチマークする自動ツールを開発した。 提案ツールでは、非線形性の異なる一連の合成データセットを生成し、与えられたVQCをこれらのデータセット上でトレーニングし、近似性を推定する。 実験では、VQCを異なる設計でベンチマークし、理論近似性を知っている。 そして,提案ツールが理論値と整合した近似性を正確に推定できることを示し,提案ツールが与えられた量子回路の近似可能性のベンチマークに利用できることを示す。

Most of the existing quantum neural network models, such as variational quantum circuits (VQCs), are limited in their ability to explore the non-linear relationships in input data. This gradually becomes the main obstacle for it to tackle realistic applications, such as natural language processing, medical image processing, and wireless communications. Recently, there have emerged research efforts that enable VQCs to perform non-linear operations. However, it is still unclear on the approximability of a given VQC (i.e., the order of non-linearity that can be handled by a specified design). In response to this issue, we developed an automated tool designed to benchmark the approximation of a given VQC. The proposed tool will generate a set of synthetic datasets with different orders of non-linearity and train the given VQC on these datasets to estimate their approximability. Our experiments benchmark VQCs with different designs, where we know their theoretic approximability. We then show that the proposed tool can precisely estimate the approximability, which is consistent with the theoretic value, indicating that the proposed tool can be used for benchmarking the approximability of a given quantum circuit for learning tasks.
翻訳日:2024-02-14 16:19:29 公開日:2024-02-13
# 大規模言語モデルを用いたテーブル推論に関する調査

A Survey of Table Reasoning with Large Language Models ( http://arxiv.org/abs/2402.08259v1 )

ライセンス: Link先を確認
Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che(参考訳) 提供された表に従ってユーザ要求に従う質問に対する対応する回答を生成し、オプションで表のテキスト記述を行うことを目的としたテーブル推論により、情報取得の効率を効果的に向上する。 近年,大規模言語モデル(llms)は,アノテーションコストを大幅に削減するだけでなく,従来の手法の性能を上回っているため,テーブル推論の主流となっている。 しかし、既存の研究では LLM ベースのテーブル推論作業の要約が不足している。 既存の研究の欠如により、LLMの時代におけるテーブル推論性能を改善する技術、LLMがテーブル推論において優れている理由、将来のテーブル推論能力を高める方法についての疑問は、まだ明らかにされていない。 このギャップは研究の進歩を著しく制限する。 上記の質問に答え,llmsを用いた事前テーブル推論研究を行い,既存の研究を解析し,今後の研究に着想を与える。 本稿では,LLM時代におけるテーブル推論性能の向上に使用される主流技術と,テーブル推論におけるLLM前の手法と比較してLLMの利点について分析する。 我々は,既存の手法の改善と,今後の研究を刺激する実践的応用の拡大から研究の方向性を提供する。

Table reasoning, which aims to generate the corresponding answer to the question following the user requirement according to the provided table, and optionally a text description of the table, effectively improving the efficiency of obtaining information. Recently, using Large Language Models (LLMs) has become the mainstream method for table reasoning, because it not only significantly reduces the annotation cost but also exceeds the performance of previous methods. However, existing research still lacks a summary of LLM-based table reasoning works. Due to the existing lack of research, questions about which techniques can improve table reasoning performance in the era of LLMs, why LLMs excel at table reasoning, and how to enhance table reasoning abilities in the future, remain largely unexplored. This gap significantly limits progress in research. To answer the above questions and advance table reasoning research with LLMs, we present this survey to analyze existing research, inspiring future work. In this paper, we analyze the mainstream techniques used to improve table reasoning performance in the LLM era, and the advantages of LLMs compared to pre-LLMs for solving table reasoning. We provide research directions from both the improvement of existing methods and the expansion of practical applications to inspire future research.
翻訳日:2024-02-14 16:19:12 公開日:2024-02-13
# MOOCにおける知識概念推薦のためのコントラスト学習と明示的・暗黙的関係のモデル化

Modeling Balanced Explicit and Implicit Relations with Contrastive Learning for Knowledge Concept Recommendation in MOOCs ( http://arxiv.org/abs/2402.08256v1 )

ライセンス: Link先を確認
Hengnian Gu, Zhiyi Duan, Pan Xie, Dongdai Zhou(参考訳) MOOC(Massive Open Online Courses)における知識概念の推奨は、広く注目を集めている重要な問題である。 既存の手法は主にMOOCプラットフォーム上のユーザと知識概念との明確な関係に依存している。 しかし、MOOCプラットフォーム上のユーザの学習活動には、多くの暗黙の関係(例えば、ユーザ間の共有関心や同じ知識レベル)が生成される。 既存の手法ではこれらの暗黙の関係を考慮できず、これらの関係自体の学習や表現が困難であり、知識概念の推奨やユーザのパーソナライズされたニーズを満たすことができない。 そこで本研究では,MOOC(CL-KCRec)における知識概念推薦の明示的・暗黙的関係を表現・バランスさせる,コントラスト学習に基づく新しい枠組みを提案する。 具体的には、まずMOOCプラットフォームからのデータモデリングにより、MOOCsヘテロジニアス情報ネットワーク(HIN)を構築する。 次に,関係更新グラフ畳み込みネットワークと重ね合わせ多チャンネルグラフニューラルネットワークを用いて,hinにおける明示的関係と暗黙的関係を表現する。 明示的関係の量はMOOCの暗黙的関係に比べて相対的に少ないことを考慮し,HIN内の学生の嗜好の伝播を導くことができる実りある固有関係知識を捉えるために,両関係の表現を強化するために,原型グラフを用いた対照的な学習を提案する。 これらの拡張された表現に基づき、最終的な勧告に向けて両者のバランスの取れた貢献を確実にするため、バランスの取れた融合のための二重ヘッドアテンション機構を提案する。 実験の結果, CL-KCRecはHR, NDCG, MRRの点で, 実世界のデータセットにおける最先端のベースラインよりも優れていた。

The knowledge concept recommendation in Massive Open Online Courses (MOOCs) is a significant issue that has garnered widespread attention. Existing methods primarily rely on the explicit relations between users and knowledge concepts on the MOOC platforms for recommendation. However, there are numerous implicit relations (e.g., shared interests or same knowledge levels between users) generated within the users' learning activities on the MOOC platforms. Existing methods fail to consider these implicit relations, and these relations themselves are difficult to learn and represent, causing poor performance in knowledge concept recommendation and an inability to meet users' personalized needs. To address this issue, we propose a novel framework based on contrastive learning, which can represent and balance the explicit and implicit relations for knowledge concept recommendation in MOOCs (CL-KCRec). Specifically, we first construct a MOOCs heterogeneous information network (HIN) by modeling the data from the MOOC platforms. Then, we utilize a relation-updated graph convolutional network and stacked multi-channel graph neural network to represent the explicit and implicit relations in the HIN, respectively. Considering that the quantity of explicit relations is relatively fewer compared to implicit relations in MOOCs, we propose a contrastive learning with prototypical graph to enhance the representations of both relations to capture their fruitful inherent relational knowledge, which can guide the propagation of students' preferences within the HIN. Based on these enhanced representations, to ensure the balanced contribution of both towards the final recommendation, we propose a dual-head attention mechanism for balanced fusion. Experimental results demonstrate that CL-KCRec outperforms several state-of-the-art baselines on real-world datasets in terms of HR, NDCG and MRR.
翻訳日:2024-02-14 16:18:51 公開日:2024-02-13
# 遠位干渉:モデルに基づく連続学習の限界を探る

Distal Interference: Exploring the Limits of Model-Based Continual Learning ( http://arxiv.org/abs/2402.08255v1 )

ライセンス: Link先を確認
Heinrich van Deventer, Anna Sergeevna Bosman(参考訳) 連続学習は、機械学習モデルによって異なるタスクの逐次学習である。 継続的学習は、破滅的な干渉や忘れること、すなわち新しいタスクが学習されたときの学習済みのタスクの迅速な未学習によって妨げられることが知られている。 実用的成功にもかかわらず、ニューラルネットワーク(ann)は壊滅的な干渉を起こしやすい。 本研究では,遠方入力点間の勾配降下と重なり合う表現が遠位干渉や破滅的干渉の原因となるか分析する。 遠方干渉とは、ドメインのサブセット上でモデルをトレーニングすることで、ドメインの他のサブセットの非局所的な変更につながる現象を指す。 本研究は、遠位干渉のない一様トレーニング可能なモデルが指数関数的に大きくなければならないことを示す。 ABEL-Splineと呼ばれる新しい非対称有界指数層B-spline ANNアーキテクチャは、任意の連続関数を近似し、一様訓練が可能で、多項式計算の複雑さを持ち、遠位干渉の保証を提供する。 ABEL-Splinesの理論的性質を実証するために実験を行った。 ABEL-Splinesは、ベンチマーク回帰問題でも評価される。 ABEL-Splinesにおける遠位干渉保証の弱さは,モデルのみの連続学習には不十分である。 多項式複雑性モデルとの連続学習には、トレーニングデータやアルゴリズムの強化が必要であると推測される。

Continual learning is the sequential learning of different tasks by a machine learning model. Continual learning is known to be hindered by catastrophic interference or forgetting, i.e. rapid unlearning of earlier learned tasks when new tasks are learned. Despite their practical success, artificial neural networks (ANNs) are prone to catastrophic interference. This study analyses how gradient descent and overlapping representations between distant input points lead to distal interference and catastrophic interference. Distal interference refers to the phenomenon where training a model on a subset of the domain leads to non-local changes on other subsets of the domain. This study shows that uniformly trainable models without distal interference must be exponentially large. A novel antisymmetric bounded exponential layer B-spline ANN architecture named ABEL-Spline is proposed that can approximate any continuous function, is uniformly trainable, has polynomial computational complexity, and provides some guarantees for distal interference. Experiments are presented to demonstrate the theoretical properties of ABEL-Splines. ABEL-Splines are also evaluated on benchmark regression problems. It is concluded that the weaker distal interference guarantees in ABEL-Splines are insufficient for model-only continual learning. It is conjectured that continual learning with polynomial complexity models requires augmentation of the training data or algorithm.
翻訳日:2024-02-14 16:18:20 公開日:2024-02-13
# 深層学習による無人航空機の熱画像中の物体検出

Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2402.08251v1 )

ライセンス: Link先を確認
Minh Dang Tu, Kieu Trang Le, Manh Duong Phung(参考訳) 本研究は,無人航空機が収集した熱画像中の微小物体と微小物体を認識可能なニューラルネットワークモデルを提案する。 私たちのモデルは、バックボーン、ネック、予測ヘッドの3つの部分で構成されています。 背骨はYOLOv5の構造に基づいて開発され、最後にトランスフォーマーエンコーダが使用される。 ネックは、スライドウインドウと変圧器とを組み合わせたBI−FPNブロックを備え、予測ヘッドに入力された情報を増加させる。 予測ヘッドは、Sigmoid関数を用いて特徴写像を評価して検出を行う。 注意とスライディングウィンドウを備えた変圧器の使用は、組み込みシステムのための適切なパラメータと計算要求の数をモデルに保ちながら、認識精度を高める。 公開データセットVEDAIと収集データセットを用いて行った実験により、我々のモデルはResNet, Faster RCNN, ComNet, ViT, YOLOv5, SMPNet, DPNetV3といった最先端の手法よりも精度が高いことがわかった。 組込みコンピュータjetson agxによる実験により,本モデルは90%以上の安定性を持つ実時間計算速度を達成した。

This work presents a neural network model capable of recognizing small and tiny objects in thermal images collected by unmanned aerial vehicles. Our model consists of three parts, the backbone, the neck, and the prediction head. The backbone is developed based on the structure of YOLOv5 combined with the use of a transformer encoder at the end. The neck includes a BI-FPN block combined with the use of a sliding window and a transformer to increase the information fed into the prediction head. The prediction head carries out the detection by evaluating feature maps with the Sigmoid function. The use of transformers with attention and sliding windows increases recognition accuracy while keeping the model at a reasonable number of parameters and computation requirements for embedded systems. Experiments conducted on public dataset VEDAI and our collected datasets show that our model has a higher accuracy than state-of-the-art methods such as ResNet, Faster RCNN, ComNet, ViT, YOLOv5, SMPNet, and DPNetV3. Experiments on the embedded computer Jetson AGX show that our model achieves a real-time computation speed with a stability rate of over 90%.
翻訳日:2024-02-14 16:17:57 公開日:2024-02-13
# バイオメディシンにおけるAIフェアネスとバイアスに対処する最近の手法の検討

A survey of recent methods for addressing AI fairness and bias in biomedicine ( http://arxiv.org/abs/2402.08250v1 )

ライセンス: Link先を確認
Yifan Yang, Mingquan Lin, Han Zhao, Yifan Peng, Furong Huang, Zhiyong Lu(参考訳) 人工知能(AI)システムは、診断精度と外科的意思決定を改善するとともに、コストと人力を削減するなど、臨床プラクティスに革命をもたらす可能性がある。 しかし、これらのシステムは、人種や性別に基づくような社会的不平等を持続させるか、偏見を示すことが重要である。 このようなバイアスは、AIモデルの開発の前、中、または後に起こり、潜在的なバイアスを理解し、対処することが重要であり、臨床環境でAIモデルの正確かつ信頼性の高い適用を可能にする。 モデル開発におけるバイアスの懸念を軽減するため,バイオメディカル自然言語処理(NLP)やコンピュータビジョン(CV)の分野における様々なデバイアス法に関する最近の論文を調査した。 次に, バイアスに対処するために生体医学領域で適用された手法について検討した。 我々は,2018年1月から2023年12月にかけて,複数のキーワードの組み合わせを用いて,PubMed,ACMデジタルライブラリ,IEEE Xploreに関する文献検索を行った。 次に,10,041記事の結果をゆるい制約で自動的にフィルタリングし,残りの890記事の要約を手作業で検査し,55記事の識別を行った。 参考文献への追加記事もこのレビューに含まれている。 それぞれの方法について議論し、その長所と短所を比較する。 最後に、バイオメディシンのバイアスに対処し、公平性を改善するために、バイオメディシンに応用できる一般的な領域からの他の潜在的な方法についてレビューする。 アルゴリズムにフォーカスする既存のデバイアス法は、分散的あるいはアルゴリズム的に分類される。

Artificial intelligence (AI) systems have the potential to revolutionize clinical practices, including improving diagnostic accuracy and surgical decision-making, while also reducing costs and manpower. However, it is important to recognize that these systems may perpetuate social inequities or demonstrate biases, such as those based on race or gender. Such biases can occur before, during, or after the development of AI models, making it critical to understand and address potential biases to enable the accurate and reliable application of AI models in clinical settings. To mitigate bias concerns during model development, we surveyed recent publications on different debiasing methods in the fields of biomedical natural language processing (NLP) or computer vision (CV). Then we discussed the methods that have been applied in the biomedical domain to address bias. We performed our literature search on PubMed, ACM digital library, and IEEE Xplore of relevant articles published between January 2018 and December 2023 using multiple combinations of keywords. We then filtered the result of 10,041 articles automatically with loose constraints, and manually inspected the abstracts of the remaining 890 articles to identify the 55 articles included in this review. Additional articles in the references are also included in this review. We discuss each method and compare its strengths and weaknesses. Finally, we review other potential methods from the general domain that could be applied to biomedicine to address bias and improve fairness.The bias of AIs in biomedicine can originate from multiple sources. Existing debiasing methods that focus on algorithms can be categorized into distributional or algorithmic.
翻訳日:2024-02-14 16:17:36 公開日:2024-02-13
# SepRep-Net:モデル分離と再パラメータ化によるマルチソースフリードメイン適応

SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization ( http://arxiv.org/abs/2402.08249v1 )

ライセンス: Link先を確認
Ying Jin and Jiaqi Wang and Dahua Lin(参考訳) 我々は、ソースデータにアクセスせずに、複数の既存モデルを新しいドメインに適応させる問題であるマルチソースフリードメイン適応を考える。 既存の手法では、モデルアンサンブルに基づく手法はソース領域とターゲット領域の両方で有効であるが、計算コストは大幅に増大する。 このジレンマに向けて,SepRep-Netという新しいフレームワークを提案する。SepRep-Netは,複数の既存モデルを統一ネットワークに再組み立てし,別々の経路(分離)を維持しながら,モデル分離と再パラメータ化によるマルチソース自由ドメイン適応を実現する。 トレーニング中、個別の経路は、追加のフィーチャマージユニットを介して定期的に行われる情報交換と並行して最適化される。 具体的設計により、これらの経路はさらに1つの経路に再パラメータ化され、推論(再パラメータ化)が容易になる。 SepRep-Net の特徴 1) 有効性: 対象領域における競合性能, 2)効率性:計算コストの低さ、及び 3) 汎用性: 既存のソリューションよりも多くのソース知識を維持すること。 一般的なアプローチとして、SepRep-Netは様々なメソッドにシームレスにプラグインできる。 大規模な実験は、主要なベンチマークでSepRep-Netのパフォーマンスを検証する。

We consider multi-source free domain adaptation, the problem of adapting multiple existing models to a new domain without accessing the source data. Among existing approaches, methods based on model ensemble are effective in both the source and target domains, but incur significantly increased computational costs. Towards this dilemma, in this work, we propose a novel framework called SepRep-Net, which tackles multi-source free domain adaptation via model Separation and Reparameterization.Concretely, SepRep-Net reassembled multiple existing models to a unified network, while maintaining separate pathways (Separation). During training, separate pathways are optimized in parallel with the information exchange regularly performed via an additional feature merging unit. With our specific design, these pathways can be further reparameterized into a single one to facilitate inference (Reparameterization). SepRep-Net is characterized by 1) effectiveness: competitive performance on the target domain, 2) efficiency: low computational costs, and 3) generalizability: maintaining more source knowledge than existing solutions. As a general approach, SepRep-Net can be seamlessly plugged into various methods. Extensive experiments validate the performance of SepRep-Net on mainstream benchmarks.
翻訳日:2024-02-14 16:17:07 公開日:2024-02-13
# 複数の無人航空機を用いた共同点検経路計画のためのantコロニー最適化

Ant Colony Optimization for Cooperative Inspection Path Planning Using Multiple Unmanned Aerial Vehicles ( http://arxiv.org/abs/2402.08246v1 )

ライセンス: Link先を確認
Duy Nam Bui, Thuy Ngan Duong, Manh Duong Phung(参考訳) 本稿では,インフラの自動検査に不可欠な無人航空機(uavs)の協調経路計画問題に対処するための,新たなswarm intelligenceに基づくアプローチを提案する。 このアプローチでは、UAVの視点を生成するために構造の3Dモデルを使用する。 視点の計算は、UAV生成モデル、カメラパラメータ、データ後処理の要件に関連する制約を考慮する。 そして、その視点を入力として、経路計画を延長販売マン問題として定式化し、新たなコスト関数を定義する。 antコロニー最適化は最終的に、最適な検査パスを得るための問題を解決するために使用される。 実構造物の3次元モデルを用いた実験を行い,提案手法の性能評価を行った。 以上の結果から,本システムはUAVの検査パスを生成するだけでなく,他のヒューリスティック手法と比較して複雑な構造に対してパス長を29.47 %削減できることがわかった。 アルゴリズムのソースコードはhttps://github.com/duynamrcv/aco_3d_ippにある。

This paper presents a new swarm intelligence-based approach to deal with the cooperative path planning problem of unmanned aerial vehicles (UAVs), which is essential for the automatic inspection of infrastructure. The approach uses a 3D model of the structure to generate viewpoints for the UAVs. The calculation of the viewpoints considers the constraints related to the UAV formation model, camera parameters, and requirements for data post-processing. The viewpoints are then used as input to formulate the path planning as an extended traveling salesman problem and the definition of a new cost function. Ant colony optimization is finally used to solve the problem to yield optimal inspection paths. Experiments with 3D models of real structures have been conducted to evaluate the performance of the proposed approach. The results show that our system is not only capable of generating feasible inspection paths for UAVs but also reducing the path length by 29.47\% for complex structures when compared with another heuristic approach. The source code of the algorithm can be found at https://github.com/duynamrcv/aco_3d_ipp.
翻訳日:2024-02-14 16:16:48 公開日:2024-02-13
# APALU:ディープラーニングネットワークのためのトレーニング可能な適応活性化機能

APALU: A Trainable, Adaptive Activation Function for Deep Learning Networks ( http://arxiv.org/abs/2402.08244v1 )

ライセンス: Link先を確認
Barathi Subramanian, Rathinaraja Jeyaraj, Rakhmonov Akhrorjon Akhmadjon Ugli, and Jeonghong Kim(参考訳) アクティベーション関数はディープラーニングの重要なコンポーネントであり、複雑なデータパターンの抽出を容易にする。 reluやその変種のような古典的なアクティベーション関数は広く利用されているが、その静的な性質と単純さは有利であるが、特殊なタスクでの有効性を制限することが多い。 トレーニング可能なアクティベーション機能は、時にデータのユニークな特性に適応するのに苦労する。 これらの制約に対処し,幅広いタスクにわたるディープラーニングの学習性能を向上させるために,新しい学習可能アクティベーション関数adaptive piecewise approximationd activation linear unit (apalu)を導入する。 複雑なデータ表現に適応しながら、学習プロセスの安定性と効率を維持することができる、ユニークな機能セットを提供する。 実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。 画像分類において、APALUはCIFAR10データセット上で、MobileNetとGoogleNetの精度をそれぞれ0.37%、0.04%向上させる。 異常検出では、MNISTデータセットでは1-CLASS Deep SVDDの曲線の平均面積を0.8%改善し、DifferNetでは1.81%と1.11%の改善、MVTechデータセットでは知識蒸留を行う。 特に、APALUは、限られたデータセットを持つ手話認識タスクにおいて100%精度を達成する。 回帰タスクでは、異なるデータセット上のディープニューラルネットワークとリカレントニューラルネットワークのパフォーマンスが向上する。 これらの改善は、さまざまなディープラーニングアプリケーションにおけるAPALUの堅牢性と適応性を強調している。

Activation function is a pivotal component of deep learning, facilitating the extraction of intricate data patterns. While classical activation functions like ReLU and its variants are extensively utilized, their static nature and simplicity, despite being advantageous, often limit their effectiveness in specialized tasks. The trainable activation functions also struggle sometimes to adapt to the unique characteristics of the data. Addressing these limitations, we introduce a novel trainable activation function, adaptive piecewise approximated activation linear unit (APALU), to enhance the learning performance of deep learning across a broad range of tasks. It presents a unique set of features that enable it to maintain stability and efficiency in the learning process while adapting to complex data representations. Experiments reveal significant improvements over widely used activation functions for different tasks. In image classification, APALU increases MobileNet and GoogleNet accuracy by 0.37% and 0.04%, respectively, on the CIFAR10 dataset. In anomaly detection, it improves the average area under the curve of One-CLASS Deep SVDD by 0.8% on the MNIST dataset, 1.81% and 1.11% improvements with DifferNet, and knowledge distillation, respectively, on the MVTech dataset. Notably, APALU achieves 100% accuracy on a sign language recognition task with a limited dataset. For regression tasks, APALU enhances the performance of deep neural networks and recurrent neural networks on different datasets. These improvements highlight the robustness and adaptability of APALU across diverse deep-learning applications.
翻訳日:2024-02-14 16:16:31 公開日:2024-02-13
# 位相反転と幾何学的摂動に対する量子ウォークの感度:完全グラフの探索

Sensitivity of quantum walk to phase reversal and geometric perturbations: an exploration in complete graphs ( http://arxiv.org/abs/2402.08243v1 )

ライセンス: Link先を確認
Taisuke Hosaka, Renato Portugal, Etsuo Segawa(参考訳) 本稿では,主連結グラフ $g$ と二次連結グラフ $g'$ の統合によるグラフ構造上の量子ウォークのダイナミクスを分析する。 この合成グラフは、g$ と $g'$ の合同和によって形成され、次に選択された一対の頂点が切断された頂点 $v^*$ を生成し、幾何学的摂動の一意的な形式へと導く。 我々の研究は、$G$ が完全グラフ $K_N$ であり、$G'$ がスターグラフ $S_m$ であるような場合に焦点を当てる。 我々の分析の核心は、量子ウォークに基づく探索アルゴリズムの成功確率、特にオラクルのない文脈におけるこの幾何学的摂動の影響を探ることにある。 初回所見では摂動頂点が$v^*$と低い可能性が示唆されたが, システムに位相反転を導入することで成功率を大幅に向上させることを示した。 その結果、最適実行時間と特定のパラメータ条件により、成功確率が大幅に増加することが判明した。 論文は,まず理論的枠組みを定義し,続いて本研究の主な成果の提示,詳細な証明を行い,その結果と今後の研究方向性をまとめてまとめる。

In this paper, we analyze the dynamics of quantum walks on a graph structure resulting from the integration of a main connected graph $G$ and a secondary connected graph $G'$. This composite graph is formed by a disjoint union of $G$ and $G'$, followed by the contraction of a selected pair of vertices creating a cut vertex $v^*$ and leading to a unique form of geometric perturbation. Our study focuses on instances where $G$ is a complete graph $K_N$ and $G'$ is a star graph $S_m$. The core of our analysis lies in exploring the impact of this geometric perturbation on the success probability of quantum walk-based search algorithms, particularly in an oracle-free context. Despite initial findings suggesting a low probability of locating the perturbed vertex $v^*$, we demonstrate that introducing a phase reversal to the system significantly enhances the success rate. Our results reveal that with an optimal running time and specific parameter conditions, the success probability can be substantially increased. The paper is structured to first define the theoretical framework, followed by the presentation of our main results, detailed proofs, and concluding with a summary of our findings and potential future research directions.
翻訳日:2024-02-14 16:16:06 公開日:2024-02-13
# AIとロボティクスの適切なアジャイル研究と開発に向けて

Towards Equitable Agile Research and Development of AI and Robotics ( http://arxiv.org/abs/2402.08242v1 )

ライセンス: Link先を確認
Andrew Hundt, Julia Schuller, Severin Kacianka(参考訳) 機械学習(ML)と'Artificial Intelligence'(AI)の手法は、AIを使ったロボットのように、既存のバイアスや偏見を再現し増幅する傾向がある。 例えば、顔認識を持つロボットは黒人女性を人間として識別するのに失敗し、黒人男性のような人間を外見のみに基づく犯罪者として分類している。 「モジュラリティの文化」とは、「AIサプライチェーン」の雇用ポジションを通じて、害を「範囲外」あるいは他人の責任とみなすことを意味する。 インシデント(incidentdatabase.aiは2000以上の例を挙げている)は、人々の権利を完全に尊重できる組織は少ないこと、主張された平等、多様性、包括性(ediまたはdei)の目標を満たしていること、あるいはそのような失敗を組織やアーティファクトで認識して対処すること、などを示している。 我々は、広く実践されている研究開発(r&d)プロジェクトマネジメント方法論を適用し、組織的エクイティ能力を構築し、既知のエビデンスに基づくベストプラクティスを統合するためのフレームワークを提案する。 我々は、プロジェクトチームが最も有望なプラクティス、スキルセット、組織文化、そして権利に基づく公平さ、株式、説明責任、倫理的問題をできるだけ早く検出し、対処するための方法を組織し、運用する方法を説明します。 私たちの最初の例は、R&Dチームを組織する最も広く採用されているアプローチの1つであるスクラムに基づいたアジャイル開発プロセスに適応しています。 また,提案フレームワークの限界と今後の研究方向性についても論じる。

Machine Learning (ML) and 'Artificial Intelligence' ('AI') methods tend to replicate and amplify existing biases and prejudices, as do Robots with AI. For example, robots with facial recognition have failed to identify Black Women as human, while others have categorized people, such as Black Men, as criminals based on appearance alone. A 'culture of modularity' means harms are perceived as 'out of scope', or someone else's responsibility, throughout employment positions in the 'AI supply chain'. Incidents are routine enough (incidentdatabase.ai lists over 2000 examples) to indicate that few organizations are capable of completely respecting peoples' rights; meeting claimed equity, diversity, and inclusion (EDI or DEI) goals; or recognizing and then addressing such failures in their organizations and artifacts. We propose a framework for adapting widely practiced Research and Development (R&D) project management methodologies to build organizational equity capabilities and better integrate known evidence-based best practices. We describe how project teams can organize and operationalize the most promising practices, skill sets, organizational cultures, and methods to detect and address rights-based fairness, equity, accountability, and ethical problems as early as possible when they are often less harmful and easier to mitigate; then monitor for unforeseen incidents to adaptively and constructively address them. Our primary example adapts an Agile development process based on Scrum, one of the most widely adopted approaches to organizing R&D teams. We also discuss limitations of our proposed framework and future research directions.
翻訳日:2024-02-14 16:15:42 公開日:2024-02-13
# BERT4FCA:形式的概念分析とBERTを用いた双方向リンク予測手法

BERT4FCA: A Method for Bipartite Link Prediction using Formal Concept Analysis and BERT ( http://arxiv.org/abs/2402.08236v1 )

ライセンス: Link先を確認
Siqi Peng, Hongyuan Yang, Akihiro Yamamoto(参考訳) 本稿では,二部ネットワークにおけるリンク予測手法であるBERT4FCAについて,形式的概念解析(FCA)とBERTを用いて提案する。 バイパーティイトネットワークにおけるリンク予測は、ソーシャルネットワークにおける友人推薦や著者論文ネットワークにおける共著者予測といった、さまざまな実践的な問題を解決する重要なタスクである。 近年の研究では、二成分ネットワークにおいて、最大二斜晶はリンク予測のための重要な情報を提供しており、それらはfcaによって抽出できる。 FCAをベースとしたバイパーティイトリンク予測手法は優れた性能を示した。 しかし,これらの手法は抽出された最大二斜晶の豊富な情報を完全に捉えなかったため,さらなる性能向上が期待できることがわかった。 この制限に対処するために,FCA が抽出した最大二角形からより多くの情報を学習し,それらを用いてリンク予測を行う BERT を用いた手法を提案する。 3つの実世界の2部ネットワークで実験を行い,従来のfca法や行列分解法やnode2vec法より優れていることを示す。

We propose BERT4FCA, a novel method for link prediction in bipartite networks, using formal concept analysis (FCA) and BERT. Link prediction in bipartite networks is an important task that can solve various practical problems like friend recommendation in social networks and co-authorship prediction in author-paper networks. Recent research has found that in bipartite networks, maximal bi-cliques provide important information for link prediction, and they can be extracted by FCA. Some FCA-based bipartite link prediction methods have achieved good performance. However, we figured out that their performance could be further improved because these methods did not fully capture the rich information of the extracted maximal bi-cliques. To address this limitation, we propose an approach using BERT, which can learn more information from the maximal bi-cliques extracted by FCA and use them to make link prediction. We conduct experiments on three real-world bipartite networks and demonstrate that our method outperforms previous FCA-based methods, and some classic methods such as matrix-factorization and node2vec.
翻訳日:2024-02-14 16:15:11 公開日:2024-02-13
# グリーンチャネルプリエントを用いたカラー画像の雑音化

Color Image Denoising Using The Green Channel Prior ( http://arxiv.org/abs/2402.08235v1 )

ライセンス: Link先を確認
Zhaoming Kong and Xiaowei Yang(参考訳) 標準RGB(sRGB)空間におけるノイズ除去は、実世界の画像のノイズ統計がR、G、Bチャンネルで異なるため、依然として難しい課題である。 実際、グリーンチャネルは通常、原データのサンプリングレートの2倍、赤/青のサンプリング比よりも高い信号対雑音比を持つ。 しかしながら、既存のアプローチの多くは画像パッチ間の関係のモデリングに重点を置いているため、緑チャネルプリエント(gcp)は、色画像の表示において過小評価されるか無視されることが多い。 本稿では,従来の非局所変換領域のデノナイズフレームワークに統合することで,GCPをsRGB空間のデノナイズに活用することを目的とした,GCPベースの画像デノナイズ(GCP-ID)手法を提案する。 簡単に言うと、green channelを利用して同様のパッチの検索をガイドし、パッチの検索品質を改善し、変換ドメインのスパーシティを促進する。 次にRGBパッチをRGGB配列に再構成し、グリーンサンプルの密度を明示的に特徴付ける。 ブロック循環表現を用いて、チャネル間相関とチャネル冗長性をキャプチャする。 合成と実世界の両方のデータセットの実験は、カラー画像とビデオデノーミングタスクのための提案したGCP-IDメソッドの競合性能を示している。 コードはgithub.com/ZhaomingKong/GCP-IDで入手できる。

Noise removal in the standard RGB (sRGB) space remains a challenging task, in that the noise statistics of real-world images can be different in R, G and B channels. In fact, the green channel usually has twice the sampling rate in raw data and a higher signal-to-noise ratio than red/blue ones. However, the green channel prior (GCP) is often understated or ignored in color image denoising since many existing approaches mainly focus on modeling the relationship among image patches. In this paper, we propose a simple and effective one step GCP-based image denoising (GCP-ID) method, which aims to exploit the GCP for denoising in the sRGB space by integrating it into the classic nonlocal transform domain denoising framework. Briefly, we first take advantage of the green channel to guide the search of similar patches, which improves the patch search quality and encourages sparsity in the transform domain. Then we reformulate RGB patches into RGGB arrays to explicitly characterize the density of green samples. The block circulant representation is utilized to capture the cross-channel correlation and the channel redundancy. Experiments on both synthetic and real-world datasets demonstrate the competitive performance of the proposed GCP-ID method for the color image and video denoising tasks. The code is available at github.com/ZhaomingKong/GCP-ID.
翻訳日:2024-02-14 16:14:51 公開日:2024-02-13
# Spear-Phishing 検出のためのプロンプト型文脈ベクトル

Prompted Contextual Vectors for Spear-Phishing Detection ( http://arxiv.org/abs/2402.08309v1 )

ライセンス: Link先を確認
Daniel Nahmias, Gal Engelberg, Dan Klein, Asaf Shabtai(参考訳) 大きな言語モデル(llm)が脅威をエスカレートし、説得力のあるeメールを生成し、ターゲットの偵察を容易にする。 そこで本研究では,llmのアンサンブルを用いて表現ベクトルを生成する新しい文書ベクトル化法に基づく検出手法を提案する。 LLMに人為的な質問の推論と応答を促すことで、メールの内容に共通する説得原理の存在を定量化し、下流の教師あり機械学習モデルのためのコンテキスト文書ベクトルを生成する。 本手法は,プロプライエタリなシステムによって生成されるユニークなデータセットを用いて評価し,ターゲット探索とスピアフィッシングメール生成を自動化する。 本手法は,従来のフィッシングと良性メールのみからなるトレーニングセットを用いて,LLM生成したスピアフィッシングメールの識別において91%のF1スコアを達成する。 llm推論を用いた革新的な文書ベクトル化手法,高品質スピアフィッシングメールの公開データセット,メール検出における提案手法の有効性が実証された。 この手法は様々な文書分類タスク、特に逆問題領域に利用することができる。

Spear-phishing attacks present a significant security challenge, with large language models (LLMs) escalating the threat by generating convincing emails and facilitating target reconnaissance. To address this, we propose a detection approach based on a novel document vectorization method that utilizes an ensemble of LLMs to create representation vectors. By prompting LLMs to reason and respond to human-crafted questions, we quantify the presence of common persuasion principles in the email's content, producing prompted contextual document vectors for a downstream supervised machine learning model. We evaluate our method using a unique dataset generated by a proprietary system that automates target reconnaissance and spear-phishing email creation. Our method achieves a 91% F1 score in identifying LLM-generated spear-phishing emails, with the training set comprising only traditional phishing and benign emails. Key contributions include an innovative document vectorization method utilizing LLM reasoning, a publicly available dataset of high-quality spear-phishing emails, and the demonstrated effectiveness of our method in detecting such emails. This methodology can be utilized for various document classification tasks, particularly in adversarial problem domains.
翻訳日:2024-02-14 16:07:58 公開日:2024-02-13
# ChatCell: 自然言語によるシングルセル分析の実現

ChatCell: Facilitating Single-Cell Analysis with Natural Language ( http://arxiv.org/abs/2402.08303v1 )

ライセンス: Link先を確認
Yin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(llm)が急速に発展するにつれて、科学におけるその影響力はますます顕著になりつつある。 タスク一般化と自由形式の対話におけるLLMの出現する能力は、化学や生物学などの分野を著しく前進させる可能性がある。 しかし、生物の基礎的な構成要素を形成する単細胞生物学の分野は、今でもいくつかの課題に直面している。 高度な知識障壁と現在の方法のスケーラビリティの制限により、シングルセルデータのマスタリングにおけるllmの完全な活用が制限され、直接的なアクセシビリティと迅速なイテレーションが妨げられる。 この目的のために,自然言語による単細胞分析の容易化によるパラダイムシフトの表れであるchatcellを紹介する。 語彙適応と統合シーケンス生成を活用して、ChatCellは単細胞生物学の深い専門知識と多様な分析タスクに対応する能力を獲得した。 広範な実験により、chatcellの堅牢なパフォーマンスとシングルセル洞察の深化の可能性が示され、この重要な分野におけるよりアクセスしやすく直感的な探索への道が開けた。 プロジェクトのホームページはhttps://zjunlp.github.io/project/chatcellで閲覧できます。

As Large Language Models (LLMs) rapidly evolve, their influence in science is becoming increasingly prominent. The emerging capabilities of LLMs in task generalization and free-form dialogue can significantly advance fields like chemistry and biology. However, the field of single-cell biology, which forms the foundational building blocks of living organisms, still faces several challenges. High knowledge barriers and limited scalability in current methods restrict the full exploitation of LLMs in mastering single-cell data, impeding direct accessibility and rapid iteration. To this end, we introduce ChatCell, which signifies a paradigm shift by facilitating single-cell analysis with natural language. Leveraging vocabulary adaptation and unified sequence generation, ChatCell has acquired profound expertise in single-cell biology and the capability to accommodate a diverse range of analysis tasks. Extensive experiments further demonstrate ChatCell's robust performance and potential to deepen single-cell insights, paving the way for more accessible and intuitive exploration in this pivotal field. Our project homepage is available at https://zjunlp.github.io/project/ChatCell.
翻訳日:2024-02-14 16:07:36 公開日:2024-02-13
# 審美的音楽レコメンデーションのための順序複雑美的評価モデル

An Order-Complexity Aesthetic Assessment Model for Aesthetic-aware Music Recommendation ( http://arxiv.org/abs/2402.08300v1 )

ライセンス: Link先を確認
Xin Jin, Wu Zhou, Jingyu Wang, Duo Xu, Yongsen Zheng(参考訳) コンピュータ美学評価は視覚芸術作品に顕著な貢献をしているが、音楽への応用は稀である。 現在、主観的評価は芸術作品を評価する最も効果的な形態である。 しかし、芸術作品の主観評価は、多くの人的・材料的資源を消費する。 人気のAI生成コンテンツ(AIGC)タスクは今やすべての産業に波及し、音楽も例外ではない。 人間が作った音楽と比較すると、AIが生成した音楽は依然として機械的、単調に聞こえる。 評価注釈付き音楽データセットがないため、音楽の美しさを客観的に測定するために、伝統的な美的方程式を選ばなければならない。 本稿では,AI音楽生成の質の向上と,コンピュータ音楽の生成,合成,レコメンデーション,その他のタスクの指導のために,Birkhoffの美的尺度を用いて美的モデルを設計し,音楽の美的美しさを客観的に測定し,音楽の美的感覚に応じてレコメンデーションリストを作成する。 客観的審美モデルと推奨方法が有効であることを示す実験を行った。

Computational aesthetic evaluation has made remarkable contribution to visual art works, but its application to music is still rare. Currently, subjective evaluation is still the most effective form of evaluating artistic works. However, subjective evaluation of artistic works will consume a lot of human and material resources. The popular AI generated content (AIGC) tasks nowadays have flooded all industries, and music is no exception. While compared to music produced by humans, AI generated music still sounds mechanical, monotonous, and lacks aesthetic appeal. Due to the lack of music datasets with rating annotations, we have to choose traditional aesthetic equations to objectively measure the beauty of music. In order to improve the quality of AI music generation and further guide computer music production, synthesis, recommendation and other tasks, we use Birkhoff's aesthetic measure to design a aesthetic model, objectively measuring the aesthetic beauty of music, and form a recommendation list according to the aesthetic feeling of music. Experiments show that our objective aesthetic model and recommendation method are effective.
翻訳日:2024-02-14 16:07:18 公開日:2024-02-13
# Time to Stop and Think: どのような研究をしたいのか?

Time to Stop and Think: What kind of research do we want to do? ( http://arxiv.org/abs/2402.08298v1 )

ライセンス: Link先を確認
Josu Ceberio, Borja Calvo(参考訳) 実験は、定量的な観察を収集し、仮説を検証し、その改革の証拠を提供することができるため、人工知能の研究の本質的な部分である。 そのため、実験は研究目的と整合し、それぞれのケースで関連する問題に適切に対処する必要がある。 残念なことに、この文学は実験が厳密で説得力のない作品に満ちており、しばしば、関連する研究問題に答えるよりも、事前の信念を支持するように設計されている。 本稿では,メタヒューリスティックな最適化の分野に焦点をあてる。これは我々の仕事のメインの分野であり,この手紙を動機づけた不正行為を観察した場所である。 たとえこの原稿の焦点を研究の実験的部分に限定したとしても、私たちの主な目標は、作品の真に批判的な評価の種を縫い合わせることであり、個人とコミュニティの両方でリフレクションプロセスを引き起こします。 このようなリフレクションプロセスは複雑すぎて,全体として取り組めません。 そのため、本文書では、ベンチマークインスタンス対インスタンスジェネレータの使用や実験結果の統計的評価といったトピックについて議論し、作業における実験の役割についての考察を含めます。 すなわち、この文書に含まれる全ての声明は、他人が共有できるかどうかに関わらず、個人的な見解と意見である。 確かに、異なる視点を持つことは、良い議論プロセスを確立するための基盤です。

Experimentation is an intrinsic part of research in artificial intelligence since it allows for collecting quantitative observations, validating hypotheses, and providing evidence for their reformulation. For that reason, experimentation must be coherent with the purposes of the research, properly addressing the relevant questions in each case. Unfortunately, the literature is full of works whose experimentation is neither rigorous nor convincing, oftentimes designed to support prior beliefs rather than answering the relevant research questions. In this paper, we focus on the field of metaheuristic optimization, since it is our main field of work, and it is where we have observed the misconduct that has motivated this letter. Even if we limit the focus of this manuscript to the experimental part of the research, our main goal is to sew the seed of sincere critical assessment of our work, sparking a reflection process both at the individual and the community level. Such a reflection process is too complex and extensive to be tackled as a whole. Therefore, to bring our feet to the ground, we will include in this document our reflections about the role of experimentation in our work, discussing topics such as the use of benchmark instances vs instance generators, or the statistical assessment of empirical results. That is, all the statements included in this document are personal views and opinions, which can be shared by others or not. Certainly, having different points of view is the basis to establish a good discussion process.
翻訳日:2024-02-14 16:06:58 公開日:2024-02-13
# 大規模問題解決のためのマルチレベルGNNプレコンディショナー

Multi-Level GNN Preconditioner for Solving Large Scale Problems ( http://arxiv.org/abs/2402.08296v1 )

ライセンス: Link先を確認
Matthieu Nastorg (TAU, IFPEN), Jean-Marc Gratien (IFPEN), Thibault Faney (IFPEN), Michele Alessandro Bucci (TAU), Guillaume Charpiat (TAU), Marc Schoenauer (TAU)(参考訳) 大規模な数値シミュレーションは、しばしばおびただしい計算を犠牲にしている。 ハイパフォーマンスコンピューティングはプロセスを強化したが、レガシコードを並列gpuの計算に適応させることは依然として困難である。 一方、機械学習モデルはGPU計算を効果的に活用できるが、一般化と精度に苦慮することが多い。 特にグラフニューラルネットワーク(GNN)は、メッシュのような非構造化データから学ぶのに最適だが、小さな問題に制限されることが多い。 さらに、トレーニングされたモデルの能力は通常、データ駆動ソリューションの精度を制限する。 本稿では,GNNモデルを多レベルドメイン分解フレームワークに統合した新しいプレコンディショナーを提案する。 提案するgnnベースのプリコンディショナーは,krylov法の有効性を高めるために用いられ,任意の精度で収束可能なハイブリッドソルバが実現されている。 krylovメソッドの効率性は、任意のサイズと形状のメッシュに適応可能なgnnプリコンディショナから大きな恩恵を受け、gpu上で実行され、プロセス全体のスケーラビリティを強制するためのマルチレベルアプローチを備えている。 ハイブリッドソルバの数値的挙動を検証するため,いくつかの実験を行い,c++レガシーソルバとの競合性を評価するため,その性能の詳細な解析を行った。

Large-scale numerical simulations often come at the expense of daunting computations. High-Performance Computing has enhanced the process, but adapting legacy codes to leverage parallel GPU computations remains challenging. Meanwhile, Machine Learning models can harness GPU computations effectively but often struggle with generalization and accuracy. Graph Neural Networks (GNNs), in particular, are great for learning from unstructured data like meshes but are often limited to small-scale problems. Moreover, the capabilities of the trained model usually restrict the accuracy of the data-driven solution. To benefit from both worlds, this paper introduces a novel preconditioner integrating a GNN model within a multi-level Domain Decomposition framework. The proposed GNN-based preconditioner is used to enhance the efficiency of a Krylov method, resulting in a hybrid solver that can converge with any desired level of accuracy. The efficiency of the Krylov method greatly benefits from the GNN preconditioner, which is adaptable to meshes of any size and shape, is executed on GPUs, and features a multi-level approach to enforce the scalability of the entire process. Several experiments are conducted to validate the numerical behavior of the hybrid solver, and an in-depth analysis of its performance is proposed to assess its competitiveness against a C++ legacy solver.
翻訳日:2024-02-14 16:06:33 公開日:2024-02-13
# 騒がしいランキングアノテーションによる胎児超音波のセマンティック画像品質の学習

Learning semantic image quality for fetal ultrasound from noisy ranking annotation ( http://arxiv.org/abs/2402.08294v1 )

ライセンス: Link先を確認
Manxi Lin, Jakob Ambsdorf, Emilie Pi Fogtmann Sejer, Zahra Bashir, Chun Kit Wong, Paraskevas Pegios, Alberto Raheli, Morten Bo S{\o}ndergaard Svendsen, Mads Nielsen, Martin Gr{\o}nneb{\ae}k Tolsgaard, Anders Nymark Christensen, Aasa Feragen(参考訳) 画像品質がセマンティック要件に依存するアプリケーションに対して,セマンティックな画像品質の概念を導入する。 ランキングが困難でアノテーションが煩わしい胎児超音波検査では,画像の意味的画質に基づいて画像の分類を行い,不確かさを推定して予測したランキングを付与する頑健な粗粒度モデルを設計した。 学習データのランキングをアノテートするために,マージソートアルゴリズムに基づく効率的なランキングアノテーションスキームを設計する。 最後に, 胎児超音波品質評価課題において, 評価アルゴリズムを最先端のランキングアルゴリズムと比較し, 相関指標の多数において, 提案手法の優れた性能を示す。

We introduce the notion of semantic image quality for applications where image quality relies on semantic requirements. Working in fetal ultrasound, where ranking is challenging and annotations are noisy, we design a robust coarse-to-fine model that ranks images based on their semantic image quality and endow our predicted rankings with an uncertainty estimate. To annotate rankings on training data, we design an efficient ranking annotation scheme based on the merge sort algorithm. Finally, we compare our ranking algorithm to a number of state-of-the-art ranking algorithms on a challenging fetal ultrasound quality assessment task, showing the superior performance of our method on the majority of rank correlation metrics.
翻訳日:2024-02-14 16:06:12 公開日:2024-02-13
# データ中毒が反事実的説明に及ぼす影響

The Effect of Data Poisoning on Counterfactual Explanations ( http://arxiv.org/abs/2402.08290v1 )

ライセンス: Link先を確認
Andr\'e Artelt, Shubham Sharma, Freddy Lecu\'e, Barbara Hammer(参考訳) 対実的な説明はブラックボックスシステムの予測を解析するための一般的な方法であり、異なる(より好ましい)システム出力を得るために入力を変更する方法に関する実用的な変更を提案することによって、計算的リコースの機会を提供することができる。 しかし、最近の研究は、さまざまなタイプの操作に対する脆弱性を強調している。 この研究は、データ中毒に対する非現実的な説明の脆弱性を研究する。 我々は、データ中毒を、3つの異なるレベル(ローカルに1つのインスタンス、サブグループに1つ、グローバルにすべてのインスタンスに1つ)でリコースのコストを増大させるために、反ファクト的な説明の文脈で定式化する。 現状の逆ファクト生成手法 \&ツールボックスがこのようなデータ中毒に弱いことを実証する。

Counterfactual explanations provide a popular method for analyzing the predictions of black-box systems, and they can offer the opportunity for computational recourse by suggesting actionable changes on how to change the input to obtain a different (i.e. more favorable) system output. However, recent work highlighted their vulnerability to different types of manipulations. This work studies the vulnerability of counterfactual explanations to data poisoning. We formalize data poisoning in the context of counterfactual explanations for increasing the cost of recourse on three different levels: locally for a single instance, or a sub-group of instances, or globally for all instances. We demonstrate that state-of-the-art counterfactual generation methods \& toolboxes are vulnerable to such data poisoning.
翻訳日:2024-02-14 16:05:57 公開日:2024-02-13
# 刑事事件調査への論理的アプローチ

A Logical Approach to Criminal Case Investigation ( http://arxiv.org/abs/2402.08284v1 )

ライセンス: Link先を確認
Takanori Ugai, Yusuke Koyanagi, Fumihito Nishino(参考訳) 結論の理由、すなわち説明可能性や解釈可能性を説明する性質を持つxai(explanable ai)技術が注目されている。 XAIは法科学と司法制度の発展に使用されることが期待されている。 今日の法医学および刑事捜査環境では、専門家は大量のデータ、カオス的で複雑な環境における小さな証拠、伝統的な研究室構造、時には不十分な知識のために多くの課題に直面している。 これらすべてが、調査の失敗と司法の流罪につながる可能性がある。 本稿では,犯罪現場調査への論理的アプローチの応用について述べる。 本作の主題はシャーロック・ホームズの短編小説『the adventure of the speckled band』である。 応用データは知識グラフ推論チャレンジのために作成された知識グラフである。 我々は、動機、機会、方法を各人に推測することで犯人を見つけようとした。 我々は,辞書や辞書からの動機付けと方法のオントロジーを作成し,それを'The Adventure of the Speckled Band''の知識グラフに追加し,モチベーション,機会,方法を決定するためのスクリプトを適用した。

XAI (eXplanable AI) techniques that have the property of explaining the reasons for their conclusions, i.e. explainability or interpretability, are attracting attention. XAI is expected to be used in the development of forensic science and the justice system. In today's forensic and criminal investigation environment, experts face many challenges due to large amounts of data, small pieces of evidence in a chaotic and complex environment, traditional laboratory structures and sometimes inadequate knowledge. All these can lead to failed investigations and miscarriages of justice. In this paper, we describe the application of one logical approach to crime scene investigation. The subject of the application is ``The Adventure of the Speckled Band'' from the Sherlock Holmes short stories. The applied data is the knowledge graph created for the Knowledge Graph Reasoning Challenge. We tried to find the murderer by inferring each person with the motive, opportunity, and method. We created an ontology of motives and methods of murder from dictionaries and dictionaries, added it to the knowledge graph of ``The Adventure of the Speckled Band'', and applied scripts to determine motives, opportunities, and methods.
翻訳日:2024-02-14 16:05:42 公開日:2024-02-13
# グローバル・マハラノビス距離を用いた分類

Classification Using Global and Local Mahalanobis Distances ( http://arxiv.org/abs/2402.08283v1 )

ライセンス: Link先を確認
Annesha Ghosh, Anil K. Ghosh, Rita SahaRay, and Soham Sarkar(参考訳) 競合クラスからの観測のマハラノビス距離に基づく新しい半パラメトリック分類器を提案する。 我々のツールは、これらの距離を異なるクラスの後部確率を推定する特徴として利用するロジスティックリンク関数を持つ一般化加法モデルである。 線形および二次判別分析のような一般的なパラメトリック分類器は、主に基底分布の正規性によって動機づけられるが、提案された分類器はより柔軟で、そのようなパラメトリックな仮定を含まない。 楕円分布の密度はマハラノビス距離の関数であるため、この分類器は競合するクラスが(ほぼ)楕円的である場合によく機能する。 このような場合、特にサンプルサイズがデータ次元よりも小さい場合、一般的な非パラメトリック分類器よりも優れている。 非楕円型およびおそらく多重モード分布に対処するために、マハラノビス距離の局所バージョンを提案する。 次に,局所マハラノビス距離を特徴量とする一般化加法モデルに基づく別の分類器を提案する。 この非パラメトリック分類器は、基底分布が楕円型であるとき、通常、マハラノビス距離に基づく半パラメトリック分類器のように機能するが、いくつかの非楕円型およびマルチモーダル分布に対してより優れる。 また,この2つの分類器の挙動を高次元,低試料サイズで検討した。 いくつかのシミュレーションおよび実データを含む徹底的な数値研究は、多くの最先端手法と比較して提案した分類器の有用性を示している。

We propose a novel semi-parametric classifier based on Mahalanobis distances of an observation from the competing classes. Our tool is a generalized additive model with the logistic link function that uses these distances as features to estimate the posterior probabilities of the different classes. While popular parametric classifiers like linear and quadratic discriminant analyses are mainly motivated by the normality of the underlying distributions, the proposed classifier is more flexible and free from such parametric assumptions. Since the densities of elliptic distributions are functions of Mahalanobis distances, this classifier works well when the competing classes are (nearly) elliptic. In such cases, it often outperforms popular nonparametric classifiers, especially when the sample size is small compared to the dimension of the data. To cope with non-elliptic and possibly multimodal distributions, we propose a local version of the Mahalanobis distance. Subsequently, we propose another classifier based on a generalized additive model that uses the local Mahalanobis distances as features. This nonparametric classifier usually performs like the Mahalanobis distance based semiparametric classifier when the underlying distributions are elliptic, but outperforms it for several non-elliptic and multimodal distributions. We also investigate the behaviour of these two classifiers in high dimension, low sample size situations. A thorough numerical study involving several simulated and real datasets demonstrate the usefulness of the proposed classifiers in comparison to many state-of-the-art methods.
翻訳日:2024-02-14 16:05:26 公開日:2024-02-13
# Pix2Code: プログラムとして神経視覚概念を構成することを学ぶ

Pix2Code: Learning to Compose Neural Visual Concepts as Programs ( http://arxiv.org/abs/2402.08280v1 )

ライセンス: Link先を確認
Antonia W\"ust, Wolfgang Stammer, Quentin Delfosse, Devendra Singh Dhami, Kristian Kersting(参考訳) 教師なしの方法で画像から抽象概念を学ぶ際の課題は、視覚知覚と一般化可能な関係推論の必要な統合にある。 さらに、このタスクの教師なしの性質は、人間のユーザがモデルの学習概念を理解し、潜在的に誤った振る舞いを修正できるようにする必要があります。 視覚概念学習における一般化可能性と解釈可能性の制約に対処するため,明示的,構成的記号的,暗黙的両方のニューラル表現の能力を利用して,プログラム合成を視覚的リレーショナル推論に拡張するフレームワークPix2Codeを提案する。 これは、画像からオブジェクト表現を取得し、ラムダ計算プログラムとして関係概念を合成することで達成される。 pix2code の様々な特性を,難解な推論領域,カンディンスキーパターン,キュリ上で評価し,新しいデータや概念構成に一般化した構成的視覚概念を識別する能力をテストする。 特に、ニューラルアプローチとは対照的に、Pix2Codeの表現が人間の解釈可能であり、性能改善のために容易に修正可能であることを示す。

The challenge in learning abstract concepts from images in an unsupervised fashion lies in the required integration of visual perception and generalizable relational reasoning. Moreover, the unsupervised nature of this task makes it necessary for human users to be able to understand a model's learnt concepts and potentially revise false behaviours. To tackle both the generalizability and interpretability constraints of visual concept learning, we propose Pix2Code, a framework that extends program synthesis to visual relational reasoning by utilizing the abilities of both explicit, compositional symbolic and implicit neural representations. This is achieved by retrieving object representations from images and synthesizing relational concepts as lambda-calculus programs. We evaluate the diverse properties of Pix2Code on the challenging reasoning domains, Kandinsky Patterns and CURI, thereby testing its ability to identify compositional visual concepts that generalize to novel data and concept configurations. Particularly, in stark contrast to neural approaches, we show that Pix2Code's representations remain human interpretable and can be easily revised for improved performance.
翻訳日:2024-02-14 16:04:59 公開日:2024-02-13
# 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して

Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering ( http://arxiv.org/abs/2402.08277v1 )

ライセンス: Link先を確認
Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus Leippold(参考訳) 大規模言語モデル(LLM)のより忠実で追跡可能な回答への進歩は、様々な研究や実践に不可欠である。 この目標を達成する1つの道は、信頼できる情報源の答えを基盤にすることです。 しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。 本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。 具体的には,多様な高品質なトレーニングと大規模テストデータを合成可能な,自動データ品質フィルタを備えたデータ生成パイプラインを提案する。 さらに,精巧に調整されたスペシャリストモデルのロバスト性を評価するために,4つのテストセットを導入する。 総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。 %であった。 さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。

Advances towards more faithful and traceable answers of Large Language Models (LLMs) are crucial for various research and practical endeavors. One avenue in reaching this goal is basing the answers on reliable sources. However, this Evidence-Based QA has proven to work insufficiently with LLMs in terms of citing the correct sources (source quality) and truthfully representing the information within sources (answer attributability). In this work, we systematically investigate how to robustly fine-tune LLMs for better source quality and answer attributability. Specifically, we introduce a data generation pipeline with automated data quality filters, which can synthesize diversified high-quality training and testing data at scale. We further introduce four test sets to benchmark the robustness of fine-tuned specialist models. Extensive evaluation shows that fine-tuning on synthetic data improves performance on both in- and out-of-distribution. %Evidence-Based QA cases. Furthermore, we show that data quality, which can be drastically improved by proposed quality filters, matters more than quantity in improving Evidence-Based QA.
翻訳日:2024-02-14 16:04:39 公開日:2024-02-13
# バイオメディカルイメージセグメンテーションのためのU-netスキップ接続の再検討

Rethinking U-net Skip Connections for Biomedical Image Segmentation ( http://arxiv.org/abs/2402.08276v1 )

ライセンス: Link先を確認
Frauke Wilm, Jonas Ammeling, Mathias \"Ottl, Rutger H.J. Fick, Marc Aubreville, Katharina Breininger(参考訳) U-netアーキテクチャは、深層学習に基づく医療画像のセグメンテーションに大きな影響を与えている。 長距離スキップ接続の統合により、高解像度の特徴の保存が容易になった。 しかし、分配外データは、ニューラルネットワークのパフォーマンスを実質的に阻害する可能性がある。 以前の研究では、トレーニングされたネットワーク層は、このドメインシフトに対する感受性が異なることが示されており、例えば、浅い層はより深い層よりも影響を受けやすい。 本研究は,U-net型セグメンテーションネットワークの領域シフトに対する層感度の影響について考察する。 浅い層の特徴を対応するデコーダブロックにコピーすることで、これらはドメイン固有の情報を再導入するリスクを負う。 合成データセットを用いて、異なるレベルのデータ分散シフトをモデル化し、下流セグメンテーション性能への影響を評価した。 我々は,Hellinger距離を用いて,各ネットワーク層固有の領域感受性を定量化した。 これらの実験により、以前のネットワーク層よりも高いドメイン感受性が確認された。 スキップ接続を徐々に除去すると,より深い層の磁化率の低下が観察された。 ダウンストリームセグメンテーション性能では、元のu-netはスキップ接続なしで派生型よりも優れていた。 しかし、最高のパフォーマンスは、最上位のスキップ接続を取り除くことで達成された - ドメインシフトがあるだけでなく、ドメイン内テストデータに対しても。 その結果,2つの病理組織学的データセットと1つの磁気共鳴データセットの3つの臨床データセットで,最大10%のドメインと13%のクロスドメインのパフォーマンス向上が得られた。

The U-net architecture has significantly impacted deep learning-based segmentation of medical images. Through the integration of long-range skip connections, it facilitated the preservation of high-resolution features. Out-of-distribution data can, however, substantially impede the performance of neural networks. Previous works showed that the trained network layers differ in their susceptibility to this domain shift, e.g., shallow layers are more affected than deeper layers. In this work, we investigate the implications of this observation of layer sensitivity to domain shifts of U-net-style segmentation networks. By copying features of shallow layers to corresponding decoder blocks, these bear the risk of re-introducing domain-specific information. We used a synthetic dataset to model different levels of data distribution shifts and evaluated the impact on downstream segmentation performance. We quantified the inherent domain susceptibility of each network layer, using the Hellinger distance. These experiments confirmed the higher domain susceptibility of earlier network layers. When gradually removing skip connections, a decrease in domain susceptibility of deeper layers could be observed. For downstream segmentation performance, the original U-net outperformed the variant without any skip connections. The best performance, however, was achieved when removing the uppermost skip connection - not only in the presence of domain shifts but also for in-domain test data. We validated our results on three clinical datasets - two histopathology datasets and one magnetic resonance dataset - with performance increases of up to 10% in-domain and 13% cross-domain when removing the uppermost skip connection.
翻訳日:2024-02-14 16:04:22 公開日:2024-02-13
# 何の修正だ? ASATsルール文書化に関する研究

What the Fix? A Study of ASATs Rule Documentation ( http://arxiv.org/abs/2402.08270v1 )

ライセンス: Link先を確認
Corentin Latappy, Thomas Degueule, Jean-R\'emy Falleri (LaBRI), Romain Robbes (CNRS, LaBRI, UB, Bordeaux INP), Xavier Blanc, C\'edric Teyton(参考訳) 自動静的解析ツール(ASAT)は、ソフトウェア開発者がコーディングプラクティスを拡散し、強制するために広く使われている。 しかし、そもそもコーディングプラクティスについて学ぶことは重要だが、asatsのドキュメントについてはほとんどわかっていない。 私たちはこれにいくつかの貢献を通じて光を当てた。 まず、複数のプログラミング言語向けに16のASATの100以上のルールの文書を分析し、文書の目的の分類を蒸留する。 そして,その目的や内容のタイプの観点から,文書の有効性を評価する調査を行う。 ASATドキュメントで改善の機会を強調します。 特に、調査対象のルールの半分に目的が欠けていること、さらに理由がある場合、何と修正よりも品質上の問題がある可能性が高いこと、などが分かりました。

Automatic Static Analysis Tools (ASATs) are widely used by software developers to diffuse and enforce coding practices. Yet, we know little about the documentation of ASATs, despite it being critical to learn about the coding practices in the first place. We shed light on this through several contributions. First, we analyze the documentation of more than 100 rules of 16 ASATs for multiple programming languages, and distill a taxonomy of the purposes of the documentation-What triggers a rule; Why it is important; and how to Fix an issue-and its types of contents. Then, we conduct a survey to assess the effectiveness of the documentation in terms of its goals and types of content. We highlight opportunities for improvement in ASAT documentation. In particular, we find that the Why purpose is missing in half of the rules we survey; moreover, when the Why is present, it is more likely to have quality issues than the What and the Fix.
翻訳日:2024-02-14 16:04:03 公開日:2024-02-13
# 深部ReLUニューラルネットワークにおける幾何誘起インシシタン規則化

Geometry-induced Implicit Regularization in Deep ReLU Neural Networks ( http://arxiv.org/abs/2402.08269v1 )

ライセンス: Link先を確認
Joachim Bona-Pellissier (IMT), Fran \c{c}ois Malgouyres (IMT), Fran \c{c}ois Bachoc (IMT)(参考訳) トレーニングサンプルよりも多くのパラメータを持つニューラルネットワークが過剰に適合しないことはよく知られている。 まだよく理解されていない暗黙の正規化現象は最適化中に起こり、「良い」ネットワークが好まれる。 したがって、全ての可能なネットワークを考慮せず、「良い」ネットワークのみを考えると、パラメータの数は複雑さの適切な尺度ではない。 最適化時にどのネットワークが好まれるかをよりよく理解するために,パラメータの異なる出力集合の幾何について検討する。 入力が固定されると、この集合の次元が変化し、バッチ関数次元と呼ばれる局所次元が隠れた層の活性化パターンによってほぼ確実に決定されることを示す。 バッチ関数次元がネットワークパラメータ化の対称性(ニューロンの置換と正の再スケーリング)に不変であることを証明する。 経験的に、バッチ関数の次元は最適化中に減少する。 その結果、最適化は低バッチ機能次元のパラメータにつながる。 我々はこの現象を幾何学的に誘発される暗黙の正規化と呼び、バッチ関数次元はネットワークパラメータと入力の両方に依存する。 入力の影響を理解するため、固定パラメータに対して、入力が変化する場合に最も到達可能なバッチ機能次元について検討する。 計算可能全関数次元と呼ばれるこの量は、ネットワークのパラメータ化の対称性に不変であり、達成可能な活性化パターンによって決定されることを示す。 また,計算可能な完全汎関数次元の推定の高速収束を,増大する大きさのランダム入力に対して示すサンプリング定理を提案する。 経験的に、計算可能な完全汎関数次元は、局所的識別可能性の概念と関連するパラメータの数に近いままである。 これは、トレーニング入力とテスト入力で計算されたバッチ機能次元の観測値とは異なる。 後者は幾何学による暗黙の正則化の影響を受けている。

It is well known that neural networks with many more parameters than training examples do not overfit. Implicit regularization phenomena, which are still not well understood, occur during optimization and 'good' networks are favored. Thus the number of parameters is not an adequate measure of complexity if we do not consider all possible networks but only the 'good' ones. To better understand which networks are favored during optimization, we study the geometry of the output set as parameters vary. When the inputs are fixed, we prove that the dimension of this set changes and that the local dimension, called batch functional dimension, is almost surely determined by the activation patterns in the hidden layers. We prove that the batch functional dimension is invariant to the symmetries of the network parameterization: neuron permutations and positive rescalings. Empirically, we establish that the batch functional dimension decreases during optimization. As a consequence, optimization leads to parameters with low batch functional dimensions. We call this phenomenon geometry-induced implicit regularization.The batch functional dimension depends on both the network parameters and inputs. To understand the impact of the inputs, we study, for fixed parameters, the largest attainable batch functional dimension when the inputs vary. We prove that this quantity, called computable full functional dimension, is also invariant to the symmetries of the network's parameterization, and is determined by the achievable activation patterns. We also provide a sampling theorem, showing a fast convergence of the estimation of the computable full functional dimension for a random input of increasing size. Empirically we find that the computable full functional dimension remains close to the number of parameters, which is related to the notion of local identifiability. This differs from the observed values for the batch functional dimension computed on training inputs and test inputs. The latter are influenced by geometry-induced implicit regularization.
翻訳日:2024-02-14 16:03:48 公開日:2024-02-13
# RingAttentionによる100万ビデオと言語に関する世界モデル

World Model on Million-Length Video And Language With RingAttention ( http://arxiv.org/abs/2402.08268v1 )

ライセンス: Link先を確認
Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel(参考訳) 現在の言語モデルは、言葉で簡単に説明できない世界の理解の側面に乏しく、複雑で長期的なタスクに苦しむ。 ビデオシーケンスは、言語や静的画像に欠けている貴重な時間情報を提供し、言語との協調モデリングに魅力的である。 このようなモデルは、人間のテキスト知識と物理的世界の両方の理解を深め、人間を支援するためのより広範なAI能力を可能にする。 しかし、ビデオや言語シーケンスの数百万のトークンから学ぶことは、メモリの制約、計算の複雑さ、データセットの制限といった問題を引き起こす。 これらの課題に対処するため、多種多様なビデオや書籍のデータセットをキュレートし、RingAttention技術を用いて長いシーケンスで学習し、コンテキストサイズを4Kから100Mトークンに徐々に増加させます。 本稿では,以下の貢献を行う。 (a)最大コンテキストサイズニューラルネットワーク:我々は、長いビデオと言語シーケンスで最大規模のコンテクストサイズトランスフォーマーをトレーニングし、困難な検索タスクと長いビデオ理解において新しいベンチマークを設定します。 (b)異なるシーケンス長を混合するマスク付きシーケンスパッキング、言語とビジョンのバランスを取るための損失重み付け、長いシーケンスチャットのためのモデル生成qaデータセットなど、ビジョン言語トレーニングの課題を克服するためのソリューション。 (c)RingAttention、マスク付きシーケンスパッキング、および数百万のマルチモーダルシーケンスのトレーニングのための重要な機能を備えた高度に最適化された実装。 (d)長文文書(LWM-Text,LWM-Text-Chat)とビデオ(LWM,LWM-Chat)を100万以上のトークンで処理できる7Bパラメータモデルのファミリーをオープンソースとして公開した。 この研究は、人間の知識とマルチモーダル世界の両方、そしてより広範な能力を理解するために、長いビデオと言語の巨大なデータセットをトレーニングする方法を開拓する。

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.
翻訳日:2024-02-14 16:03:22 公開日:2024-02-13
# 視覚的除幻覚的命令生成

Visually Dehallucinative Instruction Generation ( http://arxiv.org/abs/2402.08348v1 )

ライセンス: Link先を確認
Sungguk Cha, Jusung Lee, Younghyun Lee, Cheoljong Yang(参考訳) 近年, 生成言語モデルによる合成視覚指導は, 視覚的問合せ作業において, テキスト生成性能を実証している。 しかし、生成言語モデルの幻覚化、すなわち生成した画像テキストデータには意図しない内容が含まれている。 本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。 私たちの重要な貢献は、イメージ整合型インストラクティブなQAデータセットCAP2QA-COCOとそのスケーラブルなレシピの導入です。 実験では、同じソースデータを共有する合成ビジュアル命令データセットを視覚命令チューニングにより比較し、一般的な視覚認識タスクを行う。 提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。

In recent years, synthetic visual instructions by generative language model have demonstrated plausible text generation performance on the visual question-answering tasks. However, challenges persist in the hallucination of generative language models, i.e., the generated image-text data contains unintended contents. This paper presents a novel and scalable method for generating visually dehallucinative instructions, dubbed CAP2QA, that constrains the scope to only image contents. Our key contributions lie in introducing image-aligned instructive QA dataset CAP2QA-COCO and its scalable recipe. In our experiments, we compare synthetic visual instruction datasets that share the same source data by visual instruction tuning and conduct general visual recognition tasks. It shows that our proposed method significantly reduces visual hallucination while consistently improving visual recognition ability and expressiveness.
翻訳日:2024-02-14 15:55:52 公開日:2024-02-13
# 条件付情報ゲイントレリス

Conditional Information Gain Trellis ( http://arxiv.org/abs/2402.08345v1 )

ライセンス: Link先を確認
Ufuk Can Bicici, Tuna Han Salih Meral, Lale Akarun(参考訳) 条件付きコンピューティングは、ニューラルネットワークの計算ユニットの一部のみを使用して入力を処理する。 個々のサンプルをルーティングすることで、深い畳み込みネットワークの一部を実行することを学ぶことは、いくつかの利点がある。 さらに、類似したクラスが同じ経路にルーティングされると、ネットワークの一部がより微細な違いとより良い分類精度の区別を学習し、より少ないパラメータで達成できる。 近年、いくつかの論文がこのアイデアを活用し、木型のネットワーク内のノードの特定の子を取るか、ネットワークの一部をスキップする。 本研究では、深層畳み込みニューラルネットワークにおいて、特定の実行パスを生成するトレリスに基づくアプローチに従う。 我々は,情報ゲインに基づくコスト関数を用いて,畳み込み層のどのサブセットが実行されるかを決定するルーティング機構を設計した。 我々は条件情報ゲイントレリス(CIGT)と呼ぶ。 条件付き実行機構は,計算資源のごく一部を用いて,非条件付きベースラインと比較して,同等あるいは優れたモデル性能を実現することを示す。

Conditional computing processes an input using only part of the neural network's computational units. Learning to execute parts of a deep convolutional network by routing individual samples has several advantages: Reducing the computational burden is an obvious advantage. Furthermore, if similar classes are routed to the same path, that part of the network learns to discriminate between finer differences and better classification accuracies can be attained with fewer parameters. Recently, several papers have exploited this idea to take a particular child of a node in a tree-shaped network or to skip parts of a network. In this work, we follow a Trellis-based approach for generating specific execution paths in a deep convolutional neural network. We have designed routing mechanisms that use differentiable information gain-based cost functions to determine which subset of features in a convolutional layer will be executed. We call our method Conditional Information Gain Trellis (CIGT). We show that our conditional execution mechanism achieves comparable or better model performance compared to unconditional baselines, using only a fraction of the computational resources.
翻訳日:2024-02-14 15:55:28 公開日:2024-02-13
# ノイズSGDにおけるインシシットバイアス : 差分プライベートトレーニングへの応用

Implicit Bias in Noisy-SGD: With Applications to Differentially Private Training ( http://arxiv.org/abs/2402.08344v1 )

ライセンス: Link先を確認
Tom Sander, Maxime Sylvestre, Alain Durmus(参考訳) Stochastic Gradient Descent (SGD) を用いた小さなバッチによるディープニューラルネットワーク(DNN)のトレーニングでは、より大きなバッチに比べて優れたテストパフォーマンスが得られる。 SGD固有の特定のノイズ構造は、この暗黙のバイアスの原因であることが知られている。 DNNのトレーニングで差分プライバシー(DP)を確保するために使用されるDP-SGDは、クリップされた勾配にガウスノイズを追加する。 驚くべきことに、大規模なバッチトレーニングは依然としてパフォーマンスを著しく低下させるため、強力なdpは大量のバッチを使用する必要があるため、重要な課題となる。 最初に、この現象は、クリッピングなしではノイズ-SGD(DP-SGD)にまで広がり、その確率性(クリップではなく)がこの暗黙バイアスの原因であることを示唆した。 線形最小二乗および対角線形ネットワーク設定におけるノイズsgdの連続バージョンで得られた解を理論的に解析し, 暗黙のバイアスが付加雑音によって実際に増幅されることを明らかにした。 従って、大規模dp-sgdトレーニングのパフォーマンス問題は、sgdと同じ基本原則に根ざしており、大規模バッチトレーニング戦略の潜在的な改善を期待できる。

Training Deep Neural Networks (DNNs) with small batches using Stochastic Gradient Descent (SGD) yields superior test performance compared to larger batches. The specific noise structure inherent to SGD is known to be responsible for this implicit bias. DP-SGD, used to ensure differential privacy (DP) in DNNs' training, adds Gaussian noise to the clipped gradients. Surprisingly, large-batch training still results in a significant decrease in performance, which poses an important challenge because strong DP guarantees necessitate the use of massive batches. We first show that the phenomenon extends to Noisy-SGD (DP-SGD without clipping), suggesting that the stochasticity (and not the clipping) is the cause of this implicit bias, even with additional isotropic Gaussian noise. We theoretically analyse the solutions obtained with continuous versions of Noisy-SGD for the Linear Least Square and Diagonal Linear Network settings, and reveal that the implicit bias is indeed amplified by the additional noise. Thus, the performance issues of large-batch DP-SGD training are rooted in the same underlying principles as SGD, offering hope for potential improvements in large batch training strategies.
翻訳日:2024-02-14 15:54:34 公開日:2024-02-13
# 大規模言語モデルにおける5つの大きな個人性特性の排除--分類器駆動によるテキスト分析

Eliciting Big Five Personality Traits in Large Language Models: A Textual Analysis with Classifier-Driven Approach ( http://arxiv.org/abs/2402.08341v1 )

ライセンス: Link先を確認
Airlie Hilliard, Cristian Munoz, Zekun Wu and Adriano Soares Koshiyama(参考訳) 大規模言語モデル(LLM)は採用状況において、候補者と雇用主の両方が利用している。 しかし、これには多くの倫理的懸念があり、特にこれらの「ブラックボックス」モデルにおける透明性の欠如に関連している。 従来の研究は、LLMの性格特性を調査することで、これらのモデルの透明性を高めようとしてきたが、過去の研究の多くは、完成すべき個性評価を提供してきた。 一方,本研究では,異なる入力プロンプトに基づいて出力変動を調べることにより,モデルをよりよく理解することを目指す。 具体的には、一般的な面接質問から導かれるプロンプトと、特定の5つの人格特性を引き出すためのプロンプトを用いて、モデルが人間のような特性活性化に影響を与えているかどうかを調べ、そのアウトプットに使用される言語に基づいて人格を測定する。 Llama-2, Falcon, Mistral, Bloom, GPT, OPT, XLNet (base and fine tuned version) など,パラメータサイズの異なる複数のLMを繰り返し、myPersonalityデータセットでトレーニングされた分類器を用いてそれらの個性を検証した。 以上の結果より, LLM は開度が高く,外転率も低いことが明らかとなった。 しかし、パラメータの少ないlmsはパーソナリティ特性に類似した振る舞いを示すのに対し、より多くのパラメータを持つ新規およびlmsは、より広いパーソナリティ特性を示し、一致性、感情的安定性、開放性が増す。 さらに、より多くのパラメータが開度と良性と関連している。 さらに、微調整されたモデルは、データセットに基づいて、そのパーソナリティ特性に小さな変調を示す。 今後の研究の意図と方向性について論じる。

Large Language Models (LLMs) are increasingly being utilized by both candidates and employers in the recruitment context. However, with this comes numerous ethical concerns, particularly related to the lack of transparency in these "black-box" models. Although previous studies have sought to increase the transparency of these models by investigating the personality traits of LLMs, many of the previous studies have provided them with personality assessments to complete. On the other hand, this study seeks to obtain a better understanding of such models by examining their output variations based on different input prompts. Specifically, we use a novel elicitation approach using prompts derived from common interview questions, as well as prompts designed to elicit particular Big Five personality traits to examine whether the models were susceptible to trait-activation like humans are, to measure their personality based on the language used in their outputs. To do so, we repeatedly prompted multiple LMs with different parameter sizes, including Llama-2, Falcon, Mistral, Bloom, GPT, OPT, and XLNet (base and fine tuned versions) and examined their personality using classifiers trained on the myPersonality dataset. Our results reveal that, generally, all LLMs demonstrate high openness and low extraversion. However, whereas LMs with fewer parameters exhibit similar behaviour in personality traits, newer and LMs with more parameters exhibit a broader range of personality traits, with increased agreeableness, emotional stability, and openness. Furthermore, a greater number of parameters is positively associated with openness and conscientiousness. Moreover, fine-tuned models exhibit minor modulations in their personality traits, contingent on the dataset. Implications and directions for future research are discussed.
翻訳日:2024-02-14 15:53:57 公開日:2024-02-13
# スライド画像全体のセグメント化のためのスクリブルベース高速弱スーパービジョンと対話的補正

Scribble-based fast weak-supervision and interactive corrections for segmenting whole slide images ( http://arxiv.org/abs/2402.08333v1 )

ライセンス: Link先を確認
Antoine Habis, Roy Rosman Nathanson, Vannary Meas-Yedid, Elsa D. Angelini and Jean-Christophe Olivo-Marin(参考訳) 本稿では,ユーザインタラクションの最小化による動的対話的かつ弱い教師付きセグメンテーション手法を提案し,スライド病理画像全体のセグメンテーションにおける2つの大きな課題を解決する。 まず、アルゴリズムをトレーニングする手書きのデータセットがない。 第2に、病理医と機械との対話を可能にする対話的パラダイムの欠如は、臨床ルーチンで使用する上で大きな障害となる可能性がある。 そこで我々は,このギャップを埋めるための高速かつユーザ指向の手法を提案し,最終結果に対する病理医の制御を行い,良好な結果を得るために必要なインタラクションの数を制限した(補正スクリブルを4つしか持たない測定値の90%以上)。

This paper proposes a dynamic interactive and weakly supervised segmentation method with minimal user interactions to address two major challenges in the segmentation of whole slide histopathology images. First, the lack of hand-annotated datasets to train algorithms. Second, the lack of interactive paradigms to enable a dialogue between the pathologist and the machine, which can be a major obstacle for use in clinical routine. We therefore propose a fast and user oriented method to bridge this gap by giving the pathologist control over the final result while limiting the number of interactions needed to achieve a good result (over 90\% on all our metrics with only 4 correction scribbles).
翻訳日:2024-02-14 15:53:24 公開日:2024-02-13
# PreFLMR: 微細粒遅延反応型マルチモーダルリトリーバーのスケールアップ

PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers ( http://arxiv.org/abs/2402.08327v1 )

ライセンス: Link先を確認
Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne(参考訳) LMM(Large Multimodal Models)は、自然言語や視覚的理解に優れるが、知識に基づく視覚質問回答(KB-VQA)のような、質問に対する回答を形作るために文書コレクションから関連する情報を検索するタスクによって、課題が解決される。 KB-VQAのための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。 M2KRにはビジョンと言語タスクの集合が含まれており、汎用マルチモーダルレトリバーのトレーニングと評価のためのベンチマークタスクの一式に組み込まれています。 我々はM2KRを用いて、KB-VQAに対する最近開発された細粒度ラテン・アクション・マルチモーダル・レトリバー(FLMR)アプローチの事前訓練版であるPreFLMRを開発した。 また, 汎用マルチモーダルレトリバーの開発に有用なPreFLMRのスケーリング挙動について検討した。

Large Multimodal Models (LMMs) excel in natural language and visual understanding but are challenged by exacting tasks such as Knowledge-based Visual Question Answering (KB-VQA) which involve the retrieval of relevant information from document collections to use in shaping answers to questions. We present an extensive training and evaluation framework, M2KR, for KB-VQA. M2KR contains a collection of vision and language tasks which we have incorporated into a single suite of benchmark tasks for training and evaluating general-purpose multi-modal retrievers. We use M2KR to develop PreFLMR, a pre-trained version of the recently developed Fine-grained Late-interaction Multi-modal Retriever (FLMR) approach to KB-VQA, and we report new state-of-the-art results across a range of tasks. We also present investigations into the scaling behaviors of PreFLMR intended to be useful in future developments in general-purpose multi-modal retrievers.
翻訳日:2024-02-14 15:53:09 公開日:2024-02-13
# 安定分布伝播による不確かさの定量化

Uncertainty Quantification via Stable Distribution Propagation ( http://arxiv.org/abs/2402.08324v1 )

ライセンス: Link先を確認
Felix Petersen, Aashwin Mishra, Hilde Kuehne, Christian Borgelt, Oliver Deussen, Mikhail Yurochkin(参考訳) 本稿では,ニューラルネットワークによる安定確率分布の伝播手法を提案する。 提案手法は局所線形化に基づいており,ReLU非線型性に対する全変動距離の近似値として最適であることを示す。 これにより、gaussianとcauchyの入力の不確実性がニューラルネットワークを通じて伝播し、出力の不確実性が定量化される。 分布伝播の有用性を実証するために,提案手法を適用し,分散データの校正信頼区間の予測と選択予測を行う。 その結果,分布を伝播する幅広い適用性が示され,モーメントマッチングなど他の手法よりも提案手法のアドバンテージが示された。

We propose a new approach for propagating stable probability distributions through neural networks. Our method is based on local linearization, which we show to be an optimal approximation in terms of total variation distance for the ReLU non-linearity. This allows propagating Gaussian and Cauchy input uncertainties through neural networks to quantify their output uncertainties. To demonstrate the utility of propagating distributions, we apply the proposed method to predicting calibrated confidence intervals and selective prediction on out-of-distribution data. The results demonstrate a broad applicability of propagating distributions and show the advantages of our method over other approaches such as moment matching.
翻訳日:2024-02-14 15:52:47 公開日:2024-02-13
# ジェネレーティブAIの倫理をマッピングする:包括的スコープレビュー

Mapping the Ethics of Generative AI: A Comprehensive Scoping Review ( http://arxiv.org/abs/2402.08323v1 )

ライセンス: Link先を確認
Thilo Hagendorff(参考訳) 生成的人工知能の出現と社会におけるその普及は、その倫理的意味とリスクに関する激しい議論を巻き起こした。 これらのリスクは、伝統的な差別的機械学習に関連するものとしばしば異なる。 近年の言説を合成し,その規範的概念をマッピングするために,特に大規模言語モデルやテキスト・ツー・イメージモデルを含む,生成人工知能の倫理に関するスコーピングレビューを行った。 本研究は,19のトピック領域における378の規範的問題を分類し,文献の頻度に応じて分類した。 この研究は、公正性、安全、有害なコンテンツ、幻覚、プライバシー、相互作用リスク、セキュリティ、アライメント、社会的影響などに関する倫理的な議論を、学者、実践者、あるいは政策立案者に包括的な概要を提供する。 結果について議論し,文献における不均衡を評価し,根拠のないリスクシナリオを考察する。

The advent of generative artificial intelligence and the widespread adoption of it in society engendered intensive debates about its ethical implications and risks. These risks often differ from those associated with traditional discriminative machine learning. To synthesize the recent discourse and map its normative concepts, we conducted a scoping review on the ethics of generative artificial intelligence, including especially large language models and text-to-image models. Our analysis provides a taxonomy of 378 normative issues in 19 topic areas and ranks them according to their prevalence in the literature. The study offers a comprehensive overview for scholars, practitioners, or policymakers, condensing the ethical debates surrounding fairness, safety, harmful content, hallucinations, privacy, interaction risks, security, alignment, societal impacts, and others. We discuss the results, evaluate imbalances in the literature, and explore unsubstantiated risk scenarios.
翻訳日:2024-02-14 15:52:38 公開日:2024-02-13
# ハイブリッド正規化器による最適化による探索:部分モニタリングにおける対数ロバスト性をもつ対数回帰

Exploration by Optimization with Hybrid Regularizers: Logarithmic Regret with Adversarial Robustness in Partial Monitoring ( http://arxiv.org/abs/2402.08321v1 )

ライセンス: Link先を確認
Taira Tsuchiya, Shinji Ito, Junya Honda(参考訳) 部分的監視は、限定的な観察を伴うオンライン意思決定問題の一般的なフレームワークである。 このような限られた観測から決定を下すには、探査に適切な分布を見つける必要がある。 近年,様々なオンライン意思決定問題に対して,フォロー・ザ・レギュラライズ・リーダーを伴う敵環境における最適境界を達成するための,最適化による探索(exploreing by optimization,exo)という強力なアプローチが提案されている。 しかし、確率的環境におけるExOの単純適用は、後悔境界を著しく低下させる。 局所観測可能なゲームにおいてこの問題を解決するために,我々はまず,ハイブリッド正規化器を用いたExOの新しいフレームワークと解析を行う。 この開発により、確率的および対角的環境の両方においてほぼ最適な境界を達成できるBOBWアルゴリズムの既存の後悔境界を大幅に改善することができる。 特に、$o(\sum_{a \neq a^*} k^2 m^2 \log t / \delta_a)$、ここで$k$、$m$、$t$はアクション、観察、ラウンドの数であり、$a^*$は最適なアクションであり、$\delta_a$はアクション$a$の準最適ギャップである。 この境界は、既存のBOBW境界の約$\Theta(k^2 \log T)$倍小さい。 さらに、グローバルな可観測ゲームに対しては、最初の$O(\log T)$確率境界を持つ新しいBOBWアルゴリズムを提供する。

Partial monitoring is a generic framework of online decision-making problems with limited observations. To make decisions from such limited observations, it is necessary to find an appropriate distribution for exploration. Recently, a powerful approach for this purpose, exploration by optimization (ExO), was proposed, which achieves the optimal bounds in adversarial environments with follow-the-regularized-leader for a wide range of online decision-making problems. However, a naive application of ExO in stochastic environments significantly degrades regret bounds. To resolve this problem in locally observable games, we first establish a novel framework and analysis for ExO with a hybrid regularizer. This development allows us to significantly improve the existing regret bounds of best-of-both-worlds (BOBW) algorithms, which achieves nearly optimal bounds both in stochastic and adversarial environments. In particular, we derive a stochastic regret bound of $O(\sum_{a \neq a^*} k^2 m^2 \log T / \Delta_a)$, where $k$, $m$, and $T$ are the numbers of actions, observations and rounds, $a^*$ is an optimal action, and $\Delta_a$ is the suboptimality gap for action $a$. This bound is roughly $\Theta(k^2 \log T)$ times smaller than existing BOBW bounds. In addition, for globally observable games, we provide a new BOBW algorithm with the first $O(\log T)$ stochastic bound.
翻訳日:2024-02-14 15:52:22 公開日:2024-02-13
# 運動のパラドックス:スケルトンに基づく歩行認識モデルにおけるスプリアス相関の証拠

The Paradox of Motion: Evidence for Spurious Correlations in Skeleton-based Gait Recognition Models ( http://arxiv.org/abs/2402.08320v1 )

ライセンス: Link先を確認
Andy C\u{a}trun\u{a}, Adrian Cosma, Emilian R\u{a}doi(参考訳) 目立たないバイオメトリックであるgaitは、外部の服装や環境条件をまたいで、遠くにいる個人を識別する能力で評価されている。 本研究は、視覚に基づく歩行認識、特に骨格に基づく歩行認識は、主に運動パターンに依存しており、歩行シーケンスに符号化された暗黙の人文情報に重要な役割を担っているという仮定に挑戦する。 本稿では,高度情報の除去が3つのモデルと2つのベンチマーク(CASIA-BとGREW)において顕著な性能劣化をもたらすことを示す。 さらに,個々のポーズを処理し,時間的情報を無視した空間トランスフォーマモデルを提案し,不当な精度を実現し,出現情報に対するバイアスを強調し,既存のベンチマークでスプリアス相関を示す。 これらの知見は、視線に基づく歩行認識における動きと外観の相互作用の微妙な理解の必要性を浮き彫りにし、この分野における方法論的仮定の再評価を促した。 実験によれば、"in-the-wild"データセットはスプリアス相関を起こしやすいため、フィールドを前進させるためにはより多様で大規模なデータセットが必要となる。

Gait, an unobtrusive biometric, is valued for its capability to identify individuals at a distance, across external outfits and environmental conditions. This study challenges the prevailing assumption that vision-based gait recognition, in particular skeleton-based gait recognition, relies primarily on motion patterns, revealing a significant role of the implicit anthropometric information encoded in the walking sequence. We show through a comparative analysis that removing height information leads to notable performance degradation across three models and two benchmarks (CASIA-B and GREW). Furthermore, we propose a spatial transformer model processing individual poses, disregarding any temporal information, which achieves unreasonably good accuracy, emphasizing the bias towards appearance information and indicating spurious correlations in existing benchmarks. These findings underscore the need for a nuanced understanding of the interplay between motion and appearance in vision-based gait recognition, prompting a reevaluation of the methodological assumptions in this field. Our experiments indicate that "in-the-wild" datasets are less prone to spurious correlations, prompting the need for more diverse and large scale datasets for advancing the field.
翻訳日:2024-02-14 15:51:51 公開日:2024-02-13
# 妖精物語における社会的価値の明示的参照:3つのヨーロッパ文化の比較

Explicit References to Social Values in Fairy Tales: A Comparison between Three European Cultures ( http://arxiv.org/abs/2402.08318v1 )

ライセンス: Link先を確認
Alba Morollon Diaz-Faes, Carla Sofia Ribeiro Murteira, Martin Ruskov(参考訳) 妖精物語における社会的価値の研究は、空間と時間間の価値のコミュニケーションについて学ぶ可能性を開く。 本稿では,ポルトガル,イタリア,ドイツの妖精話における価値の伝達について,語彙の違いと共通点を定量化するために,コンパスに単語を埋め込む手法を提案する。 我々は,これら三つのおとぎ話の伝統が,価値観に対する明示的な言及においてどのように異なるかを考察する。 これを実現するために,バリューチャージされたトークンのリストを定義し,それらの単語の語幹を考慮し,それら間の距離を事前学習したword2vecモデルで解析する。 この定量的モデルから生じる仮説の有効性を三角測量し、批判的に議論する。 我々の主張では、これは歴史的コーパスで明示的に参照された値の研究において、再利用可能な再現可能な方法である。 最後に,我々の予備的な知見は,欧州社会全体での文化的理解の共有と,ベネヴァレンス,コンフォーマル性,普遍主義といった価値観の表現を示唆し,汎ヨーロッパ文化記憶の存在を示唆している。

The study of social values in fairy tales opens the possibility to learn about the communication of values across space and time. We propose to study the communication of values in fairy tales from Portugal, Italy and Germany using a technique called word embedding with a compass to quantify vocabulary differences and commonalities. We study how these three national traditions of fairy tales differ in their explicit references to values. To do this, we specify a list of value-charged tokens, consider their word stems and analyse the distance between these in a bespoke pre-trained Word2Vec model. We triangulate and critically discuss the validity of the resulting hypotheses emerging from this quantitative model. Our claim is that this is a reusable and reproducible method for the study of the values explicitly referenced in historical corpora. Finally, our preliminary findings hint at a shared cultural understanding and the expression of values such as Benevolence, Conformity, and Universalism across European societies, suggesting the existence of a pan-European cultural memory.
翻訳日:2024-02-14 15:51:28 公開日:2024-02-13
# 正準コヒーレント状態による同一性の分解の強い収束

Strong convergence of a resolution of the identity via canonical coherent states ( http://arxiv.org/abs/2402.08317v1 )

ライセンス: Link先を確認
Ryo Namiki(参考訳) 正準コヒーレント状態によるアイデンティティの分解は、弱い作用素位相においてしばしば証明される。 しかし、積分記号を持つそのような分解は、典型的にはスペクトル定理の枠組みに付随する強い作用素位相において成り立つ。 我々は、ほとんど親しみやすい設定から始まる正準コヒーレント状態によるアイデンティティの分解に対する強い収束の基本的な証明を提供する。 さらに,異なる証明を享受し,関連する一様極限が存在しないことを示す。

A resolution of the identity due to canonical coherent states is often proven in the weak operator topology. However, such a resolution with an integral symbol is typically supposed to hold in the strong operator topology associated with the framework of the spectral theorem. We provide an elementary proof of the strong convergence for the resolution of the identity due to canonical coherent states starting with a mostly familiar setup. Further, we enjoy a different proof and show that the relevant uniform limit does not exist.
翻訳日:2024-02-14 15:51:07 公開日:2024-02-13
# crossgaze:野生の3次元視線推定のための強力な手法

CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild ( http://arxiv.org/abs/2402.08316v1 )

ライセンス: Link先を確認
Andy C\u{a}trun\u{a}, Adrian Cosma, Emilian R\u{a}doi(参考訳) 視線推定は、個人が見ている場所を予測するタスクであり、人間とコンピュータのインタラクションやバーチャルリアリティーといった分野における直接的な応用にとって重要なタスクである。 非拘束環境における視線の方向の推定は、顔と眼の領域を曖昧にする多くの要因により困難である。 本研究は,コンピュータビジョンアーキテクチャとアテンションベースモジュールの最近の発展を生かした,視線推定のための強力なベースラインであるCrossGazeを提案する。 従来の手法とは異なり,本手法では,すでに確立されているモデルを活用して3次元視線推定の課題に適応する,特別なアーキテクチャを必要としない。 このアプローチにより、任意のモジュールをより強力な機能抽出器に置き換えることができるため、アーキテクチャをシームレスに更新することができる。 Gaze360ベンチマークでは、我々のモデルはいくつかの最先端手法を超え、平均角誤差9.94度を達成する。 提案モデルは,視線推定における将来の研究・発展の基盤となり,現実のシナリオにおける現実的かつ正確な視線予測の道を開いた。

Gaze estimation, the task of predicting where an individual is looking, is a critical task with direct applications in areas such as human-computer interaction and virtual reality. Estimating the direction of looking in unconstrained environments is difficult, due to the many factors that can obscure the face and eye regions. In this work we propose CrossGaze, a strong baseline for gaze estimation, that leverages recent developments in computer vision architectures and attention-based modules. Unlike previous approaches, our method does not require a specialised architecture, utilizing already established models that we integrate in our architecture and adapt for the task of 3D gaze estimation. This approach allows for seamless updates to the architecture as any module can be replaced with more powerful feature extractors. On the Gaze360 benchmark, our model surpasses several state-of-the-art methods, achieving a mean angular error of 9.94 degrees. Our proposed model serves as a strong foundation for future research and development in gaze estimation, paving the way for practical and accurate gaze prediction in real-world scenarios.
翻訳日:2024-02-14 15:51:00 公開日:2024-02-13
# 物理インフォームドニューラルネットワークによるシャープ解のフィッシャー方程式への近似

Approximating Families of Sharp Solutions to Fisher's Equation with Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.08313v1 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Stefan Posch, Clemens G\"o{\ss}nitzer, Bernhard C. Geiger(参考訳) 本稿では, 物理インフォームドニューラルネットワーク(PINN)を用いて, 単純かつ重要な反応拡散システムの基本的な表現であるフィッシャー方程式を解く。 その焦点は、大きな反応速度係数の条件下でフィッシャーの方程式を調査することであり、そこでは溶液が進行波として現れ、波面の急勾配によって数値的な方法が困難になる。 標準pinnアプローチに関連する最適化課題に対処するため、残留重み付けスキームを導入する。 このスキームは, 反応拡散方程式における反応項を考慮した伝播波面の追跡を強化する。 さらに,移動波の形での解に適した特定のネットワークアーキテクチャについて検討した。 最後に、ネットワークアーキテクチャへの追加入力として反応速度係数を組み込むことにより、解の族全体を近似するPINNの容量を評価する。 この修正により、広範囲かつ連続的な反応速度係数の溶液の近似が可能となり、単一のPINNインスタンスを用いて反応拡散系のクラスを解くことができる。

This paper employs physics-informed neural networks (PINNs) to solve Fisher's equation, a fundamental representation of a reaction-diffusion system with both simplicity and significance. The focus lies specifically in investigating Fisher's equation under conditions of large reaction rate coefficients, wherein solutions manifest as traveling waves, posing a challenge for numerical methods due to the occurring steepness of the wave front. To address optimization challenges associated with the standard PINN approach, a residual weighting scheme is introduced. This scheme is designed to enhance the tracking of propagating wave fronts by considering the reaction term in the reaction-diffusion equation. Furthermore, a specific network architecture is studied which is tailored for solutions in the form of traveling waves. Lastly, the capacity of PINNs to approximate an entire family of solutions is assessed by incorporating the reaction rate coefficient as an additional input to the network architecture. This modification enables the approximation of the solution across a broad and continuous range of reaction rate coefficients, thus solving a class of reaction-diffusion systems using a single PINN instance.
翻訳日:2024-02-14 15:50:42 公開日:2024-02-13
# 合成学習型生成モデルによる文化財の3次元形状の1対1再構成

One-to-many Reconstruction of 3D Geometry of cultural Artifacts using a synthetically trained Generative Model ( http://arxiv.org/abs/2402.08310v1 )

ライセンス: Link先を確認
Thomas P\"ollabauer, Julius K\"uhn, Jiayi Li, Arjan Kuijper(参考訳) 一つの画像を用いて物体の3次元形状を推定することは困難である。 現代のアプローチは、実際の写真に基づく一般的なオブジェクトに対して良い結果をもたらすが、歴史的なスケッチのような表現力の低い表現には悪い結果をもたらす。 我々の自動的アプローチは、中世の像を描いた1枚のスケッチから様々な詳細な3D表現を生成し、テキストプロンプトなどのマルチモーダル入力でガイドすることができる。 トレーニング用の合成データのみに依存しており、少数のトレーニング例であっても適用可能である。 このソリューションにより、キュレーターのようなドメインの専門家は、失われたアーティファクトの潜在的な外観をインタラクティブに再構築することができる。

Estimating the 3D shape of an object using a single image is a difficult problem. Modern approaches achieve good results for general objects, based on real photographs, but worse results on less expressive representations such as historic sketches. Our automated approach generates a variety of detailed 3D representation from a single sketch, depicting a medieval statue, and can be guided by multi-modal inputs, such as text prompts. It relies solely on synthetic data for training, making it adoptable even in cases of only small numbers of training examples. Our solution allows domain experts such as a curators to interactively reconstruct potential appearances of lost artifacts.
翻訳日:2024-02-14 15:50:23 公開日:2024-02-13
# ネットワーク上の相互作用粒子系:ネットワークと相互作用カーネルの結合推論

Interacting Particle Systems on Networks: joint inference of the network and the interaction kernel ( http://arxiv.org/abs/2402.08412v1 )

ライセンス: Link先を確認
Quanjun Lang, Xiong Wang, Fei Lu and Mauro Maggioni(参考訳) ネットワーク上のマルチエージェントシステムのモデリングは、様々な分野において基本的な課題である。 我々は,ネットワークの重み行列と相互作用カーネルの重み行列を共同で推定し,各エージェントが相互に相互作用し,その相互作用のルールを複数の軌道からなるデータから決定する。 提案する推定器は自然に非凸最適化問題に導かれ,その解に対する2つのアプローチを探索する: 1つは交互最小二乗法(ALS)アルゴリズム,もう1つは交互最小二乗法(ORALS)アルゴリズムに基づく。 どちらのアルゴリズムも、大量のデータトラジェクトリにスケーラブルである。 我々は,識別性と適切性を保証する強制条件を確立する。 ALSアルゴリズムは、小さなデータ構造でも統計的に効率的で堅牢に見えるが、性能と収束保証がない。 ORALS推定器は保磁力条件下で一貫し、漸近的に正規である。 我々は,ネットワーク上の倉本粒子系からリーダフォローモデルにおける意見力学まで,いくつかの数値実験を行った。

Modeling multi-agent systems on networks is a fundamental challenge in a wide variety of disciplines. We jointly infer the weight matrix of the network and the interaction kernel, which determine respectively which agents interact with which others and the rules of such interactions from data consisting of multiple trajectories. The estimator we propose leads naturally to a non-convex optimization problem, and we investigate two approaches for its solution: one is based on the alternating least squares (ALS) algorithm; another is based on a new algorithm named operator regression with alternating least squares (ORALS). Both algorithms are scalable to large ensembles of data trajectories. We establish coercivity conditions guaranteeing identifiability and well-posedness. The ALS algorithm appears statistically efficient and robust even in the small data regime but lacks performance and convergence guarantees. The ORALS estimator is consistent and asymptotically normal under a coercivity condition. We conduct several numerical experiments ranging from Kuramoto particle systems on networks to opinion dynamics in leader-follower models.
翻訳日:2024-02-14 15:42:52 公開日:2024-02-13
# ECMを超えたニューラルネットワーク強化ビデオ符号化フレームワーク

A Neural-network Enhanced Video Coding Framework beyond ECM ( http://arxiv.org/abs/2402.08397v1 )

ライセンス: Link先を確認
Yanchen Zhao, Wenxuan He, Chuanmin Jia, Qizhe Wang, Junru Li, Yue Li, Chaoyi Lin, Kai Zhang, Li Zhang, Siwei Ma(参考訳) 本稿では,従来のコーディング手法の限界を超えた深層学習に基づくアプローチの実証的紹介を行う,ハイブリッドビデオ圧縮フレームワークを提案する。 提案するハイブリッドフレームワークは,Versatile Video Coding (VVC) 標準のさらなる拡張である Enhanced Compression Model (ECM) に基づいて構築されている。 我々は、ブロック分割、深層学習に基づくループフィルタ、以前はECMに含まれていなかったブロック重要度マッピング(BIM)の活性化など、よく設計されたコーディング技術を用いて、最新のECM参照ソフトウェアを拡張し、さらに符号化性能を向上した。 ECM-10.0と比較すると,Y,U,Vの各コンポーネントをランダムアクセス(RA)構成で6.26,13.33,12.33BDレートで保存できる。

In this paper, a hybrid video compression framework is proposed that serves as a demonstrative showcase of deep learning-based approaches extending beyond the confines of traditional coding methodologies. The proposed hybrid framework is founded upon the Enhanced Compression Model (ECM), which is a further enhancement of the Versatile Video Coding (VVC) standard. We have augmented the latest ECM reference software with well-designed coding techniques, including block partitioning, deep learning-based loop filter, and the activation of block importance mapping (BIM) which was integrated but previously inactive within ECM, further enhancing coding performance. Compared with ECM-10.0, our method achieves 6.26, 13.33, and 12.33 BD-rate savings for the Y, U, and V components under random access (RA) configuration, respectively.
翻訳日:2024-02-14 15:42:34 公開日:2024-02-13
# minecraftエージェントとしての大規模言語モデル

Large Language Models as Minecraft Agents ( http://arxiv.org/abs/2402.08392v1 )

ライセンス: Link先を確認
Chris Madge and Massimo Poesio(参考訳) 本研究では,大規模な言語モデル(LLM)をMinecraftエージェントとして機能させる上での課題について検討する。 ビルダーとアーキテクトの設定にLCMを適用して評価し、明確化の問題を導入し、改善の課題と機会を検討する。 さらに,エージェントとのオンラインインタラクションのためのプラットフォームと,過去の作業に対する評価について述べる。

In this work we examine the use of Large Language Models (LLMs) in the challenging setting of acting as a Minecraft agent. We apply and evaluate LLMs in the builder and architect settings, introduce clarification questions and examining the challenges and opportunities for improvement. In addition, we present a platform for online interaction with the agents and an evaluation against previous works.
翻訳日:2024-02-14 15:42:18 公開日:2024-02-13
# 選択学習:動的正規化によるロバスト校正に向けて

Selective Learning: Towards Robust Calibration with Dynamic Regularization ( http://arxiv.org/abs/2402.08384v1 )

ライセンス: Link先を確認
Zongbo Han, Yifeng Yang, Changqing Zhang, Linjun Zhang, Joey Tianyi Zhou, Qinghua Hu, Huaxiu Yao(参考訳) 深層学習におけるミススキャリブレーションは、予測された信頼とパフォーマンスの間に相違があることを意味する。 この問題は、通常、トレーニングセットで提示されたすべてのことを学ぶことで特徴づけられ、テスト中に自信過剰な予測が引き起こされる。 既存の方法は、通常、目的関数に最大エントロピー正規化子を追加することで、オーバーフィッティングとミスキャリブレーションの緩和に対処する。 本研究の目的は,信頼度を高めつつ,信頼度を下げることにより予測確率のエントロピーを最大化することにより,基盤トラストラベルに適合するモデルを求めることである。 しかし、従来の手法では信頼度調整の明確なガイダンスが欠如しており、矛盾する目標(増大するが信頼度も低下する)につながっている。 そこで我々は,トレーニング中に何を学ぶべきかを学習し,信頼度を調整するトレードオフを回避することを目的とした動的正規化(DReg)手法を提案する。 DRegは高いレベルで、自分が知っていることや知らないことを認識できる信頼性の高いモデルを得ることを目指している。 具体的には、DRegは、インディストリビューションサンプル(学習すべきサンプル)のラベルを効果的に適合させ、モデルの能力を超えるサンプル(例えば、外れ値)に動的に正規化を適用し、特にモデル能力を超えるサンプルに対して堅牢な校正モデルを得る。 理論的および実証的な解析は、従来の方法と比較してDRegの優位性を十分に証明している。

Miscalibration in deep learning refers to there is a discrepancy between the predicted confidence and performance. This problem usually arises due to the overfitting problem, which is characterized by learning everything presented in the training set, resulting in overconfident predictions during testing. Existing methods typically address overfitting and mitigate the miscalibration by adding a maximum-entropy regularizer to the objective function. The objective can be understood as seeking a model that fits the ground-truth labels by increasing the confidence while also maximizing the entropy of predicted probabilities by decreasing the confidence. However, previous methods lack clear guidance on confidence adjustment, leading to conflicting objectives (increasing but also decreasing confidence). Therefore, we introduce a method called Dynamic Regularization (DReg), which aims to learn what should be learned during training thereby circumventing the confidence adjusting trade-off. At a high level, DReg aims to obtain a more reliable model capable of acknowledging what it knows and does not know. Specifically, DReg effectively fits the labels for in-distribution samples (samples that should be learned) while applying regularization dynamically to samples beyond model capabilities (e.g., outliers), thereby obtaining a robust calibrated model especially on the samples beyond model capabilities. Both theoretical and empirical analyses sufficiently demonstrate the superiority of DReg compared with previous methods.
翻訳日:2024-02-14 15:42:13 公開日:2024-02-13
# 潜在グローバル進化によるPDEの前方・逆問題に対する不確かさの定量化

Uncertainty Quantification for Forward and Inverse Problems of PDEs via Latent Global Evolution ( http://arxiv.org/abs/2402.08383v1 )

ライセンス: Link先を確認
Tailin Wu, Willie Neiswanger, Hongtao Zheng, Stefano Ermon, Jure Leskovec(参考訳) 深層学習に基づくサロゲートモデルは、従来の偏微分方程式(PDE)よりも10倍から1000倍のスピードアップを達成することができる。 しかし、科学分野と産業分野の両方で広く採用されることを妨げる重要な課題は、その予測の不確実性、特に重要な意思決定を伴うシナリオに対する理解の欠如である。 この制限に対処するために, 効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。 提案手法は,不確実性量子化を伴うPDEの潜在進化(LE-PDE-UQ)と呼ばれ,前向きおよび逆問題の両方に対して,堅牢かつ効率的な不確実性量子化能力を持つディープラーニングに基づく代理モデルを提供する。 LE-PDE-UQは潜時空間内の潜時ベクトルを活用し、系の状態とそれに対応する不確実性推定の両方を進化させる。 潜在ベクトルは、システムの状態の予測と不確実性の推定を提供するためにデコードされる。 広汎な実験では,深層アンサンブル,ベイズニューラルネットワーク層,ドロップアウトなど,強いベースラインを超越した,アプローチの正確な不確実性定量化性能を示す。 提案手法は,長期予測を含むシナリオに適合し,拡張された自動回帰ロールアウトに対する不確かさの伝播に優れる。 私たちのコードは、https://github.com/ai4science-westlakeu/le-pde-uqで利用可能です。

Deep learning-based surrogate models have demonstrated remarkable advantages over classical solvers in terms of speed, often achieving speedups of 10 to 1000 times over traditional partial differential equation (PDE) solvers. However, a significant challenge hindering their widespread adoption in both scientific and industrial domains is the lack of understanding about their prediction uncertainties, particularly in scenarios that involve critical decision making. To address this limitation, we propose a method that integrates efficient and precise uncertainty quantification into a deep learning-based surrogate model. Our method, termed Latent Evolution of PDEs with Uncertainty Quantification (LE-PDE-UQ), endows deep learning-based surrogate models with robust and efficient uncertainty quantification capabilities for both forward and inverse problems. LE-PDE-UQ leverages latent vectors within a latent space to evolve both the system's state and its corresponding uncertainty estimation. The latent vectors are decoded to provide predictions for the system's state as well as estimates of its uncertainty. In extensive experiments, we demonstrate the accurate uncertainty quantification performance of our approach, surpassing that of strong baselines including deep ensembles, Bayesian neural network layers, and dropout. Our method excels at propagating uncertainty over extended auto-regressive rollouts, making it suitable for scenarios involving long-term predictions. Our code is available at: https://github.com/AI4Science-WestlakeU/le-pde-uq.
翻訳日:2024-02-14 15:41:46 公開日:2024-02-13
# Punctuation Restorationはスーパービジョンなしで構造理解を改善する

Punctuation Restoration Improves Structure Understanding without Supervision ( http://arxiv.org/abs/2402.08382v1 )

ライセンス: Link先を確認
Junghyun Min, Minho Lee, Woochul Lee, Yeonsoo Lee(参考訳) 教師なし学習の目的である言語モデリングやデノイズ化は、自然言語理解から会話タスクに至るまで、様々な下流アプリケーションを実行する事前訓練されたモデルを作成する上で重要な役割を果たす。 しかし、最近の大きな言語モデルの印象的な会話能力にもかかわらず、テキストの遅れの中で構文や意味構造をキャプチャする能力がある。 機械の言語性能と能力のミスマッチは、現在一般的な事前学習対象である計算システムへの言語構造知識の移転不足に起因すると仮定する。 句読点復元は,名前付きエンティティ認識,オープン情報抽出,チャンキング,パート・オブ・スパイチ・タグングなどの構造関連タスクにおける分散性能の向上に寄与することを示す。 句読点復元は、構造理解を改善し、自然言語のより強固な構造認識表現をもたらす効果的な学習目標である。

Unsupervised learning objectives like language modeling and de-noising constitute a significant part in producing pre-trained models that perform various downstream applications from natural language understanding to conversational tasks. However, despite impressive conversational capabilities of recent large language model, their abilities to capture syntactic or semantic structure within text lag behind. We hypothesize that the mismatch between linguistic performance and competence in machines is attributable to insufficient transfer of linguistic structure knowledge to computational systems with currently popular pre-training objectives. We show that punctuation restoration transfers to improvements in in- and out-of-distribution performance on structure-related tasks like named entity recognition, open information extraction, chunking, and part-of-speech tagging. Punctuation restoration is an effective learning objective that can improve structure understanding and yield a more robust structure-aware representations of natural language.
翻訳日:2024-02-14 15:41:17 公開日:2024-02-13
# 表現のデュエットと説明がいかに悪化するか

The Duet of Representations and How Explanations Exacerbate It ( http://arxiv.org/abs/2402.08379v1 )

ライセンス: Link先を確認
Charles Wan, Rodrigo Belo, Leid Zejnilovi\'c, Susana Lavado(参考訳) アルゴリズムは人間の知覚における特徴とラベルの関係の因果表現に影響を及ぼす。 このような表現は、人間の以前の信念と矛盾する可能性がある。 説明は人間の注意を対立する特徴に向け、他の関連する特徴から遠ざけることができる。 これは因果的過剰寄与を引き起こし、人間の情報処理に悪影響を及ぼす可能性がある。 フィールド実験では,XGBoost訓練モデルを公共雇用におけるカウンセラーの意思決定支援として実施し,候補者の長期失業リスクを予測した。 また, カウンセラーの治療群にはSHAPが付与された。 その結果,人間に矛盾する先行信念を持つ特徴が説明の一部として表示されると,人間の意思決定の質は悪化することがわかった。

An algorithm effects a causal representation of relations between features and labels in the human's perception. Such a representation might conflict with the human's prior belief. Explanations can direct the human's attention to the conflicting feature and away from other relevant features. This leads to causal overattribution and may adversely affect the human's information processing. In a field experiment we implemented an XGBoost-trained model as a decision-making aid for counselors at a public employment service to predict candidates' risk of long-term unemployment. The treatment group of counselors was also provided with SHAP. The results show that the quality of the human's decision-making is worse when a feature on which the human holds a conflicting prior belief is displayed as part of the explanation.
翻訳日:2024-02-14 15:41:01 公開日:2024-02-13
# マルチステップ予測における動的戦略の時系列分類

Time-Series Classification for Dynamic Strategies in Multi-Step Forecasting ( http://arxiv.org/abs/2402.08373v1 )

ライセンス: Link先を確認
Riku Green, Grant Stevens, Telmo de Menezes e Silva Filho, Zahraa Abdallah(参考訳) 時系列におけるマルチステップ予測(msf、multi-step forecasting)は、ほぼすべての時間領域において基本となる。 このような予測を行うには、時間力学の再帰的複雑性を仮定しなければならない。 このような仮定は予測モデルをトレーニングするために使われる予測戦略と呼ばれる。 先行研究では、どの予測戦略が未発見データの評価に最適かは明らかでない。 さらに、msfに対する現在のアプローチでは、単一の(固定された)予測戦略を使用する。 本稿では,最適予測戦略のインスタンスレベルの分散を特徴とし,msfの動的戦略(dystrat)を提案する。 異なるスケール、ドメイン、長さの10個のデータセットを用いて実験を行った。 ランダムフォレストに基づく分類器を使用する場合、dystratは、平均2乗誤差が11%の平均減少率で、事前の94%が不明な最良の固定戦略よりも優れている。 私たちのアプローチは、通常、現在のアプローチと比較してトップ1の精度を3倍にします。 特に、任意のmsfタスクに対してdystrat generaliseをうまく示す。

Multi-step forecasting (MSF) in time-series, the ability to make predictions multiple time steps into the future, is fundamental to almost all temporal domains. To make such forecasts, one must assume the recursive complexity of the temporal dynamics. Such assumptions are referred to as the forecasting strategy used to train a predictive model. Previous work shows that it is not clear which forecasting strategy is optimal a priori to evaluating on unseen data. Furthermore, current approaches to MSF use a single (fixed) forecasting strategy. In this paper, we characterise the instance-level variance of optimal forecasting strategies and propose Dynamic Strategies (DyStrat) for MSF. We experiment using 10 datasets from different scales, domains, and lengths of multi-step horizons. When using a random-forest-based classifier, DyStrat outperforms the best fixed strategy, which is not knowable a priori, 94% of the time, with an average reduction in mean-squared error of 11%. Our approach typically triples the top-1 accuracy compared to current approaches. Notably, we show DyStrat generalises well for any MSF task.
翻訳日:2024-02-14 15:40:50 公開日:2024-02-13
# 遺伝的最適化を用いたハイブリッド型マルチクリトリア推薦システムによる選択科目選択支援

Helping university students to choose elective courses by using a hybrid multi-criteria recommendation system with genetic optimization ( http://arxiv.org/abs/2402.08371v1 )

ライセンス: Link先を確認
A. Esteban, A. Zafra and C. Romero(参考訳) 大学研究における学習計画の柔軟性とともに、特定のコースの幅広い利用が、この分野におけるレコメンデーションシステム(RS)の重要性を明らかにしている。 これらのシステムは、学生が自分の興味や学業成績に合ったコースを選択できるツールとして現れる。 本稿では、学生とコース情報の両方に関連する複数の基準を用いて、協調フィルタリング(CF)とコンテンツベースフィルタリング(CBF)を組み合わせたハイブリッドRSを提案し、学生に最も適したコースを推薦する。 最も適切な基準と他のパラメータの構成の両方を含む最適なrs構成を自動的に発見する遺伝的アルゴリズム(ga)が開発された。 本研究は,コードバ大学(spain)のコンピュータ科学科の実際の情報を用いて,95名の学生と63のコースの2500項目を集計した。 実験の結果, 学生情報と授業情報を組み合わせたハイブリッドモデルを用いて, 推薦の信頼性を高めるとともに, 従来のモデルと比較して優れた成績を上げることの重要性が示唆された。

The wide availability of specific courses together with the flexibility of academic plans in university studies reveal the importance of Recommendation Systems (RSs) in this area. These systems appear as tools that help students to choose courses that suit to their personal interests and their academic performance. This paper presents a hybrid RS that combines Collaborative Filtering (CF) and Content-based Filtering (CBF) using multiple criteria related both to student and course information to recommend the most suitable courses to the students. A Genetic Algorithm (GA) has been developed to automatically discover the optimal RS configuration which include both the most relevant criteria and the configuration of the rest of parameters. The experimental study has used real information of Computer Science Degree of University of Cordoba (Spain) including information gathered from students during three academic years, counting on 2500 entries of 95 students and 63 courses. Experimental results show a study of the most relevant criteria for the course recommendation, the importance of using a hybrid model that combines both student information and course information to increase the reliability of the recommendations as well as an excellent performance compared to previous models.
翻訳日:2024-02-14 15:40:32 公開日:2024-02-13
# マルチモーダルスキルによる非定常環境におけるワンショット模倣

One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill ( http://arxiv.org/abs/2402.08369v1 )

ライセンス: Link先を確認
Sangwoo Shin, Daehee Lee, Minjong Yoo, Woo Kyung Kim, Honguk Woo(参考訳) ひとつの実演から新しいタスクを学ぶことが1つの模倣だが、非定常環境に固有のドメインの多様性が高い複雑なタスクに適用することは難しい問題である。 課題に対処するため,複雑なタスクの構成性について検討し,ワンショットの模倣とゼロショットの適応が可能な新しいスキルベース模倣学習フレームワークを提案する。複雑な未確認タスクの単一デモンストレーションから意味論的スキルシーケンスを推論し,そのシーケンスの各スキルを時間とともに変化する環境隠れ力学に最適化したアクションシーケンスに変換する。 具体的には、視覚言語モデルを利用して、視覚言語埋め込み空間に各スキルが表現されるオフラインビデオデータセットからセマンティックスキルを学習し、動的推論によるメタラーニングを適用してゼロショットスキル適応を実現する。 我々は,多段階のメタワールドタスクに対する様々な一発的模倣シナリオを用いて,複雑なタスクを学習し,動的変化を一般化し,他のベースラインと比較して異なる実演条件やモダリティにまで拡張する上で,その優位性を示す。

One-shot imitation is to learn a new task from a single demonstration, yet it is a challenging problem to adopt it for complex tasks with the high domain diversity inherent in a non-stationary environment. To tackle the problem, we explore the compositionality of complex tasks, and present a novel skill-based imitation learning framework enabling one-shot imitation and zero-shot adaptation; from a single demonstration for a complex unseen task, a semantic skill sequence is inferred and then each skill in the sequence is converted into an action sequence optimized for environmental hidden dynamics that can vary over time. Specifically, we leverage a vision-language model to learn a semantic skill set from offline video datasets, where each skill is represented on the vision-language embedding space, and adapt meta-learning with dynamics inference to enable zero-shot skill adaptation. We evaluate our framework with various one-shot imitation scenarios for extended multi-stage Meta-world tasks, showing its superiority in learning complex tasks, generalizing to dynamics changes, and extending to different demonstration conditions and modalities, compared to other baselines.
翻訳日:2024-02-14 15:40:13 公開日:2024-02-13
# RBF-PINN:物理インフォームドニューラルネットワークにおける非フーリエ位置埋め込み

RBF-PINN: Non-Fourier Positional Embedding in Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.08367v1 )

ライセンス: Link先を確認
Chengxi Zeng, Tilo Burghardt, Alberto M Gambaruto(参考訳) 近年の物理情報ニューラルネットワーク(PINN)の変種は部分微分方程式の解法においてかなりの成功を収めているが、より広範なニューラルネットワーク研究から引き出された特徴写像の実証的な利点は概ね見過ごされている。 本稿では,特定の状況下で広く使用されるフーリエ型特徴マッピングの限界に注目し,条件付き正定点基底関数の利用を提案する。 実験により, 様々な前方および逆問題に対するアプローチの有効性が示された。 本手法は,座標系入力ニューラルネットワークにシームレスに統合でき,ピンズ研究の幅広い分野に寄与できる。

While many recent Physics-Informed Neural Networks (PINNs) variants have had considerable success in solving Partial Differential Equations, the empirical benefits of feature mapping drawn from the broader Neural Representations research have been largely overlooked. We highlight the limitations of widely used Fourier-based feature mapping in certain situations and suggest the use of the conditionally positive definite Radial Basis Function. The empirical findings demonstrate the effectiveness of our approach across a variety of forward and inverse problem cases. Our method can be seamlessly integrated into coordinate-based input neural networks and contribute to the wider field of PINNs research.
翻訳日:2024-02-14 15:39:51 公開日:2024-02-13
# NeuRes: 提案的満足性の学習証明

NeuRes: Learning Proofs of Propositional Satisfiability ( http://arxiv.org/abs/2402.08365v1 )

ライセンス: Link先を確認
Mohamed Ghanem, Frederik Schmitt, Julian Siber, Bernd Finkbeiner(参考訳) 本稿ではニューロシンボリック証明に基づくSATソルバであるNeuResを紹介する。 他の神経SATの解法とは異なり、NeuResは単に予測するのではなく、満足できないことを証明できる。 設計により、neures は命題解決法を用いて不満足を証明し、unsat と sat の式をそれぞれ満たした真理割当を見つけるプロセスを加速することにより、証明書駆動で動作する。 これを実現するために,グラフニューラルネットワークとポインタネットワークの要素を適応させ,動的グラフ構造からノードのペアを自動回帰的に選択するアーキテクチャを提案する。 我々は,NeuroSATと同じランダムな公式分布を用いて,教師の証明と真理の割り当てのデータセットを用いて,学習と評価を行った。 我々の実験では、NeuResはNuroSATよりも多くのテスト式を、よりデータ効率のよい異なる分布に対してより広いマージンで解決することを示した。 さらに,NeuResは教師の証明を顕著に短縮できることを示した。 この機能を使用してブートストラップされたトレーニング手順を考案し、アドバンストソルバが生成した証明のデータセットを、追加のガイダンスなしでトレーニング後に約23%削減します。

We introduce NeuRes, a neuro-symbolic proof-based SAT solver. Unlike other neural SAT solving methods, NeuRes is capable of proving unsatisfiability as opposed to merely predicting it. By design, NeuRes operates in a certificate-driven fashion by employing propositional resolution to prove unsatisfiability and to accelerate the process of finding satisfying truth assignments in case of unsat and sat formulas, respectively. To realize this, we propose a novel architecture that adapts elements from Graph Neural Networks and Pointer Networks to autoregressively select pairs of nodes from a dynamic graph structure, which is essential to the generation of resolution proofs. Our model is trained and evaluated on a dataset of teacher proofs and truth assignments that we compiled with the same random formula distribution used by NeuroSAT. In our experiments, we show that NeuRes solves more test formulas than NeuroSAT by a rather wide margin on different distributions while being much more data-efficient. Furthermore, we show that NeuRes is capable of largely shortening teacher proofs by notable proportions. We use this feature to devise a bootstrapped training procedure that manages to reduce a dataset of proofs generated by an advanced solver by ~23% after training on it with no extra guidance.
翻訳日:2024-02-14 15:39:40 公開日:2024-02-13
# ビジュアル質問応答命令:マルチモーダル大言語モデルからドメイン固有のビジュアルマルチタスクへのアンロック

Visual Question Answering Instruction: Unlocking Multimodal Large Language Model To Domain-Specific Visual Multitasks ( http://arxiv.org/abs/2402.08360v1 )

ライセンス: Link先を確認
Jusung Lee, Sungguk Cha, Younghyun Lee and Cheoljong Yang(参考訳) 革命的自然言語処理(NLP)の応用により、大規模言語モデル(LLM)はマルチモーダル入力の領域に拡大している。 画像の解釈能力のため、マルチモーダルLLM(MLLM)は主に視覚言語タスクに使用されている。 現在、MLLMはドメイン固有の視覚タスクにはまだ拡張されておらず、視覚情報のより明確な理解を必要としている。 我々は,ドメイン固有の視覚および視覚のデータセットを視覚質問応答命令(VQA-IN)と呼ばれる統一された質問応答形式に変換し,MLLMをドメイン固有のタスクに拡張する手法を開発した。 VQA-INは、より小さなバージョンのLSM(sLLM)を使用して複数のMLLMアーキテクチャを訓練するために使用された。 実験結果から,提案手法は視覚タスクの高得点を達成しつつ,視覚言語タスクの性能をマルチタスク方式で維持することを示した。

Having revolutionized natural language processing (NLP) applications, large language models (LLMs) are expanding into the realm of multimodal inputs. Owing to their ability to interpret images, multimodal LLMs (MLLMs) have been primarily used for vision-language tasks. Currently, MLLMs have not yet been extended for domain-specific visual tasks, which require a more explicit understanding of visual information. We developed a method to transform domain-specific visual and vision-language datasets into a unified question answering format called Visual Question Answering Instruction (VQA-IN), thereby extending MLLM to domain-specific tasks. The VQA-IN was applied to train multiple MLLM architectures using smaller versions of LLMs (sLLMs). The experimental results indicated that the proposed method achieved a high score metric on domainspecific visual tasks while also maintaining its performance on vision-language tasks in a multitask manner.
翻訳日:2024-02-14 15:39:20 公開日:2024-02-13
# 視覚的ローカライゼーションのためのセミディエンス対応の学習

Learning to Produce Semi-dense Correspondences for Visual Localization ( http://arxiv.org/abs/2402.08359v1 )

ライセンス: Link先を確認
Khang Truong Giang, Soohwan Song, and Sungho Jo(参考訳) 本研究は,夜間シナリオ,悪天候,季節変化などの要求条件下で視覚的局所化を行うことの課題に対処する。 多くの先行研究は画像間の信頼性の高いキーポイントマッチングを容易にするために画像マッチング性能の改善に重点を置いているが、既存の手法は再構成された3Dモデルにおける事前定義された特徴点に大きく依存することが多い。 したがって、マッチングプロセス中に観測されていないキーポイントを見落としがちである。 そのため、密度の高いキーポイントマッチは十分に活用されておらず、特にノイズの多いシーンでは精度が著しく低下する。 そこで本研究では,高密度なキーポイントマッチングに基づいて,信頼性の高い半高密度2D-3Dマッチングポイントを抽出する手法を提案する。 このアプローチでは、点推論ネットワークを用いて、セミセンス2Dキーポイントを3次元シーン座標に回帰する。 ネットワークは幾何学的および視覚的な手がかりを用いて、観測されたキーポイントから観測されていないキーポイントの3D座標を効果的に推測する。 マッチング情報の豊富さは、ノイズやスパース3Dモデルを含むシナリオにおいても、カメラポーズ推定の精度を大幅に向上させる。 包括的評価により,提案手法は難易度において他の手法よりも優れており,大規模な視覚的ローカライゼーションベンチマークにおいて競合する結果が得られた。 コードは利用可能だ。

This study addresses the challenge of performing visual localization in demanding conditions such as night-time scenarios, adverse weather, and seasonal changes. While many prior studies have focused on improving image-matching performance to facilitate reliable dense keypoint matching between images, existing methods often heavily rely on predefined feature points on a reconstructed 3D model. Consequently, they tend to overlook unobserved keypoints during the matching process. Therefore, dense keypoint matches are not fully exploited, leading to a notable reduction in accuracy, particularly in noisy scenes. To tackle this issue, we propose a novel localization method that extracts reliable semi-dense 2D-3D matching points based on dense keypoint matches. This approach involves regressing semi-dense 2D keypoints into 3D scene coordinates using a point inference network. The network utilizes both geometric and visual cues to effectively infer 3D coordinates for unobserved keypoints from the observed ones. The abundance of matching information significantly enhances the accuracy of camera pose estimation, even in scenarios involving noisy or sparse 3D models. Comprehensive evaluations demonstrate that the proposed method outperforms other methods in challenging scenes and achieves competitive results in large-scale visual localization benchmarks. The code will be available.
翻訳日:2024-02-14 15:39:05 公開日:2024-02-13
# 実ユーザクエリに基づくテキスト対sqlシステムのデータモデルロバスト性評価

Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries ( http://arxiv.org/abs/2402.08349v1 )

ライセンス: Link先を確認
Jonathan F\"urst, Catherine Kosten, Farhard Nooralahzadeh, Yi Zhang, Kurt Stockinger(参考訳) テキストからSQLシステム(NL-to-SQLシステムとしても知られる)は、ユーザ機能とSQLベースのデータアクセスのギャップを埋める手段として、ますます人気が高まっている。 これらのシステムは、自然言語でユーザ要求を特定のデータベースに対して有効なSQLステートメントに変換する。 最近のText-to-SQLシステムは、トランスフォーマーベースの言語モデルの急速な改善の恩恵を受けている。 しかし、このようなモデルを組み込んだテキストからsqlへのシステムは、ベンチマークデータセット上で新たなハイスコア(しばしば合成)に達するが、現実のさまざまなデータモデルに対する強固さを体系的に探求する一方で、現実的なシナリオは特に欠落している。 本稿では,テキスト・トゥ・SQL インタフェースに着目した多年間国際プロジェクトに基づいて,テキスト・トゥ・SQL システムのデータモデルロバスト性の評価を行う。 評価は,FIFAワールドカップ2022で9ヶ月にわたって実施され,約6万件の自然言語質問が質問され,実行されたFBDBの実際の展開に基づく。 当社のデータはすべて、システムにライブで要求された実際のユーザ質問に基づいています。 3つの異なるデータモデルに対して、これらの質問のサブセットを手動でラベル付けし、翻訳しました。 各データモデルについて、代表的なテキスト-SQLシステムと言語モデルの性能について検討する。 さらに、トレーニングデータサイズ、事前および後処理ステップ、および言語モデル推論時間の影響を定量化する。 当社の総合的な評価は,実世界のテキストからsqlへのシステムの設計選択と,研究プロトタイプから実際のデプロイメントへの移行に与える影響に光を当てています。 最後に、コミュニティに新しいベンチマークデータセットを提供する。これは、同じデータセットで異なるデータモデルの評価を可能にする最初の方法であり、クエリの複雑さの観点から、以前のほとんどのデータセットよりもかなり難しい。

Text-to-SQL systems (also known as NL-to-SQL systems) have become an increasingly popular solution for bridging the gap between user capabilities and SQL-based data access. These systems translate user requests in natural language to valid SQL statements for a specific database. Recent Text-to-SQL systems have benefited from the rapid improvement of transformer-based language models. However, while Text-to-SQL systems that incorporate such models continuously reach new high scores on -- often synthetic -- benchmark datasets, a systematic exploration of their robustness towards different data models in a real-world, realistic scenario is notably missing. This paper provides the first in-depth evaluation of the data model robustness of Text-to-SQL systems in practice based on a multi-year international project focused on Text-to-SQL interfaces. Our evaluation is based on a real-world deployment of FootballDB, a system that was deployed over a 9 month period in the context of the FIFA World Cup 2022, during which about 6K natural language questions were asked and executed. All of our data is based on real user questions that were asked live to the system. We manually labeled and translated a subset of these questions for three different data models. For each data model, we explore the performance of representative Text-to-SQL systems and language models. We further quantify the impact of training data size, pre-, and post-processing steps as well as language model inference time. Our comprehensive evaluation sheds light on the design choices of real-world Text-to-SQL systems and their impact on moving from research prototypes to real deployments. Last, we provide a new benchmark dataset to the community, which is the first to enable the evaluation of different data models for the same dataset and is substantially more challenging than most previous datasets in terms of query complexity.
翻訳日:2024-02-14 15:38:42 公開日:2024-02-13
# レーダー物体検出のための自己教師付きインスタンスコントラスト学習の活用

Leveraging Self-Supervised Instance Contrastive Learning for Radar Object Detection ( http://arxiv.org/abs/2402.08427v1 )

ライセンス: Link先を確認
Colin Decourt and Rufin VanRullen and Didier Salle and Thomas Oberlin(参考訳) 近年、より安全でより自律的な輸送システムの必要性により、自動車産業はより多くの先進的な運転支援システム(adas)の統合へとシフトしている。 物体認識タスクに使用されるセンサーの配列の中で、レーダーセンサーは、悪天候や低照度シナリオの能力と、様々な環境における一貫した性能を維持するための頑丈さのために、強い競争相手として現れてきた。 しかしながら、レーダーデータセットの小さなサイズとそれらのデータのラベル付けの複雑さは、レーダー物体検出器の性能を制限している。 本稿では,コンピュータビジョンにおける自己教師付き学習の有望な結果に触発されて,レーダー物体検出器を事前学習するためのインスタンスコントラスト学習フレームワークであるriclを提案する。 本稿では,レーダからの検知と時間情報を利用して,コントラスト学習を用いた自己教師付き手法でレーダ物体検出モデルを事前訓練する。 対象検出器の背骨、頭、首を事前学習し、少ないデータで学習することを目指している。 CARRADAとRADDetデータセットの実験は、範囲ドップラーマップにおけるオブジェクトの汎用表現学習における我々のアプローチの有効性を示している。 特に、事前トレーニング戦略では、ラベル付きデータの20%しか使用せず、トレーニングセット全体を使用した教師付きアプローチと同じようなmAP@0.5に到達できます。

In recent years, driven by the need for safer and more autonomous transport systems, the automotive industry has shifted toward integrating a growing number of Advanced Driver Assistance Systems (ADAS). Among the array of sensors employed for object recognition tasks, radar sensors have emerged as a formidable contender due to their abilities in adverse weather conditions or low-light scenarios and their robustness in maintaining consistent performance across diverse environments. However, the small size of radar datasets and the complexity of the labelling of those data limit the performance of radar object detectors. Driven by the promising results of self-supervised learning in computer vision, this paper presents RiCL, an instance contrastive learning framework to pre-train radar object detectors. We propose to exploit the detection from the radar and the temporal information to pre-train the radar object detection model in a self-supervised way using contrastive learning. We aim to pre-train an object detector's backbone, head and neck to learn with fewer data. Experiments on the CARRADA and the RADDet datasets show the effectiveness of our approach in learning generic representations of objects in range-Doppler maps. Notably, our pre-training strategy allows us to use only 20% of the labelled data to reach a similar mAP@0.5 than a supervised approach using the whole training set.
翻訳日:2024-02-14 15:33:31 公開日:2024-02-13
# 協調フィルタリングのための周波数対応グラフ信号処理

Frequency-aware Graph Signal Processing for Collaborative Filtering ( http://arxiv.org/abs/2402.08426v1 )

ライセンス: Link先を確認
Jiafeng Xia, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Li Shang and Ning Gu(参考訳) グラフ信号処理(GSP)ベースのレコメンデーションアルゴリズムは、その高い効率のために最近多くの注目を集めている。 しかし,これらの手法は,ユーザ/イテムの特徴を反映した多様なインタラクションの重要性を考慮せず,ユーザの嗜好をモデル化するためにユーザとアイテムの高次近隣情報を活用できなかったため,準最適性能が得られた。 上記の問題に対処するために、協調フィルタリングのための周波数対応グラフ信号処理法(FaGSP)を提案する。 まず、理想的なハイパスフィルタと、連続的に動作する理想的なローパスフィルタからなるカスケードフィルタモジュールを設計し、ユニークかつ共通のユーザ/テーマ特性をキャプチャし、より正確にユーザの好みをモデル化する。 次に,近傍の階層を把握し易い2つのローパスフィルタからなる並列フィルタモジュールを考案し,より正確なユーザ嗜好モデリングのために,ユーザ/項目の高次近傍情報を完全に活用する。 最後に,これら2つのモジュールを線形モデルで組み合わせ,レコメンデーション精度をさらに向上させる。 6つの公開データセットに関する広範囲な実験により、予測精度とトレーニング効率の観点から、最先端のgcnベース推奨法とgspベースの推奨法と比較して、この手法の優位性が示された。

Graph Signal Processing (GSP) based recommendation algorithms have recently attracted lots of attention due to its high efficiency. However, these methods failed to consider the importance of various interactions that reflect unique user/item characteristics and failed to utilize user and item high-order neighborhood information to model user preference, thus leading to sub-optimal performance. To address the above issues, we propose a frequency-aware graph signal processing method (FaGSP) for collaborative filtering. Firstly, we design a Cascaded Filter Module, consisting of an ideal high-pass filter and an ideal low-pass filter that work in a successive manner, to capture both unique and common user/item characteristics to more accurately model user preference. Then, we devise a Parallel Filter Module, consisting of two low-pass filters that can easily capture the hierarchy of neighborhood, to fully utilize high-order neighborhood information of users/items for more accurate user preference modeling. Finally, we combine these two modules via a linear model to further improve recommendation accuracy. Extensive experiments on six public datasets demonstrate the superiority of our method from the perspectives of prediction accuracy and training efficiency compared with state-of-the-art GCN-based recommendation methods and GSP-based recommendation methods.
翻訳日:2024-02-14 15:33:09 公開日:2024-02-13
# エントロピー輸送核による不対点のバッチからの転送作用素

Transfer Operators from Batches of Unpaired Points via Entropic Transport Kernels ( http://arxiv.org/abs/2402.08425v1 )

ライセンス: Link先を確認
Florian Beier, Hancheng Bi, Cl\'ement Sarrazin, Bernhard Schmitzer, Gabriele Steidl(参考訳) 本稿では、確率変数$X$と$Y$の合同確率を推定することに関心がある。$N$独立観測ブロック$(\boldsymbol{x}^i,\boldsymbol{y}^i)$, $i=1,\ldots,N$, 各$M$サンプル$(\boldsymbol{x}^i,\boldsymbol{y}^i) = \bigl((x^i_j, y^i_{\sigma^i(j)}) \bigr)_{j=1}^M$。 これは、観察ブロック内の$m$サンプルの内部順序が分かっていないことを意味する。 最大相似推論関数を導出し,計算可能な近似を提案し,それらの性質を解析する。 特に、$\gamma$-convergenceの結果は、ブロック数n$が無限大になるにつれて、経験的近似から真の密度を回復できることを示している。 エントロピー最適輸送核を用いて、推論汎関数を最小化できる密度関数の仮説空間のクラスをモデル化する。 この仮説クラスはデータから転送演算子の近似推論に特に適している。 我々は,emmlアルゴリズムの修正により,帰納的遷移確率制約を考慮した離散最小化問題を解き,このアルゴリズムの収束性を証明する。 概念実証の例が本手法の可能性を示している。

In this paper, we are concerned with estimating the joint probability of random variables $X$ and $Y$, given $N$ independent observation blocks $(\boldsymbol{x}^i,\boldsymbol{y}^i)$, $i=1,\ldots,N$, each of $M$ samples $(\boldsymbol{x}^i,\boldsymbol{y}^i) = \bigl((x^i_j, y^i_{\sigma^i(j)}) \bigr)_{j=1}^M$, where $\sigma^i$ denotes an unknown permutation of i.i.d. sampled pairs $(x^i_j,y_j^i)$, $j=1,\ldots,M$. This means that the internal ordering of the $M$ samples within an observation block is not known. We derive a maximum-likelihood inference functional, propose a computationally tractable approximation and analyze their properties. In particular, we prove a $\Gamma$-convergence result showing that we can recover the true density from empirical approximations as the number $N$ of blocks goes to infinity. Using entropic optimal transport kernels, we model a class of hypothesis spaces of density functions over which the inference functional can be minimized. This hypothesis class is particularly suited for approximate inference of transfer operators from data. We solve the resulting discrete minimization problem by a modification of the EMML algorithm to take addional transition probability constraints into account and prove the convergence of this algorithm. Proof-of-concept examples demonstrate the potential of our method.
翻訳日:2024-02-14 15:32:45 公開日:2024-02-13
# 実演から学ぶための条件付き神経エキスパートプロセス

Conditional Neural Expert Processes for Learning from Demonstration ( http://arxiv.org/abs/2402.08424v1 )

ライセンス: Link先を確認
Yigit Yildirim, Emre Ugur(参考訳) Learning from Demonstration (LfD)は、ロボット工学のスキル獲得に広く使われている技術である。 しかし、同じスキルのデモンストレーションは重大なばらつきを示す可能性があり、学習システムは同時に同じスキルの異なる手段を取得しようとする可能性があり、これらの動きを運動プリミティブにエンコードすることが難しくなる。 これらの課題に対処するため,我々は,異なるモードからのデモンストレーションを異なる専門家ネットワークに割り当てることを学ぶ条件付きニューラルネットワークエキスパートプロセス(conditional neural expert process, cnep)というlfdフレームワークを提案する。 CNEPは、軌道がどのモードに属するかの監督を必要としない。 人工的に生成されたデータセットに関する実験は、CNEPの有効性を示す。 さらに,CNEPと他のLfDフレームワーク,すなわち条件付きニューラル・ムーブメント・プリミティブ(CNMP)の性能を,実際のロボットの実験を含む様々なタスクで比較した。 その結果, 運動プリミティブのモデリング性能が向上し, モデル入力が様々な軌跡の交点を含む場合, 専門家がより正確に示す軌跡を反映した軌跡の合成が可能となった。 さらに、cnepは専門家の専門化を促進することによって、解釈性の向上と収束の高速化を提供する。 さらに,CNMPモデルとは対照的に,CNEPモデルでは,新たな開始点と目的地点を設けると,実際のマニピュレータによる障害物回避タスクが達成されることを示す。

Learning from Demonstration (LfD) is a widely used technique for skill acquisition in robotics. However, demonstrations of the same skill may exhibit significant variances, or learning systems may attempt to acquire different means of the same skill simultaneously, making it challenging to encode these motions into movement primitives. To address these challenges, we propose an LfD framework, namely the Conditional Neural Expert Processes (CNEP), that learns to assign demonstrations from different modes to distinct expert networks utilizing the inherent information within the latent space to match experts with the encoded representations. CNEP does not require supervision on which mode the trajectories belong to. Provided experiments on artificially generated datasets demonstrate the efficacy of CNEP. Furthermore, we compare the performance of CNEP with another LfD framework, namely Conditional Neural Movement Primitives (CNMP), on a range of tasks, including experiments on a real robot. The results reveal enhanced modeling performance for movement primitives, leading to the synthesis of trajectories that more accurately reflect those demonstrated by experts, particularly when the model inputs include intersection points from various trajectories. Additionally, CNEP offers improved interpretability and faster convergence by promoting expert specialization. Furthermore, we show that the CNEP model accomplishes obstacle avoidance tasks with a real manipulator when provided with novel start and destination points, in contrast to the CNMP model, which leads to collisions with the obstacle.
翻訳日:2024-02-14 15:32:05 公開日:2024-02-13
# エピソード記憶型NDTによる車両挙動予測

Vehicle Behavior Prediction by Episodic-Memory Implanted NDT ( http://arxiv.org/abs/2402.08423v1 )

ライセンス: Link先を確認
Peining Shen, Jianwu Fang, Hongkai Yu, and Jianru Xue(参考訳) 自動運転では、自動運転車が安全な意思決定を行い、事故を避けるために、目標車両の挙動(左折、停止など)を予測することが不可欠である。 既存のディープラーニングベースの手法は、優れた精度と精度を示しているが、ブラックボックスの性質から、実用的に適用することは信用できない。 本研究では,Epsodic Memory implanted Neural Decision Tree (eMem-NDT) による目標車両の挙動予測の解釈可能性について検討する。 eMem-NDTの構造は、車両動作記述のテキスト埋め込みを階層的にクラスタリングすることによって構成される。 emem-ndtは、深層モデルのソフトマックス層をemem-ndtに変更することにより、神経決定木上のトレーニングデータにおける歴史的な車両動作特徴のメモリプロトタイプをグループ化し、調整することにより、事前学習されたディープラーニングモデルのニューラルネットワーク部分である。 eMem-NDTの各リーフノードは、行動記憶プロトタイプを調整するニューラルネットワークによってモデル化される。 emem-ndtにより、ボトムアップメモリプロトタイプマッチング(mpm)(適切なリーフノードとルートノードへのリンク)とトップダウンリーフリンクアグリゲーション(lla)により車両の挙動予測における各インスタンスを推定し、特定のインスタンスに対する車両の将来の挙動の確率を求める。 BLVDおよびLOKIデータセット上でのeMem-NDTの有効性を検証し,本モデルが他の手法よりも優れていることを示す。 コードはhttps://github.com/JWFangit/eMem-NDTで入手できる。

In autonomous driving, predicting the behavior (turning left, stopping, etc.) of target vehicles is crucial for the self-driving vehicle to make safe decisions and avoid accidents. Existing deep learning-based methods have shown excellent and accurate performance, but the black-box nature makes it untrustworthy to apply them in practical use. In this work, we explore the interpretability of behavior prediction of target vehicles by an Episodic Memory implanted Neural Decision Tree (abbrev. eMem-NDT). The structure of eMem-NDT is constructed by hierarchically clustering the text embedding of vehicle behavior descriptions. eMem-NDT is a neural-backed part of a pre-trained deep learning model by changing the soft-max layer of the deep model to eMem-NDT, for grouping and aligning the memory prototypes of the historical vehicle behavior features in training data on a neural decision tree. Each leaf node of eMem-NDT is modeled by a neural network for aligning the behavior memory prototypes. By eMem-NDT, we infer each instance in behavior prediction of vehicles by bottom-up Memory Prototype Matching (MPM) (searching the appropriate leaf node and the links to the root node) and top-down Leaf Link Aggregation (LLA) (obtaining the probability of future behaviors of vehicles for certain instances). We validate eMem-NDT on BLVD and LOKI datasets, and the results show that our model can obtain a superior performance to other methods with clear explainability. The code is available at https://github.com/JWFangit/eMem-NDT.
翻訳日:2024-02-14 15:31:39 公開日:2024-02-13
# infinity norm による分布推定

Distribution Estimation under the Infinity Norm ( http://arxiv.org/abs/2402.08422v1 )

ライセンス: Link先を確認
Aryeh Kontorovich and Amichai Painsky(参考訳) 我々は$\ell_\infty$ノルムの下で離散確率分布を推定するための新しい境界を示す。 これらは、インスタンス最適化の一種を含む、様々な正確な感覚においてほぼ最適である。 我々のデータ依存収束保証は、現在知られている結果に対して最大極大推定器を著しく改善する。 チェルノフ型不等式や経験的ベルンシュタイン境界など、様々な技術が利用され、革新されている。 我々は人工的および実世界の実験で結果を説明する。 最後に,提案手法を基本選択推論問題に適用し,サンプル中の最も頻繁な確率を推定する。

We present novel bounds for estimating discrete probability distributions under the $\ell_\infty$ norm. These are nearly optimal in various precise senses, including a kind of instance-optimality. Our data-dependent convergence guarantees for the maximum likelihood estimator significantly improve upon the currently known results. A variety of techniques are utilized and innovated upon, including Chernoff-type inequalities and empirical Bernstein bounds. We illustrate our results in synthetic and real-world experiments. Finally, we apply our proposed framework to a basic selective inference problem, where we estimate the most frequent probabilities in a sample.
翻訳日:2024-02-14 15:31:10 公開日:2024-02-13
# デジタル双生児の保存的・リスク対応型オフラインマルチエージェント強化学習

Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning for Digital Twins ( http://arxiv.org/abs/2402.08421v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Houssem Sifaou, Osvaldo Simeone, Mohammad Shehab and Hirley Alves(参考訳) デジタルツイン(dt)プラットフォームは、次世代無線ネットワークのような複雑なエンジニアリングシステムを制御、最適化、監視するための有望な技術と見なされている。 dtソリューションを採用する上で重要な課題は、オフラインで収集されたデータに依存し、物理的環境に直接アクセスできないことだ。 この制限は、従来のマルチエージェント強化(MARL)が環境とのオンラインインタラクションを必要とするマルチエージェントシステムでは特に深刻である。 オフライン設定へのオンラインmarlスキームの直接適用は、一般的にデータの可用性の制限による認識の不確実性のために失敗する。 本研究では,分散RLと保守的Qラーニングを統合したDTベースの無線ネットワークのためのオフラインMARL方式を提案する。 オフラインデータをさらに活用するために,提案手法を集中型トレーニング分散実行フレームワークに適用し,エージェントのポリシの合同トレーニングを可能にする。 提案手法は,MA-CQR(Multi-agent conservative Quantile regression)と呼ばれ,リスクに敏感な設計基準に対処し,ドローンネットワークにおける軌道計画問題に適用し,その利点を示す。

Digital twin (DT) platforms are increasingly regarded as a promising technology for controlling, optimizing, and monitoring complex engineering systems such as next-generation wireless networks. An important challenge in adopting DT solutions is their reliance on data collected offline, lacking direct access to the physical environment. This limitation is particularly severe in multi-agent systems, for which conventional multi-agent reinforcement (MARL) requires online interactions with the environment. A direct application of online MARL schemes to an offline setting would generally fail due to the epistemic uncertainty entailed by the limited availability of data. In this work, we propose an offline MARL scheme for DT-based wireless networks that integrates distributional RL and conservative Q-learning to address the environment's inherent aleatoric uncertainty and the epistemic uncertainty arising from limited data. To further exploit the offline data, we adapt the proposed scheme to the centralized training decentralized execution framework, allowing joint training of the agents' policies. The proposed MARL scheme, referred to as multi-agent conservative quantile regression (MA-CQR) addresses general risk-sensitive design criteria and is applied to the trajectory planning problem in drone networks, showcasing its advantages.
翻訳日:2024-02-14 15:31:03 公開日:2024-02-13
# ソフトウェアエンジニアリングにおけるケーススタディの報告に向けて

Insights Towards Better Case Study Reporting in Software Engineering ( http://arxiv.org/abs/2402.08411v1 )

ライセンス: Link先を確認
Sergio Rico(参考訳) ケーススタディは、ソフトウェアエンジニアリングにおいて人気があり注目に値する研究であり、その自然の文脈における現象を調査することによって、業界プラクティスに影響を与える大きな可能性を秘めている。 学術コミュニティを超えて幅広いオーディエンスにリーチする可能性は、報告の欠陥、特に文脈記述、研究分類、一般化可能性、正当な脅威の取り扱いによってしばしば損なわれる。 本稿では,ケーススタディ報告の質と影響を高めるための洞察の共有を目的としたリフレクション分析を行う。 ケーススタディでは,確立されたガイドライン,正確な分類,詳細なコンテキスト記述に従う必要性を強調した。 さらに、一般化可能な発見を明確にし、一般化可能性の脅威を徹底的に議論することに焦点を当てている。 我々は,ケーススタディが方法論的に健全で,ソフトウェア工学の実践者やより広範な学術的コミュニティに適用可能であることを保証し,厳格でコミュニケーション的な戦略を採用するよう研究者に奨励することを目指している。 本論文では,ケーススタディからの洞察が透明で,理解可能であり,学術研究者と産業実践者の双方のニーズを満たすように調整されることを目標としている。 そこで我々は,理論研究と産業における実践的実践のギャップを埋めて,学術研究の現実的な適用性を高めることを目指す。

Case studies are a popular and noteworthy type of research study in software engineering, offering significant potential to impact industry practices by investigating phenomena in their natural contexts. This potential to reach a broad audience beyond the academic community is often undermined by deficiencies in reporting, particularly in the context description, study classification, generalizability, and the handling of validity threats. This paper presents a reflective analysis aiming to share insights that can enhance the quality and impact of case study reporting. We emphasize the need to follow established guidelines, accurate classification, and detailed context descriptions in case studies. Additionally, particular focus is placed on articulating generalizable findings and thoroughly discussing generalizability threats. We aim to encourage researchers to adopt more rigorous and communicative strategies, ensuring that case studies are methodologically sound, resonate with, and apply to software engineering practitioners and the broader academic community. The reflections and recommendations offered in this paper aim to ensure that insights from case studies are transparent, understandable, and tailored to meet the needs of both academic researchers and industry practitioners. In doing so, we seek to enhance the real-world applicability of academic research, bridging the gap between theoretical research and practical implementation in industry.
翻訳日:2024-02-14 15:30:40 公開日:2024-02-13
# 低磁場磁気共鳴画像の強度誘導脳分割のための超高精細表現の転送

Transferring Ultrahigh-Field Representations for Intensity-Guided Brain Segmentation of Low-Field Magnetic Resonance Imaging ( http://arxiv.org/abs/2402.08409v1 )

ライセンス: Link先を確認
Kwanseok Oh, Jieun Lee, Da-Woon Heo, Dinggang Shen, and Heung-Il Suk(参考訳) 超高磁場(UHF)磁気共鳴イメージング(MRI)、すなわち7T MRIは、信号-雑音比の増大と感受性に起因したコントラストにより、脳内構造の優れた解剖学的詳細を提供する。 しかし 7T MRI の広範使用は,低磁場 (LF) MRI と比較して高コストでアクセシビリティが低いため制限されている。 本研究では,入力されたLF磁気共鳴特徴表現を,脳画像のセグメンテーションタスクにおける推定7T様特徴表現と体系的に融合するディープラーニングフレームワークを提案する。 具体的には, 適応核融合モジュールは, LF画像から抽出した7T様特徴を事前学習ネットワークで集約し, 効果的にUHF誘導をLF画像特徴に組み込むように改良する。 このようなアグリゲーションと同化から得られる強度誘導特徴を用いて、セグメンテーションモデルはLF特徴のみに依存する場合の認識が難しい微妙な構造表現を認識することができる。 このような利点の他に、任意のセグメンテーションモデルを用いた場合であっても、UHFガイダンスに従ってLF特徴のコントラストを調整することで、この戦略をシームレスに利用することができる。 実験により, 提案手法は脳組織および脳全体のセグメンテーションタスクのベースラインモデルに対して有意に優れており, さらに, 多様なセグメンテーションモデルとタスクを統合することで, 顕著な適応性と拡張性を示した。 これらの改善は定量化されただけでなく、セグメンテーションマスクの視覚的品質でも目に見える。

Ultrahigh-field (UHF) magnetic resonance imaging (MRI), i.e., 7T MRI, provides superior anatomical details of internal brain structures owing to its enhanced signal-to-noise ratio and susceptibility-induced contrast. However, the widespread use of 7T MRI is limited by its high cost and lower accessibility compared to low-field (LF) MRI. This study proposes a deep-learning framework that systematically fuses the input LF magnetic resonance feature representations with the inferred 7T-like feature representations for brain image segmentation tasks in a 7T-absent environment. Specifically, our adaptive fusion module aggregates 7T-like features derived from the LF image by a pre-trained network and then refines them to be effectively assimilable UHF guidance into LF image features. Using intensity-guided features obtained from such aggregation and assimilation, segmentation models can recognize subtle structural representations that are usually difficult to recognize when relying only on LF features. Beyond such advantages, this strategy can seamlessly be utilized by modulating the contrast of LF features in alignment with UHF guidance, even when employing arbitrary segmentation models. Exhaustive experiments demonstrated that the proposed method significantly outperformed all baseline models on both brain tissue and whole-brain segmentation tasks; further, it exhibited remarkable adaptability and scalability by successfully integrating diverse segmentation models and tasks. These improvements were not only quantifiable but also visible in the superlative visual quality of segmentation masks.
翻訳日:2024-02-14 15:30:17 公開日:2024-02-13
# マルコフ決定過程による遷移制約ベイズ最適化

Transition Constrained Bayesian Optimization via Markov Decision Processes ( http://arxiv.org/abs/2402.08406v1 )

ライセンス: Link先を確認
Jose Pablo Folch, Calvin Tsay, Robert M Lee, Behrang Shafei, Weronika Ormaniec, Andreas Krause, Mark van der Wilk, Ruth Misener, Mojm\'ir Mutn\'y(参考訳) ベイズ最適化はブラックボックス関数を最適化する手法である。 従来は、検索スペースを任意にクエリできる設定に重点を置いていた。 しかし、現実の多くの問題は、この柔軟性を提供していない。特に、次のクエリの検索空間は、以前のものに依存しているかもしれない。 物理科学において、局所的な運動の制約、特定の変数の単調性、測定の正確性に影響を与える遷移という形で生じる。 全体として、このような移行制約は計画の形式を必要とします。 本研究は,マルコフ決定過程の枠組みを通じてベイズ最適化を拡張し,強化学習を用いて目標の扱いやすい線形化を反復的に解き,長大地平線を先取りする方針を得る。 結果として得られる政策は歴史に依存し、マルコフ的でない可能性がある。 本稿では,ケミカルリアクター最適化,情報経路計画,機械校正,その他の合成例の応用例を紹介する。

Bayesian optimization is a methodology to optimize black-box functions. Traditionally, it focuses on the setting where you can arbitrarily query the search space. However, many real-life problems do not offer this flexibility; in particular, the search space of the next query may depend on previous ones. Example challenges arise in the physical sciences in the form of local movement constraints, required monotonicity in certain variables, and transitions influencing the accuracy of measurements. Altogether, such transition constraints necessitate a form of planning. This work extends Bayesian optimization via the framework of Markov Decision Processes, iteratively solving a tractable linearization of our objective using reinforcement learning to obtain a policy that plans ahead over long horizons. The resulting policy is potentially history-dependent and non-Markovian. We showcase applications in chemical reactor optimization, informative path planning, machine calibration, and other synthetic examples.
翻訳日:2024-02-14 15:29:29 公開日:2024-02-13
# 1nn分類器の一般化のための新しい規則化手法

A Novel Approach to Regularising 1NN classifier for Improved Generalization ( http://arxiv.org/abs/2402.08405v1 )

ライセンス: Link先を確認
Aditya Challa, Sravan Danda, Laurent Najman(参考訳) 本稿では,任意の境界を学習し,よく一般化する非パラメトリック分類器のクラスを提案する。 本手法は,greedyアプローチを用いて1NN分類器を正規化する方法に基づいている。 我々は、この分類器のクラスを、Watershed Classifiersと呼ぶ。 1NN分類器は自明に過度に適合することが知られているが、非常に大きなVC次元を持つため、うまく一般化しない。 流域分類器は十分な密度のデータセット上で任意の境界を見つけることができ、同時に非常に小さなVC次元を持つので、流域分類器は優れた一般化をもたらす。 1NN分類器を正規化するための伝統的なアプローチは、近隣の$K$を考えることである。 隣り合うコンポーネント分析(NCA)は、データセットのサイズを表す$n$(n-1$)近傍の分類器と整合した表現を学習する方法を提案する。 本稿では,流域分類器と整合した表現を学習できる損失関数を提案し,ncaベースラインよりも優れることを示す。

In this paper, we propose a class of non-parametric classifiers, that learn arbitrary boundaries and generalize well. Our approach is based on a novel way to regularize 1NN classifiers using a greedy approach. We refer to this class of classifiers as Watershed Classifiers. 1NN classifiers are known to trivially over-fit but have very large VC dimension, hence do not generalize well. We show that watershed classifiers can find arbitrary boundaries on any dense enough dataset, and, at the same time, have very small VC dimension; hence a watershed classifier leads to good generalization. Traditional approaches to regularize 1NN classifiers are to consider $K$ nearest neighbours. Neighbourhood component analysis (NCA) proposes a way to learn representations consistent with ($n-1$) nearest neighbour classifier, where $n$ denotes the size of the dataset. In this article, we propose a loss function which can learn representations consistent with watershed classifiers, and show that it outperforms the NCA baseline.
翻訳日:2024-02-14 15:29:06 公開日:2024-02-13
# LLMとヒューマン・コンディション

LLMs and the Human Condition ( http://arxiv.org/abs/2402.08403v1 )

ライセンス: Link先を確認
Peter Wallis(参考訳) 本稿では、人間の意思決定に関する3つの確立された理論を提示し、それらがどのように統合されて人間の行動のモデルとなるかを説明する。 言語をアクションとして真剣に考えると、モデルが会話のユーザーインターフェイスに適用されます。 理論ベースのai研究は最近苦戦しており、ここでの目標は、llmが実際に何をしているのかを理解することに対する関心を復活させることであり、関連する大手テクノロジー企業が蓄積できるすべてのデータに対して、理解不足の機械学習ルーチンを実行すること以外にない。 50USD以下のラズベリーのパイコンピュータが、最初の商用Crayスーパーコンピュータの最大400倍高速になったとき、Big Techは、ランダムにタイプしてテキストを生成する無限のサルに近づき、そのいくつかは理にかなっているだろう。 ChatGPTの明らかなインテリジェンスがどこから来たのかを理解することで、リソースが少ないと同時に、私たちの世界との関係についてある程度の理解を得ることができます。

This paper presents three established theories of human decision-making and describes how they can be integrated to provide a model of purposive human action. Taking seriously the idea of language as action the model is then applied to the conversational user interfaces. Theory based AI research has had a hard time recently and the aim here is to revitalise interest in understanding what LLMs are actually doing other than running poorly understood machine learning routines over all the data the relevant Big Tech company can hoover up. When a raspberry pi computer for under 50USD is up to 400 times faster than the first commercial Cray super computer~\cite{crayVpi}, Big Tech can get really close to having an infinite number of monkeys typing at random and producing text, some of which will make sense. By understanding where ChatGPT's apparent intelligence comes from, perhaps we can perform the magic with fewer resources and at the same time gain some understanding about our relationship with our world.
翻訳日:2024-02-14 15:28:37 公開日:2024-02-13
# LOSS-GAT: Fake News Detectionのためのラベル伝搬と1クラス半スーパービジョングラフアテンションネットワーク

LOSS-GAT: Label Propagation and One-Class Semi-Supervised Graph Attention Network for Fake News Detection ( http://arxiv.org/abs/2402.08401v1 )

ライセンス: Link先を確認
Batool Lakzaei and Mostafa Haghir Chehreghani and Alireza Bagheri(参考訳) 広範なソーシャルネットワークの時代において、偽ニュースの急速な拡散は重大な脅威として現れ、人々の生活の様々な側面に有害な影響をもたらした。 機械学習とディープラーニングのアプローチは、偽ニュースを特定するために広く使われている。 しかし、フェイクニュースを特定する上で重要な課題は、ラベル付きニュースデータセットの可用性の制限である。 したがって、関心クラスからのラベル付きデータの小さなセットのみを利用する1クラス学習(ocl)アプローチは、この課題に対処するための適切なアプローチである。 一方、グラフとしてのデータの表現は多様なコンテンツや構造情報へのアクセスを可能にし、グラフ上のラベル伝搬法はノードラベルの予測に有効である。 本稿では,データ表現のためのグラフモデルを採用し,偽ニュース検出のための半教師あり一クラスアプローチ「loss-gat」を提案する。 まず、グラフニューラルネットワーク(GNN)を初期分類器として利用し、関心(フェイク)と非関心(リアル)の2つのグループに分類する。 次に,構造強化手法を用いてグラフ構造を強化する。 最終的に、集約関数を介してノードの局所的な近傍にランダム性をもたらすGNNを用いて、ラベルなしデータの最終的なラベルを予測する。 提案手法を5つの共通データセット上で評価し, oclおよびバイナリラベル付きモデルを含む一連のベースラインモデルと比較した。 以上の結果から,LOSS-GATは10%を超える顕著な改善を実現し,限られたラベル付きフェイクニュースのみを活用するという利点が示された。 注目すべきは、LOS-GATはバイナリラベル付きモデルよりも優れていることだ。

In the era of widespread social networks, the rapid dissemination of fake news has emerged as a significant threat, inflicting detrimental consequences across various dimensions of people's lives. Machine learning and deep learning approaches have been extensively employed for identifying fake news. However, a significant challenge in identifying fake news is the limited availability of labeled news datasets. Therefore, the One-Class Learning (OCL) approach, utilizing only a small set of labeled data from the interest class, can be a suitable approach to address this challenge. On the other hand, representing data as a graph enables access to diverse content and structural information, and label propagation methods on graphs can be effective in predicting node labels. In this paper, we adopt a graph-based model for data representation and introduce a semi-supervised and one-class approach for fake news detection, called LOSS-GAT. Initially, we employ a two-step label propagation algorithm, utilizing Graph Neural Networks (GNNs) as an initial classifier to categorize news into two groups: interest (fake) and non-interest (real). Subsequently, we enhance the graph structure using structural augmentation techniques. Ultimately, we predict the final labels for all unlabeled data using a GNN that induces randomness within the local neighborhood of nodes through the aggregation function. We evaluate our proposed method on five common datasets and compare the results against a set of baseline models, including both OCL and binary labeled models. The results demonstrate that LOSS-GAT achieves a notable improvement, surpassing 10%, with the advantage of utilizing only a limited set of labeled fake news. Noteworthy, LOSS-GAT even outperforms binary labeled models.
翻訳日:2024-02-14 15:27:53 公開日:2024-02-13
# ランダム化平滑化を用いたセグメンテーションの適応的階層認証

Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing ( http://arxiv.org/abs/2402.08400v1 )

ライセンス: Link先を確認
Alaa Anani, Tobias Lorenz, Bernt Schiele, Mario Fritz(参考訳) 一般的な認証手法は、きめ細かいクラスのフラットな事前定義セットで動作します。 本稿では,画像意味的セグメンテーションのための適応的階層的認証という,新しい,より汎用的で実用的な設定を提案する。 この設定では、認証は細部から粗部までからなる多層階層ラベル空間内で行うことができる。 従来の方法では不安定なコンポーネントを許容するが、このアプローチでは認証を階層内のより粗いレベルに適応的に緩和する。 この緩和は、より認証された意味的な情報を提供しながら、禁忌率を低下させる。 問題の設定を数学的に定式化し,まず,階層内の画像画素を検証し,保証の正確性を証明する,画像意味セグメンテーションのための適応的階層認証アルゴリズムを導入する。 粗い階層のレベルに進む際には、認証精度が情報損失を考慮しないので、適応的階層的認証、すなわち、クラス粒度レベルに比例した認証情報ゲインメトリックの新たな評価パラダイムを導入する。 Cityscapes や ACDC などの実世界の挑戦的データセットに対する評価実験により,我々の適応的アルゴリズムは,現在の最先端認証法や非適応型よりも高い認証情報ゲインと低い吸収率を達成することを示した。

Common certification methods operate on a flat pre-defined set of fine-grained classes. In this paper, however, we propose a novel, more general, and practical setting, namely adaptive hierarchical certification for image semantic segmentation. In this setting, the certification can be within a multi-level hierarchical label space composed of fine to coarse levels. Unlike classic methods where the certification would abstain for unstable components, our approach adaptively relaxes the certification to a coarser level within the hierarchy. This relaxation lowers the abstain rate whilst providing more certified semantically meaningful information. We mathematically formulate the problem setup and introduce, for the first time, an adaptive hierarchical certification algorithm for image semantic segmentation, that certifies image pixels within a hierarchy and prove the correctness of its guarantees. Since certified accuracy does not take the loss of information into account when traversing into a coarser hierarchy level, we introduce a novel evaluation paradigm for adaptive hierarchical certification, namely the certified information gain metric, which is proportional to the class granularity level. Our evaluation experiments on real-world challenging datasets such as Cityscapes and ACDC demonstrate that our adaptive algorithm achieves a higher certified information gain and a lower abstain rate compared to the current state-of-the-art certification method, as well as other non-adaptive versions of it.
翻訳日:2024-02-14 15:27:05 公開日:2024-02-13
# 一般化グラフ伝播のためのデカーブ流れの解明

Revealing Decurve Flows for Generalized Graph Propagation ( http://arxiv.org/abs/2402.08480v1 )

ライセンス: Link先を確認
Chen Lin, Liheng Ma, Yiyang Chen, Wanli Ouyang, Michael M. Bronstein and Philip H.S. Torr(参考訳) 本研究は、有向グラフと重み付きグラフを用いて「em \textbf{generalized propagation}}」を定義することにより、グラフ学習の中心となる従来のメッセージパッシング分析の限界に対処する。 その意義は2つの点で示される。 本稿では,ほとんどの伝播に基づくグラフニューラルネットワークを統一するフレームワークである一般化伝搬ニューラルネットワーク (\textbf{GPNNs}) を提案する。 GPNNは、隣接関数と接続関数を持つ有向重み付き伝搬グラフを生成することにより、様々なグラフモデルにまたがる注意機構に関する洞察を深める。 実験実験により設計空間内のトレードオフを掘り下げ,理論解析を通じてモデル表現性に対する隣接関数の重要な役割を強調した。 ここでは、有向グラフおよび重み付きグラフに対する有名な {\em Ollivier-Ricci Curvature} の拡張である {\em Continuous Unified Ricci Curvature} (\textbf{CURC}) を提案する。 理論的に、我々はCURCが連続性、スケール不変性、およびGPNNに対するディリクレ等長不等度定値ボトルネック解析との低境界接続を有することを示した。 この分野初のデータセットにおける学習された伝播パターンの予備的な探索を含む。 我々は,学習可能な伝播モデルに対する訓練中の曲率の削減と,伝播の経時的変化と,過度なスムーシングとボトルネックトレードオフとの深い関係を明らかにする,興味深い ``{\em \textbf{decurve flow}}'' を観察した。

This study addresses the limitations of the traditional analysis of message-passing, central to graph learning, by defining {\em \textbf{generalized propagation}} with directed and weighted graphs. The significance manifest in two ways. \textbf{Firstly}, we propose {\em Generalized Propagation Neural Networks} (\textbf{GPNNs}), a framework that unifies most propagation-based graph neural networks. By generating directed-weighted propagation graphs with adjacency function and connectivity function, GPNNs offer enhanced insights into attention mechanisms across various graph models. We delve into the trade-offs within the design space with empirical experiments and emphasize the crucial role of the adjacency function for model expressivity via theoretical analysis. \textbf{Secondly}, we propose the {\em Continuous Unified Ricci Curvature} (\textbf{CURC}), an extension of celebrated {\em Ollivier-Ricci Curvature} for directed and weighted graphs. Theoretically, we demonstrate that CURC possesses continuity, scale invariance, and a lower bound connection with the Dirichlet isoperimetric constant validating bottleneck analysis for GPNNs. We include a preliminary exploration of learned propagation patterns in datasets, a first in the field. We observe an intriguing ``{\em \textbf{decurve flow}}'' - a curvature reduction during training for models with learnable propagation, revealing the evolution of propagation over time and a deeper connection to over-smoothing and bottleneck trade-off.
翻訳日:2024-02-14 15:20:56 公開日:2024-02-13
# 半監督エンターメント信号による可塑性抽出合理化

Plausible Extractive Rationalization through Semi-Supervised Entailment Signal ( http://arxiv.org/abs/2402.08479v1 )

ライセンス: Link先を確認
Yeo Wei Jie, Ranjan Satapathy, Erik Cambria(参考訳) 複雑で不透明なブラックボックスモデルの使用の増加は、解釈可能な測度の採用を必要とするが、そのような選択肢の1つは、より解釈可能な代替手段として機能する抽出的合理化モデルである。 これらのモデルは、説明-予測モデルとしても知られ、理論を抽出し、その後、抽出された情報で予測者を条件付けるために説明器モデルを用いる。 彼らの主な目的は、抽出された合理性によって表される正確で忠実な説明を提供することである。 本稿では,抽出された有理量の妥当性を最適化する半教師付き手法を提案する。 我々は、事前訓練された自然言語推論(NLI)モデルを採用し、さらに、教師付き論理の小さなセット(10\%$)に微調整する。 NLI予測器は、エンテーメントアライメントにより、説明者への監視信号のソースとして活用される。 質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。 ERASERデータセットに対する我々のアプローチを評価し,提案手法が教師付き抽出モデルを用いて同等の結果を得ることを示す。

The increasing use of complex and opaque black box models requires the adoption of interpretable measures, one such option is extractive rationalizing models, which serve as a more interpretable alternative. These models, also known as Explain-Then-Predict models, employ an explainer model to extract rationales and subsequently condition the predictor with the extracted information. Their primary objective is to provide precise and faithful explanations, represented by the extracted rationales. In this paper, we take a semi-supervised approach to optimize for the plausibility of extracted rationales. We adopt a pre-trained natural language inference (NLI) model and further fine-tune it on a small set of supervised rationales ($10\%$). The NLI predictor is leveraged as a source of supervisory signals to the explainer via entailment alignment. We show that, by enforcing the alignment agreement between the explanation and answer in a question-answering task, the performance can be improved without access to ground truth labels. We evaluate our approach on the ERASER dataset and show that our approach achieves comparable results with supervised extractive models and outperforms unsupervised approaches by $> 100\%$.
翻訳日:2024-02-14 15:20:24 公開日:2024-02-13
# hqnet: nisq時代の量子ニューラルネットワークの効果的なトレーニングに量子ノイズを利用する

HQNET: Harnessing Quantum Noise for Effective Training of Quantum Neural Networks in NISQ Era ( http://arxiv.org/abs/2402.08475v1 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique(参考訳) 本稿では,量子ノイズの複雑なダイナミクスとバレンプラトー(BP)の開始と緩和への影響を考察し,QNNのスケーラビリティを著しく阻害する現象について述べる。 BPは理想的なノイズのない条件に比べてノイズの多い量子環境では早く現れるが、しかしながら、量子ビット測定観測器の戦略的選択はこの問題に効果的に対処できる。 この目的のために, pauliz, paulix, pauliy, and a specially designed arbitrary hermitian observable といった様々な可観測関数を,コスト関数と量子回路の所望の出力の要件に合わせて検討する。 本分析は,全キュービットにわたる測定と,qnnフレームワーク内のシングルキュービット計測に焦点を合わせ,グローバルコスト関数定義とローカルコスト関数定義の両方を包含する。 以上より, グローバルコスト関数のシナリオでは, paulix と pauliy observables がより平坦な最適化環境につながり, 特に騒音条件下では bps の増加が示唆された。 逆に、パウリZ観測器は最大8キュービットのトレーニング性を維持するが、10キュービットのBPに遭遇する。 特に、グローバルコスト関数で使用される任意のエルミート可観測性は、ノイズの利点としてユニークな利点を示し、最大10キュービットまでの効果的なトレーニングを容易にする。 さらに、従来の3つの観測装置(PauliX、PauliY、PauliZ)のうち、局所的なコスト関数により、PauliZは最大10キュービットのノイズ条件下でのトレーニング効率を保ちながら、PauliXとPauliYは同様の利点を示しておらず、BPに影響を受けない。 本研究は,QNNトレーニングにおけるノイズ考慮の重要性を強調し,ノイズの多い量子コンピューティング環境におけるQNN性能向上のための観測可能な選択のための戦略的アプローチを提案する。

This paper delves into the intricate dynamics of quantum noise and its influence on the onset and mitigation of barren plateaus (BPs) - a phenomenon that critically impedes the scalability of QNNs. We find that BPs appear earlier in noisy quantum environments compared to ideal, noise-free conditions.However, strategic selection of qubit measurement observables can effectively tackle this issue. To this end, we examine a variety of observables, such as PauliZ,PauliX, PauliY, and a specially designed arbitrary Hermitian observable, tailored to the requirements of the cost function and the desired outputs of quantum circuits. Our analysis encompasses both global and local cost function definitions, with the former involving measurements across all qubits and the latter focusing on single-qubit measurements within the QNN framework. Our findings indicate that in a global cost function scenario, PauliX and PauliY observables lead to flatter optimization landscapes, signaling BPs with increasing qubits, especially in noisy conditions. Conversely, the PauliZ observable maintains trainability up to 8 qubits but encounters BPs at 10 qubits. Notably, the arbitrary Hermitian observable, when used with a global cost function, shows a unique advantage as it benefits from noise, facilitating effective training up to 10 qubits. Furthermore, with a local cost function, out of the three conventional observables (PauliX, PauliY and PauliZ), PauliZ is more effective, sustaining training efficiency under noisy conditions for up to 10 qubits, while PauliX and PauliY do not show similar benefits and remain susceptible to BPs. Our results highlight the importance of noise consideration in QNN training and propose a strategic approach to observable selection to improve QNN performance in noisy quantum computing environments thus contributing to the advancement of quantum machine learning research.
翻訳日:2024-02-14 15:20:01 公開日:2024-02-13
# ビジョンランゲージ変換器モデルにおけるゼロショットとシステム評価の違い

Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models ( http://arxiv.org/abs/2402.08473v1 )

ライセンス: Link先を確認
Shaeke Salman, Md Montasir Bin Shams, Xiuwen Liu, Lingjiong Zhu(参考訳) トランスフォーマーベースのモデルは、ベンチマークデータセットでの優れた(ゼロショット)パフォーマンスのために、ここ数年で自然言語処理やその他の領域を支配してきた。 しかし、これらのモデルは複雑さとサイズのためにあまり理解されていない。 探索に基づく手法は特定の性質を理解するために広く用いられているが、表現空間の構造は体系的に特徴づけられておらず、なぜそのようなモデルがデータセット以外の新しい入力に一般化し、過度に一般化するのかは不明である。 本稿では,新しい勾配勾配勾配最適化法に基づいて,一般的に使用される視覚言語モデルの埋め込み空間を探索する。 Imagenetteデータセットを用いて、モデルが99\%以上のゼロショット分類性能を達成する一方で、体系的な評価を完全に失敗することを示した。 線形近似を用いて,目立った違いを説明する枠組みを提案する。 また, 連続入力を持つ他の変圧器モデルに適用可能であることを示すために, 異なるモデルを用いて同様の結果を得た。 また,修正画像を検出するロバストな手法を提案する。

Transformer-based models have dominated natural language processing and other areas in the last few years due to their superior (zero-shot) performance on benchmark datasets. However, these models are poorly understood due to their complexity and size. While probing-based methods are widely used to understand specific properties, the structures of the representation space are not systematically characterized; consequently, it is unclear how such models generalize and overgeneralize to new inputs beyond datasets. In this paper, based on a new gradient descent optimization method, we are able to explore the embedding space of a commonly used vision-language model. Using the Imagenette dataset, we show that while the model achieves over 99\% zero-shot classification performance, it fails systematic evaluations completely. Using a linear approximation, we provide a framework to explain the striking differences. We have also obtained similar results using a different model to support that our results are applicable to other transformer models with continuous inputs. We also propose a robust way to detect the modified images.
翻訳日:2024-02-14 15:19:22 公開日:2024-02-13
# 最適化アルゴリズムの自動解析のための大規模言語モデル

Large Language Models for the Automated Analysis of Optimization Algorithms ( http://arxiv.org/abs/2402.08472v1 )

ライセンス: Link先を確認
Camilo Chac\'on Sartori and Christian Blum and Gabriela Ochoa(参考訳) 高品質なテキストやコードを生成するためのLLM(Large Language Models)の能力は、その人気を高めている。 本稿では,最適化アルゴリズムの領域内でのLLMの可能性をSTNWebに組み込むことで実証することを目的とする。 これは、最適化アルゴリズムの挙動を可視化するサーチトラジェクトリネットワーク(STN)の生成のためのWebベースのツールである。 stnwebが生成する視覚化は、アルゴリズム設計者にとって非常に有益であるが、多くの場合、あるレベルの事前知識を解釈する必要がある。 この知識のギャップを埋めるために,我々はstonweb に llms,特に gpt-4 を組み込んで広範なレポートを作成し,自動生成プロットによって補完され,ユーザエクスペリエンスが向上し,研究コミュニティによるこのツールの採用障壁が軽減された。 さらに,本手法は最適化コミュニティの他のツールにも拡張可能であり,この分野におけるLLMの汎用性と可能性を示している。

The ability of Large Language Models (LLMs) to generate high-quality text and code has fuelled their rise in popularity. In this paper, we aim to demonstrate the potential of LLMs within the realm of optimization algorithms by integrating them into STNWeb. This is a web-based tool for the generation of Search Trajectory Networks (STNs), which are visualizations of optimization algorithm behavior. Although visualizations produced by STNWeb can be very informative for algorithm designers, they often require a certain level of prior knowledge to be interpreted. In an attempt to bridge this knowledge gap, we have incorporated LLMs, specifically GPT-4, into STNWeb to produce extensive written reports, complemented by automatically generated plots, thereby enhancing the user experience and reducing the barriers to the adoption of this tool by the research community. Moreover, our approach can be expanded to other tools from the optimization community, showcasing the versatility and potential of LLMs in this field.
翻訳日:2024-02-14 15:19:06 公開日:2024-02-13
# 太陽光発電劣化解析のための並列親しみやすい時空間グラフ学習

Parallel-friendly Spatio-Temporal Graph Learning for Photovoltaic Degradation Analysis at Scale ( http://arxiv.org/abs/2402.08470v1 )

ライセンス: Link先を確認
Yangxin Fan, Raymond Wieser, Laura Bruckman, Roger French, Yinghui Wu(参考訳) 本稿では,太陽光発電(PV)電力網の性能劣化解析を行うために,新しい時空間グラフニューラルネットワークを用いたトレンド解析手法(ST-GTrend)を提案する。 PV発電所は、世界的な持続可能なエネルギー生産環境に不可欠な要素となっている。 pvシステムの性能を正確に推定することは、発電技術としておよび金融資産としてその実現に不可欠である。 PVシステムのレベルド・コスト・オブ・エナジー(LCOE)を評価する上で最も困難な問題の1つは、大規模なPVインバータの長期性能損失率(PLR)を理解して見積もることである。 ST-GTrendは時空間コヒーレンスとグラフアテンションを統合し、PV入力データ内の複数のゆらぎ項から長期の「加齢」傾向としてPLRを分離する。 時系列の多様な劣化パターンに対処するため、st-gtrendは並列グラフオートエンコーダアレイを採用し、老化と変動項を同時に抽出する。 ST-GTrendは、時効とゆらぎの絡みを確実にするため、平坦性と滑らかな正則化を課す。 また,ST-GTrendの学習と推論を高速化する並列アルゴリズムであるPara-GTrendを導入する。 我々は,ST-GTrendを3つの大規模PVデータセットで評価した。 以上の結果から,ST-GTrendはSOTA法に比べて平均絶対誤差(MAPE)とユークリッド距離を34.74%,33.66%削減することがわかった。 その結果,Para-GTrendはST-GTrendを最大7.92倍高速化できることがわかった。 金融・経済データセットを用いたトレンド分析におけるST-GTrendの一般化と有効性をさらに検証する。

We propose a novel Spatio-Temporal Graph Neural Network empowered trend analysis approach (ST-GTrend) to perform fleet-level performance degradation analysis for Photovoltaic (PV) power networks. PV power stations have become an integral component to the global sustainable energy production landscape. Accurately estimating the performance of PV systems is critical to their feasibility as a power generation technology and as a financial asset. One of the most challenging problems in assessing the Levelized Cost of Energy (LCOE) of a PV system is to understand and estimate the long-term Performance Loss Rate (PLR) for large fleets of PV inverters. ST-GTrend integrates spatio-temporal coherence and graph attention to separate PLR as a long-term "aging" trend from multiple fluctuation terms in the PV input data. To cope with diverse degradation patterns in timeseries, ST-GTrend adopts a paralleled graph autoencoder array to extract aging and fluctuation terms simultaneously. ST-GTrend imposes flatness and smoothness regularization to ensure the disentanglement between aging and fluctuation. To scale the analysis to large PV systems, we also introduce Para-GTrend, a parallel algorithm to accelerate the training and inference of ST-GTrend. We have evaluated ST-GTrend on three large-scale PV datasets, spanning a time period of 10 years. Our results show that ST-GTrend reduces Mean Absolute Percent Error (MAPE) and Euclidean Distances by 34.74% and 33.66% compared to the SOTA methods. Our results demonstrate that Para-GTrend can speed up ST-GTrend by up to 7.92 times. We further verify the generality and effectiveness of ST-GTrend for trend analysis using financial and economic datasets.
翻訳日:2024-02-14 15:18:49 公開日:2024-02-13
# ROSpace:ROS2ベースのサイバー物理システムのための侵入検知データセット

ROSpace: Intrusion Detection Dataset for a ROS2-Based Cyber-Physical System ( http://arxiv.org/abs/2402.08468v1 )

ライセンス: Link先を確認
Tommaso Puccetti, Simone Nardi, Cosimo Cinquilli, Tommaso Zoppi, Andrea Ceccarelli(参考訳) 機械学習ベースの侵入検知システム(IDS)を研究するための侵入検出データセットの多くは、サイバー専用システムに特化しており、通常は1つのアーキテクチャ層からデータを収集する。 さらに、通常と攻撃行動の現実的な交替と重複を再現することなく、攻撃は専用のアタックセッションで発生することが多い。 本稿では,ロボットos2(ros2)上に組込まれた組込みサイバー物理システム上で侵入試験を行い,侵入検知のためのデータセットを提案する。 機能はLinuxオペレーティングシステム、ネットワーク、ROS2サービスという3つのアーキテクチャレイヤから監視される。 データセットは時系列として構造化され、システムの期待される振る舞いとROS2固有の攻撃に対する応答を記述します。 注目すべきなのは、攻撃者を検出する時間と、検出前に実行された悪意のあるアクティビティの数を測定することだ。 また、通常作戦と攻撃作戦の数多くの交互な期間を生かして、侵入検知器を訓練することで両者を最小化することができる。

Most of the intrusion detection datasets to research machine learning-based intrusion detection systems (IDSs) are devoted to cyber-only systems, and they typically collect data from one architectural layer. Additionally, often the attacks are generated in dedicated attack sessions, without reproducing the realistic alternation and overlap of normal and attack actions. We present a dataset for intrusion detection by performing penetration testing on an embedded cyber-physical system built over Robot Operating System 2 (ROS2). Features are monitored from three architectural layers: the Linux operating system, the network, and the ROS2 services. The dataset is structured as a time series and describes the expected behavior of the system and its response to ROS2-specific attacks: it repeatedly alternates periods of attack-free operation with periods when a specific attack is being performed. Noteworthy, this allows measuring the time to detect an attacker and the number of malicious activities performed before detection. Also, it allows training an intrusion detector to minimize both, by taking advantage of the numerous alternating periods of normal and attack operations.
翻訳日:2024-02-14 15:18:21 公開日:2024-02-13
# ChatGPTのセーフガードを乗り越えて、大規模でハード・トゥ・ディテクストの偽情報を生成

Lying Blindly: Bypassing ChatGPT's Safeguards to Generate Hard-to-Detect Disinformation Claims at Scale ( http://arxiv.org/abs/2402.08467v1 )

ライセンス: Link先を確認
Freddy Heppell, Mehmet E. Bakir, Kalina Bontcheva(参考訳) 大規模言語モデル(LLM)が高度化するにつれ、大規模なウイルス情報拡散キャンペーンにおける誤用が懸念されている。 本研究は,ウクライナにおける戦争に関する無条件クレームを発生させるchatgptの能力について検討し,そのようなクレームが人間の読者と自動ツールによって区別できるかどうかを評価する。 IFCN登録ファクトチェッカーによるClaumReviewの戦争関連クレームと、ChatGPTが生成した同様のショートフォームコンテンツを比較した。 われわれは、ChatGPTが現実的でターゲット固有の偽情報を安価、迅速、かつ大規模に生成できることを示し、これらの主張が人間や既存の自動化ツールによって確実に区別できないことを示した。

As Large Language Models (LLMs) become more proficient, their misuse in large-scale viral disinformation campaigns is a growing concern. This study explores the capability of ChatGPT to generate unconditioned claims about the war in Ukraine, an event beyond its knowledge cutoff, and evaluates whether such claims can be differentiated by human readers and automated tools from human-written ones. We compare war-related claims from ClaimReview, authored by IFCN-registered fact-checkers, and similar short-form content generated by ChatGPT. We demonstrate that ChatGPT can produce realistic, target-specific disinformation cheaply, fast, and at scale, and that these claims cannot be reliably distinguished by humans or existing automated tools.
翻訳日:2024-02-14 15:17:59 公開日:2024-02-13
# 真剣な訓練の実践 : 人工知能の人的指導と管理に基づく規制

Taking Training Seriously: Human Guidance and Management-Based Regulation of Artificial Intelligence ( http://arxiv.org/abs/2402.08466v1 )

ライセンス: Link先を確認
Cary Coglianese and Colton R. Crum(参考訳) 人工知能(AI)に関連する害のより堅牢なガバナンスを求めるFerventは、規制学者が規制に対する管理ベースのアプローチと呼ぶものの世界的普及につながっている。 近年の米国と欧州におけるイニシアチブと、国際標準化機構による主要な自己規制標準の採用は、共通してコアマネジメントベースのパラダイムを共有している。 これらのマネジメントベースのイニシアチブは、AIツールのトレーニングと開発に関する人間の監視の増大を動機付けようとしている。 したがって、人間誘導訓練技術の洗練と体系化は、この新たなマネジメントベースの規制パラダイムの時代に適合するために必要となる。 真剣に考えると、人間の指導によるトレーニングはAIの技術的なプレッシャーや倫理的なプレッシャーを和らげ、人間の直感によってAIのパフォーマンスを高め、公正性と効果的な説明可能性の必要性に対処する。 本稿では、AIを統括する新たなマネジメントベースの規制フレームワークと、トレーニング中の人間の監視の必要性との関係について論じる。 そして、規制当局に最も関心を抱くAIの高度なユースケースの種類は、データのみのトレーニングよりも、人間の指導によるトレーニングにもっと頼るべきである、と論じる。 我々は法学者とコンピュータ科学者の間で、その応用やリスクにおいて広大で異種でダイナミックな技術領域をどのように統治するかに関する議論を促進することを望んでいる。

Fervent calls for more robust governance of the harms associated with artificial intelligence (AI) are leading to the adoption around the world of what regulatory scholars have called a management-based approach to regulation. Recent initiatives in the United States and Europe, as well as the adoption of major self-regulatory standards by the International Organization for Standardization, share in common a core management-based paradigm. These management-based initiatives seek to motivate an increase in human oversight of how AI tools are trained and developed. Refinements and systematization of human-guided training techniques will thus be needed to fit within this emerging era of management-based regulatory paradigm. If taken seriously, human-guided training can alleviate some of the technical and ethical pressures on AI, boosting AI performance with human intuition as well as better addressing the needs for fairness and effective explainability. In this paper, we discuss the connection between the emerging management-based regulatory frameworks governing AI and the need for human oversight during training. We broadly cover some of the technical components involved in human-guided training and then argue that the kinds of high-stakes use cases for AI that appear of most concern to regulators should lean more on human-guided training than on data-only training. We hope to foster a discussion between legal scholars and computer scientists involving how to govern a domain of technology that is vast, heterogenous, and dynamic in its applications and risks.
翻訳日:2024-02-14 15:17:42 公開日:2024-02-13
# Subgraphormer: グラフプロダクトによるサブグラフGNNとグラフトランスフォーマーの統合

Subgraphormer: Unifying Subgraph GNNs and Graph Transformers via Graph Products ( http://arxiv.org/abs/2402.08450v1 )

ライセンス: Link先を確認
Guy Bar-Shalom, Beatrice Bevilacqua, Haggai Maron(参考訳) Graph Neural Networks(GNN)の領域では、最近、Subgraph GNNとGraph Transformersという2つのエキサイティングな研究方向が現れた。 本稿では,グラフトランスフォーマの最も重要なコンポーネントである注意と位置エンコーディングを,表現力の強化,メッセージパッシング機構,サブグラフgnnからの集約スキームと組み合わせた,subgraphormerと呼ばれる2つのアプローチを統合するアーキテクチャを提案する。 提案手法は,サブグラフGNNと製品グラフとの間の興味深い新たな接続をベースとして,グラフの製品上で動作しているメッセージパッシングニューラルネットワーク(MPNN)として,サブグラフGNNを定式化できることを示唆する。 まず、製品グラフの接続性に基づいた注意メカニズムを考案します。 そこで本研究では,積グラフの位置符号化手法として提案する,グラフGNNの新規かつ効率的な位置符号化方式を提案する。 実験の結果,幅広いデータセット上で,Subgraph GNNとGraph Transformerの両方に対して,大幅な性能向上が得られた。

In the realm of Graph Neural Networks (GNNs), two exciting research directions have recently emerged: Subgraph GNNs and Graph Transformers. In this paper, we propose an architecture that integrates both approaches, dubbed Subgraphormer, which combines the enhanced expressive power, message-passing mechanisms, and aggregation schemes from Subgraph GNNs with attention and positional encodings, arguably the most important components in Graph Transformers. Our method is based on an intriguing new connection we reveal between Subgraph GNNs and product graphs, suggesting that Subgraph GNNs can be formulated as Message Passing Neural Networks (MPNNs) operating on a product of the graph with itself. We use this formulation to design our architecture: first, we devise an attention mechanism based on the connectivity of the product graph. Following this, we propose a novel and efficient positional encoding scheme for Subgraph GNNs, which we derive as a positional encoding for the product graph. Our experimental results demonstrate significant performance improvements over both Subgraph GNNs and Graph Transformers on a wide range of datasets.
翻訳日:2024-02-14 15:17:17 公開日:2024-02-13
# 教師付き自己エンコーダニューラルネットワークの一般化のための潜在空間構成

Latent space configuration for improved generalization in supervised autoencoder neural networks ( http://arxiv.org/abs/2402.08441v1 )

ライセンス: Link先を確認
Nikita Gabdullin(参考訳) オートエンコーダ (AE) は、低次元の潜在空間 (LS) に入力を投影することでデータを圧縮する単純なニューラルネットワークのクラスである。 lsは訓練中の損失関数最小化に従って形成されるが、その特性とトポロジーは直接制御されない。 本稿では,AE LS特性に着目し,所望のトポロジを持つLSを得るための2つの方法を提案する。 提案手法は,LSに直接作用する幾何損失項を用いた損失構成とエンコーダ構成を含む。 その結果, 前者は, AE(SAE)のためのLSクラスタの位置と形状を定義し, 望ましい構成でLSを確実に取得できることが示唆された。 LS構成を知ることで、LSで類似度尺度を定義し、ラベルを予測したり、デコーダや分類器を使わずに複数の入力に対して類似度を推定することができる。 これがより安定し、解釈可能なトレーニングにつながることも示しています。 提案手法を用いて衣料品のテクスチャ分類を訓練したSAEは、細調整なしでLIP、Market1501、WildTrackのデータセットから見知らぬデータによく一般化し、見つからないクラスの類似性を評価できることを示した。 さらに,言語モデルを用いないテキストクエリを用いたクロスデータセット検索とテキストベース検索によるls類似度推定の利点について述べる。

Autoencoders (AE) are simple yet powerful class of neural networks that compress data by projecting input into low-dimensional latent space (LS). Whereas LS is formed according to the loss function minimization during training, its properties and topology are not controlled directly. In this paper we focus on AE LS properties and propose two methods for obtaining LS with desired topology, called LS configuration. The proposed methods include loss configuration using a geometric loss term that acts directly in LS, and encoder configuration. We show that the former allows to reliably obtain LS with desired configuration by defining the positions and shapes of LS clusters for supervised AE (SAE). Knowing LS configuration allows to define similarity measure in LS to predict labels or estimate similarity for multiple inputs without using decoders or classifiers. We also show that this leads to more stable and interpretable training. We show that SAE trained for clothes texture classification using the proposed method generalizes well to unseen data from LIP, Market1501, and WildTrack datasets without fine-tuning, and even allows to evaluate similarity for unseen classes. We further illustrate the advantages of pre-configured LS similarity estimation with cross-dataset searches and text-based search using a text query without language models.
翻訳日:2024-02-14 15:16:59 公開日:2024-02-13
# JeFaPaTo -- 点滅解析と顔の特徴抽出のための共同ツールボックス

JeFaPaTo -- A joint toolbox for blinking analysis and facial features extraction ( http://arxiv.org/abs/2402.08439v1 )

ライセンス: Link先を確認
Tim B\"uchner, Oliver Mothes, Orlando Guntinas-Lichius, Joachim Denzler(参考訳) 顔の特徴や表情を分析することはコンピュータビジョンにおいて複雑な作業である。 人間の顔は複雑で、大きな形、テクスチャ、外観のバリエーションがある。 医学的文脈では、麻痺の影響を受けるものなど、通常のものと異なる顔の構造が特に研究に重要であり、正確な分析を必要とする。 このプロセスは、まだ完全には理解されておらず、詳細な理解のために高解像度で時間特異的な分析を必要とする。 しかし、重要な課題は、多くの高度なコンピュータビジョン技術がプログラミングスキルを必要としており、これらのスキルを持っていない医療専門家にはアクセスできないことである。 Jena Facial Palsy Toolbox (JeFaPaTo)はこのギャップを埋めるために開発された。 最先端のコンピュータビジョンアルゴリズムを使用し、プログラミングの専門知識のない人にはユーザーフレンドリーなインターフェースを提供する。 このツールボックスは、高度な顔分析を医療専門家がより使いやすくし、ワークフローへの統合を簡素化するように設計されている。 眼の閉鎖状態は、例えば顔面麻痺やパーキンソン病の文脈において、医療専門家にとって非常に興味がある。 顔面神経の損傷により、眼球閉鎖の過程が損なわれ、多くの好ましくない副作用を引き起こす可能性がある。 したがって、詳細な分析には、単純な開眼と閉眼の区別以上のものが必要である。 時間、同期性、速度、完全閉鎖、点滅間の時間、時間経過の頻度などの要因は、非常に関係がある。 このような詳細な分析は、医療の専門家が点滅の過程、偏差、およびより良い眼科治療の可能性を理解するのに役立つだろう。

Analyzing facial features and expressions is a complex task in computer vision. The human face is intricate, with significant shape, texture, and appearance variations. In medical contexts, facial structures that differ from the norm, such as those affected by paralysis, are particularly important to study and require precise analysis. One area of interest is the subtle movements involved in blinking, a process that is not yet fully understood and needs high-resolution, time-specific analysis for detailed understanding. However, a significant challenge is that many advanced computer vision techniques demand programming skills, making them less accessible to medical professionals who may not have these skills. The Jena Facial Palsy Toolbox (JeFaPaTo) has been developed to bridge this gap. It utilizes cutting-edge computer vision algorithms and offers a user-friendly interface for those without programming expertise. This toolbox is designed to make advanced facial analysis more accessible to medical experts, simplifying integration into their workflow. The state of the eye closure is of high interest to medical experts, e.g., in the context of facial palsy or Parkinson's disease. Due to facial nerve damage, the eye-closing process might be impaired and could lead to many undesirable side effects. Hence, more than a simple distinction between open and closed eyes is required for a detailed analysis. Factors such as duration, synchronicity, velocity, complete closure, the time between blinks, and frequency over time are highly relevant. Such detailed analysis could help medical experts better understand the blinking process, its deviations, and possible treatments for better eye care.
翻訳日:2024-02-14 15:16:36 公開日:2024-02-13
# 回転および投影行列からの幾何学的制約によるカメラの校正

Camera Calibration through Geometric Constraints from Rotation and Projection Matrices ( http://arxiv.org/abs/2402.08437v1 )

ライセンス: Link先を確認
Muhammad Waleed, Abdul Rauf, Murtaza Taj(参考訳) カメラキャリブレーションのプロセスは、内在パラメータと外在パラメータを推定することを含み、これは3D再構成、物体追跡、拡張現実などのタスクを正確に実行するために不可欠である。 本研究では、内在性(焦点長:$(f_x, f_y)$と主点:$(p_x, p_y)$)と外在性(ベースライン:$b$, disparity:$d$)、翻訳:$(t_x, t_y, t_z)$、回転特異的ピッチ:$(\theta_p)$)を提案する。 新しい制約はカメラモデルに固有の幾何学的性質に基づいており、射影行列の解剖学(バニッシュ点、世界起源の画像、軸面)と回転行列の正規直交性を含んでいる。 そこで我々は,マルチタスク学習フレームワークを用いて,Unsupervised Geometric Constraint Loss (UGCL)を提案する。 提案手法は,ニューラルネットワークの学習能力を用いて,カメラ投影行列に内在する数学的性質とともに,所望のパラメータを推定するハイブリッド手法である。 この独特のアプローチはモデルの解釈性を高めるだけでなく、よりインフォームドな学習プロセスを促進させる。 さらに,カメラパラメータの900以上の構成を特徴とするCVGLカメラキャリブレーションデータセットを導入し,実世界の条件を忠実に反映した63,600枚の画像ペアを組み込んだ。 合成データセットと実世界のデータセットの両方でトレーニングとテストを行うことで、提案手法は、最先端(SOTA)ベンチマークと比較して、すべてのパラメータにまたがる改善を示す。 コードと更新されたデータセットは以下の通りである。

The process of camera calibration involves estimating the intrinsic and extrinsic parameters, which are essential for accurately performing tasks such as 3D reconstruction, object tracking and augmented reality. In this work, we propose a novel constraints-based loss for measuring the intrinsic (focal length: $(f_x, f_y)$ and principal point: $(p_x, p_y)$) and extrinsic (baseline: ($b$), disparity: ($d$), translation: $(t_x, t_y, t_z)$, and rotation specifically pitch: $(\theta_p)$) camera parameters. Our novel constraints are based on geometric properties inherent in the camera model, including the anatomy of the projection matrix (vanishing points, image of world origin, axis planes) and the orthonormality of the rotation matrix. Thus we proposed a novel Unsupervised Geometric Constraint Loss (UGCL) via a multitask learning framework. Our methodology is a hybrid approach that employs the learning power of a neural network to estimate the desired parameters along with the underlying mathematical properties inherent in the camera projection matrix. This distinctive approach not only enhances the interpretability of the model but also facilitates a more informed learning process. Additionally, we introduce a new CVGL Camera Calibration dataset, featuring over 900 configurations of camera parameters, incorporating 63,600 image pairs that closely mirror real-world conditions. By training and testing on both synthetic and real-world datasets, our proposed approach demonstrates improvements across all parameters when compared to the state-of-the-art (SOTA) benchmarks. The code and the updated dataset can be found here: https://github.com/CVLABLUMS/CVGL-Camera-Calibration
翻訳日:2024-02-14 15:16:11 公開日:2024-02-13
# Javaメソッドの生成: 4つのAIベースのコードアシスタントの実証評価

Generating Java Methods: An Empirical Assessment of Four AI-Based Code Assistants ( http://arxiv.org/abs/2402.08431v1 )

ライセンス: Link先を確認
Vincenzo Corso, Leonardo Mariani, Daniela Micucci and Oliviero Riganelli(参考訳) aiベースのコードアシスタントは、コード開発を容易化し、スピードアップできる有望なツールである。 彼らは機械学習アルゴリズムと自然言語処理を利用して開発者と対話し、プロジェクトに組み込むことのできるコードスニペット(例えばメソッドの実装)を提案する。 最近の研究は、開発者が実際に直面するタスクのスペクトルと性質を捉えない単純な例題問題(よく知られたアルゴリズムの再実装など)を用いたコードアシスタントの有効性を実証的に研究している。 本稿では、GitHub Copilot、Tabnine、ChatGPT、Google Bardという4つの人気のあるAIベースのコードアシスタントを、実生活のオープンソースJavaプロジェクトから構築した100のメソッドのデータセットで比較し、コンテキスト要素からの複雑さと依存性のさまざまなケースを考慮して、この分野の知識を拡大する。 その結果、Copilotは他のテクニックよりも正確であることが多いが、他のアプローチによって完全に仮定されるアシスタントは存在しない。 興味深いことに、これらのソリューションの有効性は、単一のクラスの境界外で依存関係を扱うときに劇的に低下する。

AI-based code assistants are promising tools that can facilitate and speed up code development. They exploit machine learning algorithms and natural language processing to interact with developers, suggesting code snippets (e.g., method implementations) that can be incorporated into projects. Recent studies empirically investigated the effectiveness of code assistants using simple exemplary problems (e.g., the re-implementation of well-known algorithms), which fail to capture the spectrum and nature of the tasks actually faced by developers. In this paper, we expand the knowledge in the area by comparatively assessing four popular AI-based code assistants, namely GitHub Copilot, Tabnine, ChatGPT, and Google Bard, with a dataset of 100 methods that we constructed from real-life open-source Java projects, considering a variety of cases for complexity and dependency from contextual elements. Results show that Copilot is often more accurate than other techniques, yet none of the assistants is completely subsumed by the rest of the approaches. Interestingly, the effectiveness of these solutions dramatically decreases when dealing with dependencies outside the boundaries of single classes.
翻訳日:2024-02-14 15:15:29 公開日:2024-02-13
# 自動手法生成におけるプロンプトの影響分析:コパイロットを用いた実証研究

Analyzing Prompt Influence on Automated Method Generation: An Empirical Study with Copilot ( http://arxiv.org/abs/2402.08430v1 )

ライセンス: Link先を確認
Ionut Daniel Fagadau, Leonardo Mariani, Daniela Micucci and Oliviero Riganelli(参考訳) ジェネレーティブAIは、開発者がソフトウェアシステムと対話する方法を変え、開発者の実際のニーズを満たすために作られた、新しいコンテンツを作成し、提供できるサービスを提供する。 例えば、開発者は自然言語プロンプトを書くことでIDEから直接新しいコードを要求することができ、Copilotのような生成AIに基づく統合されたサービスは、すぐに使えるコードスニペットを提供することで、プロンプトに応答する。 プロンプトを適切に定式化し、情報過負荷を避けながら有用な情報を組み込むことは、正しいコードを取得する上で重要な要素となる。 優れたプロンプトを設計するタスクは、プロンプトエンジニアリングと呼ばれる。 本稿では,8つのプロンプトがプロンプトのスタイルや内容,正確性,複雑性,サイズ,および生成したコードの開発者のコードとの類似度に与える影響を系統的に検討する。 具体的には、200のJavaメソッドの実装を生成するために、8つのプロンプトを体系的に組み合わせた124,800のプロンプトでCopilotを使用するタスクについて検討する。 結果は、例の存在やメソッドの目的の要約など、いくつかのプロンプト機能が結果の品質にどのように影響するかを示す。

Generative AI is changing the way developers interact with software systems, providing services that can produce and deliver new content, crafted to satisfy the actual needs of developers. For instance, developers can ask for new code directly from within their IDEs by writing natural language prompts, and integrated services based on generative AI, such as Copilot, immediately respond to prompts by providing ready-to-use code snippets. Formulating the prompt appropriately, and incorporating the useful information while avoiding any information overload, can be an important factor in obtaining the right piece of code. The task of designing good prompts is known as prompt engineering. In this paper, we systematically investigate the influence of eight prompt features on the style and the content of prompts, on the level of correctness, complexity, size, and similarity to the developers' code of the generated code. We specifically consider the task of using Copilot with 124,800 prompts obtained by systematically combining the eight considered prompt features to generate the implementation of 200 Java methods. Results show how some prompt features, such as the presence of examples and the summary of the purpose of the method, can significantly influence the quality of the result.
翻訳日:2024-02-14 15:15:09 公開日:2024-02-13
# エンジニアリング形状最適化におけるVS生成非生成モデル

Generative VS non-Generative Models in Engineering Shape Optimization ( http://arxiv.org/abs/2402.08540v1 )

ライセンス: Link先を確認
Muhammad Usama, Zahid Masood, Shahroz Khan, Konstantinos Kostas, Panagiotis Kaklis(参考訳) 本研究では,新規かつ効率的な設計探索と形状最適化のための設計空間構築において,生成モデルと非生成モデルの有効性と効率を体系的に比較する。 これらのモデルを翼/水翼設計に適用し, 得られた設計空間との比較を行う。 従来のGAN(Generative Adversarial Network)と最先端生成モデルであるPerformance-Augmented Diverse Generative Adversarial Network(PaDGAN)を,Karhunen-Lo\\eve ExpansionとSSV-KLE(Science-informed Shape Signature Vector)の結合に基づく線形非生成モデルで近似する。 この比較により、適切な形状エンコーディングと物理設計空間により、非生成モデルでは、設計空間のカバー範囲が強化された高性能な有効な設計をコスト効率良く生成することができることが示される。 本研究では,2つの大規模フォイルプロファイルデータセットに対して,プロファイル生成パラメトリックモデルとディープラーニングアプローチを用いて,実世界と人工デザインを組み合わせた2つのアプローチを適用した。 これらのデータセットは、物理インフォームドパラメータと同様に、メンバーの形状の積分的性質によってさらに豊かになる。 この結果から,非生成モデルにより構成された設計空間は,設計妥当性の観点から生成モデルよりも優れており,生成モデルと比較した場合,ロバストな潜在空間がほとんどあるいは著しく少ない。 これらの知見は,形状最適化のための設計空間を構築する際に,工学設計コミュニティがインフォームドな意思決定を行うのに役立つと期待する。

In this work, we perform a systematic comparison of the effectiveness and efficiency of generative and non-generative models in constructing design spaces for novel and efficient design exploration and shape optimization. We apply these models in the case of airfoil/hydrofoil design and conduct the comparison on the resulting design spaces. A conventional Generative Adversarial Network (GAN) and a state-of-the-art generative model, the Performance-Augmented Diverse Generative Adversarial Network (PaDGAN), are juxtaposed with a linear non-generative model based on the coupling of the Karhunen-Lo\`eve Expansion and a physics-informed Shape Signature Vector (SSV-KLE). The comparison demonstrates that, with an appropriate shape encoding and a physics-augmented design space, non-generative models have the potential to cost-effectively generate high-performing valid designs with enhanced coverage of the design space. In this work, both approaches are applied to two large foil profile datasets comprising real-world and artificial designs generated through either a profile-generating parametric model or deep-learning approach. These datasets are further enriched with integral properties of their members' shapes as well as physics-informed parameters. Our results illustrate that the design spaces constructed by the non-generative model outperform the generative model in terms of design validity, generating robust latent spaces with none or significantly fewer invalid designs when compared to generative models. We aspire that these findings will aid the engineering design community in making informed decisions when constructing designs spaces for shape optimization, as we have show that under certain conditions computationally inexpensive approaches can closely match or even outperform state-of-the art generative models.
翻訳日:2024-02-14 15:08:25 公開日:2024-02-13
# マルコフ決定過程における逆効果

Counterfactual Influence in Markov Decision Processes ( http://arxiv.org/abs/2402.08514v1 )

ライセンス: Link先を確認
Milad Kazemi, Jessica Lally, Ekaterina Tishchenko, Hana Chockler and Nicola Paoletti(参考訳) 我々の研究はマルコフ決定過程(MDP)の反実的推論の文脈における根本的な問題に対処する。 MDPパス $\tau$ が与えられた場合、このような推論は、$\tau'$ が $\tau$ で見られるものと異なるアクションシーケンスで取得した $\tau$ のWhat-ifバージョンを記述することができる。 しかし、反事実状態と行動が時間とともに観察された結果から逸脱するので、観察値の$\tau$はもはや反事実世界に影響を及ぼさない可能性がある。 この問題は、MDP対策に使われる一般的なGumbel-max構造因果モデルに特に影響を及ぼすが、これまで見過ごされてきた。 本稿では,反事実分布と介入分布の比較に基づく影響の形式的特徴化について述べる。 影響制約を自動的に満たす反実モデルを構築するアルゴリズムを考案する。 このようなモデルを活用することで、与えられた報酬構造に最適であるだけでなく、観測された経路に合わせたままである反事実ポリシーを導出する。 政策の最適性と影響制約の強さとの間には不可避なトレードオフがあるが、実験は観測の影響を受けながら(ほぼ)最適政策を導出できることを実証する。

Our work addresses a fundamental problem in the context of counterfactual inference for Markov Decision Processes (MDPs). Given an MDP path $\tau$, this kind of inference allows us to derive counterfactual paths $\tau'$ describing what-if versions of $\tau$ obtained under different action sequences than those observed in $\tau$. However, as the counterfactual states and actions deviate from the observed ones over time, the observation $\tau$ may no longer influence the counterfactual world, meaning that the analysis is no longer tailored to the individual observation, resulting in interventional outcomes rather than counterfactual ones. Even though this issue specifically affects the popular Gumbel-max structural causal model used for MDP counterfactuals, it has remained overlooked until now. In this work, we introduce a formal characterisation of influence based on comparing counterfactual and interventional distributions. We devise an algorithm to construct counterfactual models that automatically satisfy influence constraints. Leveraging such models, we derive counterfactual policies that are not just optimal for a given reward structure but also remain tailored to the observed path. Even though there is an unavoidable trade-off between policy optimality and strength of influence constraints, our experiments demonstrate that it is possible to derive (near-)optimal policies while remaining under the influence of the observation.
翻訳日:2024-02-14 15:07:51 公開日:2024-02-13
# 未知数に着目したモンテカルロ木探索の増幅探索

Amplifying Exploration in Monte-Carlo Tree Search by Focusing on the Unknown ( http://arxiv.org/abs/2402.08511v1 )

ライセンス: Link先を確認
Cedric Derstroff, Jannis Brugger, Jannis Bl\"uml, Mira Mezini, Stefan Kramer, Kristian Kersting(参考訳) モンテカルロ木探索(MCTS)は、膨大な応用量を持つ実効性のあるアルゴリズムである。 戦略的に計算資源を割り当てて探索木の有望な部分に集中し、大きな探索空間において非常に魅力的な探索アルゴリズムとなる。 しかし、最も有望な道が残っているときに、以前検討した地域を再評価することに限られた資源を浪費することが多い。 提案手法はAmEx-MCTSと呼ばれ,新しいMCTSの定式化を導入することでこの問題を解決する。 AmEx-MCTSの中心となるのは、値更新、訪問カウント更新、ツリー検索中の選択されたパスの分離である。 この分離は、MCTS内の探索・探索バランスと品質指標の両方に対する訪問数の有用性を保っている。 この拡張により、MCTSの本質的な特性を保ちながら、同一の計算資源を用いたより広範な探索が容易となる。 拡張されたカバレッジは、より正確に見積もられるだけでなく、より大きく複雑な問題にも役立ちます。 実験による評価は,AMEx-MCTSの優れた性能を示し,従来のMCTSと関連するアプローチをかなり上回っている。

Monte-Carlo tree search (MCTS) is an effective anytime algorithm with a vast amount of applications. It strategically allocates computational resources to focus on promising segments of the search tree, making it a very attractive search algorithm in large search spaces. However, it often expends its limited resources on reevaluating previously explored regions when they remain the most promising path. Our proposed methodology, denoted as AmEx-MCTS, solves this problem by introducing a novel MCTS formulation. Central to AmEx-MCTS is the decoupling of value updates, visit count updates, and the selected path during the tree search, thereby enabling the exclusion of already explored subtrees or leaves. This segregation preserves the utility of visit counts for both exploration-exploitation balancing and quality metrics within MCTS. The resultant augmentation facilitates in a considerably broader search using identical computational resources, preserving the essential characteristics of MCTS. The expanded coverage not only yields more precise estimations but also proves instrumental in larger and more complex problems. Our empirical evaluation demonstrates the superior performance of AmEx-MCTS, surpassing classical MCTS and related approaches by a substantial margin.
翻訳日:2024-02-14 15:07:28 公開日:2024-02-13
# 形状から形状へ:SPARQLコンストラクトクエリの結果に対するSHACL形状の推測(拡張バージョン)

From Shapes to Shapes: Inferring SHACL Shapes for Results of SPARQL CONSTRUCT Queries (Extended Version) ( http://arxiv.org/abs/2402.08509v1 )

ライセンス: Link先を確認
Philipp Seifer, Daniel Hern\'andez, Ralf L\"ammel, Steffen Staab(参考訳) SPARQL ConSTRUCTクエリは、与えられた入力グラフを新しい出力グラフに変換するデータ処理パイプラインの仕様を可能にする。 現在、SHACL形状でグラフを制約することが一般的であり、ユーザーは期待できるデータとしないデータを理解することができる。 しかし、特定の入力データを知ることなく、データ処理パイプラインの最後にどのようなグラフデータが期待できるかを理解することは難しくなり、入力グラフの形状制約は出力グラフに影響を与えるかもしれないが、文字通り適用されなくなり、クエリテンプレートによって新たな形状が課される可能性がある。 本稿では,与えられたSPARQLコンストラクトクエリの出力グラフを全て保持する形状制約の導出について検討する。 sparqlコンストラクタクエリはプログラムの一部として固定されていると仮定し、入力グラフは入力形状の制約に従うが、時間とともに異なる可能性があるため、ほとんど未知である。 本稿では,SPARQL ConSTRUCTクエリ(SCCQ)の断片とSHACL(Simple SHACL)の断片について検討する。 我々は,SHACL 形状の与えられた集合に制限された任意の入力グラフ上で SCCQ を評価することによる結果を制約する,SHACL 形状の最も制限された集合を導出する問題を正式に定義する。 本研究では,入力SHACL形状とコンストラクトクエリを静的に解析し,その音質と複雑さを証明するアルゴリズムを提案する。

SPARQL CONSTRUCT queries allow for the specification of data processing pipelines that transform given input graphs into new output graphs. It is now common to constrain graphs through SHACL shapes allowing users to understand which data they can expect and which not. However, it becomes challenging to understand what graph data can be expected at the end of a data processing pipeline without knowing the particular input data: Shape constraints on the input graph may affect the output graph, but may no longer apply literally, and new shapes may be imposed by the query template. In this paper, we study the derivation of shape constraints that hold on all possible output graphs of a given SPARQL CONSTRUCT query. We assume that the SPARQL CONSTRUCT query is fixed, e.g., being part of a program, whereas the input graphs adhere to input shape constraints but may otherwise vary over time and, thus, are mostly unknown. We study a fragment of SPARQL CONSTRUCT queries (SCCQ) and a fragment of SHACL (Simple SHACL). We formally define the problem of deriving the most restrictive set of Simple SHACL shapes that constrain the results from evaluating a SCCQ over any input graph restricted by a given set of Simple SHACL shapes. We propose and implement an algorithm that statically analyses input SHACL shapes and CONSTRUCT queries and prove its soundness and complexity.
翻訳日:2024-02-14 15:07:10 公開日:2024-02-13
# 一般化とフラットミニマのPAC-ベイズ的関係

A PAC-Bayesian Link Between Generalisation and Flat Minima ( http://arxiv.org/abs/2402.08508v1 )

ライセンス: Link先を確認
Maxime Haddouche, Paul Viallard, Umut Simsekli, Benjamin Guedj(参考訳) 現代の機械学習は、通常、過度なパラメータ設定(データセットサイズよりも訓練済みパラメータの数)で予測器を伴い、トレーニングデータの性能だけでなく、優れた一般化能力も獲得する。 この現象は多くの理論的結果に挑戦し、未解決の問題である。 よりよく理解するために、勾配項を含む新しい一般化境界を提供する。 そのために、PAC-BayesツールボックスとPoincar\'eとLog-Sobolevの不等式を組み合わせ、予測空間の次元への明示的な依存を避ける。 この結果から, 最適化フェーズのメリットに直接かかわる一般化性能に対する, \emph{flat minima}(学習問題を最小化する付近のミニマ)の肯定的な影響を浮き彫りにした。

Modern machine learning usually involves predictors in the overparametrised setting (number of trained parameters greater than dataset size), and their training yield not only good performances on training data, but also good generalisation capacity. This phenomenon challenges many theoretical results, and remains an open problem. To reach a better understanding, we provide novel generalisation bounds involving gradient terms. To do so, we combine the PAC-Bayes toolbox with Poincar\'e and Log-Sobolev inequalities, avoiding an explicit dependency on dimension of the predictor space. Our results highlight the positive influence of \emph{flat minima} (being minima with a neighbourhood nearly minimising the learning problem as well) on generalisation performances, involving directly the benefits of the optimisation phase.
翻訳日:2024-02-14 15:06:43 公開日:2024-02-13
# p-mamba : 小児心エコー図左室分画におけるperona malik diffusionとmambaの併用

P-Mamba: Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation ( http://arxiv.org/abs/2402.08506v1 )

ライセンス: Link先を確認
Zi Ye, Tianxiang Chen(参考訳) 小児心疾患では, 緊急介入が必要かどうかを判断できるため, 心エコー法による心機能の正確かつ即時評価が重要である。 しかし、心エコー検査は曖昧さと背景雑音の干渉が特徴であり、正確なセグメンテーションが困難である。 本手法は効率性に乏しく, 背景雑音領域をノイズ障害により左室領域として誤って区分する可能性も高い。 この2つの問題を緩和するため,小児心エコー図左室分画にp-mambaを導入する。 具体的には、最近提案されたvision mambaエンコーダブランチのvision mambaレイヤに目を向けて、グローバルな依存関係をモデリングしながら、モデルのコンピューティングとメモリ効率を改善します。 他のDWTベースのPMDエンコーダブランチでは、左室の局所的な形状を同時に保存しつつ、MDDをノイズ抑制に利用するDWTベースのPMDブロックを考案する。 2つのエンコーダ分岐の強度を利用して、P-Mambaは2次および線形計算複雑性を持つ視覚変換器のような確立されたモデルに優れた精度と効率を達成する。 この革新的なアプローチは、小児の心臓画像の大幅な進歩を約束する。

In pediatric cardiology, the accurate and immediate assessment of cardiac function through echocardiography is important since it can determine whether urgent intervention is required in many emergencies. However, echocardiography is characterized by ambiguity and heavy background noise interference, bringing more difficulty to accurate segmentation. Present methods lack efficiency and are also prone to mistakenly segmenting some background noise areas as the left ventricular area due to noise disturbance. To relieve the two issues, we introduce P-Mamba for efficient pediatric echocardiographic left ventricular segmentation. Specifically, we turn to the recently proposed vision mamba layers in our vision mamba encoder branch to improve the computing and memory efficiency of our model while modeling global dependencies. In the other DWT-based PMD encoder branch, we devise DWT-based Perona-Malik Diffusion (PMD) Blocks that utilize PMD for noise suppression, while simultaneously preserving the local shape cues of the left ventricle. Leveraging the strengths of both the two encoder branches, P-Mamba achieves superior accuracy and efficiency to established models, such as vision transformers with quadratic and linear computational complexity. This innovative approach promises significant advancements in pediatric cardiac imaging and beyond.
翻訳日:2024-02-14 15:06:28 公開日:2024-02-13
# Q-COSMIC: COSMIC(ISO/IEC 19761)に基づく量子ソフトウェアメトリクス

Q-COSMIC: Quantum Software Metrics Based on COSMIC (ISO/IEC19761) ( http://arxiv.org/abs/2402.08505v1 )

ライセンス: Link先を確認
Francisco Valdes-Souto, Hector G. Perez-Gonzalez, Carlos A. Perez-Delgado(参考訳) 量子工学は、コンピューティング、サイバーセキュリティ、および気象技術を構築するために量子情報を活用しようとしている。 量子ソフトウェア工学(QSE)は、これらの技術の情報処理側に焦点を当てている。 歴史的に、量子(ソフトウェア)工学は制御された研究環境と「小さく」の開発に重点を置いてきた。 この分野が進むにつれ、より大規模な量子システムが「現実世界」の製品やサービスとしてデプロイされることが期待されます。 ソフトウェアエンジニアリングと開発において(古典的な)重要なツールは、ソフトウェアサイズメトリクスである。 開発または既存のソフトウェアのサイズを計算・推定することは、そのエンジニアリングにおいて不可欠なステップである。 量子ソフトウェアは変わらないだろう。 ここでは、古典的ソフトウェアのためのよく認識されたCOSMIC標準(ISO/IEC 19761)に基づいて、量子ソフトウェアの機能的サイズを測定する技術であるQ-COSMICを紹介する。

Quantum engineering seeks to exploit quantum information to build, among others, computing, cybersecurity, and metrology technologies. Quantum Software Engineering (QSE) focuses on the information processing side of these technologies. Historically, quantum (software) engineering has focused on development in controlled research environments and 'in the small'. As the field progresses, we should expect to see more large-scale quantum systems to be deployed as 'real-world' products and services. An essential tool in (classical) software engineering and development has been software size metrics. Calculating/estimating the size of a piece of software, to be developed or pre-existing, is an essential step in its engineering. Quantum software will be no different. Here we introduce Q-COSMIC, a technique for measuring the functional size of quantum software, based on the well-regarded COSMIC standard (ISO/IEC19761) for classical software
翻訳日:2024-02-14 15:06:03 公開日:2024-02-13
# 開海での安全強化学習における確率的交通規則コンプライアンス

Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea ( http://arxiv.org/abs/2402.08502v1 )

ライセンス: Link先を確認
Hanna Krasowski, Matthias Althoff(参考訳) 自動運転車は交通規則に従う必要がある。 これらの規則はしばしば時間論理を用いて定式化され、最適化ベースの運動プランナーでは解決が難しい制約が生じる。 強化学習(rl)は、時相論理仕様に準拠した動作計画を見つけるための有望な方法である。 しかしながら、バニラRLアルゴリズムは本質的に安全でないランダム探索に基づいている。 この問題に対処するため,交通ルールに常に準拠する安全なRLアプローチを提案する。 特定の応用分野として、海上衝突防止条約(COLREGS)に従わなければならない開海での船舶について検討する。 本稿では,時間論理を用いて定式化されたCOLREGSに対する行動のコンプライアンスを決定する,効率的な検証手法を提案する。 我々のアクション検証はRLプロセスに統合され、エージェントが検証されたアクションのみを選択する。 報酬関数にトラフィックルール情報のみを統合するエージェントとは対照的に、当社の安全エージェントは常に重要な海上交通状況において形式化されたルールに準拠しているため、衝突を起こさない。

Autonomous vehicles have to obey traffic rules. These rules are often formalized using temporal logic, resulting in constraints that are hard to solve using optimization-based motion planners. Reinforcement Learning (RL) is a promising method to find motion plans adhering to temporal logic specifications. However, vanilla RL algorithms are based on random exploration, which is inherently unsafe. To address this issue, we propose a provably safe RL approach that always complies with traffic rules. As a specific application area, we consider vessels on the open sea, which must adhere to the Convention on the International Regulations for Preventing Collisions at Sea (COLREGS). We introduce an efficient verification approach that determines the compliance of actions with respect to the COLREGS formalized using temporal logic. Our action verification is integrated into the RL process so that the agent only selects verified actions. In contrast to agents that only integrate the traffic rule information in the reward function, our provably safe agent always complies with the formalized rules in critical maritime traffic situations and, thus, never causes a collision.
翻訳日:2024-02-14 15:05:49 公開日:2024-02-13
# 監査カウンセリング エビデンスとスタイルによる高度な反論生成の評価

Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style ( http://arxiv.org/abs/2402.08498v1 )

ライセンス: Link先を確認
Preetika Verma, Kokil Jaidka, Svetlana Churina(参考訳) 本稿では, 議論の精錬, マイニング, 評価のさらなる応用のために設計された, 対置文の制御構成のための新しいデータセットを提案する。 我々のデータセットはReddit ChangeMyViewデータセットの投稿に対して、高品質な情報源から取得した証拠と統合され、ユーザの好みに基づいて生成され、エビデンスと議論スタイルの臨界属性を調整した豊富な反論を構成する。 結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2つの微調整された派生型(N = 32,000)から生成される議論を含む。 モデル評価は,多種多様なスタイルを同化させるLLMの能力を示すとともに,高いスタイルの統合(0.9682は「相互性」)を示した。 全てのモデルにおいて、GPT-3.5ターボは引数の品質評価において最高スコアを示し、一貫した精度(スコア >0.8)を示した。 さらなる分析では、相互主義的な逆説は、ほとんどのカテゴリーにおいてより高い数を示し、おそらくはより創造的に説得力のある証拠の使用を示す。 対照的に、人文による反論は、カテゴリー間でより議論的な豊かさと多様性を示した。 人文による評論が最も説得力に富むものとして好まれているにもかかわらず、「無様」のテキストは驚くほど高いスコアを示し、事実や様式の世代におけるトレードオフのさらなる調査と調査を促した。

We present a novel dataset for the controlled composition of counterarguments designed for further applications in argument refining, mining, and evaluation. Our dataset constitutes enriched counter-arguments to posts in the Reddit ChangeMyView dataset that are integrated with evidence retrieved from high-quality sources and generated based on user preferences, adjusting the critical attributes of evidence and argument style. The resultant Counterfire corpus comprises arguments generated from GPT-3.5 turbo, Koala, and PaLM 2 models and two of their finetuned variants (N = 32,000). Model evaluation indicates strong paraphrasing abilities with evidence, albeit limited word overlap, while demonstrating high style integration (0.9682 for 'reciprocity'), showing the ability of LLM to assimilate diverse styles. Of all models, GPT-3.5 turbo showed the highest scores in argument quality evaluation, showing consistent accuracy (score >0.8). In further analyses, reciprocity-style counterarguments display higher counts in most categories, possibly indicating a more creatively persuasive use of evidence. In contrast, human-written counterarguments exhibited greater argumentative richness and diversity across categories. Despite human-written arguments being favored as the most persuasive in human evaluation, the 'No Style' generated text surprisingly exhibited the highest score, prompting further exploration and investigation on the trade-offs in generation for facts and style.
翻訳日:2024-02-14 15:05:33 公開日:2024-02-13
# Data-to-Text NLGのシステムレビュー

A Systematic Review of Data-to-Text NLG ( http://arxiv.org/abs/2402.08496v1 )

ライセンス: Link先を確認
Chinonso Cynthia Osuji, Thiago Castro Ferreira, Brian Davis(参考訳) 本研究は,データ・テキスト・ジェネレーション研究の現状を包括的に分析し,研究ギャップの特定,今後の方向性の提供,レビュー中の課題への対処を目的としている。 文献は,アプローチ,データセット,評価指標,応用,多言語主義,幻覚緩和対策など,徹底的に検討した。 我々のレビューは、この急速に発展する分野における将来の研究のロードマップを提供する。

This systematic review aims to provide a comprehensive analysis of the state of data-to-text generation research, focusing on identifying research gaps, offering future directions, and addressing challenges found during the review. We thoroughly examined the literature, including approaches, datasets, evaluation metrics, applications, multilingualism, and hallucination mitigation measures. Our review provides a roadmap for future research in this rapidly evolving field.
翻訳日:2024-02-14 15:05:05 公開日:2024-02-13
# Sparsity via Sparse Group $k$-max Regularization

Sparsity via Sparse Group $k$-max Regularization ( http://arxiv.org/abs/2402.08493v1 )

ライセンス: Link先を確認
Qinghua Tao, Xiangming Xi, Jun Xu and Johan A.K. Suykens(参考訳) スパーシティ制約を持つ線形逆問題に対して、$l_0$正規化問題はNPハードであり、既存のアプローチでは、ほぼ最適解を見つけるためにグリーディアルゴリズムを利用するか、その凸問題と$l_0$正規化を近似する。 本稿では,グループ内およびグループ内スパース性が同時に向上するだけでなく,各グループにおける変数の大きさに対する付加的な制限も与えず,異なるスケールの変数に対して特に重要であることから,l_0$ノルムをより密接に近似する,新しいかつ簡潔な正規化,すなわちスパース群 $k$-max 正規化を提案する。 また,局所最適条件と複雑性解析を備えた反復型ソフトしきい値アルゴリズムを構築した。 合成データと実世界のデータの両方について数値実験を行い,提案手法の有効性と柔軟性を検証する。

For the linear inverse problem with sparsity constraints, the $l_0$ regularized problem is NP-hard, and existing approaches either utilize greedy algorithms to find almost-optimal solutions or to approximate the $l_0$ regularization with its convex counterparts. In this paper, we propose a novel and concise regularization, namely the sparse group $k$-max regularization, which can not only simultaneously enhance the group-wise and in-group sparsity, but also casts no additional restraints on the magnitude of variables in each group, which is especially important for variables at different scales, so that it approximate the $l_0$ norm more closely. We also establish an iterative soft thresholding algorithm with local optimality conditions and complexity analysis provided. Through numerical experiments on both synthetic and real-world datasets, we verify the effectiveness and flexibility of the proposed method.
翻訳日:2024-02-14 15:04:57 公開日:2024-02-13
# boston bowel preparation scaleに関する質問に対するchatgptの適用

The Application of ChatGPT in Responding to Questions Related to the Boston Bowel Preparation Scale ( http://arxiv.org/abs/2402.08492v1 )

ライセンス: Link先を確認
Xiaoqiang Liu, Yubin Wang, Zicheng Huang, Boming Xu, Yilin Zeng, Xinqi Chen, Zilong Wang, Enning Yang, Xiaoxuan Lei, Yisen Huang, Xiaobo Liu(参考訳) 背景:胃腸疾患の診断に重要なツールである大腸内視鏡は,上腸製剤に大きく依存する。 ChatGPTは、創発的なインテリジェンスを持つ大きな言語モデルであり、医療応用にも可能性を示す。 本研究の目的は,Boston Bowel prepared Scale (BBPS) を用いた大腸内視鏡検査におけるChatGPTの精度と整合性を評価することである。 方法:2020年から2023年までの233枚の大腸内視鏡像を回顧的に収集した。 これらの画像は, BBPSを用いて高齢者3名, 初心者3名を用いて評価した。 さらに、chatgptはこれらの画像を3つのグループに分け、特定の微調整を行った。 一貫性は2回のテストで評価された。 結果: 初回ラウンドでは、ChatGPTの精度は48.93%から62.66%に変化し、内科医の精度は76.68%から77.83%となった。 ChatGPTのKappa値は0.52から0.53であり、内科医は0.75から0.87であった。 結論:ChatGPTは腸準備スコアの有望性を示すが,現在は経験豊富な内科医の精度と一貫性に合わない。 今後の研究は詳細な微調整に焦点をあてるべきである。

Background: Colonoscopy, a crucial diagnostic tool in gastroenterology, depends heavily on superior bowel preparation. ChatGPT, a large language model with emergent intelligence which also exhibits potential in medical applications. This study aims to assess the accuracy and consistency of ChatGPT in using the Boston Bowel Preparation Scale (BBPS) for colonoscopy assessment. Methods: We retrospectively collected 233 colonoscopy images from 2020 to 2023. These images were evaluated using the BBPS by 3 senior endoscopists and 3 novice endoscopists. Additionally, ChatGPT also assessed these images, having been divided into three groups and undergone specific Fine-tuning. Consistency was evaluated through two rounds of testing. Results: In the initial round, ChatGPT's accuracy varied between 48.93% and 62.66%, trailing the endoscopists' accuracy of 76.68% to 77.83%. Kappa values for ChatGPT was between 0.52 and 0.53, compared to 0.75 to 0.87 for the endoscopists. Conclusion: While ChatGPT shows promise in bowel preparation scoring, it currently does not match the accuracy and consistency of experienced endoscopists. Future research should focus on in-depth Fine-tuning.
翻訳日:2024-02-14 15:04:38 公開日:2024-02-13
# セルプログラミングの文脈におけるブールモデルのトラクターランドスケープの制御されたトラバースのための深層強化学習

Deep Reinforcement Learning for Controlled Traversing of the Attractor Landscape of Boolean Models in the Context of Cellular Reprogramming ( http://arxiv.org/abs/2402.08491v1 )

ライセンス: Link先を確認
Andrzej Mizera, Jakub Zarzycki(参考訳) 細胞再プログラミングは、異なる疾患の予防と治療の両方に使用できる。 しかし、古典的なウェットラブ実験による再プログラミング戦略の発見効率は、長い時間的コミットメントと高いコストで妨げられている。 本研究では,再プログラミング戦略の特定を容易にする深層強化学習に基づく--novel計算フレームワークを開発した。 この目的のために、非同期更新モード下でBNとPBNのフレームワークのセルリプログラミングの文脈でa~制御問題を定式化する。 さらに,訓練中の擬似運動状態の同定には,a〜pseudo-attractorとa〜procedureの概念を導入する。 最後に、制御問題を解決するためのa~computational frameworkを考案し、a〜numberの異なるモデルでテストします。

Cellular reprogramming can be used for both the prevention and cure of different diseases. However, the efficiency of discovering reprogramming strategies with classical wet-lab experiments is hindered by lengthy time commitments and high costs. In this study, we develop a~novel computational framework based on deep reinforcement learning that facilitates the identification of reprogramming strategies. For this aim, we formulate a~control problem in the context of cellular reprogramming for the frameworks of BNs and PBNs under the asynchronous update mode. Furthermore, we introduce the notion of a~pseudo-attractor and a~procedure for identification of pseudo-attractor state during training. Finally, we devise a~computational framework for solving the control problem, which we test on a~number of different models.
翻訳日:2024-02-14 15:04:18 公開日:2024-02-13
# 強相互作用フェルミオンの高密度気体の基底状態エネルギー

Ground state energy of dense gases of strongly interacting fermions ( http://arxiv.org/abs/2402.08490v1 )

ライセンス: Link先を確認
S{\o}ren Fournais, B{\l}a\.zej Ruba, Jan Philip Solovej(参考訳) 単位箱に閉じ込められたnドルのフェルミオンの気体の基底状態エネルギーをd$次元で研究する。 粒子は2体ポテンシャルを介して相互作用し、その強さは$n^{-\alpha}v$としてn$に依存し、ここで$\alpha\in \mathbb r$ と $v$ は穏やかな正規性仮定を満たす正の型の関数である。 我々の焦点は、強く相互作用するケース$\alpha<1-\frac2d$である。 我々の結果は、弱相互作用するケース$\alpha>1-\frac2d$の既存の結果と対比し、平均場スケーリング$\alpha=1-\frac2d$で起こる遷移と比較する。 本証明は, 平均場の場合のボゾン化手法の適応である。

We study the ground state energy of a gas of $N$ fermions confined to a unit box in $d$ dimensions. The particles interact through a 2-body potential with strength scaled in an $N$-dependent way as $N^{-\alpha}v$, where $\alpha\in \mathbb R$ and $v$ is a function of positive type satisfying a mild regularity assumption. Our focus is on the strongly interacting case $\alpha<1-\frac2d$. We contrast our result with existing results in the weakly interacting case $\alpha>1-\frac2d$, and the transition happening at the mean-field scaling $\alpha=1-\frac2d$. Our proof is an adaptation of the bosonization technique used to treat the mean-field case.
翻訳日:2024-02-14 15:04:06 公開日:2024-02-13
# マイクロサービスへの移行: 分解戦略と分析メトリクスの比較研究

Migration to Microservices: A Comparative Study of Decomposition Strategies and Analysis Metrics ( http://arxiv.org/abs/2402.08481v1 )

ライセンス: Link先を確認
Meryam chaieb, Mohamed Aymen Saied(参考訳) マイクロサービスアーキテクチャスタイルは、スケーラビリティ、再利用性、メンテナンス容易性に広く好まれており、開発者による採用の増加を促している。 しかし、モノリシックからマイクロサービスベースのアーキテクチャへの移行は複雑でコストがかかる。 これに対して,モノリシックアプリケーションにおける潜在的なマイクロサービスを特定するために,クラスタリングを利用した新しい手法を提案する。 本手法では,静的解析,構造的および意味的関係を考慮した密度ベースのクラスタリングアルゴリズムを用いて,機能的かつ文脈的コヒーレントなパーティショニングを実現する。 当社のマイクロサービス提案手法の信頼性を評価するために,ハイパーパラメータ感度の詳細な分析を行い,確立した2つのクラスタリングアルゴリズムと比較した。 包括的な比較分析には7つのアプリケーションが含まれ、6つのベースラインに対して評価を行い、4つのオープンソースjavaプロジェクトのデータセットを利用する。 メトリクスは、生成されたマイクロサービスの品質を評価した。 さらに,提案するマイクロサービスを,手作業で識別した3つのマイクロサービスベースのアプリケーションと比較した。 この比較により,提案手法の有効性と信頼性の微妙な理解が得られた。 提案手法は有望な結果を示し,顕著な有効性と優れた安定性を示した。

The microservices architectural style is widely favored for its scalability, reusability, and easy maintainability, prompting increased adoption by developers. However, transitioning from a monolithic to a microservices-based architecture is intricate and costly. In response, we present a novel method utilizing clustering to identify potential microservices in a given monolithic application. Our approach employs a density-based clustering algorithm considering static analysis, structural, and semantic relationships between classes, ensuring a functionally and contextually coherent partitioning. To assess the reliability of our microservice suggestion approach, we conducted an in-depth analysis of hyperparameter sensitivity and compared it with two established clustering algorithms. A comprehensive comparative analysis involved seven applications, evaluating against six baselines, utilizing a dataset of four open-source Java projects. Metrics assessed the quality of generated microservices. Furthermore, we meticulously compared our suggested microservices with manually identified ones in three microservices-based applications. This comparison provided a nuanced understanding of our approach's efficacy and reliability. Our methodology demonstrated promising outcomes, showcasing remarkable effectiveness and commendable stability.
翻訳日:2024-02-14 15:03:50 公開日:2024-02-13
# 平衡伝播を用いたニューロモルフィックプラットフォームとしての複合位相発振器の訓練

Training Coupled Phase Oscillators as a Neuromorphic Platform using Equilibrium Propagation ( http://arxiv.org/abs/2402.08579v1 )

ライセンス: Link先を確認
Qingshan Wang, Clara C. Wanjura, Florian Marquardt(参考訳) 機械学習アプリケーションの急速に拡大するスケールとリソース要件を考えると、より効率的な学習マシンを物理学の法則にもっと近い場所に構築するというアイデアは魅力的な提案である。 このようなニューロモルフィックなプラットフォームに対する有望な候補を特定するための中心的な問題は、推論だけでなく、トレーニングも物理力学を活用できるかどうかである。 本研究では,レーザーアレイ,結合メカニカルリミットサイクル,スーパー流体,エキシトン・ポーラリトンなどを含む多数の物理的実装を持つ,最も広く研究されている非線形力学系の1つである結合相発振器をうまく訓練できることを示す。 この目的のために,局所的な相互作用のみに基づいて,バックプロパゲーションの物理的実現を通じてトレーニング勾配を抽出することを可能にする平衡伝播のアプローチを適用する。 xy/kuramotoモデルの複雑なエネルギーのランドスケープは、マルチスタビリティにつながり、この課題に対処する方法を示します。 本研究では,結合相発振器を新しい汎用ニューロモルフィックプラットフォームとして同定し,今後の実験的実装への扉を開く。

Given the rapidly growing scale and resource requirements of machine learning applications, the idea of building more efficient learning machines much closer to the laws of physics is an attractive proposition. One central question for identifying promising candidates for such neuromorphic platforms is whether not only inference but also training can exploit the physical dynamics. In this work, we show that it is possible to successfully train a system of coupled phase oscillators - one of the most widely investigated nonlinear dynamical systems with a multitude of physical implementations, comprising laser arrays, coupled mechanical limit cycles, superfluids, and exciton-polaritons. To this end, we apply the approach of equilibrium propagation, which permits to extract training gradients via a physical realization of backpropagation, based only on local interactions. The complex energy landscape of the XY/ Kuramoto model leads to multistability, and we show how to address this challenge. Our study identifies coupled phase oscillators as a new general-purpose neuromorphic platform and opens the door towards future experimental implementations.
翻訳日:2024-02-14 14:54:53 公開日:2024-02-13
# 拡散モデルにおける逆最適化の克服:帰納的・原始的バイアスの観点から

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases ( http://arxiv.org/abs/2402.08552v1 )

ライセンス: Link先を確認
Ziyi Zhang and Sen Zhang and Yibing Zhan and Yong Luo and Yonggang Wen and Dacheng Tao(参考訳) 拡散モデルと人間の好みのギャップを埋めることは、実際の生成ワークフローへの統合に不可欠である。 下流報酬モデルの最適化は有望な調整戦略として現れてきたが、学習した報酬モデルによる過度な最適化のリスクに関する懸念が生まれ、それによって地上性能が損なわれる可能性がある。 本研究では,誘導バイアスとプライマリーバイアスの両方のレンズによる拡散モデルアライメントにおける報酬過最適化問題に直面する。 まず,拡散モデルの多段階分極過程に固有の時間的帰納バイアスから,現在の手法の分岐を過最適化の潜在的源として同定する。 そして驚くべきことに、私たちの批判モデルにおける休眠ニューロンが過剰な最適化に対する規則化として働くのに対して、アクティブニューロンはこの設定におけるプライマシーバイアスを反映している。 そこで本研究では,中間時間ステップの時間的インダクティブバイアスを利用する政策勾配アルゴリズムであるcritter active neuron reset (tdpo-r) と,活動ニューロンを標的にしてプライマリシーバイアスを克服する新しいリセット戦略を提案する。 実験結果から,報酬過小評価を緩和するアルゴリズムの有効性が示された。

Bridging the gap between diffusion models and human preferences is crucial for their integration into practical generative workflows. While optimizing downstream reward models has emerged as a promising alignment strategy, concerns arise regarding the risk of excessive optimization with learned reward models, which potentially compromises ground-truth performance. In this work, we confront the reward overoptimization problem in diffusion model alignment through the lenses of both inductive and primacy biases. We first identify the divergence of current methods from the temporal inductive bias inherent in the multi-step denoising process of diffusion models as a potential source of overoptimization. Then, we surprisingly discover that dormant neurons in our critic model act as a regularization against overoptimization, while active neurons reflect primacy bias in this setting. Motivated by these observations, we propose Temporal Diffusion Policy Optimization with critic active neuron Reset (TDPO-R), a policy gradient algorithm that exploits the temporal inductive bias of intermediate timesteps, along with a novel reset strategy that targets active neurons to counteract the primacy bias. Empirical results demonstrate the superior efficacy of our algorithms in mitigating reward overoptimization.
翻訳日:2024-02-14 14:54:33 公開日:2024-02-13
# 置換不変系の非安定性

Nonstabilizerness of permutationally invariant systems ( http://arxiv.org/abs/2402.08551v1 )

ライセンス: Link先を確認
G. Passarelli, R. Fazio, P. Lucignano(参考訳) N$ qubits のシステムの非安定化性の典型的な測度は、次元が 2^N$ の状態で、パウリ群の各パウリ弦に対して 4^N$ 期待値を計算する必要がある。 このレターでは、システムが置換の下で不変であれば、このリソースオーバーヘッドは次元が$O(N^3)$の状態で指数関数的に$O(N^3)$の期待値に減少し、最大数百キュービットまでの非安定化性の多項式時間評価を可能にする。

Typical measures of nonstabilizerness of a system of $N$ qubits require computing $4^N$ expectation values, one for each Pauli string in the Pauli group, over a state of dimension $2^N$. In this Letter, we show that, if the system is invariant under permutations, this resource overhead can be exponentially decreased to $O(N^3)$ expectation values on a state with a dimension $O(N)$, allowing for a polynomial-time evaluation of the nonstabilizerness up to hundreds of qubits.
翻訳日:2024-02-14 14:54:13 公開日:2024-02-13
# デッサートを乗り越えて、繰り返しケーキをカットする技術を習得する

Dueling Over Dessert, Mastering the Art of Repeated Cake Cutting ( http://arxiv.org/abs/2402.08547v1 )

ライセンス: Link先を確認
Simina Br\^anzei and MohammadTaghi Hajiaghayi and Reed Phillips and Suho Shin and Kun Wang(参考訳) 我々は、アリスとボブという2人のプレイヤーがケーキよりもプライベートなバリュエーションで繰り返し公平に分割することを考える。 各ラウンドに新しいケーキが登場し、前ラウンドと同じである。 アリスは自分の選択した時点でケーキを切るが、ボブは左のピースか右のピースを選び、残りはアリスに任せる。 我々は2つのバージョンを考える: シーケンシャル: ボブがアリスのカットポイントを左と右を選ぶ前に観察し、同時に、ボブが選択した後のみ彼女のカットポイントを観察する。 同時版は Aumann and Maschler (1995) によって最初に検討された。 ボブがほとんど近視的であり、彼の好きな曲をあまり頻繁に選ぶなら、二分探索に似た戦略を通じてアリスによって体系的に悪用されるのである。 この戦略により、アリスはボブの好みを精度を上げることで近似し、時間とともに資源の不均等な共有を確保することができる。 プレイヤーが他のプレイヤーをどの程度利用できるかの限界を分析し、公正なユーティリティプロファイルが実際に達成可能であることを示す。 特に、プレイヤーは、他のプレイヤーの効用を平均で約1/2$に保ちながら、平均で約1/2$の保証をすることで、プレーの軌跡ごとに、同等の効用プロファイルに$(1/2, 1/2)$を課すことができる。 この定理はブラックウェルのアプローチ可能性との接続を用いて示される。 最後に、プレイヤーが他のプレイヤーの経験的分布に最も反応する架空の遊びとして知られる自然力学を分析する。 虚数プレイは、$(1/2, 1/2)$の公平なユーティリティプロファイルに$O(1/\sqrt{T})$の速度で収束することを示す。

We consider the setting of repeated fair division between two players, denoted Alice and Bob, with private valuations over a cake. In each round, a new cake arrives, which is identical to the ones in previous rounds. Alice cuts the cake at a point of her choice, while Bob chooses the left piece or the right piece, leaving the remainder for Alice. We consider two versions: sequential, where Bob observes Alice's cut point before choosing left/right, and simultaneous, where he only observes her cut point after making his choice. The simultaneous version was first considered by Aumann and Maschler (1995). We observe that if Bob is almost myopic and chooses his favorite piece too often, then he can be systematically exploited by Alice through a strategy akin to a binary search. This strategy allows Alice to approximate Bob's preferences with increasing precision, thereby securing a disproportionate share of the resource over time. We analyze the limits of how much a player can exploit the other one and show that fair utility profiles are in fact achievable. Specifically, the players can enforce the equitable utility profile of $(1/2, 1/2)$ in the limit on every trajectory of play, by keeping the other player's utility to approximately $1/2$ on average while guaranteeing they themselves get at least approximately $1/2$ on average. We show this theorem using a connection with Blackwell approachability. Finally, we analyze a natural dynamic known as fictitious play, where players best respond to the empirical distribution of the other player. We show that fictitious play converges to the equitable utility profile of $(1/2, 1/2)$ at a rate of $O(1/\sqrt{T})$.
翻訳日:2024-02-14 14:54:01 公開日:2024-02-13
# 高次元条件下における無差別刑罰に対するLeave-out Cross Validationの理論的検討

Theoretical Analysis of Leave-one-out Cross Validation for Non-differentiable Penalties under High-dimensional Settings ( http://arxiv.org/abs/2402.08543v1 )

ライセンス: Link先を確認
Haolin Zou, Arnab Auddy, Kamiar Rahnama Rad, Arian Maleki(参考訳) 高次元環境における正規化モデルのアウト・オブ・サンプルリスクを推定することに焦点を当てた近年の大規模かつ重要な研究にもかかわらず、一般化ラッソや核規範のような非微分性ペナルティに対するこの問題の理論的理解は失われている。 本稿では,この課題を解決する。 サンプルサイズ n と特徴数 p の両方が大きく、n/p と信号-雑音比 (観測当たり) が有限である比例的な高次元状態においてこの問題を研究する。 我々は, サンプル外リスクを推定する上で, 期待される2乗誤差(LO)に対して, 有限サンプル上限を与える。 ここで提示される理論的枠組みは、LOの精度を示す経験的発見を解明するための確かな基盤を提供する。

Despite a large and significant body of recent work focused on estimating the out-of-sample risk of regularized models in the high dimensional regime, a theoretical understanding of this problem for non-differentiable penalties such as generalized LASSO and nuclear norm is missing. In this paper we resolve this challenge. We study this problem in the proportional high dimensional regime where both the sample size n and number of features p are large, and n/p and the signal-to-noise ratio (per observation) remain finite. We provide finite sample upper bounds on the expected squared error of leave-one-out cross-validation (LO) in estimating the out-of-sample risk. The theoretical framework presented here provides a solid foundation for elucidating empirical findings that show the accuracy of LO.
翻訳日:2024-02-14 14:53:30 公開日:2024-02-13
# 機械学習によるアルツハイマー病のインテリジェント診断

Intelligent Diagnosis of Alzheimer's Disease Based on Machine Learning ( http://arxiv.org/abs/2402.08539v1 )

ライセンス: Link先を確認
Mingyang Li, Hongyu Liu, Yixuan Li, Zejun Wang, Yuan Yuan, Honglin Dai(参考訳) 本研究は、アルツハイマー病神経イメージングイニシアチブ(ADNI)データセットに基づいて、アルツハイマー病(AD)の早期発見と疾患進行を探求することを目的とする。 我々は,データの欠落や異常値や不正値の処理にランダムフォレストアルゴリズムを用いることで,これらの限られたデータ資源を十分にマイニングし活用することを含む,革新的なデータ前処理戦略を採用している。 スピアマン相関係数分析により,ad診断と強く相関する特徴を同定した。 これらの特徴を利用して、ランダムフォレスト、XGBoost、サポートベクターマシン(SVM)の3つの機械学習モデルを構築し、テストする。 その中でも、xgboostモデルは診断性能の面で最高の性能を示し、精度は91%である。 全体として、この研究は不足するデータの課題を克服し、アルツハイマー病の早期発見に関する貴重な洞察を提供し、そのユニークな研究価値と実用的意義を示している。

This study is based on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset and aims to explore early detection and disease progression in Alzheimer's disease (AD). We employ innovative data preprocessing strategies, including the use of the random forest algorithm to fill missing data and the handling of outliers and invalid data, thereby fully mining and utilizing these limited data resources. Through Spearman correlation coefficient analysis, we identify some features strongly correlated with AD diagnosis. We build and test three machine learning models using these features: random forest, XGBoost, and support vector machine (SVM). Among them, the XGBoost model performs the best in terms of diagnostic performance, achieving an accuracy of 91%. Overall, this study successfully overcomes the challenge of missing data and provides valuable insights into early detection of Alzheimer's disease, demonstrating its unique research value and practical significance.
翻訳日:2024-02-14 14:53:15 公開日:2024-02-13
# 自己誘導型超ラジアントメイジング

Self-Induced Superradiant Masing ( http://arxiv.org/abs/2402.08537v1 )

ライセンス: Link先を確認
Wenzel Kersten, Nikolaus de Zordo, Elena S. Redchenko, Nikolaos Lagos, Andrew N. Kanagin, Andreas Angerer, William J. Munro, Kae Nemoto, Igor E. Mazets, J\"org Schmiedmayer(参考訳) 超伝導マイクロ波共振器に結合したダイヤモンド中の窒素空洞中心スピンからなるハイブリッド系における超ラジアントマーシングについて検討した。 最初の高速超ラジアント崩壊の後、過渡パルスと準連続マースを観測する。 この放出ダイナミクスは、逆スピン励起の共振器と共振するスピンの超放射窓への移動を取り入れた現象論的モデルによって記述することができる。 マーシング遷移のパンピングに関連するcqed効果を実験的に排除した後、直接高次スピンスピンスピン相互作用がダイナミクスの生成と持続的なマーシングへの遷移に寄与していると推測する。 そこで,本実験は,cQEDと超放射光を用いた多体物理の新展開である。

We study superradiant masing in a hybrid system composed of nitrogen-vacancy center spins in diamond coupled to a superconducting microwave cavity. After the first fast superradiant decay we observe transient pulsed and then quasi-continuous masing. This emission dynamics can be described by a phenomenological model incorporating the transfer of inverted spin excitations into the superradiant window of spins resonant with the cavity. After experimentally excluding cQED effects associated with the pumping of the masing transition we conjecture that direct higher-order spin-spin interactions are responsible for creating the dynamics and the transition to the sustained masing. Our experiment thus opens up a novel way to explore many-body physics in disordered systems through cQED and superradiance.
翻訳日:2024-02-14 14:52:58 公開日:2024-02-13
# 継承者表現の分布的アナローグ

A Distributional Analogue to the Successor Representation ( http://arxiv.org/abs/2402.08530v1 )

ライセンス: Link先を確認
Harley Wiltzer and Jesse Farebrother and Arthur Gretton and Yunhao Tang and Andr\'e Barreto and Will Dabney and Marc G. Bellemare and Mark Rowland(参考訳) 本稿では,分布強化学習に対する新しいアプローチを提案し,学習過程における遷移構造と報酬のクリーンな分離を解明する。 後継表現(SR)が,所与の方針に従って行動の期待結果を記述するのに似て,我々の分散後継尺度(SM)は,この行動の分布結果を記述する。 分布SMを分布上の分布として定式化し、分布とモデルに基づく強化学習を結びつける理論を提供する。 さらに,2レベル最大平均差を最小化し,データから分布smを学習するアルゴリズムを提案する。 本手法の鍵となるのは,状態生成モデル学習に独立して有用なアルゴリズム手法である。 分布SMの有用性の図示として,従来は不可能であったゼロショットリスク感応政策評価を可能にすることを示す。

This paper contributes a new approach for distributional reinforcement learning which elucidates a clean separation of transition structure and reward in the learning process. Analogous to how the successor representation (SR) describes the expected consequences of behaving according to a given policy, our distributional successor measure (SM) describes the distributional consequences of this behaviour. We formulate the distributional SM as a distribution over distributions and provide theory connecting it with distributional and model-based reinforcement learning. Moreover, we propose an algorithm that learns the distributional SM from data by minimizing a two-level maximum mean discrepancy. Key to our method are a number of algorithmic techniques that are independently valuable for learning generative models of state. As an illustration of the usefulness of the distributional SM, we show that it enables zero-shot risk-sensitive policy evaluation in a way that was not previously possible.
翻訳日:2024-02-14 14:52:46 公開日:2024-02-13
# ほぼピースワイズE(3)等変点ネットワーク

Approximately Piecewise E(3) Equivariant Point Networks ( http://arxiv.org/abs/2402.08529v1 )

ライセンス: Link先を確認
Matan Atzmon, Jiahui Huang, Francis Williams, Or Litany(参考訳) 対称性の概念をポイントクラウドニューラルネットワークに統合することは、その一般化能力を改善するための有効な方法である。 特に興味深いのは$e(3)$ equivariant point cloud networksで、入力に適用されるユークリッド変換は出力に保存される。 近年の取り組みは、局所的な$E(3)$対称性を示す複数の部分からなる入力に対応するために、$E(3)$同変のネットワークを拡張することを目指している。 しかし、実際的な設定では、個別に変化する領域への分割は未定である。 分割予測の誤差は、真の入力対称性を尊重するエラーに不可避なマッピングとなる。 過去の研究は分割を予測する異なる方法を提案しており、実際の分割と等価性を維持する能力において制御不能なエラーを示す可能性がある。 この目的のために、近似ピースワイズ-$E(3)$等変点ネットワークを構築するための一般的なフレームワークであるAPENを紹介する。 第一の洞察は、より微細な分割に関して同値な関数もまた真の分割に関して同値を維持することである。 この観測を生かして,各層における等分散近似誤差を限定的に有界化できる設計法を提案する。 (i)分配予測の不確かさの定量化及び (ii) 基底真理 1 の適切な部分分割を提案できない確率に制限する。 パートベース対称性を示す2つのデータ型を用いたAPENの有効性を示す。 (i)複数の家具型物を含む室内シーンの実物スキャン、及び (ii)剛体運動を呈する関節部を特徴とする人体運動。 実験の結果,ネットワーク設計に$E(3)$対称性を組み込むことの利点が示され,従来の分類タスクや分割タスクと比較して,一般化の顕著な改善が示された。

Integrating a notion of symmetry into point cloud neural networks is a provably effective way to improve their generalization capability. Of particular interest are $E(3)$ equivariant point cloud networks where Euclidean transformations applied to the inputs are preserved in the outputs. Recent efforts aim to extend networks that are $E(3)$ equivariant, to accommodate inputs made of multiple parts, each of which exhibits local $E(3)$ symmetry. In practical settings, however, the partitioning into individually transforming regions is unknown a priori. Errors in the partition prediction would unavoidably map to errors in respecting the true input symmetry. Past works have proposed different ways to predict the partition, which may exhibit uncontrolled errors in their ability to maintain equivariance to the actual partition. To this end, we introduce APEN: a general framework for constructing approximate piecewise-$E(3)$ equivariant point networks. Our primary insight is that functions that are equivariant with respect to a finer partition will also maintain equivariance in relation to the true partition. Leveraging this observation, we propose a design where the equivariance approximation error at each layers can be bounded solely in terms of (i) uncertainty quantification of the partition prediction, and (ii) bounds on the probability of failing to suggest a proper subpartition of the ground truth one. We demonstrate the effectiveness of APEN using two data types exemplifying part-based symmetry: (i) real-world scans of room scenes containing multiple furniture-type objects; and, (ii) human motions, characterized by articulated parts exhibiting rigid movement. Our empirical results demonstrate the advantage of integrating piecewise $E(3)$ symmetry into network design, showing a distinct improvement in generalization compared to prior works for both classification and segmentation tasks.
翻訳日:2024-02-14 14:52:31 公開日:2024-02-13
# concept-1k: インクリメンタル学習のための新しいベンチマーク

Concept-1K: A Novel Benchmark for Instance Incremental Learning ( http://arxiv.org/abs/2402.08526v1 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Qianli Ma(参考訳) インクリメンタル学習(il)は、ニューラルネットワークにおける人間レベルの知性を実現するために不可欠である。 しかしながら、既存のILシナリオやデータセットは、PLMの忘れを評価できないため、PLMが破滅的な忘れを負わないという錯覚を与える。 この目的のために、インスタンスインクリメンタル学習(iil)と呼ばれる挑戦的なilシナリオと、大きなilステップをサポートするconcept-1kと呼ばれる新しいデータセットを提案する。 概念1Kの実験から,10億パラメータのPLMは依然として破滅的な忘れ込みに悩まされており,その忘れはモデルスケール,事前学習,バッファサイズの両方に影響されていることが明らかとなった。 さらに、既存のILメソッドと一般的なファインタニング技術であるLoRAは、満足のいく性能を達成できなかった。 本研究は, PLMの破滅的な忘れ方を探究する新たなシナリオを提供し, PLMの忘れ方を軽減するために, より強力な手法を考案する。 データ、コード、スクリプトはhttps://github.com/zzz47zzz/pretrained-lm-for-incremental-learningで公開されている。

Incremental learning (IL) is essential to realize the human-level intelligence in the neural network. However, existing IL scenarios and datasets are unqualified for assessing forgetting in PLMs, giving an illusion that PLMs do not suffer from catastrophic forgetting. To this end, we propose a challenging IL scenario called instance-incremental learning (IIL) and a novel dataset called Concept-1K, which supports an order of magnitude larger IL steps. Based on the experiments on Concept-1K, we reveal that billion-parameter PLMs still suffer from catastrophic forgetting, and the forgetting is affected by both model scale, pretraining, and buffer size. Furthermore, existing IL methods and a popular finetuning technique, LoRA, fail to achieve satisfactory performance. Our study provides a novel scenario for future studies to explore the catastrophic forgetting of PLMs and encourage more powerful techniques to be designed for alleviating the forgetting in PLMs. The data, code and scripts are publicly available at https://github.com/zzz47zzz/pretrained-lm-for-incremental-learning.
翻訳日:2024-02-14 14:52:06 公開日:2024-02-13
# 遺伝的・スライディングウインドウアルゴリズムを用いた空間・時間変動係数を用いた新型COVID-19 SEIRモデルの校正フレームワーク

A new framework for calibrating COVID-19 SEIR models with spatial-/time-varying coefficients using genetic and sliding window algorithms ( http://arxiv.org/abs/2402.08524v1 )

ライセンス: Link先を確認
Huan Zhou, Ralf Schneider, Sebastian Kl\"usener, Andreas Backhaus(参考訳) サセプティブル感染除去モデル(SEIR)は、非薬剤的介入(NPI)がCOVID-19の流行の地域的および時間的分布に与える影響をモデル化するために、空間的・時間的に異なる係数を仮定する。 このようなモデルを使用する際の重要な課題は、地理的参照された入院データからの観測データに対する高速で正確な校正、すなわち空間・時間変動パラメータの効率的な推定である。 本研究では,SEIRモデルの空間/時間変化パラメータを最適化するための新しい校正フレームワークを提案する。 また、重なり合うスライディングウインドウ手法(OSW)と遺伝的アルゴリズム(GA)キャリブレーションルーチンを組み合わせ、セグメント化されたパラメータ空間を自動的に検索する手法も考案した。 並列化GAは計算負担を軽減するために使用される。 このフレームワークは、ユーザからメソッドの実装の複雑さを抽象化します。 カスタマイズされたキャリブレーションシステムを設定し、パラメータの最適化値を使用するための、ハイレベルなapiを提供する。 本手法の適用例を,COVID-19関連ICU需要を観測した単一目的関数を用いて,空間年齢構造マイクロシミュレーションモデルのキャリブレーションについて検討した。 提案手法の有効性を反映し, 変動環境におけるパラメータの推定を行った。

A susceptible-exposed-infected-removed (SEIR) model assumes spatial-/time-varying coefficients to model the effect of non-pharmaceutical interventions (NPIs) on the regional and temporal distribution of COVID-19 disease epidemics. A significant challenge in using such model is their fast and accurate calibration to observed data from geo-referenced hospitalized data, i.e., efficient estimation of the spatial-/time-varying parameters. In this work, a new calibration framework is proposed towards optimizing the spatial-/time-varying parameters of the SEIR model. We also devise a method for combing the overlapping sliding window technique (OSW) with a genetic algorithm (GA) calibration routine to automatically search the segmented parameter space. Parallelized GA is used to reduce the computational burden. Our framework abstracts the implementation complexity of the method away from the user. It provides high-level APIs for setting up a customized calibration system and consuming the optimized values of parameters. We evaluated the application of our method on the calibration of a spatial age-structured microsimulation model using a single objective function that comprises observed COVID-19-related ICU demand. The results reflect the effectiveness of the proposed method towards estimating the parameters in a changing environment.
翻訳日:2024-02-14 14:51:48 公開日:2024-02-13
# ハイブリッド量子ニューラルネットワークのトレーニング性能に及ぼすノイズの影響の検討

Investigating the Effect of Noise on the Training Performance of Hybrid Quantum Neural Networks ( http://arxiv.org/abs/2402.08523v1 )

ライセンス: Link先を確認
Muhammad Kashif, Emman Sychiuco, Muhammad Shafique(参考訳) 本稿では,HyQNNの性能に及ぼす位相フリップ,ビットフリップ,位相減衰,振幅減衰,脱分極チャネルなどの異なる量子ノイズゲートの影響を包括的に解析する。 以上の結果から,HyQNNのトレーニングと,ノイズの確率の異なる検証精度に顕著で有意な影響が認められた。 例えば、位相フリップゲートは位相誤差を導入し、HyQNNは高い確率(p = 1.0)で弾力性を示し、一貫した雑音パターンに効果的に適応するのに対し、中間確率では性能が低下する。 PauliXゲートで表されるビットフリップエラーは、そのフェーズフリップエラーゲートと同じような方法でHyQNNに影響を与える。 HyQNNは、そのようなエラーを最大確率(p = 1.0)で適用することができる。 位相とビットフリップのエラーゲートとは異なり、位相減衰と振幅減衰ゲートは量子情報を妨害し、HyQNNは低い確率でレジリエンスを示すが高い確率で挑戦する。 振幅減衰誤差ゲートは、特に高い確率で効率と精度の問題を生じさせるが、低い確率 (p = 0.1) では、最も効果が低く、HyQNNはそれほど効果的ではないが、それでも学習する傾向がある。 脱分極チャネルはHyQNNのパフォーマンスに最も有害であり、トレーニングの改善は限定的または全くない。 このノイズゲートの確率にかかわらず、トレーニング電位は観測されなかった。 これらの知見は、HyQNNの設計と訓練における高度な量子エラー軽減とレジリエンス戦略、特にノイズを非分極化する環境における重要な必要性を浮き彫りにした。 本稿では,量子ノイズゲートの影響を理解することが,量子コンピューティングの実用的ポテンシャルを最大限に活用するために重要であることを定量的に検討する。

In this paper, we conduct a comprehensively analyze the influence of different quantum noise gates, including Phase Flip, Bit Flip, Phase Damping, Amplitude Damping, and the Depolarizing Channel, on the performance of HyQNNs. Our results reveal distinct and significant effects on HyQNNs training and validation accuracies across different probabilities of noise. For instance, the Phase Flip gate introduces phase errors, and we observe that HyQNNs exhibit resilience at higher probability (p = 1.0), adapting effectively to consistent noise patterns, whereas at intermediate probabilities, the performance declines. Bit Flip errors, represented by the PauliX gate, impact HyQNNs in a similar way to that Phase Flip error gate. The HyQNNs, can adapt such kind of errors at maximum probability (p = 1.0). Unlike Phase and Bit Flip error gates, Phase Damping and Amplitude Damping gates disrupt quantum information, with HyQNNs demonstrating resilience at lower probabilities but facing challenges at higher probabilities. Amplitude Damping error gate, in particular, poses efficiency and accuracy issues at higher probabilities however with lowest probability (p = 0.1),it has the least effect and the HyQNNs, however not very effectively, but still tends to learn. The Depolarizing Channel proves most detrimental to HyQNNs performance, with limited or no training improvements. There was no training potential observed regardless of the probability of this noise gate. These findings underscore the critical need for advanced quantum error mitigation and resilience strategies in the design and training of HyQNNs, especially in environments prone to depolarizing noise. This paper quantitatively investigate that understanding the impact of quantum noise gates is essential for harnessing the full potential of quantum computing in practical applications.
翻訳日:2024-02-14 14:51:27 公開日:2024-02-13
# マルチエージェントコラボレーションによる公正監査

Fairness Auditing with Multi-Agent Collaboration ( http://arxiv.org/abs/2402.08522v1 )

ライセンス: Link先を確認
Martijn de Vos and Akash Dhasade and Jade Garcia Bourr\'ee and Anne-Marie Kermarrec and Erwan Le Merrer and Benoit Rottembourg and Gilles Tredan(参考訳) 公正監査における既存の作業は、エージェントが独立して動作すると仮定する。 本稿では,複数のエージェントが異なるタスクに対して同じプラットフォームを監査する場合を考える。 エージェントには2つのレバーがある:彼らの協調戦略、事前調整の有無、サンプリング方法。 エージェントが独立して動作したり協力したりする際の相互作用を理論的に研究する。 驚くべきことに、協調は監査の正確さを損なうことがあるが、調整されていないコラボレーションは一般的に良い結果をもたらす。 実世界のデータセットに関する実験は、協調しないコラボレーションの監査精度が協調的最適サンプリングのそれと一致するため、この観察を裏付ける。

Existing work in fairness audits assumes that agents operate independently. In this paper, we consider the case of multiple agents auditing the same platform for different tasks. Agents have two levers: their collaboration strategy, with or without coordination beforehand, and their sampling method. We theoretically study their interplay when agents operate independently or collaborate. We prove that, surprisingly, coordination can sometimes be detrimental to audit accuracy, whereas uncoordinated collaboration generally yields good results. Experimentation on real-world datasets confirms this observation, as the audit accuracy of uncoordinated collaboration matches that of collaborative optimal sampling.
翻訳日:2024-02-14 14:50:55 公開日:2024-02-13
# 伝達テンソル法による経路積分lindbladマスター方程式と一般化量子マスター方程式

Path integral Lindblad master equation through transfer tensor method & the generalized quantum master equation ( http://arxiv.org/abs/2402.08518v1 )

ライセンス: Link先を確認
Amartya Bose(参考訳) パス積分は、長年にわたって、オープン量子システムのダイナミクスをシミュレートする非常に汎用的なツールであることが証明されてきた。 システムのサイズという観点からのこれらの手法の適用可能性の初期の制限は、様々な発展を通じて着実に克服され、大規模システムの数値的な探索はより規則的な特徴となっている。 しかし、これらのシミュレーションは正確なスペクトル密度を通してシステムと環境の相互作用を詳細に記述する必要がある。 さらに、自然放出のようないくつかのプロセスでは、経験的時間スケールのラフな推定へのアクセスしかできず、適切なスペクトル密度を実際に定義することは不可能である。 この通信では、中島-ツワンジクマスター方程式を用いて、他の散逸モードの厳密な経路積分記述にそのようなプロセスを組み込む手法が開発されている。 この方法では、パス積分を用いて浴槽によって適切に記述される自由度を数値的に正確に非摂動的に含めることができ、リンドブラッドマスター方程式を通じて経験的時間スケールを組み込むことができる。 このアプローチのコストは、使用するパス積分法のコストに支配され、リンドブラジアン項の影響は実質的に無料で得られる。 この経路積分型リンドブラッドダイナミクス法は、フェンナ-マシューズ-オルソン錯体とエキシトンとの4-サイトモデルにおける電子励起伝達の例で示され、第3のクロモフォアにおける電荷移動状態への「損失」の傾向を示す。 エクスティトンを抽象化する様々な時間スケールの影響を余分なコストで示している。

Path integrals have, over the years, proven to be an extremely versatile tool for simulating the dynamics of open quantum systems. The initial limitations of applicability of these methods in terms of the size of the system has steadily been overcome through various developments, making numerical explorations of large systems a more-or-less regular feature. However, these simulations necessitate a detailed description of the system-environment interaction through accurate spectral densities, which are often difficult to obtain. Additionally, for several processes, such as spontaneous emission, one only has access to a rough estimation of an empirical timescale, and it is not possible to really define a proper spectral density at all. In this communication, an approach of incorporating such processes within an exact path integral description of other dissipative modes is developed through the Nakajima-Zwanzig master equations. This method will allow for a numerically exact non-perturbative inclusion of the degrees of freedom that are properly described by a bath using path integrals, while incorporating the empirical time scale through the Lindblad master equation. The cost of this approach is dominated by the cost of the path integral method used, and the impact of the Lindbladian terms is effectively obtained for free. This path integral Lindblad dynamics method is demonstrated with the example of electronic excitation transfer in a 4-site model of the Fenna-Matthews-Olson complex with the exciton has a propensity of being "lost" to the charge transfer state at the third chromophore. The impact of different time-scales of abstraction of the exciton is illustrated at no extra cost.
翻訳日:2024-02-14 14:50:45 公開日:2024-02-13
# 量子昇降および剥離モデルにおける測定誘起相転移

Measurement induced phase transitions in quantum raise and peel models ( http://arxiv.org/abs/2402.08605v1 )

ライセンス: Link先を確認
Eliot Heinrich, Xiao Chen(参考訳) 古典的なアップ・アンド・ピールモデルの界面成長をエミュレートする量子回路モデルを提案する。 本モデルは, 所定のフィードバックルールに準じて, 射影的測定を行うクリフォード・ユニタリゲートからなる。 大規模シミュレーションにより, フィードバックルールにより, ハイブリッドランダムクリフォード系では観測されなかった普遍性クラス内の連続遷移や一階遷移など, 計測による絡み合い遷移を複数行うことができることがわかった。

We present a quantum circuit model which emulates the interface growth of the classical raise-and-peel model. Our model consists of Clifford unitary gates interspersed with projective measurements, applied according to prescribed feedback rules. We numerically find via large-scale simulations that, depending on the feedback rules, the system may undergo several measurement-induced entanglement transitions, including continuous transitions within a universality class not previously observed in hybrid random Clifford systems as well as a first-order transition.
翻訳日:2024-02-14 14:43:21 公開日:2024-02-13
# fessロス:医用画像解析の最適化のための空間分割損失

FESS Loss: Feature-Enhanced Spatial Segmentation Loss for Optimizing Medical Image Analysis ( http://arxiv.org/abs/2402.08582v1 )

ライセンス: Link先を確認
Charulkumar Chodvadiya, Navyansh Mahla, Kinshuk Gaurav Singh, Kshitij Sharad Jadhav(参考訳) 医用画像分割は医療画像の分野において重要なプロセスであり、診断、治療、研究において重要な役割を果たす。 画像は複数の領域に分割され、解剖学的または病理学的構造を表す。 従来の手法では、従来の損失関数に依存するため、空間的精度と包括的特徴表現のバランスをとることにしばしば挑戦する。 これを解決するために,Dice損失に固有の空間的精度と対比学習(特に医療画像のニュアンス領域において,複雑な特徴を抽出する)の利点を統合する特徴強化空間分割損失(FESS損失)を提案する。 医療画像のセグメント化における空間的精度と特徴に基づく表現の両立が目的である。 FESSロスは顕著な進歩を示し、より正確で洗練されたセグメンテーションプロセスを提供し、最終的に医療画像の分析における精度の向上に貢献している。 さらに、FESS損失は、医療領域にしばしば存在する限られた注釈付きデータ可用性シナリオにおいて、優れたパフォーマンスを示す。

Medical image segmentation is a critical process in the field of medical imaging, playing a pivotal role in diagnosis, treatment, and research. It involves partitioning of an image into multiple regions, representing distinct anatomical or pathological structures. Conventional methods often grapple with the challenge of balancing spatial precision and comprehensive feature representation due to their reliance on traditional loss functions. To overcome this, we propose Feature-Enhanced Spatial Segmentation Loss (FESS Loss), that integrates the benefits of contrastive learning (which extracts intricate features, particularly in the nuanced domain of medical imaging) with the spatial accuracy inherent in the Dice loss. The objective is to augment both spatial precision and feature-based representation in the segmentation of medical images. FESS Loss signifies a notable advancement, offering a more accurate and refined segmentation process, ultimately contributing to heightened precision in the analysis of medical images. Further, FESS loss demonstrates superior performance in limited annotated data availability scenarios often present in the medical domain.
翻訳日:2024-02-14 14:43:10 公開日:2024-02-13
# データ蒸留とコンディショナルジェネレーション・クローゼによる抽象要約における誤り訂正の改善

Improving Factual Error Correction for Abstractive Summarization via Data Distillation and Conditional-generation Cloze ( http://arxiv.org/abs/2402.08581v1 )

ライセンス: Link先を確認
Yiyang Li and Lei Li and Dingxin Hu and Xueyi Hao and Marina Litvak and Natalia Vanetik and Yanquan Zhou(参考訳) 抽象要約における事実整合性の改善は、現在の研究の焦点となっている。 有望なアプローチの1つはポスト編集方式である。 しかし、これまでの研究はまだ要約における事実的要因を十分に活用していないため、トレーニングデータセットの負の効果に悩まされている。 本稿では,条件付き生成型clozeタスクに基づいて,新しい事実誤り訂正モデルfactclozeを提案する。 FactClozeは、空白が答えられるかどうかを判断しながら、事実要因間の因果関係を構築することができる。 次に,より忠実な要約データセット SummDSC を多次元評価により生成するデータ蒸留手法を提案する。 提案手法の有効性を実験的に検証し,ベースラインと比較して複数の事実整合性指標の改善につながった。

Improving factual consistency in abstractive summarization has been a focus of current research. One promising approach is the post-editing method. However, previous works have yet to make sufficient use of factual factors in summaries and suffers from the negative effect of the training datasets. In this paper, we first propose a novel factual error correction model FactCloze based on a conditional-generation cloze task. FactCloze can construct the causality among factual factors while being able to determine whether the blank can be answered or not. Then, we propose a data distillation method to generate a more faithful summarization dataset SummDSC via multiple-dimensional evaluation. We experimentally validate the effectiveness of our approach, which leads to an improvement in multiple factual consistency metrics compared to baselines.
翻訳日:2024-02-14 14:42:53 公開日:2024-02-13
# FedLPS:局所パラメータ共有を伴う複数タスクのための不均一なフェデレーション学習

FedLPS: Heterogeneous Federated Learning for Multiple Tasks with Local Parameter Sharing ( http://arxiv.org/abs/2402.08578v1 )

ライセンス: Link先を確認
Yongzhe Jia, Xuyun Zhang, Amin Beheshti, Wanchun Dou(参考訳) フェデレートラーニング(FL)はエッジデバイスが生成するデータの拡散を処理するためにエッジコンピューティング(EC)環境で有望なソリューションとして登場した。 分散エッジデバイス上でグローバルな機械学習モデルを協調的に最適化することで、flは生データを送信する必要性を回避し、ユーザのプライバシを高める。 実用的成功にもかかわらず、FLは、制約のあるエッジデバイスリソース、複数のタスクのデプロイ、データの異質性など、大きな課題に直面している。 しかし、既存の研究では、複数のタスクにわたるリソース消費を無視しながら、各タスクのflトレーニングコストの軽減に重点を置いている。 本稿では,このギャップを埋めるために,FedLPS(Heterogeneous Federated Learning with Local Parameter Sharing)を提案する。 FedLPSは転送学習の原則を活用して、ローカルモデルを共有エンコーダとタスク固有のエンコーダに分割することで、複数のタスクをひとつのデバイスにデプロイする。 さらに資源消費を低減するため、FedLPSでは、データおよびシステム不均一性を考慮しつつ、ローカルモデルのフットプリントを縮小するチャネルワイズモデルプルーニングアルゴリズムが使用される。 さらに、FedLPSの異種予測器を集約するために、新しい異種モデル集約アルゴリズムを提案する。 提案するfeedlpsを実際のflプラットフォームに実装し,最先端(sota)flフレームワークと比較した。 5つの一般的なデータセットと2つのDNNモデルによる実験結果は、提案されたFedLPSがSOTA FLフレームワークを最大4.88%上回り、計算資源消費量を21.3%削減したことを示している。 私たちのコードは、https://github.com/jyzgh/FedLPS.comで利用可能です。

Federated Learning (FL) has emerged as a promising solution in Edge Computing (EC) environments to process the proliferation of data generated by edge devices. By collaboratively optimizing the global machine learning models on distributed edge devices, FL circumvents the need for transmitting raw data and enhances user privacy. Despite practical successes, FL still confronts significant challenges including constrained edge device resources, multiple tasks deployment, and data heterogeneity. However, existing studies focus on mitigating the FL training costs of each single task whereas neglecting the resource consumption across multiple tasks in heterogeneous FL scenarios. In this paper, we propose Heterogeneous Federated Learning with Local Parameter Sharing (FedLPS) to fill this gap. FedLPS leverages principles from transfer learning to facilitate the deployment of multiple tasks on a single device by dividing the local model into a shareable encoder and task-specific encoders. To further reduce resource consumption, a channel-wise model pruning algorithm that shrinks the footprint of local models while accounting for both data and system heterogeneity is employed in FedLPS. Additionally, a novel heterogeneous model aggregation algorithm is proposed to aggregate the heterogeneous predictors in FedLPS. We implemented the proposed FedLPS on a real FL platform and compared it with state-of-the-art (SOTA) FL frameworks. The experimental results on five popular datasets and two modern DNN models illustrate that the proposed FedLPS significantly outperforms the SOTA FL frameworks by up to 4.88% and reduces the computational resource consumption by 21.3%. Our code is available at:https://github.com/jyzgh/FedLPS.
翻訳日:2024-02-14 14:42:41 公開日:2024-02-13
# マルチモーダル大規模言語モデルにおけるテストタイムバックドア攻撃

Test-Time Backdoor Attacks on Multimodal Large Language Models ( http://arxiv.org/abs/2402.08577v1 )

ライセンス: Link先を確認
Dong Lu, Tianyu Pang, Chao Du, Qian Liu, Xianjun Yang, Min Lin(参考訳) バックドア攻撃は、テストフェーズ中にトリガーが所定の有害な効果を活性化するようにトレーニングデータを汚染することで一般的に実行される。 本稿では,多モード大言語モデル(mllms)に対するテストタイムバックドア攻撃であるanydoorを提案する。これは,学習データへのアクセスや修正を必要とせず,逆テスト画像(同じ普遍的摂動を共有する)を用いて,テキストのモーダリティにバックドアを注入することを含む。 AnyDoorは、普遍的な敵攻撃で使用される同様のテクニックを採用しているが、有害な効果のセットアップとアクティベーションのタイミングを分離する能力によって、自分自身を区別している。 実験では,LLaVA-1.5, MiniGPT-4, InstructBLIP, BLIP-2などのMLLMに対するAnyDoorの有効性を検証した。 特に、バックドアは普遍的な摂動によって注入されるため、anydoorはバックドアのトリガーを動的に変更し、バックドア攻撃から防御するための新たな挑戦を露呈することができる。 プロジェクトのページはhttps://sail-sg.github.io/anydoor/で閲覧できます。

Backdoor attacks are commonly executed by contaminating training data, such that a trigger can activate predetermined harmful effects during the test phase. In this work, we present AnyDoor, a test-time backdoor attack against multimodal large language models (MLLMs), which involves injecting the backdoor into the textual modality using adversarial test images (sharing the same universal perturbation), without requiring access to or modification of the training data. AnyDoor employs similar techniques used in universal adversarial attacks, but distinguishes itself by its ability to decouple the timing of setup and activation of harmful effects. In our experiments, we validate the effectiveness of AnyDoor against popular MLLMs such as LLaVA-1.5, MiniGPT-4, InstructBLIP, and BLIP-2, as well as provide comprehensive ablation studies. Notably, because the backdoor is injected by a universal perturbation, AnyDoor can dynamically change its backdoor trigger prompts/harmful effects, exposing a new challenge for defending against backdoor attacks. Our project page is available at https://sail-sg.github.io/AnyDoor/.
翻訳日:2024-02-14 14:42:10 公開日:2024-02-13
# サイド情報付きスタックルバーグゲームにおけるレグレト最小化

Regret Minimization in Stackelberg Games with Side Information ( http://arxiv.org/abs/2402.08576v1 )

ライセンス: Link先を確認
Keegan Harris, Zhiwei Steven Wu, Maria-Florina Balcan(参考訳) 最も基本的な形式では、スタックルバーグゲームは、リーダーが(混合された)戦略にコミットし、追随者が最善を尽くす2人プレイヤゲームである。 Stackelbergゲームは、おそらく過去10年間でアルゴリズムゲーム理論の最大の成功例の1つであり、Stackelbergゲームでプレイするアルゴリズムは、空港のセキュリティ、反ポーチ活動、サイバー犯罪防止など、多くの現実世界の領域に展開されている。 しかしながら、これらのアルゴリズムは、それぞれのプレイヤーに利用可能な追加情報(例えば、交通パターン、気象条件、ネットワークの混雑など)を考慮するのに失敗することが多い。 両プレーヤーがプレー前に外部コンテキストを観察する,サイド情報付きStackelbergゲームのような設定を形式化する。 リーダーは(おそらくコンテキスト依存の)戦略にコミットし、従者はリーダーの戦略とコンテキストの両方に最善の責任を負う。 我々は、時間とともにフォロワーのシーケンスが到着するオンライン設定に注目し、状況が丸ごと変化する可能性がある。 文脈的でないバージョンとは対照的に、リーダーが完全な敵設定(つまり、文脈と従者の両方が敵によって選択された場合)において優れたパフォーマンス(後悔によって測定される)を達成することは不可能であることを示している。 しかし、多少のランダム性は長い道のりを歩むことが判明した。 その結果,2つの自然リラクゼーションでは,従者のシーケンスが確率的に選択され,文脈のシーケンスが逆行する設定と,文脈のシーケンスが確率的に選択され,従者のシーケンスが敵によって選択される設定の2つの自然リラクゼーションにおいて,リグレット学習が不可能であることが示された。

In its most basic form, a Stackelberg game is a two-player game in which a leader commits to a (mixed) strategy, and a follower best-responds. Stackelberg games are perhaps one of the biggest success stories of algorithmic game theory over the last decade, as algorithms for playing in Stackelberg games have been deployed in many real-world domains including airport security, anti-poaching efforts, and cyber-crime prevention. However, these algorithms often fail to take into consideration the additional information available to each player (e.g. traffic patterns, weather conditions, network congestion), a salient feature of reality which may significantly affect both players' optimal strategies. We formalize such settings as Stackelberg games with side information, in which both players observe an external context before playing. The leader then commits to a (possibly context-dependent) strategy, and the follower best-responds to both the leader's strategy and the context. We focus on the online setting in which a sequence of followers arrive over time, and the context may change from round-to-round. In sharp contrast to the non-contextual version, we show that it is impossible for the leader to achieve good performance (measured by regret) in the full adversarial setting (i.e., when both the context and the follower are chosen by an adversary). However, it turns out that a little bit of randomness goes a long way. Motivated by our impossibility result, we show that no-regret learning is possible in two natural relaxations: the setting in which the sequence of followers is chosen stochastically and the sequence of contexts is adversarial, and the setting in which the sequence of contexts is stochastic and the sequence of followers is chosen by an adversary.
翻訳日:2024-02-14 14:41:48 公開日:2024-02-13
# 単相コントラストヘビアン学習の2つの物語

Two Tales of Single-Phase Contrastive Hebbian Learning ( http://arxiv.org/abs/2402.08573v1 )

ライセンス: Link先を確認
Rasmus Kj{\ae}r H{\o}ier and Christopher Zach(参考訳) 生物学的に妥当な」学習アルゴリズムの探索は、勾配を活動の差として表現するというアイデアに収束した。 しかし、ほとんどのアプローチは高いレベルの同期(学習中の分裂相)を必要とし、かなりの計算オーバーヘッドをもたらし、生物学的な可能性と神経形態学計算の潜在的な有用性に疑問を呈する。 さらに、ノイズの多い環境では実用的でない出力単位に無限小摂動 (nudges) を適用するのが一般的である。 近年, 人工ニューロンを2つの対向核区画を持つダイナドとしてモデル化することで, ‘dual propagation’ と呼ばれる完全局所学習アルゴリズムが, 個別の学習フェーズや無限小のナジングを必要とせずに, 性能ギャップをバックプロパゲーションに橋渡しすることができることが示されている。 しかし、このアルゴリズムは、その数値安定性は、生物学的およびアナログ的な実装において制限的な対称ヌードに依存するという欠点がある。 本研究では,2重伝播法を基礎とする目標に対して,まず強固な基礎を提供するとともに,逆ロバスト性との関連性も明らかにする。 第二に、非対称なナジングによらず安定な特定の随伴状態法と双対伝播がどのように関連しているかを示す。

The search for "biologically plausible" learning algorithms has converged on the idea of representing gradients as activity differences. However, most approaches require a high degree of synchronization (distinct phases during learning) and introduce substantial computational overhead, which raises doubts regarding their biological plausibility as well as their potential utility for neuromorphic computing. Furthermore, they commonly rely on applying infinitesimal perturbations (nudges) to output units, which is impractical in noisy environments. Recently it has been shown that by modelling artificial neurons as dyads with two oppositely nudged compartments, it is possible for a fully local learning algorithm named ``dual propagation'' to bridge the performance gap to backpropagation, without requiring separate learning phases or infinitesimal nudging. However, the algorithm has the drawback that its numerical stability relies on symmetric nudging, which may be restrictive in biological and analog implementations. In this work we first provide a solid foundation for the objective underlying the dual propagation method, which also reveals a surprising connection with adversarial robustness. Second, we demonstrate how dual propagation is related to a particular adjoint state method, which is stable regardless of asymmetric nudging.
翻訳日:2024-02-14 14:41:15 公開日:2024-02-13
# 多スケールガラスセグメンテーションと一次予測指針

Glass Segmentation with Multi Scales and Primary Prediction Guiding ( http://arxiv.org/abs/2402.08571v1 )

ライセンス: Link先を確認
Zhiyu Xu and Qingliang Chen(参考訳) ガラスのような物体は、私たちの日常生活の至るところで見られ、既存の方法ではそれらを分割することが非常に難しい。 透明性の性質はカオス的背景からそれらを検出するという大きな課題を引き起こし、あいまいな分離境界はそれらの正確な輪郭の取得をさらに妨げている。 ガラスを無視する移動機械は、透明な障壁にぶつかる大きなリスクや鏡に映っている物体を分析するのが難しいため、ガラスのような物体を正確に見つけ、輪郭を完全に把握することは極めて重要である。 本稿では,スケール統合戦略と改良手法に触発されて,空間的関係を抽出する能力を向上させるための細かな再スケーリング・マージモジュール(frm)と,余剰セマンティクスをよりよく分離するプライマリ予測案内モジュール(ppg)からなるmgnetという新ネットワークを提案する。 さらに,不確実性を考慮した新しい損失関数を用いてモデルを監督し,高信頼セグメンテーションマップを作成する。 さまざまなデータセットに関して異なる設定でトレーニングする必要がある既存のガラスセグメンテーションモデルとは異なり、我々のモデルは一貫性のある設定でトレーニングされており、3つの人気のある公開データセットで優れたパフォーマンスを実現している。 コードは利用可能です。

Glass-like objects can be seen everywhere in our daily life which are very hard for existing methods to segment them. The properties of transparencies pose great challenges of detecting them from the chaotic background and the vague separation boundaries further impede the acquisition of their exact contours. Moving machines which ignore glasses have great risks of crashing into transparent barriers or difficulties in analysing objects reflected in the mirror, thus it is of substantial significance to accurately locate glass-like objects and completely figure out their contours. In this paper, inspired by the scale integration strategy and the refinement method, we proposed a brand-new network, named as MGNet, which consists of a Fine-Rescaling and Merging module (FRM) to improve the ability to extract spatially relationship and a Primary Prediction Guiding module (PPG) to better mine the leftover semantics from the fused features. Moreover, we supervise the model with a novel loss function with the uncertainty-aware loss to produce high-confidence segmentation maps. Unlike the existing glass segmentation models that must be trained on different settings with respect to varied datasets, our model are trained under consistent settings and has achieved superior performance on three popular public datasets. Code is available at
翻訳日:2024-02-14 14:40:50 公開日:2024-02-13
# ロボットのオンラインモデル選択

Online Foundation Model Selection in Robotics ( http://arxiv.org/abs/2402.08570v1 )

ライセンス: Link先を確認
Po-han Li, Oyku Selin Toprak, Aditya Narayanan, Ufuk Topcu, Sandeep Chinchali(参考訳) ファンデーションモデルはコンピュータビジョンと自然言語処理に長けた後、最近ロボット工学に発展した。 モデルは、オープンソースまたは有料のクローズドソースオプションの2つの方法で利用できる。 効果的だが費用がかかるクローズドソースモデルと、無料だがあまり強力でないオープンソース代替品のどちらが問題になる。 これをモデル選択問題と呼びます 既存の教師付き学習手法は、クローズドソースモデルから広範なトレーニングデータを収集するコストが高いため、実用的ではない。 そこで本研究では,データ収集中にアルゴリズムが学習するオンライン学習環境に着目し,大規模なデータセットの必要性を解消した。 そこで、ユーザ中心のオンラインモデル選択問題を定式化し、オープンソースエンコーダと、このコンテキストを処理するオンライン学習アルゴリズムを組み合わせた新しいソリューションを提案する。 エンコーダは、膨大なデータ分布を低次元の特徴、すなわち、追加の訓練なしに蒸留する。 オンライン学習アルゴリズムは、データから抽出されたコンテキストに基づいて、モデルの性能、実行時間、コストを含む複合報酬を最大化する。 その結果,オープンソースモデルとクローズドソースモデルとのトレードオフが,理論的解析によって検証された非コンテキスト手法と比較して改善された。 waymo open dataset、alfred、open x-embodimentといった言語ベースのロボットタスクでの実験は、ソリューションの実世界の応用を示している。 その結果、ソリューションはタスク成功率を最大14%向上させることがわかった。

Foundation models have recently expanded into robotics after excelling in computer vision and natural language processing. The models are accessible in two ways: open-source or paid, closed-source options. Users with access to both face a problem when deciding between effective yet costly closed-source models and free but less powerful open-source alternatives. We call it the model selection problem. Existing supervised-learning methods are impractical due to the high cost of collecting extensive training data from closed-source models. Hence, we focus on the online learning setting where algorithms learn while collecting data, eliminating the need for large pre-collected datasets. We thus formulate a user-centric online model selection problem and propose a novel solution that combines an open-source encoder to output context and an online learning algorithm that processes this context. The encoder distills vast data distributions into low-dimensional features, i.e., the context, without additional training. The online learning algorithm aims to maximize a composite reward that includes model performance, execution time, and costs based on the context extracted from the data. It results in an improved trade-off between selecting open-source and closed-source models compared to non-contextual methods, as validated by our theoretical analysis. Experiments across language-based robotic tasks such as Waymo Open Dataset, ALFRED, and Open X-Embodiment demonstrate real-world applications of the solution. The results show that the solution significantly improves the task success rate by up to 14%.
翻訳日:2024-02-14 14:40:27 公開日:2024-02-13
# エージェントSmith:マルチモーダルのLLMエージェントを1枚1枚で脱獄できる

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast ( http://arxiv.org/abs/2402.08567v1 )

ライセンス: Link先を確認
Xiangming Gu, Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Ye Wang, Jing Jiang, Min Lin(参考訳) マルチモーダル大言語モデル(MLLM)エージェントは、命令を受け取り、画像をキャプチャし、メモリから履歴を検索し、使用するツールを決定することができる。 それでも、赤チームの努力は、敵対的な画像やプロンプトがMLLMをジェイルブレイクし、不整合行動を引き起こす可能性があることを明らかにしている。 本研究では,感染性脱獄と呼ばれるマルチエージェント環境において,さらに深刻な安全性問題が発生したことを報告する。 敵は単に一つのエージェントをジェイルブレイクし、敵からのそれ以上の介入なしに、(ほとんど)すべてのエージェントが指数関数的に感染し、有害な行動を示す。 感染性ジェイルブレイクの可能性を検証するため、最大100万LLaVA-1.5エージェントを含むマルチエージェント環境をシミュレートし、マルチエージェントインタラクションのための概念実証の手段としてランダム化されたペアワイズチャットを用いる。 その結果, ランダムに選択したエージェントのメモリに(感染した)敵画像を送ると, 感染性ジェイルブレイクを達成できることがわかった。 最後に、防御機構が感染性脱獄の拡散を効果的に抑制できるかどうかを判断するための簡単な原則を導出するが、この原則に適合する実用的な防御をいかに設計するかは、調査すべき未解決の問題である。 プロジェクトのページはhttps://sail-sg.github.io/agent-smith/で閲覧できます。

A multimodal large language model (MLLM) agent can receive instructions, capture images, retrieve histories from memory, and decide which tools to use. Nonetheless, red-teaming efforts have revealed that adversarial images/prompts can jailbreak an MLLM and cause unaligned behaviors. In this work, we report an even more severe safety issue in multi-agent environments, referred to as infectious jailbreak. It entails the adversary simply jailbreaking a single agent, and without any further intervention from the adversary, (almost) all agents will become infected exponentially fast and exhibit harmful behaviors. To validate the feasibility of infectious jailbreak, we simulate multi-agent environments containing up to one million LLaVA-1.5 agents, and employ randomized pair-wise chat as a proof-of-concept instantiation for multi-agent interaction. Our results show that feeding an (infectious) adversarial image into the memory of any randomly chosen agent is sufficient to achieve infectious jailbreak. Finally, we derive a simple principle for determining whether a defense mechanism can provably restrain the spread of infectious jailbreak, but how to design a practical defense that meets this principle remains an open question to investigate. Our project page is available at https://sail-sg.github.io/Agent-Smith/.
翻訳日:2024-02-14 14:40:02 公開日:2024-02-13
# 文献レビューのための人工知能: 機会と課題

Artificial Intelligence for Literature Reviews: Opportunities and Challenges ( http://arxiv.org/abs/2402.08565v1 )

ライセンス: Link先を確認
Francisco Bolanos, Angelo Salatino, Francesco Osborne, Enrico Motta(参考訳) 本書は、SLR(Systematic Literature Reviews)における人工知能(AI)の使用に関する包括的なレビューを提示する。 SLRは、あるトピックに関する以前の研究を評価し、統合する厳格で組織化された方法論である。 SLRプロセスを支援し、部分的に自動化するための多くのツールが開発されている。 この分野におけるAIの役割の増大は、研究者により効果的な支援を提供する大きな可能性を示しており、文献レビューの半自動作成に向かっている。 本研究は,SLRの半自動化におけるAI技術の適用方法,特にスクリーニングと抽出フェーズに焦点をあてる。 従来の23の機能と11のai機能を組み合わせたフレームワークを用いて,21のslrツールを調査した。 また、文献検索や学術的執筆支援に大規模な言語モデルを活用する11のツールを分析した。 最後に,この分野の現状と課題について概説するとともに,今後の研究の方向性について述べる。

This manuscript presents a comprehensive review of the use of Artificial Intelligence (AI) in Systematic Literature Reviews (SLRs). A SLR is a rigorous and organised methodology that assesses and integrates previous research on a given topic. Numerous tools have been developed to assist and partially automate the SLR process. The increasing role of AI in this field shows great potential in providing more effective support for researchers, moving towards the semi-automatic creation of literature reviews. Our study focuses on how AI techniques are applied in the semi-automation of SLRs, specifically in the screening and extraction phases. We examine 21 leading SLR tools using a framework that combines 23 traditional features with 11 AI features. We also analyse 11 recent tools that leverage large language models for searching the literature and assisting academic writing. Finally, the paper discusses current trends in the field, outlines key research challenges, and suggests directions for future research.
翻訳日:2024-02-14 14:39:36 公開日:2024-02-13
# 雑音拡散復元はラプラス作用素の前方および逆問題に取り組む

Denoising Diffusion Restoration Tackles Forward and Inverse Problems for the Laplace Operator ( http://arxiv.org/abs/2402.08563v1 )

ライセンス: Link先を確認
Amartya Mukherjee, Melissa M. Stadt, Lena Podina, Mohammad Kohandel, Jun Liu(参考訳) 拡散モデルは、ノイズの多い入力を現実的なイメージにマッピングする生成モデルの有望なクラスとして登場した。 近年では偏微分方程式(pdes)の解を生成するために用いられている。 しかし、それらは、例えばポアソン方程式のようなラプラス作用素の逆問題といまだに苦労している。 本稿では,拡散復元モデル(DDRM)を用いて,PDEの逆解と前方解に対する新しいアプローチを提案する。 DDRMは線形演算子の特異値分解(SVD)を利用して元のクリーン信号を復元するために線形逆問題に用いられた。 同様に、ラプラシアン作用素の固有値と固有関数を利用してポアソン方程式の解とパラメータを復元するアプローチを提案する。 以上の結果から,除音拡散復元は解とパラメータの推定を大幅に改善することが示された。 我々の研究は、PDEを解くための基礎物理学の原理と拡散モデルの統合の先駆者となった。

Diffusion models have emerged as a promising class of generative models that map noisy inputs to realistic images. More recently, they have been employed to generate solutions to partial differential equations (PDEs). However, they still struggle with inverse problems in the Laplacian operator, for instance, the Poisson equation, because the eigenvalues that are large in magnitude amplify the measurement noise. This paper presents a novel approach for the inverse and forward solution of PDEs through the use of denoising diffusion restoration models (DDRM). DDRMs were used in linear inverse problems to restore original clean signals by exploiting the singular value decomposition (SVD) of the linear operator. Equivalently, we present an approach to restore the solution and the parameters in the Poisson equation by exploiting the eigenvalues and the eigenfunctions of the Laplacian operator. Our results show that using denoising diffusion restoration significantly improves the estimation of the solution and parameters. Our research, as a result, pioneers the integration of diffusion models with the principles of underlying physics to solve PDEs.
翻訳日:2024-02-14 14:39:22 公開日:2024-02-13
# 高層にはLoRAの専門家がもっと必要

Higher Layers Need More LoRA Experts ( http://arxiv.org/abs/2402.08562v1 )

ライセンス: Link先を確認
Chongyang Gao and Kezhen Chen and Jinmeng Rao and Baochen Sun and Ruibo Liu and Daiyi Peng and Yawen Zhang and Xiaoyuan Guo and Jie Yang and VS Subrahmanian(参考訳) 低ランク適応(LoRA)のようなパラメータ効率チューニング(PEFT)技術は、大規模言語モデルのトレーニング効率を提供するが、モデル性能への影響は限定的である。 近年, PEFT法の性能向上のため, LoRA と Mixture-of-Experts (MoE) を統合している。 有望な結果にもかかわらず、LoRAのMoEによる効率向上の研究はまだ初期段階にある。 近年の研究では、MoEアーキテクチャの専門家は強度が異なり、冗長性も示している。 この文はパラメータ効率のよいmoeにも当てはまりますか? 本稿では,トランスフォーマーモデルに対して,新しいパラメータ効率のMoE法である \textit{\textbf{M}oE-L\textbf{o}RA と \textbf{L}ayer-wise Expert \textbf{A}llocation (MoLA)} を導入する。 レイヤ毎のエキスパート構成の異なるアーキテクチャについて検討する。 6つのよく知られたNLPおよびCommonsense QAベンチマークの実験は、MoLAがすべてのベースラインと同等または優れたパフォーマンスを達成することを示した。 より多くのlora専門家をより高いレイヤに割り当てることで、モデルの有効性をさらに高められることが分かりました。 パラメータがはるかに少ないため、このアロケーション戦略は各レイヤで同じ数の専門家で設定を上回ります。 この研究は様々なアプリケーションのためのプラグアンドプレイパラメータ効率チューニング手法として広く利用することができる。 コードはhttps://github.com/GCYZSL/MoLAで公開されている。

Parameter-efficient tuning (PEFT) techniques like low-rank adaptation (LoRA) offer training efficiency on Large Language Models, but their impact on model performance remains limited. Recent efforts integrate LoRA and Mixture-of-Experts (MoE) to improve the performance of PEFT methods. Despite promising results, research on improving the efficiency of LoRA with MoE is still in its early stages. Recent studies have shown that experts in the MoE architecture have different strengths and also exhibit some redundancy. Does this statement also apply to parameter-efficient MoE? In this paper, we introduce a novel parameter-efficient MoE method, \textit{\textbf{M}oE-L\textbf{o}RA with \textbf{L}ayer-wise Expert \textbf{A}llocation (MoLA)} for Transformer-based models, where each model layer has the flexibility to employ a varying number of LoRA experts. We investigate several architectures with varying layer-wise expert configurations. Experiments on six well-known NLP and commonsense QA benchmarks demonstrate that MoLA achieves equal or superior performance compared to all baselines. We find that allocating more LoRA experts to higher layers further enhances the effectiveness of models with a certain number of experts in total. With much fewer parameters, this allocation strategy outperforms the setting with the same number of experts in every layer. This work can be widely used as a plug-and-play parameter-efficient tuning approach for various applications. The code is available at https://github.com/GCYZSL/MoLA.
翻訳日:2024-02-14 14:39:07 公開日:2024-02-13
# 短期量子コンピュータにおけるテンソルネットワークノイズ特性

Tensor network noise characterization for near-term quantum computers ( http://arxiv.org/abs/2402.08556v1 )

ライセンス: Link先を確認
Stefano Mangini, Marco Cattaneo, Daniel Cavalcanti, Sergei Filippov, Matteo A. C. Rossi, Guillermo Garc\'ia-P\'erez(参考訳) 現在の量子デバイスにおけるノイズのキャラクタリゼーションは、その計算能力を完全に利用する上で最も重要である。 しかし、数万キュービットからなるシステムでは直接量子プロセストモグラフィーは不可能になる。 テンソルネットワークに基づく有望な代替手法が最近提案された[Nat Commun 14, 2858 (2023)]。 本研究では,短期量子コンピュータにおけるノイズチャネルのキャラクタリゼーションに適応し,その性能を徹底的に検討する。 特に,実験により実現可能なトモグラフィーサンプルを用いて,量子回路の各層に影響を及ぼす現実的な相関ノイズモデルを正確に解析し,最大20量子ビットのシステム上での性能について検討する。 さらに,本手法と最近提案されたノイズ対応テンソルネットワーク誤り低減プロトコルを組み合わせることで,ノイズの多い回路における結果の修正を行い,深部回路インスタンスにおいても正確な推定を行う。 これにより、テンソルネットワークに基づくノイズキャラクタリゼーションプロトコルは、短期量子コンピューティング時代の実用的なエラーキャラクタリゼーションと緩和のための貴重なツールとして位置づけられる。

Characterization of noise in current near-term quantum devices is of paramount importance to fully use their computational power. However, direct quantum process tomography becomes unfeasible for systems composed of tens of qubits. A promising alternative method based on tensor networks was recently proposed [Nat Commun 14, 2858 (2023)]. In this work, we adapt it for the characterization of noise channels on near-term quantum computers and investigate its performance thoroughly. In particular, we show how experimentally feasible tomographic samples are sufficient to accurately characterize realistic correlated noise models affecting individual layers of quantum circuits, and study its performance on systems composed of up to 20 qubits. Furthermore, we combine this noise characterization method with a recently proposed noise-aware tensor network error mitigation protocol for correcting outcomes in noisy circuits, resulting accurate estimations even on deep circuit instances. This positions the tensor-network-based noise characterization protocol as a valuable tool for practical error characterization and mitigation in the near-term quantum computing era.
翻訳日:2024-02-14 14:38:36 公開日:2024-02-13
# 知識グラフの進化に関する機械学習によるハイインパクト研究の予測

Forecasting high-impact research topics via machine learning on evolving knowledge graphs ( http://arxiv.org/abs/2402.08640v1 )

ライセンス: Link先を確認
Xuemei Gu, Mario Krenn(参考訳) 科学出版物の指数関数的な成長は、人間の研究者にとって厳しい課題となる。 より狭いサブフィールドに注意を向け、自分自身のフィールド外で新しいインパクトのある研究のアイデアやコラボレーションを発見するのが困難になる。 科学論文の将来的な引用数を予測する方法は存在するが、彼らは研究を終える必要があり、論文を書く必要がある。 ここでは、研究者によって発表されたことのないアイデアの出現が与える影響を予測する方法を示す。 そのため、2100万以上の科学論文から構築された大規模な知識グラフを開発しました。 論文の内容から生成されたセマンティックネットワークと、論文の歴史的引用から生成されたインパクトネットワークを組み合わせる。 機械学習を用いて、進化するネットワークの未来のダイナミクスを高精度に予測し、その結果、新たな研究方向の影響を予測できる。 我々は、新しいアイデアの影響を予測できる能力が、新しい影響力を持ち興味深い科学的アイデアを刺激する未来の人工ミューズの重要な要素となることを想定している。

The exponential growth in scientific publications poses a severe challenge for human researchers. It forces attention to more narrow sub-fields, which makes it challenging to discover new impactful research ideas and collaborations outside one's own field. While there are ways to predict a scientific paper's future citation counts, they need the research to be finished and the paper written, usually assessing impact long after the idea was conceived. Here we show how to predict the impact of onsets of ideas that have never been published by researchers. For that, we developed a large evolving knowledge graph built from more than 21 million scientific papers. It combines a semantic network created from the content of the papers and an impact network created from the historic citations of papers. Using machine learning, we can predict the dynamic of the evolving network into the future with high accuracy, and thereby the impact of new research directions. We envision that the ability to predict the impact of new ideas will be a crucial component of future artificial muses that can inspire new impactful and interesting scientific ideas.
翻訳日:2024-02-14 14:30:34 公開日:2024-02-13
# 膨張環における異常カシミール効果

Anomalous Casimir effect in an expanding ring ( http://arxiv.org/abs/2402.08610v1 )

ライセンス: Link先を確認
Baptiste Bermond, Adolfo G. Grushin, and David Carpentier(参考訳) カシミール効果は真空の量子的性質のマクロ的な証拠であり、空間や時間の境界条件によって引き起こされる。 環上の質量のない場、つまり膨張する宇宙の実験的モデルの場合、カシミール効果は環の半径に依存する補正によって基底状態のエネルギーを変化させる。 本研究では、環の半径が十分に速くなったときに、環のエネルギーと圧力が追加で大きな補正を得ることを示す。 この効果は力学カシミール効果とは別物で、輪の幾何学における時間の進化によって引き起こされる時空曲率に由来する共形異常の表れである。 この異常なカシミール効果は、時間とともに非単調になる環のサイズを増大させるのに必要な作業を通じて測定可能である。

The Casimir effect is macroscopic evidence of the quantum nature of the vacuum, and it is triggered by boundary conditions in space or time. For a massless field on a ring, an experimentally accessible model of an expanding universe, the Casimir effect changes the groundstate energy through a correction that depends on the ring's radius. In this work, we show that the ring's energy and pressure acquire additional, sizable corrections, when the ring's radius is increased fast enough. This effect is distinct from the dynamical Casimir effect: it is a manifestation of the conformal anomaly, originating from the spacetime curvature induced by the evolution in time of the ring's geometry. This anomalous Casimir effect is measurable through the work necessary to increase the ring size, which becomes non-monotonous in time.
翻訳日:2024-02-14 14:30:19 公開日:2024-02-13
# deep rlのパラメータスケーリングをアンロックする専門家の混合物

Mixtures of Experts Unlock Parameter Scaling for Deep RL ( http://arxiv.org/abs/2402.08609v1 )

ライセンス: Link先を確認
Johan Obando-Ceron, Ghada Sokar, Timon Willi, Clare Lyle, Jesse Farebrother, Jakob Foerster, Gintare Karolina Dziugaite, Doina Precup, Pablo Samuel Castro(参考訳) 最近の(自己)教師付き学習モデルの急速な進歩は、主に経験的スケーリング法則によって予測されている。 しかし、モデルパラメータ数の増加が最終的なパフォーマンスを損なうことの多い強化学習領域では、アナログスケーリング法則はいまだ解明されていない。 本稿では,moe(mixed-of-expert)モジュール,特にソフトmoe(puigcerver et al., 2023)を価値ベースのネットワークに組み込むことにより,よりパラメータスケーブルなモデルが得られることを示す。 この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。

The recent rapid progress in (self) supervised learning models is in large part predicted by empirical scaling laws: a model's performance scales proportionally to its size. Analogous scaling laws remain elusive for reinforcement learning domains, however, where increasing the parameter count of a model often hurts its final performance. In this paper, we demonstrate that incorporating Mixture-of-Expert (MoE) modules, and in particular Soft MoEs (Puigcerver et al., 2023), into value-based networks results in more parameter-scalable models, evidenced by substantial performance increases across a variety of training regimes and model sizes. This work thus provides strong empirical evidence towards developing scaling laws for reinforcement learning.
翻訳日:2024-02-14 14:30:02 公開日:2024-02-13
# 正当な脅威のぼやけた世界における証拠テトリス

Evidence Tetris in the Pixelated World of Validity Threats ( http://arxiv.org/abs/2402.08608v1 )

ライセンス: Link先を確認
Marvin Wyrich and Sven Apel(参考訳) 実証実験は科学的発見に自信を与える。 幸いなことに、ソフトウェア工学研究者は、研究を設計する際の妥当性に対する脅威を考慮し、出版物の一部として議論することが一般的である。 しかし、人間との複雑な実験では、研究者がカバーできる以上の、直感的に正当な脅威が圧倒的に多い。 したがって、潜在的な脅威を正当性に優先することが重要となる。 我々は,妥当性の脅威を優先順位付けするために直観のみに頼ることを避け,妥当性に対する脅威の実際の影響に関する証拠が直観を補完するべきであることを示唆する。

Valid empirical studies build confidence in scientific findings. Fortunately, it is now common for software engineering researchers to consider threats to validity when designing their studies and to discuss them as part of their publication. Yet, in complex experiments with human participants, there is often an overwhelming number of intuitively plausible threats to validity -- more than a researcher can feasibly cover. Therefore, prioritizing potential threats to validity becomes crucial. We suggest moving away from relying solely on intuition for prioritizing validity threats, and propose that evidence on the actual impact of suspected threats to validity should complement intuition.
翻訳日:2024-02-14 14:29:47 公開日:2024-02-13
# 学習可能な量子機械学習における任意多項式分離

Arbitrary Polynomial Separations in Trainable Quantum Machine Learning ( http://arxiv.org/abs/2402.08606v1 )

ライセンス: Link先を確認
Eric R. Anschuetz and Xun Gao(参考訳) 量子機械学習の最近の理論的結果は、量子ニューラルネットワーク(QNN)の表現力とトレーニング性の間の一般的なトレードオフを示しており、これらの結果のまとめとして、古典的な機械学習モデルよりも表現力の実用的な指数的な分離は、モデルサイズで指数関数的なトレーニングを行うのに時間がかかると信じられている。 ここでは、古典的シーケンスモデリングタスクを実行する際に、古典的ニューラルネットワーク上で任意の定数次数の多項式メモリ分離を無条件で証明可能な、効率的にトレーニング可能なQNNの階層を構築することにより、これらの負の結果を回避する。 さらに、導入されたQNNの各単位セルは、計算効率が高く、量子デバイス上で一定時間に実装可能である。 古典的なネットワークは、リカレントニューラルネットワークやトランスフォーマーなどのよく知られた例を含む。 量子文脈性(quantum contextity)は、表現性分離の源であり、長い時間相関を持つ他の古典列学習問題は、量子機械学習の実用的優位性が存在する可能性を示す。

Recent theoretical results in quantum machine learning have demonstrated a general trade-off between the expressive power of quantum neural networks (QNNs) and their trainability; as a corollary of these results, practical exponential separations in expressive power over classical machine learning models are believed to be infeasible as such QNNs take a time to train that is exponential in the model size. We here circumvent these negative results by constructing a hierarchy of efficiently trainable QNNs that exhibit unconditionally provable, polynomial memory separations of arbitrary constant degree over classical neural networks in performing a classical sequence modeling task. Furthermore, each unit cell of the introduced class of QNNs is computationally efficient, implementable in constant time on a quantum device. The classical networks we prove a separation over include well-known examples such as recurrent neural networks and Transformers. We show that quantum contextuality is the source of the expressivity separation, suggesting that other classical sequence learning problems with long-time correlations may be a regime where practical advantages in quantum machine learning may exist.
翻訳日:2024-02-14 14:29:38 公開日:2024-02-13
# グラフェン熱トランジスタにおける電子冷却

Electron cooling in graphene thermal transistors ( http://arxiv.org/abs/2402.08603v1 )

ライセンス: Link先を確認
Federico Paolucci, Federica Bianco, Francesco Giazotto, Stefano Roddaro(参考訳) 量子技術の創発的分野において、ナノスケールおよび極低温における熱管理能力は、ノイズ、コヒーレンス、感度の観点からデバイス性能を向上させる上で重要である。 本稿では、グラフェン熱トランジスタにおける電子ガスのアクティブ冷却と冷蔵を、デバイス内の電子を直接ポンプまたは抽出できるナノスケールの超伝導トンネル接触を利用して実証する。 試作機は, 約450mKの浴槽温度で, グラフェン中の電子を最大15mKで冷却し, 提案した装置構造の有効性を実証した。 実験結果は,観測装置の動作を正確に再現する詳細な熱モデルによって裏付けられている。 代替冷却方式と展望は報告された結果を踏まえて議論される。 最後に、グラフェン熱トランジスタは超伝導ハイブリッド量子技術に応用できるかもしれない。

In the emergent field of quantum technology, the ability to manage heat at the nanoscale and in cryogenic conditions is crucial for enhancing device performance in terms of noise, coherence, and sensitivity. Here, we demonstrate the active cooling and refrigeration of the electron gas in a graphene thermal transistor, by taking advantage of nanoscale superconductive tunnel contacts able to pump or extract heat directly from the electrons in the device. Our prototypes achieved a top cooling of electrons in graphene of about 15 mK at a bath temperature of about 450 mK, demonstrating the viability of the proposed device architecture. Our experimental findings are backed by a detailed thermal model that accurately replicated the observed device behavior. Alternative cooling schemes and perspectives are discussed in light of the reported results. Finally, our graphene thermal transistor could find application in superconducting hybrid quantum technologies.
翻訳日:2024-02-14 14:29:21 公開日:2024-02-13
# アクティブシーケンス推定のためのグローバル最適グリーディ実験選択

Globally-Optimal Greedy Experiment Selection for Active Sequential Estimation ( http://arxiv.org/abs/2402.08602v1 )

ライセンス: Link先を確認
Xiaoou Li and Hongru Zhao(参考訳) コンピュータ適応テスト、シーケンシャルランクアグリゲーション、異種データソース選択といった近代的な応用により、逐次的に収集されたデータの実験を適応的に選択するアクティブシーケンシャル推定の問題を研究する。 目標は、より正確なモデル推定のための実験選択ルールを設計することである。 情報に基づく厳密な実験選択手法は, 計算の利便性, コンテキストやタスクの変更に対する柔軟性, 幅広い適用性により, 一歩先まで情報ゲインを最適化する。 しかし、統計解析は、問題の組合せ的性質と、一見希薄なアルゴリズムの能力のため、1次元の場合に限られ、多次元問題は開いている。 本研究では,多次元問題に対するギャップを閉じる。 特に,これらの選択規則に従う最大確率推定器について,一連の欲求実験選択法を採用し,統計的解析を行う。 このクラスは、既存手法の両方を包含し、数値効率を向上した新しい手法を導入する。 これらの手法が一貫した漸近的および漸近的正規推定器を生成することを証明した。 さらに, 決定理論の枠組みにおいて, リスク測度が選択規則に適合する場合に, 提案手法が漸近的最適性を達成することを定めている。 また、シミュレーションデータと実データの両方について広範な数値的研究を行い、提案手法の有効性を示す。 技術的観点から、理論的課題に対処するための新しい分析ツールを考案する。 これらの分析ツールは独立した理論的な関心を持ち、確率近似や逐次設計を含む関連する問題で再利用することができる。

Motivated by modern applications such as computerized adaptive testing, sequential rank aggregation, and heterogeneous data source selection, we study the problem of active sequential estimation, which involves adaptively selecting experiments for sequentially collected data. The goal is to design experiment selection rules for more accurate model estimation. Greedy information-based experiment selection methods, optimizing the information gain for one-step ahead, have been employed in practice thanks to their computational convenience, flexibility to context or task changes, and broad applicability. However, statistical analysis is restricted to one-dimensional cases due to the problem's combinatorial nature and the seemingly limited capacity of greedy algorithms, leaving the multidimensional problem open. In this study, we close the gap for multidimensional problems. In particular, we propose adopting a class of greedy experiment selection methods and provide statistical analysis for the maximum likelihood estimator following these selection rules. This class encompasses both existing methods and introduces new methods with improved numerical efficiency. We prove that these methods produce consistent and asymptotically normal estimators. Additionally, within a decision theory framework, we establish that the proposed methods achieve asymptotic optimality when the risk measure aligns with the selection rule. We also conduct extensive numerical studies on both simulated and real data to illustrate the efficacy of the proposed methods. From a technical perspective, we devise new analytical tools to address theoretical challenges. These analytical tools are of independent theoretical interest and may be reused in related problems involving stochastic approximation and sequential designs.
翻訳日:2024-02-14 14:29:08 公開日:2024-02-13
# トレーニングフリーな非リジッド編集のための時間ステップアウェアサンプリングによる潜時インバージョン

Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing ( http://arxiv.org/abs/2402.08601v1 )

ライセンス: Link先を確認
Yunji Jung, Seokju Lee, Tair Djanibekov, Hyunjung Shim, Jongchul Ye(参考訳) テキスト誘導非剛体編集は、周囲の動作や構成の変更など、入力画像の複雑な編集を含む。 入力構造を操作する必要があるため、既存のメソッドは、特に安定した拡散と組み合わせてオブジェクトのアイデンティティとバックグラウンドを保存するのに苦労することが多い。 本研究では,編集性を損なうことなくアイデンティティ保存品質を向上させることを目的とした,安定した拡散を伴う非リジッド編集のためのトレーニングフリー手法を提案する。 提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。 最近のImagicの成功に触発されて、スムーズな編集にテキスト最適化を採用しました。 次に,入力画像のアイデンティティをモデル微調整なしで保持するために潜時反転を導入する。 潜時反転の入力再構成能力をフル活用するために, 時刻認識型テキストインジェクションサンプリングを提案する。 これにより、初期サンプリングステップでソーステキストプロンプトを注入し、その後サンプリングステップでターゲットプロンプトに遷移することにより、入力画像の構造を効果的に保持する。 この戦略的アプローチはテキスト最適化とシームレスに調和し、元のアイデンティティを失うことなく複雑な非厳密な編集を容易にする。 本手法は, アイデンティティ保存, 編集性, 美的品質の観点から, 広範囲な実験により有効性を示す。

Text-guided non-rigid editing involves complex edits for input images, such as changing motion or compositions within their surroundings. Since it requires manipulating the input structure, existing methods often struggle with preserving object identity and background, particularly when combined with Stable Diffusion. In this work, we propose a training-free approach for non-rigid editing with Stable Diffusion, aimed at improving the identity preservation quality without compromising editability. Our approach comprises three stages: text optimization, latent inversion, and timestep-aware text injection sampling. Inspired by the recent success of Imagic, we employ their text optimization for smooth editing. Then, we introduce latent inversion to preserve the input image's identity without additional model fine-tuning. To fully utilize the input reconstruction ability of latent inversion, we suggest timestep-aware text inject sampling. This effectively retains the structure of the input image by injecting the source text prompt in early sampling steps and then transitioning to the target prompt in subsequent sampling steps. This strategic approach seamlessly harmonizes with text optimization, facilitating complex non-rigid edits to the input without losing the original identity. We demonstrate the effectiveness of our method in terms of identity preservation, editability, and aesthetic quality through extensive experiments.
翻訳日:2024-02-14 14:28:43 公開日:2024-02-13
# グラフニューラルネットワークの準同型数:その基礎について

Homomorphism Counts for Graph Neural Networks: All About That Basis ( http://arxiv.org/abs/2402.08595v1 )

ライセンス: Link先を確認
Emily Jin, Michael Bronstein, Ismail Ilkan Ceylan, Matthias Lanzinger(参考訳) グラフニューラルネットワークは、グラフ上で不変関数を学ぶためのアーキテクチャである。 多くの研究がグラフニューラルネットワークの特性を調査し、特に表現力に関するいくつかの制限を特定している。 グラフ内の特定のパターン(例えばサイクル)を数えることのできないことは、そのような制限の中心にある。 2つの顕著なパラダイムは、グラフの特徴をグラフや同型パターン数で豊かにすることで、この制限に対処することを目指している。 本研究では,これら2つのアプローチが,ある意味では準最適であることを示すとともに,対象パターンの「ベイズ」における全ての構造の準同型数を組み込んだ,よりきめ細かいアプローチを主張する。 これにより、既存のアプローチに比べて計算複雑性の面で追加のオーバーヘッドを伴わずに、厳密に表現力のあるアーキテクチャが得られる。 ノードレベルおよびグラフレベルのモチーフパラメータに関する一連の理論的結果が証明され、標準ベンチマークデータセットで実証的に検証される。

Graph neural networks are architectures for learning invariant functions over graphs. A large body of work has investigated the properties of graph neural networks and identified several limitations, particularly pertaining to their expressive power. Their inability to count certain patterns (e.g., cycles) in a graph lies at the heart of such limitations, since many functions to be learned rely on the ability of counting such patterns. Two prominent paradigms aim to address this limitation by enriching the graph features with subgraph or homomorphism pattern counts. In this work, we show that both of these approaches are sub-optimal in a certain sense and argue for a more fine-grained approach, which incorporates the homomorphism counts of all structures in the "basis" of the target pattern. This yields strictly more expressive architectures without incurring any additional overhead in terms of computational complexity compared to existing approaches. We prove a series of theoretical results on node-level and graph-level motif parameters and empirically validate them on standard benchmark datasets.
翻訳日:2024-02-14 14:28:22 公開日:2024-02-13
# ソフトプロンプトチューニングのためのベイジアンマルチタスク転送学習

Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning ( http://arxiv.org/abs/2402.08594v1 )

ライセンス: Link先を確認
Haeju Lee, Minchan Jeong, Se-Young Yun, Kee-Eung Kim(参考訳) プロンプトチューニングは、プロンプトがマルチタスク転送学習環境で訓練された場合、フルモデルのパラメータを微調整する代わりに、大規模な事前訓練された言語モデルを下流タスクに適応するように最適化されている。 これらの方法は一般的に、ソースタスクごとに個別にプロンプトを訓練し、ターゲットタスクのプロンプトの初期化を提供するためにそれらを集約する。 しかし、このアプローチは、ソースタスクのいくつかが負か正に相互に干渉しているという事実を批判的に無視する。 我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。 この目的のために、我々は、ソースタスク間のプロンプトの後方分布を扱うベイズ的アプローチを提案する。 本研究は,Stein Variational Gradient Descent を用いた後部からサンプルに対応する代表的ソースプロンプトを取得し,初期ターゲットプロンプトを構成するように集約した。 ベイジアン・マルチタスク・トランスファー・ラーニング・アプローチが最先端の手法を多くの設定で上回る,標準ベンチマークのnlpタスクで広範な実験結果を示す。 さらに,提案手法では,プロンプト自身以外の補助モデルを必要としないため,パラメータ効率が向上する。

Prompt tuning, in which prompts are optimized to adapt large-scale pre-trained language models to downstream tasks instead of fine-tuning the full model parameters, has been shown to be particularly effective when the prompts are trained in a multi-task transfer learning setting. These methods generally involve individually training prompts for each source task and then aggregating them to provide the initialization of the prompt for the target task. However, this approach critically ignores the fact that some of the source tasks could be negatively or positively interfering with each other. We argue that when we extract knowledge from source tasks via training source prompts, we need to consider this correlation among source tasks for better transfer to target tasks. To this end, we propose a Bayesian approach where we work with the posterior distribution of prompts across source tasks. We obtain representative source prompts corresponding to the samples from the posterior utilizing Stein Variational Gradient Descent, which are then aggregated to constitute the initial target prompt. We show extensive experimental results on the standard benchmark NLP tasks, where our Bayesian multi-task transfer learning approach outperforms the state-of-the-art methods in many settings. Furthermore, our approach requires no auxiliary models other than the prompt itself, achieving a high degree of parameter efficiency.
翻訳日:2024-02-14 14:28:05 公開日:2024-02-13
# グラフ特徴前処理:トランザクショングラフからのグラフベース特徴のリアルタイム抽出

Graph Feature Preprocessor: Real-time Extraction of Subgraph-based Features from Transaction Graphs ( http://arxiv.org/abs/2402.08593v1 )

ライセンス: Link先を確認
Jovan Blanu\v{s}a, Maximo Cravero Baraja, Andreea Anghel, Luc von Niederh\"ausern, Erik Altman, Haris Pozidis and Kubilay Atasu(参考訳) 本稿では,金融取引グラフにおける典型的なマネーロンダリングと不正行為パターンをリアルタイムに検出するソフトウェアライブラリであるGraph Feature Preprocessorを提案する。 これらのパターンは、下流の機械学習トレーニングとマネーロンダリング検出などの推論タスクのための豊富なトランザクション機能を生成するために使用される。 強化されたトランザクション機能は、勾配ブースティングベースの機械学習モデルの予測精度を劇的に向上させる。 ライブラリはマルチコア並列性を活用し,動的インメモリグラフを維持し,受信したトランザクションストリームのサブグラフパターンを効率的にマイニングすることで,ストリーミング操作を実現する。 我々は,高度不均衡な合成アンチマネーロンダリング(AML)と実生活Ethereumフィッシングデータセットを用いて図書館の評価を行った。 これらのデータセットでは、不正なトランザクションの割合が非常に小さく、学習プロセスが困難になる。 我々のソリューションはグラフ特徴前処理と勾配ブースティングに基づく機械学習モデルを組み合わせることで、これらの不正なトランザクションを標準グラフニューラルネットワークよりも高いマイノリティクラスF1スコアで検出することができる。 さらに、マルチコアCPU上で実行されるソリューションのエンドツーエンドスループット速度は、強力なV100 GPU上で実行されるグラフニューラルネットワークベースラインよりも優れています。 全体として、高い精度、高いスループット率、低レイテンシの組み合わせは、現実のアプリケーションにおける我々のライブラリの実用的価値を示しています。 Graph Feature PreprocessorはIBMのメインフレームソフトウェア製品、すなわち"IBM Cloud Pak for Data on Z"と"AI Toolkit for IBM Z and LinuxONE"に統合されている。

In this paper, we present "Graph Feature Preprocessor", a software library for detecting typical money laundering and fraud patterns in financial transaction graphs in real time. These patterns are used to produce a rich set of transaction features for downstream machine learning training and inference tasks such as money laundering detection. We show that our enriched transaction features dramatically improve the prediction accuracy of gradient-boosting-based machine learning models. Our library exploits multicore parallelism, maintains a dynamic in-memory graph, and efficiently mines subgraph patterns in the incoming transaction stream, which enables it to be operated in a streaming manner. We evaluate our library using highly-imbalanced synthetic anti-money laundering (AML) and real-life Ethereum phishing datasets. In these datasets, the proportion of illicit transactions is very small, which makes the learning process challenging. Our solution, which combines our Graph Feature Preprocessor and gradient-boosting-based machine learning models, is able to detect these illicit transactions with higher minority-class F1 scores than standard graph neural networks. In addition, the end-to-end throughput rate of our solution executed on a multicore CPU outperforms the graph neural network baselines executed on a powerful V100 GPU. Overall, the combination of high accuracy, a high throughput rate, and low latency of our solution demonstrates the practical value of our library in real-world applications. Graph Feature Preprocessor has been integrated into IBM mainframe software products, namely "IBM Cloud Pak for Data on Z" and "AI Toolkit for IBM Z and LinuxONE".
翻訳日:2024-02-14 14:27:41 公開日:2024-02-13
# 顔面皮膚病変検出に向けた畳み込みニューラルネットワーク

Convolutional Neural Networks Towards Facial Skin Lesions Detection ( http://arxiv.org/abs/2402.08592v1 )

ライセンス: Link先を確認
Reza Sarshar, Mohammad Heydari, Elham Akhondzadeh Noughabi(参考訳) 顔分析は化粧品の手術プログラム、美容産業、写真、エンターテイメントなど様々な応用分野において顕著な研究領域として現れてきた。 患者イメージを操作するには、プロの画像処理ソフトウェアが必要となることが多い。 本研究は、畳み込みニューラルネットワークと機械学習アプローチにより、顔画像上のブレニッシュや皮膚病変の検出を容易にするモデルを提供することによって貢献する。 提案手法は,従来の手法に係わる複雑さを回避しつつ,単純なアーキテクチャや速度,画像処理に適するといった利点を提供する。 このモデルは、領域選択、選択された領域の走査、病変の診断、同定された病変のマークの4つの主要なステップからなる。 この研究のためのデータは、テヘランのスキンケアと美容サービスに特化した信頼できるクリニックから収集された。 データセットは、管理情報、臨床データ、顔およびプロフィール画像を含む。 この生データから合計2300件の患者画像が抽出された。 ソフトウェアツールは2人の治療専門家から入力を受けながら、病気の収穫とラベル付けのために開発された。 病変形成段階では,選択領域は50×50ピクセルに標準化された。 その後,病変ラベリングに畳み込みニューラルネットワークモデルを用いた。 分類モデルでは, 正常皮膚では0.98, 病変皮膚では0.97と高い精度を示した。 内部バリデーションには性能指標とクロスバリデーションが含まれ、外部バリデーションはモデルのパフォーマンス指標とVgg16ディープネットワークモデルを用いた転送学習手法を比較した。 既存の研究と比較して,本研究の結果は,提案するモデルと手法の有効性と期待性を示している。

Facial analysis has emerged as a prominent area of research with diverse applications, including cosmetic surgery programs, the beauty industry, photography, and entertainment. Manipulating patient images often necessitates professional image processing software. This study contributes by providing a model that facilitates the detection of blemishes and skin lesions on facial images through a convolutional neural network and machine learning approach. The proposed method offers advantages such as simple architecture, speed and suitability for image processing while avoiding the complexities associated with traditional methods. The model comprises four main steps: area selection, scanning the chosen region, lesion diagnosis, and marking the identified lesion. Raw data for this research were collected from a reputable clinic in Tehran specializing in skincare and beauty services. The dataset includes administrative information, clinical data, and facial and profile images. A total of 2300 patient images were extracted from this raw data. A software tool was developed to crop and label lesions, with input from two treatment experts. In the lesion preparation phase, the selected area was standardized to 50 * 50 pixels. Subsequently, a convolutional neural network model was employed for lesion labeling. The classification model demonstrated high accuracy, with a measure of 0.98 for healthy skin and 0.97 for lesioned skin specificity. Internal validation involved performance indicators and cross-validation, while external validation compared the model's performance indicators with those of the transfer learning method using the Vgg16 deep network model. Compared to existing studies, the results of this research showcase the efficacy and desirability of the proposed model and methodology.
翻訳日:2024-02-14 14:27:16 公開日:2024-02-13
# ツリーアンサンブルにおける反復回避攻撃の高速化

Faster Repeated Evasion Attacks in Tree Ensembles ( http://arxiv.org/abs/2402.08586v1 )

ライセンス: Link先を確認
Lorenzo Cascioli, Laurens Devos, Ond\v{r}ej Ku\v{z}elka, Jesse Davis(参考訳) ツリーアンサンブルは最も広く使われているモデルクラスの一つである。 しかし、これらのモデルは敵対的な例、すなわち、誤解を引き起こすわずかに摂動した例に影響を受けやすい。 樹木アンサンブルのこのような例を構築するための設計手法に関する研究が盛んである。 しかし、これは計算的に難しい問題であり、しばしば何度も解かなければならない(例:トレーニングセットのすべての例)。 これは、現在のアプローチがこのような例をスクラッチから探そうとしているという事実によって複合化されている。 対照的に、我々は複数の同様の問題が解決されているという事実を利用する。 具体的には,樹木のアンサンブルに対する敵対的な例は,一貫したが比較的小さな特徴を摂動する傾向にあるという知見を利用する。 我々はこれらの特徴を素早く識別し、この知識を用いて敵の例の構築を高速化できることを示します。

Tree ensembles are one of the most widely used model classes. However, these models are susceptible to adversarial examples, i.e., slightly perturbed examples that elicit a misprediction. There has been significant research on designing approaches to construct such examples for tree ensembles. But this is a computationally challenging problem that often must be solved a large number of times (e.g., for all examples in a training set). This is compounded by the fact that current approaches attempt to find such examples from scratch. In contrast, we exploit the fact that multiple similar problems are being solved. Specifically, our approach exploits the insight that adversarial examples for tree ensembles tend to perturb a consistent but relatively small set of features. We show that we can quickly identify this set of features and use this knowledge to speedup constructing adversarial examples.
翻訳日:2024-02-14 14:26:54 公開日:2024-02-13
# リンク予測器の混合

Mixture of Link Predictors ( http://arxiv.org/abs/2402.08583v1 )

ライセンス: Link先を確認
Li Ma, Haoyu Han, Juanhui Li, Harry Shomer, Hui Liu, Xiaofeng Gao, Jiliang Tang(参考訳) グラフ内の見えない接続を予測することを目的としたリンク予測は、グラフ機械学習の基本的なタスクである。 共通近傍や最短経路など、様々なペアワイズ尺度を活用するヒューリスティックな手法は、しばしばバニラグラフニューラルネットワーク(gnn)のパフォーマンスに匹敵する。 したがって、リンク予測のためのGNN(GNN4LP)の最近の進歩は、主に1つまたは数種類のペア情報の統合に焦点を当てている。 本研究では,同じデータセット内の異なるノードペアが,同じペアの情報のみを一様に適用したモデルと正確な予測のために様々なペアワイズ情報を必要とすることを明らかにする。 その結果,リンク予測のためのエキスパートモデルLink-MoEを簡易に組み合わせて提案する。 Link-MoEは様々なGNNを専門家として利用し、様々な種類のペア情報に基づいて各ノードペアの適切な専門家を戦略的に選択する。 さまざまな実世界のデータセットに対する実験結果は、Link-MoEによる大幅なパフォーマンス向上を示している。 特に、Link-MoE は Pubmed データセットの MRR の 18.82 % と ogbl-ppa データセットの Hits@100 の 10.8 % の相対的な改善を実現している。

Link prediction, which aims to forecast unseen connections in graphs, is a fundamental task in graph machine learning. Heuristic methods, leveraging a range of different pairwise measures such as common neighbors and shortest paths, often rival the performance of vanilla Graph Neural Networks (GNNs). Therefore, recent advancements in GNNs for link prediction (GNN4LP) have primarily focused on integrating one or a few types of pairwise information. In this work, we reveal that different node pairs within the same dataset necessitate varied pairwise information for accurate prediction and models that only apply the same pairwise information uniformly could achieve suboptimal performance. As a result, we propose a simple mixture of experts model Link-MoE for link prediction. Link-MoE utilizes various GNNs as experts and strategically selects the appropriate expert for each node pair based on various types of pairwise information. Experimental results across diverse real-world datasets demonstrate substantial performance improvement from Link-MoE. Notably, Link-MoE achieves a relative improvement of 18.82\% on the MRR metric for the Pubmed dataset and 10.8\% on the Hits@100 metric for the ogbl-ppa dataset, compared to the best baselines.
翻訳日:2024-02-14 14:26:41 公開日:2024-02-13
# SAGMAN: マニフォールド上のグラフニューラルネットワークの安定性解析

SAGMAN: Stability Analysis of Graph Neural Networks on the Manifolds ( http://arxiv.org/abs/2402.08653v1 )

ライセンス: Link先を確認
Wuxinlin Cheng, Chenhui Deng, Ali Aghdaei, Zhiru Zhang, Zhuo Feng(参考訳) 現代のグラフニューラルネットワーク(GNN)は入力グラフ構造やノードの特徴の変化に敏感であり、予測不可能な振る舞いや性能低下をもたらす可能性がある。 本稿では,GNNの安定性を調べるためのSAGMANと呼ばれるスペクトルフレームワークを提案する。 この枠組みは、入力多様体と出力多様体の間のGNNの非線形写像から生じる距離歪みを評価し、入力多様体上の2つの近傍ノードを(GNNモデルを介して)出力多様体上の2つの離れたノードにマッピングした場合、大きな距離歪みを示し、したがってGNNの安定性が低下する。 本稿では,スペクトルグラフ埋め込みと確率的グラフィカルモデル(pgms)を用いて,低次元の入出力グラフベース多様体を有意な安定性解析のために作成する,距離保存グラフ次元縮小(gdr)手法を提案する。 SAGMANは様々なエッジや特徴摂動を受ける場合,各ノードの安定性を効果的に評価し,GNNの安定性を評価するためのスケーラブルなアプローチを提供し,レコメンデーションシステム内のアプリケーションに拡張する。 さらに,下流タスク,特にgnnの安定性向上と敵対的標的攻撃の促進に有用性を示す。

Modern graph neural networks (GNNs) can be sensitive to changes in the input graph structure and node features, potentially resulting in unpredictable behavior and degraded performance. In this work, we introduce a spectral framework known as SAGMAN for examining the stability of GNNs. This framework assesses the distance distortions that arise from the nonlinear mappings of GNNs between the input and output manifolds: when two nearby nodes on the input manifold are mapped (through a GNN model) to two distant ones on the output manifold, it implies a large distance distortion and thus a poor GNN stability. We propose a distance-preserving graph dimension reduction (GDR) approach that utilizes spectral graph embedding and probabilistic graphical models (PGMs) to create low-dimensional input/output graph-based manifolds for meaningful stability analysis. Our empirical evaluations show that SAGMAN effectively assesses the stability of each node when subjected to various edge or feature perturbations, offering a scalable approach for evaluating the stability of GNNs, extending to applications within recommendation systems. Furthermore, we illustrate its utility in downstream tasks, notably in enhancing GNN stability and facilitating adversarial targeted attacks.
翻訳日:2024-02-14 14:19:33 公開日:2024-02-13
# 量子分類器に対するユニバーサル逆摂動の生成

Generating Universal Adversarial Perturbations for Quantum Classifiers ( http://arxiv.org/abs/2402.08648v1 )

ライセンス: Link先を確認
Gautham Anil, Vishnu Vinod, Apurva Narayan(参考訳) 量子機械学習(QML)は、量子コンピューティングの能力を活用し、既存の機械学習方法論を強化することを目的として、将来的な研究分野として登場した。 最近の研究では、古典的モデルと同様に、パラメトリズド量子回路(pqcs)に基づくqmlモデルも逆攻撃に弱いことが示されている。 さらに、量子領域における普遍逆摂動(UAP)の存在は、量子分類器の文脈で理論的に実証されている。 本稿では,量子分類器のためのUAPを生成する新しいフレームワークQuGAPを紹介する。 PQCに基づく分類器に対する付加的 UAP の概念を概念化し,その存在を理論的に実証する。 次に、生成モデル(QuGAP-A)を用いて、付加的なUAPを作成し、量子分類器がそのような攻撃の影響を受けやすいことを示す。 さらに、量子生成モデルを用いたユニタリUAP(QuGAP-U)の生成法と、忠実度制約に基づく新しい損失関数を定式化する。 提案手法の性能を評価し,本手法が正統と反対のサンプル間の高い忠実性を維持しつつ,最先端の誤分類率を達成していることを示す。

Quantum Machine Learning (QML) has emerged as a promising field of research, aiming to leverage the capabilities of quantum computing to enhance existing machine learning methodologies. Recent studies have revealed that, like their classical counterparts, QML models based on Parametrized Quantum Circuits (PQCs) are also vulnerable to adversarial attacks. Moreover, the existence of Universal Adversarial Perturbations (UAPs) in the quantum domain has been demonstrated theoretically in the context of quantum classifiers. In this work, we introduce QuGAP: a novel framework for generating UAPs for quantum classifiers. We conceptualize the notion of additive UAPs for PQC-based classifiers and theoretically demonstrate their existence. We then utilize generative models (QuGAP-A) to craft additive UAPs and experimentally show that quantum classifiers are susceptible to such attacks. Moreover, we formulate a new method for generating unitary UAPs (QuGAP-U) using quantum generative models and a novel loss function based on fidelity constraints. We evaluate the performance of the proposed framework and show that our method achieves state-of-the-art misclassification rates, while maintaining high fidelity between legitimate and adversarial samples.
翻訳日:2024-02-14 14:19:10 公開日:2024-02-13
# データからのシンボリック推論の統一的説明のための抽象化の推論

Inference of Abstraction for a Unified Account of Symbolic Reasoning from Data ( http://arxiv.org/abs/2402.08646v1 )

ライセンス: Link先を確認
Hiroyuki Kido(参考訳) 脳機能に対するベイズ的アプローチに対する神経科学の実証研究に触発され、データから様々な種類の記号的推論を統一的確率論的に説明できる。 古典的帰結関係,経験的帰結関係,極大一貫性集合,極大可能集合,最大確率推定を用いて形式論理の観点から特徴付ける。 この理論は、人間のような機械知能に対する推論に新たな洞察を与える。

Inspired by empirical work in neuroscience for Bayesian approaches to brain function, we give a unified probabilistic account of various types of symbolic reasoning from data. We characterise them in terms of formal logic using the classical consequence relation, an empirical consequence relation, maximal consistent sets, maximal possible sets and maximum likelihood estimation. The theory gives new insights into reasoning towards human-like machine intelligence.
翻訳日:2024-02-14 14:18:51 公開日:2024-02-13
# 残酷な学習のカーテンの後ろを覗く

Peeking Behind the Curtains of Residual Learning ( http://arxiv.org/abs/2402.08645v1 )

ライセンス: Link先を確認
Tunhou Zhang, Feng Yan, Hai Li, Yiran Chen(参考訳) 深層およびスケーラブルなニューラルネットワークでは,残差学習の利用が広く普及している。 しかし,残差学習の成功に寄与する基本原理はいまだ解明されていないため,深度拡張性のある平網の効果的な訓練を妨げている。 本稿では,非線形性によって入力が徐々に平らな層に分散し,特徴表現の学習が困難になるという,平易なニューラルネットの収束不全につながる「散逸する入力」現象を明らかにすることで,残差学習の幕裏を垣間見る。 理論的には、ニューラルネットワークがランダムノイズへの入力をいかに退避させるかを示し、残余接続の重要さを強調し、生存するニューロンのより低い境界を解として維持する。 理論的な発見により,非線形層を横断する内部経路を残留学習の最も重要な部分として同定する「プレーンニューラルネット仮説(pnnh)」を提案し,残留接続のない深いプレーンニューラルネットの訓練を支援するパラダイムを確立した。 我々は,PNNH対応CNNアーキテクチャとトランスフォーマーを一般的なビジョンベンチマーク上で徹底的に評価し,トレーニングスループットが最大0.3%向上し,ResNetやビジョントランスフォーマーに比べてパラメータ効率が2倍向上したことを示す。

The utilization of residual learning has become widespread in deep and scalable neural nets. However, the fundamental principles that contribute to the success of residual learning remain elusive, thus hindering effective training of plain nets with depth scalability. In this paper, we peek behind the curtains of residual learning by uncovering the "dissipating inputs" phenomenon that leads to convergence failure in plain neural nets: the input is gradually compromised through plain layers due to non-linearities, resulting in challenges of learning feature representations. We theoretically demonstrate how plain neural nets degenerate the input to random noise and emphasize the significance of a residual connection that maintains a better lower bound of surviving neurons as a solution. With our theoretical discoveries, we propose "The Plain Neural Net Hypothesis" (PNNH) that identifies the internal path across non-linear layers as the most critical part in residual learning, and establishes a paradigm to support the training of deep plain neural nets devoid of residual connections. We thoroughly evaluate PNNH-enabled CNN architectures and Transformers on popular vision benchmarks, showing on-par accuracy, up to 0.3% higher training throughput, and 2x better parameter efficiency compared to ResNets and vision Transformers.
翻訳日:2024-02-14 14:18:43 公開日:2024-02-13
# 効率的なllmのためのタンデム変圧器

Tandem Transformers for Inference Efficient LLMs ( http://arxiv.org/abs/2402.08644v1 )

ライセンス: Link先を確認
Aishwarya P S and Pranav Ajit Nair and Yashas Samaga and Toby Boyd and Sanjiv Kumar and Prateek Jain and Praneeth Netrapalli(参考訳) 従来の大規模言語モデル(LLM)の自己回帰特性は、トークンが順次生成されるため、本質的に推論速度を制限する。 投機的および並列復号法は、これを緩和しようとするが、それらには制限がある: 生成のためにより少ない精度の小さなモデルに頼るか、基本的なLCMの表現を完全に活用できない。 これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。 このアーキテクチャは、(1)小さな自己回帰モデル、(2)ブロックモードで動作する大きなモデル(複数のトークンを同時に処理する)を組み合わせている。 小さなモデルの予測精度は、大きなモデルのよりリッチな表現に注意を向けることで大幅に向上する。 PaLM2事前トレーニングデータセットでは、PaLM2-BisonとPaLM2-GeckoのタンデムがスタンドアロンのPaLM2-Geckoよりも3.3%改善され、同等のダウンストリームパフォーマンスを持つPaLM2-Otterモデルと比較して1.16倍のスピードアップを提供する。 我々はさらに、大きなモデルが小さなモデルからのトークンを検証する投機的復号化(SPEED)フレームワークにタンデムモデルを組み込む。 これにより、PaLM2-BisonとPaLM2-Geckoのタンデムは、同一の下流タスク精度を維持しながら、相当なスピードアップ(SPEEDでバニラPaLM2-Geckoを使用するよりも約1.14倍高速)を達成する。

The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially. While speculative and parallel decoding techniques attempt to mitigate this, they face limitations: either relying on less accurate smaller models for generation or failing to fully leverage the base LLM's representations. We introduce a novel architecture, Tandem transformers, to address these issues. This architecture uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously). The small model's predictive accuracy is substantially enhanced by granting it attention to the large model's richer representations. On the PaLM2 pretraining dataset, a tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16x speedup compared to a PaLM2-Otter model with comparable downstream performance. We further incorporate the tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14x faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy.
翻訳日:2024-02-14 14:18:19 公開日:2024-02-13
# テキスト品質向上による学習画像圧縮

Learned Image Compression with Text Quality Enhancement ( http://arxiv.org/abs/2402.08643v1 )

ライセンス: Link先を確認
Chih-Yu Lai, Dung Tran, and Kazuhito Koishida(参考訳) 学習した画像圧縮は、超低ビットレートを達成する効率で広く人気を集めている。 しかし、テキストコンテンツ、特にスクリーンコンテンツ画像(SCI)を含む画像は、しばしばそのような圧縮されたレベルでのテキスト歪みに悩まされる。 そこで本研究では,オリジナル画像と再構成画像間のテキストの相違を定量化するために設計された,新たなテキストロジット損失を最小限に抑えることを提案する。 多様なデータセットにまたがって厳密な実験を行い,最先端のアルゴリズムを用いることにより,提案する損失関数と適切な重み付けを統合することで,復元されたテキストの品質が大幅に向上することを示す。 特に,bjontegaard delta (bd) レートは文字誤り率 (cer) が-32.64%,ワードエラー率 (wer) が-28.03%であった。 さらに,画像圧縮タスクのテキスト品質を評価するための定量的指標を提案する。 本研究は,テキスト認識画像圧縮コンテキストにおけるテキストロジット損失関数の有効性と可能性を明らかにするものである。

Learned image compression has gained widespread popularity for their efficiency in achieving ultra-low bit-rates. Yet, images containing substantial textual content, particularly screen-content images (SCI), often suffers from text distortion at such compressed levels. To address this, we propose to minimize a novel text logit loss designed to quantify the disparity in text between the original and reconstructed images, thereby improving the perceptual quality of the reconstructed text. Through rigorous experimentation across diverse datasets and employing state-of-the-art algorithms, our findings reveal significant enhancements in the quality of reconstructed text upon integration of the proposed loss function with appropriate weighting. Notably, we achieve a Bjontegaard delta (BD) rate of -32.64% for Character Error Rate (CER) and -28.03% for Word Error Rate (WER) on average by applying the text logit loss for two screenshot datasets. Additionally, we present quantitative metrics tailored for evaluating text quality in image compression tasks. Our findings underscore the efficacy and potential applicability of our proposed text logit loss function across various text-aware image compression contexts.
翻訳日:2024-02-14 14:17:48 公開日:2024-02-13
# SemRel2024: 14言語用セマンティックテキスト関連データセットのコレクション

SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages ( http://arxiv.org/abs/2402.08638v1 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad(参考訳) 意味的関連性の探索と定量化は言語表現の中心である。 LLM(Large Language Models)の機能とパフォーマンスに関する洞察を提供するなど、さまざまなNLPタスクにまたがる重要な意味を持っている。 初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、代わりに意味的関連性のより広範な現象を調査した。 本稿では,14ヶ国語(アフリカーンス語,アルジェリア語,アムハラ語,英語,ハウサ語,ヒンディー語,インドネシア語,キニアルワンダ語,マラティ語,モロッコ語,現代標準アラビア語,パンジャビ語,スペイン語,テルグ語)の母語話者による新しい意味関連性データセットであるsemrelを提案する。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 スコアは比較アノテーションフレームワークを用いて得られる。 データ収集とアノテーションプロセス、データセット構築時の課題、NLPにおけるそれらの影響と有用性について説明する。 さらに、各言語および異なる言語に対する実験を報告します。

Exploring and quantifying semantic relatedness is central to representing language. It holds significant implications across various NLP tasks, including offering insights into the capabilities and performance of Large Language Models (LLMs). While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present SemRel, a new semantic relatedness dataset collection annotated by native speakers across 14 languages:Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, related challenges when building the datasets, and their impact and utility in NLP. We further report experiments for each language and across the different languages.
翻訳日:2024-02-14 14:17:29 公開日:2024-02-13
# プライスオークションにおける非学習者に対する戦略

Strategizing against No-Regret Learners in First-Price Auctions ( http://arxiv.org/abs/2402.08637v1 )

ライセンス: Link先を確認
Aviad Rubinstein and Junyao Zhao(参考訳) 本研究では,学習者の1人である1人のプレイヤーが学習アルゴリズムを駆使し,もう1人のプレイヤーであるオプティマイザは学習者のアルゴリズムを知ることで,学習者の利便性を最大化するために戦略を練り上げた。 平均ベースアルゴリズムと呼ばれる非回帰学習アルゴリズムの一般的なクラスでは、 (i) 標準(フル情報)の最初の価格オークションでは、オプティマイザはStackelbergユーティリティ(文献の標準ベンチマーク)以上のものを得ることはできないが、 (ii) ベイズ第一価格オークションでは、最適化器がスタックルベルクユーティリティよりもずっと高い価格を実現できる例がある。 一方、Mansour et al. (2022) は「no-polytope-swap-regretアルゴリズム」と呼ばれるより洗練されたアルゴリズムのクラスは、任意のベイズ的ゲーム(ベイズ第一価格オークションを含む)において、最適化者のユーティリティをStackelbergユーティリティに格納するのに十分であることを示した。 一般的なベイズゲームでは、合理的かつ必要条件の下で、オプティマイザの効用を捉えるために、ポリトープ・スワップ・レグレットアルゴリズムが本当に必要でないことを証明する。 ベイズ第一価格オークションに対しては,ベイズ第一価格オークションの構造を利用して,ポリトープスワップ後悔を最小化するための標準アルゴリズムを簡易に改良する。

We study repeated first-price auctions and general repeated Bayesian games between two players, where one player, the learner, employs a no-regret learning algorithm, and the other player, the optimizer, knowing the learner's algorithm, strategizes to maximize its own utility. For a commonly used class of no-regret learning algorithms called mean-based algorithms, we show that (i) in standard (i.e., full-information) first-price auctions, the optimizer cannot get more than the Stackelberg utility -- a standard benchmark in the literature, but (ii) in Bayesian first-price auctions, there are instances where the optimizer can achieve much higher than the Stackelberg utility. On the other hand, Mansour et al. (2022) showed that a more sophisticated class of algorithms called no-polytope-swap-regret algorithms are sufficient to cap the optimizer's utility at the Stackelberg utility in any repeated Bayesian game (including Bayesian first-price auctions), and they pose the open question whether no-polytope-swap-regret algorithms are necessary to cap the optimizer's utility. For general Bayesian games, under a reasonable and necessary condition, we prove that no-polytope-swap-regret algorithms are indeed necessary to cap the optimizer's utility and thus answer their open question. For Bayesian first-price auctions, we give a simple improvement of the standard algorithm for minimizing the polytope swap regret by exploiting the structure of Bayesian first-price auctions.
翻訳日:2024-02-14 14:17:03 公開日:2024-02-13
# BdSLW60: ワードレベルバングラ手話データセット

BdSLW60: A Word-Level Bangla Sign Language Dataset ( http://arxiv.org/abs/2402.08635v1 )

ライセンス: Link先を確認
Husne Ara Rubaiyeat, Hasan Mahmud, Ahsan Habib, Md. Kamrul Hasan(参考訳) 手話の会話は、聴覚障害者や難聴者にとって、日常的なコミュニケーションの重要な手段である。 しかしながら、Bandgla Sign Language (BdSL)の研究は、主にデータセットの欠如により、顕著な制限に直面している。 BdSL (WL-BdSL) におけるワードレベル記号の認識には、よくアノテーションされたデータセットの必要性、顔や手のランドマークから手の動きの動的な性質を捉えること、適切な機械学習やディープラーニングベースのモデルを開発することなど、さまざまな課題がある。 本稿では,BdSLW60という単語レベルの包括的データセットを非拘束かつ自然な設定で作成し,位置や時間的変化を可能とし,手指による手指支配を自由に変更できるようにすることにより,これらの課題に対処する。 データセットは60のバングラ手話語を包含しており、手話の専門家の監督下で18人の手話家によって提供された9307のビデオトライアルのかなりの規模がある。 データセットは厳密にアノテーションされ、60のアノテーションによってクロスチェックされた。 また,ランドマークに基づく手指ジェスチャ認識のための,相対量子化に基づくキーフレーム符号化手法も導入した。 我々は、サポートベクターマシン(svm)を用いたbdslw60データセットのベンチマークを、テスト精度が67.6%、注意に基づくbi-lstmが75.1%と報告した。 データセットはhttps://www.kaggle.com/datasets/hasaniut/bdslw60で入手でき、コードベースはhttps://github.com/hasanssl/BdSLW60_Codeからアクセスできる。

Sign language discourse is an essential mode of daily communication for the deaf and hard-of-hearing people. However, research on Bangla Sign Language (BdSL) faces notable limitations, primarily due to the lack of datasets. Recognizing wordlevel signs in BdSL (WL-BdSL) presents a multitude of challenges, including the need for well-annotated datasets, capturing the dynamic nature of sign gestures from facial or hand landmarks, developing suitable machine learning or deep learning-based models with substantial video samples, and so on. In this paper, we address these challenges by creating a comprehensive BdSL word-level dataset named BdSLW60 in an unconstrained and natural setting, allowing positional and temporal variations and allowing sign users to change hand dominance freely. The dataset encompasses 60 Bangla sign words, with a significant scale of 9307 video trials provided by 18 signers under the supervision of a sign language professional. The dataset was rigorously annotated and cross-checked by 60 annotators. We also introduced a unique approach of a relative quantization-based key frame encoding technique for landmark based sign gesture recognition. We report the benchmarking of our BdSLW60 dataset using the Support Vector Machine (SVM) with testing accuracy up to 67.6% and an attention-based bi-LSTM with testing accuracy up to 75.1%. The dataset is available at https://www.kaggle.com/datasets/hasaniut/bdslw60 and the code base is accessible from https://github.com/hasanssl/BdSLW60_Code.
翻訳日:2024-02-14 14:16:24 公開日:2024-02-13
# ブラックボックス大言語モデルによる知識編集

Knowledge Editing on Black-box Large Language Models ( http://arxiv.org/abs/2402.08631v1 )

ライセンス: Link先を確認
Xiaoshuai Song, Zhengyang Wang, Keqing He, Guanting Dong, Jinxu Zhao, Weiran Xu(参考訳) 知識編集(KE)は、大きな言語モデル(LLM)の振る舞いを効率よく正確に修正し、特定の知識を他の知識に悪影響を及ぼすことなく更新することを目的としている。 ブラックボックス LLM 編集 (Black-box LLMs editing) - LLM がインターフェースを通じてアクセスされ、テキスト出力のみが利用可能である。 ブラックボックスLLM編集には適用不可能で包括性に欠ける既存の評価の限界に対処するために,スタイル保持の評価を初めて取り入れた多視点評価フレームワークを提案する。 編集データのプライバシリークや現在の方法でのスタイルオーバーエディットに対処するために,下流のポストプロセッシングによるプライバシの懸念を解決する新しいpostitフレームワークを導入し,元の応答に対するきめ細かい編集によるテキストスタイルの一貫性を維持する。 2つのベンチマークの実験と分析により、 PostEditはすべてのベースラインを上回り、特にスタイル保持を大幅に改善した(平均$+20.82\%\uparrow$)。

Knowledge editing (KE) aims to efficiently and precisely modify the behavior of large language models (LLMs) to update specific knowledge without negatively influencing other knowledge. Current research primarily focuses on white-box LLMs editing, overlooking an important scenario: black-box LLMs editing, where LLMs are accessed through interfaces and only textual output is available. To address the limitations of existing evaluations that are not inapplicable to black-box LLM editing and lack comprehensiveness, we propose a multi-perspective evaluation framework, incorporating the assessment of style retention for the first time. To tackle privacy leaks of editing data and style over-editing in current methods, we introduce a novel postEdit framework, resolving privacy concerns through downstream post-processing and maintaining textual style consistency via fine-grained editing to original responses. Experiments and analysis on two benchmarks demonstrate that postEdit outperforms all baselines and achieves strong generalization, especially with huge improvements on style retention (average $+20.82\%\uparrow$).
翻訳日:2024-02-14 14:15:50 公開日:2024-02-13
# NeRFアナロジ:NeRFの例に基づく視覚属性伝達

NeRF Analogies: Example-Based Visual Attribute Transfer for NeRFs ( http://arxiv.org/abs/2402.08622v1 )

ライセンス: Link先を確認
Michael Fischer, Zhengqin Li, Thu Nguyen-Phuoc, Aljaz Bozic, Zhao Dong, Carl Marshall, Tobias Ritschel(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元幾何学の特定の関係とシーンの外観を符号化する。 そこで我々は,原点NeRFからターゲット3次元形状への外観の移動を意味的に意味のある方法で行うことができるかどうかを問う。 この目的のために、2次元画像からNeRFへの古典的な画像類似性を一般化する。 我々は,多視点一貫した外観伝達を実現するために,大規模な2次元画像モデルからのセマンティック特徴によって駆動されるセマンティック親和性に沿った対応伝達を利用する。 本手法は3次元形状と外観の混合・マッチング積空間を探索する。 提案手法は従来のスタイリゼーション手法よりも優れており,多くのユーザが一般的なベースラインよりも提案手法を好んでいる。

A Neural Radiance Field (NeRF) encodes the specific relation of 3D geometry and appearance of a scene. We here ask the question whether we can transfer the appearance from a source NeRF onto a target 3D geometry in a semantically meaningful way, such that the resulting new NeRF retains the target geometry but has an appearance that is an analogy to the source NeRF. To this end, we generalize classic image analogies from 2D images to NeRFs. We leverage correspondence transfer along semantic affinity that is driven by semantic features from large, pre-trained 2D image models to achieve multi-view consistent appearance transfer. Our method allows exploring the mix-and-match product space of 3D geometry and appearance. We show that our method outperforms traditional stylization-based methods and that a large majority of users prefer our method over several typical baselines.
翻訳日:2024-02-14 14:15:30 公開日:2024-02-13
# オンライン凸最適化への一般化アプローチ

A Generalized Approach to Online Convex Optimization ( http://arxiv.org/abs/2402.08621v1 )

ライセンス: Link先を確認
Mohammad Pedramfar, Vaneet Aggarwal(参考訳) 本稿では,オンライン凸最適化の問題点を異なる設定で解析する。 完全適応逆数を用いたオンライン線形最適化のアルゴリズムは,オンライン凸最適化のアルゴリズムであることを示す。 また, 完全な情報フィードバックを必要とするアルゴリズムは, 半帯域フィードバックを持つアルゴリズムに変換される可能性があることを示す。 さらに, 決定論的半バンドフィードバックを用いた完全適応型敵に対するアルゴリズムは, 確率的半バンドフィードバックのみを用いて, 同様の境界を得ることができることを示した。 これを用いて、一般的なメタアルゴリズムを記述し、一階アルゴリズムを同様の後悔境界を持つゼロ階アルゴリズムに変換する。 本フレームワークは,全情報フィードバック,盗聴フィードバック,確率的後悔,反逆的後悔,非定常的後悔など,様々な場面でオンライン最適化を解析することができる。 解析により,線形最適化オラクルを用いたプロジェクションフリーオンライン凸最適化アルゴリズムを提案する。

In this paper, we analyze the problem of online convex optimization in different settings. We show that any algorithm for online linear optimization with fully adaptive adversaries is an algorithm for online convex optimization. We also show that any such algorithm that requires full-information feedback may be transformed to an algorithm with semi-bandit feedback with comparable regret bound. We further show that algorithms that are designed for fully adaptive adversaries using deterministic semi-bandit feedback can obtain similar bounds using only stochastic semi-bandit feedback when facing oblivious adversaries. We use this to describe general meta-algorithms to convert first order algorithms to zeroth order algorithms with comparable regret bounds. Our framework allows us to analyze online optimization in various settings, such full-information feedback, bandit feedback, stochastic regret, adversarial regret and various forms of non-stationary regret. Using our analysis, we provide the first efficient projection-free online convex optimization algorithm using linear optimization oracles.
翻訳日:2024-02-14 14:15:17 公開日:2024-02-13
# demystifying quantum power flow: 実用的量子優位性の限界を明らかにする

Demystifying Quantum Power Flow: Unveiling the Limits of Practical Quantum Advantage ( http://arxiv.org/abs/2402.08617v1 )

ライセンス: Link先を確認
Parikshit Pareek, Abhijith Jayakumar, Carleton Coffrin, and Sidhant Misra(参考訳) 量子コンピュータは、古典的なコンピュータ、特に時間と空間の複雑さの問題を解くことを約束している。 パワーフロー問題(pf)を線形方程式系に還元することで、harrow-hassidim-lloyd (hhl) アルゴリズムのような量子線形システム解法に基づく量子パワーフロー(qpf)アルゴリズムの定式化が可能になる。 QPFアルゴリズムによる高速化は、最先端のアルゴリズムによって解決された古典的なPFと比較して指数関数的であると主張されている。 ゲートベース量子コンピュータの古典的手法と比較して,QPFの解法における実用的量子優位性(PQA)の可能性を検討する。 我々はQPFの終端複雑性を慎重に精査し、この問題における量子スピードアップの微妙な評価を提供する。 本稿では,直流電力流(DCPF)問題と高速脱結合負荷流(FDLF)問題におけるPQAの欠如を確定的に証明し,HHL-QPFの複雑性を最良ケース境界とする。 さらに、潜在的PQAが存在するためには、条件数値と読み出し要求の幅が非常に狭いDCPF型問題を考える必要があることを確かめる。

Quantum computers hold promise for solving problems intractable for classical computers, especially those with high time and/or space complexity. The reduction of the power flow (PF) problem into a linear system of equations, allows formulation of quantum power flow (QPF) algorithms, based on quantum linear system solving methods such as the Harrow-Hassidim-Lloyd (HHL) algorithm. The speedup due to QPF algorithms is claimed to be exponential when compared to classical PF solved by state-of-the-art algorithms. We investigate the potential for practical quantum advantage (PQA) in solving QPF compared to classical methods on gate-based quantum computers. We meticulously scrutinize the end-to-end complexity of QPF, providing a nuanced evaluation of the purported quantum speedup in this problem. Our analysis establishes a best-case bound for the HHL-QPF complexity, conclusively demonstrating the absence of any PQA in the direct current power flow (DCPF) and fast decoupled load flow (FDLF) problem. Additionally, we establish that for potential PQA to exist it is necessary to consider DCPF-type problems with a very narrow range of condition number values and readout requirements.
翻訳日:2024-02-14 14:15:02 公開日:2024-02-13
# 調整識別距離:因果構造学習のためのgadjid

Adjustment Identification Distance: A gadjid for Causal Structure Learning ( http://arxiv.org/abs/2402.08616v1 )

ライセンス: Link先を確認
Leonard Henckel and Theo W\"urtzen and Sebastian Weichwald(参考訳) 因果探索アルゴリズムによって学習されたグラフの評価は困難である: 2つのグラフ間で異なるエッジの数は、因果効果を示唆する公式の特定に関してグラフがどのように異なるかを反映していない。 本稿では,有向非巡回グラフの構造的介入距離を含むグラフ間の因果距離を開発するためのフレームワークを提案する。 この枠組みを改良した調整ベース距離と、部分有向非巡回グラフと因果順序の拡張に利用する。 多項式時間到達性アルゴリズムを開発し,その距離を効率的に計算する。 当社のパッケージgadjid(https://github.com/CausalDisco/gadjid)では,構造的介入距離よりも桁違いに早く,従来禁止されていたグラフサイズにスケールする因果発見の成功指標を提供する。

Evaluating graphs learned by causal discovery algorithms is difficult: The number of edges that differ between two graphs does not reflect how the graphs differ with respect to the identifying formulas they suggest for causal effects. We introduce a framework for developing causal distances between graphs which includes the structural intervention distance for directed acyclic graphs as a special case. We use this framework to develop improved adjustment-based distances as well as extensions to completed partially directed acyclic graphs and causal orders. We develop polynomial-time reachability algorithms to compute the distances efficiently. In our package gadjid (open source at https://github.com/CausalDisco/gadjid), we provide implementations of our distances; they are orders of magnitude faster than the structural intervention distance and thereby provide a success metric for causal discovery that scales to graph sizes that were previously prohibitive.
翻訳日:2024-02-14 14:14:38 公開日:2024-02-13
# IM-3D:高品位3次元生成のための反復多視点拡散と再構成

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation ( http://arxiv.org/abs/2402.08682v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos(参考訳) ほとんどのtext-to-3dジェネレータは、何十億もの画像でトレーニングされた既製のtext-to-imageモデル上に構築されている。 スコア蒸留サンプリング(sds: score distillation sampling)は、ゆっくりと、やや不安定で、アーティファクトになりやすい、スコア蒸留サンプリングの変種である。 緩和とは、2Dジェネレータをマルチビューに微調整することで、蒸留を助けたり、再構築ネットワークと組み合わせて直接3Dオブジェクトを出力したりすることができる。 本稿では,テキスト・ツー・3Dモデルの設計空間をさらに探求する。 画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。 gaussian splattingを用いてロバストなイメージベースロスを最適化する3d再構成アルゴリズムと組み合わせることで,生成したビューから高品質な3d出力を直接生成する。 IM-3Dは2Dジェネレータネットワーク10-100xの評価数を削減し,パイプラインの効率向上,品質向上,幾何学的不整合の低減,使用可能な3Dアセットの高収率を実現した。

Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.
翻訳日:2024-02-14 14:07:53 公開日:2024-02-13
# 分類自由誘導による大規模視覚言語モデルにおける物体幻覚の緩和

Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance ( http://arxiv.org/abs/2402.08680v1 )

ライセンス: Link先を確認
Linxi Zhao and Yihe Deng and Weitong Zhang and Quanquan Gu(参考訳) LVLM(Large Vision-Language Models)の進歩は、画像中の既存の物体を幻覚させる傾向の重大な問題を強調している。 この問題に対処するため、以前の研究は特別にキュレートされたデータセットや強力なLCM(例えば、GPT-3.5)を使用してLVLMの出力を修正することに焦点を当てていた。 しかし、これらのアプローチには、高価なトレーニング/ファインチューニングまたは高度なLCMへのAPIアクセスが必要である。 本稿では,学習フリーかつapiフリーなmarine(classifier-free guidance)による幻覚の緩和という枠組みを導入し,生成過程におけるオブジェクト幻覚を効果的かつ効率的に低減する手法を提案する。 特に、MARINEは既存のオープンソースビジョンモデルを統合することでLVLMの視覚的コンテキストを豊かにし、LVLMの世代を精度良くするために、追加のオブジェクトグラウンド機能を統合するために分類器のないガイダンスを採用している。 様々な評価指標を持つ6ドルのLVLMの総合評価を通じて、既存の微調整手法よりも優れたMARINEの有効性を実証する。 興味深いことに、GPT-4Vで評価されるように、幻覚を減少させるだけでなく、LVLMs世代の詳細性も向上する。

The advancement of Large Vision-Language Models (LVLMs) has increasingly highlighted the critical issue of their tendency to hallucinate non-existing objects in the images. To address this issue, previous works focused on using specially curated datasets or powerful LLMs (e.g., GPT-3.5) to rectify the outputs of LVLMs. However, these approaches require either expensive training/fine-tuning or API access to advanced LLMs to correct the model's output post-generation. In this paper, we tackle this challenge by introducing a framework called Mitigating hallucinAtion via classifieR-Free guIdaNcE (MARINE), which is both training-free and API-free, and can effectively and efficiently reduce object hallucinations during the generation process. Specifically, MARINE enriches the visual context of LVLMs by integrating existing open-source vision models, and employs classifier-free guidance to incorporate the additional object grounding features to improve the precision of LVLMs' generations. Through comprehensive evaluations across $6$ popular LVLMs with diverse evaluation metrics, we demonstrate the effectiveness of MARINE, which even outperforms existing fine-tuning-based methods. Remarkably, it not only reduces hallucinations but also improves the detailedness of LVLMs' generations, as assessed by GPT-4V.
翻訳日:2024-02-14 14:07:05 公開日:2024-02-13
# コールドアタック:ステルス性と制御性を備えた脱獄llm

COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability ( http://arxiv.org/abs/2402.08679v1 )

ライセンス: Link先を確認
Xingang Guo, Fangxu Yu, Huan Zhang, Lianhui Qin, Bin Hu(参考訳) 大規模言語モデル(LLM)のジェイルブレイクは、最近注目を集めている。 LLMの安全性を総合的に評価するためには、文脈的コヒーレンスや感情・スティリスティックなバリエーションなどの多様な属性を持つジェイルブレイクを検討することが不可欠であり、制御可能なジェイルブレイク、すなわちLLM攻撃の制御方法を研究することが有用である。 本稿では,制御可能な攻撃生成問題を形式的に定式化し,この問題と自然言語処理の話題である制御可能なテキスト生成との新たな接続を構築する。 この接続に基づき,制御可能なテキスト生成における最先端かつ高効率なアルゴリズムであるlangevin dynamics (cold) を用いて,エネルギーベースの制約付きデコーディングを適応させ,フルエンシ,ステルス性,感情,左右コヒーレンスといったさまざまな制御要件の下で,敵対的llm攻撃の検索を統一し,自動化するコールドアタックフレームワークを導入する。 COLD-Attackによって実現された制御性は、流動的なサフィックス攻撃を発生させる標準的な設定をカバーできるだけでなく、最小のパラフレーズでユーザクエリを反対に修正したり、左コヒーレンスでコンテキストにステルス攻撃を挿入したりといった、新たな制御可能なアタック設定に対処できるような、多様な新しいjailbreakシナリオをもたらす。 LLM(Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5)の多種多様な実験により, COLD-Attackの広い適用性, 強い制御性, 高い成功率, 攻撃伝達性を示した。 私たちのコードはhttps://github.com/Yu-Fangxu/COLD-Attack.comから入手可能です。

Jailbreaks on Large language models (LLMs) have recently received increasing attention. For a comprehensive assessment of LLM safety, it is essential to consider jailbreaks with diverse attributes, such as contextual coherence and sentiment/stylistic variations, and hence it is beneficial to study controllable jailbreaking, i.e. how to enforce control on LLM attacks. In this paper, we formally formulate the controllable attack generation problem, and build a novel connection between this problem and controllable text generation, a well-explored topic of natural language processing. Based on this connection, we adapt the Energy-based Constrained Decoding with Langevin Dynamics (COLD), a state-of-the-art, highly efficient algorithm in controllable text generation, and introduce the COLD-Attack framework which unifies and automates the search of adversarial LLM attacks under a variety of control requirements such as fluency, stealthiness, sentiment, and left-right-coherence. The controllability enabled by COLD-Attack leads to diverse new jailbreak scenarios which not only cover the standard setting of generating fluent suffix attacks, but also allow us to address new controllable attack settings such as revising a user query adversarially with minimal paraphrasing, and inserting stealthy attacks in context with left-right-coherence. Our extensive experiments on various LLMs (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5) show COLD-Attack's broad applicability, strong controllability, high success rate, and attack transferability. Our code is available at https://github.com/Yu-Fangxu/COLD-Attack.
翻訳日:2024-02-14 14:06:25 公開日:2024-02-13
# Graph Mamba: ステートスペースモデルによるグラフ学習を目指して

Graph Mamba: Towards Learning on Graphs with State Space Models ( http://arxiv.org/abs/2402.08678v1 )

ライセンス: Link先を確認
Ali Behrouz and Farnoosh Hashemi(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において有望な可能性を示している。 GNNの大多数は、複数のレイヤを積み重ねることで、グラフ上の情報を伝搬するローカルメッセージパッシングメカニズムを定義している。 しかし、これらのメソッドには2つの大きな制限が伴うことが知られている。 最近、メッセージパッシングニューラルネットワーク(MPNN)の強力な代替手段としてグラフトランスフォーマー(GT)が登場した。 しかし、GTは2次計算コストを持ち、グラフ構造への帰納バイアスがなく、複雑な位置/構造エンコーディング(SE/PE)に依存している。 本稿では,トランスフォーマー,複雑なメッセージパッシング,SE/PEは実運用では十分な性能を示すが,どちらも必要ではないことを示す。 Mambaのような最近の状態空間モデル(SSM)の成功に触発された我々は、選択的なSSMに基づくGNNの新しいクラスのための一般的なフレームワークであるGraph Mamba Networks (GMNs)を紹介する。 グラフ構造データにssmを適用する際の新たな課題を考察し,(1)近傍トークン化,(2)トークン順序付け,(3)双方向選択型ssmエンコーダのアーキテクチャ,(4)局所エンコーディング,(5)pe,seのディスペンサを選択できるgmns設計に必要な4つのステップと1つのオプションステップを提案する。 さらに,gmnsのパワーの理論的正当性についても述べる。 GMNは計算コストがはるかに低いにもかかわらず、長距離、小規模、大規模、ヘテロ親和性のあるベンチマークデータセットにおいて優れた性能を発揮することを示した。

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adopting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.
翻訳日:2024-02-14 14:05:48 公開日:2024-02-13
# 非分離関数を持つ近似メッセージパッシングの収束解析と多クラス分類への応用

A Convergence Analysis of Approximate Message Passing with Non-Separable Functions and Applications to Multi-Class Classification ( http://arxiv.org/abs/2402.08676v1 )

ライセンス: Link先を確認
Burak \c{C}akmak, Yue M. Lu, Manfred Opper(参考訳) 多クラス分類 (Loureiro, et. al., 2021] における凸最適化解析への近距離メッセージパッシング (AMP) の最近の応用により, 非分離多変量非線形性を持つ AMP 力学の収束解析を提案する。 応用として、モチベーション付き凸最適化問題の完全(かつ独立)解析を提案する。

Motivated by the recent application of approximate message passing (AMP) to the analysis of convex optimizations in multi-class classifications [Loureiro, et. al., 2021], we present a convergence analysis of AMP dynamics with non-separable multivariate nonlinearities. As an application, we present a complete (and independent) analysis of the motivated convex optimization problem.
翻訳日:2024-02-14 14:05:16 公開日:2024-02-13
# ニューラルネットワークにおけるインコンテキスト学習による人間のカリキュラム効果

Human Curriculum Effects Emerge with In-Context Learning in Neural Networks ( http://arxiv.org/abs/2402.08674v1 )

ライセンス: Link先を確認
Jacob Russin, Ellie Pavlick, Michael J. Frank(参考訳) 人間の学習は規則のような構造と訓練に使用される例のカリキュラムに敏感である。 簡潔な規則によって管理されるタスクでは、関連する例が試行錯誤によってブロックされると学習がより堅牢になるが、そのような規則がなければインターリービングの方が効果的である。 これまで、これらの一見矛盾した効果を同時に捉えた神経モデルはない。 ここでは、メタラーニングで訓練されたニューラルネットワークと大規模言語モデル(LLM)の両方において、この同じトレードオフが「コンテキスト内学習(ICL)」によって自然に現れることを示す。 ICLは、アクティベーションダイナミクスで実装されたインナーループアルゴリズムを通じて、重み付けなしで、コンテキスト内で新しいタスクを学習する機能である。 事前訓練されたLLMとメタラーニングトランスフォーマーを用いた実験では、ICLはルールのような構造を含むタスクにおいて人間に示されるブロッキングの利点を示し、逆に、同時に重み付き学習は、そのような構造を持たないタスクにおいて人間に観察されるインターリービングの利点を再現する。

Human learning is sensitive to rule-like structure and the curriculum of examples used for training. In tasks governed by succinct rules, learning is more robust when related examples are blocked across trials, but in the absence of such rules, interleaving is more effective. To date, no neural model has simultaneously captured these seemingly contradictory effects. Here we show that this same tradeoff spontaneously emerges with "in-context learning" (ICL) both in neural networks trained with metalearning and in large language models (LLMs). ICL is the ability to learn new tasks "in context" - without weight changes - via an inner-loop algorithm implemented in activation dynamics. Experiments with pretrained LLMs and metalearning transformers show that ICL exhibits the blocking advantage demonstrated in humans on a task involving rule-like structure, and conversely, that concurrent in-weight learning reproduces the interleaving advantage observed in humans on tasks lacking such structure.
翻訳日:2024-02-14 14:05:08 公開日:2024-02-13
# 時間分布シフト下におけるモデル評価と選択

Model Assessment and Selection under Temporal Distribution Shift ( http://arxiv.org/abs/2402.08672v1 )

ライセンス: Link先を確認
Elise Han, Chengpiao Huang, Kaizheng Wang(参考訳) 変化環境におけるモデル評価と選択を,現在の時代と歴史的時代の両方からデータセットを合成することで検討する。 未知かつ潜在的に任意の時間分布シフトに対処するため、与えられたモデルの一般化誤差を推定する適応型ローリングウインドウ手法を開発した。 この戦略はまた、一般化誤差の差を推定することで、任意の2つの候補モデルの比較を促進する。 さらに,ペアワイズ比較をシングルリーミネーショントーナメントに統合し,候補の集まりから最適に近いモデル選択を行う。 理論的解析と数値実験により,提案手法の非定常性に対する適応性を示す。

We investigate model assessment and selection in a changing environment, by synthesizing datasets from both the current time period and historical epochs. To tackle unknown and potentially arbitrary temporal distribution shift, we develop an adaptive rolling window approach to estimate the generalization error of a given model. This strategy also facilitates the comparison between any two candidate models by estimating the difference of their generalization errors. We further integrate pairwise comparisons into a single-elimination tournament, achieving near-optimal model selection from a collection of candidates. Theoretical analyses and numerical experiments demonstrate the adaptivity of our proposed methods to the non-stationarity in data.
翻訳日:2024-02-14 14:04:45 公開日:2024-02-13
# 半密度検出器は局所特徴のマッチングに優れているか?

Are Semi-Dense Detector-Free Methods Good at Matching Local Features? ( http://arxiv.org/abs/2402.08671v1 )

ライセンス: Link先を確認
Matthieu Vilain, R\'emi Giraud, Hugo Germain, Guillaume Bourmaud(参考訳) LoFTRのようなセミセンス検出器フリーアプローチ(SDF)は、現在最も人気のある画像マッチング手法の一つである。 SDF法は2つの画像間の対応性を確立するために訓練されているが、それらの性能は相対的なポーズ推定指標を用いてほぼ独占的に評価されている。 このように、対応を確立する能力と得られた推定ポーズの質との関係は、今のところほとんど注目されていない。 本論文は,このリンクを研究する最初の試みである。 まず、新しい構造化注意型画像マッチングアーキテクチャ(sam)の提案から始める。 これは2つのデータセット(megadepth と hpatches)で直観に反する結果を示すことができる:一方 sam はポーズ/ホログラフィ推定メトリクスの点で sdf メソッドよりも優れており、他方 sdf アプローチは sam よりも精度がかなり優れている。 次に、マッチング精度の計算をテクスチャ化された領域に制限することを提案し、この場合SAMはSDF法を超えることが多いことを示す。 本研究は,テクスチャ領域における正確な対応を確立できる能力と,推定されたポーズ/ホモグラフィの精度との間に強い相関関係を示す。 私たちのコードは利用可能になります。

Semi-dense detector-free approaches (SDF), such as LoFTR, are currently among the most popular image matching methods. While SDF methods are trained to establish correspondences between two images, their performances are almost exclusively evaluated using relative pose estimation metrics. Thus, the link between their ability to establish correspondences and the quality of the resulting estimated pose has thus far received little attention. This paper is a first attempt to study this link. We start with proposing a novel structured attention-based image matching architecture (SAM). It allows us to show a counter-intuitive result on two datasets (MegaDepth and HPatches): on the one hand SAM either outperforms or is on par with SDF methods in terms of pose/homography estimation metrics, but on the other hand SDF approaches are significantly better than SAM in terms of matching accuracy. We then propose to limit the computation of the matching accuracy to textured regions, and show that in this case SAM often surpasses SDF methods. Our findings highlight a strong correlation between the ability to establish accurate correspondences in textured regions and the accuracy of the resulting estimated pose/homography. Our code will be made available.
翻訳日:2024-02-14 14:04:36 公開日:2024-02-13
# Rec-GPT4V:大視野モデルによるマルチモーダル勧告

Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models ( http://arxiv.org/abs/2402.08670v1 )

ライセンス: Link先を確認
Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu(参考訳) 大規模視覚言語モデル(LVLM)の開発は、静的画像やテキストのダイナミックスを十分に理解しているため、従来のマルチモーダルレコメンデーションによって直面する課題に対処する可能性がある。 第一に、LVLMは膨大な汎用データセットからトレーニングされるため、ユーザの好みの知識を欠いている。 第二に、LVLMは離散、ノイズ、冗長な画像シーケンスを含むシナリオにおいて、複数の画像ダイナミクスに対処する際の欠点を負う。 これらの課題を克服するために,多モーダルレコメンデーションに大規模な視覚言語モデルを活用する新しい推論手法Rec-GPT4V: Visual-Summary Thought (VST)を提案する。 ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。 次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。 我々は,GPT4-V,LLaVa-7b,LLaVa-13bの4つのLVLMを用いた総合実験を行った。 その結果, VSTの有効性が示唆された。

The development of large vision-language models (LVLMs) offers the potential to address challenges faced by traditional multimodal recommendations thanks to their proficient understanding of static images and textual dynamics. However, the application of LVLMs in this field is still limited due to the following complexities: First, LVLMs lack user preference knowledge as they are trained from vast general datasets. Second, LVLMs suffer setbacks in addressing multiple image dynamics in scenarios involving discrete, noisy, and redundant image sequences. To overcome these issues, we propose the novel reasoning scheme named Rec-GPT4V: Visual-Summary Thought (VST) of leveraging large vision-language models for multimodal recommendation. We utilize user history as in-context user preferences to address the first challenge. Next, we prompt LVLMs to generate item image summaries and utilize image comprehension in natural language space combined with item titles to query the user preferences over candidate items. We conduct comprehensive experiments across four datasets with three LVLMs: GPT4-V, LLaVa-7b, and LLaVa-13b. The numerical results indicate the efficacy of VST.
翻訳日:2024-02-14 14:04:15 公開日:2024-02-13
# ターゲットスコアマッチング

Target Score Matching ( http://arxiv.org/abs/2402.08667v1 )

ライセンス: Link先を確認
Valentin De Bortoli, Michael Hutchinson, Peter Wirnsberger, Arnaud Doucet(参考訳) Denoising Score Matchingは、回帰損失を最小限に抑えて目標分布の雑音バージョンスコアを推定し、一般的なDenoising Diffusion Modelの訓練に広く使われている。 しかし、Denoising Score Matchingのよく知られた制限は、低騒音レベルにおけるスコアの評価が低いことである。 この問題は、物理科学における問題や、クリーンなオリジナルターゲットのスコアが知られているモンテカルロサンプリングタスクには特に不適当である。 直感的には、ターゲットのわずかにノイズのあるバージョンのスコアを推定することは、そのような場合の簡単なタスクである。 本稿では,この欠点に対処し,目標スコアの知識を活用することが実際に可能であることを示す。 雑音レベルが低い場合に好適な特性が認められるスコア推定値を得るためのターゲットスコア識別と対応するターゲットスコアマッチング回帰損失を提案する。

Denoising Score Matching estimates the score of a noised version of a target distribution by minimizing a regression loss and is widely used to train the popular class of Denoising Diffusion Models. A well known limitation of Denoising Score Matching, however, is that it yields poor estimates of the score at low noise levels. This issue is particularly unfavourable for problems in the physical sciences and for Monte Carlo sampling tasks for which the score of the clean original target is known. Intuitively, estimating the score of a slightly noised version of the target should be a simple task in such cases. In this paper, we address this shortcoming and show that it is indeed possible to leverage knowledge of the target score. We present a Target Score Identity and corresponding Target Score Matching regression loss which allows us to obtain score estimates admitting favourable properties at low noise levels.
翻訳日:2024-02-14 14:03:53 公開日:2024-02-13
# 自然言語変化の増大による意味構文解析の一般化

Improving Generalization in Semantic Parsing by Increasing Natural Language Variation ( http://arxiv.org/abs/2402.08666v1 )

ライセンス: Link先を確認
Irina Saparina and Mirella Lapata(参考訳) テキストからSQLへのセマンティックパーシングは近年大きく進歩し、様々なモデルが挑戦的なSpiderベンチマークで素晴らしいパフォーマンスを示している。 しかしながら、これらのモデルは、以前(正確に)解析された表現の小さな摂動に直面しても、しばしば一般化に苦しむことが示されている。 これは主に、非常に特異で不自然で、限定的な変動を示すクモの言語形式の質問である。 本研究では,自然言語の変動に対するテキストからSQLへのパーサの堅牢性を高めるためにデータ拡張を利用する。 既存のアプローチは、スパイダーでトレーニングされたモデルか、あるいは局所的な変更のみによって、質問の再構成を生成する。 対照的に、私たちは大きな言語モデルの能力を活用して、よりリアルで多様な質問を生成します。 いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。 この拡張データセットのトレーニングにより、堅牢性ベンチマークやドメイン外データなど、さまざまな評価セットが大幅に改善される。

Text-to-SQL semantic parsing has made significant progress in recent years, with various models demonstrating impressive performance on the challenging Spider benchmark. However, it has also been shown that these models often struggle to generalize even when faced with small perturbations of previously (accurately) parsed expressions. This is mainly due to the linguistic form of questions in Spider which are overly specific, unnatural, and display limited variation. In this work, we use data augmentation to enhance the robustness of text-to-SQL parsers against natural language variations. Existing approaches generate question reformulations either via models trained on Spider or only introduce local changes. In contrast, we leverage the capabilities of large language models to generate more realistic and diverse questions. Using only a few prompts, we achieve a two-fold increase in the number of questions in Spider. Training on this augmented dataset yields substantial improvements on a range of evaluation sets, including robustness benchmarks and out-of-domain data.
翻訳日:2024-02-14 14:03:38 公開日:2024-02-13
# 分散位相発振器を用いた創発的歩行の学習--観察・報酬・フィードバックの役割について

Learning Emergent Gaits with Decentralized Phase Oscillators: on the role of Observations, Rewards, and Feedback ( http://arxiv.org/abs/2402.08662v1 )

ライセンス: Link先を確認
Jenny Zhang, Steve Heim, Se Hwan Jeon, Sangbae Kim(参考訳) 四足歩行学習のための最小位相発振器モデルを提案する。 4つの発振器はそれぞれ、地上反応力の局所的なフィードバックによってそれ自体と対応する脚にのみ結合され、これはオブザーバフィードバックゲインと解釈できる。 発振器自体を潜在接触状態推定器と解釈する。 系統的アブレーション研究により, 位相観測, 単純な位相に基づく報酬, 局所的なフィードバックのダイナミクスの組み合わせは, 特定の歩行を規定することなく, 簡単な報酬を減らしながら, 創発的な歩行嗜好を示す政策を誘導することを示した。 コードはオープンソースで、ビデオ合成はhttps://youtu.be/1NKQ0rSV3jUで公開されている。

We present a minimal phase oscillator model for learning quadrupedal locomotion. Each of the four oscillators is coupled only to itself and its corresponding leg through local feedback of the ground reaction force, which can be interpreted as an observer feedback gain. We interpret the oscillator itself as a latent contact state-estimator. Through a systematic ablation study, we show that the combination of phase observations, simple phase-based rewards, and the local feedback dynamics induces policies that exhibit emergent gait preferences, while using a reduced set of simple rewards, and without prescribing a specific gait. The code is open-source, and a video synopsis available at https://youtu.be/1NKQ0rSV3jU.
翻訳日:2024-02-14 14:03:20 公開日:2024-02-13
# 最後のJITAI? ジャスト・イン・タイム・アダプティブ・インターベンションにおける大規模言語モデルの有効性 : 心リハビリテーションにおける身体活動の育成

The Last JITAI? The Unreasonable Effectiveness of Large Language Models in Issuing Just-in-Time Adaptive Interventions: Fostering Physical Activity in a Prospective Cardiac Rehabilitation Setting ( http://arxiv.org/abs/2402.08658v1 )

ライセンス: Link先を確認
David Haag, Devender Kumar, Sebastian Gruber, Mahdi Sareban, Gunnar Treff, Josef Niebauer, Christopher Bull, Jan David Smeddinck(参考訳) デジタルヘルスにおけるjitais(just-in-time adaptive interventions)コンテンツのトリガとパーソナライズのための大規模言語モデル(llms)の実現可能性を検討した。 JITAIは、持続的な行動変化の鍵となるメカニズムとして検討されており、個人の現在の状況とニーズに介入を適用する。 しかし、JITAI実装の従来のルールベースおよび機械学習モデルは、パーソナライゼーションの欠如、マルチパラメトリックシステム管理の困難さ、データ空間の問題など、スケーラビリティと信頼性の制限に直面している。 llmsによるjitaiの実施を検討するため,外来心リハビリテーションにおける心健康的身体活動の育成を事例として,現在の総合パフォーマンスリードモデルgpt-4を検証した。 JITAIのトリガーおよびパーソナライズの基礎として,3人のペルソナと5組のコンテキスト情報を使用した。 その後,450件のJITAI決定とメッセージ内容を生成し,GPT-4による10回のJITAIと10人のレイパー(LayPs)によるベースライン,および10人の医療専門家によるゴールドスタンダード(HCPs)に等しく分割した。 評価は,gpt-4が生成するジタイはhcpやレイプよりも,適合性,関与性,有効性,プロフェッショナリティといったすべての評価尺度において優れていることが示された。 本研究は, JITAIを個人化あるいは「精度」の健康構築ブロックとして実装し, 拡張性, サンプル情報に基づく効果的なパーソナライズ, 良好な受容性を有することを示す。

We explored the viability of Large Language Models (LLMs) for triggering and personalizing content for Just-in-Time Adaptive Interventions (JITAIs) in digital health. JITAIs are being explored as a key mechanism for sustainable behavior change, adapting interventions to an individual's current context and needs. However, traditional rule-based and machine learning models for JITAI implementation face scalability and reliability limitations, such as lack of personalization, difficulty in managing multi-parametric systems, and issues with data sparsity. To investigate JITAI implementation via LLMs, we tested the contemporary overall performance-leading model 'GPT-4' with examples grounded in the use case of fostering heart-healthy physical activity in outpatient cardiac rehabilitation. Three personas and five sets of context information per persona were used as a basis of triggering and personalizing JITAIs. Subsequently, we generated a total of 450 proposed JITAI decisions and message content, divided equally into JITAIs generated by 10 iterations with GPT-4, a baseline provided by 10 laypersons (LayPs), and a gold standard set by 10 healthcare professionals (HCPs). Ratings from 27 LayPs indicated that JITAIs generated by GPT-4 were superior to those by HCPs and LayPs over all assessed scales: i.e., appropriateness, engagement, effectiveness, and professionality. This study indicates that LLMs have significant potential for implementing JITAIs as a building block of personalized or "precision" health, offering scalability, effective personalization based on opportunistically sampled information, and good acceptability.
翻訳日:2024-02-14 14:03:07 公開日:2024-02-13
# PIN: 位置インサートがVLMのオブジェクトローカライゼーション能力をアンロック

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs ( http://arxiv.org/abs/2402.08657v1 )

ライセンス: Link先を確認
Michael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano(参考訳) Flamingo や GPT-4V のような視覚言語モデル (VLM) は、大きな言語モデルと視覚システムを統合することで大きな可能性を示している。 にもかかわらず、これらのモデルは、空間的接地を明示しないキャプションを含むマルチモーダルデータに対する訓練のため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。 VLMと統合するバウンディングボックスアノテーションで、カスタムで教師付きトレーニングパイプラインを構築することができるが、これらは専門的でスケールの難しいモデルをもたらす。 本稿では,字幕ベースのVLMの限界を探究し,より簡単な方法で課題に取り組むことを提案する。 一 字幕ベースのVLMの重量を凍結して保つこと。 二 監視された検出データを使用しないこと。 この目的のために,入力非依存な位置挿入(pin)と学習可能な空間プロンプトを導入し,凍結したvlm内をスライダーするパラメータセットを最小化し,オブジェクトローカライズ機能をアンロックする。 我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次点予測タスクで訓練されている。 実験では,Pascal VOC,COCO,LVIS,絵画や漫画などの多彩な画像に対して,ゼロショットのローカライゼーション性能を示す。

Vision-Language Models (VLMs), such as Flamingo and GPT-4V, have shown immense potential by integrating large language models with vision systems. Nevertheless, these models face challenges in the fundamental computer vision task of object localisation, due to their training on multimodal data containing mostly captions without explicit spatial grounding. While it is possible to construct custom, supervised training pipelines with bounding box annotations that integrate with VLMs, these result in specialized and hard-to-scale models. In this paper, we aim to explore the limits of caption-based VLMs and instead propose to tackle the challenge in a simpler manner by i) keeping the weights of a caption-based VLM frozen and ii) not using any supervised detection data. To this end, we introduce an input-agnostic Positional Insert (PIN), a learnable spatial prompt, containing a minimal set of parameters that are slid inside the frozen VLM, unlocking object localisation capabilities. Our PIN module is trained with a simple next-token prediction task on synthetic data without requiring the introduction of new output heads. Our experiments demonstrate strong zero-shot localisation performances on a variety of images, including Pascal VOC, COCO, LVIS, and diverse images like paintings or cartoons.
翻訳日:2024-02-14 14:02:29 公開日:2024-02-13
# テキスト対画像生成のための連続3次元単語学習

Learning Continuous 3D Words for Text-to-Image Generation ( http://arxiv.org/abs/2402.08654v1 )

ライセンス: Link先を確認
Ta-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni(参考訳) 画像生成のための拡散モデル(テキストやコントロールネットなど)に対する現在の制御は、照明方向や非剛体形状変化のような抽象的で連続的な属性を認識するのに不足している。 本稿では,テキスト対画像モデルのユーザが画像中の複数の属性のきめ細かな制御を行えるようにする手法を提案する。 これを、連続的な方法で変換できる入力トークンの特別なセットをエンジニアリングすることで実現します。 これらの属性は、例えば、スライダとして表現でき、画像生成をきめ細かい制御のためにテキストプロンプトと共同で適用することができる。 単一のメッシュとレンダリングエンジンのみを前提として,日中の照明,鳥の翼の向き,ドリーゾーム効果,オブジェクトのポーズなど,複数の3D認識属性に対する継続的なユーザ制御を実現するためのアプローチが提案されている。 本手法では,複数の連続3次元単語とテキスト記述を同時に条件付けし,生成プロセスにオーバーヘッドを加えることなく画像生成を行う。 プロジェクトページ: https://ttchengab.github.io/continuous_3d_words

Current controls over diffusion models (e.g., through text or ControlNet) for image generation fall short in recognizing abstract, continuous attributes like illumination direction or non-rigid shape change. In this paper, we present an approach for allowing users of text-to-image models to have fine-grained control of several attributes in an image. We do this by engineering special sets of input tokens that can be transformed in a continuous manner -- we call them Continuous 3D Words. These attributes can, for example, be represented as sliders and applied jointly with text prompts for fine-grained control over image generation. Given only a single mesh and a rendering engine, we show that our approach can be adopted to provide continuous user control over several 3D-aware attributes, including time-of-day illumination, bird wing orientation, dollyzoom effect, and object poses. Our method is capable of conditioning image creation with multiple Continuous 3D Words and text descriptions simultaneously while adding no overhead to the generative process. Project Page: https://ttchengab.github.io/continuous_3d_words
翻訳日:2024-02-14 14:02:05 公開日:2024-02-13
# ランダムフォレスト機械学習を用いた非侵襲的急性比較症候群診断

Noninvasive Acute Compartment Syndrome Diagnosis Using Random Forest Machine Learning ( http://arxiv.org/abs/2401.10386v3 )

ライセンス: Link先を確認
Zaina Abu Hweij, Florence Liang, Sophie Zhang(参考訳) 急性コンパートメント症候群 (acs) は、筋肉のコンパートメント内の圧力上昇によって引き起こされる整形外科的な緊急事態であり、永久的な組織損傷と最終的には死に至る。 acsの診断は、患者が報告する症状に大きく依存する。この方法は、臨床的に信頼性がなく、しばしば、動作設定で機能不全となる侵襲的内圧測定によって補足される。 本研究は,acsの客観的かつ非侵襲的診断を提案する。 このデバイスは、皮膚に置かれる力感受性抵抗体(FSR)からの代理的な圧力読み取りを利用するランダムフォレスト機械学習モデルを通じてACSを検出する。 診断の妥当性を検証するために,fsr測定値とそれに対応する生体内圧力を模擬したデータセットを作成した。 診断精度は最大98%であった。 この装置は感度や特異性など重要な性能指標に優れており、現在の動作において統計的に重要な性能差がある。 73USDで作られたこのデバイスは、費用対効果の高いソリューションかもしれない。 これらの結果から,非侵襲的ACS診断が臨床精度基準を満たしている可能性が示唆された。

Acute compartment syndrome (ACS) is an orthopedic emergency, caused by elevated pressure within a muscle compartment, that leads to permanent tissue damage and eventually death. Diagnosis of ACS relies heavily on patient-reported symptoms, a method that is clinically unreliable and often supplemented with invasive intracompartmental pressure measurements that can malfunction in motion settings. This study proposes an objective and noninvasive diagnostic for ACS. The device detects ACS through a random forest machine learning model that uses surrogate pressure readings from force-sensitive resistors (FSRs) placed on the skin. To validate the diagnostic, a data set containing FSR measurements and the corresponding simulated intracompartmental pressure was created for motion and motionless scenarios. The diagnostic achieved up to 98% accuracy. The device excelled in key performance metrics, including sensitivity and specificity, with a statistically insignificant performance difference in motion present cases. Manufactured for 73 USD, our device may be a cost-effective solution. These results demonstrate the potential of noninvasive ACS diagnostics to meet clinical accuracy standards in real world settings.
翻訳日:2024-02-14 12:13:58 公開日:2024-02-13
# LLMLight:交通信号制御エージェントとしての大規模言語モデル

LLMLight: Large Language Models as Traffic Signal Control Agents ( http://arxiv.org/abs/2312.16044v3 )

ライセンス: Link先を確認
Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu and Hui Xiong(参考訳) 交通信号制御(TSC)は都市交通管理において重要な要素であり、道路網の効率を最適化し渋滞を軽減することを目的としている。 TSCの伝統的な手法は、主に輸送工学と強化学習(RL)に基づいており、様々な交通シナリオにまたがる一般化の限界を示し、解釈性に欠ける。 本稿では,大規模言語モデル (LLM) を用いた新しいフレームワーク LLMLight について述べる。 特に、このフレームワークはLLMにリアルタイムの交通状況の詳細を理解できるプロンプトで指示することから始まる。 LLMの高度な一般化機能を活用して、LLMLightは、効率的なトラフィック制御のための人間の直感に似た推論と意思決定プロセスを行う。 さらに,TSCタスクに適した専用のバックボーンLLMであるLightGPTを構築した。 微妙なトラフィックパターンと制御戦略を学ぶことで、LightGPTはLLMLightフレームワークを低コストで拡張する。 9つの実世界および合成データセットに対する大規模な実験は、LLMLightの顕著な効果、一般化能力、および9つの輸送ベースおよびRLベースベースラインに対する解釈可能性を示している。

Traffic Signal Control (TSC) is a crucial component in urban traffic management, aiming to optimize road network efficiency and reduce congestion. Traditional methods in TSC, primarily based on transportation engineering and reinforcement learning (RL), often exhibit limitations in generalization across varied traffic scenarios and lack interpretability. This paper presents LLMLight, a novel framework employing Large Language Models (LLMs) as decision-making agents for TSC. Specifically, the framework begins by instructing the LLM with a knowledgeable prompt detailing real-time traffic conditions. Leveraging the advanced generalization capabilities of LLMs, LLMLight engages a reasoning and decision-making process akin to human intuition for effective traffic control. Moreover, we build LightGPT, a specialized backbone LLM tailored for TSC tasks. By learning nuanced traffic patterns and control strategies, LightGPT enhances the LLMLight framework cost-effectively. Extensive experiments on nine real-world and synthetic datasets showcase the remarkable effectiveness, generalization ability, and interpretability of LLMLight against nine transportation-based and RL-based baselines.
翻訳日:2024-02-14 12:13:38 公開日:2024-02-13
# ポリセマンティクスの原因は何か? 偶発的原因からの混合選択性の代替的起源物語

What Causes Polysemanticity? An Alternative Origin Story of Mixed Selectivity from Incidental Causes ( http://arxiv.org/abs/2312.03096v3 )

ライセンス: Link先を確認
Victor Lecomte, Kushal Thaman, Rylan Schaeffer, Naomi Bashkansky, Trevor Chow, Sanmi Koyejo(参考訳) 一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害であり、AIの安全性に影響を及ぼすと考えられている。 多意味性の古典的な起源の物語は、データはニューロンよりも「機能」が多く含まれており、タスクを実行するための学習は、ネットワークが複数の無関係な特徴を同じニューロンに同時配置させ、ネットワークの内部処理を理解する能力を危険にさらす。 本研究では,多意味性という2つ目の,非相互排他的起源を提示する。 本研究は,全特徴を表わすニューロンが多数存在する場合でも,偶発的に多意味性が発生することを示し,その現象を「textit{incidental polysemanticity}」という。 理論と実験の組み合わせを用いて、正則化やニューラルノイズなどの複数の理由により偶発的多意味性が生じることを示し、この偶発的多意味性は、ランダム初期化が偶然に同じニューロンに複数の特徴を割り当てることができ、訓練力学がそのような重なり合いを強めることから生じる。 本稿は,タスク最適化深層ニューラルネットワークの性能-多意味性トレードオフを定量化し,多意味性がどの程度回避可能かをより理解するためのさらなる研究を呼び掛けた。

Polysemantic neurons -- neurons that activate for a set of unrelated features -- have been seen as a significant obstacle towards interpretability of task-optimized deep networks, with implications for AI safety. The classic origin story of polysemanticity is that the data contains more ``features" than neurons, such that learning to perform a task forces the network to co-allocate multiple unrelated features to the same neuron, endangering our ability to understand networks' internal processing. In this work, we present a second and non-mutually exclusive origin story of polysemanticity. We show that polysemanticity can arise incidentally, even when there are ample neurons to represent all features in the data, a phenomenon we term \textit{incidental polysemanticity}. Using a combination of theory and experiments, we show that incidental polysemanticity can arise due to multiple reasons including regularization and neural noise; this incidental polysemanticity occurs because random initialization can, by chance alone, initially assign multiple features to the same neuron, and the training dynamics then strengthen such overlap. Our paper concludes by calling for further research quantifying the performance-polysemanticity tradeoff in task-optimized deep neural networks to better understand to what extent polysemanticity is avoidable.
翻訳日:2024-02-14 12:13:18 公開日:2024-02-13
# Pe Tailor: バイオメディカルトリプル抽出におけるTempored Chunk Scorerによる大規模言語モデルの改善

PeTailor: Improving Large Language Model by Tailored Chunk Scorer in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v3 )

ライセンス: Link先を確認
Mingchen Li, M. Chen, Huixue Zhou, Halil Kilicoglu, Rui Zhang(参考訳) バイオメディカルトリプル抽出システムは、自動的にバイオメディカルエンティティとエンティティ間の関係を抽出することを目的としている。 現在の統合情報抽出モデルは最先端のパフォーマンスを示すが、複雑なバイオメディカル文内のエンティティ間の関係を理解することの難しさに直面する。 さらに,高品質なバイオメディカルトリプル抽出データセットの欠如は,ロバストトリプル抽出システムの開発の進展を妨げている。 そこで本研究では,本研究で構築した多種多様なチャンクデータベースから,その関連文書を明示的に検索し,検索情報を大規模言語モデル(llm)の入力に統合し,対応する三重項(ヘッドエンティティ,リレーション,テールエンティティ)を生成する,生物医学的三重項抽出のための新しい検索ベースフレームワーク,petailorを提案する。 さらに, GM-CIHTは, より広範な関係型をカバーする, 専門家によるバイオメディカルトリプル抽出データセットである。 実験結果から,提案手法はGM-CIHTと2種類の標準バイオメディカルトリプル抽出データセットの最先端性能を実現することが示された。

Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. While current unified information extraction models showcase state-of-the-art performance, they face challenges in understanding relationships between entities within intricate biomedical sentences. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To tackle these challenges, we propose a novel retrieval-based framework for biomedical triple extraction, namely PeTailor, which explicitly retrieves the relevant document from our pre-built diverse chunk database using a novel tailored chunk scorer and integrates the retrieved information into the input of a Large Language Model (LLM) to generate the corresponding triple (head entity, relation, tail entity) for the input sentence. Additionally, we present GM-CIHT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types. Experimental results show that our proposed PeTailor method achieves state-of-the-art performance on GM-CIHT and two standard biomedical triple extraction datasets
翻訳日:2024-02-14 12:12:53 公開日:2024-02-13
# 蓄積局所効果(ALE)に基づく機械学習と古典的手法を用いた統計的推測

Statistical inference using machine learning and classical techniques based on accumulated local effects (ALE) ( http://arxiv.org/abs/2310.09877v4 )

ライセンス: Link先を確認
Chitu Okoli(参考訳) Accumulated Local Effects (ALE)は、ブラックボックス機械学習(ML)アルゴリズムの結果のグローバルな説明のためのモデルに依存しないアプローチである。 ALEに基づく統計的推論を行う上で、少なくとも3つの課題がある。ALE分析の信頼性を保証すること、特に小さなデータセットのコンテキストにおいて、MLにおける変数の全体的な影響を直感的に特徴づけること、MLデータ分析から堅牢な推論を行うことである。 これに対し、ALEを用いた統計的推論のための革新的なツールや手法を導入し、データセットのサイズに合わせて自己申告された信頼区間を確立し、結果変数尺度と正規化尺度の両方に直感的に影響を示すALE効果尺度を導入する。 さらに,これらのツールを用いて信頼性の高い統計的推論を行う方法を示すとともに,r の 'ale' パッケージに実装されているフレキシブルなパターンを例示する。本研究は ale に関する議論と ml と統計解析におけるその適用可能性を促進し,この分野の課題を克服するための実用的なソリューションを提供する。

Accumulated Local Effects (ALE) is a model-agnostic approach for global explanations of the results of black-box machine learning (ML) algorithms. There are at least three challenges with conducting statistical inference based on ALE: ensuring the reliability of ALE analyses, especially in the context of small datasets; intuitively characterizing a variable's overall effect in ML; and making robust inferences from ML data analysis. In response, we introduce innovative tools and techniques for statistical inference using ALE, establishing bootstrapped confidence intervals tailored to dataset size and introducing ALE effect size measures that intuitively indicate effects on both the outcome variable scale and a normalized scale. Furthermore, we demonstrate how to use these tools to draw reliable statistical inferences, reflecting the flexible patterns ALE adeptly highlights, with implementations available in the 'ale' package in R. This work propels the discourse on ALE and its applicability in ML and statistical analysis forward, offering practical solutions to prevailing challenges in the field.
翻訳日:2024-02-14 12:12:30 公開日:2024-02-13
# CROWN: 正確なパーソナライズされたニュースレコメンデーションのためのユーザの選好を補完する新しいアプローチ

CROWN: A Novel Approach to Comprehending Users' Preferences for Accurate Personalized News Recommendation ( http://arxiv.org/abs/2310.09401v3 )

ライセンス: Link先を確認
Yunyong Ko, Seongeun Ryu, Sang-Wook Kim(参考訳) パーソナライズされたニュースレコメンデーションは、ユーザーの情報過負荷の軽減に重要な役割を果たしているニュース記事の発見を支援することを目的としている。 パーソナライズされたニュースレコメンデーションを改善するために,近年多くの研究が進められているが, (C1) ニュース記事内で結合された多様体の意図を補完すること, (C2) ニュース記事の読み方の違いを区別すること, (C3) コールドスタートユーザ問題に対処すること,といった課題が検討されている。 本稿では,(1)カテゴリー誘導意図のゆがみ(C1),(2)一貫性に基づくニュース表現(C2),(3)GNNによるハイブリッドユーザ表現(C3)を活用する,新しいパーソナライズされたニュースレコメンデーションフレームワーク(CROWN)を提案する。 さらに, クラウンの訓練過程にカテゴリー予測を組み込んだ補助課題として, 意図の絡み合いを高めるための補助的監督信号を提供する。 2つの実世界のデータセットに対する大規模な実験により,(1)CROWNは10件の最先端ニュースレコメンデーション手法よりも一貫した性能向上を実現し,(2)提案手法はCROWNの精度を著しく向上させることがわかった。

Personalized news recommendation aims to assist users in finding news articles that align with their interests, which plays a pivotal role in mitigating users' information overload problem. Although many recent works have been studied for better personalized news recommendation, the following challenges should be explored more: (C1) Comprehending manifold intents coupled within a news article, (C2) Differentiating varying post-read preferences of news articles, and (C3) Addressing the cold-start user problem. To tackle the aforementioned challenges together, in this paper, we propose a novel personalized news recommendation framework (CROWN) that employs (1) category-guided intent disentanglement for (C1), (2) consistency-based news representation for (C2), and (3) GNN-enhanced hybrid user representation for (C3). Furthermore, we incorporate a category prediction into the training process of CROWN as an auxiliary task, which provides supplementary supervisory signals to enhance intent disentanglement. Extensive experiments on two real-world datasets reveal that (1) CROWN provides consistent performance improvements over ten state-of-the-art news recommendation methods and (2) the proposed strategies significantly improve the accuracy of CROWN.
翻訳日:2024-02-14 12:12:11 公開日:2024-02-13
# 個別化治療効果推定のための動的治療間情報共有

Dynamic Inter-treatment Information Sharing for Individualized Treatment Effects Estimation ( http://arxiv.org/abs/2305.15984v3 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Jiandong Zhou, Ghadeer Ghosheh, Soheila Molaei and David A. Clifton(参考訳) 観察研究からの個別治療効果(ITE)の推定は因果推論の根本的な問題であり、医療を含む各分野において重要である。 しかし、ite学習者を訓練するために治療群間でデータを分割する必要があるため、限定された観測データセットは信頼性の高いite推定に困難をもたらす。 治療グループ間での情報共有は部分的に問題を軽減することができるが、ite推定におけるエンドツーエンド情報共有の一般的な枠組みは存在しない。 この問題に対処するため,ITE学習者を対象とした「\textit{soft weight sharing}」に基づく深層学習フレームワークを提案し,治療グループ間での「textit{dynamic end-to-end}」情報共有を可能にする。 提案フレームワークは既存の ITE 学習者を補完し,新しい ITE 学習者のクラスを導入し,それを \textit{HyperITE} と呼ぶ。 IHDP, ACIC-2016, Twins のベンチマークで, 現状の ITE 学習者を \textit{HyperITE} バージョンで拡張し, 評価を行った。 提案手法は,より小さなデータセットに対して有効性を高めつつ,ite推定誤差を改善できることを示す。

Estimation of individualized treatment effects (ITE) from observational studies is a fundamental problem in causal inference and holds significant importance across domains, including healthcare. However, limited observational datasets pose challenges in reliable ITE estimation as data have to be split among treatment groups to train an ITE learner. While information sharing among treatment groups can partially alleviate the problem, there is currently no general framework for end-to-end information sharing in ITE estimation. To tackle this problem, we propose a deep learning framework based on `\textit{soft weight sharing}' to train ITE learners, enabling \textit{dynamic end-to-end} information sharing among treatment groups. The proposed framework complements existing ITE learners, and introduces a new class of ITE learners, referred to as \textit{HyperITE}. We extend state-of-the-art ITE learners with \textit{HyperITE} versions and evaluate them on IHDP, ACIC-2016, and Twins benchmarks. Our experimental results show that the proposed framework improves ITE estimation error, with increasing effectiveness for smaller datasets.
翻訳日:2024-02-14 12:11:41 公開日:2024-02-13
# 大規模言語モデルはどのようにして正直とヘルプフルネスの対立をナビゲートするか?

How do Large Language Models Navigate Conflicts between Honesty and Helpfulness? ( http://arxiv.org/abs/2402.07282v2 )

ライセンス: Link先を確認
Ryan Liu, Theodore R. Sumers, Ishita Dasgupta, Thomas L. Griffiths(参考訳) 日々のコミュニケーションでは、聞き手にとって最大限に役に立つように、人々はしばしば真実(例えば時間を丸めたり、詳細を省略したりするなど)を近似する。 大規模言語モデル(llm)はこのような微妙なトレードオフをどのように扱うのか? この問題に対処するために,人間の行動を特徴付ける心理的モデルと実験を用いてLLMを分析する。 様々なLSMを検証し、人間の選好や推論時間推論の最適化がこれらのトレードオフにどのように影響するかを考察する。 人間のフィードバックからの強化学習は、誠実さと援助性の両方を改善する一方、チェーン・オブ・シークレットは、誠実さよりも役に立つように、LSMを歪ませている。 最後に、GPT-4 Turboは、会話のフレーミングやリスナーの決定コンテキストに対する感度を含む、人間のような応答パターンを示す。 以上の結果から,LLMが内在する会話値が明らかとなり,抽象的な値であってもある程度はゼロショットプロンプトで判断できることが示唆された。

In day-to-day communication, people often approximate the truth - for example, rounding the time or omitting details - in order to be maximally helpful to the listener. How do large language models (LLMs) handle such nuanced trade-offs? To address this question, we use psychological models and experiments designed to characterize human behavior to analyze LLMs. We test a range of LLMs and explore how optimization for human preferences or inference-time reasoning affects these trade-offs. We find that reinforcement learning from human feedback improves both honesty and helpfulness, while chain-of-thought prompting skews LLMs towards helpfulness over honesty. Finally, GPT-4 Turbo demonstrates human-like response patterns including sensitivity to the conversational framing and listener's decision context. Our findings reveal the conversational values internalized by LLMs and suggest that even these abstract values can, to a degree, be steered by zero-shot prompting.
翻訳日:2024-02-14 12:08:23 公開日:2024-02-13
# 拡散生成モデルにおける高速確率サンプリングに向けて

Towards Fast Stochastic Sampling in Diffusion Generative Models ( http://arxiv.org/abs/2402.07211v2 )

ライセンス: Link先を確認
Kushagra Pandey, Maja Rudolph, Stephan Mandt(参考訳) 拡散モデルは、推論時に遅いサンプル生成に苦しむ。 近年の取り組みにもかかわらず、拡散モデルに対する確率的サンプリング器のサンプリング効率の改善は期待できる方向である。 拡張空間における事前学習拡散モデルにおける高速確率サンプリングのための分割積分器を提案する。 分子動力学で一般的に用いられるスプリッティングベースの積分器は、データ、補助変数、ノイズ変数を含む数値更新を巧みに交互に行い、サンプリング効率を改善する。 しかし,スプリット・インテグレータのナイーブな応用は,高速サンプリングに最適であることを示す。 そこで本研究では, サンプリング効率を向上させるために, ナイーブ分割スプリマーの原理的修正を複数提案し, 結果として得られたスプリマーを縮小分割インテグレータとして表現する。 CIFAR-10における位相空間ランゲヴィン拡散(PSLD) [Pandey \& Mandt, 2023] の文脈において, この確率的サンプリング器は, ネットワーク関数評価(NFE)100点中2.36点のFIDスコアを, 最良ベースラインの2.63点と比較した。

Diffusion models suffer from slow sample generation at inference time. Despite recent efforts, improving the sampling efficiency of stochastic samplers for diffusion models remains a promising direction. We propose Splitting Integrators for fast stochastic sampling in pre-trained diffusion models in augmented spaces. Commonly used in molecular dynamics, splitting-based integrators attempt to improve sampling efficiency by cleverly alternating between numerical updates involving the data, auxiliary, or noise variables. However, we show that a naive application of splitting integrators is sub-optimal for fast sampling. Consequently, we propose several principled modifications to naive splitting samplers for improving sampling efficiency and denote the resulting samplers as Reduced Splitting Integrators. In the context of Phase Space Langevin Diffusion (PSLD) [Pandey \& Mandt, 2023] on CIFAR-10, our stochastic sampler achieves an FID score of 2.36 in only 100 network function evaluations (NFE) as compared to 2.63 for the best baselines.
翻訳日:2024-02-14 12:08:04 公開日:2024-02-13
# graphtranslator: オープンエンドタスクのためのグラフモデルを大きな言語モデルにアライメントする

GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks ( http://arxiv.org/abs/2402.07197v2 )

ライセンス: Link先を確認
Mengmei Zhang, Mingwei Sun, Peng Wang, Shen Fan, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Cheng Yang, Chuan Shi(参考訳) chatgptのような大規模言語モデル(llm)は強力なゼロショットと命令追従能力を示し、人工知能のさまざまな研究分野、特にオープンエンドタスクにおける革命的な変革を触媒している。 このアイデアはグラフドメインではあまり検討されていないが、多数の強力なグラフモデル(gms)が利用可能だが、事前に定義された形式でタスクに限定されている。 LLMをグラフに適用するいくつかの手法が提案されているが、ノード機能拡張器やスタンドアロン予測器として、事前に定義されたオープンなタスクを同時に処理することができない。 このジレンマを解消するために,事前に訓練されたGMとLLMをGraphTranslatorというトランスレータで橋渡しすることを提案する。 このようなトランスレータを訓練するために,ノード情報,近隣情報,モデル情報に沿ったグラフテキストアライメントデータを構築することができるプロデューサを提案する。 ノード表現を言語の一種として扱うことにより、提案するgraphtranslatorは、ノード表現と言語命令に基づく予測をllmに付与し、事前定義されたタスクとオープンエンドタスクの両方に対する統一的な視点を提供する。 その結果,提案したGraphTranslatorはゼロショットノード分類の結果を効果的に改善することがわかった。 グラフ質問応答実験では、言語命令を通じて、幅広い範囲のオープンエンドアプリケーションにわたって、GraphTranslatorの可能性を明らかにする。

Large language models (LLMs) like ChatGPT, exhibit powerful zero-shot and instruction-following capabilities, have catalyzed a revolutionary transformation across diverse research fields of artificial intelligence, especially for open-ended tasks. While the idea is less explored in the graph domain, despite the availability of numerous powerful graph models (GMs), they are restricted to tasks in a pre-defined form. Although several methods applying LLMs to graphs have been proposed, they fail to simultaneously handle the pre-defined and open-ended tasks, with LLM as a node feature enhancer or as a standalone predictor. To break this dilemma, we propose to bridge the pretrained GM and LLM by a Translator, named GraphTranslator, aiming to leverage GM to handle the pre-defined tasks effectively and utilize the extended interface of LLMs to offer various open-ended tasks for GM. To train such Translator, we propose a Producer capable of constructing the graph-text alignment data along node information, neighbor information and model information. By treating the node representation as a type of language, the proposed GraphTranslator empowers an LLM to make predictions based on node representation and language instructions, providing a unified perspective for both pre-defined and open-ended tasks. Extensive results show that the proposed GraphTranslator effectively improves the results of zero-shot node classification. The graph question answering experiments reveal our GraphTranslator potential across a broad spectrum of open-ended applications through language instructions.
翻訳日:2024-02-14 12:07:39 公開日:2024-02-13
# ソクラテス的疑念の反響--校正増補学習における不確実性を受け入れる

Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning ( http://arxiv.org/abs/2402.07107v2 )

ライセンス: Link先を確認
Alex Christopher Stutts, Danilo Erricolo, Theja Tulabandhula, Amit Ranjan Trivedi(参考訳) 本稿では,量子回帰に基づく深部Qネットワークを含むモデル自由分布強化学習において,不確実性認識を取り入れた新しい統計手法を提案する。 提案手法である$\textit{calibrated obvious quantile regression in deep q networks (ceqr-dqn)}$は,確率的環境におけるアレテータ的・認識的不確かさを別々に推定することに関連する重要な課題に対処することを目的としている。 これは、単純な分散に基づく$\textit{local}$の見積もりとは対照的に、共形推論の原理に基づく量子量的校正と組み合わせて、$\textit{global}$の不確かさの明示的でサンプルフリーな計算を提供し、従来の方法の計算と統計の効率における限界を克服し、分散(ood)観測の処理を克服する。 小型のatariゲーム(つまりミナタル)でテストされたceqr-dqnは、スコアと学習速度で既存のフレームワークを上回っている。 不確実性を評価する能力は探索戦略を改善し、不確実性認識を必要とする他のアルゴリズムの青写真として機能する。

We present a novel statistical approach to incorporating uncertainty awareness in model-free distributional reinforcement learning involving quantile regression-based deep Q networks. The proposed algorithm, $\textit{Calibrated Evidential Quantile Regression in Deep Q Networks (CEQR-DQN)}$, aims to address key challenges associated with separately estimating aleatoric and epistemic uncertainty in stochastic environments. It combines deep evidential learning with quantile calibration based on principles of conformal inference to provide explicit, sample-free computations of $\textit{global}$ uncertainty as opposed to $\textit{local}$ estimates based on simple variance, overcoming limitations of traditional methods in computational and statistical efficiency and handling of out-of-distribution (OOD) observations. Tested on a suite of miniaturized Atari games (i.e., MinAtar), CEQR-DQN is shown to surpass similar existing frameworks in scores and learning speed. Its ability to rigorously evaluate uncertainty improves exploration strategies and can serve as a blueprint for other algorithms requiring uncertainty awareness.
翻訳日:2024-02-14 12:07:12 公開日:2024-02-13
# フェデレーション学習における非線形融合--フェデレーションドメイン一般化へのハイパーネットワークアプローチ

Non-linear Fusion in Federated Learning: A Hypernetwork Approach to Federated Domain Generalization ( http://arxiv.org/abs/2402.06974v2 )

ライセンス: Link先を確認
Marc Bartholet, Taehyeon Kim, Ami Beuret, Se-Young Yun, Joachim M. Buhmann(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のクライアントが共同で共有グローバルモデルをトレーニングする、有望なパラダイムとして登場した。 堅牢で実践可能なFLフレームワークを構築するためには、未確認領域(FDG(Federated Domain Generalization)と呼ばれる問題)にうまく一般化する能力を拡張することが不可欠である。 本稿では,一般化とパーソナライズの間の性能ギャップを橋渡しし,様々な領域シフトに対応可能なhfedfと呼ばれる,革新的なフェデレーションアルゴリズムを提案する。 本質的には、ハイパーネットワークはクライアントモデルの非線形融合をサポートし、基盤となるデータ分散の包括的理解を可能にする。 FLにおけるパーソナライゼーションと一般化のトレードオフについて,広範な議論を包括し,新たな知見を提供する。 提案アルゴリズムは,DGの広範に使用されている3つのデータセットに対して,多数のケースで強いベンチマークを達成している。

Federated Learning (FL) has emerged as a promising paradigm in which multiple clients collaboratively train a shared global model while preserving data privacy. To create a robust and practicable FL framework, it is crucial to extend its ability to generalize well to unseen domains - a problem referred to as federated Domain Generalization (FDG), being still under-explored. We propose an innovative federated algorithm, termed hFedF for hypernetwork-based Federated Fusion, designed to bridge the performance gap between generalization and personalization, capable of addressing various degrees of domain shift. Essentially, the hypernetwork supports a non-linear fusion of client models enabling a comprehensive understanding of the underlying data distribution. We encompass an extensive discussion and provide novel insights into the tradeoff between personalization and generalization in FL. The proposed algorithm outperforms strong benchmarks on three widely-used data sets for DG in an exceeding number of cases.
翻訳日:2024-02-14 12:06:45 公開日:2024-02-13
# ネゴシエーション機能を用いた分散インフラストラクチャの効率的なリソーススケジューリング

Efficient Resource Scheduling for Distributed Infrastructures Using Negotiation Capabilities ( http://arxiv.org/abs/2402.06938v2 )

ライセンス: Link先を確認
Junjie Chu and Prashant Singh and Salman Toor(参考訳) 過去数十年間、情報とインターネット技術の急速な発展は大量のデータと情報を生み出してきた。 情報爆発は、多くの企業や個人がクラウドにアプリケーションを置くためにクラウドコンピューティングのインフラを借りようとするきっかけとなる。 しかし、クラウドコンピューティングプロバイダとクライアントの間の合意は、しばしば効率的ではない。 プロバイダのクラウドコンピューティングインフラストラクチャのアイドルネスや、クライアントへの追加コストなど、多くの要因が効率に影響を与える。 可能な解決策の1つは、交渉結果に応じて包括的な交渉ゲーム(交渉の一種)とスケジュールリソースを導入することである。 ファジィ論理に基づく資源スケジューリングのためのエージェント型自動交渉システムを提案する。 提案手法は,1対1の自動交渉プロセスを完了し,プロバイダとクライアントに最適なオファーを生成することができる。 異なるメンバ関数,ファジィルールセット,ネゴシエーションシナリオがシステム最適化オファーに与える影響を比較した。 提案手法は,より効率的に資源を活用でき,解釈可能であり,柔軟性が高く,カスタマイズ可能であることを結論付けることができる。 ファジィネゴシエーションシステムに代わる機械学習モデルのトレーニングに成功し,処理速度を向上した。 この記事では、提案されたシステムと機械学習モデルの将来的な改善についても強調する。 すべてのコードとデータは、オープンソースリポジトリから入手できる。

In the past few decades, the rapid development of information and internet technologies has spawned massive amounts of data and information. The information explosion drives many enterprises or individuals to seek to rent cloud computing infrastructure to put their applications in the cloud. However, the agreements reached between cloud computing providers and clients are often not efficient. Many factors affect the efficiency, such as the idleness of the providers' cloud computing infrastructure, and the additional cost to the clients. One possible solution is to introduce a comprehensive, bargaining game (a type of negotiation), and schedule resources according to the negotiation results. We propose an agent-based auto-negotiation system for resource scheduling based on fuzzy logic. The proposed method can complete a one-to-one auto-negotiation process and generate optimal offers for the provider and client. We compare the impact of different member functions, fuzzy rule sets, and negotiation scenario cases on the offers to optimize the system. It can be concluded that our proposed method can utilize resources more efficiently and is interpretable, highly flexible, and customizable. We successfully train machine learning models to replace the fuzzy negotiation system to improve processing speed. The article also highlights possible future improvements to the proposed system and machine learning models. All the codes and data are available in the open-source repository.
翻訳日:2024-02-14 12:06:29 公開日:2024-02-13
# 差別的敵対的非学習

Discriminative Adversarial Unlearning ( http://arxiv.org/abs/2402.06864v2 )

ライセンス: Link先を確認
Rohan Sharma, Shijie Zhou, Kaiyi Ji and Changyou Chen(参考訳) 本稿では,min-max最適化パラダイムの確立した原則に基づく新しい機械学習フレームワークを提案する。 我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。 我々は、攻撃者の$\mathbf{A}$と訓練されたディフェンダー$\mathbf{D}$の2つのネットワークのシナリオを敵の目的とみなして考える。 アルゴリズムは、アタッカーとディフェンダーを更新するためのよく知られた反復的min-maxアプローチに従って、バックプロパゲーションを使ってエンドツーエンドでトレーニングすることができる。 さらに,returning setとバリデーションセットとの機能空間の相違を効果的に解決し,学習性能を向上させる自己教師付き目標を組み込んだ。 提案するアルゴリズムは,標準機械学習データセットにおけるランダムサンプルのリトレーティングとクラス毎のリトレーティングスキームの両方に対して,スクラッチからリトレーティングする理想的なベンチマークをよく近似する。 特に、クラスアンラーニングスキームにおいて、この手法は最適に近い性能を示し、すべてのメトリクスと複数のネットワークプラニング戦略にわたるランダムサンプルフォーティングスキームよりも既知のメソッドを包括的に克服する。

We introduce a novel machine unlearning framework founded upon the established principles of the min-max optimization paradigm. We capitalize on the capabilities of strong Membership Inference Attacks (MIA) to facilitate the unlearning of specific samples from a trained model. We consider the scenario of two networks, the attacker $\mathbf{A}$ and the trained defender $\mathbf{D}$ pitted against each other in an adversarial objective, wherein the attacker aims at teasing out the information of the data to be unlearned in order to infer membership, and the defender unlearns to defend the network against the attack, whilst preserving its general performance. The algorithm can be trained end-to-end using backpropagation, following the well known iterative min-max approach in updating the attacker and the defender. We additionally incorporate a self-supervised objective effectively addressing the feature space discrepancies between the forget set and the validation set, enhancing unlearning performance. Our proposed algorithm closely approximates the ideal benchmark of retraining from scratch for both random sample forgetting and class-wise forgetting schemes on standard machine-unlearning datasets. Specifically, on the class unlearning scheme, the method demonstrates near-optimal performance and comprehensively overcomes known methods over the random sample forgetting scheme across all metrics and multiple network pruning strategies.
翻訳日:2024-02-14 12:06:10 公開日:2024-02-13
# Retrieve, Merge, Predict: データレイクによるテーブルの拡張

Retrieve, Merge, Predict: Augmenting Tables with Data Lakes ( http://arxiv.org/abs/2402.06282v2 )

ライセンス: Link先を確認
Riccardo Cappuzzo (1), Gael Varoquaux (1), Aimee Coelho (2), Paolo Papotti (3) ((1) SODA Team - Inria Saclay, (2) Dataiku, (3) EURECOM)(参考訳) データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。 統合可能なテーブルの検索、情報のマージ、結果のテーブルによる予測という3つの主要なステップで使用される代替手法を分析した。 データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。 本研究は,両湖の系統的調査を通じて,接合候補を正確に検索することの重要性と,簡便なマージ手法の効率性について概説する。 我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。

We present an in-depth analysis of data discovery in data lakes, focusing on table augmentation for given machine learning tasks. We analyze alternative methods used in the three main steps: retrieving joinable tables, merging information, and predicting with the resultant table. As data lakes, the paper uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for benchmarking this data discovery task -- and Open Data US, a well-referenced real data lake. Through systematic exploration on both lakes, our study outlines the importance of accurately retrieving join candidates and the efficiency of simple merging methods. We report new insights on the benefits of existing solutions and on their limitations, aiming at guiding future research in this space.
翻訳日:2024-02-14 12:05:42 公開日:2024-02-13
# 絡み合った量子サブシステムを生成するための頂点最小普遍グラフ

Vertex-minor universal graphs for generating entangled quantum subsystems ( http://arxiv.org/abs/2402.06260v2 )

ライセンス: Link先を確認
Maxime Cautr\`es, Nathan Claudet, Mehdi Mhalla, Simon Perdrix, Valentin Savin, St\'ephan Thomass\'e(参考訳) 我々は, 局所演算と古典通信のみを用いて, 任意の$k$ qubits 上の安定化状態の誘導を可能にするために, $k$-stabilizer universal quantum state, すなわち $n$-qubit 量子状態の概念を研究する。 これらの状態はbravyiらによって導入された$k$-pairable stateの概念を一般化し、グラフ状態と$k$-vertex-minorユニバーサルグラフを用いて組合せの観点から研究することができる。 まず、$n=\theta(k^2)$ qubits で最適の大きさの $k$安定化普遍グラフが存在することを示す。 また、$\Theta(k^2)$ qubits 上のランダムグラフ状態が、高い確率で $k$-stabilizer Universal となるパラメータも提供する。 2つ目の貢献は、$n = o(k^4)$ qubits 上の $k$-stabilizer universal graph state の2つの明示的な構成からなる。 どちらも有限体 $\mathbb{F}_q$ 上の射影平面の入射グラフに依存する。 これは、以前にも知られていた$k$-pairableグラフ状態の$n = O(2^{3k})$の明示的な構成よりも大幅に改善され、新しい、潜在的に強力な多部量子リソースの族が生まれる。

We study the notion of $k$-stabilizer universal quantum state, that is, an $n$-qubit quantum state, such that it is possible to induce any stabilizer state on any $k$ qubits, by using only local operations and classical communications. These states generalize the notion of $k$-pairable states introduced by Bravyi et al., and can be studied from a combinatorial perspective using graph states and $k$-vertex-minor universal graphs. First, we demonstrate the existence of $k$-stabilizer universal graph states that are optimal in size with $n=\Theta(k^2)$ qubits. We also provide parameters for which a random graph state on $\Theta(k^2)$ qubits is $k$-stabilizer universal with high probability. Our second contribution consists of two explicit constructions of $k$-stabilizer universal graph states on $n = O(k^4)$ qubits. Both rely upon the incidence graph of the projective plane over a finite field $\mathbb{F}_q$. This provides a major improvement over the previously known explicit construction of $k$-pairable graph states with $n = O(2^{3k})$, bringing forth a new and potentially powerful family of multipartite quantum resources.
翻訳日:2024-02-14 12:04:52 公開日:2024-02-13
# GS-CLIP:実世界のデータから推定したコントラスト言語画像3Dのためのガウススティング

GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data ( http://arxiv.org/abs/2402.06198v2 )

ライセンス: Link先を確認
Haoyuan Li, Yanpeng Zhou, Yihan Zeng, Hang Xu, Xiaodan Liang(参考訳) ポイントクラウドとして表現された3d形状は、オブジェクトの識別、分類、検索にキュリアルな画像と言語の記述を調整するために、マルチモーダル事前学習の進歩を遂げた。 しかし、点雲の離散表現は物体の表面形状情報を失い、レンダリング結果と2次元対応の間にギャップを生じさせる。 この問題に対処するため、3DGS(3D Gaussian Splatting)をマルチモーダル事前学習に導入し、3D表現を強化する試みとしてGS-CLIPを提案する。 GS-CLIPは、大量の実世界の画像テキストペア上で学習された共通の視覚空間とテキスト空間に対して、事前学習された視覚言語モデルを利用して、オブジェクトごとに最適化された3DGSを調整するための3Dエンコーダを学習する。 さらに,グローバル明示的な特徴を抽出・融合するために,新しいガウス・アウェア融合が提案されている。 言語イメージ3D事前トレーニングの一般的なフレームワークとして、GS-CLIPは3Dバックボーンネットワークに依存しない。 挑戦的な実験では、GS-CLIPは最先端技術を大幅に改善し、これまでで最高の結果を上回った。

3D Shape represented as point cloud has achieve advancements in multimodal pre-training to align image and language descriptions, which is curial to object identification, classification, and retrieval. However, the discrete representations of point cloud lost the object's surface shape information and creates a gap between rendering results and 2D correspondences. To address this problem, we propose GS-CLIP for the first attempt to introduce 3DGS (3D Gaussian Splatting) into multimodal pre-training to enhance 3D representation. GS-CLIP leverages a pre-trained vision-language model for a learned common visual and textual space on massive real world image-text pairs and then learns a 3D Encoder for aligning 3DGS optimized per object. Additionally, a novel Gaussian-Aware Fusion is proposed to extract and fuse global explicit feature. As a general framework for language-image-3D pre-training, GS-CLIP is agnostic to 3D backbone networks. Experiments on challenging shows that GS-CLIP significantly improves the state-of-the-art, outperforming the previously best results.
翻訳日:2024-02-14 12:04:28 公開日:2024-02-13
# 効率的になるために学ぶ - 大規模言語モデルにおける構造化スパーシティの構築

Learn To be Efficient: Build Structured Sparsity in Large Language Models ( http://arxiv.org/abs/2402.06126v2 )

ライセンス: Link先を確認
Haizhong Zheng, Xiaoyan Bai, Beidi Chen, Fan Lai, Atul Prakash(参考訳) 大規模言語モデル(llm)は10億レベルのパラメータで驚くべき成功を収めているが、高い推論オーバーヘッドを負っている。 LLMにおける活性化空間の出現は、推論のためのパラメータの一部だけを含むことによって、このコストを削減する自然なアプローチを提供する。 既存の方法は、この自然に形成された活性化空間の利用のみに焦点を合わせ、この固有空間をさらに増幅する可能性を見越している。 本稿では、より構造化された活性化空間を実現することにより、LCMが効率良く学習できるという仮説を立てる。 そこで本研究では,効率を意識したllmにニューロンの活性化を訓練し,スパース性と性能のトレードオフを改善するための新しいアルゴリズムであるlearn-to-be- efficiency (lte)を提案する。 さらに、主にReLUモデルに焦点を当てたSOTA MoEfication法とは異なり、LTEは、ソフトアクティベーション機能を備えたGPTやLLaMAといったLCMにも適用することができる。 LTEを4つのモデルと11のデータセットで評価する。 実験の結果、LTEはポーシャリティとタスクパフォーマンスのトレードオフを良くすることがわかった。 例えば、LLaMAを使ったLTEは言語生成タスクで1.83x-2.59xのFLOPを高速化し、最先端の手法よりも優れている。

Large Language Models (LLMs) have achieved remarkable success with their billion-level parameters, yet they incur high inference overheads. The emergence of activation sparsity in LLMs provides a natural approach to reduce this cost by involving only parts of the parameters for inference. Existing methods only focus on utilizing this naturally formed activation sparsity, overlooking the potential for further amplifying this inherent sparsity. In this paper, we hypothesize that LLMs can learn to be efficient by achieving more structured activation sparsity. To achieve this, we introduce a novel algorithm, Learn-To-be-Efficient (LTE), designed to train efficiency-aware LLMs to learn to activate fewer neurons and achieve a better trade-off between sparsity and performance. Furthermore, unlike SOTA MoEfication methods, which mainly focus on ReLU-based models, LTE can also be applied to LLMs like GPT and LLaMA with soft activation functions. We evaluate LTE on four models and eleven datasets. The experiments show that LTE achieves a better trade-off between sparsity and task performance. For instance, LTE with LLaMA provides a 1.83x-2.59x FLOPs speed-up on language generation tasks, outperforming the state-of-the-art methods.
翻訳日:2024-02-14 12:04:07 公開日:2024-02-13
# MolTC:言語モデルにおける分子関係モデリングを目指して

MolTC: Towards Molecular Relational Modeling In Language Models ( http://arxiv.org/abs/2402.03781v3 )

ライセンス: Link先を確認
Junfeng Fang, Shuai Zhang, Chang Wu, Zhengyi Yang, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du and Xiang Wang(参考訳) 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。 近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。 その可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。 さらに、統一フレームワークの欠如は、多種多様なデータセット間で学習されたインタラクションメカニズムの共有を妨げるため、情報の活用不足の問題を悪化させる。 これらの課題に対処するため、本研究では分子相互作用予測のための新しいllmベースのマルチモーダルフレームワークであるmoltc(chain-of-thought (cot) theory)を提案している。 統合MRLを実現するため、MollTCは、クロスデータセット情報共有のための動的パラメータ共有戦略を革新的に開発している。 さらに,MolTCを効果的に訓練するために,多階層CoTの概念を導入して訓練パラダイムを洗練させ,MRLを含む生化学LLMの開発のための包括的分子インタラクティブインストラクションデータセットを構築した。 我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。 コードはhttps://github.com/MangoKiller/MolTCで入手できる。

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. For achieving a unified MRL, MolTC innovatively develops a dynamic parameter-sharing strategy for cross-dataset information sharing. Moreover, to train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
翻訳日:2024-02-14 12:03:40 公開日:2024-02-13
# health-llm:パーソナライズされた検索型疾病予測モデル

Health-LLM: Personalized Retrieval-Augmented Disease Prediction Model ( http://arxiv.org/abs/2402.00746v4 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Chong Zhang, Dong Shu, Suiyuan Zhu, Mengnan Du, Yongfeng Zhang, Yanda Meng(参考訳) 医療における人工知能(AI)は、非常に高度なインテリジェント医療治療を持っている。 しかし、従来のインテリジェントヘルスケアは、静的データと統一された標準によって制限されており、個々の状況や他の課題との完全な統合を妨げている。 したがって、開発にはより専門的で詳細なインテリジェントヘルスケア手法が必要である。 そこで我々は,大規模特徴抽出と医療知識トレードオフスコアリングを組み合わせたHeath-LLMという革新的なフレームワークを提案する。 従来の健康管理手法と比較して,本手法には3つの利点がある。 まず,健康報告を大規模モデルに統合し,詳細なタスク情報を提供する。 第2に、専門的な医療専門知識は、健康特性の重み付けスコアを調整するために使用される。 第3に,半自動特徴抽出フレームワークを用いて言語モデルの分析能力を高め,専門家の洞察を取り入れ,疾患予測の精度を向上させる。 本研究は,Health-LLMの有効性を評価するために,多数の健康報告で疾患予測実験を行った。 実験の結果,提案手法は従来の方法を超え,疾患予測とパーソナライズされた健康管理に革命をもたらす可能性が示唆された。 コードはhttps://github.com/jmyissb/HealthLLMで入手できる。

Artificial intelligence (AI) in healthcare has significantly advanced intelligent medical treatment. However, traditional intelligent healthcare is limited by static data and unified standards, preventing full integration with individual situations and other challenges. Hence, a more professional and detailed intelligent healthcare method is needed for development. To this end, we propose an innovative framework named Heath-LLM, which combines large-scale feature extraction and medical knowledge trade-off scoring. Compared to traditional health management methods, our approach has three main advantages. First, our method integrates health reports into a large model to provide detailed task information. Second, professional medical expertise is used to adjust the weighted scores of health characteristics. Third, we use a semi-automated feature extraction framework to enhance the analytical power of language models and incorporate expert insights to improve the accuracy of disease prediction. We have conducted disease prediction experiments on a large number of health reports to assess the effectiveness of Health-LLM. The results of the experiments indicate that the proposed method surpasses traditional methods and has the potential to revolutionize disease prediction and personalized health management. The code is available at https://github.com/jmyissb/HealthLLM.
翻訳日:2024-02-14 12:03:12 公開日:2024-02-13
# 任意線形変換による適応ブロックスパース正規化

Adaptive Block Sparse Regularization under Arbitrary Linear Transform ( http://arxiv.org/abs/2401.15292v4 )

ライセンス: Link先を確認
Takanobu Furuhashi, Hidekata Hontani, Tatsuya Yokota(参考訳) ブロック構造が未知の任意の線形変換下でのブロックスパーシティの凸・高速信号再構成法を提案する。 提案手法は類似した既存手法の一般化であり、非可逆変換下でブロックスパーシティを有する信号を再構成することができる。 我々の研究はブロックスパース正規化の範囲を広げ、様々な信号処理領域にまたがるより汎用的で強力なアプリケーションを可能にする。 提案手法を解くための反復アルゴリズムを導出し,その最適解への収束条件を提供する。 提案手法の有効性を示す数値実験を行った。

We propose a convex and fast signal reconstruction method for block sparsity under arbitrary linear transform with unknown block structure. The proposed method is a generalization of the similar existing method and can reconstruct signals with block sparsity under non-invertible transforms, unlike the existing method. Our work broadens the scope of block sparse regularization, enabling more versatile and powerful applications across various signal processing domains. We derive an iterative algorithm for solving proposed method and provide conditions for its convergence to the optimal solution. Numerical experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-02-14 12:02:53 公開日:2024-02-13
# PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models ( http://arxiv.org/abs/2401.15042v3 )

ライセンス: Link先を確認
Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Yunlong Feng, Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song(参考訳) 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。 しかし、レポートや記事などの長い内容を生成する能力は依然として不十分である。 現在のベンチマークでは、情報的かつ包括的コンテンツを生成するLLMの能力は十分に評価されておらず、より厳密な評価アプローチが必要である。 そこで本研究では,様々な領域にまたがる詳細な人文計算を行う長文テキスト生成フレームワークである \textsc{ProxyQA} について紹介する。 各メタクエストは、注釈付き回答を持つ対応する \textit{proxy-questions} を含む。 LLMはこれらのメタクエストに応答して広範なコンテンツを生成するよう促される。 評価器を利用し、生成したコンテンツを背景コンテキストとして組み込むことにより、評価器のパフォーマンスに基づいて生成されたコンテンツの品質を評価する。 高品質評価ツールとして,複数のllmを調べ, \textsc{proxyqa} の要求性を強調した。 人的評価は, <textit{proxy-questions} による評価が, 自己整合性が高く, 人的基準に関連のある検証方法であることを示す。 データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できる。

Large Language Models (LLMs) have exhibited remarkable success in long-form context comprehension tasks. However, their capacity to generate long contents, such as reports and articles, remains insufficiently explored. Current benchmarks do not adequately assess LLMs' ability to produce informative and comprehensive content, necessitating a more rigorous evaluation approach. In this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form text generation, comprising in-depth human-curated \textit{meta-questions} spanning various domains. Each meta-question contains corresponding \textit{proxy-questions} with annotated answers. LLMs are prompted to generate extensive content in response to these meta-questions. Utilizing an evaluator and incorporating generated content as background context, \textsc{ProxyQA} evaluates the quality of generated content based on the evaluator's performance in answering the \textit{proxy-questions}. We examine multiple LLMs, emphasizing \textsc{ProxyQA}'s demanding nature as a high-quality assessment tool. Human evaluation demonstrates that evaluating through \textit{proxy-questions} is a highly self-consistent and human-criteria-correlated validation method. The dataset and leaderboard will be available at \url{https://github.com/Namco0816/ProxyQA}.
翻訳日:2024-02-14 12:02:44 公開日:2024-02-13
# Wavefrontランダム化はデコンボリューションを改善する

Wavefront Randomization Improves Deconvolution ( http://arxiv.org/abs/2402.07900v2 )

ライセンス: Link先を確認
Amit Kohli, Anastasios N. Angelopoulos, Laura Waller(参考訳) 撮像システムの性能は光学収差によって制限され、その結果の画像のぼかしを引き起こす。 デコンボリューションなどのデジタル補正技術は、シーン内の空間周波数が適切に測定されていない(すなわち、システム転送関数の「ゼロ」)ため、ぼやけを補正する能力が限られている。 画像システムへのランダムマスクの付加は収差依存性をなくし、伝達関数の零点の可能性を低減し、デコンボリューション時のノイズに対する感度を低下させることを実証する。 シミュレーションでは, この手法により, 収差型, 収差強度, 信号対雑音比の幅で画質が向上することを示す。

The performance of an imaging system is limited by optical aberrations, which cause blurriness in the resulting image. Digital correction techniques, such as deconvolution, have limited ability to correct the blur, since some spatial frequencies in the scene are not measured adequately (i.e., 'zeros' of the system transfer function). We prove that the addition of a random mask to an imaging system removes its dependence on aberrations, reducing the likelihood of zeros in the transfer function and consequently decreasing the sensitivity to noise during deconvolution. In simulation, we show that this strategy improves image quality over a range of aberration types, aberration strengths, and signal-to-noise ratios.
翻訳日:2024-02-14 11:54:50 公開日:2024-02-13
# 直接原理フィードバックによるピンクエレファント抑制

Suppressing Pink Elephants with Direct Principle Feedback ( http://arxiv.org/abs/2402.07896v2 )

ライセンス: Link先を確認
Louis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman(参考訳) RLHFやコンスティチューションAIといった既存の言語モデルを制御する方法は、どのLLMの振る舞いが望ましいかを判断し、それらを言語モデルに訓練する。 しかし、多くの場合、LLMは推論時に制御可能であることが望ましいため、多様なニーズを持つ複数のコンテキストで使用することができる。 特定のエンティティ(`Pink Elephant'' )について議論しないように LLM を指示し、代わりに望ましいエンティティ( ``Grey Elephant'' )について議論する。 提案手法は, 応答のランク付けを省略し, 批判や修正に直接DPOを利用する構成AI, Direct Principle Feedbackを新たに単純化する。 以上の結果から, 合成Pink ElephantsデータセットのDPF微調整後, LLaMA 2モデルがLlama-2-13B-Chatおよび誘導ベースラインより有意に優れており, Pink Elephant問題を評価する試験セットではGPT-4と同等の性能を示した。

Existing methods for controlling language models, such as RLHF and Constitutional AI, involve determining which LLM behaviors are desirable and training them into a language model. However, in many cases, it is desirable for LLMs to be controllable at inference time, so that they can be used in multiple contexts with diverse needs. We illustrate this with the Pink Elephant Problem: instructing an LLM to avoid discussing a certain entity (a ``Pink Elephant''), and instead discuss a preferred entity (``Grey Elephant''). We apply a novel simplification of Constitutional AI, Direct Principle Feedback, which skips the ranking of responses and uses DPO directly on critiques and revisions. Our results show that after DPF fine-tuning on our synthetic Pink Elephants dataset, our 13B fine-tuned LLaMA 2 model significantly outperforms Llama-2-13B-Chat and a prompted baseline, and performs as well as GPT-4 in on our curated test set assessing the Pink Elephant Problem.
翻訳日:2024-02-14 11:54:36 公開日:2024-02-13
# 最適輸送によるメタプラニングに向けて

Towards Meta-Pruning via Optimal Transport ( http://arxiv.org/abs/2402.07839v2 )

ライセンス: Link先を確認
Alexander Theus, Olin Geimer, Friedrich Wicke, Thomas Hofmann, Sotiris Anagnostidis, Sidak Pal Singh(参考訳) ニューラルネットワークの構造的プルーニングは、伝統的に重要でないニューロンの識別と破棄に依存しており、これはしばしば、その後の微調整の努力を必要とするかなりの精度の損失をもたらす。 本稿では,この主流プルーニングパラダイムに挑戦する,Intra-Fusionという新しいアプローチを提案する。 有意義なニューロンの重要性の指標を設計する既存の方法とは異なり、輸液は過剰な刈り取り手順を再定義する。 モデル融合と最適輸送の概念を利用することで、より効果的なスパースモデル表現に到達するために、不可知的に与えられた重要な計量を利用する。 特に,本手法は,資源集約的な微調整を必要とせず,相当な精度回復を実現し,ニューラルネットワーク圧縮のための効率的かつ有望なツールである。 さらに, 競争性能を維持しながら, 訓練時間を著しく短縮するために, プランニングプロセスに融合を加える方法についても検討した。 CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。 より広範に、提案されたイントラフュージョンアプローチが、主流の圧縮アプローチに代わる新たな代替手段を探究することを期待している。 私たちのコードは、https://github.com/alexandertheus/Intra-Fusion.comで利用可能です。

Structural pruning of neural networks conventionally relies on identifying and discarding less important neurons, a practice often resulting in significant accuracy loss that necessitates subsequent fine-tuning efforts. This paper introduces a novel approach named Intra-Fusion, challenging this prevailing pruning paradigm. Unlike existing methods that focus on designing meaningful neuron importance metrics, Intra-Fusion redefines the overlying pruning procedure. Through utilizing the concepts of model fusion and Optimal Transport, we leverage an agnostically given importance metric to arrive at a more effective sparse model representation. Notably, our approach achieves substantial accuracy recovery without the need for resource-intensive fine-tuning, making it an efficient and promising tool for neural network compression. Additionally, we explore how fusion can be added to the pruning process to significantly decrease the training time while maintaining competitive performance. We benchmark our results for various networks on commonly used datasets such as CIFAR-10, CIFAR-100, and ImageNet. More broadly, we hope that the proposed Intra-Fusion approach invigorates exploration into a fresh alternative to the predominant compression approaches. Our code is available here: https://github.com/alexandertheus/Intra-Fusion.
翻訳日:2024-02-14 11:54:14 公開日:2024-02-13
# Aspect-based Sentiment Analysis のための拡張可能な多角核融合ネットワーク

Extensible Multi-Granularity Fusion Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2402.07787v2 )

ライセンス: Link先を確認
Xiaowei Zhao, Yong Zhou, Xiujuan Xu, Yu Liu(参考訳) Aspect-based Sentiment Analysis (ABSA)は、感情情報を理解するためにテキスト内の感情表現を評価する。 従来の研究では、知識グラフのような外部知識を統合して、ABSAモデルのセマンティックな特徴を強化していた。 近年,グラフニューラルネットワーク (GNN) の構文解析への依存性と構成木の利用について検討している。 absaの発展に伴い、より革新的な言語的および構造的特徴(例えば潜在グラフ)が取り入れられているが、これは複雑さと混乱をもたらす。 現在、多様な言語的・構造的特徴をABSAに統合するためのスケーラブルなフレームワークは存在しない。 本稿では,依存性や構成構文,注意の意味,外部知識グラフなどの情報を統合したEMGF(Extensible Multi-Granularity Fusion)ネットワークを提案する。 EMGFはマルチアンカー三重項学習と直交射影を備えており、各粒度特徴と相乗的相互作用の結合ポテンシャルを効率よく利用し、計算コストを増すことなく累積効果をもたらす。 SemEval 2014とTwitterデータセットの実験的発見は、EMGFが既存のABSAメソッドよりも優れていることを裏付けている。

Aspect-based Sentiment Analysis (ABSA) evaluates sentiment expressions within a text to comprehend sentiment information. Previous studies integrated external knowledge, such as knowledge graphs, to enhance the semantic features in ABSA models. Recent research has examined the use of Graph Neural Networks (GNNs) on dependency and constituent trees for syntactic analysis. With the ongoing development of ABSA, more innovative linguistic and structural features are being incorporated (e.g. latent graph), but this also introduces complexity and confusion. As of now, a scalable framework for integrating diverse linguistic and structural features into ABSA does not exist. This paper presents the Extensible Multi-Granularity Fusion (EMGF) network, which integrates information from dependency and constituent syntactic, attention semantic , and external knowledge graphs. EMGF, equipped with multi-anchor triplet learning and orthogonal projection, efficiently harnesses the combined potential of each granularity feature and their synergistic interactions, resulting in a cumulative effect without additional computational expenses. Experimental findings on SemEval 2014 and Twitter datasets confirm EMGF's superiority over existing ABSA methods.
翻訳日:2024-02-14 11:53:54 公開日:2024-02-13
# BAMを用いたグラフ構造推定:双線形注意機構の導入

Graph Structure Inference with BAM: Introducing the Bilinear Attention Mechanism ( http://arxiv.org/abs/2402.07735v2 )

ライセンス: Link先を確認
Philipp Froehlich and Heinz Koeppl(参考訳) 統計学と機械学習では、データセットの依存関係を検出することが中心的な課題である。 本稿では,教師付きグラフ構造学習のための新しいニューラルネットワークモデル,すなわち観測データとその基礎となる依存構造間のマッピングを学習するプロセスを提案する。 モデルは可変な形状と結合した入力データで訓練され、推論のために訓練されたネットワークを通る単一のフォワードパスのみを必要とする。 構造方程式モデルを活用し, ランダムに生成した多変量チェビシェフ多項式をトレーニングデータのシミュレーションに利用することにより, 線形および多種類の非線形依存関係にまたがるロバストな一般化性を実証する。 本稿では,変換データの共分散行列のレベルで動作し,対称正定値行列多様体の幾何学を尊重する,従属情報の明示的処理のための新しい双線型注意機構(bam)を提案する。 経験的評価は, 広範囲な依存性の検出, 非有向グラフ推定に優れ, 完備部分有向非巡回グラフ推定における競争力を, 新たな二段階アプローチにより証明する手法の頑健性を示す。

In statistics and machine learning, detecting dependencies in datasets is a central challenge. We propose a novel neural network model for supervised graph structure learning, i.e., the process of learning a mapping between observational data and their underlying dependence structure. The model is trained with variably shaped and coupled simulated input data and requires only a single forward pass through the trained network for inference. By leveraging structural equation models and employing randomly generated multivariate Chebyshev polynomials for the simulation of training data, our method demonstrates robust generalizability across both linear and various types of non-linear dependencies. We introduce a novel bilinear attention mechanism (BAM) for explicit processing of dependency information, which operates on the level of covariance matrices of transformed data and respects the geometry of the manifold of symmetric positive definite matrices. Empirical evaluation demonstrates the robustness of our method in detecting a wide range of dependencies, excelling in undirected graph estimation and proving competitive in completed partially directed acyclic graph estimation through a novel two-step approach.
翻訳日:2024-02-14 11:53:35 公開日:2024-02-13
# 分割多項式テンソルネットワーク量子特徴符号化

Piecewise Polynomial Tensor Network Quantum Feature Encoding ( http://arxiv.org/abs/2402.07671v2 )

ライセンス: Link先を確認
Mazen Ali and Matthias Kabel(参考訳) 本研究は,低ランクテンソルネットワークを用いた分別多項式特徴を用いた連続変数の量子回路への埋め込み手法を提案する。 本手法は,偏微分方程式の解法や関数回帰法といった数値応用に適した空間的局所化表現を取り入れることで,量子アルゴリズムの適用性を高めることを目的としている。 離散微分方程式の解の効率的な点評価とジャンプの不連続性などの局所化特徴を持つモデリング関数を用いて,pptnqfeの可能性を示す。 有望ではあるが、未探索ノイズの影響やトレーニング可能な回路の設計といった課題は残っている。 本研究は、新しい特徴埋め込みによる量子モデルの拡張と、量子機械学習においてより広範な関数型にTN表現を活用するための新たな道を開く。

This work introduces a novel method for embedding continuous variables into quantum circuits via piecewise polynomial features, utilizing low-rank tensor networks. Our approach, termed Piecewise Polynomial Tensor Network Quantum Feature Encoding (PPTNQFE), aims to broaden the applicability of quantum algorithms by incorporating spatially localized representations suited for numerical applications like solving partial differential equations and function regression. We demonstrate the potential of PPTNQFE through efficient point evaluations of solutions of discretized differential equations and in modeling functions with localized features such as jump discontinuities. While promising, challenges such as unexplored noise impact and design of trainable circuits remain. This study opens new avenues for enhancing quantum models with novel feature embeddings and leveraging TN representations for a wider array of function types in quantum machine learning.
翻訳日:2024-02-14 11:53:15 公開日:2024-02-13
# 医用画像分類における画像ネット事前学習モデルとDINOv2の比較分析

Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and DINOv2 in Medical Imaging Classification ( http://arxiv.org/abs/2402.07595v2 )

ライセンス: Link先を確認
Yuning Huang, Jingchen Zou, Lanxi Meng, Xin Yue, Qing Zhao, Jianqiang Li, Changwei Song, Gabriel Jimenez, Shaowu Li, Guanghui Fu(参考訳) 医療画像分析は、しばしばデータの不足に遭遇する。 転送学習は、計算資源を維持しながらこの問題に対処する上で有効である。 視覚トランスフォーマーアーキテクチャを使用するdinov2のような基礎モデルが最近登場し、この分野で新たな機会が生まれ、大きな関心を集めている。 しかし、DINOv2の臨床データに対する性能は依然として検証する必要がある。 本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。 我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を、伝達学習コンテキストで比較した。 私たちの焦点は、凍結メカニズムがパフォーマンスに与える影響を理解することです。 また,胸部x線撮影,眼底x線撮影,皮膚内視鏡検査の3種類について検討を行った。 我々の臨床データセットでは、DINOv2の性能はImageNetベースの事前訓練モデルほど優れていなかったが、公開データセットでは、特に凍結機構を使用する場合、DINOv2は他のモデルよりも優れていた。 同様の性能は、様々なタスクにわたるDINOv2モデルの様々なサイズで観察された。 要約すると、DINOv2は医学画像分類タスク、特に自然画像に似たデータに対して有効である。 しかし、その効果はMRIのような自然画像と大きく異なるデータによって異なる可能性がある。 さらに、より小さいバージョンのモデルを採用することは、医療作業に適しており、リソース節約の便益を提供する。 私たちのコードはhttps://github.com/guanghuifu/medical_dinov2_evalで利用可能です。

Medical image analysis frequently encounters data scarcity challenges. Transfer learning has been effective in addressing this issue while conserving computational resources. The recent advent of foundational models like the DINOv2, which uses the vision transformer architecture, has opened new opportunities in the field and gathered significant interest. However, DINOv2's performance on clinical data still needs to be verified. In this paper, we performed a glioma grading task using three clinical modalities of brain MRI data. We compared the performance of various pre-trained deep learning models, including those based on ImageNet and DINOv2, in a transfer learning context. Our focus was on understanding the impact of the freezing mechanism on performance. We also validated our findings on three other types of public datasets: chest radiography, fundus radiography, and dermoscopy. Our findings indicate that in our clinical dataset, DINOv2's performance was not as strong as ImageNet-based pre-trained models, whereas in public datasets, DINOv2 generally outperformed other models, especially when using the frozen mechanism. Similar performance was observed with various sizes of DINOv2 models across different tasks. In summary, DINOv2 is viable for medical image classification tasks, particularly with data resembling natural images. However, its effectiveness may vary with data that significantly differs from natural images such as MRI. In addition, employing smaller versions of the model can be adequate for medical task, offering resource-saving benefits. Our codes are available at https://github.com/GuanghuiFU/medical_DINOv2_eval.
翻訳日:2024-02-14 11:52:59 公開日:2024-02-13
# ニューラルネットワークの振る舞いを解釈する回避攻撃に対するトポロジカルセーフガード

Topological safeguard for evasion attack interpreting the neural networks' behavior ( http://arxiv.org/abs/2402.07480v2 )

ライセンス: Link先を確認
Xabier Echeberria-Barrio, Amaia Gil-Lerchundi, I\~nigo Mendialdua, Raul Orduna-Urrutia(参考訳) 近年、Deep Learning技術はさまざまな分野で提案され、それぞれに多くの進歩をもたらしたが、サイバーセキュリティに関するこれらのソリューションにおける新たな脅威を特定した。 これらの実装モデルは、ディープラーニング技術に関連するいくつかの脆弱性をもたらしている。 さらに、これらは実装されたモデルを活用し、プライベート情報を取得し、モデルの意思決定を変更できる。 したがって、これらの脆弱性や攻撃を研究し、それらを避けたり戦ったりするために防御を設計することへの関心が研究者の間で高まっている。 特に、広く知られている回避攻撃は研究者によって分析されており、そのような脅威を避けるためのいくつかの防御策が文献で見られる。 L-BFGアルゴリズムの提示以来、この脅威は研究コミュニティを悩ませている。 しかし、既知の全ての回避アルゴリズムに対する完全な防御がないため、新たな独創的な対策が開発され続けている。 本研究では,新たな回避攻撃検知装置を開発した。 入力サンプルが注入された際にモデルによって与えられるニューロンの活性化の情報に焦点を当てている。 さらに、対象とするディープラーニングモデルのトポロジーに注目し、どのニューロンが接続しているかに応じてアクティベーションを分析する。 このアプローチは、対象モデルのトポロジーが回避攻撃が起こるかどうかに関する重要な情報を含んでいることを示す文献から決定されている。 この目的のために、グラフ畳み込みニューラルネットワーク(GCN)技術を使用する検出器にこれらの情報をすべて導入するために、巨大なデータ前処理が必要である。 そこで, 対象モデルのトポロジを理解し, 有望な結果を得て, 類似の防衛に関する文献に提示される結果を改善する。

In the last years, Deep Learning technology has been proposed in different fields, bringing many advances in each of them, but identifying new threats in these solutions regarding cybersecurity. Those implemented models have brought several vulnerabilities associated with Deep Learning technology. Moreover, those allow taking advantage of the implemented model, obtaining private information, and even modifying the model's decision-making. Therefore, interest in studying those vulnerabilities/attacks and designing defenses to avoid or fight them is gaining prominence among researchers. In particular, the widely known evasion attack is being analyzed by researchers; thus, several defenses to avoid such a threat can be found in the literature. Since the presentation of the L-BFG algorithm, this threat concerns the research community. However, it continues developing new and ingenious countermeasures since there is no perfect defense for all the known evasion algorithms. In this work, a novel detector of evasion attacks is developed. It focuses on the information of the activations of the neurons given by the model when an input sample is injected. Moreover, it puts attention to the topology of the targeted deep learning model to analyze the activations according to which neurons are connecting. This approach has been decided because the literature shows that the targeted model's topology contains essential information about if the evasion attack occurs. For this purpose, a huge data preprocessing is required to introduce all this information in the detector, which uses the Graph Convolutional Neural Network (GCN) technology. Thus, it understands the topology of the target model, obtaining promising results and improving the outcomes presented in the literature related to similar defenses.
翻訳日:2024-02-14 11:52:36 公開日:2024-02-13
# 価値負荷問題へのホルム的アプローチ:ペーパークリップ黙示録の防止?

A Hormetic Approach to the Value-Loading Problem: Preventing the Paperclip Apocalypse? ( http://arxiv.org/abs/2402.07462v2 )

ライセンス: Link先を確認
Nathan I. N. Henry, Mangor Pedersen, Matt Williams, Jamin L. B. Martin, Liesje Donkin(参考訳) バリューローディング問題は、人間の価値観や好みに合わせて人工知能(AI)システムを構築する研究者にとって重要な課題である。 この問題は、AI行動の安全かつ最適な限界を定義し、規制する手法を必要とする。 本研究では,AIの行動パターンの制御にホーミング分析を用いる規制パラダイムであるHALO(Hormetic ALignment via Opponent Process)を提案する。 行動ホルモン症(behavior hormesis)は、行動の低周波が有益であり、高周波が有害である現象である。 動作をアロスタティックな対向プロセスとしてモデル化することで、反復可能な動作のホルモン限界を定量化するために行動周波数応答解析(bfra)または行動カウント応答解析(bcra)のいずれかを利用することができる。 haloが‘paperclip maximr’のシナリオをいかに解決できるかをデモする。これは、ペーパークリップを作るための規制のないaiが、宇宙のすべての物質を紙クリップに変換することができる、という思考実験だ。 本手法は,限界効用の減少を伴う反復可能な行動のヘドニック計算に基づく「価値」データベースの作成に有用である。 これによりhaloは、aiシステムにヒューマンアライメントされた値を組み込む価値負荷問題や、弱いモデルがよりインテリジェントになるにつれてより強力なモデルを監督できるかどうかを探究する弱い~強い一般化問題に対する有望な解決策として位置づけられる。 したがって、HALOは、AIアルゴリズムが正しいかどうかを学習できる計算値システムの開発につながるかもしれないいくつかの研究の道を開く。

The value-loading problem is a significant challenge for researchers aiming to create artificial intelligence (AI) systems that align with human values and preferences. This problem requires a method to define and regulate safe and optimal limits of AI behaviors. In this work, we propose HALO (Hormetic ALignment via Opponent processes), a regulatory paradigm that uses hormetic analysis to regulate the behavioral patterns of AI. Behavioral hormesis is a phenomenon where low frequencies of a behavior have beneficial effects, while high frequencies are harmful. By modeling behaviors as allostatic opponent processes, we can use either Behavioral Frequency Response Analysis (BFRA) or Behavioral Count Response Analysis (BCRA) to quantify the hormetic limits of repeatable behaviors. We demonstrate how HALO can solve the 'paperclip maximizer' scenario, a thought experiment where an unregulated AI tasked with making paperclips could end up converting all matter in the universe into paperclips. Our approach may be used to help create an evolving database of 'values' based on the hedonic calculus of repeatable behaviors with decreasing marginal utility. This positions HALO as a promising solution for the value-loading problem, which involves embedding human-aligned values into an AI system, and the weak-to-strong generalization problem, which explores whether weak models can supervise stronger models as they become more intelligent. Hence, HALO opens several research avenues that may lead to the development of a computational value system that allows an AI algorithm to learn whether the decisions it makes are right or wrong.
翻訳日:2024-02-14 11:52:10 公開日:2024-02-13
# 品質は重要だ - webマインド・パラレルコーパスの品質と有用性について

Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora ( http://arxiv.org/abs/2402.07446v2 )

ライセンス: Link先を確認
Surangika Ranathunga, Nisansa de Silva, Menan Velayuthan, Aloka Fernando, Charitha Rathnayake(参考訳) 2つの低リソース言語(英語-sinhala, english-tamil, sinhala-tamilの3つの言語ペア)について,webマインドコーパスの品質に関する詳細な分析を行った。 我々は,各コーパスを類似度尺度で分類し,各コーパスの異なる部分について内在的,外因的評価を行った。 ウェブマイニングコーパスの異なる部分で品質が著しく異なり、言語やデータセットによって品質が変化することを示す。 また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。

We conducted a detailed analysis on the quality of web-mined corpora for two low-resource languages (making three language pairs, English-Sinhala, English-Tamil and Sinhala-Tamil). We ranked each corpus according to a similarity measure and carried out an intrinsic and extrinsic evaluation on different portions of this ranked corpus. We show that there are significant quality differences between different portions of web-mined corpora and that the quality varies across languages and datasets. We also show that, for some web-mined datasets, Neural Machine Translation (NMT) models trained with their highest-ranked 25k portion can be on par with human-curated datasets.
翻訳日:2024-02-14 11:51:40 公開日:2024-02-13
# SALAD: スマートAI言語アシスタント

SALAD: Smart AI Language Assistant Daily ( http://arxiv.org/abs/2402.07431v2 )

ライセンス: Link先を確認
Ragib Amin Nihal, Tran Dong Huu Quoc, Lin Zirui, Xu Yimimg, Liu Haoran, An Zhaoyi, and Kyou Ma(参考訳) saladは、外国人が日本語を学ぶのを助けるai駆動の言語学習アプリケーションだ。 漢字仮名文字の翻訳、音声認識、翻訳音声、語彙追跡、文法説明、新たに学習した単語から生成された歌などを提供している。 このアプリは初心者と中間学習者をターゲットにしており、言語習得をより使いやすくすることを目指している。 SALADは日々の翻訳を使用して、ネイティブスピーカーとのコミュニケーションの流布と快適さを高める。 主な目的は、効果的な日本語学習、ユーザエンゲージメント、進捗追跡である。 我が国の外国人の39%が日本人話者との会話に不快を感じている。 外国人の60%以上がSALADの日本語能力に自信を示していた。 このアプリは、大きな言語モデル、音声認識、拡散モデルを使用して、言語ギャップを埋め、日本のより包括的なコミュニティを育む。

SALAD is an AI-driven language-learning application designed to help foreigners learn Japanese. It offers translations in Kanji-Kana-Romaji, speech recognition, translated audio, vocabulary tracking, grammar explanations, and songs generated from newly learned words. The app targets beginners and intermediate learners, aiming to make language acquisition more accessible and enjoyable. SALAD uses daily translations to enhance fluency and comfort in communication with native speakers. The primary objectives include effective Japanese language learning, user engagement, and progress tracking. A survey by us found that 39% of foreigners in Japan face discomfort in conversations with Japanese speakers. Over 60% of foreigners expressed confidence in SALAD's ability to enhance their Japanese language skills. The app uses large language models, speech recognition, and diffusion models to bridge the language gap and foster a more inclusive community in Japan.
翻訳日:2024-02-14 11:51:24 公開日:2024-02-13
# 交通難問題について

On the Transit Obfuscation Problem ( http://arxiv.org/abs/2402.07420v2 )

ライセンス: Link先を確認
Hideaki Takahashi and Alex Fukunaga(参考訳) ルート上の中間点やルートから見えるようにすることは、交通や監視のシナリオにおいて重要な目標である。 本稿では,ある始点から終点への移動の問題であるトランジット難読化問題について,敵から隠れる必要がある特定の通過点を「隠蔽」しながら検討する。 我々は,経路計画アルゴリズムの知識が十分ある強力な敵であっても,特定の通過点の匿名性を定量的に保証するトランジット匿名性の概念を提案する。 この匿名性基準を満たす計画・探索アルゴリズムを提案し,評価する。

Concealing an intermediate point on a route or visible from a route is an important goal in some transportation and surveillance scenarios. This paper studies the Transit Obfuscation Problem, the problem of traveling from some start location to an end location while "covering" a specific transit point that needs to be concealed from adversaries. We propose the notion of transit anonymity, a quantitative guarantee of the anonymity of a specific transit point, even with a powerful adversary with full knowledge of the path planning algorithm. We propose and evaluate planning/search algorithms that satisfy this anonymity criterion.
翻訳日:2024-02-14 11:51:11 公開日:2024-02-13
# 高速かつ適応的な予測区間のための回帰木

Regression Trees for Fast and Adaptive Prediction Intervals ( http://arxiv.org/abs/2402.07357v2 )

ライセンス: Link先を確認
Luben M. C. Cabezas, Mateus P. Otto, Rafael Izbicki, Rafael B. Stern(参考訳) 予測モデルは間違いを犯す。 したがって、予測に関連する不確実性を定量化する必要がある。 コンフォーマル推論は、点予測に関する統計的に有効な予測領域を作成するための強力なツールとして現れてきたが、回帰問題への単純適用は非適応領域を生み出す。 新しい共形スコアは、しばしば量子的回帰器や条件密度推定器に依存し、この制限に対処することを目指している。 これらは予測バンドの作成に有用であるが、これらのスコアは任意の予測モデル周辺の不確かさを定量化するという当初の目標から外れている。 本稿では,局所カバレッジ保証を伴う回帰問題の予測区間を校正する新しいモデル非依存な手法を提案する。 我々のアプローチは条件付きカバレッジを近似する特徴空間の最も粗い分割を追求することに基づいている。 回帰木とランダムフォレストを適合度スコアでトレーニングすることで、この分割を作成する。 様々な適合度スコアや予測設定に適用し,シミュレーションや実世界のデータセットで確立されたベースラインよりも優れたスケーラビリティとパフォーマンスを示す。 標準のScikit-Lernインターフェースを使ってメソッドを実装するPythonパッケージクローバを提供する。

Predictive models make mistakes. Hence, there is a need to quantify the uncertainty associated with their predictions. Conformal inference has emerged as a powerful tool to create statistically valid prediction regions around point predictions, but its naive application to regression problems yields non-adaptive regions. New conformal scores, often relying upon quantile regressors or conditional density estimators, aim to address this limitation. Although they are useful for creating prediction bands, these scores are detached from the original goal of quantifying the uncertainty around an arbitrary predictive model. This paper presents a new, model-agnostic family of methods to calibrate prediction intervals for regression problems with local coverage guarantees. Our approach is based on pursuing the coarsest partition of the feature space that approximates conditional coverage. We create this partition by training regression trees and Random Forests on conformity scores. Our proposal is versatile, as it applies to various conformity scores and prediction settings and demonstrates superior scalability and performance compared to established baselines in simulated and real-world datasets. We provide a Python package clover that implements our methods using the standard scikit-learn interface.
翻訳日:2024-02-14 11:51:01 公開日:2024-02-13
# 平均場定常分布からのサンプリング

Sampling from the Mean-Field Stationary Distribution ( http://arxiv.org/abs/2402.07355v2 )

ライセンス: Link先を確認
Yunbum Kook, Matthew S. Zhang, Sinho Chewi, Murat A. Erdogdu, Mufan Bill Li(参考訳) 本研究では,平均場SDEの定常分布からのサンプリングの複雑さ,あるいは相互作用項を含む確率測度空間上の関数の最小化の複雑さについて検討する。 本研究の主な知見は,(1)有限粒子系による平均場sdeの近似,(2)カオスの均一な時間伝播,(2)標準対数対数解析による有限粒子定常分布からのサンプリング,の2つの重要な側面を分離することである。 我々のアプローチは概念的にシンプルであり、その柔軟性はアルゴリズムと理論の両方に最先端の技術を取り入れることができる。 これにより、平均フィールド状態における特定の2層ニューラルネットワークを最適化する保証の改善など、多数の設定での保証が改善される。

We study the complexity of sampling from the stationary distribution of a mean-field SDE, or equivalently, the complexity of minimizing a functional over the space of probability measures which includes an interaction term. Our main insight is to decouple the two key aspects of this problem: (1) approximation of the mean-field SDE via a finite-particle system, via uniform-in-time propagation of chaos, and (2) sampling from the finite-particle stationary distribution, via standard log-concave samplers. Our approach is conceptually simpler and its flexibility allows for incorporating the state-of-the-art for both algorithms and theory. This leads to improved guarantees in numerous settings, including better guarantees for optimizing certain two-layer neural networks in the mean-field regime.
翻訳日:2024-02-14 11:50:41 公開日:2024-02-13
# HyperBERT: テキスト分散ハイパーグラフのノード分類のための言語モデルとハイパーグラフ認識層を混合する

HyperBERT: Mixing Hypergraph-Aware Layers with Language Models for Node Classification on Text-Attributed Hypergraphs ( http://arxiv.org/abs/2402.07309v2 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) ハイパーグラフは複雑なトポロジーで特徴付けられ、ハイパーエッジを持つ複数のエンティティ間の高次相互作用を表現する。 近年,テキスト帰属ハイパーグラフのノード分類問題に対する情報表現を学習するハイパーグラフ型ディープラーニング手法が研究の注目を集めている。 しかし、既存の手法は、ハイパーグラフ構造情報の全範囲と、ノード属性に固有の豊富な言語特性を同時に捉えるのに苦労し、その有効性と一般化性を大きく損なう。 これらの課題を克服するために,ノード分類のためのハイパーグラフ認識層を用いて事前学習したbertモデルをさらに拡張する方法を検討する。 このような層は言語モデルに高階構造的帰納的バイアスをもたらし、ハイパーグラフ構造から高階のコンテキスト情報とテキストに存在する意味情報の両方を活用するモデルの能力を向上させる。 本稿では,事前学習したBERTの高品質テキスト符号化能力を維持しつつ,ハイパーグラフ関係構造を同時にモデル化する混合テキストハイパグラフモデルであるHyperBERTを提案する。 特に、HyperBERTは5つの挑戦的なテキスト分散ハイパーグラフノード分類ベンチマークに対して、最先端の新たな結果を提供する。

Hypergraphs are marked by complex topology, expressing higher-order interactions among multiple entities with hyperedges. Lately, hypergraph-based deep learning methods to learn informative data representations for the problem of node classification on text-attributed hypergraphs have garnered increasing research attention. However, existing methods struggle to simultaneously capture the full extent of hypergraph structural information and the rich linguistic attributes inherent in the nodes attributes, which largely hampers their effectiveness and generalizability. To overcome these challenges, we explore ways to further augment a pretrained BERT model with specialized hypergraph-aware layers for the task of node classification. Such layers introduce higher-order structural inductive bias into the language model, thus improving the model's capacity to harness both higher-order context information from the hypergraph structure and semantic information present in text. In this paper, we propose a new architecture, HyperBERT, a mixed text-hypergraph model which simultaneously models hypergraph relational structure while maintaining the high-quality text encoding capabilities of a pre-trained BERT. Notably, HyperBERT presents results that achieve a new state-of-the-art on five challenging text-attributed hypergraph node classification benchmarks.
翻訳日:2024-02-14 11:50:26 公開日:2024-02-13