このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240207となっている論文です。

PDF登録状況(公開日: 20240207)

TitleAuthorsAbstract論文公表日・翻訳日
# CapsF: Twitterから自殺のための精神医学的ストレスを抽出するためのカプセルフュージョン

CapsF: Capsule Fusion for Extracting psychiatric stressors for suicide from twitter ( http://arxiv.org/abs/2403.15391v1 )

ライセンス: Link先を確認
Mohammad Ali Dadgostarnia, Ramin Mousa, Saba Hesaraki, (参考訳) がん、血圧、道路事故、脳卒中などの要因とともに、自殺はイランの主要な死因の1つとなっている。 自殺の主な原因の1つは心理的ストレスである。 リスクの高い集団における心理的ストレスの特定は、自殺行為や自殺行為の早期予防に役立つ。 近年、ソーシャルメディアのリアルタイム情報共有の普及と流れは、大規模および小規模人口の早期介入を可能にしている。 しかし、Twitterから精神医学的ストレスを抽出するためのいくつかの自動化アプローチが提示されているが、この研究の大部分はペルシア語以外の言語を対象としている。 本研究では,ペルシャ語ツイートから自殺に関連する心理的ストレスを検出する手法について,学習に基づく手法を用いて検討する。 提案されたカプセルベースのアプローチは2値分類精度0.83を達成した。

Along with factors such as cancer, blood pressure, street accidents and stroke, suicide has been one of Iran main causes of death. One of the main reasons for suicide is psychological stressors. Identifying psychological stressors in an at risk population can help in the early prevention of suicidal and suicidal behaviours. In recent years, the widespread popularity and flow of real time information sharing of social media have allowed for potential early intervention in large scale and even small scale populations. However, some automated approaches to extract psychiatric stressors from Twitter have been presented, but most of this research has been for non Persian languages. This study aims to investigate the techniques of detecting psychological stress related to suicide from Persian tweets using learning based methods. The proposed capsule based approach achieved a binary classification accuracy of 0.83.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-07
# 支持ベクトルマシンを用いたブラシ直流モータの速度と位置のセンサレス推定法

A New Method for Sensorless Estimation of the Speed and Position in Brushed DC Motors Using Support Vector Machines ( http://arxiv.org/abs/2403.18833v1 )

ライセンス: Link先を確認
Ernesto Vazquez-Sanchez, Jaime Gomez-Gil, Jose-Carlos Gamazo-Real, Jose Fernando Diez-Higuera, (参考訳) 現在、多くの応用において、モータの速度と位置を知る必要がある。 これは、モータ軸に結合された機械式センサーや、センサレス技術を用いて実現できる。 ブラシ付きdcモータのセンサレス技術は、以下の2種類に分類される。 1)動的ブラインドdcモータモデルと技術 2)電流のリップル成分に基づく技術 本稿では, 支持ベクトルマシンを用いたブラシドdcモータの速度と位置推定のためのリップル成分に基づく新しい手法を提案する。 提案手法は電流のみを計測し,信号中のパルスを検出する。 検出されたパルス間の逆距離を用いてモータ速度を推定し、検出された全てのパルスをカウントして位置を推定する。 ゴーストパルスを検知し、偽パルスを破棄する能力は、他のセンサレス法に比べて、この方法の主な利点である。 2つの分数馬力ブラインドdcモータの試験結果から,速度が一定あるいは動的に変化する幅広い速度・状況で正常に動作することが示唆された。

Currently, for many applications, it is necessary to know the speed and position of motors. This can be achieved using mechanical sensors coupled to the motor shaft or using sensorless techniques. The sensorless techniques in brushed dc motors can be classified into two types: 1) techniques based on the dynamic brushed dc motor model and 2) techniques based on the ripple component of the current. This paper presents a new method, based on the ripple component, for speed and position estimation in brushed dc motors, using support vector machines. The proposed method only measures the current and detects the pulses in this signal. The motor speed is estimated by using the inverse distance between the detected pulses, and the position is estimated by counting all detected pulses. The ability to detect ghost pulses and to discard false pulses is the main advantage of this method over other sensorless methods. The performed tests on two fractional horsepower brushed dc motors indicate that the method works correctly in a wide range of speeds and situations, in which the speed is constant or varies dynamically.
翻訳日:2024-04-01 02:34:48 公開日:2024-02-07
# V,w)正規符号のビットフリップデコーダ故障率推定

Bit-flipping Decoder Failure Rate Estimation for (v,w)-regular Codes ( http://arxiv.org/abs/2401.16919v2 )

ライセンス: Link先を確認
Alessandro Annechini, Alessandro Barenghi, Gerardo Pelosi, (参考訳) 低密度および中程度のパリティチェックコードに対する反復復号器の復号失敗率の閉形式推定は、長年の研究コミュニティで大きな関心を集めてきた。 この関心は、モンテカルロシミュレーションによって望まれる復号失敗率の推定が不可能な、量子後暗号システムにおける反復デコーダの使用により、最近高まっている。 そこで本研究では,暗号目的にも使用可能な2列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。 そこで本研究では,第2復号器繰り返しにおけるビット反転確率の推定に成功し,第1復号器におけるシンドローム重み分布の適正な推定を行う。 本研究では,本研究の結果を数値的に検証し,本症候群のモデル化およびシミュレーション重量,第1イテレーション終了時の誤りビット分布,および2項目復号判定率(DFR)の比較を行った。 最後に,本手法を用いてLEDAcryptパラメータのDFRを推定し,従来の推定手法について,270ドル以上の因子(NISTカテゴリ1ドル)による改善を示す。 これにより、公開鍵と暗号文サイズの短縮が$\approx 20$%で、セキュリティ上の損失がなく、最小の暗号文であるNISTカテゴリは、BIKEよりもわずか6$%大きい。 解析された2値デコーダはBIKEに適用可能であり、現在のブラックグレーデコーダ(およびパラメータの調整)と交換することで、IND-CCA$2$の保証が得られる。

Providing closed form estimates of the decoding failure rate of iterative decoder for low- and moderate-density parity check codes has attracted significant interest in the research community over the years. This interest has raised recently due to the use of iterative decoders in post-quantum cryptosystems, where the desired decoding failure rates are impossible to estimate via Monte Carlo simulations. In this work, we propose a new technique to provide accurate estimates of the DFR of a two-iterations (parallel) bit flipping decoder, which is also employable for cryptographic purposes. In doing so, we successfully tackle the estimation of the bit flipping probabilities at the second decoder iteration, and provide a fitting estimate for the syndrome weight distribution at the first iteration. We numerically validate our results, providing comparisons of the modeled and simulated weight of the syndrome, incorrectly-guessed error bit distribution at the end of the first iteration, and two-iteration Decoding Failure Rates (DFR), both in the floor and waterfall regime for simulatable codes. Finally, we apply our method to estimate the DFR of LEDAcrypt parameters, showing improvements by factors larger than $2^{70}$ (for NIST category $1$) with respect to the previous estimation techniques. This allows for a $\approx 20$% shortening in public key and ciphertext sizes, at no security loss, making the smallest ciphertext for NIST category $1$ only $6$% larger than the one of BIKE. We note that the analyzed two-iterations decoder is applicable in BIKE, where swapping it with the current black-gray decoder (and adjusting the parameters) would provide strong IND-CCA$2$ guarantees.
翻訳日:2024-03-25 12:17:56 公開日:2024-02-07
# AIの影を解き明かす - 大規模言語モデルにおける認知能力の調査

Unmasking the Shadows of AI: Investigating Deceptive Capabilities in Large Language Models ( http://arxiv.org/abs/2403.09676v1 )

ライセンス: Link先を確認
Linge Guo, (参考訳) この研究は、大規模言語モデル(LLM)の騙し行動に集中して、AIの騙しの複雑な風景を批判的にナビゲートする。 私の目標は、この問題を解明し、それを取り巻く談話を調べ、その分類と混乱を掘り下げることです。 このエッセイは、AI Safety Summit 2023 (ASS) の評価と LLM の導入から始まり、詐欺行為の根底にある多次元的偏見を強調している。 最後に、私は、騙されるAIの永続的な課題をナビゲートすることに関連する様々な側面について評価的なスタンスを取ります。 この中には、国際協力ガバナンス、AIによる個人の再構成、実践的な調整の提案、デジタル教育の特定の要素などが含まれる。

This research critically navigates the intricate landscape of AI deception, concentrating on deceptive behaviours of Large Language Models (LLMs). My objective is to elucidate this issue, examine the discourse surrounding it, and subsequently delve into its categorization and ramifications. The essay initiates with an evaluation of the AI Safety Summit 2023 (ASS) and introduction of LLMs, emphasising multidimensional biases that underlie their deceptive behaviours.The literature review covers four types of deception categorised: Strategic deception, Imitation, Sycophancy, and Unfaithful Reasoning, along with the social implications and risks they entail. Lastly, I take an evaluative stance on various aspects related to navigating the persistent challenges of the deceptive AI. This encompasses considerations of international collaborative governance, the reconfigured engagement of individuals with AI, proposal of practical adjustments, and specific elements of digital education.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-07
# トセリン前処理装置(遺伝性K-メドイド法)

Pre-Sorted Tsetlin Machine (The Genetic K-Medoid Method) ( http://arxiv.org/abs/2403.09680v1 )

ライセンス: Link先を確認
Jordan Morris, (参考訳) 本稿では,Tsetlin Machines を用いた従来の教師あり学習のための機械学習・プリソート・ステージを提案する。 当初は、最大分散問題を解くために、高速な遺伝的アルゴリズムを用いてデータセットからN個のデータポイントを識別する。 これらをK-Medoidクラスタリングアルゴリズムを実行する初期配置として使用する。 最後に、ハミング距離を最大化することにより、N個の独立したTsetlin Machinesを調整するために、高速な遺伝的アルゴリズムが使用される。 MNISTレベルの分類問題では, 精度が最大10%向上し, 近似が得られた。 383倍に短縮した。 86倍の減少率を示した。

This paper proposes a machine learning pre-sort stage to traditional supervised learning using Tsetlin Machines. Initially, N data-points are identified from the dataset using an expedited genetic algorithm to solve the maximum dispersion problem. These are then used as the initial placement to run the K-Medoid clustering algorithm. Finally, an expedited genetic algorithm is used to align N independent Tsetlin Machines by maximising hamming distance. For MNIST level classification problems, results demonstrate up to 10% improvement in accuracy, approx. 383X reduction in training time and approx. 86X reduction in inference time.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-07
# ViT-MUL:視覚変換器に適用した最近の機械学習手法のベースライン研究

ViT-MUL: A Baseline Study on Recent Machine Unlearning Methods Applied to Vision Transformers ( http://arxiv.org/abs/2403.09681v1 )

ライセンス: Link先を確認
Ikhyun Cho, Changyeon Park, Julia Hockenmaier, (参考訳) 機械学習(MUL)は、訓練されたモデルから特定のトレーニングデータポイントの学習情報を消去しようとする機械学習の分野である。 コンピュータビジョンにおける最近のMULの活発な研究にもかかわらず、ほとんどの研究はResNetベースのモデルに焦点を当てている。 ビジョントランスフォーマー(ViT)が主要なモデルアーキテクチャとなったことを考えると、特にViTに合わせたMULの詳細な研究が不可欠である。 本稿では,最新のMULアルゴリズムとデータセットを用いたViTの総合的な実験について述べる。 我々は、我々の実験、アブレーション研究、そして発見が貴重な洞察を与え、この分野のさらなる研究を促すことを期待する。

Machine unlearning (MUL) is an arising field in machine learning that seeks to erase the learned information of specific training data points from a trained model. Despite the recent active research in MUL within computer vision, the majority of work has focused on ResNet-based models. Given that Vision Transformers (ViT) have become the predominant model architecture, a detailed study of MUL specifically tailored to ViT is essential. In this paper, we present comprehensive experiments on ViTs using recent MUL algorithms and datasets. We anticipate that our experiments, ablation studies, and findings could provide valuable insights and inspire further research in this field.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-07
# 量子の理論と実用化に向けて

On the Theory of Quantum and Towards Practical Computation ( http://arxiv.org/abs/2403.09682v1 )

ライセンス: Link先を確認
Robert Kudelić, (参考訳) 量子コンピューティングは、コンピュータ科学を通じて量子力学の輝きを露呈する。 この記事では、コンピュータの専門家だけでなく、他の分野の専門家にも向けられた、量子計算の歴史的かつ現在の展望を紹介する。 古典的な計算と量子計算の間の広大なギャップを埋め、量子計算のスピードに到達し、本質的にはそれと親しむことができるような入力のくさびを開ける記事である。 私たちは本当に、コンピューティングが再発明されている時代に生きており、その時代の歴史を手元に見るだけでなく、実際は、再発明する機会を持っている ― そしてそれは、かなり思いがけない。

Quantum computing exposes the brilliance of quantum mechanics through computer science and, as such, gives oneself a marvelous and exhilarating journey to go through. This article leads along that journey with a historical and current outlook on quantum computation that is geared toward computer experts but also to experts from other disciplines as well. It is an article that will bridge the vast gap between classical and quantum computation and open an entering wedge through which one will be able to both bring himself up to speed on quantum computation and, intrinsically, in a straightforward manner, become acquainted with it. We are indeed in luck to be living in an age where computing is being reinvented, and not only seeing history in the making firsthand but, in fact, having the opportunity to be the ones who are reinventing--and that is quite a thought.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-07
# 偽画像編集

Counterfactual Image Editing ( http://arxiv.org/abs/2403.09683v1 )

ライセンス: Link先を確認
Yushu Pan, Elias Bareinboim, (参考訳) 対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。 このトピックに関する現在の文献は、主に個々の特徴の変更に焦点を当て、現実世界にあるように、これらの特徴間の因果関係について沈黙を保っている。 本稿では,形式言語を用いた対物画像編集タスクを形式化し,拡張構造因果モデル(ASCM)と呼ばれる特殊なモデルを用いて,潜在生成因子と画像の因果関係をモデル化する。 第2に,(1) 画像サンプルとそれに対応するラベルだけでは非現実的な編集は不可能であり,(2) 潜在生成因子と画像の因果関係が利用できる場合でも,モデルの出力に関する保証は得られない。 第3に,この課題に対する緩和策として,非同定不可能な反実数分布を新しい反実数一貫性推定器群で近似することを提案する。 この家族は、ユーザーが実物と反物の両方の世界で気にかけている特徴を保存できることの望ましい特性を示す。 最後に、ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発する。

Counterfactual image editing is an important task in generative AI, which asks how an image would look if certain features were different. The current literature on the topic focuses primarily on changing individual features while remaining silent about the causal relationships between these features, as present in the real world. In this paper, we formalize the counterfactual image editing task using formal language, modeling the causal relationships between latent generative factors and images through a special type of model called augmented structural causal models (ASCMs). Second, we show two fundamental impossibility results: (1) counterfactual editing is impossible from i.i.d. image samples and their corresponding labels alone; (2) even when the causal relationships between the latent generative factors and images are available, no guarantees regarding the output of the model can be provided. Third, we propose a relaxation for this challenging problem by approximating non-identifiable counterfactual distributions with a new family of counterfactual-consistent estimators. This family exhibits the desirable property of preserving features that the user cares about across both factual and counterfactual worlds. Finally, we develop an efficient algorithm to generate counterfactual images by leveraging neural causal models.
翻訳日:2024-03-25 08:06:28 公開日:2024-02-07
# UAVネットワークを用いたブロックチェーン駆動イミュータブル・信頼性デリバリサービス(BIRDS)

Blockchain-Empowered Immutable and Reliable Delivery Service (BIRDS) Using UAV Networks ( http://arxiv.org/abs/2403.12060v1 )

ライセンス: Link先を確認
Sana Hafeez, Habib Ullah Manzoor, Lina Mohjazi, Ahmed Zoha, Muhammad Ali Imran, Yao Sun, (参考訳) 無人航空機(UAV)の無人輸送は、配達時間と人的資源コストを削減できると期待されている。 しかし、これらのUAVが地上に近接していることは、機会的犯罪者にとって理想的な標的となる。 その結果、UAVはハッキングされたり、目的地から外れたり、悪意のある目的のために使われたりすることができる。 さらに、分散化された(ピアツーピア)技術として、ブロックチェーンは、UAV間のセキュアで分散化された、協調的な通信を可能にする大きな可能性を秘めている。 この目標を念頭に置いて、データセキュリティの課題に対処するためのBlockchain-Empowered、Immutable、Reliable Delivery Service(BIRDS)フレームワークを提案します。 BIRDSはスケーラブルなネットワークに通信ハブをデプロイする。 BIRDSの登録フェーズの後、UAVノードの選択は特定のコンセンサス・オブ・コンピテンス(PoC)に基づいて行われ、UAVは信頼性のみに基づいて評価される。 選ばれたファイナリストは、BIRDSグローバルオーダーフルフィルメントシステムの証明書を与えられる。 シミュレーションの結果、BIRDSは従来のソリューションに比べてUAVが少ないことが示され、その結果、コストと排出が削減された。 提案したBIRDSフレームワークは、ネットワークトラフィックの削減と低エネルギー消費を必要としながら、多数のユーザの要求を満たす。

Exploiting unmanned aerial vehicles (UAVs) for delivery services is expected to reduce delivery time and human resource costs. However, the proximity of these UAVs to the ground can make them an ideal target for opportunistic criminals. Consequently, UAVs may be hacked, diverted from their destinations, or used for malicious purposes. Furthermore, as a decentralized (peer-to-peer) technology, the blockchain has immense potential to enable secure, decentralized, and cooperative communication among UAVs. With this goal in mind, we propose the Blockchain-Empowered, Immutable, and Reliable Delivery Service (BIRDS) framework to address data security challenges. BIRDS deploys communication hubs across a scalable network. Following the registration phase of BIRDS, UAV node selection is carried out based on a specific consensus proof-of-competence (PoC), where UAVs are evaluated solely on their credibility. The chosen finalist is awarded a certificate for the BIRDS global order fulfillment system. The simulation results demonstrate that BIRDS requires fewer UAVs compared to conventional solutions, resulting in reduced costs and emissions. The proposed BIRDS framework caters to the requirements of numerous users while necessitating less network traffic and consuming low energy.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-07
# アプリケーション特化マルチコアアーキテクチャを用いたSNNモデルの設計空間探索

Design-Space Exploration of SNN Models using Application-Specific Multi-Core Architectures ( http://arxiv.org/abs/2403.12061v1 )

ライセンス: Link先を確認
Sanaullah, Shamini Koravuna, Ulrich Rückert, Thorsten Jungeblut, (参考訳) 本研究では,現在SNNの有望な特徴を理解・活用する上でのモチベーションと難しさから,RaVSim (Runtime Analysis and Visualization Simulator) と呼ばれる,最先端SNNシミュレータをLabVIEWを用いて開発し,彼らのウェブサイトで公式モジュールとして公開されている。 RAVSimは、ユーザがモデルと対話し、出力集中の振る舞いを観察し、シミュレーション実行中いつでもパラメトリック値のセットを変更することができる実行時仮想シミュレーション環境ツールである。 最近、人気のあるツールがいくつか紹介されているが、どのツールもユーザーが実行時にモデルシミュレーションを操作できないと信じている。

With the motivation and the difficulties that currently exist in comprehending and utilizing the promising features of SNNs, we proposed a novel run-time multi-core architecture-based simulator called "RAVSim" (Runtime Analysis and Visualization Simulator), a cutting-edge SNN simulator, developed using LabVIEW and it is publicly available on their website as an official module. RAVSim is a runtime virtual simulation environment tool that enables the user to interact with the model, observe its behavior of output concentration, and modify the set of parametric values at any time while the simulation is in execution. Recently some popular tools have been presented, but we believe that none of the tools allow users to interact with the model simulation in run time.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-07
# NIZK証明とRing-LWE暗号化を用いたブロックチェーンのプライベートかつセキュアな量子後検証ランダム関数

Private and Secure Post-Quantum Verifiable Random Function with NIZK Proof and Ring-LWE Encryption in Blockchain ( http://arxiv.org/abs/2311.11734v2 )

ライセンス: Link先を確認
Bong Gon Kim, Dennis Wong, Yoon Seok Yang, (参考訳) 従来のVRF構成のいくつかの制限に対処するセキュアでプライベートなブロックチェーンベースのVerifiable Random Function (VRF) スキームを提案する。 差し迫った量子コンピューティングの逆のシナリオを考えると、従来の暗号手法は脆弱性に直面している。 疑似乱数列の合成に量子後リング-LWE暗号を採用することで,VRFのセキュアなランダム性を高める。 計算コストと結果のオンチェーンガスコストを考慮すると,オンチェーンとオフチェーンの相互作用を最適化する,VRF設計のための分岐アーキテクチャを提案する。 提案手法では、NIZK証明に支えられたセキュアなリングシグネチャと、Chaum-Pedersen等式証明とFiat-Shamir Heuristicにインスパイアされた鍵生成手法を用いる。 我々のVRFスキームは、マルチパーティ計算(MPC)とブロックチェーンベースの分散識別子(DID)を統合し、セキュリティとランダム性の両方を保証する。 我々はVRF方式のセキュリティとプライバシーの側面を解明し、時間的・空間的な複雑さを分析する。 また、VRFスキームのエントロピーを近似し、その実装をSolidity Contractで詳述する。 また、ランダム性と検証の両方を必要とするコンテキストに対して、VRFの証明を検証する方法についても記述する。 統計的ランダム性テストスイートのNIST SP800-22を用いて,11例に対して98.86%の通過率を示し,平均p値が0.5459であった。

We present a secure and private blockchain-based Verifiable Random Function (VRF) scheme addressing some limitations of classical VRF constructions. Given the imminent quantum computing adversarial scenario, conventional cryptographic methods face vulnerabilities. To enhance our VRF's secure randomness, we adopt post-quantum Ring-LWE encryption for synthesizing pseudo-random sequences. Considering computational costs and resultant on-chain gas costs, we suggest a bifurcated architecture for VRF design, optimizing interactions between on-chain and off-chain. Our approach employs a secure ring signature supported by NIZK proof and a delegated key generation method, inspired by the Chaum-Pedersen equality proof and the Fiat-Shamir Heuristic. Our VRF scheme integrates multi-party computation (MPC) with blockchain-based decentralized identifiers (DID), ensuring both security and randomness. We elucidate the security and privacy aspects of our VRF scheme, analyzing temporal and spatial complexities. We also approximate the entropy of the VRF scheme and detail its implementation in a Solidity contract. Also, we delineate a method for validating the VRF's proof, matching for the contexts requiring both randomness and verification. Conclusively, using the NIST SP800-22 of the statistical randomness test suite, our results exhibit a 98.86% pass rate over 11 test cases, with an average p-value of 0.5459 from 176 total tests.
翻訳日:2024-03-18 15:51:52 公開日:2024-02-07
# PTPsec:サイクルパス非対称性解析を用いた時間遅延攻撃に対する高精度時間プロトコルの確保

PTPsec: Securing the Precision Time Protocol Against Time Delay Attacks Using Cyclic Path Asymmetry Analysis ( http://arxiv.org/abs/2401.10664v2 )

ライセンス: Link先を確認
Andreas Finkenzeller, Oliver Butowski, Emanuel Regnath, Mohammad Hamad, Sebastian Steinhorst, (参考訳) 高精度な時間同期は、Smart Grids、Time-Sensitive Networking (TSN)、および5Gネットワークなど、多くの現代的なアプリケーションや技術にとって重要な前提条件である。 精度時間プロトコル (Precision Time Protocol, PTP) は信頼性の高い環境でこの要件を達成することができるが、特定のサイバー攻撃が存在すると信頼性が低下する。 主に、時間遅延攻撃はプロトコルに最も脅威を与えるため、攻撃者は検出されていないターゲットクロックをバラバラにすることができる。 サイバー攻撃の危険性が増大し、特に重要なインフラに対して、時間同期とそれに依存するアプリケーションの両方を確保する効果的な対策が要求される。 しかし、現在のソリューションでは高度な遅延攻撃を軽減できない。 例えば、PTPプロトコルへの適切な統合、スケーラビリティ、必要なマイクロ秒レベルの精度での音質評価が欠けている。 本研究は, 冗長経路上の循環経路非対称性測定に基づいて, PTPに対する遅延攻撃を検出し, 対策するアプローチを提案する。 そこで我々は、任意のネットワークにおける冗長な経路を見つけ出し、この冗長性を利用して、悪質なクロックの発散を引き起こす同期経路上の望ましくない非対称性を明らかにし、緩和する方法を示す。 さらに,セキュアなPTPプロトコルであるPTPsecと,最新のIEEE 1588-2019標準に基づく実装を提案する。 PTPsecでは、従来のPTPを前進させ、信頼性の高い遅延攻撃検出と緩和を支援する。 我々は,マイクロ秒精度で静的かつインクリメンタルな遅延攻撃を実行できる攻撃者を含むハードウェアテストベッド上でのアプローチを検証する。 実験の結果,全ての攻撃シナリオは最小検出時間で確実に検出・緩和できることがわかった。

High-precision time synchronization is a vital prerequisite for many modern applications and technologies, including Smart Grids, Time-Sensitive Networking (TSN), and 5G networks. Although the Precision Time Protocol (PTP) can accomplish this requirement in trusted environments, it becomes unreliable in the presence of specific cyber attacks. Mainly, time delay attacks pose the highest threat to the protocol, enabling attackers to diverge targeted clocks undetected. With the increasing danger of cyber attacks, especially against critical infrastructure, there is a great demand for effective countermeasures to secure both time synchronization and the applications that depend on it. However, current solutions are not sufficiently capable of mitigating sophisticated delay attacks. For example, they lack proper integration into the PTP protocol, scalability, or sound evaluation with the required microsecond-level accuracy. This work proposes an approach to detect and counteract delay attacks against PTP based on cyclic path asymmetry measurements over redundant paths. For that, we provide a method to find redundant paths in arbitrary networks and show how this redundancy can be exploited to reveal and mitigate undesirable asymmetries on the synchronization path that cause the malicious clock divergence. Furthermore, we propose PTPsec, a secure PTP protocol and its implementation based on the latest IEEE 1588-2019 standard. With PTPsec, we advance the conventional PTP to support reliable delay attack detection and mitigation. We validate our approach on a hardware testbed, which includes an attacker capable of performing static and incremental delay attacks at a microsecond precision. Our experimental results show that all attack scenarios can be reliably detected and mitigated with minimal detection time.
翻訳日:2024-03-18 08:36:55 公開日:2024-02-07
# セマンティックエントロピーは無線セマンティック通信の伝送効率とチャネルセキュリティを同時に改善できる

Semantic Entropy Can Simultaneously Benefit Transmission Efficiency and Channel Security of Wireless Semantic Communications ( http://arxiv.org/abs/2402.02950v2 )

ライセンス: Link先を確認
Yankai Rong, Guoshun Nan, Minwei Zhang, Sihan Chen, Songtao Wang, Xuefei Zhang, Nan Ma, Shixun Gong, Zhaohui Yang, Qimei Cui, Xiaofeng Tao, Tony Q. S. Quek, (参考訳) 最近普及した深層学習に基づく意味コミュニケーション(DLSC)は、送信されたシンボルが目的地に望ましい意味を効率的に伝達する方法に焦点を当てている。 しかし、ニューラルネットワークの感度と無線チャネルの開放性により、DLSCシステムは様々な悪意のある攻撃に対して極めて脆弱である。 これは「無線セマンティック通信における送信効率の利点をさらに活用し、セキュリティ上の欠点を軽減するか? このことを念頭に置いて,適応トランスミッションと物理層暗号化の両方のためのデータのセマンティクスを探索することにより,上記の疑問に答える新しい手法であるSemEntropyを提案する。 具体的には,まずセマンティックエントロピーを導入し,DLSCの送信目標に関する様々なセマンティックスコアの期待を示す。 このようなセマンティックエントロピーを具備し,より細かなチャネル条件で直交周波数分割多重化(OFDM)サブキャリアに情報的セマンティクスを動的に割り当てる。 また、エントロピーを用いてセマンティックキー生成を誘導し、オープン無線チャネル上の通信を保護します。 これにより、伝送効率とチャネルセキュリティの両方を同時に改善することができる。 様々なベンチマークに対する大規模な実験は、提案されたセムエントロピーの有効性を示している。 提案手法がDLSCのセキュアな伝送に有効である理由を論じるとともに,セムエントロピー(SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntropy, SemEntrop

Recently proliferated deep learning-based semantic communications (DLSC) focus on how transmitted symbols efficiently convey a desired meaning to the destination. However, the sensitivity of neural models and the openness of wireless channels cause the DLSC system to be extremely fragile to various malicious attacks. This inspires us to ask a question: "Can we further exploit the advantages of transmission efficiency in wireless semantic communications while also alleviating its security disadvantages?". Keeping this in mind, we propose SemEntropy, a novel method that answers the above question by exploring the semantics of data for both adaptive transmission and physical layer encryption. Specifically, we first introduce semantic entropy, which indicates the expectation of various semantic scores regarding the transmission goal of the DLSC. Equipped with such semantic entropy, we can dynamically assign informative semantics to Orthogonal Frequency Division Multiplexing (OFDM) subcarriers with better channel conditions in a fine-grained manner. We also use the entropy to guide semantic key generation to safeguard communications over open wireless channels. By doing so, both transmission efficiency and channel security can be simultaneously improved. Extensive experiments over various benchmarks show the effectiveness of the proposed SemEntropy. We discuss the reason why our proposed method benefits secure transmission of DLSC, and also give some interesting findings, e.g., SemEntropy can keep the semantic accuracy remain 95% with 60% less transmission.
翻訳日:2024-03-18 07:48:02 公開日:2024-02-07
# クッキーで焼くケイリー

Cayley hashing with cookies ( http://arxiv.org/abs/2402.04943v1 )

ライセンス: Link先を確認
Vladimir Shpilrain, Bianca Sosnovski, (参考訳) ケイリーハッシュ関数は、一対の半群元 A と B を使ってそれぞれ 0 と 1 のビットをハッシュし、それから半群の要素の乗法を用いて自然に任意のビット列をハッシュするという単純な考え方に基づいている。 ケイリーハッシュ関数の主な利点は、例えば、SHAファミリーのハッシュ関数は、既にハッシュされた文書が修正されたとき、修正された文書全体を再びハッシュするのではなく、修正された部分だけをハッシュし、元の文書のハッシュによって結果を乗算する、というものである。 一部の著者は、これはセキュリティ上の危険であり、特に、長いビット文字列を短い断片に分割することで、この性質が第2のプリメージを見つけるのに役立つかもしれないと論じている。 本稿では,この不利な主張を取り除き,同時に優位性を維持する方法を提案する。 ランダムウォークの理論から借用した用語を用いて,この手法を「クッキーを用いたケイリーハッシュ」と呼ぶ。 プラットフォーム半群に対しては、F_p 上の 2x2 行列を用いる。

Cayley hash functions are based on a simple idea of using a pair of semigroup elements, A and B, to hash the 0 and 1 bit, respectively, and then to hash an arbitrary bit string in the natural way, by using multiplication of elements in the semigroup. The main advantage of Cayley hash functions compared to, say, hash functions in the SHA family is that when an already hashed document is amended, one does not have to hash the whole amended document all over again, but rather hash just the amended part and then multiply the result by the hash of the original document. Some authors argued that this may be a security hazard, specifically that this property may facilitate finding a second preimage by splitting a long bit string into shorter pieces. In this paper, we offer a way to get rid of this alleged disadvantage and keep the advantages at the same time. We call this method ``Cayley hashing with cookies" using terminology borrowed from the theory of random walks in a random environment. For the platform semigroup, we use 2x2 matrices over F_p.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-07
# パケットエラーの爆発による無線ネットワーク上の暗号化鍵生成の理論的安全性

Information Theoretically Secure Encryption Key Generation over Wireless Networks by Exploiting Packet Errors ( http://arxiv.org/abs/2402.05012v1 )

ライセンス: Link先を確認
Amir K. Khandani, (参考訳) 本稿では,無線チャネル上で理論的にセキュアな暗号鍵を確立するための新しい手法を提案する。 無線リンク上のデータ転送にはパケットエラーが伴うが、ノイズ条件は2つの異なる受信機で観測されるエラーイベントは互いに独立している。 ランダムなデータを持つデータパケットは、Aliceのように第1の正当ノードから第2の正当ノードに送信される、とBob氏は言う。 Bobは、最初の送信試行でエラーのない全てのパケットを特定し、公開チャネル上でAliceにインデックスを送信する。 そして、AliceとBobは、ハッシュ関数を用いて識別されたパケット、例えば、内容を混合し、同一の暗号化キーを導出する。 Alice から Bob へのエラーイベントは Alice から Eve へのエラーイベントとは無関係であるため、Eve がキー生成時に使用されるすべてのパケットを受信できた可能性は、パケット数が増加するにつれて減少する。 多くの無線規格では、エラー検出と自動リピート要求(ARQ)の第1段階がPHY/MAC(Physical Layer/Medium Access Control)層に展開されている。 このようなセットアップでは、第1の再送信は、より高い層を知らせることなく、PHY/MAC層によって強制される。 これにより、エンドユーザが利用可能な高レベルのプログラミングインターフェースを通じて、パケットエラーに関連する情報に直接アクセスすることは不可能である。 高レベルプログラミングによる第1次送信の試みにおいて,受信したパケットの誤りを判定する手法が提案されている。 例はLTEセルラーネットワークと共に提示される。

This article presents a novel method for establishing an information theoretically secure encryption key over wireless channels. It exploits the fact that data transmission over wireless links is accompanied by packet error, while noise terms, and thereby the error events observed by two separate receivers are independent of each other. A number of data packets, with random data, are transmitted from a first legitimate node, say Alice, to a second legitimate node, say Bob. Bob identifies all packets that are received error-free in the first transmission attempt and sends their indices to Alice over a public channel. Then, both Alice and Bob mix the contents of identified packets, e.g., using a hash function, and thereby derive an identical encryption key. Since error events from Alice to Bob is independent of error events from Alice to Eve, the chances that Eve has successfully received all packets used in key generation error-free diminishes as the number of packet increases. In many wireless standards, the first stage in error detection and Automatic Repeat Request (ARQ) is deployed at the PHY/MAC (Physical Layer/Medium Access Control) layer. In such setups, the first re-transmission is manged by the PHY/MAC layer without informing higher layers. This makes it impossible to directly access the information related to packet errors through high-level programming interfaces available to an end-user. A method is presented for determining packets received error-free in first transmission attempts through high-level programming. Examples are presented in conjunction with an LTE cellular network.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-07
# スタンディ・フィンガース:衛星フィンガープリントによるジャミング攻撃に対する抵抗性

Sticky Fingers: Resilience of Satellite Fingerprinting against Jamming Attacks ( http://arxiv.org/abs/2402.05042v1 )

ライセンス: Link先を確認
Joshua Smailes, Edd Salkield, Sebastian Köhler, Simon Birnbach, Martin Strohmeier, Ivan Martinovic, (参考訳) 無線通信システムに対する攻撃の増加に伴い、これらのシステムのセキュリティを高めるために様々な技術が展開されている。 このような手法の1つは無線フィンガープリンティングであり、信号で表現された小さなハードウェア差を観察することで送信機を識別し認証することができる。 フィンガープリンティングは特に衛星システムの防衛において研究されており、その多くが安全ではないため暗号セキュリティに適合できない。 本稿では,通常サービス拒否を意図した干渉・妨害攻撃における無線指紋認証の有効性を評価する。 学習済み指紋モデルを用いて、正規信号に異なるレベルのガウスノイズとトーンジャミングを加えた新たなデータセットを収集することにより、送信機指紋を破壊するために要する攻撃力を評価する。 我々はこれを信号のデータ部分のガウスジャミングと比較し、中程度のノイズが存在する場合でも、送信機指紋が認識可能であるという顕著な結果を得る。 結果のより深い分析により、メッセージの内容そのものを妨害するためには、指紋を妨害するためには、同様のジャミングパワーが必要であると結論付け、デニアル・オブ・サービス攻撃を容易にするためにシステムを開くことなく、衛星通信を認証する指紋認証システムを含むことは安全である。

In the wake of increasing numbers of attacks on radio communication systems, a range of techniques are being deployed to increase the security of these systems. One such technique is radio fingerprinting, in which the transmitter can be identified and authenticated by observing small hardware differences expressed in the signal. Fingerprinting has been explored in particular in the defense of satellite systems, many of which are insecure and cannot be retrofitted with cryptographic security. In this paper, we evaluate the effectiveness of radio fingerprinting techniques under interference and jamming attacks, usually intended to deny service. By taking a pre-trained fingerprinting model and gathering a new dataset in which different levels of Gaussian noise and tone jamming have been added to the legitimate signal, we assess the attacker power required in order to disrupt the transmitter fingerprint such that it can no longer be recognized. We compare this to Gaussian jamming on the data portion of the signal, obtaining the remarkable result that transmitter fingerprints are still recognizable even in the presence of moderate levels of noise. Through deeper analysis of the results, we conclude that it takes a similar amount of jamming power in order to disrupt the fingerprint as it does to jam the message contents itself, so it is safe to include a fingerprinting system to authenticate satellite communication without opening up the system to easier denial-of-service attacks.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-07
# カニのレムマとブルーハト・ティッツ木におけるパスフィンディングを繋ぎ、超特異な自己同型環を計算する

Connecting Kani's Lemma and path-finding in the Bruhat-Tits tree to compute supersingular endomorphism rings ( http://arxiv.org/abs/2402.05059v1 )

ライセンス: Link先を確認
Kirsten Eisentraeger, Gabrielle Scullard, (参考訳) 標数 p における超特異楕円曲線の自己準同型環を計算するための決定論的多項式時間アルゴリズムを与え、それらが生成する環 $\mathcal{O}_0$ の非可換自己準同型と判別式の分解を与える。 任意の素数$q$において、$\mathcal{O}_0$ は極大でないが、この自己準同型環は、それを含む q-極大順序を計算して局所的に計算し、$q \neq p$ が $\text{End}(E) \otimes \mathbb{Z}_q$ への経路をブルーハ・ティッツ木で回復する。 我々は、局所自己同型環に向かうために高次元同相の技法を用いる。 我々のアルゴリズムは、制限された入力を必要とする以前のアルゴリズムを改良し、特定のヒューリスティックスの下で指数時間以下で実行する。 Page と Wesolowski は1つの非スカラー自己準同型を入力して自己準同型環を計算する確率多項式時間アルゴリズムを与える。 高次元同相の技法を用いて、スカラーによって自己準同型を分割するだけでなく、我々の方法は全く異なる。

We give a deterministic polynomial time algorithm to compute the endomorphism ring of a supersingular elliptic curve in characteristic p, provided that we are given two noncommuting endomorphisms and the factorization of the discriminant of the ring $\mathcal{O}_0$ they generate. At each prime $q$ for which $\mathcal{O}_0$ is not maximal, we compute the endomorphism ring locally by computing a q-maximal order containing it and, when $q \neq p$, recovering a path to $\text{End}(E) \otimes \mathbb{Z}_q$ in the Bruhat-Tits tree. We use techniques of higher-dimensional isogenies to navigate towards the local endomorphism ring. Our algorithm improves on a previous algorithm which requires a restricted input and runs in subexponential time under certain heuristics. Page and Wesolowski give a probabilistic polynomial time algorithm to compute the endomorphism ring on input of a single non-scalar endomorphism. Beyond using techniques of higher-dimensional isogenies to divide endomorphisms by a scalar, our methods are completely different.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-07
# 地上放送攻撃の脅威と限界

Threats and Limitations of Terrestrial Broadcast Attacks ( http://arxiv.org/abs/2402.05159v1 )

ライセンス: Link先を確認
Benjamin Michele, Ivan Pena, Pablo Angueira, (参考訳) DVB標準は、トランスポートストリームの認証と整合性保護の使用を義務付けていない。 これにより、悪意のある第三者が地上送信を超過することで、合法的な放送を置き換えることができる。 ローグ信号は悪意のあるブロードキャストストリームを配信し、スマートTV(STV)のセキュリティ脆弱性を範囲内で悪用する。 我々は,悪質なハイブリッド放送ブロードバンドTVアプリに基づく概念実証攻撃を実施し,STVへの恒久的なシステムレベルのアクセスを10秒未満で得ることができた。 しかし、これらの攻撃は、過去の出版物と直接矛盾する、必要な共チャネル保護比(CCPR)のために、範囲が著しく制限されている。 本研究では,これらの限界を実験室実験,広範囲なシミュレーション,フィールド計測の形で示す。 そこで我々は,CCPR判定の自動化,低コスト化,ギャップフィラーとチャネルインパルス応答に基づく非破壊的攻撃範囲測定法を開発した。

The DVB standard does not mandate the use of authentication and integrity protection for transport streams. This allows malicious third parties to replace legitimate broadcasts by overpowering terrestrial transmissions. The rogue signal can then deliver a malicious broadcast stream to exploit security vulnerabilities on Smart TVs (STVs) in range. We implemented a proof-of-concept attack based on a malicious Hybrid Broadcast Broadband TV app, able to acquire permanent system-level access to an STV over the air, in less than 10 s. These attacks, however, are severely limited in range due to required co-channel protection ratios (CCPRs), which is in direct contradiction to previous publications. We present evidence for these limitations in form of laboratory experiments, extensive simulations, and field measurements. To this end, we developed an automated, low-cost method for CCPR determination, as well as a method for non-disruptive attack range measurements based on a gap filler and the resulting channel impulse response.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-07
# デジタルビデオのソースカメラ識別における圧縮効果とシーン詳細

Compression effects and scene details on the source camera identification of digital videos ( http://arxiv.org/abs/2402.06669v1 )

ライセンス: Link先を確認
Raquel Ramos López, Ana Lucila Sandoval Orozco, Luis Javier García Villalba, (参考訳) 4Gや5Gのような技術の継続的な成長は、スマートフォンやタブレットのようなモバイルデバイスの大量利用につながっている。 この現象は、人々が長い時間携帯電話を使うという事実と相まって、携帯電話が視覚情報作成の主源となる。 しかし、編集ソフトが絶え間なく増加しているため、現実の真の表現としての信頼性は当然と言えない。 これにより、修正に顕著な痕跡を残すことなく、オリジナルコンテンツの変更が容易になる。 したがって、特に法的手続において証拠として考えられる場合、特定のデジタルビデオの真正性や完全性を保証するための法医学的分析機構を導入することが不可欠である。 本稿では,モバイル端末のカメラセンサが残したユニークな痕跡を視覚的コンテンツとして利用することにより,特定のビデオの取得源の特定を可能にするマルチメディア法医学解析の分野について説明する。 これを実現するために,モバイルデバイスからのデジタルビデオの取得元を特定する手法を提案する。 1) ブロック法を適用して指紋を抽出する。 2) PRNU信号の強い成分をフィルタリングしてセンサ指紋の品質を向上させる。 (3) デジタルビデオの公開シナリオにおける分類,すなわち,動画の発信元を知るために,映像を録画する装置にアクセスする必要はない。 提案手法の主な貢献は、PRNU指紋を改善するためにシーンの詳細を排除することである。 これらの技術はデジタルビデオではなく、デジタル画像に適用されている点に注意が必要だ。

The continuous growth of technologies like 4G or 5G has led to a massive use of mobile devices such as smartphones and tablets. This phenomenon, combined with the fact that people use mobile phones for a longer period of time, results in mobile phones becoming the main source of creation of visual information. However, its reliability as a true representation of reality cannot be taken for granted due to the constant increase in editing software. This makes it easier to alter original content without leaving a noticeable trace in the modification. Therefore, it is essential to introduce forensic analysis mechanisms to guarantee the authenticity or integrity of a certain digital video, particularly if it may be considered as evidence in legal proceedings. This paper explains the branch of multimedia forensic analysis that allows to determine the identification of the source of acquisition of a certain video by exploiting the unique traces left by the camera sensor of the mobile device in visual content. To do this, a technique that performs the identification of the source of acquisition of digital videos from mobile devices is presented. It involves 3 stages: (1) Extraction of the sensor fingerprint by applying the block-based technique. (2) Filtering the strong component of the PRNU signal to improve the quality of the sensor fingerprint. (3) Classification of digital videos in an open scenario, that is, where the forensic analyst does not need to have access to the device that recorded the video to find out the origin of the video. The main contribution of the proposed technique eliminates the details of the scene to improve the PRNU fingerprint. It should be noted that these techniques are applied to digital images and not to digital videos.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-07
# ヨーロッパにおけるモジュール型教育システムに関するスケジューリングの展望

A Scheduling Perspective on Modular Educational Systems in Europe ( http://arxiv.org/abs/2403.05549v1 )

ライセンス: Link先を確認
Rubén Ruiz-Torrubiano, Sebastian Knopp, Lukas Matthias Wolf, Andreas Krystallidis, (参考訳) モジュラー教育システムでは、生徒は自身のカリキュラムの一部を選択することができる。 これは、大学アクセスの成熟につながる最終段階で行われるのが一般的である。 学生自身がコースを選択させることの背景にある理論的根拠は、自己責任を高め、学生のモチベーションを高め、特定の関心領域に焦点を合わせることである。 これらのシステムを実効化するための中心的な手段は、時刻表である。 しかし、このようなシステムにおけるタイムテーブルのスケジューリングは非常に困難で時間を要する作業である。 本研究では,学生選択に関する自由度を反映したヨーロッパにおけるモジュール型教育システム分類の枠組みについて述べる。 この目的のために、オーストリア、ドイツ、フィンランド、スイス、オランダ、ルクセンブルクでインタビューを行い、これらの教育システムに適用した。 スケジューリングの観点からモジュラリティの結果を分析した上で,実際のモジュラリティ教育の可能性と多くのメリットを実現する上で中心的な,自動スケジューリング手法の必要性を評価する。

In modular educational systems, students are allowed to choose a part of their own curriculum themselves. This is typically done in the final class levels which lead to maturity for university access. The rationale behind letting students choose their courses themselves is to enhance self-responsibility, improve student motivation, and allow a focus on specific areas of interest. A central instrument for bringing these systems to fruition is the timetable. However, scheduling the timetable in such systems can be an extremely challenging and time-consuming task. In this study, we present a framework for classifying modular educational systems in Europe that reflects different degrees of freedom regarding student choices, and explore the consequences from the perspective of scheduling a timetable that satisfies all requirements from the organizational and the pedagogical perspective. For this purpose, we conducted interviews in Austria, Germany, Finland, Switzerland, the Netherlands, and Luxembourg and apply the framework to these educational systems, finding that among them the Finnish system shows the highest degree of modularity. After analyzing the consequences of modularity from the scheduling perspective, we assess the necessity for automated scheduling methods, which are central for realizing the potential and many benefits of modular education in practice.
翻訳日:2024-03-18 06:19:57 公開日:2024-02-07
# Teranga Go!: Carpooling Collaborative Consumption Community with multi-criteria hesitant fuzzy language term set opinion to build confidence and trust

Teranga Go!: Carpooling Collaborative Consumption Community with multi-criteria hesitant fuzzy linguistic term set opinions to build confidence and trust ( http://arxiv.org/abs/2403.05550v1 )

ライセンス: Link先を確認
Rosana Montes, Ana M. Sanchez, Pedro Villar, Francisco Herrera, (参考訳) 古典的なデルフィ法とファジィデルフィ法は、アンケートなどのデータ収集ツールのコンテンツ妥当性をテストするために用いられる。 ファジィ・デルフィは、ファジィ数を用いて意見の曖昧さを減らす言語の観点から、裁判官が発行した意見を取る。 本稿では,2-tuple Fuzzy Linguistic Delphi法という2-Tuple Fuzzy Linguistic Delphi法の拡張手法を提案する。 本提案の鍵となる考え方は,各項目の妥当性を意思決定問題として定義し,その部分の評価によって全アンケートを検証することである。 専門家の意見を受けて,各項目のコンセンサス度,一貫性度,言語スコアを測定し,楽器の品質に影響を及ぼす項目を検出する。 本研究は,b-ラーニング教育経験を合意型アンケートで評価することの必要性を鑑み,それを解決するための意思決定モデルを提案する。 さらに、GPL v3ライセンス下でオンラインツールを開発することで、この合意に達する問題に貢献する。 ソフトウェアは各イテレーションの集合的評価を可視化し、アンケートのどの部分が合意されたソリューションに到達すべきかを判断する手助けをする。

Classic Delphi and Fuzzy Delphi methods are used to test content validity of a data collection tools such as questionnaires. Fuzzy Delphi takes the opinion issued by judges from a linguistic perspective reducing ambiguity in opinions by using fuzzy numbers. We propose an extension named 2-Tuple Fuzzy Linguistic Delphi method to deal with scenarios in which judges show different expertise degrees by using fuzzy multigranular semantics of the linguistic terms and to obtain intermediate and final results expressed by 2-tuple linguistic values. The key idea of our proposal is to validate the full questionnaire by means of the evaluation of its parts, defining the validity of each item as a Decision Making problem. Taking the opinion of experts, we measure the degree of consensus, the degree of consistency, and the linguistic score of each item, in order to detect those items that affect, positively or negatively, the quality of the instrument. Considering the real need to evaluate a b-learning educational experience with a consensual questionnaire, we present a Decision Making model for questionnaire validation that solve it. Additionally, we contribute to this consensus reaching problem by developing an online tool under GPL v3 license. The software visualizes the collective valuations for each iteration and assists to determine which parts of the questionnaire should be modified to reach a consensual solution.
翻訳日:2024-03-18 06:19:57 公開日:2024-02-07
# LLMを正しい方向に導く:高速で非侵襲的な制約生成

Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation ( http://arxiv.org/abs/2403.06988v1 )

ライセンス: Link先を確認
Luca Beurer-Kellner, Marc Fischer, Martin Vechev, (参考訳) 大規模言語モデル(LLM)が生成するテキストが期待されるフォーマットであることを保証するため、制約付き復号法では、生成中に厳格な形式言語制約を強制することを提案する。 しかし、本研究で示すように、このような手法は生成時に性能上のオーバーヘッドを発生させるだけでなく、基礎となるLLMサブワード語彙を外部制約と正しく一致させなければ、タスクの精度も著しく低下する。 これを解決するために,プリコンピューテーションと投機的復号化を活用してオーバーヘッドをほとんどなくし,場合によっては,制約のない復号化よりも2$\times$のスピードアップさえも実現し,既存の手法を広いマージンで上回りながら,完全サブワード整列で制約を強制できる新しい復号アルゴリズムDOMINOを提案する。

To ensure that text generated by large language models (LLMs) is in an expected format, constrained decoding proposes to enforce strict formal language constraints during generation. However, as we show in this work, not only do such methods incur performance overhead during generation, but many of them also significantly impair task accuracy, if they do not correctly align the underlying LLM sub-word vocabularies with external constraints. To address this, we present a novel decoding algorithm, DOMINO, that can enforce constraints in a fully subword-aligned fashion, while leveraging pre-computation and speculative decoding to achieve virtually no overhead and in some cases even almost 2$\times$ speedup over unconstrained decoding -- thereby outperforming existing approaches by a wide margin.
翻訳日:2024-03-18 06:10:13 公開日:2024-02-07
# 屋内環境パラメータの効率的な推定と機械学習のためのIoTアーキテクチャにおけるエッジコンピューティング手法の比較

Comparison of edge computing methods in Internet of Things architectures for efficient estimation of indoor environmental parameters with Machine Learning ( http://arxiv.org/abs/2403.08810v1 )

ライセンス: Link先を確認
Jose-Carlos Gamazo-Real, Raul Torres Fernandez, Adrian Murillo Armas, (参考訳) モノのインターネット(IoT)デバイスの増加は、データの処理方法に革命をもたらし、クラウドからエッジコンピューティングへの現在のトレンドに加え、エネルギー効率のよいデバイスを使用して、データソースの近くで効率的で信頼性の高いデータ処理が求められている。 低コストエッジIoTアーキテクチャに基づく2つの手法を提案し,マルチレイヤパーセプトロン型ニューラルネットワークなどの屋内環境品質(IEQ)パラメータを推定する軽量機械学習(ML)モデルを実装した。 このアーキテクチャは、温度、湿度、照度、CO2、その他のガスのセンサーなど、データ取得とセンシングのための商用オフザセルフモジュールを共有する。 中央集権化方式はGraphics Processing UnitとMessage Queuing Telemetry Transport Protocolを使用するが、分散方式は低パフォーマンスのARMベースのデバイスとMessage Passing Interface Protocolを利用する。 複数のIEQパラメータが測定されているが、MLモデルのトレーニングとテストは、急激なスパイク、正方形プロファイル、およびワッテトテストケースから得られるデータ処理負荷を削減するために、小さな温度と照度データセットに焦点を当てた実験によって達成される。 その結果,Fスコア値と精度値が0.95に近ければ高い推定性能を示し,分散並列方式では消費電力が37%近く減少するほぼ理論的なスピードアップを示した。 さらに、関連する研究による同等のIoTアーキテクチャと比較すると、同等あるいはわずかにパフォーマンスが向上するが、35~76%のエラー削減は、パフォーマンスとエネルギー効率の適切なバランスで達成される。

The large increase in the number of Internet of Things (IoT) devices have revolutionised the way data is processed, which added to the current trend from cloud to edge computing has resulted in the need for efficient and reliable data processing near the data sources using energy-efficient devices. Two methods based on low-cost edge-IoT architectures are proposed to implement lightweight Machine Learning (ML) models that estimate indoor environmental quality (IEQ) parameters, such as Artificial Neural Networks of Multilayer Perceptron type. Their implementation is based on centralised and distributed parallel IoT architectures, connected via wireless, which share commercial off-the-self modules for data acquisition and sensing, such as sensors for temperature, humidity, illuminance, CO2, and other gases. The centralised method uses a Graphics Processing Unit and the Message Queuing Telemetry Transport protocol, but the distributed method utilises low performance ARM-based devices and the Message Passing Interface protocol. Although multiple IEQ parameters are measured, the training and testing of ML models is accomplished with experiments focused on small temperature and illuminance datasets to reduce data processing load, obtained from sudden spikes, square profiles and sawteeth test cases. The results show a high estimation performance with F-score and Accuracy values close to 0.95, and an almost theorical Speedup with a reduction in power consumption close to 37% in the distributed parallel approach. In addition, similar or slightly better performance is achieved compared to equivalent IoT architectures from related research, but error reduction of 35 to 76% is accomplished with an adequate balance between performance and energy efficiency.
翻訳日:2024-03-18 05:40:54 公開日:2024-02-07
# 高度なアカデミックチーム労働者推薦モデル

Advanced Academic Team Worker Recommendation Models ( http://arxiv.org/abs/2402.16876v1 )

ライセンス: Link先を確認
Mi Wu(参考訳) 協力者推薦は学術分野において重要な課題である。 既存のアプローチのほとんどは、レコメンデーションシステムが特定の研究者をタスクに推薦するだけでよいという仮定を持っています。 しかしながら、アカデミックな成功は、アカデミックチーム全体の生産的なコラボレーションに負うことができる。 本研究では,研究課題として,学生,助教授,教授助教授,教授助教授,研究の関心事,特定のタスクなど,特定の地位の学術チーム(助教授,助教授,学生)を推薦する,という新たな課題を提案する。 本研究では,CQBG-R(Citation-Query Blended Graph-Ranking)モデルを提案する。 鍵となる考え方は、クエリのコンテキストと論文をグラフトポロジと組み合わせて新しいグラフ(CQBG)を形成することである。 実験の結果,提案手法の有効性が示された。

Collaborator recommendation is an important task in academic domain. Most of the existing approaches have the assumption that the recommendation system only need to recommend a specific researcher for the task. However, academic successes can be owed to productive collaboration of a whole academic team. In this work, we propose a new task: academic team worker recommendation: with a given status: student, assistant professor or prime professor, research interests and specific task, we can recommend an academic team formed as (prime professor, assistant professor, student). For this task, we propose a model CQBG-R(Citation-Query Blended Graph-Ranking). The key ideas is to combine the context of the query and the papers with the graph topology to form a new graph(CQBG), which can target at the research interests and the specific research task for this time. The experiment results show the effectiveness of the proposed method.
翻訳日:2024-03-03 19:21:12 公開日:2024-02-07
# 医学データを用いたテキスト分類器としてのテキスト埋め込みモデルとベクトルデータベースの利用

Using text embedding models and vector databases as text classifiers with the example of medical data ( http://arxiv.org/abs/2402.16886v1 )

ライセンス: Link先を確認
Rishabh Goel(参考訳) 大規模言語モデル(llms)の出現は有望であり、多くの分野で応用されているが、医療分野においてよく見られるように、バーは一般的にかなり高い[5]。 LLMと組み合わせることで、ベクトル埋め込みモデルとベクトルデータベースは、典型的な機械学習モデルで容易に消化可能な、多数のデータモードを表現する堅牢な方法を提供する。 これらのベクトルデータベースに情報、知識、データを追加することの容易さに加えて、情報検索のタスクが一般的に人間が行う多くの分野に適用する説得力のある理由を提供している。 Googleの研究者たちは、医学的知識に関して臨床医の精度に合わせた明確な代替モデル、Med-PaLM [6]を開発した。 分類器の訓練やモデルの開発では, 事実性を維持し, バイアスを減らすことが不可欠である[4]。 本稿では,ベクタデータベースと埋め込みモデルを用いてテキストの符号化と分類を行い,医学分野での事例と応用について検討する。 これらのツールのロバスト性は、提示されるデータのスパース性に大きく依存しており、ベクタデータベース自体の低量のデータであっても、ベクタデータベースはデータを分類するのに優れている[9]。 各種LSMを用いて医療データを生成することにより、これらのモデルの医療知識の限界を理解し、テストデータのさらなる専門的な医療レビューを促進する。 特定の症状を呈する患者に対する臨床医のノートを分類するためにベクターデータベースを使用することで、このような方法の限界だけでなく、将来的な使用の可能性を理解し、テストと実験を継続することで、ベクターデータベースと埋め込みモデルのユニークなユースケースを探求したいと考えています。

The advent of Large Language Models (LLMs) is promising and has found application in numerous fields, but as it often is with the medical field, the bar is typically quite high [5]. In tandem with LLMs, vector embedding models and vector databases provide a robust way of expressing numerous modes of data that are easily digestible by typical machine learning models. Along with the ease of adding information, knowledge, and data to these vector databases, they provide a compelling reason to apply them in numerous fields where the task of retrieving information is typically done by humans. Researchers at Google have developed a clear alternative model, Med-PaLM [6] specifically designed to match a clinician's level of accuracy when it comes to medical knowledge. When training classifiers, and developing models, it is imperative to maintain factuality and reduce bias [4]. Here, we explore the use of vector databases and embedding models as a means of encoding, and classifying text with the example and application in the field of medicine. We show the robustness of these tools depends heavily on the sparsity of the data presented, and even with low amounts of data in the vector database itself, the vector database does a good job at classifying data [9]. Using various LLMs to generate the medical data, we also understand the limitations of the medical knowledge of these models and encourage further expert medical review of our testing data. By using vector databases to classify a clinician's notes on a patient presented with a certain ailment, we understand the limitations of such methods, but also the promise of their prospective use and with continued testing and experimentation, hope to explore a unique use case of vector databases and embedding models.
翻訳日:2024-03-03 19:07:40 公開日:2024-02-07
# 統計的不均一性のための個人化フェデレーション学習

Personalized Federated Learning for Statistical Heterogeneity ( http://arxiv.org/abs/2402.10254v1 )

ライセンス: Link先を確認
Muhammad Firdaus and Kyung-Hyune Rhee(参考訳) 人工知能アプリケーションにおけるデータプライバシに関する懸念の高まりとともに、連邦学習(FL)の人気が高まっている。 flは、データの機密性を保持すると同時に、協調的な多人数モデル学習を促進する。 それでも、多様なクライアントデータ分布の存在による統計的不均一性の問題は、不適切なパーソナライズや遅い収束といった特定の課題を引き起こす。 本稿では,これらの課題に対処するために,パーソナライズ・フェデレーション・ラーニング(pfl)の分野における最近の研究動向について概説する。 PFLの概念を概説し、関連するテクニックを調べ、現在の取り組みを強調している。 さらに,本論文では,PFLに関連するさらなる研究や障害についても論じる。

The popularity of federated learning (FL) is on the rise, along with growing concerns about data privacy in artificial intelligence applications. FL facilitates collaborative multi-party model learning while simultaneously ensuring the preservation of data confidentiality. Nevertheless, the problem of statistical heterogeneity caused by the presence of diverse client data distributions gives rise to certain challenges, such as inadequate personalization and slow convergence. In order to address the above issues, this paper offers a brief summary of the current research progress in the field of personalized federated learning (PFL). It outlines the PFL concept, examines related techniques, and highlights current endeavors. Furthermore, this paper also discusses potential further research and obstacles associated with PFL.
翻訳日:2024-02-25 17:17:49 公開日:2024-02-07
# 医療診断と不確実性定量化のための臨床手順コードのニューラルマシン翻訳

Neural machine translation of clinical procedure codes for medical diagnosis and uncertainty quantification ( http://arxiv.org/abs/2402.10940v1 )

ライセンス: Link先を確認
Pei-Hung Chung, Shuhan He, Norawit Kijpaisalratana, Abdel-badih el Ariss, Byung-Jun Yoon(参考訳) 臨床意思決定支援システム(CDSS)は、システム生成レコメンデーションと医療専門知識を組み合わせることで、臨床の意思決定を強化するように設計されている。 高コスト、重労働、時間に敏感な医療療法を考えると、特に複雑な緊急時において、効率的な意思決定支援の必要性が高まっている。 情報を制限するシナリオでは、AI(人工知能)モデルを利用して診断の不確実性を効果的に低減する高度なCDSSフレームワークが有用である。 このような、定量化された不確実性を持つAI対応CDSSフレームワークは、現実の医療の要求された状況において実用的で有益である。 そこで本研究では,ICD-9の手順に基づくニューラルマシン翻訳によって予測される患者結果の不確実性を定量化する医療エントロピーの概念を提案する。 以上の結果から,簡単なicd-9コードに基づく手術と診断シークエンスの間に強い相関関係を示すだけでなく,データ駆動アプローチによる入院中の不確実性の傾向をモデル化する有望性を示す。

A Clinical Decision Support System (CDSS) is designed to enhance clinician decision-making by combining system-generated recommendations with medical expertise. Given the high costs, intensive labor, and time-sensitive nature of medical treatments, there is a pressing need for efficient decision support, especially in complex emergency scenarios. In these scenarios, where information can be limited, an advanced CDSS framework that leverages AI (artificial intelligence) models to effectively reduce diagnostic uncertainty has utility. Such an AI-enabled CDSS framework with quantified uncertainty promises to be practical and beneficial in the demanding context of real-world medical care. In this study, we introduce the concept of Medical Entropy, quantifying uncertainties in patient outcomes predicted by neural machine translation based on the ICD-9 code of procedures. Our experimental results not only show strong correlations between procedure and diagnosis sequences based on the simple ICD-9 code but also demonstrate the promising capacity to model trends of uncertainties during hospitalizations through a data-driven approach.
翻訳日:2024-02-25 17:03:06 公開日:2024-02-07
# ニュースソースの信頼性評価:Redditのケーススタディ

News Source Credibility Assessment: A Reddit Case Study ( http://arxiv.org/abs/2402.10938v1 )

ライセンス: Link先を確認
Arash Amini, Yigit Ege Bayiz, Ashwin Ram, Radu Marculescu and Ufuk Topcu(参考訳) ソーシャルメディアプラットフォームの時代には、オンラインコンテンツの信頼性の特定が誤った情報と戦う上で重要である。 本稿では,redditの投稿に対して政治的談話に焦点をあてた情報源信頼度評価モデルであるcredibert (credibility assessment using bi-directional encoder representations from transformers)を提案する。 我々は、Redditのコミュニティベース構造を活用した、CREDiBERTのための半教師付きトレーニングアプローチを採用した。 CREDiBERTを用いて提出内容を符号化し,それをシームズニューラルネットワークに統合することにより,既存手法と比較してF1スコアが9%向上した。 さらに,Redditにおけるポスト・ツー・ポストネットワークの新バージョンを導入し,ユーザインタラクションを効率的にエンコードし,F1スコアの約8%のバイナリ分類タスクを強化する。 最後に, CREDiBERTを用いて, 異なるトピックに対するサブレディットの感受性を評価する。

In the era of social media platforms, identifying the credibility of online content is crucial to combat misinformation. We present the CREDiBERT (CREDibility assessment using Bi-directional Encoder Representations from Transformers), a source credibility assessment model fine-tuned for Reddit submissions focusing on political discourse as the main contribution. We adopt a semi-supervised training approach for CREDiBERT, leveraging Reddit's community-based structure. By encoding submission content using CREDiBERT and integrating it into a Siamese neural network, we significantly improve the binary classification of submission credibility, achieving a 9% increase in F1 score compared to existing methods. Additionally, we introduce a new version of the post-to-post network in Reddit that efficiently encodes user interactions to enhance the binary classification task by nearly 8% in F1 score. Finally, we employ CREDiBERT to evaluate the susceptibility of subreddits with respect to different topics.
翻訳日:2024-02-25 17:02:46 公開日:2024-02-07
# ルータビリティ予測のための軽量インセプション強化U-Netニューラルネットワーク

A Lightweight Inception Boosted U-Net Neural Network for Routability Prediction ( http://arxiv.org/abs/2402.10937v1 )

ライセンス: Link先を確認
Hailiang Li, Yan Huo, Yan Wang, Xu Yang, Miaohui Hao, Xiao Wang(参考訳) 現代のCPU、GPU、NPUチップの設計の複雑さとトランジスタの数が増え続けており、半導体技術ノードの連続的な縮小により、配置とルーティングは現代の超大規模集積回路(VLSI)のバックエンド設計において、徐々に2つの重要なプロセスとなっている。 人工知能(AI)による電子設計自動化(EDA)の分野において、事前に(配置とグローバルルーティング段階において)効率よく正確にルタビリティを評価する方法が重要な研究領域に成長してきた。 本稿では,Routing Congestion (RC) とDesign Rule Checking (DRC) ホットスポットを予測するために,Inception 組み込みモジュールによって強化された新しい U-Net 変種モデルを提案する。 最近発表されたCircuitNetのベンチマーク実験の結果,従来のアーキテクチャと比較して,Avg-NRMSE(Average Normalized Root Mean Square Error)で最大5%(RC)と20%(DRC)の削減を実現していることがわかった。 さらに,本手法は,ssim(structureural similarity index measure)メトリックの先行モデルよりも一貫して優れる。

As the modern CPU, GPU, and NPU chip design complexity and transistor counts keep increasing, and with the relentless shrinking of semiconductor technology nodes to nearly 1 nanometer, the placement and routing have gradually become the two most pivotal processes in modern very-large-scale-integrated (VLSI) circuit back-end design. How to evaluate routability efficiently and accurately in advance (at the placement and global routing stages) has grown into a crucial research area in the field of artificial intelligence (AI) assisted electronic design automation (EDA). In this paper, we propose a novel U-Net variant model boosted by an Inception embedded module to predict Routing Congestion (RC) and Design Rule Checking (DRC) hotspots. Experimental results on the recently published CircuitNet dataset benchmark show that our proposed method achieves up to 5% (RC) and 20% (DRC) rate reduction in terms of Avg-NRMSE (Average Normalized Root Mean Square Error) compared to the classic architecture. Furthermore, our approach consistently outperforms the prior model on the SSIM (Structural Similarity Index Measure) metric.
翻訳日:2024-02-25 17:02:30 公開日:2024-02-07
# 持続可能なスマートシティにおけるllmの役割 : 応用,課題,今後の方向性

The Role of LLMs in Sustainable Smart Cities: Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2402.14596v1 )

ライセンス: Link先を確認
Amin Ullah, Guilin Qi, Saddam Hussain, Irfan Ullah, Zafar Ali(参考訳) スマートシティは、持続的でスケーラブルな革新を通じて資源を効率的に管理しながら、都市部の急速な拡大を促進する都市生活水準の上昇を追求する上で、重要な要素である。 この点において、人工知能(AI)やIoT(Internet of Things)、ビッグデータ分析、フォグとエッジコンピューティングといった新興技術がますます普及しつつある中、スマートシティアプリケーションは、機密で機密性の高いデータの不正開示など、さまざまな課題に直面する。 新興技術のシームレスな統合は、開発のダイナミックなペースを維持する上で重要な役割を担ってきた。 本稿では、スマートシティにおけるICTプロセスの最適化における、ディープラーニング(DL)、フェデレートラーニング(FL)、IoT、ブロックチェーン、自然言語処理(NLP)、および大規模言語モデル(LLM)のかなりの可能性と応用について検討する。 我々は、これらの技術の膨大な潜在能力を、スマートシティの実現と発展を技術的に強化する基礎的な要素として見極めることを目指しており、この変革的な都市ミリューにおけるイノベーションの推進の重要性を浮き彫りにしている。 私たちの談話は、DL、FL、IoT、Blockchain、NLP、LLMがこれらの状況で直面している、恐ろしい課題を探求することで頂点に達します。

Smart cities stand as pivotal components in the ongoing pursuit of elevating urban living standards, facilitating the rapid expansion of urban areas while efficiently managing resources through sustainable and scalable innovations. In this regard, as emerging technologies like Artificial Intelligence (AI), the Internet of Things (IoT), big data analytics, and fog and edge computing have become increasingly prevalent, smart city applications grapple with various challenges, including the potential for unauthorized disclosure of confidential and sensitive data. The seamless integration of emerging technologies has played a vital role in sustaining the dynamic pace of their development. This paper explores the substantial potential and applications of Deep Learning (DL), Federated Learning (FL), IoT, Blockchain, Natural Language Processing (NLP), and large language models (LLMs) in optimizing ICT processes within smart cities. We aim to spotlight the vast potential of these technologies as foundational elements that technically strengthen the realization and advancement of smart cities, underscoring their significance in driving innovation within this transformative urban milieu. Our discourse culminates with an exploration of the formidable challenges that DL, FL, IoT, Blockchain, NLP, and LLMs face within these contexts, and we offer insights into potential future directions.
翻訳日:2024-02-25 16:44:32 公開日:2024-02-07
# Google AdsコンテンツモデレーションのためのLCMレビューのスケールアップ

Scaling Up LLM Reviews for Google Ads Content Moderation ( http://arxiv.org/abs/2402.14590v1 )

ライセンス: Link先を確認
Wei Qiao, Tushar Dogra, Otilia Stretcu, Yu-Han Lyu, Tiantian Fang, Dongjin Kwon, Chun-Ta Lu, Enming Luo, Yuan Wang, Chih-Chun Chia, Ariel Fuxman, Fangzhou Wang, Ranjay Krishna, Mehmet Tek(参考訳) 大規模言語モデル(LLM)は、コンテンツモデレーションのための強力なツールだが、その推論コストとレイテンシは、Google Adsリポジトリのような大規模なデータセットでカジュアルな使用を禁止している。 本研究では,Google AdsにおけるコンテンツモデレーションのためのLCMレビューのスケールアップ手法を提案する。 まず、ヒューリスティックスを用いて、フィルタリングと重複除去によって候補を選定し、クラスタ毎に1つの代表広告を選択する広告のクラスタを作成する。 LLMを使って、代表広告のみをレビューします。 最後に、代表広告のllm決定を彼らのクラスタに伝達します。 この手法は,ベースラインの非LLMモデルと比較して2倍のリコールを実現しつつ,レビュー数を3桁以上削減する。 このアプローチの成功はクラスタリングやラベル伝搬に使用される表現の強い機能であり、クロスモーダルな類似性表現はユニモーダルな表現よりも優れた結果をもたらすことがわかった。

Large language models (LLMs) are powerful tools for content moderation, but their inference costs and latency make them prohibitive for casual use on large datasets, such as the Google Ads repository. This study proposes a method for scaling up LLM reviews for content moderation in Google Ads. First, we use heuristics to select candidates via filtering and duplicate removal, and create clusters of ads for which we select one representative ad per cluster. We then use LLMs to review only the representative ads. Finally, we propagate the LLM decisions for the representative ads back to their clusters. This method reduces the number of reviews by more than 3 orders of magnitude while achieving a 2x recall compared to a baseline non-LLM model. The success of this approach is a strong function of the representations used in clustering and label propagation; we found that cross-modal similarity representations yield better results than uni-modal representations.
翻訳日:2024-02-25 16:43:39 公開日:2024-02-07
# 機械学習は市民が報告したアンカー行動を予測することができるか?

Can machine learning predict citizen-reported angler behavior? ( http://arxiv.org/abs/2402.06678v1 )

ライセンス: Link先を確認
Julia S. Schmid (1), Sean Simmons (2), Mark A. Lewis (1 and 3), Mark S. Poesch (1), Pouria Ramazi (4) ((1) University of Alberta, (2) Angler's Atlas, (3) University of Victoria, (4) Brock University)(参考訳) 漁獲率やアングル圧力などのアングルの挙動の予測は,魚類の個体数維持とアングルの満足度確保に不可欠である。 アングルの挙動は、オンラインプラットフォームやレクリエーションアングルによって報告された漁業活動を提供する携帯電話アプリケーションによって部分的に追跡することができる。 さらに、アングルの挙動は、局所的なサイト属性によって駆動されることが知られている。 ここでは, 環境, 社会経済, 漁業管理目的, 淡水水域でのイベントに関する補助データを用いた学習手法を用いて, 市民報告型アンカー行動の予測について検討した。 目標は、補助データだけで報告された振る舞いを予測できるかどうかを判断することであった。 空間的・時間的範囲や時間的解像度が異なっていた。 精度スコアは、1つの水域での月間予測では88%、カナダ全土の特定の地域では1日あたりの空間予測では86%であった。 他の解像度とスケールでは、予測精度は60%程度しか得られなかった。 この研究は、時間と空間におけるアングルの挙動を大規模に予測する最初の試みであり、様々な方向への潜在的拡張の基礎を確立している。

Prediction of angler behaviors, such as catch rates and angler pressure, is essential to maintaining fish populations and ensuring angler satisfaction. Angler behavior can partly be tracked by online platforms and mobile phone applications that provide fishing activities reported by recreational anglers. Moreover, angler behavior is known to be driven by local site attributes. Here, the prediction of citizen-reported angler behavior was investigated by machine-learning methods using auxiliary data on the environment, socioeconomics, fisheries management objectives, and events at a freshwater body. The goal was to determine whether auxiliary data alone could predict the reported behavior. Different spatial and temporal extents and temporal resolutions were considered. Accuracy scores averaged 88% for monthly predictions at single water bodies and 86% for spatial predictions on a day in a specific region across Canada. At other resolutions and scales, the models only achieved low prediction accuracy of around 60%. The study represents a first attempt at predicting angler behavior in time and space at a large scale and establishes a foundation for potential future expansions in various directions.
翻訳日:2024-02-18 13:39:56 公開日:2024-02-07
# 絡み合いの運命

The fate of entanglement ( http://arxiv.org/abs/2402.06677v1 )

ライセンス: Link先を確認
Gilles Parez, William Witczak-Krempa(参考訳) 量子絡み合いは基本的に粒子間の非局所相関である。 最も単純な実現において、1つの粒子の測定は、それらの分離に関係なく、そのパートナーの事前測定によって影響を受ける。 複数の粒子に対して純粋に集合的な絡み合いが存在するが、その検出は理論的には未解決の問題である。 ここで、多人数の絡み合いの全ての形態が、熱が上がり、時間とともに進化し、あるいはその部分が分離するにつれて、システムの典型的な進化の間に完全に消滅することを示す。 これらの結果は、物理状態の空間における絡み合いのない大陸の性質から導かれ、大きな一般性を持つ。 これらの現象を、平衡から外れたフラストレーションの分子量子マグネットで説明する。 対照的に、粒子が電子のようなフェルミオンであれば、絡み合いのない領域を妨げ、量子相関を保護する別の概念が存在する。 これらの知見は、量子物質とアーキテクチャにおける絡み合いの構造に関する基本的な知識を提供し、その操作への道を開く。

Quantum entanglement is a fundamentally non-local correlation between particles. In its simplest realisation, a measurement on one particle is affected by a prior measurement on its partner, irrespective of their separation. For multiple particles, purely collective types of entanglement exist but their detection, even theoretically, remains an outstanding open question. Here, we show that all forms of multi-party entanglement entirely disappear during the typical evolution of a system as it is heats up, evolves in time, or as its parts become separated. These results follow from the nature of the entanglement-free continent in the space of physical states, and hold in great generality. We illustrate these phenomena with a frustrated molecular quantum magnet in and out of equilibrium. In contrast, if the particles are fermions, such as electrons, another notion of entanglement exists that precludes entanglement-free regions, and thus protects quantum correlations. These findings provide fundamental knowledge about the structure of entanglement in quantum matter and architectures, paving the way for its manipulation.
翻訳日:2024-02-18 13:39:39 公開日:2024-02-07
# マルチソースEHRトラジェクトリにおける文脈表現学習のためのマスケッド言語モデル

A Masked language model for multi-source EHR trajectories contextual representation learning ( http://arxiv.org/abs/2402.06675v1 )

ライセンス: Link先を確認
Ali Amirahmadi (1), Mattias Ohlsson (1,2), Kobra Etminani (1), Olle Melander (3), and Jonas Bj\"ork (4) ((1) Center for Applied Intelligent Systems Research, Halmstad University, (2) Centre for Environmental and Climate Science, Lund University, (3) Department of Clinical Sciences, Lund University, (4) Division of Occupational and Environmental Medicine, Lund University)(参考訳) 電子健康記録データと機械学習を使って将来の意思決定を導くには、課題に対処する必要がある。 1)長期・短期の依存関係 2) 疾患と介入の相互作用 双方向トランスフォーマーは、最初の課題に効果的に対応している。 ここでは、あるソース(icd10コードなど)をマスキングし、他のソース(例えばatcコード)で予測するためにトランスフォーマーをトレーニングすることで、後者の課題に取り組んだ。

Using electronic health records data and machine learning to guide future decisions needs to address challenges, including 1) long/short-term dependencies and 2) interactions between diseases and interventions. Bidirectional transformers have effectively addressed the first challenge. Here we tackled the latter challenge by masking one source (e.g., ICD10 codes) and training the transformer to predict it using other sources (e.g., ATC codes).
翻訳日:2024-02-18 13:39:21 公開日:2024-02-07
# 深層学習におけるメンバシッププライバシの理解

Understanding Practical Membership Privacy of Deep Learning ( http://arxiv.org/abs/2402.06674v1 )

ライセンス: Link先を確認
Marlon Tobaben, Gauri Pradhan, Yuan He, Joonas J\"alk\"o, and Antti Honkela(参考訳) 我々は,現在最先端の会員推論攻撃(MIA)を用いて,大規模画像分類モデルの微調整による実用的プライバシ脆弱性を体系的に検証し,メンバーシップ推論に脆弱なデータセットやサンプルの特性を理解することに注力する。 データセット特性の面では、攻撃の正の真の正の率を低い偽陽性のレートで測定すると、データ中のクラス毎の例数とMIA脆弱性との間に強い電力法的依存がある。 個人サンプルの場合、トレーニング終了時の大きな勾配はMIA脆弱性と強く相関する。

We apply a state-of-the-art membership inference attack (MIA) to systematically test the practical privacy vulnerability of fine-tuning large image classification models.We focus on understanding the properties of data sets and samples that make them vulnerable to membership inference. In terms of data set properties, we find a strong power law dependence between the number of examples per class in the data and the MIA vulnerability, as measured by true positive rate of the attack at a low false positive rate. For an individual sample, large gradients at the end of training are strongly correlated with MIA vulnerability.
翻訳日:2024-02-18 13:39:11 公開日:2024-02-07
# 人間のような知性への説明可能なAIの進化:人工脳への道のり

Advancing Explainable AI Toward Human-Like Intelligence: Forging the Path to Artificial Brain ( http://arxiv.org/abs/2402.06673v1 )

ライセンス: Link先を確認
Yongchen Zhou, Richard Jiang(参考訳) 説明可能なAI(XAI)における人工知能(AI)と神経科学の交差は、複雑な意思決定プロセスにおける透明性と解釈可能性を高めるために重要である。 本稿では、機能ベースから人間中心のアプローチまで、XAI方法論の進化を考察し、医療や金融など様々な分野における応用を考察する。 生成モデルにおける説明可能性の達成、責任あるAIプラクティスの確保、倫理的意味への対処に関する課題について論じる。 本稿では、認知科学へのXAIの潜在的収束、感情知能AIの発展、AIシステムにおけるヒューマン・ライク・インテリジェンス(HLI)の探求について検討する。 AIが人工知能(AGI)へと進むにつれ、意識、倫理、社会的影響の考慮が最重要となる。 aiによる脳のミステリーの解読とhliの探求の継続は、トランスフォーメーションな取り組みであり、人間の認知に関する多分野の探究と技術進歩を橋渡ししている。

The intersection of Artificial Intelligence (AI) and neuroscience in Explainable AI (XAI) is pivotal for enhancing transparency and interpretability in complex decision-making processes. This paper explores the evolution of XAI methodologies, ranging from feature-based to human-centric approaches, and delves into their applications in diverse domains, including healthcare and finance. The challenges in achieving explainability in generative models, ensuring responsible AI practices, and addressing ethical implications are discussed. The paper further investigates the potential convergence of XAI with cognitive sciences, the development of emotionally intelligent AI, and the quest for Human-Like Intelligence (HLI) in AI systems. As AI progresses towards Artificial General Intelligence (AGI), considerations of consciousness, ethics, and societal impact become paramount. The ongoing pursuit of deciphering the mysteries of the brain with AI and the quest for HLI represent transformative endeavors, bridging technical advancements with multidisciplinary explorations of human cognition.
翻訳日:2024-02-18 13:39:01 公開日:2024-02-07
# 大規模言語ユーザインタフェース: llmsを活用した音声対話型ユーザインタフェース

Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs ( http://arxiv.org/abs/2402.07938v1 )

ライセンス: Link先を確認
Syed Mekael Wasti, Ken Q. Pu, Ali Neshati(参考訳) 近年の大規模言語モデルの発展は、論理的推論と理解の顕著な能力を示している。 これらの新発見の能力は、新しい世代のソフトウェアへの扉を開き、業界で採用されている数えきれないほどの方法によって明らかになっている。 本研究は,ユーザとユーザインターフェースの仲介として機能するフレームワークを構築するために,LCMの高機能化を図り,指導することに焦点を当てる。 自然なテキスト入力の徹底的な分析を通じてユーザニーズを理解することで、効果的に構築されたLLMエンジンは、最も可能性の高いアプリケーションを分類し、望ましいUIコンポーネントを特定し、その後、ユーザの期待するアクションを実行することができる。 この統合は、静的uiシステムを高度にダイナミックで適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザエクスペリエンスの新しいフロンティアを導入する。 このようなフレームワークは、ユーザーが日々のタスクを遂行する方法を根本的に変えることができ、効率が急上昇し、認知負荷を大幅に削減できる。

The recent meteoric advancements in large language models have showcased a remarkable capacity for logical reasoning and comprehension. These newfound capabilities have opened the door to a new generation of software, as has been made obvious through the innumerable ways they are being applied in the industry. This research focuses on harnessing and guiding the upgraded power of LLMs to construct a framework that can serve as an intermediary between a user and their user interface. By comprehending a user's needs through a thorough analysis of natural textual inputs, an effectively crafted LLM engine can classify the most likely available application, identify the desired UI component and subsequently execute the user's expected actions. This integration can evolve static UI systems into highly dynamic and adaptable solutions, introducing a new frontier of intelligent and responsive user experiences. Such a framework can fundamentally shift how users accomplish daily tasks, skyrocket efficiency, and greatly reduce cognitive load.
翻訳日:2024-02-18 13:29:03 公開日:2024-02-07
# 学術・産業分野における匿名・リアルタイムリーダーボードによる教育コンペティションのデザインと組織

The Design and Organization of Educational Competitions with Anonymous and Real-Time Leaderboards in Academic and Industrial Settings ( http://arxiv.org/abs/2402.07936v1 )

ライセンス: Link先を確認
Serdar Kad{\i}o\u{g}lu, Bernard Kleynhans(参考訳) 本論文の目的は、匿名および(ほぼ)リアルタイムのリーダーボードを学術的・産業的に構成した教育コンペティションの設計と組織化の経験を共有することである。 このようなコンペは優れた教育ツールであり、参加者にハンズオン体験を提供する一方で、重要な計画、技術的セットアップ、主催者による管理が必要である。 本稿ではまず,このようなイベントを企画する上で,主催者が考慮すべきルールと条件について,チーム登録,データアクセス,提出システム,ルール,条件など,いくつかの重要な領域を概説する。 次に、匿名のリーダーボードへの提出をリアルタイムに(ほぼ)支援し、参加者に即座にフィードバックを提供する高レベルのシステム設計を提案する。 最後に,この抽象システムを学術的・産業的に応用した経験について述べる。 ここで提案されているガイドラインと高レベルのシステム設計が、同様の教育イベントの組織化に役立てることを願っています。

The goal of this paper is to share our experience in designing and organizing educational competitions with anonymous and (near) real-time leaderboards in both academic and industrial settings. While such competitions serve as a great educational tool and provide participants with hands-on experience, they require significant planning, technical setup, and administration from organizers. In this paper, we first outline several important areas including team registration, data access, submission systems, rules and conditions that organizers should consider when planning such events. We then present a high-level system design that can support (near) real-time evaluation of submissions to power anonymous leaderboards and provide immediate feedback for participants. Finally, we share our experience applying this abstract system in academic and industrial settings. We hope the set of guidelines and the high-level system design proposed here help others in their organization of similar educational events.
翻訳日:2024-02-18 13:28:47 公開日:2024-02-07
# 未知ゲームにおける非回帰学習のための最適トンプソンサンプリング

Optimistic Thompson Sampling for No-Regret Learning in Unknown Games ( http://arxiv.org/abs/2402.09456v1 )

ライセンス: Link先を確認
Yingru Li, Liangqi Liu, Wenqiang Pi, Hao Liang, Zhi-Quan Luo(参考訳) 複数の意思決定者を含む現実世界の多くの問題は、部分的な観察によって特徴づけられる未知のゲームとしてモデル化できる。 部分的情報とマルチアジェンシーの呪いによって生じる課題に対処し,相手の行動や報酬構造に関する情報を活用したトンプソンサンプリング型アルゴリズムを開発した。 提案手法は実験予算を大幅に削減し,トラヒックルーティングやレーダセンシングといった実用的な応用において,ベースラインアルゴリズムと比較して10倍以上の削減を実現する。 報奨構造に関する一定の仮定の下では、後悔の束縛は、全体の行動空間サイズに対する対数依存しか示さないことを示し、マルチアジェンシーの呪いを効果的に緩和する。 さらに本研究では,提案手法と既存アルゴリズムを現場で統合した新しいコントリビューションであるOptimism-then-NoRegretフレームワークを紹介する。

Many real-world problems involving multiple decision-makers can be modeled as an unknown game characterized by partial observations. Addressing the challenges posed by partial information and the curse of multi-agency, we developed Thompson sampling-type algorithms, leveraging information about opponent's action and reward structures. Our approach significantly reduces experimental budgets, achieving a more than tenfold reduction compared to baseline algorithms in practical applications like traffic routing and radar sensing. We demonstrate that, under certain assumptions about the reward structure, the regret bound exhibits merely a logarithmic dependence on the total action space size, effectively mitigating the curse of multi-agency. Additionally, this research introduces the Optimism-then-NoRegret framework, a novel contribution that integrates both our proposed methodologies and existing algorithms in the field.
翻訳日:2024-02-18 12:48:53 公開日:2024-02-07
# 深層学習による複数のミサイルの侵入状況認識

Deep Learning Based Situation Awareness for Multiple Missiles Evasion ( http://arxiv.org/abs/2402.10101v1 )

ライセンス: Link先を確認
Edvards Scukins, Markus Klein, Lars Kroon, Petter \"Ogren(参考訳) 空対空ミサイルの有効射程が増加するにつれて、人間のオペレーターはuavを安全に保つために必要な状況認識を維持することが難しくなる。 本研究では,bvr(beyond visual range)の航空戦闘シナリオにおいて,異なる選択肢のリスクを評価し,それに基づいて意思決定を行うuav運用者を支援する意思決定支援ツールを提案する。 以前の作業では、単一のミサイルによる脅威に焦点を当てており、この作業では、アイデアをいくつかのミサイル脅威にまで拡張しています。 提案手法は,Deep Neural Networks (DNN) を用いて高忠実度シミュレーションから学習し,演算子に異なる戦略の集合に対する結果推定値を与える。 提案システムは,複数のミサイルを運用し,選択肢のファミリーを評価し,最もリスクの低い行動手順を推奨できることを示す。

As the effective range of air-to-air missiles increases, it becomes harder for human operators to maintain the situational awareness needed to keep a UAV safe. In this work, we propose a decision support tool to help UAV operators in Beyond Visual Range (BVR) air combat scenarios assess the risks of different options and make decisions based on those. Earlier work focused on the threat posed by a single missile, and in this work, we extend the ideas to several missile threats. The proposed method uses Deep Neural Networks (DNN) to learn from high-fidelity simulations to provide the operator with an outcome estimate for a set of different strategies. Our results demonstrate that the proposed system can manage multiple incoming missiles, evaluate a family of options, and recommend the least risky course of action.
翻訳日:2024-02-18 12:40:57 公開日:2024-02-07
# チューニングイン:限られたデータを用いた臨床施設における音声分類器の性能分析

Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data ( http://arxiv.org/abs/2402.10100v1 )

ライセンス: Link先を確認
Hamza Mahdi, Eptehal Nashnoush, Rami Saab, Arjun Balachandar, Rishit Dagli, Lucas X. Perri, and Houman Khosravani(参考訳) 本研究は,実世界の予測データ収集を反映した小型データセットを制約した臨床環境での音声分類のための深層学習モデルを評価する。 我々は、DenseNetやConvNeXtなどのCNNを、VT、SWIN、ASTといったトランスフォーマーモデルとともに分析し、YAMNetやVGGishといった事前訓練されたオーディオモデルと比較する。 本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングする利点を強調する。 脳卒中患者の音声データセットを2つ前向きに収集した。 各種前処理技術について検討し,RGBおよびグレースケールのスペクトログラム変換が事前学習から学習した事前学習に基づいて,モデル性能に異なる影響を及ぼすことを示した。 以上の結果から,cnnは小さなデータセットの文脈でトランスフォーマモデルにマッチする,あるいは超越する可能性が示唆された。 本研究は、音響分類におけるモデル選択、事前学習、前処理による段階的限界利得の重要性を強調し、オーディオ分類に依存する臨床診断に有用な知見を提供する。

This study assesses deep learning models for audio classification in a clinical setting with the constraint of small datasets reflecting real-world prospective data collection. We analyze CNNs, including DenseNet and ConvNeXt, alongside transformer models like ViT, SWIN, and AST, and compare them against pre-trained audio models such as YAMNet and VGGish. Our method highlights the benefits of pre-training on large datasets before fine-tuning on specific clinical data. We prospectively collected two first-of-their-kind patient audio datasets from stroke patients. We investigated various preprocessing techniques, finding that RGB and grayscale spectrogram transformations affect model performance differently based on the priors they learn from pre-training. Our findings indicate CNNs can match or exceed transformer models in small dataset contexts, with DenseNet-Contrastive and AST models showing notable performance. This study highlights the significance of incremental marginal gains through model selection, pre-training, and preprocessing in sound classification; this offers valuable insights for clinical diagnostics that rely on audio classification.
翻訳日:2024-02-18 12:40:41 公開日:2024-02-07
# gaussian process-regression-based methodによる複素共鳴スペクトルにおける例外点の局在

Gaussian-process-regression-based method for the localization of exceptional points in complex resonance spectra ( http://arxiv.org/abs/2402.05972v1 )

ライセンス: Link先を確認
Patrick Egenlauf, Patric Rommel, J\"org Main(参考訳) 少なくとも2つの制御可能なパラメータに依存するオープン量子システムにおける共鳴は、固有値だけでなく2つ以上の共鳴の固有ベクトルも結合する例外点(eps)現象を示すことができる。 パラメータ空間におけるそれらの正確な局在は、特に量子スペクトルと共鳴の計算が数値的に非常に高価であるシステムにおいて困難である。 ガウス過程回帰(gaussian process regression, gpr)に基づく例外点を探索する効率的な機械学習アルゴリズムを提案する。 GPRモデルは、EPに属する固有値対の初期セットで訓練され、数値的に安価なルート探索によるEP位置の第一推定に使用される。 そして、GPRモデルにトレーニングポイントとして選択された正確な固有値ペアを追加することにより、見積もりを反復的に改善する。 GPR法は, 単純な低次元行列モデルを用いて開発, 試験を行い, 外部電場および磁場中におけるエキサイトン中のエキサイトン共鳴スペクトル中のEPの局在化について検討した。 EPの正確な計算は、結晶の完全価バンド構造と中心セル補正を考慮することで、この系におけるEPの実験的観察の基礎となる。

Resonances in open quantum systems depending on at least two controllable parameters can show the phenomenon of exceptional points (EPs), where not only the eigenvalues but also the eigenvectors of two or more resonances coalesce. Their exact localization in the parameter space is challenging, in particular in systems, where the computation of the quantum spectra and resonances is numerically very expensive. We introduce an efficient machine learning algorithm to find exceptional points based on Gaussian process regression (GPR). The GPR-model is trained with an initial set of eigenvalue pairs belonging to an EP and used for a first estimation of the EP position via a numerically cheap root search. The estimate is then improved iteratively by adding selected exact eigenvalue pairs as training points to the GPR-model. The GPR-based method is developed and tested on a simple low-dimensional matrix model and then applied to a challenging real physical system, viz., the localization of EPs in the resonance spectra of excitons in cuprous oxide in external electric and magnetic fields. The precise computation of EPs, by taking into account the complete valence band structure and central-cell corrections of the crystal, can be the basis for the experimental observation of EPs in this system.
翻訳日:2024-02-12 19:22:25 公開日:2024-02-07
# 行動利用宣言の標準化とAIの責任ライセンシングへの採用について

On the Standardization of Behavioral Use Clauses and Their Adoption for Responsible Licensing of AI ( http://arxiv.org/abs/2402.05979v1 )

ライセンス: Link先を確認
Daniel McDuff, Tim Korjakow, Scott Cambo, Jesse Josua Benjamin, Jenny Lee, Yacine Jernite, Carlos Mu\~noz Ferrandis, Aaron Gokaslan, Alek Tarkowski, Joseph Lindley, A. Feder Cooper, Danish Contractor(参考訳) 悪質で悪意のあるAIの使用に対する懸念が高まり、テクノロジーのリスクを管理するツールへの欲求が高まっている。 2018年、行動利用条項(一般的にResponsible AI Licensesと呼ばれる)を持つライセンスが提案され、開発者は、ネガティブなアプリケーションを軽減するためにユーザを指定しながら、AI資産をリリースするためのフレームワークを提供する。 2023年末時点で、4万のソフトウェアとモデルリポジトリの順序で、責任あるAIライセンスが採用されている。 行動利用条項でライセンスされた著名なモデルはBLOOM(言語)とLLaMA2(言語)、安定拡散(画像)、GRID(ロボティクス)である。 本稿では,これらのライセンスが採用されている理由と適用方法,その適用理由について検討する。 我々は、質的なインタビュー、ライセンス条項のクラスタリング、およびライセンス導入の定量的分析の混合手法を用いる。 この証拠に基づいて、私たちは、責任あるAIライセンスがユーザーを混乱させたり、その影響を希薄にするのを避けるために標準化を必要とするという立場を取ります。 同時に、いくつかの文脈(例えば医療領域)では、行動制限のカスタマイズも適切である。 ユーザのニーズを満たし、ツーリングを通じてサポートできる‘標準化カスタマイズ’’を推奨しています。

Growing concerns over negligent or malicious uses of AI have increased the appetite for tools that help manage the risks of the technology. In 2018, licenses with behaviorial-use clauses (commonly referred to as Responsible AI Licenses) were proposed to give developers a framework for releasing AI assets while specifying their users to mitigate negative applications. As of the end of 2023, on the order of 40,000 software and model repositories have adopted responsible AI licenses licenses. Notable models licensed with behavioral use clauses include BLOOM (language) and LLaMA2 (language), Stable Diffusion (image), and GRID (robotics). This paper explores why and how these licenses have been adopted, and why and how they have been adapted to fit particular use cases. We use a mixed-methods methodology of qualitative interviews, clustering of license clauses, and quantitative analysis of license adoption. Based on this evidence we take the position that responsible AI licenses need standardization to avoid confusing users or diluting their impact. At the same time, customization of behavioral restrictions is also appropriate in some contexts (e.g., medical domains). We advocate for ``standardized customization'' that can meet users' needs and can be supported via tooling.
翻訳日:2024-02-12 19:05:48 公開日:2024-02-07
# 加工工程における工具摩耗モニタリング改善のための形状と輪郭特性の組み合わせ

Combining shape and contour features to improve tool wear monitoring in milling processes ( http://arxiv.org/abs/2402.05978v1 )

ライセンス: Link先を確認
M. T. Garc\'ia-Ord\'as, E. Alegre-Guti\'errez, V. Gonz\'alez-Castro, R. Alaiz-Rodr\'iguez(参考訳) 本稿では, 形状記述子と輪郭記述子の組み合わせに基づく新しいシステムを提案する。 装着領域形状を説明するため,我々はshapefeatと呼ばれる新しい記述器を提案し,その輪郭をボルチズ法を用いて特徴付ける。 その結果, 後期融合法によるボルチズとシェープフェイトの組み合わせは, 2次分類における91.44%, 3つの対象クラス(中・低)を用いて82.90%の精度を得たことにより, 分類性能が著しく向上した。 これらの結果は、2つのクラスと3つのクラスでそれぞれ88.70と80.67%のアキュラシーを達成し、それぞれShapeFeatと87.06と80.24%のB-ORCHIZを使用する。 本研究は, 製粉工程におけるインサートを自動的に分類するために, 製造コミュニティに奨励的な結果をもたらした。

In this paper, a new system based on combinations of a shape descriptor and a contour descriptor has been proposed for classifying inserts in milling processes according to their wear level following a computer vision based approach. To describe the wear region shape we have proposed a new descriptor called ShapeFeat and its contour has been characterized using the method BORCHIZ that, to the best of our knowledge, achieves the best performance for tool wear monitoring following a computer vision-based approach. Results show that the combination of BORCHIZ with ShapeFeat using a late fusion method improves the classification performance significantly, obtaining an accuracy of 91.44% in the binary classification (i.e. the classification of the wear as high or low) and 82.90% using three target classes (i.e. classification of the wear as high, medium or low). These results outperform the ones obtained by both descriptors used on their own, which achieve accuracies of 88.70 and 80.67% for two and three classes, respectively, using ShapeFeat and 87.06 and 80.24% with B-ORCHIZ. This study yielded encouraging results for the manufacturing community in order to classify automatically the inserts in terms of their wear for milling processes.
翻訳日:2024-02-12 19:05:25 公開日:2024-02-07
# 局所テクスチャに基づくオンライン・自動・低コストシステムによる工具摩耗監視

Tool wear monitoring using an online, automatic and low cost system based on local texture ( http://arxiv.org/abs/2402.05977v1 )

ライセンス: Link先を確認
M. T. Garc\'ia-Ord\'as, E. Alegre-Guti\'errez, R. Alaiz-Rodr\'iguez, V. Gonz\'alez-Castro(参考訳) 本研究では,コンピュータビジョンと機械学習に基づく新しいオンライン,低コスト,高速なアプローチを提案する。 私たちは、エッジプロファイル切断ヘッドの254枚の画像からなる新しいデータセットを作成しました。 全インサートを分割し、切削刃を切削し、577枚の切削刃の画像を得た(301枚、使い捨て276枚)。 提案手法は,(1)ウェアラブルパッチ (WP) と呼ばれる各領域の切欠き画像を分割し,(2) 局所バイナリパターン (LBP) の異なる変種に基づくテクスチャ記述子を用いて,各領域を着用または使用可能なものに特徴付け,(3) 切欠きエッジ(およびツール)が使用可能な場合のWPの状態に基づいて決定する。 5種類のパッチ分割構成を提案し評価した。 個々のWPは、共通カーネルを持つSVM(Support Vector Machine)によって分類された。 WPのための最高のパッチ分割構成とテクスチャ記述子は、使い捨ての切断エッジの検出において90.26%の精度を達成する。 これらの結果は、エッジプロファイルミリングプロセスにおける自動摩耗監視の極めて有望な機会を示す。

In this work we propose a new online, low cost and fast approach based on computer vision and machine learning to determine whether cutting tools used in edge profile milling processes are serviceable or disposable based on their wear level. We created a new dataset of 254 images of edge profile cutting heads which is, to the best of our knowledge, the first publicly available dataset with enough quality for this purpose. All the inserts were segmented and their cutting edges were cropped, obtaining 577 images of cutting edges: 301 functional and 276 disposable. The proposed method is based on (1) dividing the cutting edge image in different regions, called Wear Patches (WP), (2) characterising each one as worn or serviceable using texture descriptors based on different variants of Local Binary Patterns (LBP) and (3) determine, based on the state of these WP, if the cutting edge (and, therefore, the tool) is serviceable or disposable. We proposed and assessed five different patch division configurations. The individual WP were classified by a Support Vector Machine (SVM) with an intersection kernel. The best patch division configuration and texture descriptor for the WP achieves an accuracy of 90.26% in the detection of the disposable cutting edges. These results show a very promising opportunity for automatic wear monitoring in edge profile milling processes.
翻訳日:2024-02-12 19:05:01 公開日:2024-02-07
# ranksum : rank fusionに基づく教師なし抽出テキスト要約

RankSum An unsupervised extractive text summarization based on rank fusion ( http://arxiv.org/abs/2402.05976v1 )

ライセンス: Link先を確認
A. Joshi, E. Fidalgo, E. Alegre, and R. Alaiz-Rodriguez(参考訳) 本稿では,各文に対して抽出された4つの多次元文特徴(トピック情報,意味コンテンツ,重要キーワード,位置)のランク融合に基づく,単一文書のテキスト要約抽出手法であるranksumを提案する。 ランクサムは、各特徴に対応する文の給与ランクを教師なしの方法で取得し、4つのスコアを重み付けしてその意味に応じてランク付けする。 スコアは完全に教師なしの方法で生成され、融合重みの学習にはラベル付きドキュメントセットが必要である。 融合重みは他のデータセットに一般化できることが分かったので、ranksumを教師なしのアプローチと考える。 トピックのランクを決定するには確率論的トピックモデルを用いるが、セマンティック情報は文の埋め込みを用いてキャプチャされる。 文埋め込みを用いたランキングを導出するために, シャム語ネットワークを用いて抽象文表現を作成し, それらの重要順に並べる新しい戦略を定式化する。 文書中の重要なキーワードと関連する文ランキングを見つけるためにグラフベースの戦略を適用する。 また,bigrams,trigrams,および文埋め込みに基づく文の新規性尺度を定式化し,要約文から冗長な文を取り除く。 各特徴のために計算された全ての文のランクは最終的に融合され、文書の各文の最終的なスコアを得る。 我々は、cnn/dailymail と duc 2002 の公開要約データセットに対する我々のアプローチを評価した。 実験の結果,本手法は既存手法よりも優れていることがわかった。

In this paper, we propose Ranksum, an approach for extractive text summarization of single documents based on the rank fusion of four multi-dimensional sentence features extracted for each sentence: topic information, semantic content, significant keywords, and position. The Ranksum obtains the sentence saliency rankings corresponding to each feature in an unsupervised way followed by the weighted fusion of the four scores to rank the sentences according to their significance. The scores are generated in completely unsupervised way, and a labeled document set is required to learn the fusion weights. Since we found that the fusion weights can generalize to other datasets, we consider the Ranksum as an unsupervised approach. To determine topic rank, we employ probabilistic topic models whereas semantic information is captured using sentence embeddings. To derive rankings using sentence embeddings, we utilize Siamese networks to produce abstractive sentence representation and then we formulate a novel strategy to arrange them in their order of importance. A graph-based strategy is applied to find the significant keywords and related sentence rankings in the document. We also formulate a sentence novelty measure based on bigrams, trigrams, and sentence embeddings to eliminate redundant sentences from the summary. The ranks of all the sentences computed for each feature are finally fused to get the final score for each sentence in the document. We evaluate our approach on publicly available summarization datasets CNN/DailyMail and DUC 2002. Experimental results show that our approach outperforms other existing state-of-the-art summarization methods.
翻訳日:2024-02-12 19:04:35 公開日:2024-02-07
# RAGE for the Machine:埋め込みアプリケーションのための低コストランダムアクセスによる画像圧縮

RAGE for the Machine: Image Compression with Low-Cost Random Access for Embedded Applications ( http://arxiv.org/abs/2402.05974v1 )

ライセンス: Link先を確認
Christian D. Rask, Daniel E. Lucani(参考訳) 一般的に矛盾する4つの目的を達成する画像圧縮フレームワークであるRAGEを紹介します。 1)多彩なカラー画像に対して良好な圧縮を行う。 2)計算効率のよい高速除圧 3)画像全体を圧縮することなくピクセルレベルの粒度を持つ画像の高速ランダムアクセスを行う。 4)無損失圧縮と無損失圧縮の両方のサポート。 これを実現するため,近年の一般化復号化(GD)の概念は,時間列データにおける効率のよいロスレス(デ)圧縮と高速ランダムアクセスを提供することで知られており,ロスレスとロスリーの両方に画像圧縮に適したキー展開を提供する。 9つの異なるデータセットを使用する。 画像,ロゴ,自然画像から,RAGは最先端のロスレス画像圧縮機と同等あるいはより良い圧縮比を示し,画素レベルのランダムアクセス機能を提供する。 ARM Cortex-M33プラットフォームのテストでは、9.9から40.6~ns、平均デコード時間は274から1226~nsである。 また, RAGE-Qは, 組込みグラフィックスの歪みでJPEGを数倍上回り, 自然な画像に対して適切な圧縮と歪みを有することを示した。

We introduce RAGE, an image compression framework that achieves four generally conflicting objectives: 1) good compression for a wide variety of color images, 2) computationally efficient, fast decompression, 3) fast random access of images with pixel-level granularity without the need to decompress the entire image, 4) support for both lossless and lossy compression. To achieve these, we rely on the recent concept of generalized deduplication (GD), which is known to provide efficient lossless (de)compression and fast random access in time-series data, and deliver key expansions suitable for image compression, both lossless and lossy. Using nine different datasets, incl. graphics, logos, natural images, we show that RAGE has similar or better compression ratios to state-of-the-art lossless image compressors, while delivering pixel-level random access capabilities. Tests in an ARM Cortex-M33 platform show seek times between 9.9 and 40.6~ns and average decoding time per pixel between 274 and 1226~ns. Our measurements also show that RAGE's lossy variant, RAGE-Q, outperforms JPEG by several fold in terms of distortion in embedded graphics and has reasonable compression and distortion for natural images.
翻訳日:2024-02-12 19:04:10 公開日:2024-02-07
# uavネットワークにおけるブロックチェーン対応クラスタ型スケーラブル連合学習(bcs-fl)フレームワーク

Blockchain-enabled Clustered and Scalable Federated Learning (BCS-FL) Framework in UAV Networks ( http://arxiv.org/abs/2402.05973v1 )

ライセンス: Link先を確認
Sana Hafeez, Lina Mohjazi, Muhammad Ali Imran and Yao Sun(参考訳) プライバシ、スケーラビリティ、信頼性は、無人航空機(UAV)ネットワークを分散システムとして扱う上で重要な課題である。 近年,連合学習(FL)のUAVネットワークへの適用により,コラボレーション,プライバシ,レジリエンス,適応性が向上し,UAVアプリケーションにとって有望なフレームワークとなっている。 しかし、UAVネットワーク用のFLの実装には、通信オーバーヘッド、同期問題、スケーラビリティ制限、リソース制約といった欠点が伴う。 これらの課題に対処するために,本稿では,UAVネットワークのためのブロックチェーン対応クラスタリングおよびスケーラブルフェデレーションラーニング(BCS-FL)フレームワークを提案する。 これにより、大規模uavネットワークにおけるflの分散化、コーディネーション、スケーラビリティ、効率が向上する。 このフレームワークは、UAVネットワークをクラスタヘッドUAV(CHs)によって調整された別々のクラスタに分割し、連結グラフを確立する。 クラスタリングにより、MLモデルの更新を効率的に調整できる。 さらに、クラスタ間ハイブリッドおよびクラスタ内モデル集約スキームは、各トレーニングラウンドの後にグローバルモデルを生成し、クラスタ間のコラボレーションと知識共有を改善する。 この数値的な結果は, 学習効果とコミュニケーション効率のトレードオフを強調しつつ, 収束の達成を示すものである。

Privacy, scalability, and reliability are significant challenges in unmanned aerial vehicle (UAV) networks as distributed systems, especially when employing machine learning (ML) technologies with substantial data exchange. Recently, the application of federated learning (FL) to UAV networks has improved collaboration, privacy, resilience, and adaptability, making it a promising framework for UAV applications. However, implementing FL for UAV networks introduces drawbacks such as communication overhead, synchronization issues, scalability limitations, and resource constraints. To address these challenges, this paper presents the Blockchain-enabled Clustered and Scalable Federated Learning (BCS-FL) framework for UAV networks. This improves the decentralization, coordination, scalability, and efficiency of FL in large-scale UAV networks. The framework partitions UAV networks into separate clusters, coordinated by cluster head UAVs (CHs), to establish a connected graph. Clustering enables efficient coordination of updates to the ML model. Additionally, hybrid inter-cluster and intra-cluster model aggregation schemes generate the global model after each training round, improving collaboration and knowledge sharing among clusters. The numerical findings illustrate the achievement of convergence while also emphasizing the trade-offs between the effectiveness of training and communication efficiency.
翻訳日:2024-02-12 19:03:47 公開日:2024-02-07
# 2次元トポロジカル秩序系の異常熱緩和とポンププローブ分光

Anomalous thermal relaxation and pump-probe spectroscopy of 2D topologically ordered systems ( http://arxiv.org/abs/2402.06484v1 )

ライセンス: Link先を確認
Max McGinley, Michele Fava, S. A. Parameswaran(参考訳) 本研究では, 2次元位相秩序系における線形および非線形分光量の挙動について検討した。 これらの準粒子の動力学は, 有限温度における線形応答係数と非線形ポンプ-プローブ応答係数の両方の挙動を規定する。 これらの量は系内の時間的相関のプローブとして機能し、十分に長い時間スケールで特異な普遍形式に従うことが示されている。 等速統計学の実験的に測定可能な指紋を提供するのと同様に、我々の発見する普遍的な振る舞いは、異常に高速な熱緩和を示す:相関関数は 'スキッシュ指数' $C(t) \sim \exp(-[t/\tau]^{3/2})$として長い時間で崩壊する。 この特異な漸近形式は、オーノン間の相互作用の非局所的性質を特徴づけ、局所的で非統計的な相互作用を介して相互作用する準粒子を持つ系よりも、緩和がはるかに早く起こる。 本研究では,2次元のアベリアあるいは非アベリアのトポロジカル相について検討する一方,既存の時間分解テラヘルツ領域分光法を用いて,関連する量を測定することが可能な量子スピン液体材料について検討する。

We study the behaviour of linear and nonlinear spectroscopic quantities in two-dimensional topologically ordered systems, which host anyonic excitations exhibiting fractional statistics. We highlight the role that braiding phases between anyons have on the dynamics of such quasiparticles, which as we show dictates the behaviour of both linear response coefficients at finite temperatures, as well as nonlinear pump-probe response coefficients. These quantities, which act as probes of temporal correlations in the system, are shown to obey distinctive universal forms at sufficiently long timescales. As well as providing an experimentally measurable fingerprint of anyonic statistics, the universal behaviour that we find also demonstrates anomalously fast thermal relaxation: correlation functions decay as a `squished exponential' $C(t) \sim \exp(-[t/\tau]^{3/2})$ at long times. We attribute this unusual asymptotic form to the nonlocal nature of interactions between anyons, which allows relaxation to occur much faster than in systems with quasiparticles interacting via local, non-statistical interactions. While our results apply to any Abelian or non-Abelian topological phase in two-dimensions, we discuss in particular the implications for candidate quantum spin liquid materials, wherein the relevant quantities can be measured using pre-existing time-resolved terahertz-domain spectroscopic techniques.
翻訳日:2024-02-12 16:42:14 公開日:2024-02-07
# 「空白を満たす」--日常生活の複雑な人間活動を構成するマイクロアクティビティの同定

"Filling the Blanks'': Identifying Micro-activities that Compose Complex Human Activities of Daily Living ( http://arxiv.org/abs/2306.13149v2 )

ライセンス: Link先を確認
Soumyajit Chatterjee, Bivas Mitra and Sandip Chakraborty(参考訳) 日常生活(adls)の複雑な活動は、しばしば複数のマイクロ活性からなる。 順次実行すると、これらのマイクロアクティビティは、ユーザが幅広いマクロアクティビティを達成するのに役立つ。 当然、これらの微小活動の深い理解は、より洗練された人間の活動認識(HAR)モデルを開発し、推論された結論に説明可能性を加えるのに役立つ。 これまでの研究では、マクロ活性を識別するためにマイクロアクティビティに関連付けるために必要な監督とルールを提供する、微粒な注釈付きデータを利用することで、これを達成しようとした。 しかし、この‘bottom-up’アプローチは非現実的であり、このような高品質できめ細かいアノテートされたセンサデータセットを取得することは困難で、コストがかかり、時間がかかります。 そこで本稿では,粒度の粗いアノテートデータを利用して,外部の監督なしにマクロアクティビティを構成マイクロアクティビティに拡張する手法であるamicronを開発した。 バックエンドでは、AmicroNは‘textit{unsupervised} change-point detection’を使用して、複雑なADLを越えてマイクロアクティビティ境界を探索する。 次に、それを特徴付けるために \textit{generalized zero-shot} アプローチを適用する。 我々は、AmicroNを2つのリアルタイム公開データセットで評価し、AmicroNがマイクロF\textsubscript{1}-score $>0.75$でマイクロアクティビティを識別できることを観察した。 さらに,AmicroNが予測した属性埋め込みにより,SOTA(State-of-the-art)大言語モデル(LLM)を活用する上で,概念実証を行う。

Complex activities of daily living (ADLs) often consist of multiple micro-activities. When performed sequentially, these micro-activities help the user accomplish the broad macro-activity. Naturally, a deeper understanding of these micro-activities can help develop more sophisticated human activity recognition (HAR) models and add explainability to their inferred conclusions. Previous research has attempted to achieve this by utilizing fine-grained annotated data that provided the required supervision and rules for associating the micro-activities to identify the macro-activity. However, this ``bottom-up'' approach is unrealistic as getting such high-quality, fine-grained annotated sensor datasets is challenging, costly, and time-consuming. Understanding this, in this paper, we develop AmicroN, which adapts a ``top-down'' approach by exploiting coarse-grained annotated data to expand the macro-activities into their constituent micro-activities without any external supervision. In the backend, AmicroN uses \textit{unsupervised} change-point detection to search for the micro-activity boundaries across a complex ADL. Then, it applies a \textit{generalized zero-shot} approach to characterize it. We evaluate AmicroN on two real-life publicly available datasets and observe that AmicroN can identify the micro-activities with micro F\textsubscript{1}-score $>0.75$ for both datasets. Additionally, we also perform an initial proof-of-concept on leveraging the state-of-the-art (SOTA) large language models (LLMs) with attribute embeddings predicted by AmicroN to enhance further the explainability surrounding the detection of micro-activities.
翻訳日:2024-02-10 03:19:22 公開日:2024-02-07
# 可算無限状態空間を持つマルコフ決定過程における最適政策のベイズ学習

Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space ( http://arxiv.org/abs/2306.02574v2 )

ライセンス: Link先を確認
Saghar Adler, Vijay Subramanian(参考訳) 通信ネットワークやコンピュータシステムのキューイングモデルなど、多くの実世界のアプリケーションモデルは、数え切れないほど無限の状態空間を持つ。 最適ポリシーを生成するために開発されたアルゴリズムおよび学習手順は、主に有限状態設定に焦点を当てており、これらのモデルに直接適用しない。 そこで本研究では,未知のパラメータ $\theta\in\theta$ によって制御される離散時間可算状態空間マルコフ決定過程(mdps)の群を最適制御し,有限作用空間 $\mathcal a$ と非有界コスト関数を持つ可算無限状態空間 $\mathcal x=\mathbb{z}_+^d$ 上で定義される問題について検討する。 与えられた固定事前分布で生成されるランダムな未知パラメータ $\boldsymbol{\theta}^*$ でベイズ的視点を取る。 未知のMDPを最適に制御するため,各エピソードの冒頭にベイズの規則によって形成された後続分布を用いてパラメータ推定を行い,そのエピソード中に適用されるポリシーを決定する。 各パラメータに選択されたポリシーに従って得られるマルコフ連鎖の安定性を確保するため、エルゴディシティ仮定を課す。 この条件と平均コストベルマン方程式の解を用いて、我々のアルゴリズムに対するベイズ的後悔の上に$\tilde O(dh^d\sqrt{|\mathcal A|T})$上界を定め、そこでは$T$が時間水平である。 最後に, 本アルゴリズムの適用性を明らかにするために, 未知ダイナミクスを持つ2つの異なるキューモデルを検討し, 最適制御アルゴリズムの開発に本アルゴリズムが適用可能であることを示す。

Models of many real-life applications, such as queuing models of communication networks or computing systems, have a countably infinite state-space. Algorithmic and learning procedures that have been developed to produce optimal policies mainly focus on finite state settings, and do not directly apply to these models. To overcome this lacuna, in this work we study the problem of optimal control of a family of discrete-time countable state-space Markov Decision Processes (MDPs) governed by an unknown parameter $\theta\in\Theta$, and defined on a countably-infinite state space $\mathcal X=\mathbb{Z}_+^d$, with finite action space $\mathcal A$, and an unbounded cost function. We take a Bayesian perspective with the random unknown parameter $\boldsymbol{\theta}^*$ generated via a given fixed prior distribution on $\Theta$. To optimally control the unknown MDP, we propose an algorithm based on Thompson sampling with dynamically-sized episodes: at the beginning of each episode, the posterior distribution formed via Bayes' rule is used to produce a parameter estimate, which then decides the policy applied during the episode. To ensure the stability of the Markov chain obtained by following the policy chosen for each parameter, we impose ergodicity assumptions. From this condition and using the solution of the average cost Bellman equation, we establish an $\tilde O(dh^d\sqrt{|\mathcal A|T})$ upper bound on the Bayesian regret of our algorithm, where $T$ is the time-horizon. Finally, to elucidate the applicability of our algorithm, we consider two different queuing models with unknown dynamics, and show that our algorithm can be applied to develop approximately optimal control algorithms.
翻訳日:2024-02-10 03:18:49 公開日:2024-02-07
# 量子独立性と色数

Quantum independence and chromatic numbers ( http://arxiv.org/abs/2401.16518v2 )

ライセンス: Link先を確認
Chris Godsil, Mariia Sobchuk(参考訳) 量子および古典的独立数が異なる120個の頂点に新しいグラフを構築する。 同時に、量子彩色数が古典的な彩色数よりも小さい無限のグラフ群を構築する。 さらに、古典的よりも厳密に大きい量子コクリッドを特徴付けるコチェン=スペクター集合との関係も発見する。 最後に、独立数を持つグラフは、2つの量子および古典的独立数と一致することを証明した。

We construct a new graph on 120 vertices whose quantum and classical independence numbers are different. At the same time, we construct an infinite family of graphs whose quantum chromatic numbers are smaller than the classical chromatic numbers. Furthermore, we discover the relation to Kochen-Specker sets that characterizes quantum cocliques that are strictly bigger than classical ones. Finally, we prove that for graphs with independence number is two, quantum and classical independence numbers coincide.
翻訳日:2024-02-10 03:06:53 公開日:2024-02-07
# 効率的な設計・制御のための省エネ化演算子推論

Energy-Preserving Reduced Operator Inference for Efficient Design and Control ( http://arxiv.org/abs/2401.02889v2 )

ライセンス: Link先を確認
Tomoki Koike, Elizabeth Qian(参考訳) 工学系の計算モデルを何度も評価しなければならない多項計算は設計と制御において重要である。 偏微分方程式(PDE)によって支配されるシステムでは、典型的な高忠実度数値モデルは高次元であり、多値な設定には計算コストがかかりすぎる。 したがって、設計と制御において低コストな計算を可能にするために効率的な代理モデルが必要である。 この研究は、多くの流体問題における方程式の生成など、二次作用素がエネルギーを保存するPDEをターゲットにした物理保存型モデル学習手法を提案する。 このアプローチは、最小二乗法で状態スナップショットと時間微分データに縮小されたモデル演算子を適合させる演算子推論法に基づいている。 しかし、演算子推論は、元のPDEのエネルギー保存性を持つ還元二次作用素を一般的に学ばない。 そこで我々は,この構造を制約付き最適化により学習された縮小モデルに課す新しいエネルギー保存演算子推論(EP-OpInf)手法を提案する。 粘性バーガース方程式と倉本-シヴァシンキー方程式(KSE)を用いて計算した結果、EP-OpInfはこのエネルギー保存構造を保持する効率的で正確な還元モデルを学ぶことを示した。

Many-query computations, in which a computational model for an engineering system must be evaluated many times, are crucial in design and control. For systems governed by partial differential equations (PDEs), typical high-fidelity numerical models are high-dimensional and too computationally expensive for the many-query setting. Thus, efficient surrogate models are required to enable low-cost computations in design and control. This work presents a physics-preserving reduced model learning approach that targets PDEs whose quadratic operators preserve energy, such as those arising in governing equations in many fluids problems. The approach is based on the Operator Inference method, which fits reduced model operators to state snapshot and time derivative data in a least-squares sense. However, Operator Inference does not generally learn a reduced quadratic operator with the energy-preserving property of the original PDE. Thus, we propose a new energy-preserving Operator Inference (EP-OpInf) approach, which imposes this structure on the learned reduced model via constrained optimization. Numerical results using the viscous Burgers' and Kuramoto-Sivashinksy equation (KSE) demonstrate that EP-OpInf learns efficient and accurate reduced models that retain this energy-preserving structure.
翻訳日:2024-02-10 03:06:24 公開日:2024-02-07
# 2時間量子ゆらぎのアプローチとBethe-Salpeter方程式との関係

Two-Time Quantum Fluctuations Approach and its Relation to the Bethe--Salpeter Equation ( http://arxiv.org/abs/2312.15034v2 )

ライセンス: Link先を確認
Erik Schroedter and Michael Bonitz(参考訳) 平衡状態の関連量子多粒子系は、相関固体、超低温原子、高密度プラズマを含む多くの分野で高い関心を持つ。 これらのシステムの正確な理論記述は、概念的にも計算資源に関しても困難である。 我々は最近、非平衡 $gw$ 近似(英語版)(nonequilibrium $gw$ approximation)と同値な量子揺らぎのアプローチを提示した。 Schroedter \textit{et al。 と、Cond。 マット Phys 23401 (2022)] 計算コストが低い場合に高い精度を保証します。 第二の出版物で. Schroedter \textit{et al。 とPhys。 B \textbf{108}, 205109 (2023)] では、このアプローチは2時間交換相関関数と密度応答特性にまで拡張された。 ここでは、このアプローチの特性をより詳細に分析する。 一般化されたkadanoff-baym ansatz と hartree-fock propagator を適用した場合、この手法は2回交換相関関数の bethe-salpeter 方程式と等価であることを示す。

Correlated quantum many-particle systems out of equilibrium are of high interest in many fields, including correlated solids, ultracold atoms or dense plasmas. Accurate theoretical description of these systems is challenging both, conceptionally and with respect to computational resources. We have recently presented a quantum fluctuations approach which is equivalent to the nonequilibrium $GW$ approximation [E. Schroedter \textit{et al.}, Cond. Matt. Phys. \textbf{25}, 23401 (2022)] that promises high accuracy at low computational cost. In a second publication [E. Schroedter \textit{et al.}, Phys. Rev. B \textbf{108}, 205109 (2023)], this approach was extended to the two-time exchange-correlation functions and the density response properties. Here, we analyze the properties of this approach in more detail. We demonstrate that the method is equivalent to the Bethe--Salpeter equation for the two-time exchange-correlation function when the generalized Kadanoff-Baym ansatz with Hartree-Fock propagators is applied.
翻訳日:2024-02-10 03:05:43 公開日:2024-02-07
# 非マルコフ衝突モデルにおける量子均質化

Quantum homogenization in non-Markovian collisional model ( http://arxiv.org/abs/2201.08412v2 )

ライセンス: Link先を確認
Tanmay Saha, Arpan Das and Sibasish Ghosh(参考訳) 衝突モデルは、オープン量子システムを研究するために設計された顕微鏡フレームワークのカテゴリである。 このフレームワークは、同一に調製されたユニットからなる浴槽と順次に相互作用するシステムを含む。 この点において、量子均質化(quantum homogenization)は、系状態が漸近極限において浴槽単位の同じ状態に近づく過程である。 本稿では,追加の浴槽相互作用により生成する非マルコフ衝突モデルフレームワークにおいて,単一量子ビットの均質化過程について検討する。 システムバスとバスバスの両ユニタリとして部分スワップ操作を行うことで,システムやバスユニットの初期状態に関わらず均質化が達成されることを示す。 これは、局所スワップが普遍量子ホモジェナイザーのユニークな演算であるマルコフのシナリオを想起させる。 一方、同質化の速度はマルコフ対位部よりも遅いことが観察される。 興味深いことに、浴槽単位の異なる選択は均質化過程を加速させるが、浴槽単位の初期状態に依存するため普遍性を失う。

Collisional models are a category of microscopic framework designed to study open quantum systems. The framework involves a system sequentially interacting with a bath comprised of identically prepared units. In this regard, quantum homogenization is a process where the system state approaches the identically prepared state of bath unit in the asymptotic limit. Here, we study the homogenization process for a single qubit in the non-Markovian collisional model framework generated via additional bath-bath interaction. With partial swap operation as both system-bath and bath-bath unitary, we numerically demonstrate that homogenization is achieved irrespective of the initial states of the system or bath units. This is reminiscent of the Markovian scenario, where partial swap is the unique operation for a universal quantum homogenizer. On the other hand, we observe that the rate of homogenization is slower than its Markovian counter part. Interestingly, a different choice of bath-bath unitary speeds up the homogenization process but loses the universality, being dependent on the initial states of the bath units.
翻訳日:2024-02-09 20:09:10 公開日:2024-02-07
# 自己説明型強化学習による曖昧なデモンストレーションからの学習

Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning ( http://arxiv.org/abs/2110.05286v4 )

ライセンス: Link先を確認
Yantian Zha, Lin Guan, and Subbarao Kambhampati(参考訳) 本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。 曖昧なデモンストレーションは通常、複数の方法で解釈され、RL-Agentが安定かつ効率的に学習することを妨げる。 最適なデモンストレーションも曖昧である可能性があるため、以前のRLと実演からの学習(RLfDの作業)を組み合わせた作業はうまくいかなかった。 このような状況に触発されて、我々は、成功軌道が成功した理由の解釈として、価値の高い高次関係特徴を認識するために自己説明(エージェント自身による説明)を使うことを提案する。 これにより、エージェントはrl学習のためのガイダンスを提供することができる。 我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。 実験結果から,SERLfDフレームワークを用いてRLfDモデルをトレーニング安定性と性能の観点から改善できることが示唆された。

Our work aims at efficiently leveraging ambiguous demonstrations for the training of a reinforcement learning (RL) agent. An ambiguous demonstration can usually be interpreted in multiple ways, which severely hinders the RL-Agent from learning stably and efficiently. Since an optimal demonstration may also suffer from being ambiguous, previous works that combine RL and learning from demonstration (RLfD works) may not work well. Inspired by how humans handle such situations, we propose to use self-explanation (an agent generates explanations for itself) to recognize valuable high-level relational features as an interpretation of why a successful trajectory is successful. This way, the agent can provide some guidance for its RL learning. Our main contribution is to propose the Self-Explanation for RL from Demonstrations (SERLfD) framework, which can overcome the limitations of traditional RLfD works. Our experimental results show that an RLfD model can be improved by using our SERLfD framework in terms of training stability and performance.
翻訳日:2024-02-09 20:08:52 公開日:2024-02-07
# LiDAR Spoofingの新世代: 能力の向上、想定の崩壊、新たな攻撃戦略

LiDAR Spoofing Meets the New-Gen: Capability Improvements, Broken Assumptions, and New Attack Strategies ( http://arxiv.org/abs/2303.10555v2 )

ライセンス: Link先を確認
Takami Sato, Yuki Hayakawa, Ryo Suzuki, Yohsuke Shiiki, Kentaro Yoshioka, Qi Alfred Chen(参考訳) LiDAR(Light Detection and Ranging)は、近頃の自動運転(AD)の迅速な展開の恩恵を直接受けられる、正確な長距離3Dセンシングに必要なセンサーである。 一方、このような安全クリティカルなアプリケーションは、セキュリティ研究を強く動機付けている。 最近の研究では、LiDARに対して悪意のあるレーザーを発射することで、LiDAR点雲とばかげた物体検出器を操作できることが判明した。 しかし、これらの取り組みは、(1)特定のlidar(vlp-16)のみを考慮し、(2)未検証の攻撃能力を仮定し、(3)スプーフィング能力モデリングと設定の多様性を制限した物体検出器を評価するという3つの重要な研究ギャップに直面している。 これらの重要な研究ギャップを埋めるために、我々は、第1世代と第1世代のLiDARと5つの異なるデータセットで訓練された3種類のオブジェクト検出器をカバーし、9つの人気のあるLiDARを持つ物体検出器に対するLiDARスプーフィング攻撃能力を初めて大規模に測定した。 測定を容易にするため,(1)最新のスプーフィング能力を大幅に向上するスパウファーの改良点を特定し,(2)最新手法のLiDARへの適用限界を克服する新しい物体除去攻撃点を同定し,(3)測定結果に基づいてオブジェクト注入および除去攻撃の新しい数学的モデリングを行う。 本研究により, 測定角度の新規性から完全に新しいものを含む15の新たな発見が得られただけでなく, 問題領域における最新の理解に直接挑戦できるものも多数見いだされた。 防衛についても話し合う。

LiDAR (Light Detection And Ranging) is an indispensable sensor for precise long- and wide-range 3D sensing, which directly benefited the recent rapid deployment of autonomous driving (AD). Meanwhile, such a safety-critical application strongly motivates its security research. A recent line of research finds that one can manipulate the LiDAR point cloud and fool object detectors by firing malicious lasers against LiDAR. However, these efforts face 3 critical research gaps: (1) considering only one specific LiDAR (VLP-16); (2) assuming unvalidated attack capabilities; and (3) evaluating object detectors with limited spoofing capability modeling and setup diversity. To fill these critical research gaps, we conduct the first large-scale measurement study on LiDAR spoofing attack capabilities on object detectors with 9 popular LiDARs, covering both first- and new-generation LiDARs, and 3 major types of object detectors trained on 5 different datasets. To facilitate the measurements, we (1) identify spoofer improvements that significantly improve the latest spoofing capability, (2) identify a new object removal attack that overcomes the applicability limitation of the latest method to new-generation LiDARs, and (3) perform novel mathematical modeling for both object injection and removal attacks based on our measurement results. Through this study, we are able to uncover a total of 15 novel findings, including not only completely new ones due to the measurement angle novelty, but also many that can directly challenge the latest understandings in this problem space. We also discuss defenses.
翻訳日:2024-02-09 20:03:00 公開日:2024-02-07
# 西アフリカにおける理科教育のためのai教育アシスタントkwame for scienceの実世界展開と評価

Real-World Deployment and Evaluation of Kwame for Science, An AI Teaching Assistant for Science Education in West Africa ( http://arxiv.org/abs/2302.10786v2 )

ライセンス: Link先を確認
George Boateng, Samuel John, Samuel Boateng, Philemon Badu, Patrick Agyeman-Budu and Victor Kumbol(参考訳) アフリカは生徒と教師の比率が高く、教育的質問応答のような学習支援のための教師へのアクセスを制限している。 この作業では、コーディング教育のためのバイリンガルAI教育アシスタントであるKwameを拡張し、科学教育に適応させ、Webアプリとしてデプロイしました。 クウェーム・フォー・サイエンス(Kwame for Science)は、西アフリカ上級中等試験(WASSCE)の総合科学科(Integrated Science subject)に基づく学生からの質問に対する回答として、精巧な知識ソースと関連する過去の国家試験に関する質問からのパスを提供する。 さらに,これまでに開発したトピック検出モデル(平均91%の非重み付きリコール)によって自動的に分類された,過去の全国試験の質問や回答のフィルタリング,質問タイプ,トピックを見ることができる。 kwame for scienceを8ヶ月にわたって現実世界に展開し、32カ国(アフリカ15か国)で750人のユーザと15万の質問がありました。 評価の結果、トップ3の正確性は87.2%(n=109問)で、kwame for scienceは表示された3つのうち少なくとも1つの有用な答えを与える確率が高いことが示唆された。 モデルが正しく答えていない理由を分類し、今後の改善に対する洞察を提供した。 我々はまた、他の研究者が同様のツールをデプロイできるように、そのようなツールの開発、デプロイ、人間とコンピュータのインタラクションコンポーネントに課題と教訓を共有します。 Kwame for Scienceは、アフリカ大陸の何百万人もの人々に、スケーラブルで費用対効果が高くて高品質な遠隔教育を届ける可能性を秘めている。

Africa has a high student-to-teacher ratio which limits students' access to teachers for learning support such as educational question answering. In this work, we extended Kwame, a bilingual AI teaching assistant for coding education, adapted it for science education, and deployed it as a web app. Kwame for Science provides passages from well-curated knowledge sources and related past national exam questions as answers to questions from students based on the Integrated Science subject of the West African Senior Secondary Certificate Examination (WASSCE). Furthermore, students can view past national exam questions along with their answers and filter by year, question type, and topics that were automatically categorized by a topic detection model which we developed (91% unweighted average recall). We deployed Kwame for Science in the real world over 8 months and had 750 users across 32 countries (15 in Africa) and 1.5K questions asked. Our evaluation showed an 87.2% top 3 accuracy (n=109 questions) implying that Kwame for Science has a high chance of giving at least one useful answer among the 3 displayed. We categorized the reasons the model incorrectly answered questions to provide insights for future improvements. We also share challenges and lessons with the development, deployment, and human-computer interaction component of such a tool to enable other researchers to deploy similar tools. With a first-of-its-kind tool within the African context, Kwame for Science has the potential to enable the delivery of scalable, cost-effective, and quality remote education to millions of people across Africa.
翻訳日:2024-02-09 20:01:50 公開日:2024-02-07
# FakeOut:マルチモーダルビデオディープフェイク検出のためのドメイン外セルフスーパービジョンを活用する

FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video Deepfake Detection ( http://arxiv.org/abs/2212.00773v2 )

ライセンス: Link先を確認
Gil Knafo and Ohad Fried(参考訳) 近年、ビデオ合成法は急速に進歩し、合成ヒトを容易に作れるようになった。 これは、特にソーシャルメディアの時代において問題となり、話す人間の合成ビデオは、説得力のある方法で誤情報の拡散に使用できる。 したがって、トレーニング中に見えない偽造技術を検出することができる正確で堅牢なディープフェイク検出方法が求められている。 本研究では,ビデオのdeepfakeドメインに適応した,自己監督型でトレーニングされたマルチモーダルなドメイン外バックボーンを活用することで,これを実現することができるか検討する。 プリトレーニングフェーズと適応フェーズの両方において,マルチモーダルデータに依存する新しいアプローチであるfakeoutを提案する。 様々なタイプのディープフェイク,特に訓練中に見られなかった操作の検出において,フェイクアウトの有効性とロバスト性を示す。 提案手法は,音声・視覚データセット上でのクロスデータセットの一般化を実現する。 今回の研究は、ドメイン外ビデオ(特に人間を対象としない)のトレーニングが、より優れたディープフェイク検出システムに繋がることを示している。 コードはGitHubで入手できる。

Video synthesis methods rapidly improved in recent years, allowing easy creation of synthetic humans. This poses a problem, especially in the era of social media, as synthetic videos of speaking humans can be used to spread misinformation in a convincing manner. Thus, there is a pressing need for accurate and robust deepfake detection methods, that can detect forgery techniques not seen during training. In this work, we explore whether this can be done by leveraging a multi-modal, out-of-domain backbone trained in a self-supervised manner, adapted to the video deepfake domain. We propose FakeOut; a novel approach that relies on multi-modal data throughout both the pre-training phase and the adaption phase. We demonstrate the efficacy and robustness of FakeOut in detecting various types of deepfakes, especially manipulations which were not seen during training. Our method achieves state-of-the-art results in cross-dataset generalization on audio-visual datasets. This study shows that, perhaps surprisingly, training on out-of-domain videos (i.e., not especially featuring speaking humans), can lead to better deepfake detection systems. Code is available on GitHub.
翻訳日:2024-02-09 19:58:58 公開日:2024-02-07
# 経験過程に対するインスタンス依存一様尾辺

Instance-dependent uniform tail bounds for empirical processes ( http://arxiv.org/abs/2209.10053v4 )

ライセンス: Link先を確認
Sohail Bahmani(参考訳) 検討されたクラスにおける最悪のケース偏差ではなく、関数の個々の偏差の観点から、関数のクラスによってインデックス付けされた経験的過程の均一なテールを定式化する。 テール境界は、標準のジェネリック連鎖引数に最初の「定義」ステップを導入することによって確立される。 結果として生じる尾境界は、タラグランドの$\gamma$汎函数の一般化と、対応するcram\'{e}r関数によって誘導される自然な半ノルムに基づいて定式化された函数インスタンスの偏差という観点からの「縮退函数類」の複雑さの和である。 また、関数類が与えられた(指数型)オルリッツ空間にあるとき、上記の半ノルムに対してある種の近似を提供し、複雑性項と偏差項をより明示するために使うことができる。

We formulate a uniform tail bound for empirical processes indexed by a class of functions, in terms of the individual deviations of the functions rather than the worst-case deviation in the considered class. The tail bound is established by introducing an initial "deflation" step to the standard generic chaining argument. The resulting tail bound is the sum of the complexity of the "deflated function class" in terms of a generalization of Talagrand's $\gamma$ functional, and the deviation of the function instance, both of which are formulated based on the natural seminorm induced by the corresponding Cram\'{e}r functions. We also provide certain approximations for the mentioned seminorm when the function class lies in a given (exponential type) Orlicz space, that can be used to make the complexity term and the deviation term more explicit.
翻訳日:2024-02-09 19:57:59 公開日:2024-02-07
# 臨床研究のための大規模言語モデルストリームライン自動機械学習

Large Language Models Streamline Automated Machine Learning for Clinical Studies ( http://arxiv.org/abs/2308.14120v4 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Tianyu Han, Mahshad Lotfinia, Christiane Kuhl, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) 知識ギャップは、機械学習開発者(例えばデータサイエンティスト)と実践者(例えば臨床医)の間で持続し、臨床データ分析におけるMLの完全な利用を妨げる。 GPT-4の拡張であるChatGPT Advanced Data Analysis (ADA) の可能性を検討した。 各種医療専門分野にわたる大規模な臨床試験の実際の臨床データセットと研究の詳細をChatGPT ADAに提示した。 ChatGPT ADAは、がんの発生、がんの進行、合併症、病原性遺伝子配列などのバイオマーカーなどの臨床結果を予測するために、オリジナルの研究のトレーニングデータに基づく最先端MLモデルを自律的に開発した。 公開モデルの再実装と最適化により,chatgpt ada製mlモデルと手作業によるmlモデルの比較では,従来のパフォーマンス指標に有意差はみられなかった(p>0.071)。 興味深いことに、ChatGPT ADAで製作されたMLモデルは、しばしばそのモデルよりも優れていた。 結論として、chatgpt adaは、複雑なデータ分析をシンプルにすることで、医学におけるmlを民主化する有望な方法を提供しているが、医療研究と実践における幅広い応用を促進するために、専門的なトレーニングとリソースを強化すべきではない。

A knowledge gap persists between machine learning (ML) developers (e.g., data scientists) and practitioners (e.g., clinicians), hampering the full utilization of ML for clinical data analysis. We investigated the potential of the ChatGPT Advanced Data Analysis (ADA), an extension of GPT-4, to bridge this gap and perform ML analyses efficiently. Real-world clinical datasets and study details from large trials across various medical specialties were presented to ChatGPT ADA without specific guidance. ChatGPT ADA autonomously developed state-of-the-art ML models based on the original study's training data to predict clinical outcomes such as cancer development, cancer progression, disease complications, or biomarkers such as pathogenic gene sequences. Following the re-implementation and optimization of the published models, the head-to-head comparison of the ChatGPT ADA-crafted ML models and their respective manually crafted counterparts revealed no significant differences in traditional performance metrics (P>0.071). Strikingly, the ChatGPT ADA-crafted ML models often outperformed their counterparts. In conclusion, ChatGPT ADA offers a promising avenue to democratize ML in medicine by simplifying complex data analyses, yet should enhance, not replace, specialized training and resources, to promote broader applications in medical research and practice.
翻訳日:2024-02-09 19:25:59 公開日:2024-02-07
# 依存クラスタマッピング(DCMAP):統計的推測のための有向非巡回グラフの最適クラスタリング

Dependent Cluster Mapping (DCMAP): Optimal clustering of directed acyclic graphs for statistical inference ( http://arxiv.org/abs/2308.03970v3 )

ライセンス: Link先を確認
Paul Pao-Yen Wu, Fabrizio Ruggeri, Kerrie Mengersen(参考訳) Directed Acyclic Graph (DAG) は、ベイジアン・ネットワーク(BN)やマルコフ・プロセスやその他のモデルにおいて、推論をより効率的にするためのクラスタに分割またはマッピングすることができる。 しかしながら、局所クラスタコストはクラスタ内の両方のノードに依存し、依存クラスタと呼ばれる親ノードおよび/または子ノードを介して接続されるクラスタのマッピングであるため、任意のコスト関数による最適分割は特に難しい。 本稿では,依存クラスタを用いた最適なクラスタマッピングのためのDCMAPアルゴリズムを提案する。 DAGに基づいて任意に定義された正のコスト関数が与えられた場合、DCMAPはすべての最適なクラスタを見つけるために収束し、その過程でほぼ最適解を返すことを示す。 実験により,計算コスト関数を用いた海草複合体系の動的BN(DBN)モデルに対して,アルゴリズムは時間効率が高いことがわかった。 25ノードと50ノードのdbnでは、検索空間のサイズは9.91\times 10^9$と1.51\times10^{21}$ でクラスタマッピングが可能であり、最初の最適解は反復 934 $(\text{95\% ci } 926,971)$ と 2256 $(2150,2271)$ で、それぞれ平均的なヒューリスティックコストの 4\% と 0.2\% である。

A Directed Acyclic Graph (DAG) can be partitioned or mapped into clusters to support and make inference more computationally efficient in Bayesian Network (BN), Markov process and other models. However, optimal partitioning with an arbitrary cost function is challenging, especially in statistical inference as the local cluster cost is dependent on both nodes within a cluster, and the mapping of clusters connected via parent and/or child nodes, which we call dependent clusters. We propose a novel algorithm called DCMAP for optimal cluster mapping with dependent clusters. Given an arbitrarily defined, positive cost function based on the DAG, we show that DCMAP converges to find all optimal clusters, and returns near-optimal solutions along the way. Empirically, we find that the algorithm is time-efficient for a Dynamic BN (DBN) model of a seagrass complex system using a computation cost function. For a 25 and 50-node DBN, the search space size was $9.91\times 10^9$ and $1.51\times10^{21}$ possible cluster mappings, and the first optimal solution was found at iteration 934 $(\text{95\% CI } 926,971)$, and 2256 $(2150,2271)$ with a cost that was 4\% and 0.2\% of the naive heuristic cost, respectively.
翻訳日:2024-02-09 19:24:34 公開日:2024-02-07
# Stack Overflowは不要か? スタックオーバーフロー問題に対するChatGPT回答の特性に関する実証的研究

Is Stack Overflow Obsolete? An Empirical Study of the Characteristics of ChatGPT Answers to Stack Overflow Questions ( http://arxiv.org/abs/2308.02312v4 )

ライセンス: Link先を確認
Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang(参考訳) Q&Aプラットフォームは、プログラマのオンラインヘルプ検索行動に不可欠である。 しかし、最近のChatGPTの人気はこの傾向を変えつつある。 この人気にもかかわらず、プログラミング問題に対するchatgptの回答の特徴を評価する包括的な研究は行われていない。 このギャップを埋めるため,Stack Overflow 上で 517 のプログラミング質問に対する ChatGPT 回答の詳細な分析を行い,ChatGPT 回答の正確性,一貫性,包括性,簡潔性を検討した。 さらに,チャットgpt回答の特徴を言語的・人間的側面から理解するために,大規模言語分析とユーザ研究を行った。 分析の結果,ChatGPT回答の52%が誤り情報であり,77%が冗長であることがわかった。 それでもユーザ調査の参加者は,包括性や言語スタイルが良好であるため,チャットgpt回答の35%を依然として好んでいる。 しかし、彼らはchatgptの誤報を39%も見落としていた。 これは、chatgpt回答の誤報をプログラミング質問に対抗し、一見正しい回答に関連するリスクに対する認識を高める必要があることを意味する。

Q&A platforms have been crucial for the online help-seeking behavior of programmers. However, the recent popularity of ChatGPT is altering this trend. Despite this popularity, no comprehensive study has been conducted to evaluate the characteristics of ChatGPT's answers to programming questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT answers to 517 programming questions on Stack Overflow and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT answers. Furthermore, we conducted a large-scale linguistic analysis, as well as a user study, to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52% of ChatGPT answers contain incorrect information and 77% are verbose. Nonetheless, our user study participants still preferred ChatGPT answers 35% of the time due to their comprehensiveness and well-articulated language style. However, they also overlooked the misinformation in the ChatGPT answers 39% of the time. This implies the need to counter misinformation in ChatGPT answers to programming questions and raise awareness of the risks associated with seemingly correct answers.
翻訳日:2024-02-09 19:24:05 公開日:2024-02-07
# ランダムベクトルのアフィン変換に対するワッサーシュタイン距離について

On Wasserstein distances for affine transformations of random vectors ( http://arxiv.org/abs/2310.03945v2 )

ライセンス: Link先を確認
Keaton Hamm, Andrzej Korzeniowski(参考訳) 我々は、$\mathbb{R}^n$ のランダムベクトル間の二次ワッサーシュタイン距離の既知の下界について、ワッサーシュタイン空間におけるデータの多様体学習で用いられるアフィン変換に重点を置いて述べる。 特に、共分散行列間のビューズ計量を計算することにより、$\mathbb{R}^2$のランダムベクトルの回転コピーに対して具体的な下界を与える。 また、初期データ測度に適用された有益な微分同相写像を生成するアフィン写像の合成に対する上限も導出する。 これらの境界を、$\mathbb{r}^2$ の 1-次元多様体上のものを含む様々な分布に適用し、境界の品質を示す。 最後に、多様体学習フレームワークに適用可能な手書きの数字やアルファベットのデータセットを模倣するフレームワークを提供する。

We expound on some known lower bounds of the quadratic Wasserstein distance between random vectors in $\mathbb{R}^n$ with an emphasis on affine transformations that have been used in manifold learning of data in Wasserstein space. In particular, we give concrete lower bounds for rotated copies of random vectors in $\mathbb{R}^2$ by computing the Bures metric between the covariance matrices. We also derive upper bounds for compositions of affine maps which yield a fruitful variety of diffeomorphisms applied to an initial data measure. We apply these bounds to various distributions including those lying on a 1-dimensional manifold in $\mathbb{R}^2$ and illustrate the quality of the bounds. Finally, we give a framework for mimicking handwritten digit or alphabet datasets that can be applied in a manifold learning framework.
翻訳日:2024-02-09 19:13:59 公開日:2024-02-07
# 大規模言語モデルは良いパスプランナーになれるか? 時空間推論のベンチマークと検討

Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning ( http://arxiv.org/abs/2310.03249v2 )

ライセンス: Link先を確認
Mohamed Aghzal, Erion Plaku, Ziyu Yao(参考訳) 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めているが、長期的な計画や空間的推論を必要とするシナリオでは制限に直面している。 この一連の研究を容易にするため、本研究では、$\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage$\textbf{PPNL}$lanningという新しいベンチマークを提案する。 本ベンチマークでは, LLMの目標地点への移動に必要な「経路計画」タスクを定式化し, 障害物を回避し, 制約を順守することにより, LLMの時空間推論を評価する。 本ベンチマークを応用し, GPT-4 などの LLM と BART および T5 を微調整により系統的に検討した。 実験の結果, 長期の時間的推論には至っていないものの, 空間的推論におけるgpt-4の有望性が示唆された。 対照的に、微調整されたllmは分散推論タスクで素晴らしい結果を得たが、より障害のあるより大きな環境や環境への一般化に苦労した。

Large language models (LLMs) have achieved remarkable success across a wide spectrum of tasks; however, they still face limitations in scenarios that demand long-term planning and spatial reasoning. To facilitate this line of research, in this work, we propose a new benchmark, termed $\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage ($\textbf{PPNL}$). Our benchmark evaluates LLMs' spatial-temporal reasoning by formulating ''path planning'' tasks that require an LLM to navigate to target locations while avoiding obstacles and adhering to constraints. Leveraging this benchmark, we systematically investigate LLMs including GPT-4 via different few-shot prompting methodologies as well as BART and T5 of various sizes via fine-tuning. Our experimental results show the promise of few-shot GPT-4 in spatial reasoning, when it is prompted to reason and act interleavedly, although it still fails to perform long-term temporal reasoning. In contrast, while fine-tuned LLMs achieved impressive results on in-distribution reasoning tasks, they struggled to generalize to larger environments or environments with more obstacles.
翻訳日:2024-02-09 19:13:25 公開日:2024-02-07
# 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs ( http://arxiv.org/abs/2309.07311v5 )

ライセンス: Link先を確認
Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra(参考訳) NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。 しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。 本稿では,学習を通して解釈可能なアーティファクトの進化を分析することによって,創発的行動の理解を深める方法を示す,マスキング言語モデル(MLM)の構文習得事例について述べる。 特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。 モデルが突然SASを取得し,損失が急激に減少する場合には,事前訓練において短時間の窓を識別する。 この突破口はその後の言語能力の獲得に拍車をかけた。 次に, SAS を訓練中に操作することで SAS の因果的役割を解明し, 文法能力の発達に SAS が不可欠であることを示す。 さらに、SASはトレーニング中に他の有益な特性と競合し、SASを一時的に抑制することでモデル品質が向上することがわかった。 これらの発見は、単純さバイアスとブレークスルートレーニングダイナミクスの両方の実例の解釈を提供する。

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. We present a case study of syntax acquisition in masked language models (MLMs) that demonstrates how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in pretraining when models abruptly acquire SAS, concurrent with a steep drop in loss. This breakthrough precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by manipulating SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits during training, and that briefly suppressing SAS improves model quality. These findings offer an interpretation of a real-world example of both simplicity bias and breakthrough training dynamics.
翻訳日:2024-02-09 19:10:41 公開日:2024-02-07
# 音声アシスタントにおける対話修復の分析

An Analysis of Dialogue Repair in Voice Assistants ( http://arxiv.org/abs/2311.03952v2 )

ライセンス: Link先を確認
Matthew Galbraith(参考訳) 音声対話システムは、クエリに対するリアルタイム応答を提供することで、人間と機械の対話を変革した。 しかし、ユーザとシステム間の誤解は継続する。 本研究は,GoogleアシスタントとSiriとのインタラクションを解析することにより,仮想アシスタントとユーザ間の対話修復における対話言語の重要性を考察する。 発見によると、アシスタント生成戦略はいくつかあるが、人間のような修復戦略を再現できない。 英語とスペイン語のユーザアクセプタビリティ調査では、ユーザの修復戦略の好みとアシスタントの使用状況の違いが示され、両者の類似点と相違点が示されている。 これらの結果は、人間と人間の相互作用における対話言語と人間と機械の相互作用との間の不平等に光を当て、英語とそれ以降の人間と機械の相互作用における対話言語の影響に関するさらなる研究の必要性を強調した。

Spoken dialogue systems have transformed human-machine interaction by providing real-time responses to queries. However, misunderstandings between the user and system persist. This study explores the significance of interactional language in dialogue repair between virtual assistants and users by analyzing interactions with Google Assistant and Siri, focusing on their utilization and response to the other-initiated repair strategy "huh?" prevalent in human-human interaction. Findings reveal several assistant-generated strategies but an inability to replicate human-like repair strategies such as "huh?". English and Spanish user acceptability surveys show differences in users' repair strategy preferences and assistant usage, with both similarities and disparities among the two surveyed languages. These results shed light on inequalities between interactional language in human-human interaction and human-machine interaction, underscoring the need for further research on the impact of interactional language in human-machine interaction in English and beyond.
翻訳日:2024-02-09 19:00:22 公開日:2024-02-07
# 時系列データから構造因果モデルの混合物の発見

Discovering Mixtures of Structural Causal Models from Time Series Data ( http://arxiv.org/abs/2310.06312v2 )

ライセンス: Link先を確認
Sumanth Varambally, Yi-An Ma, Rose Yu(参考訳) 時系列データから因果関係を発見することは、金融、気候科学、神経科学といった分野において重要である。 しかし、現代の技術は、データが同じ因果モデルに由来するという単純な仮定に依存しているが、実際には、データは不均一であり、異なる因果モデルに起因する可能性がある。 本研究では,この仮定を緩和し,複数の因果モデルから得られた時系列データから因果発見を行う。 基礎となる因果モデルと各サンプルの混合確率を推測するために,mcdと呼ばれる一般的な変分推論に基づくフレームワークを提案する。 このアプローチでは、データ可能性のエビデンス-ローバウンドを最大化するエンドツーエンドのトレーニングプロセスを採用しています。 線形関係と独立雑音に対する MCD-Linear と非線形因果関係と履歴依存雑音に対する MCD-Nonlinear の2つの変種を示す。 提案手法は, 多様な因果グラフからデータを抽出する場合に, 合成および実世界のデータセットを広範囲に実験することにより, 因果探索タスクの最先端ベンチマークを上回ることを示す。 理論的には、いくつかの軽度の仮定の下でそのようなモデルの識別可能性を証明する。

Discovering causal relationships from time series data is significant in fields such as finance, climate science, and neuroscience. However, contemporary techniques rely on the simplifying assumption that data originates from the same causal model, while in practice, data is heterogeneous and can stem from different causal models. In this work, we relax this assumption and perform causal discovery from time series data originating from a mixture of causal models. We propose a general variational inference-based framework called MCD to infer the underlying causal models as well as the mixing probability of each sample. Our approach employs an end-to-end training process that maximizes an evidence-lower bound for the data likelihood. We present two variants: MCD-Linear for linear relationships and independent noise, and MCD-Nonlinear for nonlinear causal relationships and history-dependent noise. We demonstrate that our method surpasses state-of-the-art benchmarks in causal discovery tasks through extensive experimentation on synthetic and real-world datasets, particularly when the data emanates from diverse underlying causal graphs. Theoretically, we prove the identifiability of such a model under some mild assumptions.
翻訳日:2024-02-09 18:58:08 公開日:2024-02-07
# 半単純リー代数のための随伴同変ニューラルネットワーク

Lie Neurons: Adjoint-Equivariant Neural Networks for Semisimple Lie Algebras ( http://arxiv.org/abs/2310.04521v2 )

ライセンス: Link先を確認
Tzu-Yuan Lin, Minghan Zhu, Maani Ghaffari(参考訳) 本稿では,任意の半単純リー代数のデータを入力とする同変ニューラルネットワークを提案する。 対応する群はリー代数に随伴演算として作用し、提案するネットワーク随伴同値となる。 我々のフレームワークは、3次元ユークリッド空間からリー代数空間への単純な$\mathrm{SO}(3)$-equivariant Networkであるベクトルニューロンを一般化し、キリング形式の不変性の上に構築する。 さらに,モデリング能力を拡張した新しいリーブラケット層と幾何チャネル混合層を提案する。 等変および不変関数の適合性、学習システムダイナミクス、点クラウド登録、ホモグラフィに基づく形状分類など、様々なタスクにおける$\mathfrak{so}(3)$および$\mathfrak{sl}(3)$リー代数について実験を行った。 提案する同変ネットワークは,様々な領域で適用性と競争性を示す。

This paper proposes an equivariant neural network that takes data in any semi-simple Lie algebra as input. The corresponding group acts on the Lie algebra as adjoint operations, making our proposed network adjoint-equivariant. Our framework generalizes the Vector Neurons, a simple $\mathrm{SO}(3)$-equivariant network, from 3-D Euclidean space to Lie algebra spaces, building upon the invariance property of the Killing form. Furthermore, we propose novel Lie bracket layers and geometric channel mixing layers that extend the modeling capacity. Experiments are conducted for the $\mathfrak{so}(3)$ and $\mathfrak{sl}(3)$ Lie algebras on various tasks, including fitting equivariant and invariant functions, learning system dynamics, point cloud registration, and homography-based shape classification. Our proposed equivariant network shows wide applicability and competitive performance in various domains.
翻訳日:2024-02-09 18:57:47 公開日:2024-02-07
# 計算LDM:超低データ体制における表層拡張のためのLCMの相乗効果とデータキュレーション

Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in ultra low-data regimes ( http://arxiv.org/abs/2312.12112v2 )

ライセンス: Link先を確認
Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der Schaar(参考訳) 低データ設定での機械学習(ML)は、未承認だが重要な問題である。 したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。 残念ながら、限定されたトレーニングセットは、mlタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表型合成データジェネレータを制約している。 この課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。 しかし、LLMが生成したデータはすべて、生成モデルのように下流のユーティリティを改善するわけではない。 その結果,信頼性と不確かさの指標と合わせて,学習力学を活かした定性的なキュレーション機構を導入し,高品質なデータセットを得ることができた。 実証的に,複数の実世界のデータセットにおいて,従来のジェネレータと比較して低データ環境においてcllmの優れた性能を示す。 さらに、LLM生成とキュレーションメカニズムに関する洞察を提供し、高品質な拡張データセットを出力できる機能に光を当てています。

Machine Learning (ML) in low-data settings remains an underappreciated yet crucial problem. Hence, data augmentation methods to increase the sample size of datasets needed for ML are key to unlocking the transformative potential of ML in data-deprived regions and domains. Unfortunately, the limited training set constrains traditional tabular synthetic data generators in their ability to generate a large and diverse augmented dataset needed for ML tasks. To address this challenge, we introduce CLLM, which leverages the prior knowledge of Large Language Models (LLMs) for data augmentation in the low-data regime. However, not all the data generated by LLMs will improve downstream utility, as for any generative model. Consequently, we introduce a principled curation mechanism, leveraging learning dynamics, coupled with confidence and uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple real-world datasets, we demonstrate the superior performance of CLLM in the low-data regime compared to conventional generators. Additionally, we provide insights into the LLM generation and curation mechanism, shedding light on the features that enable them to output high-quality augmented datasets.
翻訳日:2024-02-09 18:48:34 公開日:2024-02-07
# スペクトル状態空間モデル

Spectral State Space Models ( http://arxiv.org/abs/2312.06837v3 )

ライセンス: Link先を確認
Naman Agarwal, Daniel Suo, Xinyi Chen, Elad Hazan(参考訳) 本稿では,長距離依存型予測タスクのシーケンスモデリングについて検討する。 スペクトルフィルタリングアルゴリズム(Hazan et al. (2017))を用いて線形力学系の学習に基づく状態空間モデル(SSM)の新しい定式化を提案する。 これにより、スペクトル状態空間モデルと呼ばれる新しいシーケンス予測アーキテクチャが生まれます。 スペクトル状態空間モデルには2つの利点がある。 第一に、それらの性能は基礎となる力学のスペクトルや問題の次元に依存しないため、証明可能なロバスト性を持つ。 第二に、これらのモデルは学習を必要としない固定畳み込みフィルタで構成され、理論と実践の両方においてSSMよりも優れている。 得られたモデルは合成力学系と様々なモダリティの長距離予測タスクで評価される。 これらの評価は、非常に長いメモリを必要とするタスクに対するスペクトルフィルタリングの理論的利点を支持する。

This paper studies sequence modeling for prediction tasks with long range dependencies. We propose a new formulation for state space models (SSMs) based on learning linear dynamical systems with the spectral filtering algorithm (Hazan et al. (2017)). This gives rise to a novel sequence prediction architecture we call a spectral state space model. Spectral state space models have two primary advantages. First, they have provable robustness properties as their performance depends on neither the spectrum of the underlying dynamics nor the dimensionality of the problem. Second, these models are constructed with fixed convolutional filters that do not require learning while still outperforming SSMs in both theory and practice. The resulting models are evaluated on synthetic dynamical systems and long-range prediction tasks of various modalities. These evaluations support the theoretical benefits of spectral filtering for tasks requiring very long range memory.
翻訳日:2024-02-09 18:46:33 公開日:2024-02-07
# シャッテン規範に基づく量子速度限界:普遍性とタイトネス

Quantum Speed Limits Based on Schatten Norms: Universality and Tightness ( http://arxiv.org/abs/2312.00533v2 )

ライセンス: Link先を確認
Alberto J. B. Rosal, Diogo O. Soares-Pinto, Diego Paiva Pires(参考訳) 有限次元量子系における一般物理過程における量子速度限界(qsls)の2つのファミリーについて述べる。 これらの QSL は Schatten $\alpha$-norms を用いて得られ、まず量子状態空間の幾何学的特徴を利用し、次に行列ノルムに対してホルダーの不等式を用いる。 特に、単量子状態の場合、幾何学的qslは選択されたシャッテンノルムとは独立であり、そのような量化子の普遍性挙動を明らかにする。 さらに、文献におけるこれらの量子速度制限と既存のパラダイム的QSLの比較を行い、後者の結果がSchatten $\alpha$-normsに関連する一般的なQSLの事例を表すことを示した。 注目すべきは、進化した単一量子ビット状態の集団と量子コヒーレンスに大きく依存する量子速度制限の厳密性に関する必要十分条件に対処し、これらの条件の幾何学的解釈を示すことである。 最後に,単一量子状態のダイナミクスに対して得られた2つのqslを比較し,幾何的意味を持つ2つの状態間の不等式を提示する。

We present two families of quantum speed limits (QSLs) for finite-dimensional quantum systems undergoing a general physical process. These QSLs were obtained using Schatten $\alpha$-norms, firstly exploiting the geometric features of the space of quantum states, and secondly employing the Holder's inequality for matrix norms. In particular, for the case of single-qubit states, we find that the geometric QSL is independent of the Schatten norm chosen, thus revealing a universality behavior of such quantifiers. Furthermore, we provide a comparison of these quantum speed limits with existing paradigmatic QSLs in literature, thus showing that the latter results represent particular cases of a general class of QSLs related to Schatten $\alpha$-norms. Noteworthy, we address necessary and sufficient conditions for the tightness of the quantum speed limit that mostly depends on the populations and quantum coherences of the evolved single-qubit state, and also present a geometric interpretation for these set of conditions. Finally, we compare the two QSL obtained for the dynamics of single-qubit states, also presenting an inequality between them that has a clear geometrical meaning.
翻訳日:2024-02-09 18:45:11 公開日:2024-02-07
# コールドサプライチェーンにおけるモノのインターネット実装障壁の解析:統合ISM-MICMACとDEMATELアプローチ

Analysis of Internet of Things implementation barriers in the cold supply chain: an integrated ISM-MICMAC and DEMATEL approach ( http://arxiv.org/abs/2402.01804v2 )

ライセンス: Link先を確認
Kazrin Ahmad, Md. Saiful Islam, Md Abrar Jahin, and M. F. Mridha(参考訳) コールドサプライチェーン内でIoT(Internet of Things)テクノロジを統合することで、透明性、効率、品質の向上、運用手順の最適化、生産性の向上が可能になる。 この複雑な環境でのIoTの統合は、徹底的な検査を必要とする特定の障壁によって妨げられています。 コールドサプライチェーンにおけるIoT実装に対する重要な障壁は、2段階モデルを用いて同定される。 iot実装に関する利用可能な文献をレビューした結果、合計13の障壁が見つかった。 調査データは品質のためにクロスバリデーションされ、クロンバッハのアルファテストは有効性を確保するために使用された。 本研究は,第一段階における解釈的構造モデリング手法を適用し,主な障壁を同定する。 これらの障壁のうち、"レギュラリティコンプライアンス"と"コールドチェーンネットワーク"は、iot導入戦略の鍵となるものだ。 MICMACの駆動および依存パワー要素の分類はバリア相互作用の評価に役立つ。 本研究の第2段階では,障壁間の因果関係を同定し,その重要性に応じて評価するための意思決定試験および評価試験手法が採用された。 それぞれの原因が潜在的な駆動力であり、その効率が向上できれば、システム全体がメリットになります。 この調査の結果は、業界関係者、政府、組織にIoT採用の大きな要因を与え、これらの障壁を克服し、コールドサプライチェーンの有効性と信頼性を改善するためにIoTテクノロジの利用を最適化する。

Integrating Internet of Things (IoT) technology inside the cold supply chain can enhance transparency, efficiency, and quality, optimizing operating procedures and increasing productivity. The integration of IoT in this complicated setting is hindered by specific barriers that need a thorough examination. Prominent barriers to IoT implementation in the cold supply chain are identified using a two-stage model. After reviewing the available literature on the topic of IoT implementation, a total of 13 barriers were found. The survey data was cross-validated for quality, and Cronbach's alpha test was employed to ensure validity. This research applies the interpretative structural modeling technique in the first phase to identify the main barriers. Among those barriers, "regularity compliance" and "cold chain networks" are key drivers for IoT adoption strategies. MICMAC's driving and dependence power element categorization helps evaluate the barrier interactions. In the second phase of this research, a decision-making trial and evaluation laboratory methodology was employed to identify causal relationships between barriers and evaluate them according to their relative importance. Each cause is a potential drive, and if its efficiency can be enhanced, the system as a whole benefits. The research findings provide industry stakeholders, governments, and organizations with significant drivers of IoT adoption to overcome these barriers and optimize the utilization of IoT technology to improve the effectiveness and reliability of the cold supply chain.
翻訳日:2024-02-09 18:24:34 公開日:2024-02-07
# reagent:生成言語モデルのためのモデル非依存特徴帰属法

ReAGent: A Model-agnostic Feature Attribution Method for Generative Language Models ( http://arxiv.org/abs/2402.00794v2 )

ライセンス: Link先を確認
Zhixue Zhao, Boxuan Shan(参考訳) グラデーションやアテンションなどの特徴帰属法(FA)は、モデル予測に対する全ての入力特徴の重要性を導き出すために広く採用されている。 自然言語処理における既存の仕事は、主に分類タスクにおけるエンコーダのみの言語モデル(lms)のためのfasの開発とテストに焦点を当てている。 しかし、モデルアーキテクチャとタスク設定に固有の違いがあるため、これらのFAをテキスト生成でデコーダのみのモデルに使用することが忠実かどうかは不明である。 さらに、以前の研究では、モデルとタスク間で'one-wins-all' faが存在しないことが示されている。 これにより、入力の重要度を導出するには、大きな計算にアクセスしても禁止となる勾配計算を含む、複数の前方および後方通過が必要となるため、大規模な LM に対して計算的にコストがかかる。 これらの問題に対処するために,再帰的帰属生成(Recursive Attribution Generator, ReAGent)と呼ばれる LM 生成のためのモデルに依存しない FA を提案する。 本手法では,トークン重要度分布を再帰的に更新する。 各更新では,入力の一部をRoBERTa予測に置き換えた修正版を用いて,元の入力を用いて次のトークンを予測するための語彙上の確率分布の差を計算する。 直観としては、コンテキスト内の重要なトークンを置き換えることは、重要でないトークンを置き換えるよりも、モデルがトークンを予測することに対する信頼度を大きく変化させるべきだということです。 本手法は, 内部モデルウェイトや追加トレーニング, 微調整を必要とせず, 任意の生成型LMに普遍的に適用することができる。 我々はReAGentの忠実さを、様々な大きさの6個のデコーダのみのLMの7つの人気FAと比較した。 その結果,本手法はより忠実なトークン重要度分布を提供することがわかった。

Feature attribution methods (FAs), such as gradients and attention, are widely employed approaches to derive the importance of all input features to the model predictions. Existing work in natural language processing has mostly focused on developing and testing FAs for encoder-only language models (LMs) in classification tasks. However, it is unknown if it is faithful to use these FAs for decoder-only models on text generation, due to the inherent differences between model architectures and task settings respectively. Moreover, previous work has demonstrated that there is no `one-wins-all' FA across models and tasks. This makes the selection of a FA computationally expensive for large LMs since input importance derivation often requires multiple forward and backward passes including gradient computations that might be prohibitive even with access to large compute. To address these issues, we present a model-agnostic FA for generative LMs called Recursive Attribution Generator (ReAGent). Our method updates the token importance distribution in a recursive manner. For each update, we compute the difference in the probability distribution over the vocabulary for predicting the next token between using the original input and using a modified version where a part of the input is replaced with RoBERTa predictions. Our intuition is that replacing an important token in the context should have resulted in a larger change in the model's confidence in predicting the token than replacing an unimportant token. Our method can be universally applied to any generative LM without accessing internal model weights or additional training and fine-tuning, as most other FAs require. We extensively compare the faithfulness of ReAGent with seven popular FAs across six decoder-only LMs of various sizes. The results show that our method consistently provides more faithful token importance distributions.
翻訳日:2024-02-09 18:23:34 公開日:2024-02-07
# Langevin Unlearning: 機械学習のためのノイズの多い勾配の新たな視点

Langevin Unlearning: A New Perspective of Noisy Gradient Descent for Machine Unlearning ( http://arxiv.org/abs/2401.10371v4 )

ライセンス: Link先を確認
Eli Chien, Haoyu Wang, Ziang Chen, Pan Li(参考訳) 機械学習は「忘れられる権利」を保障する法律の採用で大きな関心を集めている。 研究者は、差分プライバシー(DP)という同様の定義の下で、近似的アンラーニングという確率論的概念を提供し、プライバシーはスクラッチから再トレーニングするための統計的不明瞭さとして定義される。 我々は,無学習問題に対するプライバシ保証を伴う騒音勾配降下に基づく無学習フレームワークlangevin unlearningを提案する。 Langevin unlearningは、DP学習プロセスとプライバシ認定未学習プロセスを、多くのアルゴリズム上の利点で統合する。 これには、非凸問題に対する近似認定アンラーニング、再トレーニングに対する複雑さの節約、複数のアンラーニング要求に対するシーケンシャルおよびバッチアンラーニングが含まれる。 ベンチマークデータセットを用いた実験により,Langevin Unlearningのプライバシ・ユーティリティ・複雑さトレードオフを検証し,その実用性を検証した。

Machine unlearning has raised significant interest with the adoption of laws ensuring the ``right to be forgotten''. Researchers have provided a probabilistic notion of approximate unlearning under a similar definition of Differential Privacy (DP), where privacy is defined as statistical indistinguishability to retraining from scratch. We propose Langevin unlearning, an unlearning framework based on noisy gradient descent with privacy guarantees for approximate unlearning problems. Langevin unlearning unifies the DP learning process and the privacy-certified unlearning process with many algorithmic benefits. These include approximate certified unlearning for non-convex problems, complexity saving compared to retraining, sequential and batch unlearning for multiple unlearning requests. We verify the practicality of Langevin unlearning by studying its privacy-utility-complexity trade-off via experiments on benchmark datasets, and also demonstrate its superiority against gradient-decent-plus-output-perturbation based approximate unlearning.
翻訳日:2024-02-09 18:21:05 公開日:2024-02-07
# モデル選択のための進化的演算子を用いたバンドアプローチ

A Bandit Approach with Evolutionary Operators for Model Selection ( http://arxiv.org/abs/2402.05144v1 )

ライセンス: Link先を確認
Margaux Br\'eg\`ere (LPSM (UMR_8001), EDF R&D), Julie Keisler (CRIStAL, EDF R&D)(参考訳) 本稿では,無限武装バンディット問題としてモデル選択を定式化する。 モデルはアームであり、アームの選択はモデルの部分的なトレーニング(リソース割り当て)に対応する。 報酬は、部分訓練後の選択されたモデルの精度である。 この最高の腕識別問題において、後悔は、最適モデルの予測精度と最終的に選択されたモデルの精度とのギャップである。 まず、UCB-Eの確率的無限武装バンディット問題への直接的な一般化を考察し、基本的な仮定では、期待される後悔順序は、ある$\alpha \in (0,1/5)$と$T$に対して$T^{-\alpha}$であることを示す。 このバニラアルゴリズムから,進化的アルゴリズムの演算子を組み込んだアルゴリズムミュータントucbを提案する。 オープンソースの3つの画像分類データセットで実施したテストは、この新しい組み合わせアプローチが、固定予算で最先端技術を上回ることを証明している。

This paper formulates model selection as an infinite-armed bandit problem. The models are arms, and picking an arm corresponds to a partial training of the model (resource allocation). The reward is the accuracy of the selected model after its partial training. In this best arm identification problem, regret is the gap between the expected accuracy of the optimal model and that of the model finally chosen. We first consider a straightforward generalization of UCB-E to the stochastic infinite-armed bandit problem and show that, under basic assumptions, the expected regret order is $T^{-\alpha}$ for some $\alpha \in (0,1/5)$ and $T$ the number of resources to allocate. From this vanilla algorithm, we introduce the algorithm Mutant-UCB that incorporates operators from evolutionary algorithms. Tests carried out on three open source image classification data sets attest to the relevance of this novel combining approach, which outperforms the state-of-the-art for a fixed budget.
翻訳日:2024-02-09 18:13:06 公開日:2024-02-07
# 特殊モデルによるベンガルocrの強化と多様な文書タイプのための高度化技術

Enhancement of Bengali OCR by Specialized Models and Advanced Techniques for Diverse Document Types ( http://arxiv.org/abs/2402.05158v1 )

ライセンス: Link先を確認
AKM Shahariar Azad Rabby, Hasmot Ali, Md. Majedul Islam, Sheikh Abujar, Fuad Rahman(参考訳) 本研究はベンガルOCRシステムに特有な機能を持たせたものである。 このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトを再構築する。 高度な画像と署名検出を組み込んで正確な抽出を行う。 単語セグメンテーションの特殊なモデルは、コンピュータ合成、レタープレス、タイプライター、手書き文書など様々な文書タイプに対応している。 このシステムは静的および動的手書き入力を処理し、様々な書き込みスタイルを認識する。 さらにベンガル語で複合文字を認識する能力もある。 膨大なデータ収集努力は多様なコーパスを提供し、高度な技術コンポーネントは文字と単語の認識を最適化する。 他にも、画像、ロゴ、シグネチャとテーブルの認識、パースペクティブの修正、レイアウトの再構成、効率的でスケーラブルな処理のためのキューングモジュールなどがある。 本システムは,効率的かつ正確なテキスト抽出と解析において優れた性能を示す。

This research paper presents a unique Bengali OCR system with some capabilities. The system excels in reconstructing document layouts while preserving structure, alignment, and images. It incorporates advanced image and signature detection for accurate extraction. Specialized models for word segmentation cater to diverse document types, including computer-composed, letterpress, typewriter, and handwritten documents. The system handles static and dynamic handwritten inputs, recognizing various writing styles. Furthermore, it has the ability to recognize compound characters in Bengali. Extensive data collection efforts provide a diverse corpus, while advanced technical components optimize character and word recognition. Additional contributions include image, logo, signature and table recognition, perspective correction, layout reconstruction, and a queuing module for efficient and scalable processing. The system demonstrates outstanding performance in efficient and accurate text extraction and analysis.
翻訳日:2024-02-09 17:59:55 公開日:2024-02-07
# モジュール電解プラントにおけるコスト最適化スケジューリング

Cost Optimized Scheduling in Modular Electrolysis Plants ( http://arxiv.org/abs/2402.05148v1 )

ライセンス: Link先を確認
Vincent Henkel and Maximilian Kilthau and Felix Gehlhoff and Lukas Wagner and Alexander Fay(参考訳) 再生可能エネルギー資源への世界的シフトに対応して、電解によるグリーン水素の生産が有望な解決策として浮上している。 柔軟性とスケーラビリティのために設計されたモジュール電解プラントは、再生可能エネルギー源に固有の変動を調節しながら、水素の需要の増加に対する動的応答を提供する。 しかし、特に多くの電解モジュールを調整する必要がある場合、それぞれが異なる特性を持つため、運用の最適化は困難である。 そこで本稿では,乗算器の交互方向法を用いてモジュール型電解プラントの運転を最適化する分散スケジューリングモデルを提案する。 このモデルは、水素生産と変動する需要のバランス、水素の限界レベル化コスト(mlcoh)の最小化、そして運用障害への適応性を確保することを目的としている。 ケーススタディでは、名目負荷条件下でmLCOH値を計算する際のモデルの精度を検証し、電解器モジュールの故障やスケールアップシナリオのような動的変化に対する応答性を示す。

In response to the global shift towards renewable energy resources, the production of green hydrogen through electrolysis is emerging as a promising solution. Modular electrolysis plants, designed for flexibility and scalability, offer a dynamic response to the increasing demand for hydrogen while accommodating the fluctuations inherent in renewable energy sources. However, optimizing their operation is challenging, especially when a large number of electrolysis modules needs to be coordinated, each with potentially different characteristics. To address these challenges, this paper presents a decentralized scheduling model to optimize the operation of modular electrolysis plants using the Alternating Direction Method of Multipliers. The model aims to balance hydrogen production with fluctuating demand, to minimize the marginal Levelized Cost of Hydrogen (mLCOH), and to ensure adaptability to operational disturbances. A case study validates the accuracy of the model in calculating mLCOH values under nominal load conditions and demonstrates its responsiveness to dynamic changes, such as electrolyzer module malfunctions and scale-up scenarios.
翻訳日:2024-02-09 17:59:43 公開日:2024-02-07
# ApiQ: 2ビット量子化大言語モデルの微調整

ApiQ: Finetuning of 2-Bit Quantized Large Language Model ( http://arxiv.org/abs/2402.05147v1 )

ライセンス: Link先を確認
Baohao Liao, Christof Monz(参考訳) 大規模言語モデル(LLM)のメモリ効率の高い微調整は、GPUメモリの制限による制約と、これらの手法の完全な微調整による結果が原因で、LLMのサイズが増大するにつれ、近年大きな注目を集めている。 進歩にもかかわらず、QLoRAのようなメモリ効率の高い微調整のための現在の戦略は、様々なビット幅量子化や多面的タスクにまたがる不整合性能を示す。 この矛盾は、量子化過程が保存された知識に対する有害な影響に大きく起因し、破滅的な忘れ去られ、微調整のために事前訓練されたモデルの利用を損なう結果となった。 本研究では,LoRA成分を並列に初期化し,LLMの重みを定量化することにより,損失情報を量子化から復元する新しい量子化フレームワークApiQを提案する。 このアプローチは、より浅い層からより深い層へのエラー伝播を緩和しながら、元のLCMのアクティベーション精度の維持を保証する。 様々なモデルを用いた言語タスクの包括的評価により、ApiQは量子化時のアクティベーションエラーを実証的に最小化する。 その結果、量子化の様々なビット幅にわたって優れた微調整結果が得られる。

Memory-efficient finetuning of large language models (LLMs) has recently attracted huge attention with the increasing size of LLMs, primarily due to the constraints posed by GPU memory limitations and the comparable results of these methods with full finetuning. Despite the advancements, current strategies for memory-efficient finetuning, such as QLoRA, exhibit inconsistent performance across diverse bit-width quantizations and multifaceted tasks. This inconsistency largely stems from the detrimental impact of the quantization process on preserved knowledge, leading to catastrophic forgetting and undermining the utilization of pretrained models for finetuning purposes. In this work, we introduce a novel quantization framework named ApiQ, designed to restore the lost information from quantization by concurrently initializing LoRA components and quantizing the weights of LLMs. This approach ensures the maintenance of the original LLM's activation precision while mitigating the error propagation from shallower into deeper layers. Through comprehensive evaluations conducted on a spectrum of language tasks with various models, ApiQ demonstrably minimizes activation error during quantization. Consequently, it consistently achieves superior finetuning outcomes across various bit-widths of quantization.
翻訳日:2024-02-09 17:59:25 公開日:2024-02-07
# 自律走行のための動的構造化プルーニング法を用いた深部強化学習ネットワークの圧縮

Compressing Deep Reinforcement Learning Networks with a Dynamic Structured Pruning Method for Autonomous Driving ( http://arxiv.org/abs/2402.05146v1 )

ライセンス: Link先を確認
Wensheng Su, Zhenni Li, Minrui Xu, Jiawen Kang, Dusit Niyato, Shengli Xie(参考訳) 深部強化学習(DRL)は複雑な自律運転シナリオにおいて顕著な成功を収めている。 しかし、DRLモデルは必然的に高いメモリ消費と計算をもたらし、リソース制限の自律運転装置への広範な展開を妨げる。 構造化プルーニングはDRLモデルを圧縮・加速する有用な方法として認識されているが、DRLモデルへのパラメータ(ニューロン)の寄与を推定することは依然として難しい。 本稿では,drlモデルの非重要ニューロンを訓練段階で徐々に除去する,新しい動的構造的プルーニング手法を提案する。 本手法は,グループスパース正規化器を用いたDRLモデルのトレーニングと,動的プルーニング閾値による非重要ニューロンの除去という2つのステップからなる。 DRLモデルを少数の重要なニューロンで効率的に訓練するために,ニューロン重要群スパース正規化器を用いる。 従来の正規化器とは対照的に、この正規化器はDRLモデルの出力に大きな影響を与えない冗長なニューロン群にペナルティを課す。 さらに,2次マスクを用いて動的にプルーニング閾値を判定し,重要でないニューロンを徐々に除去する新しい構造化プルーニング戦略を設計する。 そこで本手法は,DRLモデルの冗長なニューロン群を除去するだけでなく,高い,堅牢な性能を実現する。 実験の結果,提案手法は従来のDRLプルーニング法(CartPole-v1およびLunarLander-v2)およびMuJoCo連続環境(Hopper-v3およびWalker2D-v3)と競合することがわかった。 具体的には, DRLモデルにおいて, 93\%のニューロンと 96\%の重量を, わずかに精度を低下させることなく, 4つのDRL環境において効果的に圧縮する。

Deep reinforcement learning (DRL) has shown remarkable success in complex autonomous driving scenarios. However, DRL models inevitably bring high memory consumption and computation, which hinders their wide deployment in resource-limited autonomous driving devices. Structured Pruning has been recognized as a useful method to compress and accelerate DRL models, but it is still challenging to estimate the contribution of a parameter (i.e., neuron) to DRL models. In this paper, we introduce a novel dynamic structured pruning approach that gradually removes a DRL model's unimportant neurons during the training stage. Our method consists of two steps, i.e. training DRL models with a group sparse regularizer and removing unimportant neurons with a dynamic pruning threshold. To efficiently train the DRL model with a small number of important neurons, we employ a neuron-importance group sparse regularizer. In contrast to conventional regularizers, this regularizer imposes a penalty on redundant groups of neurons that do not significantly influence the output of the DRL model. Furthermore, we design a novel structured pruning strategy to dynamically determine the pruning threshold and gradually remove unimportant neurons with a binary mask. Therefore, our method can remove not only redundant groups of neurons of the DRL model but also achieve high and robust performance. Experimental results show that the proposed method is competitive with existing DRL pruning methods on discrete control environments (i.e., CartPole-v1 and LunarLander-v2) and MuJoCo continuous environments (i.e., Hopper-v3 and Walker2D-v3). Specifically, our method effectively compresses $93\%$ neurons and $96\%$ weights of the DRL model in four challenging DRL environments with slight accuracy degradation.
翻訳日:2024-02-09 17:59:03 公開日:2024-02-07
# 生存分析のためのオンライン学習手法

Online Learning Approach for Survival Analysis ( http://arxiv.org/abs/2402.05145v1 )

ライセンス: Link先を確認
Camila Fernandez (LPSM), Pierre Gaillard (Thoth), Joseph de Vilmarest, Olivier Wintenberger (LPSM (UMR\_8001))(参考訳) 生存分析のためのオンライン数学フレームワークを導入し、動的環境や検閲データへのリアルタイム適応を可能にする。 このフレームワークは、最適2階オンライン凸最適化アルゴリズム-オンラインニュートンステップ(ONS)によるイベント時間分布の推定を可能にする。 このアプローチは、以前は探索されていないが、非漸近収束保証を持つ明示的なアルゴリズムを含む大きな利点を示す。 さらに, exp-concavity特性に依存するONSハイパーパラメータの選択を解析し, 後悔境界に有意な影響を及ぼすことを示した。 OnSに対する対数的確率的後悔を保証する確率的アプローチを提案する。 さらに,高速後悔境界を維持しつつ,ハイパーパラメータ選択におけるロバスト性を保証する適応アグリゲーション手法を提案する。 本論文の知見は生存分析分野を超えて拡張でき,exp-concavityの低下と不安定なonsを特徴とするいずれの症例にも有意である。 最後に、これらの主張はシミュレーション実験によって示される。

We introduce an online mathematical framework for survival analysis, allowing real time adaptation to dynamic environments and censored data. This framework enables the estimation of event time distributions through an optimal second order online convex optimization algorithm-Online Newton Step (ONS). This approach, previously unexplored, presents substantial advantages, including explicit algorithms with non-asymptotic convergence guarantees. Moreover, we analyze the selection of ONS hyperparameters, which depends on the exp-concavity property and has a significant influence on the regret bound. We propose a stochastic approach that guarantees logarithmic stochastic regret for ONS. Additionally, we introduce an adaptive aggregation method that ensures robustness in hyperparameter selection while maintaining fast regret bounds. The findings of this paper can extend beyond the survival analysis field, and are relevant for any case characterized by poor exp-concavity and unstable ONS. Finally, these assertions are illustrated by simulation experiments.
翻訳日:2024-02-09 17:58:31 公開日:2024-02-07
# 計算管理の基礎:人工知能を既存のワークフローに統合するためのタスク自動化への体系的アプローチ

The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows ( http://arxiv.org/abs/2402.05142v1 )

ライセンス: Link先を確認
Tamen Jadad-Garcia, Alejandro R. Jadad(参考訳) ai(artificial intelligence, 人工知能)の急速な上昇によって、組織は地震動の震源に置かれ、重要な疑問に直面している。 この問題に答え、期待を管理し、フラストレーションを軽減するために、この記事では、タスク自動化のための体系的なアプローチであるComputational Managementを紹介します。 計算管理は、経営科学の戦略的洞察と計算思考の分析的厳密性の橋渡しとして機能する。 この記事はワークフロー内でaiを実装するプロセスを開始するための3つの簡単なステップバイステップ手順を提供する。 このような手順は、タスク(再)フォーミュレーション、タスクの自動化可能性の評価、AIの選択と適応のためのタスク仕様テンプレートの完成に焦点を当てている。 記事には、これら3つの手順を完遂するために、公開可能なllmに対する迅速な提案を含む、手動および自動化されたメソッドが含まれている。 最初の手順であるタスク(再)フォーミュレーションは、作業アクティビティを基本単位に分割することに焦点を当てており、1つのエージェントによって完了し、1つの明確に定義されたアクションを伴い、明確な結果を生み出すことができる。 2つ目は、タスク自動化指標を使用して、標準化された入力、明確に定義されたルール、反復性、データ依存性、および客観的アウトプットに基づいてタスクをランク付けすることである。 第3に、タスクの重要な16コンポーネントに関する情報を詳述するタスク仕様テンプレートに焦点を当て、既存のワークフローとの統合に最も適したAIソリューションを選択または適応するためのチェックリストとして使用できる。 計算管理は、組織的効率とイノベーションを向上しながら、人間とAIが共に成長するためのロードマップとツールキットを提供する。

Driven by the rapid ascent of artificial intelligence (AI), organizations are at the epicenter of a seismic shift, facing a crucial question: How can AI be successfully integrated into existing operations? To help answer it, manage expectations and mitigate frustration, this article introduces Computational Management, a systematic approach to task automation for enhancing the ability of organizations to harness AI's potential within existing workflows. Computational Management acts as a bridge between the strategic insights of management science with the analytical rigor of computational thinking. The article offers three easy step-by-step procedures to begin the process of implementing AI within a workflow. Such procedures focus on task (re)formulation, on the assessment of the automation potential of tasks, on the completion of task specification templates for AI selection and adaptation. Included in the article there are manual and automated methods, with prompt suggestions for publicly available LLMs, to complete these three procedures. The first procedure, task (re)formulation, focuses on breaking down work activities into basic units, so they can be completed by one agent, involve a single well-defined action, and produce a distinct outcome. The second, allows the assessment of the granular task and its suitability for automation, using the Task Automation Index to rank tasks based on whether they have standardized input, well-defined rules, repetitiveness, data dependency, and objective outputs. The third, focuses on a task specification template which details information on 16 critical components of tasks, and can be used as a checklist to select or adapt the most suitable AI solution for integration into existing workflows. Computational Management provides a roadmap and a toolkit for humans and AI to thrive together, while enhancing organizational efficiency and innovation.
翻訳日:2024-02-09 17:58:17 公開日:2024-02-07
# セグメンテーション誘導拡散モデルを用いた解剖学的制御可能な医用画像生成

Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models ( http://arxiv.org/abs/2402.05210v1 )

ライセンス: Link先を確認
Nicholas Konz, Yuwen Chen, Haoyu Dong, Maciej A. Mazurowski(参考訳) 拡散モデルは、非常に高品質な医用画像生成を可能にし、小さなデータセットや不均衡なデータセットを補足することで、新しい画像の取得と注釈のコストを軽減できる。 しかしこれらは、生成された画像にグローバルな解剖学的リアリズムを強制するという課題によって妨げられている。 そこで本研究では,解剖学的に制御された医用画像生成のための拡散モデルを提案する。 本モデルでは,各サンプリングステップでマルチクラス解剖学的セグメンテーションマスクを使用し, \textit{random mask ablation} トレーニングアルゴリズムを組み込んで,選択された解剖学的制約の組み合わせを条件付けし,他の解剖学的領域の柔軟性を許容する。 これはまた、完全に無条件(無拘束世代)の場合の解剖学的実在論のネットワークの学習を改善する。 胸部MRIと腹部CTとの比較では, 解剖学的実在性, 入力マスク忠実度が, 最先端モデルよりも優れていた。 また、アクセス可能なコードベースを提供し、生成されたペアの乳房MRIのデータセットをリリースしています。 提案手法は,事前登録した画像生成,対実シナリオなど,多様な応用を促進する。

Diffusion models have enabled remarkably high-quality medical image generation, which can help mitigate the expenses of acquiring and annotating new images by supplementing small or imbalanced datasets, along with other applications. However, these are hampered by the challenge of enforcing global anatomical realism in generated images. To this end, we propose a diffusion model for anatomically-controlled medical image generation. Our model follows a multi-class anatomical segmentation mask at each sampling step and incorporates a \textit{random mask ablation} training algorithm, to enable conditioning on a selected combination of anatomical constraints while allowing flexibility in other anatomical areas. This also improves the network's learning of anatomical realism for the completely unconditional (unconstrained generation) case. Comparative evaluation on breast MRI and abdominal/neck-to-pelvis CT datasets demonstrates superior anatomical realism and input mask faithfulness over state-of-the-art models. We also offer an accessible codebase and release a dataset of generated paired breast MRIs. Our approach facilitates diverse applications, including pre-registered image generation, counterfactual scenarios, and others.
翻訳日:2024-02-09 17:48:05 公開日:2024-02-07
# cecilia: ヘリウムに富んだ汚染されたホワイトドワーフの金属量を測定するための機械学習ベースのパイプライン

cecilia: A Machine Learning-Based Pipeline for Measuring Metal Abundances of Helium-rich Polluted White Dwarfs ( http://arxiv.org/abs/2402.05176v1 )

ライセンス: Link先を確認
M. Badenas-Agusti, J. Via\~na, A. Vanderburg, S. Blouin, P. Dufour, S. Xu, L. Sha(参考訳) 過去数十年にわたり、汚染されたホワイトドワーフの従来のスペクトル分析技術は、太陽系外天体の地質と化学を学ぶための強力なツールとなっている。 証明された能力と科学的発見の広範な遺産にもかかわらず、これらの技術は依然として手動、時間集約、反復的な性質によって制限されている。 結果として、それらはヒューマンエラーの影響を受けやすく、人口規模での金属汚染の研究のためにスケールアップが困難である。 本論文は, 中間温度 (10,000$\leq t_{\rm eff} \leq$20,000 k) の金属量を測定するために設計された最初の機械学習(ml)によるスペクトルモデリングコードceciliaを提示することで, この問題に対処しようとするものである。 22,000以上のランダムに描画された大気モデルと恒星パラメータで訓練されたパイプラインは、計算コストの高いコードと一様間隔のモデルグリッドから合成スペクトルの生成を高速で自動化され、効率的なニューラルネットワークベースの補間器に置き換えることで、古典的手法の限界を克服することを目的としています。 より具体的には、ceciliaは最先端の大気モデル、強力な人工知能ツール、ロバストな統計技術を組み合わせて、高次元空間で汚染された白色小星の合成スペクトルを迅速に生成し、正確な(\lesssim$0.1 dex)と、11の元素存在量を含む14の恒星パラメータの同時測定を可能にする。 大規模多重天文調査が科学的な活動を開始するにつれて、セシリアのパフォーマンスは、太陽系外地球化学の大規模研究を解き放ち、ホワイトドワーフ科学の分野をビッグデータの時代へと推進する可能性を秘めている。 そのために私たちは、従来のホワイトドワーフのキャラクタリゼーション技術では非現実的だった、新しい統計的な洞察を解明したいと考えています。

Over the past several decades, conventional spectral analysis techniques of polluted white dwarfs have become powerful tools to learn about the geology and chemistry of extrasolar bodies. Despite their proven capabilities and extensive legacy of scientific discoveries, these techniques are however still limited by their manual, time-intensive, and iterative nature. As a result, they are susceptible to human errors and are difficult to scale up to population-wide studies of metal pollution. This paper seeks to address this problem by presenting cecilia, the first Machine Learning (ML)-powered spectral modeling code designed to measure the metal abundances of intermediate-temperature (10,000$\leq T_{\rm eff} \leq$20,000 K), Helium-rich polluted white dwarfs. Trained with more than 22,000 randomly drawn atmosphere models and stellar parameters, our pipeline aims to overcome the limitations of classical methods by replacing the generation of synthetic spectra from computationally expensive codes and uniformly spaced model grids, with a fast, automated, and efficient neural-network-based interpolator. More specifically, cecilia combines state-of-the-art atmosphere models, powerful artificial intelligence tools, and robust statistical techniques to rapidly generate synthetic spectra of polluted white dwarfs in high-dimensional space, and enable accurate ($\lesssim$0.1 dex) and simultaneous measurements of 14 stellar parameters -- including 11 elemental abundances -- from real spectroscopic observations. As massively multiplexed astronomical surveys begin scientific operations, cecilia's performance has the potential to unlock large-scale studies of extrasolar geochemistry and propel the field of white dwarf science into the era of Big Data. In doing so, we aspire to uncover new statistical insights that were previously impractical with traditional white dwarf characterisation techniques.
翻訳日:2024-02-09 17:47:48 公開日:2024-02-07
# 変圧器におけるインダクティブバイアスの理解に向けて:インフィニティの視点から

Towards Understanding Inductive Bias in Transformers: A View From Infinity ( http://arxiv.org/abs/2402.05173v1 )

ライセンス: Link先を確認
Itay Lavie, Guy Gur-Ari and Zohar Ringel(参考訳) 無限大パラメータのガウス過程極限における変圧器のインダクティブバイアスについて検討し、変圧器はシーケンス空間におけるより置換対称関数に偏りがあると主張する。 対称群の表現論は、データセットがトークン間の置換に対称であるときに定量的な解析的予測を与えることができることを示す。 本稿では,学習曲線とネットワーク出力の正確な予測を含む,簡易な変圧器ブロックを提案し,その限界でモデルを解く。 一般的な設定では、文脈長の関数として学習可能性のスケーリング法則の形で厳密な境界を導出できることが示される。 最後に、ウィキテキストデータセットは確かに置換対称性を持っていると論じる。

We study inductive bias in Transformers in the infinitely over-parameterized Gaussian process limit and argue transformers tend to be biased towards more permutation symmetric functions in sequence space. We show that the representation theory of the symmetric group can be used to give quantitative analytical predictions when the dataset is symmetric to permutations between tokens. We present a simplified transformer block and solve the model at the limit, including accurate predictions for the learning curves and network outputs. We show that in common setups, one can derive tight bounds in the form of a scaling law for the learnability as a function of the context length. Finally, we argue WikiText dataset, does indeed possess a degree of permutation symmetry.
翻訳日:2024-02-09 17:47:12 公開日:2024-02-07
# ニューラルスケーリング則のための資源モデル

A Resource Model For Neural Scaling Law ( http://arxiv.org/abs/2402.05164v1 )

ライセンス: Link先を確認
Jinyeop Song, Ziming Liu, Max Tegmark, Jeff Gore(参考訳) ニューラルスケーリング法則は、モデルサイズがスケールアップするにつれて、モデルパフォーマンスがどのように向上するかを特徴付ける。 経験的観察にインスパイアされた我々は,ニューラルスケーリングの資源モデルを導入する。 タスクは通常複合化されるため、多くのサブタスクに分解され、リソースを競う(サブタスクに割り当てられたニューロンの数によって測定される)。 1)サブタスクの損失は、その割り当てられたニューロンに逆比例する。 2) 複合タスクに複数のサブタスクが存在する場合,各サブタスクが獲得したリソースはモデルが大きくなるにつれて一様に増加し,獲得したリソースの比率は一定となる。 これらの結果は一般に真実であると仮定し、一般的な複合タスクの神経スケーリング法則を予測するモデルを構築し、arXiv:2203.15556で報告されたチンチラモデルの神経スケーリング法則を再現することに成功した。 本稿では、ニューラルネットワークを特徴付け、診断するための有用なツールとして、リソースの概念を提案する。

Neural scaling laws characterize how model performance improves as the model size scales up. Inspired by empirical observations, we introduce a resource model of neural scaling. A task is usually composite hence can be decomposed into many subtasks, which compete for resources (measured by the number of neurons allocated to subtasks). On toy problems, we empirically find that: (1) The loss of a subtask is inversely proportional to its allocated neurons. (2) When multiple subtasks are present in a composite task, the resources acquired by each subtask uniformly grow as models get larger, keeping the ratios of acquired resources constants. We hypothesize these findings to be generally true and build a model to predict neural scaling laws for general composite tasks, which successfully replicates the neural scaling law of Chinchilla models reported in arXiv:2203.15556. We believe that the notion of resource used in this paper will be a useful tool for characterizing and diagnosing neural networks.
翻訳日:2024-02-09 17:47:00 公開日:2024-02-07
# ニオブ酸リチウムナノフォトニクスにおける超短パルス双光子源

Ultra-Short Pulse Biphoton Source in Lithium Niobate Nanophotonics at 2 \textmu m ( http://arxiv.org/abs/2402.05163v1 )

ライセンス: Link先を確認
James Williams, Rajveer Nehra, Elina Sendonaris, Luis Ledezma, Robert M. Gray, Ryoto Sekine, Alireza Marandi(参考訳) photonicsは、室温操作、ナノフォトニクスのスケーラビリティ、超広帯域へのアクセスなど、量子情報処理(qip)に特有の機能を提供する。 ナノフォトニクスにおける超短パルスの量子状態源は、スケーラブルな超高速qipを実現する上で重要な構成要素である。 ここでは, 周期的に分極されたニオブ酸リチウムナノフォトニクスにおいて, フェムト秒二光子源を示す。 波長2.9 \textmu mを中心とした光源の波長17thzを数個の光サイクルに対応し、輝度は8.8ghz/mwである。 超高速ナノフォトニックQIPの実現に向けた新たな道を開く。

Photonics offers unique capabilities for quantum information processing (QIP) such as room-temperature operation, the scalability of nanophotonics, and access to ultrabroad bandwidths and consequently ultrafast operation. Ultrashort-pulse sources of quantum states in nanophotonics are an important building block for achieving scalable ultrafast QIP, however, their demonstrations so far have been sparse. Here, we demonstrate a femtosecond biphoton source in dispersion-engineered periodically poled lithium niobate nanophotonics. We measure 17 THz of bandwidth for the source centered at 2.09 \textmu m, corresponding to a few optical cycles, with a brightness of 8.8 GHz/mW. Our results open new paths towards realization of ultrafast nanophotonic QIP.
翻訳日:2024-02-09 17:46:44 公開日:2024-02-07
# プルーニングと低ランク改造による安全アライメントの脆性評価

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications ( http://arxiv.org/abs/2402.05162v1 )

ライセンス: Link先を確認
Boyi Wei, Kaixuan Huang, Yangsibo Huang, Tinghao Xie, Xiangyu Qi, Mengzhou Xia, Prateek Mittal, Mengdi Wang, Peter Henderson(参考訳) 大規模言語モデル(LLM)は、脱獄や非致死的な微調整への感受性から証明されるように、その安全性メカニズムに固有の脆さを示す。 本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。 我々は,安全ガードレールに不可欠な重要な領域を同定する手法を開発し,ニューロンおよびランクレベルの実用関連領域から切り離されている。 驚くべきことに、私たちが見つけた孤立した領域はばらばらで、パラメータレベルでは$3\%$、ランクレベルでは$2.5\%$である。 これらの領域を除去することは、実用性に大きな影響を及ぼすことなく安全性を損なう。 さらに,LLMは安全クリティカル領域への変更が制限された場合でも,低コストの微調整攻撃に対して脆弱であることを示す。 これらの結果は,LSMのより堅牢な安全戦略の必要性を浮き彫りにした。

Large language models (LLMs) show inherent brittleness in their safety mechanisms, as evidenced by their susceptibility to jailbreaking and even non-malicious fine-tuning. This study explores this brittleness of safety alignment by leveraging pruning and low-rank modifications. We develop methods to identify critical regions that are vital for safety guardrails, and that are disentangled from utility-relevant regions at both the neuron and rank levels. Surprisingly, the isolated regions we find are sparse, comprising about $3\%$ at the parameter level and $2.5\%$ at the rank level. Removing these regions compromises safety without significantly impacting utility, corroborating the inherent brittleness of the model's safety mechanisms. Moreover, we show that LLMs remain vulnerable to low-cost fine-tuning attacks even when modifications to the safety-critical regions are restricted. These findings underscore the urgent need for more robust safety strategies in LLMs.
翻訳日:2024-02-09 17:46:31 公開日:2024-02-07
# AIで何が文書化されているか? 32k aiモデルカードの系統的解析

What's documented in AI? Systematic Analysis of 32K AI Model Cards ( http://arxiv.org/abs/2402.05160v1 )

ライセンス: Link先を確認
Weixin Liang, Nazneen Rajani, Xinyu Yang, Ezinwanne Ozoani, Eric Wu, Yiqun Chen, Daniel Scott Smith, James Zou(参考訳) aiモデルの急速な普及は、ユーザがさまざまなアプリケーションでこれらのモデルを理解し、信頼し、効果的に利用できるようにするため、詳細なドキュメントの重要性を強調している。 開発者はモデルカードの作成を奨励されるが、それらのカードがどの程度の情報やどの情報を含んでいるかは明らかではない。 本研究では,AIモデルを配布,デプロイするための主要なプラットフォームであるHugging Face上で,32,111のAIモデルドキュメンテーションを包括的に分析する。 我々の調査は、広く普及しているモデルカードのドキュメンテーションプラクティスに光を当てている。 かなりダウンロードされたAIモデルのほとんどはモデルカードを提供するが、カードには不明確な情報がある。 その結果, 環境影響, 限界, 評価に対処する区間は, 最下位の充足率を示す一方, トレーニング区間は最下位の充足率を示すことがわかった。 各セクションの内容を分析し,実践者の優先順位を特徴付ける。 興味深いことに、データに関する実質的な議論があり、時にはモデル自体よりも等しく、あるいはそれ以上に重点を置いている。 モデルカードの効果を評価するため,従来モデルカードが不足していた42種類の人気モデルに詳細なモデルカードを付加し,介入調査を行った。 モデルカードの追加は週間ダウンロード率の増加と適度に相関していることがわかった。 本研究は,大規模データサイエンスと言語学の分析を通じて,モデルドキュメンテーションのコミュニティ規範と実践を分析するための新たな視点を開く。

The rapid proliferation of AI models has underscored the importance of thorough documentation, as it enables users to understand, trust, and effectively utilize these models in various applications. Although developers are encouraged to produce model cards, it's not clear how much information or what information these cards contain. In this study, we conduct a comprehensive analysis of 32,111 AI model documentations on Hugging Face, a leading platform for distributing and deploying AI models. Our investigation sheds light on the prevailing model card documentation practices. Most of the AI models with substantial downloads provide model cards, though the cards have uneven informativeness. We find that sections addressing environmental impact, limitations, and evaluation exhibit the lowest filled-out rates, while the training section is the most consistently filled-out. We analyze the content of each section to characterize practitioners' priorities. Interestingly, there are substantial discussions of data, sometimes with equal or even greater emphasis than the model itself. To evaluate the impact of model cards, we conducted an intervention study by adding detailed model cards to 42 popular models which had no or sparse model cards previously. We find that adding model cards is moderately correlated with an increase weekly download rates. Our study opens up a new perspective for analyzing community norms and practices for model documentation through large-scale data science and linguistics analysis.
翻訳日:2024-02-09 17:46:15 公開日:2024-02-07
# データはどうだ? AIシステムのためのデータエンジニアリングに関するマッピング研究

What About the Data? A Mapping Study on Data Engineering for AI Systems ( http://arxiv.org/abs/2402.05156v1 )

ライセンス: Link先を確認
Petra Heck(参考訳) AIシステムはデータなしでは存在できない。 AIモデル(データサイエンスとAI)が成熟し、実際に簡単に適用できるようになった今、ほとんどの組織はデータインフラストラクチャに苦戦しています。 aiシステムのためのデータ準備方法を知っているデータエンジニアや、分析プロジェクトのために企業規模のデータアーキテクチャをセットアップする必要性が高まっている。 しかしこれまで、AIエンジニアリングのデータエンジニアリングの部分は、モデリングの部分を議論するためにあまり注目を集めていなかった。 本稿では,AIシステムにおけるデータエンジニアリング,すなわちAIデータエンジニアリングのマッピング研究を行うことで,この状況を変えることを目指している。 2019年1月から2023年6月までに25の関連論文を発見し、aiデータエンジニアリングの活動について説明した。 我々は、どのライフサイクルフェーズがカバーされ、どの技術的ソリューションやアーキテクチャが提案され、どの教訓が提示されるかを特定する。 論文の総合的な議論は、実践者や研究者にとって意味のあるものである。 本稿では,AIのデータ工学に関する知識の体系について概観する。 この概要は、実践者がソリューションやベストプラクティスを特定し、研究者がギャップを特定するのに役立ちます。

AI systems cannot exist without data. Now that AI models (data science and AI) have matured and are readily available to apply in practice, most organizations struggle with the data infrastructure to do so. There is a growing need for data engineers that know how to prepare data for AI systems or that can setup enterprise-wide data architectures for analytical projects. But until now, the data engineering part of AI engineering has not been getting much attention, in favor of discussing the modeling part. In this paper we aim to change this by perform a mapping study on data engineering for AI systems, i.e., AI data engineering. We found 25 relevant papers between January 2019 and June 2023, explaining AI data engineering activities. We identify which life cycle phases are covered, which technical solutions or architectures are proposed and which lessons learned are presented. We end by an overall discussion of the papers with implications for practitioners and researchers. This paper creates an overview of the body of knowledge on data engineering for AI. This overview is useful for practitioners to identify solutions and best practices as well as for researchers to identify gaps.
翻訳日:2024-02-09 17:45:53 公開日:2024-02-07
# ニューラルネットワーク学習におけるadamと確率勾配降下最適化のための大域的最小化器の非収束と局所的最小化器の構成

Non-convergence to global minimizers for Adam and stochastic gradient descent optimization and constructions of local minimizers in the training of artificial neural networks ( http://arxiv.org/abs/2402.05155v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert(参考訳) 一般のバニラSGD法やアダム最適化法のような確率勾配勾配(SGD)最適化法は,近年,人工ニューラルネットワーク(ANN)の訓練における選択方法となっている。 数値シミュレーションにおいてSGD法が顕著に成功したにもかかわらず、SGD法がANNの訓練に成功しているように見える理由を厳格に説明するためのオープンな問題として、実質的にはすべての実践的なシナリオで残っている。 特に,実際に関連する教師付き学習問題において,sgd法は,ann学習問題の最適化環境において,大域的最小値に収束しない確率が高いと考えられる。 それでも、SGD法のグローバル・ミニマライザーへの収束を否定する研究のオープンな問題である。 本研究では,直交線形単位 (ReLU) を持つ浅層ANNの状況と,SGD法(プレーンバニラSGD,運動量SGD,AdaGrad,RMSprop,Adamオプティマイザなど)のトレーニングにおいて,標準的な平均二乗誤差損失と関連するアクティベーションとを相殺することで,この課題を解決する。 さらに,sgd法が高い確率で行うアンの訓練では,最適化環境における大域的最小化に収束しないことが明らかとなった。 しかし、この研究の成果は、sgd法がリスク値がグローバル・ミニマルのリスク値に近い良い局所的最小値を見つける可能性を排除するものではないため、sgd法がアンの訓練に成功することを否定するものではない。 この文脈において、この研究の重要な貢献は、ReLUと関連するアクティベーションを伴うANNトレーニング問題の最適化ランドスケープにおいて、異なるリスク値を持つ局所最小化器の階層構造の存在を確立することである。

Stochastic gradient descent (SGD) optimization methods such as the plain vanilla SGD method and the popular Adam optimizer are nowadays the method of choice in the training of artificial neural networks (ANNs). Despite the remarkable success of SGD methods in the ANN training in numerical simulations, it remains in essentially all practical relevant scenarios an open problem to rigorously explain why SGD methods seem to succeed to train ANNs. In particular, in most practically relevant supervised learning problems, it seems that SGD methods do with high probability not converge to global minimizers in the optimization landscape of the ANN training problem. Nevertheless, it remains an open problem of research to disprove the convergence of SGD methods to global minimizers. In this work we solve this research problem in the situation of shallow ANNs with the rectified linear unit (ReLU) and related activations with the standard mean square error loss by disproving in the training of such ANNs that SGD methods (such as the plain vanilla SGD, the momentum SGD, the AdaGrad, the RMSprop, and the Adam optimizers) can find a global minimizer with high probability. Even stronger, we reveal in the training of such ANNs that SGD methods do with high probability fail to converge to global minimizers in the optimization landscape. The findings of this work do, however, not disprove that SGD methods succeed to train ANNs since they do not exclude the possibility that SGD methods find good local minimizers whose risk values are close to the risk values of the global minimizers. In this context, another key contribution of this work is to establish the existence of a hierarchical structure of local minimizers with distinct risk values in the optimization landscape of ANN training problems with ReLU and related activations.
翻訳日:2024-02-09 17:45:36 公開日:2024-02-07
# 信頼予測のための適応ハイパーグラフネットワーク

Adaptive Hypergraph Network for Trust Prediction ( http://arxiv.org/abs/2402.05154v1 )

ライセンス: Link先を確認
Rongwei Xu, Guanfeng Liu, Yan Wang, Xuyun Zhang, Kai Zheng, Xiaofang Zhou(参考訳) 信頼は個人の意思決定において重要な役割を果たす。 従来の信頼予測モデルは、ユーザ間の潜在的な関係を推測するために対関係に依存する。 しかし、現実の世界では、ユーザー間のインタラクションは通常ペアのみではなく複雑である。 ハイパーグラフは2つ以上のノードをリンクするためにハイパーedegsを利用するため、これらの複雑な高次相関をモデル化する柔軟なアプローチを提供する。 しかし、ほとんどのハイパーグラフベースの手法は汎用的であり、信頼予測タスクにはうまく適用できない。 本稿では,高次相関を用いて信頼予測精度を向上させる新しい手法であるAdaptive Hypergraph Network for Trust Prediction (AHNTP)を提案する。 AHNTPはMotifベースのPageRankを使用して、高次の社会的影響情報をキャプチャする。 さらに、ノードレベルの属性と構造レベルの属性の両方からハイパーグループを構築し、複雑な相関情報を組み込む。 さらに、AHNTPは適応ハイパーグラフグラフ畳み込みネットワーク(GCN)層と多層パーセプトロン(MLP)を活用し、包括的なユーザ埋め込みを生成し、信頼関係の予測を容易にする。 モデルの一般化とロバスト性を高めるために,新しい教師付きコントラスト学習損失を提案する。 広範な実験により,信頼予測精度の観点から,最先端のアプローチよりも優れたモデルが得られた。 この作業のソースコードはhttps://github.com/Sherry-XU1995/AHNTPからアクセスすることができる。

Trust plays an essential role in an individual's decision-making. Traditional trust prediction models rely on pairwise correlations to infer potential relationships between users. However, in the real world, interactions between users are usually complicated rather than pairwise only. Hypergraphs offer a flexible approach to modeling these complex high-order correlations (not just pairwise connections), since hypergraphs can leverage hyperedeges to link more than two nodes. However, most hypergraph-based methods are generic and cannot be well applied to the trust prediction task. In this paper, we propose an Adaptive Hypergraph Network for Trust Prediction (AHNTP), a novel approach that improves trust prediction accuracy by using higher-order correlations. AHNTP utilizes Motif-based PageRank to capture high-order social influence information. In addition, it constructs hypergroups from both node-level and structure-level attributes to incorporate complex correlation information. Furthermore, AHNTP leverages adaptive hypergraph Graph Convolutional Network (GCN) layers and multilayer perceptrons (MLPs) to generate comprehensive user embeddings, facilitating trust relationship prediction. To enhance model generalization and robustness, we introduce a novel supervised contrastive learning loss for optimization. Extensive experiments demonstrate the superiority of our model over the state-of-the-art approaches in terms of trust prediction accuracy. The source code of this work can be accessed via https://github.com/Sherry-XU1995/AHNTP.
翻訳日:2024-02-09 17:44:56 公開日:2024-02-07
# 道路網開放データと原位置流データからの道路交通炭素排出量の推定

Estimating On-road Transportation Carbon Emissions from Open Data of Road Network and Origin-destination Flow Data ( http://arxiv.org/abs/2402.05153v1 )

ライセンス: Link先を確認
Jinwei Zeng and Yu Liu and Jingtao Ding and Jian Yuan and Yong Li(参考訳) 総炭素排出量の20%以上を占めるため、オンデマンド輸送炭素排出量の正確な推定は、二酸化炭素排出量のモニタリングと効率的な緩和政策の策定に不可欠である。 しかし、既存の推定手法は一般的に、走行距離の個人統計に頼り、排気量を計算し、データ収集の難しさに悩まされる。 人工知能の強力なパターン認識を活用することでこの問題を解消するため,輸送需要とキャパシティ要因を表すオープンデータ,オリジン・デスティネーション(OD)フローデータ,ロードネットワークデータという2つのソースを組み込んで,オンロード炭素排出量推定(HENCE)のための階層的ヘテロジニアスグラフ学習手法を構築した。 具体的には, 道路網レベル, コミュニティレベル, 地域レベルからなる階層グラフを構築し, 広域道路網ベースの接続と空間間の旅行接続をモデル化する。 交通需要と道路網のアクセシビリティーの本質的な相互作用を捉えるため,コミュニティレベルと地域レベルの両方でODリンクと空間リンクからなる不均一グラフを構築した。 2つの大規模な実世界のデータセットに対する大規模な実験は、HENCEの有効性と、R-squaredによる優位性が平均で0.75を超え、ベースラインを9.60%上回ることを示した。 実装コードは、https://github.com/tsinghua-fib-lab/hence。

Accounting for over 20% of the total carbon emissions, the precise estimation of on-road transportation carbon emissions is crucial for carbon emission monitoring and efficient mitigation policy formulation. However, existing estimation methods typically depend on hard-to-collect individual statistics of vehicle miles traveled to calculate emissions, thereby suffering from high data collection difficulty. To relieve this issue by utilizing the strong pattern recognition of artificial intelligence, we incorporate two sources of open data representative of the transportation demand and capacity factors, the origin-destination (OD) flow data and the road network data, to build a hierarchical heterogeneous graph learning method for on-road carbon emission estimation (HENCE). Specifically, a hierarchical graph consisting of the road network level, community level, and region level is constructed to model the multi-scale road network-based connectivity and travel connection between spatial areas. Heterogeneous graphs consisting of OD links and spatial links are further built at both the community level and region level to capture the intrinsic interactions between travel demand and road network accessibility. Extensive experiments on two large-scale real-world datasets demonstrate HENCE's effectiveness and superiority with R-squared exceeding 0.75 and outperforming baselines by 9.60% on average, validating its success in pioneering the use of artificial intelligence to empower carbon emission management and sustainability development. The implementation codes are available at this link: https://github.com/tsinghua-fib-lab/HENCE.
翻訳日:2024-02-09 17:44:35 公開日:2024-02-07
# CrashFormer: クラッシュのリスクを予測するマルチモーダルアーキテクチャ

CrashFormer: A Multimodal Architecture to Predict the Risk of Crash ( http://arxiv.org/abs/2402.05151v1 )

ライセンス: Link先を確認
Amin Karimi Monsefi, Pouya Shiri, Ahmad Mohammadshirazi, Nastaran Karimi Monsefi, Ron Davies, Sobhan Moosavi and Rajiv Ramnath(参考訳) 交通事故を減らすことは、世界の安全にとって重要な問題である。 事故予測は、交通安全の改善、事故発生前に積極的な措置を講じること、安全政策、規制、目標とする介入を通知することの鍵である。 過去数十年にわたる事故予測に関する多くの研究にもかかわらず、多くは、入力データや問題定式化による実用上の一般化可能性、再現性、実現可能性という観点で制限がある。 既存の欠点に対処するために,事故履歴,気象情報,地図画像,人口統計情報などの総合的(しかし比較的容易に得られる)入力を利用するマルチモーダルアーキテクチャであるcrashformerを提案する。 このモデルは、5.161平方キロメートルの地理的な場所において、適度に許容されるケイデンス(すなわち6時間毎に)での事故の将来のリスクを予測する。 CrashFormerは、過去の事故や気象データを利用するシーケンシャルエンコーダ、地図画像データを使用するイメージエンコーダ、人口統計情報を利用する生データエンコーダ、符号化された特徴を集約する機能融合モジュール、集約されたデータを受け入れて予測する分類器の5つのコンポーネントから構成される。 10の主要都市での大規模な実世界の実験の結果、CrashFormerは'sparse'入力データを使用する場合、F1スコアの平均で最先端のシーケンシャルモデルと非シーケンシャルモデルを1.8%上回っている。

Reducing traffic accidents is a crucial global public safety concern. Accident prediction is key to improving traffic safety, enabling proactive measures to be taken before a crash occurs, and informing safety policies, regulations, and targeted interventions. Despite numerous studies on accident prediction over the past decades, many have limitations in terms of generalizability, reproducibility, or feasibility for practical use due to input data or problem formulation. To address existing shortcomings, we propose CrashFormer, a multi-modal architecture that utilizes comprehensive (but relatively easy to obtain) inputs such as the history of accidents, weather information, map images, and demographic information. The model predicts the future risk of accidents on a reasonably acceptable cadence (i.e., every six hours) for a geographical location of 5.161 square kilometers. CrashFormer is composed of five components: a sequential encoder to utilize historical accidents and weather data, an image encoder to use map imagery data, a raw data encoder to utilize demographic information, a feature fusion module for aggregating the encoded features, and a classifier that accepts the aggregated data and makes predictions accordingly. Results from extensive real-world experiments in 10 major US cities show that CrashFormer outperforms state-of-the-art sequential and non-sequential models by 1.8% in F1-score on average when using ``sparse'' input data.
翻訳日:2024-02-09 17:44:06 公開日:2024-02-07
# 運転意図認識のためのディープニューラルネットワークの設計

Designing deep neural networks for driver intention recognition ( http://arxiv.org/abs/2402.05150v1 )

ライセンス: Link先を確認
Koen Vellenga, H. Joe Steinhauer, Alexander Karlsson, G\"oran Falkman, Asli Rhodin and Ashok Koppisetty(参考訳) 運転意図認識の研究は深層ニューラルネットワークにますます依存している。 ディープニューラルネットワークは多くの異なるタスクでトップパフォーマンスを達成したが、ネットワークアーキテクチャの複雑さとパフォーマンスを明示的に分析するのは一般的ではない。 そこで本研究では,ニューラルネットワークアーキテクチャが計算能力に制限のある現実世界の安全クリティカルアプリケーションに与える影響を,ニューラルネットワーク探索を用いて検討する。 本研究では、時系列データ(長期記憶、時間畳み込み、時系列変換器層)を扱うことができる3種類のディープニューラルネットワーク層に対する事前定義された探索空間と、運転意図認識性能に対する異なるデータ融合戦略の影響について検討する。 2つの運転意図認識データセットに対して8つの探索戦略を評価する。 2つのデータセットについて、より優れたディープニューラルネットワークアーキテクチャを明らかにサンプリングする検索戦略がないことを観察した。 しかし、アーキテクチャ検索を行うことで、元の手動設計のネットワークと比較してモデル性能が向上する。 さらに,モデル複雑性の増加と運転意図認識性能の関係は観察されなかった。 その結果、ディープニューラルネットワーク層の種類や融合戦略に関わらず、複数のアーキテクチャが同様のパフォーマンスをもたらすことが示されている。

Driver intention recognition studies increasingly rely on deep neural networks. Deep neural networks have achieved top performance for many different tasks, but it is not a common practice to explicitly analyse the complexity and performance of the network's architecture. Therefore, this paper applies neural architecture search to investigate the effects of the deep neural network architecture on a real-world safety critical application with limited computational capabilities. We explore a pre-defined search space for three deep neural network layer types that are capable to handle sequential data (a long-short term memory, temporal convolution, and a time-series transformer layer), and the influence of different data fusion strategies on the driver intention recognition performance. A set of eight search strategies are evaluated for two driver intention recognition datasets. For the two datasets, we observed that there is no search strategy clearly sampling better deep neural network architectures. However, performing an architecture search does improve the model performance compared to the original manually designed networks. Furthermore, we observe no relation between increased model complexity and higher driver intention recognition performance. The result indicate that multiple architectures yield similar performance, regardless of the deep neural network layer type or fusion strategy.
翻訳日:2024-02-09 17:43:42 公開日:2024-02-07
# flowpg: フローを正規化するアクション制約付きポリシー勾配

FlowPG: Action-constrained Policy Gradient with Normalizing Flows ( http://arxiv.org/abs/2402.05149v1 )

ライセンス: Link先を確認
Janaka Chathuranga Brahmanage, Jiajing Ling, Akshat Kumar(参考訳) ACRL(Action-Constrained reinforcement learning)は、安全クリティカルおよびリソース割り当てに関連する意思決定問題を解決するための一般的な手法である。 ACRLにおける大きな課題は、各RLステップの制約を満たす有効なアクションを取るエージェントを確保することである。 ポリシネットワーク上でプロジェクション層を使用する場合、一般的に使用されるアプローチでは、トレーニング時間が長くなり、収束が遅く、勾配問題もゼロになる最適化プログラムの解決が必要となる。 これを解決するために、まず正規化フローモデルを用いて、実現可能な作用空間とガウスのような潜在変数上の単純分布のサポートの間の可逆微分可能写像を学習する。 第二に、フローモデルを学ぶには、実行可能なアクション空間からサンプリングする必要がある。 本研究では, 凸および非凸制約に対する動作サンプリングのためのハミルトニアンモンテカルロと確率的センテンシャル決定図に基づいて, 複数の手法を開発した。 第3に、学習した正規化フローとDDPGアルゴリズムを統合する。 設計により、よく訓練された正規化フローは、最適化解法を必要とせず、ポリシー出力を有効なアクションに変換する。 経験上、このアプローチは制約違反(複数のインスタンスの桁違いな値まで)をかなり少なくし、さまざまな連続制御タスクで複数倍高速になります。

Action-constrained reinforcement learning (ACRL) is a popular approach for solving safety-critical and resource-allocation related decision making problems. A major challenge in ACRL is to ensure agent taking a valid action satisfying constraints in each RL step. Commonly used approach of using a projection layer on top of the policy network requires solving an optimization program which can result in longer training time, slow convergence, and zero gradient problem. To address this, first we use a normalizing flow model to learn an invertible, differentiable mapping between the feasible action space and the support of a simple distribution on a latent variable, such as Gaussian. Second, learning the flow model requires sampling from the feasible action space, which is also challenging. We develop multiple methods, based on Hamiltonian Monte-Carlo and probabilistic sentential decision diagrams for such action sampling for convex and non-convex constraints. Third, we integrate the learned normalizing flow with the DDPG algorithm. By design, a well-trained normalizing flow will transform policy output into a valid action without requiring an optimization solver. Empirically, our approach results in significantly fewer constraint violations (upto an order-of-magnitude for several instances) and is multiple times faster on a variety of continuous control tasks.
翻訳日:2024-02-09 17:43:22 公開日:2024-02-07
# 不毛高原を避けるための進化最適化の有望な道

The promising path of evolutionary optimization to avoid barren plateaus ( http://arxiv.org/abs/2402.05227v1 )

ライセンス: Link先を確認
Jakab N\'adori, Gregory Morse, Zita Majnay-Tak\'acs, Zolt\'an Zimbor\'as, P\'eter Rakyta(参考訳) 変分量子アルゴリズムは、近い将来のデバイスで量子優位を示す有望な候補と見なされる。 これらのアプローチは典型的には古典的な最適化ループを通してパラメータ化量子回路を訓練する。 しかし、バレンプラトー(BP)問題として知られる指数関数的に減少する勾配成分に起因する問題にしばしば遭遇する。 本研究は、回路トレーニング中のBPの悪影響を軽減するために設計された新しい最適化手法を提案する。 最適化探索方向を選定するアプローチは,コスト関数景観の遠方の特徴に依存する。 これにより、外部制御機構を必要とせずに、バレン高原を移動する最適化パスが可能になる。 我々は16ドルキュービットと15,000ドルのエンタングゲートからなる量子回路に最適化戦略を適用し、BPに対する堅牢な抵抗を実証した。 さらに,我々は,進化的選択フレームワークを組み込んだ最適化戦略を拡張し,景観における局所的ミニマの回避能力を高めた。 修正アルゴリズムは量子ゲート合成アプリケーションでうまく利用され、従来の勾配に基づく最適化手法と比較して、高度に圧縮された量子回路を生成する際の効率が大幅に向上していることを示している。

Variational quantum algorithms are viewed as promising candidates for demonstrating quantum advantage on near-term devices. These approaches typically involve the training of parameterized quantum circuits through a classical optimization loop. However, they often encounter challenges attributed to the exponentially diminishing gradient components, known as the barren plateau (BP) problem. This work introduces a novel optimization method designed to alleviate the adverse effects of BPs during circuit training. Our approach to select the optimization search direction relies on the distant features of the cost-function landscape. This enables the optimization path to navigate around barren plateaus without the need for external control mechanisms. We have successfully applied our optimization strategy to quantum circuits comprising $16$ qubits and $15000$ entangling gates, demonstrating robust resistance against BPs. Additionally, we have extended our optimization strategy by incorporating an evolutionary selection framework, enhancing its ability to avoid local minima in the landscape. The modified algorithm has been successfully utilized in quantum gate synthesis applications, showcasing a significantly improved efficiency in generating highly compressed quantum circuits compared to traditional gradient-based optimization approaches.
翻訳日:2024-02-09 17:36:51 公開日:2024-02-07
# VerAs: VerifyがSTEM Labのレポートを評価

VerAs: Verify then Assess STEM Lab Reports ( http://arxiv.org/abs/2402.05224v1 )

ライセンス: Link先を確認
Berk Atil, Mahsa Sheikhi Karizaki, Rebecca J. Passonneau(参考訳) 批判的思考スキルへのSTEM教育への注目が高まる中、科学の執筆は調査スキルを強調するカリキュラムにおいてさらに重要な役割を担っている。 最近発表された2組の大学レベルの研究室レポートのデータセットは、複数の次元を利用する解析的評価ルーリックに依存しており、主題の知識と良い説明の一般的な構成要素を規定している。 各分析次元は6ポイントスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。 手動のアセスメントは遅くなり、大きなクラスのすべての生徒の一貫性の調整が困難になる。 STEMの被験者におけるオープンエンド質問の自動評価には多くの作業があるが、ラボレポートのような長文の執筆には、はるかに少ない作業がなされている。 我々は,Open Domain Question Answering (OpenQA) のアプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。 VerAsはまず、あるレポートが与えられたルーリック次元に関連する内容を含むかどうかを検証し、もしそうであれば、関連する文を評価する。 研究室のレポートでは、VerAsはOpenQAシステムまたはAutomated Essay Scoring(AES)に基づいて複数のベースラインを上回ります。 VerAsは、中学の物理学エッセイの分析ルーブリックでもうまく機能している。

With an increasing focus in STEM education on critical thinking skills, science writing plays an ever more important role in curricula that stress inquiry skills. A recently published dataset of two sets of college level lab reports from an inquiry-based physics curriculum relies on analytic assessment rubrics that utilize multiple dimensions, specifying subject matter knowledge and general components of good explanations. Each analytic dimension is assessed on a 6-point scale, to provide detailed feedback to students that can help them improve their science writing skills. Manual assessment can be slow, and difficult to calibrate for consistency across all students in large classes. While much work exists on automated assessment of open-ended questions in STEM subjects, there has been far less work on long-form writing such as lab reports. We present an end-to-end neural architecture that has separate verifier and assessment modules, inspired by approaches to Open Domain Question Answering (OpenQA). VerAs first verifies whether a report contains any content relevant to a given rubric dimension, and if so, assesses the relevant sentences. On the lab reports, VerAs outperforms multiple baselines based on OpenQA systems or Automated Essay Scoring (AES). VerAs also performs well on an analytic rubric for middle school physics essays.
翻訳日:2024-02-09 17:36:18 公開日:2024-02-07
# タイムアウト・フラキネスの改ざん--サップ・ハナの実証研究

Taming Timeout Flakiness: An Empirical Study of SAP HANA ( http://arxiv.org/abs/2402.05223v1 )

ライセンス: Link先を確認
Alexander Berndt, Sebastian Baltes, Thomas Bach(参考訳) 回帰テストは、コードの変更が既存の機能を壊すことを防ぐことを目的としている。 不安定なテストは、コードの変更によって必ずしも引き起こされないテストの失敗を生じるため、回帰テストに悪影響を及ぼすため、あいまいなシグナルを提供する。 テストタイムアウトは、このような不安定なテスト失敗の要因のひとつです。 SAP HANAにおけるテストのフレキネスを低減することを目的として,テストタイムアウトがシステムテストのフレキネスに与える影響を実証研究した。 我々は、タイムアウト値を自動調整するための様々なアプローチを評価し、実行時間コストを削減し、ビルドのターンアラウンド時間を改善するための適合性を評価する。 SAP HANAのテスト実行のメタデータは、同じコード修正で6ヶ月にわたって繰り返しテストを実行することで収集する。 テストフレキネス率を分析し,テストタイムアウト値の進化を調査し,タイムアウト値を最適化するための異なるアプローチを評価した。 テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。 テストタイムアウトは、不安定なテスト失敗の70%を占める。 開発者は通常、タイムアウト値を手動で増やしたり、長時間実行するテストを分割することで、不安定なタイムアウトに反応する。 しかし、手動でタイムアウト値を調整するのは面倒な作業です。 タイムアウト最適化のアプローチは、タイムアウトに伴う不安定な障害を80%削減し、全体の中央値のタイムアウト値を25%削減します。 テストタイムアウトは、システムテストにおけるフラキネスの主要な要因である。 開発者がこの問題を効果的に軽減することは難しい。 タイムアウト値を最適化する手法は、テストコストを最小化しながら、不安定な故障を減らす。 大規模産業ソフトウェアシステムに取り組んでいる実践者は、我々の発見を利用してシステムテストの有効性を高めつつ、開発者が手動で適切なタイムアウト値を維持できる負担を軽減できます。

Regression testing aims to prevent code changes from breaking existing features. Flaky tests negatively affect regression testing because they result in test failures that are not necessarily caused by code changes, thus providing an ambiguous signal. Test timeouts are one contributing factor to such flaky test failures. With the goal of reducing test flakiness in SAP HANA, we empirically study the impact of test timeouts on flakiness in system tests. We evaluate different approaches to automatically adjust timeout values, assessing their suitability for reducing execution time costs and improving build turnaround times. We collect metadata on SAP HANA's test executions by repeatedly executing tests on the same code revision over a period of six months. We analyze the test flakiness rate, investigate the evolution of test timeout values, and evaluate different approaches for optimizing timeout values. The test flakiness rate ranges from 49% to 70%, depending on the number of repeated test executions. Test timeouts account for 70% of flaky test failures. Developers typically react to flaky timeouts by manually increasing timeout values or splitting long-running tests. However, manually adjusting timeout values is a tedious task. Our approach for timeout optimization reduces timeout-related flaky failures by 80% and reduces the overall median timeout value by 25%, i.e., blocked tests are identified faster. Test timeouts are a major contributing factor to flakiness in system tests. It is challenging for developers to effectively mitigate this problem manually. Our technique for optimizing timeout values reduces flaky failures while minimizing test costs. Practitioners working on large-scale industrial software systems can use our findings to increase the effectiveness of their system tests while reducing the burden on developers to manually maintain appropriate timeout values.
翻訳日:2024-02-09 17:35:40 公開日:2024-02-07
# 脱落したガウス混合専門家のパラメータ推定について

On Parameter Estimation in Deviated Gaussian Mixture of Experts ( http://arxiv.org/abs/2402.05220v1 )

ライセンス: Link先を確認
Huy Nguyen and Khai Nguyen and Nhat Ho(参考訳) We consider the parameter estimation problem in the deviated Gaussian mixture of experts in which the data are generated from $(1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, where $X, Y$ are respectively a covariate vector and a response variable, $g_{0}(Y|X)$ is a known function, $\lambda^{\ast} \in [0, 1]$ is true but unknown mixing proportion, and $(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast}, \sigma_{i}^{\ast})$ for $1 \leq i \leq k^{\ast}$ are unknown parameters of the Gaussian mixture of experts. この問題は、データが$g_{0}(Y|X)$(null仮説)から生成されるか、あるいはそれらが混合全体(代替仮説)から生成されるかを検証したいときに、適合性テストから生じる。 エキスパート関数の代数的構造と$g_0$と混合部分との区別性に基づいて、我々はモデルに対する最大推定(MLE)の収束率を取得するために新しいボロノイ型損失関数を構築した。 さらに,提案する損失関数は一般化ワッサースタインよりもパラメータ推定の局所収束率をより正確に特徴付けることを示し,ガウス混合専門家のパラメータ推定によく用いられる損失関数である。

We consider the parameter estimation problem in the deviated Gaussian mixture of experts in which the data are generated from $(1 - \lambda^{\ast}) g_0(Y| X)+ \lambda^{\ast} \sum_{i = 1}^{k_{\ast}} p_{i}^{\ast} f(Y|(a_{i}^{\ast})^{\top}X+b_i^{\ast},\sigma_{i}^{\ast})$, where $X, Y$ are respectively a covariate vector and a response variable, $g_{0}(Y|X)$ is a known function, $\lambda^{\ast} \in [0, 1]$ is true but unknown mixing proportion, and $(p_{i}^{\ast}, a_{i}^{\ast}, b_{i}^{\ast}, \sigma_{i}^{\ast})$ for $1 \leq i \leq k^{\ast}$ are unknown parameters of the Gaussian mixture of experts. This problem arises from the goodness-of-fit test when we would like to test whether the data are generated from $g_{0}(Y|X)$ (null hypothesis) or they are generated from the whole mixture (alternative hypothesis). Based on the algebraic structure of the expert functions and the distinguishability between $g_0$ and the mixture part, we construct novel Voronoi-based loss functions to capture the convergence rates of maximum likelihood estimation (MLE) for our models. We further demonstrate that our proposed loss functions characterize the local convergence rates of parameter estimation more accurately than the generalized Wasserstein, a loss function being commonly used for estimating parameters in the Gaussian mixture of experts.
翻訳日:2024-02-09 17:34:31 公開日:2024-02-07
# グリオーマ分節に対する自己校正畳み込み

Self-calibrated convolution towards glioma segmentation ( http://arxiv.org/abs/2402.05218v1 )

ライセンス: Link先を確認
Felipe C. R. Salvagnini and Gerson O. Barbosa and Alexandre X. Falcao and Cid A. N. Santos(参考訳) t1, t2, t2-flair, t1-gdなど、複数のプロトコルの3dmr画像の専門医の徹底的な検査を避けるため、疾患の初期段階における正確な脳腫瘍の分断は治療の有効性に不可欠である。 Gliomaセグメンテーションにはいくつかのネットワークがあり、nU-Netが最良である。 本研究では,nnU-Netネットワークの異なる部分における自己校正畳み込みの評価を行い,スイッチ接続における自己校正加群が,腫瘍分割精度を保ちながら,腫瘍分割精度と腫瘍コアセグメンテーション精度を大幅に向上できることを示す。

Accurate brain tumor segmentation in the early stages of the disease is crucial for the treatment's effectiveness, avoiding exhaustive visual inspection of a qualified specialist on 3D MR brain images of multiple protocols (e.g., T1, T2, T2-FLAIR, T1-Gd). Several networks exist for Glioma segmentation, being nnU-Net one of the best. In this work, we evaluate self-calibrated convolutions in different parts of the nnU-Net network to demonstrate that self-calibrated modules in skip connections can significantly improve the enhanced-tumor and tumor-core segmentation accuracy while preserving the wholetumor segmentation accuracy.
翻訳日:2024-02-09 17:33:59 公開日:2024-02-07
# Linuxカーネルエコシステムにおけるパッチポーティング手法の検討

An Investigation of Patch Porting Practices of the Linux Kernel Ecosystem ( http://arxiv.org/abs/2402.05212v1 )

ライセンス: Link先を確認
Xingyu Li, Zheng Zhang, Zhiyun Qian, Trent Jaeger, Chengyu Song(参考訳) オープンソースソフトウェアはますます再利用され、バグ修正のプロセスが複雑になる。 Linuxの場合、Linuxのメインラインは、メインラインからフォークされたアップストリーム、安定または長期サポート(LTS)システムとして機能し、UbuntuやAndroidのようなLinuxディストリビューションは、エンドユーザーの使用のために、安定またはLTSシステムからフォークされたダウンストリームとして機能する。 理想的には、linux上流でパッチがコミットされた場合、新しいバグを導入し、適切なダウンストリームブランチすべてにタイムリーに移植するべきではない。 しかしながら、linuxエコシステムにおけるパッチ移植の応答性に関する以前の作業では、いくつかの懸念が述べられている。 本稿では,Linux と LTS を併用して,Linux の分布範囲を調査するソフトウェアリポジトリについて検討し,その現象を説明するためのパッチポーティング戦略と能力レベルについて検討する。 さらに,パッチ遅延,パッチ率,バグ継承率の3つの指標を用いて,移植戦略が異なるトレードオフがあることを具体的に示す。 ヒントタグ(例えば、Ccの安定タグと修正タグ)は、パッチポーティングの即時ポーティングにおいて非常に重要であるが、パッチのかなりの部分がこれらの表示タグを欠いていることは注目に値する。 最後に、エコシステムにおける様々な利害関係者間の相互作用やヒントタグの自動生成など、一般的なパッチフローの分析に基づくレコメンデーションと、特定のポーティング戦略に対する適切な提案を提供する。

Open-source software is increasingly reused, complicating the process of patching to repair bugs. In the case of Linux, a distinct ecosystem has formed, with Linux mainline serving as the upstream, stable or long-term-support (LTS) systems forked from mainline, and Linux distributions, such as Ubuntu and Android, as downstreams forked from stable or LTS systems for end-user use. Ideally, when a patch is committed in the Linux upstream, it should not introduce new bugs and be ported to all the applicable downstream branches in a timely fashion. However, several concerns have been expressed in prior work about the responsiveness of patch porting in this Linux ecosystem. In this paper, we mine the software repositories to investigate a range of Linux distributions in combination with Linux stable and LTS, and find diverse patch porting strategies and competence levels that help explain the phenomenon. Furthermore, we show concretely using three metrics, i.e., patch delay, patch rate, and bug inheritance ratio, that different porting strategies have different tradeoffs. We find that hinting tags(e.g., Cc stable tags and fixes tags) are significantly important to the prompt patch porting, but it is noteworthy that a substantial portion of patches remain devoid of these indicative tags. Finally, we offer recommendations based on our analysis of the general patch flow, e.g., interactions among various stakeholders in the ecosystem and automatic generation of hinting tags, as well as tailored suggestions for specific porting strategies.
翻訳日:2024-02-09 17:33:27 公開日:2024-02-07
# ベルマン共形推論:時系列の予測間隔の校正

Bellman Conformal Inference: Calibrating Prediction Intervals For Time Series ( http://arxiv.org/abs/2402.05203v1 )

ライセンス: Link先を確認
Zitong Yang, Emmanuel Cand\`es, Lihua Lei(参考訳) 我々はBellman Conformal Inference (BCI)を紹介した。これは時系列予測モデルをラップし、キャリブレーションされた予測間隔を提供するフレームワークである。 既存の手法とは異なり、bciは時間ステップごとに1次元確率制御問題(scp)を解いて、多段階予測を活用し、平均間隔長を明示的に最適化することができる。 特に、動的プログラミングアルゴリズムを用いて、SCPの最適ポリシーを求める。 任意の分布シフトと時間的依存の下で,BCIが長期的カバレッジを達成することを実証する。 実験により, BCIは無限長の不定形区間を回避し, 既存の手法と比較した場合, 変動予測問題に対する予測間隔を著しく短くすることがわかった。

We introduce Bellman Conformal Inference (BCI), a framework that wraps around any time series forecasting models and provides calibrated prediction intervals. Unlike the existing methods, BCI is able to leverage multi-step ahead forecasts and explicitly optimize the average interval lengths by solving a one-dimensional stochastic control problem (SCP) at each time step. In particular, we use the dynamic programming algorithm to find the optimal policy for the SCP. We prove that BCI achieves long-term coverage under arbitrary distribution shifts and temporal dependence, even with poor multi-step ahead forecasts. We find empirically that BCI avoids uninformative intervals that have infinite lengths and generates substantially shorter prediction intervals on volatility forecasting problems when compared with existing methods.
翻訳日:2024-02-09 17:32:59 公開日:2024-02-07
# 大規模言語モデルの問題解決におけるサンプリング温度の影響

The Effect of Sampling Temperature on Problem Solving in Large Language Models ( http://arxiv.org/abs/2402.05201v1 )

ライセンス: Link先を確認
Matthew Renze and Erhan Guven(参考訳) 本研究では,様々な課題に対する大規模言語モデル(llm)の性能に及ぼすサンプリング温度の影響を実証的に検討する。 我々は,標準LLMベンチマークからランダムに問題をサンプリングし,MCQA(Multi-choice Question-and-Awer)試験を作成した。 次に,5つのプロンプトエンジニアリング技術を用いた4つの一般的なLCMを用いて,サンプリング温度を0.0から1.0に高めながらMCQA問題を解く。 その結果,0.0~1.0の範囲の温度変化は,問題解決タスクのllm性能に統計的に有意な影響を及ぼさないことがわかった。 さらに, これらの結果は, LLM, プロンプトエンジニアリング技術, 問題領域によらず有効であると考えられる。 GitHubでは、すべてのコード、データ、補足資料が、https://github.com/matthewrenze/jhu-llm-temperature.comで公開されている。

In this research study, we empirically investigate the effect of sampling temperature on the performance of Large Language Models (LLMs) on various problem-solving tasks. We created a multiple-choice question-and-answer (MCQA) exam by randomly sampling problems from standard LLM benchmarks. Then, we used four popular LLMs with five prompt-engineering techniques to solve the MCQA problems while increasing the sampling temperature from 0.0 to 1.0. Despite anecdotal reports to the contrary, our empirical results indicate that changes in temperature in the range 0.0 to 1.0 do not have a statistically significant impact on LLM performance for problem-solving tasks. In addition, these results appear to hold regardless of the LLM, the prompt-engineering technique, or the problem domain. All code, data, and supplemental materials are available on GitHub at: https://github.com/matthewrenze/jhu-llm-temperature.
翻訳日:2024-02-09 17:32:44 公開日:2024-02-07
# LLMは現実世界の材料発見の準備が整っているか?

Are LLMs Ready for Real-World Materials Discovery? ( http://arxiv.org/abs/2402.05200v1 )

ライセンス: Link先を確認
Santiago Miret, N M Anoop Krishnan(参考訳) 大規模言語モデル(LLM)は、材料科学の研究を加速する強力な言語処理ツールのエキサイティングな可能性を生み出します。 LLMは物質の理解と発見を加速する大きな可能性を秘めているが、現在は実用的な材料科学ツールとして不足している。 本稿では, 材料科学におけるLLMの失敗事例について, 複雑で相互接続された材料科学知識に対する理解と推論に関連するLLMの現在の限界を明らかにする。 これらの欠点を踏まえ、材料科学知識と仮説生成を基盤とした材料科学LLM(MatSci-LLMs)の開発のための枠組みを概説する。 MatSci-LLMsの達成への道は、様々な情報抽出課題が持続する科学文献から得られた高品質でマルチモーダルなデータセットの構築に大きく依存している。 そこで本研究では,材料科学の貴重な知識を収集する大規模マルチモーダルデータセットを構築するために,克服すべき重要な材料科学情報抽出課題について述べる。 最後に、実際の材料発見に将来のMatSci-LLMを適用するロードマップを概説する。 1.知識ベースの自動生成 2. シリコン内材料設計の自動化 3.MtSci-LLM統合自動運転材料研究所

Large Language Models (LLMs) create exciting possibilities for powerful language processing tools to accelerate research in materials science. While LLMs have great potential to accelerate materials understanding and discovery, they currently fall short in being practical materials science tools. In this position paper, we show relevant failure cases of LLMs in materials science that reveal current limitations of LLMs related to comprehending and reasoning over complex, interconnected materials science knowledge. Given those shortcomings, we outline a framework for developing Materials Science LLMs (MatSci-LLMs) that are grounded in materials science knowledge and hypothesis generation followed by hypothesis testing. The path to attaining performant MatSci-LLMs rests in large part on building high-quality, multi-modal datasets sourced from scientific literature where various information extraction challenges persist. As such, we describe key materials science information extraction challenges which need to be overcome in order to build large-scale, multi-modal datasets that capture valuable materials science knowledge. Finally, we outline a roadmap for applying future MatSci-LLMs for real-world materials discovery via: 1. Automated Knowledge Base Generation; 2. Automated In-Silico Material Design; and 3. MatSci-LLM Integrated Self-Driving Materials Laboratories.
翻訳日:2024-02-09 17:32:34 公開日:2024-02-07
# 近傍近傍のハミルトニアンの数値的効率的ユニタリ進化

Numerically efficient unitary evolution for Hamiltonians beyond nearest-neighbors ( http://arxiv.org/abs/2402.05198v1 )

ライセンス: Link先を確認
Alberto Giuseppe Catalano(参考訳) 行列積状態 (MPSs) と行列積作用素 (MPOs) は、量子多体系の研究、特に時間進化ブロック決定 (TEBD) のようなテンソルネットワーク手法の文脈における基本的なツールである。 しかし、AMO系や環幾何系で生じるような、最も近い隣り合う相互作用を持つハミルトニアンのコンパクトMPO表現を構築することは、依然として課題である。 本稿ではスピンハミルトニアンの指数関数に特化して調整されたコンパクトMPOの直接構成のための新しいアプローチを提案する。 このアプローチは、TEBDを用いて、長距離スピンチェーンや周期系、より複雑なクラスタモデルなどの隣り合う相互作用を持つスピン系と、2つ以上のスピンを含む相互作用を持つより効率的な時間進化を可能にする。

Matrix product states (MPSs) and matrix product operators (MPOs) are fundamental tools in the study of quantum many-body systems, particularly in the context of tensor network methods such as Time-Evolving Block Decimation (TEBD). However, constructing compact MPO representations for Hamiltonians with interactions beyond nearest-neighbors, such as those arising in AMO systems or in systems with ring geometry, remains a challenge. In this paper, we propose a novel approach for the direct construction of compact MPOs tailored specifically for the exponential of spin Hamiltonians. This approach allows for a more efficient time evolution, using TEBD, of spin systems with interactions beyond nearest-neighbors, such as long-range spin-chains, periodic systems and more complex cluster model, with interactions involving more than two spins.
翻訳日:2024-02-09 17:32:16 公開日:2024-02-07
# $\lambda$-ECLIPSE:CLIP遅延空間を活用するマルチコンセプトパーソナライズされたテキスト-画像拡散モデル

$\lambda$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space ( http://arxiv.org/abs/2402.05195v1 )

ライセンス: Link先を確認
Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang(参考訳) パーソナライズされたテキスト・ツー・イメージ(p-t2i)生成モデルの進歩にもかかわらず、主題駆動型t2iは依然として困難である。 主なボトルネックは 1)集中訓練資源要件 2)過パラメータ感度が不整合アウトプットにつながること、及び 3)新しい視覚概念とコンポジションアライメントの複雑さのバランスをとる。 まず、上記の制限に対処するために、T2I拡散モデルのコア哲学を再考する。 典型的には、現代の被写体駆動型T2Iは遅延拡散モデル (LDMs) 上のヒンジにアプローチし、T2Iマッピングを横断的な層を通して促進する。 ldmsは異なる利点を提供しているが、p-t2i法はこれらの拡散モデルの潜在空間に依存しており、リソース要求を著しくエスカレートする。 近年、ECLIPSEは、UnCLIPベースのT2Iモデルをトレーニングするためのよりリソース効率の良い経路を示しており、画像への拡散テキストの必要性を回避している。 これに基づいて$\lambda$-ECLIPSEを導入します。 実効的p-t2iは拡散モデルの潜在空間に必ずしも依存しないことを示す。 $\lambda$-ECLIPSEは、たった34Mパラメータで単一、マルチオブジェクト、エッジガイダンスのT2Iパーソナライゼーションを実現し、1.6Mイメージテキストインターリーブデータを使用してわずか74GPU時間でトレーニングされる。 広範な実験を通じて、$\lambda$-ECLIPSEは、リソース利用率が著しく低い場合でも、コンポジションアライメントにおける既存のベースラインを超えながら、概念アライメント性能を保っていることも確認した。

Despite the recent advances in personalized text-to-image (P-T2I) generative models, subject-driven T2I remains challenging. The primary bottlenecks include 1) Intensive training resource requirements, 2) Hyper-parameter sensitivity leading to inconsistent outputs, and 3) Balancing the intricacies of novel visual concept and composition alignment. We start by re-iterating the core philosophy of T2I diffusion models to address the above limitations. Predominantly, contemporary subject-driven T2I approaches hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. Recently, ECLIPSE has demonstrated a more resource-efficient pathway for training UnCLIP-based T2I models, circumventing the need for diffusion text-to-image priors. Building on this, we introduce $\lambda$-ECLIPSE. Our method illustrates that effective P-T2I does not necessarily depend on the latent space of diffusion models. $\lambda$-ECLIPSE achieves single, multi-subject, and edge-guided T2I personalization with just 34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text interleaved data. Through extensive experiments, we also establish that $\lambda$-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization.
翻訳日:2024-02-09 17:32:01 公開日:2024-02-07
# JAX-Fluids 2.0:圧縮性二相流の微分CFDのためのHPCに向けて

JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible Two-phase Flows ( http://arxiv.org/abs/2402.05193v1 )

ライセンス: Link先を確認
Deniz A. Bezgin, Aaron B. Buhendwa, Nikolaus A. Adams(参考訳) 機械学習支援計算流体力学(CFD)の実現に向けて,JAX-Fluidsの第2イテレーションを紹介する。 JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。 この作業において、最初のバージョンは高性能コンピューティング(HPC)機能を組み込むように拡張されている。 我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。 さらに,拡張積分軌道上での自動微分勾配の安定な並列計算を実証する。 新しいコードバージョンは強化された2相フローモデリング機能を提供する。 特に、レベルセットのシャープインターフェースモデルを補完する5方程式拡散インタフェースモデルが組み込まれている。 他にもアルゴリズムの改善として、ロバスト性向上のための実証保存リミッタ、拡張されたCartesianメッシュのサポート、リファクタリングされたI/Oハンドリング、包括的な後処理ルーチン、最先端の高次数値離散化スキームの更新リストなどがある。 乱流境界層と流路流, 気-ヘリウム衝撃気泡相互作用, 気-水衝撃滴相互作用などの単相流と二相流のシミュレーション結果を示し, 新たに追加された数値モデルを検証する。

In our effort to facilitate machine learning-assisted computational fluid dynamics (CFD), we introduce the second iteration of JAX-Fluids. JAX-Fluids is a Python-based fully-differentiable CFD solver designed for compressible single- and two-phase flows. In this work, the first version is extended to incorporate high-performance computing (HPC) capabilities. We introduce a parallelization strategy utilizing JAX primitive operations that scales efficiently on GPU (up to 512 NVIDIA A100 graphics cards) and TPU (up to 1024 TPU v3 cores) HPC systems. We further demonstrate the stable parallel computation of automatic differentiation gradients across extended integration trajectories. The new code version offers enhanced two-phase flow modeling capabilities. In particular, a five-equation diffuse-interface model is incorporated which complements the level-set sharp-interface model. Additional algorithmic improvements include positivity-preserving limiters for increased robustness, support for stretched Cartesian meshes, refactored I/O handling, comprehensive post-processing routines, and an updated list of state-of-the-art high-order numerical discretization schemes. We verify newly added numerical models by showcasing simulation results for single- and two-phase flows, including turbulent boundary layer and channel flows, air-helium shock bubble interactions, and air-water shock drop interactions.
翻訳日:2024-02-09 17:31:26 公開日:2024-02-07
# InCoRo:フィードバックループを用いたロボット制御のためのインコンテキスト学習

InCoRo: In-Context Learning for Robotics Control with Feedback Loops ( http://arxiv.org/abs/2402.05188v1 )

ライセンス: Link先を確認
Jiaqiang Ye Zhu, Carla Gomez Cano, David Vazquez Bermudez and Michal Drozdzal(参考訳) ロボット工学の課題の1つは、動的環境で複雑なタスクを実行するのに十分な堅牢な推論能力を持つロボットユニットを実現することである。 LLMの最近の進歩は、簡単な推論タスクのためのゴートツーツールとして位置づけられ、Liangらの先駆的な業績を動機付けている。 LLMを使って自然言語コマンドをロボットユニットの低レベル静的実行計画に変換する[35]。 ロボットシステム内でllmを使用すると、新しいレベルに一般化され、新しいタスクへのゼロショット一般化が可能になる。 本稿では,この先行研究を動的環境に拡張する。 本研究では,LLMコントローラ,シーン理解ユニット,ロボットからなる古典的なロボットフィードバックループを利用するシステムであるInCoRoを提案する。 本システムは環境の状態を連続的に分析し,適応的な実行コマンドを提供することで,ロボットが環境条件の変化に適応し,コントローラエラーの修正を可能にする。 我々のシステムでは,既成のLLMモデルを用いてコンテキスト内学習を活用するため,タスクの達成に反復的な最適化は必要としない。 scara型とdelta型という2つの標準化された産業用ロボットユニットを含む広範な検証プロセスを通じて、私たちはこれらのロボットに関する知識を提供し、コミュニティでは人気がありません。 本研究では,(1)現状のLLMと組み合わせたコンテキスト内学習がロボットコントローラの実装に有効であること,(2)静的環境では,InCoRoが成功率で先行技術を上回ること,(3)動的環境では,SCARAユニットとDELTAユニットにそれぞれ新しい最先端技術を確立すること,を示す。 この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。

One of the challenges in robotics is to enable robotic units with the reasoning capability that would be robust enough to execute complex tasks in dynamic environments. Recent advances in LLMs have positioned them as go-to tools for simple reasoning tasks, motivating the pioneering work of Liang et al. [35] that uses an LLM to translate natural language commands into low-level static execution plans for robotic units. Using LLMs inside robotics systems brings their generalization to a new level, enabling zero-shot generalization to new tasks. This paper extends this prior work to dynamic environments. We propose InCoRo, a system that uses a classical robotic feedback loop composed of an LLM controller, a scene understanding unit, and a robot. Our system continuously analyzes the state of the environment and provides adapted execution commands, enabling the robot to adjust to changing environmental conditions and correcting for controller errors. Our system does not require any iterative optimization to learn to accomplish a task as it leverages in-context learning with an off-the-shelf LLM model. Through an extensive validation process involving two standardized industrial robotic units -- SCARA and DELTA types -- we contribute knowledge about these robots, not popular in the community, thereby enriching it. We highlight the generalization capabilities of our system and show that (1) in-context learning in combination with the current state-of-the-art LLMs is an effective way to implement a robotic controller; (2) in static environments, InCoRo surpasses the prior art in terms of the success rate; (3) in dynamic environments, we establish new state-of-the-art for the SCARA and DELTA units, respectively. This research paves the way towards building reliable, efficient, intelligent autonomous systems that adapt to dynamic environments.
翻訳日:2024-02-09 17:31:02 公開日:2024-02-07
# ポリシーミラー降下におけるミラーマップのメタ学習

Meta-learning the mirror map in policy mirror descent ( http://arxiv.org/abs/2402.05187v1 )

ライセンス: Link先を確認
Carlo Alfano, Sebastian Towers, Silvia Sapora, Chris Lu, Patrick Rebeschini(参考訳) Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークであり、多数のアルゴリズムを含む統一的な視点として機能する。 これらのアルゴリズムはミラーマップの選択によって導出され、有限時間収束を保証する。 その人気にもかかわらず、PMDの完全な潜在能力の探索は限られており、特定のミラーマップ(すなわち負のエントロピー)に焦点を当てた研究の大部分は、有名な自然政策勾配(NPG)法を生み出している。 ミラーマップの選択がpmdの有効性に大きく影響するかどうかは、既存の理論的研究から明らかでない。 本研究では,従来のミラーマップ選択 (NPG) が,いくつかの標準ベンチマーク環境において,最適でない結果をもたらすことを示す実験的検討を行った。 メタラーニング手法を適用することで、トレーニング軌道に沿って達成される最高の性能の両面において、パフォーマンスを高めるより効率的なミラーマップを同定する。 学習したミラーマップの特徴を分析し、特定の設定間で共有特性を明らかにする。 その結果,ミラーマップは様々な環境に適応できる可能性が示唆され,ミラーマップを環境の構造や特性に最適に適合させる方法についての疑問が提起された。

Policy Mirror Descent (PMD) is a popular framework in reinforcement learning, serving as a unifying perspective that encompasses numerous algorithms. These algorithms are derived through the selection of a mirror map and enjoy finite-time convergence guarantees. Despite its popularity, the exploration of PMD's full potential is limited, with the majority of research focusing on a particular mirror map -- namely, the negative entropy -- which gives rise to the renowned Natural Policy Gradient (NPG) method. It remains uncertain from existing theoretical studies whether the choice of mirror map significantly influences PMD's efficacy. In our work, we conduct empirical investigations to show that the conventional mirror map choice (NPG) often yields less-than-optimal outcomes across several standard benchmark environments. By applying a meta-learning approach, we identify more efficient mirror maps that enhance performance, both on average and in terms of best performance achieved along the training trajectory. We analyze the characteristics of these learned mirror maps and reveal shared traits among certain settings. Our results suggest that mirror maps have the potential to be adaptable across various environments, raising questions about how to best match a mirror map to an environment's structure and characteristics.
翻訳日:2024-02-09 17:30:27 公開日:2024-02-07
# 識別超平面学習によるブラックボックス力学系の安全フィルタ

Safety Filters for Black-Box Dynamical Systems by Learning Discriminating Hyperplanes ( http://arxiv.org/abs/2402.05279v1 )

ライセンス: Link先を確認
Will Lavanakul, Jason J. Choi, Koushil Sreenath, Claire J. Tomlin(参考訳) ブラックボックス力学系における安全フィルタの効果的なアプローチとして学習ベースのアプローチが登場している。 既存の方法は、制御バリア関数(CBF)やハミルトン・ヤコビ(HJ)リーチビリティ値関数のような証明書関数に依存している。 私たちの仕事の一番の動機は、最終的には各状態における安全制約を制御入力制約として強制することが重要であるという認識です。 この制約に焦点を当てることで、特定の証明書機能に基づく設計への依存をなくすことができる。 これを実現するために,各状態における制御入力の半空間制約を形作る識別超平面を定式化し,安全性の十分条件とする。 この概念は、従来の安全手法を一般化するだけでなく、特定の証明書関数への依存を排除して安全フィルタ設計を単純化する。 識別超平面を学習するための2つの戦略を提案する。 (a)ラベル付けのための事前検証制御不変集合を用いた教師付き学習アプローチ b)そのようなラベルを必要としない強化学習(RL)アプローチ。 従来の安全rl法とは異なり,本手法の主な利点は性能と安全性の分離である。 これにより、新しいタスクを学習するための再利用可能な安全フィルタが提供される。 このように、差別化超平面という新しい概念は、既存の証明機能に基づくもしくは安全なRL方法論を包含し拡張し、安全フィルタを設計するためのより一般化可能な方向を提供すると考えている。

Learning-based approaches are emerging as an effective approach for safety filters for black-box dynamical systems. Existing methods have relied on certificate functions like Control Barrier Functions (CBFs) and Hamilton-Jacobi (HJ) reachability value functions. The primary motivation for our work is the recognition that ultimately, enforcing the safety constraint as a control input constraint at each state is what matters. By focusing on this constraint, we can eliminate dependence on any specific certificate function-based design. To achieve this, we define a discriminating hyperplane that shapes the half-space constraint on control input at each state, serving as a sufficient condition for safety. This concept not only generalizes over traditional safety methods but also simplifies safety filter design by eliminating dependence on specific certificate functions. We present two strategies to learn the discriminating hyperplane: (a) a supervised learning approach, using pre-verified control invariant sets for labeling, and (b) a reinforcement learning (RL) approach, which does not require such labels. The main advantage of our method, unlike conventional safe RL approaches, is the separation of performance and safety. This offers a reusable safety filter for learning new tasks, avoiding the need to retrain from scratch. As such, we believe that the new notion of the discriminating hyperplane offers a more generalizable direction towards designing safety filters, encompassing and extending existing certificate-function-based or safe RL methodologies.
翻訳日:2024-02-09 17:23:31 公開日:2024-02-07
# 時系列データの階層的分類性能の検討:異種性尺度と分類比較

Exploring Hierarchical Classification Performance for Time Series Data: Dissimilarity Measures and Classifier Comparisons ( http://arxiv.org/abs/2402.05275v1 )

ライセンス: Link先を確認
Celal Alagoz(参考訳) 本研究では,時系列データ解析分野における階層分類(hc)と平坦分類(fc)方法論の比較性能について検討した。 Jensen-Shannon Distance (JSD), Task similarity Distance (TSD), Classifier Based Distance (CBD) などの異種度対策は, MINIROCKET, STSF, SVM などの様々な分類器とともに活用されている。 UCRアーカイブからのデータセットのサブセットは、2つ以上のクラスからなるマルチクラスケースに焦点を当て、分析に使用される。 TSDを用いたMINIROCKETと組み合わせた場合,HCはFCよりも有意な優位性を示す傾向が観察された。 逆に、FCはSTSFやSVMのような代替の分類器を使用する場合、すべての構成において一貫した優位性を示す。 さらに、CBDが優れた性能を示すSTSF分類器を含む場合を除いて、ほぼ全てのシナリオでCBDとJSDを一貫して上回っていることが判明した。 この相違は、相違度測定のニュアンスな性質を強調し、採用したデータセットと分類器に基づいた調整された選択の重要性を強調している。 時系列データ分析の分野における分類手法と異質性尺度のダイナミックな相互作用に関する貴重な知見が得られた。 異なる構成にまたがる性能変化を解明することにより、様々な分析シナリオのパフォーマンスを最適化するために、分類手法と相同性尺度を精査する基盤が設けられる。 さらに、時系列データ分析における分類性能を駆動するメカニズムの解明を目的とした継続的な研究の必要性が強調され、様々な領域における予測モデリングと意思決定の強化に寄与する。

The comparative performance of hierarchical classification (HC) and flat classification (FC) methodologies in the realm of time series data analysis is investigated in this study. Dissimilarity measures, including Jensen-Shannon Distance (JSD), Task Similarity Distance (TSD), and Classifier Based Distance (CBD), are leveraged alongside various classifiers such as MINIROCKET, STSF, and SVM. A subset of datasets from the UCR archive, focusing on multi-class cases comprising more than two classes, is employed for analysis. A significant trend is observed wherein HC demonstrates significant superiority over FC when paired with MINIROCKET utilizing TSD, diverging from conventional understandings. Conversely, FC exhibits consistent dominance across all configurations when employing alternative classifiers such as STSF and SVM. Moreover, TSD is found to consistently outperform both CBD and JSD across nearly all scenarios, except in instances involving the STSF classifier where CBD showcases superior performance. This discrepancy underscores the nuanced nature of dissimilarity measures and emphasizes the importance of their tailored selection based on the dataset and classifier employed. Valuable insights into the dynamic interplay between classification methodologies and dissimilarity measures in the realm of time series data analysis are provided by these findings. By elucidating the performance variations across different configurations, a foundation is laid for refining classification methodologies and dissimilarity measures to optimize performance in diverse analytical scenarios. Furthermore, the need for continued research aimed at elucidating the underlying mechanisms driving classification performance in time series data analysis is underscored, with implications for enhancing predictive modeling and decision-making in various domains.
翻訳日:2024-02-09 17:23:08 公開日:2024-02-07
# 無限状態平均回帰マルコフ決定過程における自然政策勾配の収束

Convergence for Natural Policy Gradient on Infinite-State Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2402.05274v1 )

ライセンス: Link先を確認
Isaac Grosof, Siva Theja Maguluri, R. Srikant(参考訳) 無限状態マルコフ決定プロセス(mdps)は、様々なエンジニアリング問題のモデリングと最適化に不可欠である。 強化学習(RL)では、これらのMDPを学習し、最適化するために様々なアルゴリズムが開発されている。 ナチュラル・アクター・クリティカル、TRPO、PPOなど、多くの一般的なポリシーに基づく学習アルゴリズムの中心に、Natural Policy Gradient (NPG)アルゴリズムがある。 これらのRLアルゴリズムの収束結果はNPGアルゴリズムの収束結果に依存する。 しかしながら、NPGアルゴリズムの収束に関する既存の結果はすべて有限状態設定に限られている。 我々は NPG アルゴリズムがよい初期ポリシーで初期化されている場合, NPG アルゴリズムの収束率を 1/\sqrt{T})$ で証明し, 無限状態平均回帰 MDP に対する NPG アルゴリズムの初等収束率を証明した。 さらに,大規模待ち行列型MDPの文脈では,MaxWeightポリシーは私たちの初期政治要件を満たすのに十分であり,$O(1/\sqrt{T})$コンバーゼンスレートを達成できることを示す。 この結果の鍵となるのは,NPGアルゴリズムの反復ポリシーによって達成される相対値関数の状態依存境界である。

Infinite-state Markov Decision Processes (MDPs) are essential in modeling and optimizing a wide variety of engineering problems. In the reinforcement learning (RL) context, a variety of algorithms have been developed to learn and optimize these MDPs. At the heart of many popular policy-gradient based learning algorithms, such as natural actor-critic, TRPO, and PPO, lies the Natural Policy Gradient (NPG) algorithm. Convergence results for these RL algorithms rest on convergence results for the NPG algorithm. However, all existing results on the convergence of the NPG algorithm are limited to finite-state settings. We prove the first convergence rate bound for the NPG algorithm for infinite-state average-reward MDPs, proving a $O(1/\sqrt{T})$ convergence rate, if the NPG algorithm is initialized with a good initial policy. Moreover, we show that in the context of a large class of queueing MDPs, the MaxWeight policy suffices to satisfy our initial-policy requirement and achieve a $O(1/\sqrt{T})$ convergence rate. Key to our result are state-dependent bounds on the relative value function achieved by the iterate policies of the NPG algorithm.
翻訳日:2024-02-09 17:22:40 公開日:2024-02-07
# 勾配降下は深い非線形ネットワークに対する重みと経験的NTKのアライメントを誘導する

Gradient descent induces alignment between weights and the empirical NTK for deep non-linear networks ( http://arxiv.org/abs/2402.05271v1 )

ライセンス: Link先を確認
Daniel Beaglehole, Ioannis Mitliagkas, Atish Agarwala(参考訳) ニューラルネットワークが入力ラベルペアから統計を抽出するメカニズムを理解することは、教師付き学習において最も重要な未解決問題の1つである。 以前の研究では、一般的なアーキテクチャのトレーニングニューラルネットワークにおける重量のグラム行列がモデルの平均勾配外積に比例していることが、Neural Feature Ansatz (NFA) として知られる声明で確認されている。 しかし、これらの量が訓練中に相関する理由はよく分かっていない。 本稿では,この相関関係の出現を説明する。 nfaは、重み行列の左特異構造と、それらの重みに関連する経験的神経接核の重要な構成要素の間のアライメントと等価である。 先行研究で導入されたNFAは、このアライメントを分離する中心的なNFAによって駆動される。 入力やラベルの単純な統計から,NFA開発速度を早期学習時に解析的に予測できることが示唆された。 最後に,任意の層におけるNFA相関を高めるための簡単な介入を導入し,学習した特徴の質を劇的に向上させる。

Understanding the mechanisms through which neural networks extract statistics from input-label pairs is one of the most important unsolved problems in supervised learning. Prior works have identified that the gram matrices of the weights in trained neural networks of general architectures are proportional to the average gradient outer product of the model, in a statement known as the Neural Feature Ansatz (NFA). However, the reason these quantities become correlated during training is poorly understood. In this work, we explain the emergence of this correlation. We identify that the NFA is equivalent to alignment between the left singular structure of the weight matrices and a significant component of the empirical neural tangent kernels associated with those weights. We establish that the NFA introduced in prior works is driven by a centered NFA that isolates this alignment. We show that the speed of NFA development can be predicted analytically at early training times in terms of simple statistics of the inputs and labels. Finally, we introduce a simple intervention to increase NFA correlation at any given layer, which dramatically improves the quality of features learned.
翻訳日:2024-02-09 17:22:15 公開日:2024-02-07
# 深層強化学習による視覚生態学への計算的アプローチ

A computational approach to visual ecology with deep reinforcement learning ( http://arxiv.org/abs/2402.05266v1 )

ライセンス: Link先を確認
Sacha Sokoloski, Jure Majnik, Philipp Berens(参考訳) 動物視覚は代謝効率から識別性能まで様々な目的を最適化すると考えられているが、その最終的な目的は生態学的ニッチ内での動物の生存を促進することである。 しかし,複雑な環境下での動物行動のモデル化は困難である。 そこで我々は,エージェントが視覚モデルを通して知覚する3次元環境内を移動し,その唯一の目的が生き残ることを目的とした深層強化学習フレームワークを開発した。 この枠組みの中で、エージェントがそれを維持する食物を収集し、それを傷つける食物を避ける必要がある飼料処理タスクを開発しました。 まず,この課題の生き残りに必要な視覚モデルの複雑さが,環境における食品の多様性と視覚的複雑さとともにスケールすることを確立した。 さらに,視覚的に要求されるタスクにおいて,複雑な視覚モデルを完全に活用するためには,再帰的なネットワークアーキテクチャが必要であることを示した。 最後に、異なるネットワークアーキテクチャが環境とタスクの異なる表現を学習し、エージェントに異なる行動戦略を示す方法を示した。 本稿では,視覚生態学への計算的アプローチの基礎を築き,今後の研究のための広範なベンチマークを提供し,エージェントの生存のためのドライブから表現と行動がどのように現れるかを示す。

Animal vision is thought to optimize various objectives from metabolic efficiency to discrimination performance, yet its ultimate objective is to facilitate the survival of the animal within its ecological niche. However, modeling animal behavior in complex environments has been challenging. To study how environments shape and constrain visual processing, we developed a deep reinforcement learning framework in which an agent moves through a 3-d environment that it perceives through a vision model, where its only goal is to survive. Within this framework we developed a foraging task where the agent must gather food that sustains it, and avoid food that harms it. We first established that the complexity of the vision model required for survival on this task scaled with the variety and visual complexity of the food in the environment. Moreover, we showed that a recurrent network architecture was necessary to fully exploit complex vision models on the most visually demanding tasks. Finally, we showed how different network architectures learned distinct representations of the environment and task, and lead the agent to exhibit distinct behavioural strategies. In summary, this paper lays the foundation for a computational approach to visual ecology, provides extensive benchmarks for future work, and demonstrates how representations and behaviour emerge from an agent's drive for survival.
翻訳日:2024-02-09 17:21:56 公開日:2024-02-07
# AdaBatchGrad: 適応バッチサイズと適応ステップサイズを組み合わせる

AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size ( http://arxiv.org/abs/2402.05264v1 )

ライセンス: Link先を確認
Petr Ostroukhov, Aigerim Zhumabayeva, Chulu Xiang, Alexander Gasnikov, Martin Tak\'a\v{c}, Dmitry Kamzolov(参考訳) 本稿では,Stochastic Gradient Descent(SGD)の新規な適応をAdaBatchGradと呼ぶ。 この修正は適応ステップサイズと調整可能なバッチサイズをシームレスに統合する。 バッチサイズの増加とステップサイズの減少は、sgdの収束面積を狭め、分散を減少させるためによく知られた技術である。 R. Byrd と J. Nocedal による一連の研究は、ミニバッチ勾配近似の品質を評価し、各ステップで適切なバッチサイズを選択する様々なテスト手法を導入した。 正確なテストを利用する手法は、$O(LR^2/\varepsilon)$イテレーション内に収束することが観察された。 逆に、不正確なテスト実装は時々非収束と不規則なパフォーマンスをもたらす。 これらの課題に対処するため、AdaBatchGradは適応バッチとステップサイズの両方を導入し、メソッドの堅牢性と安定性を高めている。 正確なテストでは、我々のアプローチは標準勾配降下に類似した$O(LR^2/\varepsilon)$反復に収束する。 不正確なテストでは、$O(\max\lbrace LR^2/\varepsilon, \sigma^2 R^2/\varepsilon^2 \rbrace )$ iterations で収束する。 これによってadabatchgradは、従来の方法に比べて著しく堅牢で計算効率が良い。 本手法の有効性を実証するために,適応ステップサイズと適応バッチサイズの導入により,sgdの性能が徐々に向上することを示す。 その結果、AdaBatchGradは、特に不正確なテストに適用された場合、代替メソッドを上回ります。

This paper presents a novel adaptation of the Stochastic Gradient Descent (SGD), termed AdaBatchGrad. This modification seamlessly integrates an adaptive step size with an adjustable batch size. An increase in batch size and a decrease in step size are well-known techniques to tighten the area of convergence of SGD and decrease its variance. A range of studies by R. Byrd and J. Nocedal introduced various testing techniques to assess the quality of mini-batch gradient approximations and choose the appropriate batch sizes at every step. Methods that utilized exact tests were observed to converge within $O(LR^2/\varepsilon)$ iterations. Conversely, inexact test implementations sometimes resulted in non-convergence and erratic performance. To address these challenges, AdaBatchGrad incorporates both adaptive batch and step sizes, enhancing the method's robustness and stability. For exact tests, our approach converges in $O(LR^2/\varepsilon)$ iterations, analogous to standard gradient descent. For inexact tests, it achieves convergence in $O(\max\lbrace LR^2/\varepsilon, \sigma^2 R^2/\varepsilon^2 \rbrace )$ iterations. This makes AdaBatchGrad markedly more robust and computationally efficient relative to prevailing methods. To substantiate the efficacy of our method, we experimentally show, how the introduction of adaptive step size and adaptive batch size gradually improves the performance of regular SGD. The results imply that AdaBatchGrad surpasses alternative methods, especially when applied to inexact tests.
翻訳日:2024-02-09 17:21:36 公開日:2024-02-07
# IRFuzzer:LLVMバックエンドコード生成のためのファズリング

IRFuzzer: Specialized Fuzzing for LLVM Backend Code Generation ( http://arxiv.org/abs/2402.05256v1 )

ライセンス: Link先を確認
Yuyang Rong, Zhanghan Yu, Zhenkai Weng, Stephen Neuendorffer, Hao Chen(参考訳) LLVMのような現代のコンパイラは複雑なソフトウェアである。 その複雑さのため、手動テストは不十分であるが、正式な検証はスケーリングが難しい。 エンドツーエンドファジィは使用できるが、LLVMのいくつかのコンポーネントを高いカバレッジでカバーすることは困難である。 本稿では,LLVM コンパイラバックエンドのファジィ化の有効性を検討するために IRFuzzer を実装した。 制約付き変異を用いた入力妥当性の保証とフィードバック品質の向上の2つのアプローチに注目した。 IRFuzzerのミュータは、構造化制御フロー、ベクトルタイプ、関数定義を含む幅広いLLVM IR入力を生成することができる。 システムは、命令選択の実行状態を監視するためにコンパイラのコーディングパターンを計測する。 インスツルメンテーションは、Matcherテーブルカバレッジと呼ばれる新しいカバレッジフィードバックを提供するだけでなく、ミュータへのアーキテクチャ固有のガイダンスも提供する。 IRFuzzer は 29 の成熟した LLVM バックエンドターゲットにファジリングすることで既存のファジィよりも有効であることを示す。 このプロセスで、74件の新しいバグがllvmアップストリームで確認されたことを報告した。そのうち49件が修正され、5件がllvm 15に移植された。

Modern compilers, such as LLVM, are complex pieces of software. Due to their complexity, manual testing is unlikely to suffice, yet formal verification is difficult to scale. End-to-end fuzzing can be used, but it has difficulties in achieving high coverage of some components of LLVM. In this paper, we implement IRFuzzer to investigate the effectiveness of specialized fuzzing of the LLVM compiler backend. We focus on two approaches to improve the fuzzer: guaranteed input validity using constrained mutations and improved feedback quality. The mutator in IRFuzzer is capable of generating a wide range of LLVM IR inputs, including structured control flow, vector types, and function definitions. The system instruments coding patterns in the compiler to monitor the execution status of instruction selection. The instrumentation not only provides a new coverage feedback called matcher table coverage, but also provides an architecture specific guidance to the mutator. We show that IRFuzzer is more effective than existing fuzzers by fuzzing on 29 mature LLVM backend targets. In the process, we reported 74 confirmed new bugs in LLVM upstream, out of which 49 have been fixed, five have been back ported to LLVM 15, showing that specialized fuzzing provides useful and actionable insights to LLVM developers.
翻訳日:2024-02-09 17:21:13 公開日:2024-02-07
# 順序重み付け平均の微分可能最適化による公正ランキング政策の学習

Learning Fair Ranking Policies via Differentiable Optimization of Ordered Weighted Averages ( http://arxiv.org/abs/2402.05252v1 )

ライセンス: Link先を確認
My H. Dinh, James Kotary, Ferdinando Fioretto(参考訳) learning to rank (ltr) は最も広く使われている機械学習アプリケーションの一つである。 これは、仕事の検索、医療情報検索、ソーシャルメディアのコンテンツフィードなど、社会的な影響の大きいプラットフォームにおいて重要な要素である。 従来のLTRモデルではバイアスが生じることが示されており、ユーザ関連性のみを優先するランキングシステムによって導入された格差に対処する方法についての議論が刺激されている。 しかし、いくつかの公正学習モデルが提案されているが、正確性や効率性に欠けており、現実のランキングプラットフォームへの適用性が制限されている。 本稿では,順序重み付け平均(owa)関数の最適化に基づいて,公平性,ユーザユーティリティ,ランタイム効率のバランスを良好にするために,ltrモデルのトレーニングループに統合する手法を提案する。 特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。

Learning to Rank (LTR) is one of the most widely used machine learning applications. It is a key component in platforms with profound societal impacts, including job search, healthcare information retrieval, and social media content feeds. Conventional LTR models have been shown to produce biases results, stimulating a discourse on how to address the disparities introduced by ranking systems that solely prioritize user relevance. However, while several models of fair learning to rank have been proposed, they suffer from deficiencies either in accuracy or efficiency, thus limiting their applicability to real-world ranking platforms. This paper shows how efficiently-solvable fair ranking models, based on the optimization of Ordered Weighted Average (OWA) functions, can be integrated into the training loop of an LTR model to achieve favorable balances between fairness, user utility, and runtime efficiency. In particular, this paper is the first to show how to backpropagate through constrained optimizations of OWA objectives, enabling their use in integrated prediction and decision models.
翻訳日:2024-02-09 17:20:51 公開日:2024-02-07
# ランダムパウリ回転による効率的な近似ユニタリ設計

Efficient approximate unitary designs from random Pauli rotations ( http://arxiv.org/abs/2402.05239v1 )

ライセンス: Link先を確認
Jeongwan Haah, Yunchao Liu, Xinyu Tan(参考訳) 単純リー群上のランダムウォークを構築して、任意のモーメントから$t$ まで、すぐにハール測度に収束する。 具体的には、次元 2^{\mathsf n}$ のユニタリあるいは直交群の歩行のステップは、ランダムなポーリ回転 $e^{\mathrm i \theta p /2}$ である。 このランダムウォークのスペクトルギャップは$\omega(1/t)$であることが示され、これは$\{0,1\}^{\mathsf n}$ 上の置換群上のランダムウォークの最もよく知られた境界と一致する。 これは、ウォークが$\varepsilon$-approximate unitary $t$-design in depth $O(\mathsf n t^2 + t \log 1/\varepsilon)d$ where $d=O(\log \mathsf n)$は$e^{\mathrm i \theta P /2}$を実装する回路深さであることを意味する。 我々の簡単な証明はリー代数の二次カシミール作用素を用いる。

We construct random walks on simple Lie groups that quickly converge to the Haar measure for all moments up to order $t$. Specifically, a step of the walk on the unitary or orthognoal group of dimension $2^{\mathsf n}$ is a random Pauli rotation $e^{\mathrm i \theta P /2}$. The spectral gap of this random walk is shown to be $\Omega(1/t)$, which coincides with the best previously known bound for a random walk on the permutation group on $\{0,1\}^{\mathsf n}$. This implies that the walk gives an $\varepsilon$-approximate unitary $t$-design in depth $O(\mathsf n t^2 + t \log 1/\varepsilon)d$ where $d=O(\log \mathsf n)$ is the circuit depth to implement $e^{\mathrm i \theta P /2}$. Our simple proof uses quadratic Casimir operators of Lie algebras.
翻訳日:2024-02-09 17:19:50 公開日:2024-02-07
# SPAD : 空間認識型マルチビューディフューザ

SPAD : Spatially Aware Multiview Diffusers ( http://arxiv.org/abs/2402.05235v1 )

ライセンス: Link先を確認
Yash Kant, Ziyi Wu, Michael Vasilkovsky, Guocheng Qian, Jian Ren, Riza Alp Guler, Bernard Ghanem, Sergey Tulyakov, Igor Gilitschenski, Aliaksandr Siarohin(参考訳) テキストプロンプトや単一画像から一貫したマルチビュー画像を作成する新しいアプローチであるSPADを提案する。 マルチビュー生成を実現するために,クロスビューインタラクションで自己アテンション層を拡張することで,事前学習した2次元拡散モデルを再利用し,Objaverseの高品質サブセットに微調整する。 先行研究 (mvdream など) で提案された自己愛のナイーブな拡張は、ビュー間のコンテンツのコピーにつながる。 そこで我々は,エピポーラ幾何学に基づくクロスビューの注意を明示的に制限する。 3次元の一貫性をさらに高めるため,カメラ線由来のplucker座標を用いて位置符号化を行う。 これにより、SPADは3次元の空間的近接を推論できる。 一定の方位と標高でしかビューを生成できない最近の作品とは対照的に、spadは完全なカメラ制御を提供し、objaverseおよびgoogle scanned objectsデータセットから見えないオブジェクトの新たなビュー合成を実現する。 最後に,SPADを用いたテキスト・ツー・3D生成は,複数面のJanus問題を防ぐことを実証する。 詳細は私たちのWebページを参照してください。

We present SPAD, a novel approach for creating consistent multi-view images from text prompts or single images. To enable multi-view generation, we repurpose a pretrained 2D diffusion model by extending its self-attention layers with cross-view interactions, and fine-tune it on a high quality subset of Objaverse. We find that a naive extension of the self-attention proposed in prior work (e.g. MVDream) leads to content copying between views. Therefore, we explicitly constrain the cross-view attention based on epipolar geometry. To further enhance 3D consistency, we utilize Plucker coordinates derived from camera rays and inject them as positional encoding. This enables SPAD to reason over spatial proximity in 3D well. In contrast to recent works that can only generate views at fixed azimuth and elevation, SPAD offers full camera control and achieves state-of-the-art results in novel view synthesis on unseen objects from the Objaverse and Google Scanned Objects datasets. Finally, we demonstrate that text-to-3D generation using SPAD prevents the multi-face Janus issue. See more details at our webpage: https://yashkant.github.io/spad
翻訳日:2024-02-09 17:19:24 公開日:2024-02-07
# QGFN:アクション値によるコントロール可能なグレディネス

QGFN: Controllable Greediness with Action Values ( http://arxiv.org/abs/2402.05234v1 )

ライセンス: Link先を確認
Elaine Lau, Stephen Zhewen Lu, Ling Pan, Doina Precup, Emmanuel Bengio(参考訳) Generative Flow Networks (GFlowNets; GFNs) は、複合オブジェクトに対する報酬/エネルギーベースの生成手法のファミリーであり、多種多様な高ユーティリティなサンプルを生成することができる。 しかし、GFNを高実用性サンプルに偏り付けることは簡単ではない。 本研究では、GFNと強化学習(RL)の接続を活用し、GFNポリシーをアクション値の推定値である$Q$と組み合わせて、混合パラメータで制御可能なグリーディエサンプリングポリシーを作成することを提案する。 提案手法のいくつかの変種であるQGFNは,多様性を犠牲にすることなく,様々なタスクで生成される高次サンプルの数を改善することができることを示す。

Generative Flow Networks (GFlowNets; GFNs) are a family of reward/energy-based generative methods for combinatorial objects, capable of generating diverse and high-utility samples. However, biasing GFNs towards producing high-utility samples is non-trivial. In this work, we leverage connections between GFNs and reinforcement learning (RL) and propose to combine the GFN policy with an action-value estimate, $Q$, to create greedier sampling policies which can be controlled by a mixing parameter. We show that several variants of the proposed method, QGFN, are able to improve on the number of high-reward samples generated in a variety of tasks without sacrificing diversity.
翻訳日:2024-02-09 17:19:02 公開日:2024-02-07
# ユニバーサル神経機能

Universal Neural Functionals ( http://arxiv.org/abs/2402.05232v1 )

ライセンス: Link先を確認
Allan Zhou, Chelsea Finn, James Harrison(参考訳) 多くの現代の機械学習タスクにおける課題は、ニューラルネットワークの重みと勾配から情報を変換または抽出するウェイトスペース特徴を処理することである。 最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。 しかし、重み空間の置換対称性は繰り返し接続や残留接続によって複雑になるため、一般的なアーキテクチャには適用できない。 この研究は、任意の重み空間に対して普遍的神経機能(UNF)と呼ばれる置換同変モデルを自動的に構築するアルゴリズムを提案する。 その他のアプリケーションでは、UNFを既存の学習用オプティマイザ設計にどのように置き換えるかを示し、小さな画像分類器や言語モデルを最適化する際の先行手法よりも有望な改善を見出した。 以上の結果から,学習したオプティマイザは,最適化した重み空間の(対称性)構造を考慮できることが示唆された。 私たちはUNFを構築するためのライブラリをhttps://github.com/AllanYangZhou/Universal_neural_functionalでオープンソースにしています。

A challenging problem in many modern machine learning tasks is to process weight-space features, i.e., to transform or extract information from the weights and gradients of a neural network. Recent works have developed promising weight-space models that are equivariant to the permutation symmetries of simple feedforward networks. However, they are not applicable to general architectures, since the permutation symmetries of a weight space can be complicated by recurrence or residual connections. This work proposes an algorithm that automatically constructs permutation equivariant models, which we refer to as universal neural functionals (UNFs), for any weight space. Among other applications, we demonstrate how UNFs can be substituted into existing learned optimizer designs, and find promising improvements over prior methods when optimizing small image classifiers and language models. Our results suggest that learned optimizers can benefit from considering the (symmetry) structure of the weight space they optimize. We open-source our library for constructing UNFs at https://github.com/AllanYangZhou/universal_neural_functional.
翻訳日:2024-02-09 17:18:50 公開日:2024-02-07
# 重み付き安定化器符号の低オーバーヘッド化

Weight Reduced Stabilizer Codes with Lower Overhead ( http://arxiv.org/abs/2402.05228v1 )

ライセンス: Link先を確認
Eric Sabo, Lane G. Gunderman, Benjamin Ide, Michael Vasmer, Guillaume Dauphinais(参考訳) 安定化符号は最も広く研究されている量子誤り訂正符号のクラスであり、フォールトトレラント量子コンピュータのほとんどの提案の基礎を形成する。 安定化器コードはパリティチェック演算子によって定義され、これは発生した可能性のあるエラーに関する情報を推測するために測定される。 典型的な設定では、これらの演算子の測定はそれ自体がノイズの多いプロセスであり、ノイズ強度は所定のパリティチェックに関わる量子ビットの数、あるいはその重みによってスケールする。 ヘイスティングスは安定化器符号のパリティチェックの重みを減らす方法を提案したが、以前は漸近的状態においてのみ研究されていた。 ここでは、量子コンピューティングハードウェアに適した小型から中級の符号の体系に焦点をあてる。 本稿では,Hastingsの手法を完全に明示的に記述し,量子積符号のクラスに適用可能な,大幅に単純化された減量法を提案する。 我々の単純化した手法は,論理量子ビットの数を保ちながら,少なくともコード距離を(実際は増加している)維持しながら,ハイパーグラフと昇降した製品コードのチェックウェイトを少なくとも6つに減らすことができる。 私たちが支払う価格は、定数因子による物理量子ビットの数の増加であるが、この点において、我々の方法はHastingsの方法よりもはるかに効率的である。 我々は、GKP量子ビットと受動線形光学に基づくフォトニック量子コンピューティングアーキテクチャにおけるコードの性能をベンチマークし、重み低減法がコード性能を大幅に改善することを発見した。

Stabilizer codes are the most widely studied class of quantum error-correcting codes and form the basis of most proposals for a fault-tolerant quantum computer. A stabilizer code is defined by a set of parity-check operators, which are measured in order to infer information about errors that may have occurred. In typical settings, measuring these operators is itself a noisy process and the noise strength scales with the number of qubits involved in a given parity check, or its weight. Hastings proposed a method for reducing the weights of the parity checks of a stabilizer code, though it has previously only been studied in the asymptotic regime. Here, we instead focus on the regime of small-to-medium size codes suitable for quantum computing hardware. We provide both a fully explicit description of Hastings's method and propose a substantially simplified weight reduction method that is applicable to the class of quantum product codes. Our simplified method allows us to reduce the check weights of hypergraph and lifted product codes to at most six, while preserving the number of logical qubits and at least retaining (in fact often increasing) the code distance. The price we pay is an increase in the number of physical qubits by a constant factor, but we find that our method is much more efficient than Hastings's method in this regard. We benchmark the performance of our codes in a photonic quantum computing architecture based on GKP qubits and passive linear optics, finding that our weight reduction method substantially improves code performance.
翻訳日:2024-02-09 17:18:30 公開日:2024-02-07
# 分類のための非次元サンプリングコアセット

No Dimensional Sampling Coresets for Classification ( http://arxiv.org/abs/2402.05280v1 )

ライセンス: Link先を確認
Meysam Alishahi and Jeff M. Phillips(参考訳) 我々は,センシティブサンプリングフレームワークを用いて,分類問題のコアセットについて知られていることを洗練し,一般化する。 このようなコアセットは入力データの最小部分集合を求めるため、コアセット上の損失関数を最適化し、元のデータに対する近似を保証することができる。 本解析は,最初の無次元コアセットを提供するので,サイズは次元に依存しない。 さらに, 分布的入力に適用し, iidサンプルを使うことができるため, サンプルの複雑性境界を提供し, 様々な損失関数に対して機能する。 私たちが開発している重要なツールは、主要な感度サンプリングアプローチのRadamacher複雑性バージョンです。

We refine and generalize what is known about coresets for classification problems via the sensitivity sampling framework. Such coresets seek the smallest possible subsets of input data, so one can optimize a loss function on the coreset and ensure approximation guarantees with respect to the original data. Our analysis provides the first no dimensional coresets, so the size does not depend on the dimension. Moreover, our results are general, apply for distributional input and can use iid samples, so provide sample complexity bounds, and work for a variety of loss functions. A key tool we develop is a Radamacher complexity version of the main sensitivity sampling approach, which can be of independent interest.
翻訳日:2024-02-09 17:16:35 公開日:2024-02-07
# Sym-Q: 逐次決定処理による適応的シンボリック回帰

Sym-Q: Adaptive Symbolic Regression via Sequential Decision-Making ( http://arxiv.org/abs/2402.05306v1 )

ライセンス: Link先を確認
Yuan Tian, Wenqi Zhou, Hao Dong, David S. Kammer, Olga Fink(参考訳) 記号回帰は、経験的データから基礎となる数学的および物理的関係を明らかにする大きな可能性を秘めている。 既存のトランスフォーマーベースのモデルは、最近この領域で大きな成功を収めたが、一般化可能性と適応性の観点からは課題に直面している。 通常、出力式が実験データに適切に適合しない場合、モデルは表現を適応または修正するための効率的なメカニズムを欠いている。 この非フレキシビリティは、現実世界のシナリオ、特に未知の物理的・生物学的関係の発見における応用を妨げる。 人間の専門家による表現の洗練と適応の仕方から着想を得て,記号回帰を逐次意思決定タスクとして再定義する新しい強化学習ベースモデルであるSym-Qを紹介した。 sym-qは教師付きデモンストレーションを利用し、適合精度の質を示す報酬信号に基づいて表現を洗練する。 表現木の複雑さを管理し、正確なステップワイズ更新を行う特徴的な能力は、柔軟性と効率を大幅に向上させる。 以上の結果から,Sym-Qは,基礎となる数学的構造を復元するだけでなく,報酬信号に基づいて効率よく出力表現を洗練し,基礎となる表現を発見できることが示唆された。 sym-qは、より直感的で影響力のある物理科学の発見への道を開き、象徴的回帰の分野における著しい進歩を示している。

Symbolic regression holds great potential for uncovering underlying mathematical and physical relationships from empirical data. While existing transformer-based models have recently achieved significant success in this domain, they face challenges in terms of generalizability and adaptability. Typically, in cases where the output expressions do not adequately fit experimental data, the models lack efficient mechanisms to adapt or modify the expression. This inflexibility hinders their application in real-world scenarios, particularly in discovering unknown physical or biological relationships. Inspired by how human experts refine and adapt expressions, we introduce Symbolic Q-network (Sym-Q), a novel reinforcement learning-based model that redefines symbolic regression as a sequential decision-making task. Sym-Q leverages supervised demonstrations and refines expressions based on reward signals indicating the quality of fitting precision. Its distinctive ability to manage the complexity of expression trees and perform precise step-wise updates significantly enhances flexibility and efficiency. Our results demonstrate that Sym-Q excels not only in recovering underlying mathematical structures but also uniquely learns to efficiently refine the output expression based on reward signals, thereby discovering underlying expressions. Sym-Q paves the way for more intuitive and impactful discoveries in physical science, marking a substantial advancement in the field of symbolic regression.
翻訳日:2024-02-09 17:12:44 公開日:2024-02-07
# クロスモデル半教師付き学習に基づく道路検出のための知識蒸留

Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning ( http://arxiv.org/abs/2402.05305v1 )

ライセンス: Link先を確認
Wanli Ma, Oktay Karakus, Paul L. Rosin(参考訳) 知識蒸留の進歩は、より大きな教師モデルからより小さく効率的な学生モデルへの知識の移転を可能にする上で重要な役割を担い、特にオンラインおよびリソース制約の応用において有益である。 学生モデルの有効性は,教師から受けた蒸留知識の品質に大きく依存している。 乱れのないリモートセンシングデータのアクセシビリティを考えると、半教師付き学習はモデル性能を向上させるための一般的な戦略となっている。 しかし,機能抽出能力に限界があるため,より小さなモデルによる半教師付き学習のみに頼ることは不十分である。 この制限は、トレーニングデータを利用する能力を制限する。 本稿では,知識蒸留法と半教師付き学習法を組み合わせた統合的アプローチを提案する。 このハイブリッドアプローチは、大きなモデルの堅牢な能力を活用して、大きなラベルのないデータを効果的に活用し、その後、小さな学生モデルにリッチで有益な機能を提供して拡張する。 半教師あり学習に基づく知識蒸留(SSLKD)アプローチは,従来の半教師あり学習法を超越した道路分割の適用において,学生モデルの性能が顕著に向上したことを示す。

The advancement of knowledge distillation has played a crucial role in enabling the transfer of knowledge from larger teacher models to smaller and more efficient student models, and is particularly beneficial for online and resource-constrained applications. The effectiveness of the student model heavily relies on the quality of the distilled knowledge received from the teacher. Given the accessibility of unlabelled remote sensing data, semi-supervised learning has become a prevalent strategy for enhancing model performance. However, relying solely on semi-supervised learning with smaller models may be insufficient due to their limited capacity for feature extraction. This limitation restricts their ability to exploit training data. To address this issue, we propose an integrated approach that combines knowledge distillation and semi-supervised learning methods. This hybrid approach leverages the robust capabilities of large models to effectively utilise large unlabelled data whilst subsequently providing the small student model with rich and informative features for enhancement. The proposed semi-supervised learning-based knowledge distillation (SSLKD) approach demonstrates a notable improvement in the performance of the student model, in the application of road segmentation, surpassing the effectiveness of traditional semi-supervised learning methods.
翻訳日:2024-02-09 17:12:21 公開日:2024-02-07
# BIKED++:140万の自転車画像とパラメトリックCADデザインのマルチモーダルデータセット

BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and Parametric CAD Designs ( http://arxiv.org/abs/2402.05301v1 )

ライセンス: Link先を確認
Lyle Regenwetter, Yazan Abu Obaideh, Amin Heyrani Nobari, Faez Ahmed(参考訳) 本稿では,jsonファイルやラスタライズドイメージとして,パラメトリックに表現された14万個の自転車デザインの公開データセットを紹介する。 データセットは、BikeCADソフトウェアを利用したレンダリングエンジンを使用して作成され、パラメトリックデザインからベクトルグラフィックスを生成する。 このレンダリングエンジンは論文で論じられ、データセットとともに公開された。 このデータセットには多くの応用があるが、主な動機はパラメトリックとイメージベースのデザイン表現間のクロスモーダル予測モデルをトレーニングする必要があることである。 例えば、パラメトリック表現から直接CLIP(Contrastive Language- Image Pretraining)埋め込みを正確に推定するために予測モデルを訓練できることを実証する。 これにより、パラメトリック自転車の設計とテキスト文字列や参照画像との類似性が確立される。 トレーニングされた予測モデルも公開されている。 データセットは、数千の複合表現型自転車モデルと、設計性能を定量化するいくつかのデータセットを含む、自転車データセットファミリに加わる。 コードとデータセットは、https://github.com/Lyleregenwetter/BIKED_multimodal/tree/mainにある。

This paper introduces a public dataset of 1.4 million procedurally-generated bicycle designs represented parametrically, as JSON files, and as rasterized images. The dataset is created through the use of a rendering engine which harnesses the BikeCAD software to generate vector graphics from parametric designs. This rendering engine is discussed in the paper and also released publicly alongside the dataset. Though this dataset has numerous applications, a principal motivation is the need to train cross-modal predictive models between parametric and image-based design representations. For example, we demonstrate that a predictive model can be trained to accurately estimate Contrastive Language-Image Pretraining (CLIP) embeddings from a parametric representation directly. This allows similarity relations to be established between parametric bicycle designs and text strings or reference images. Trained predictive models are also made public. The dataset joins the BIKED dataset family which includes thousands of mixed-representation human-designed bicycle models and several datasets quantifying design performance. The code and dataset can be found at: https://github.com/Lyleregenwetter/BIKED_multimodal/tree/main
翻訳日:2024-02-09 17:12:02 公開日:2024-02-07
# ユニタリ関連状態の混合に対する漸近量子状態識別

Asymptotic Quantum State Discrimination for Mixtures of Unitarily Related States ( http://arxiv.org/abs/2402.05297v1 )

ライセンス: Link先を確認
Alberto Acevedo, Janek Wehr(参考訳) 状態の混合が与えられたとき、その要素を最適に識別する方法を見つけることは、量子通信理論において顕著な問題である。 本稿では、1パラメータのユニタリ群の要素とそれに対応する量子状態判別(QSD)問題を介して、一意に等価な密度演算子の混合に対処する。 時間が無限に進むにつれて、QSDには特に関心があります。 まず,可算混合の場合のqsdに対するアプローチを示し,各漸近的qsd最適化問題に対処し,漸近的手法で得られる誤差を最小限に抑えるための必要十分条件を証明した(この場合、qsdは完全に可解である)。 次に、可算混合に対する類似のアプローチを概説し、可算混合の場合の結果を反映するいくつかの予想を示す。 技術的ツールとして、よく知られたbarnum-knill境界の無限次元バージョンを証明し、使用します。

Given a mixture of states, finding a way to optimally discriminate its elements is a prominent problem in quantum communication theory. In this paper, we will address mixtures of density operators that are unitarily equivalent via elements of a one-parameter unitary group, and the corresponding quantum state discrimination (QSD) problems. We will be particularly interested in QSD as time goes to infinity. We first present an approach to QSD in the case of countable mixtures and address the respective asymptotic QSD optimization problems, proving necessary and sufficient conditions for minimal error to be obtained in the asymptotic regime (we say that in such a case QSD is fully solvable). We then outline an analogous approach to uncountable mixtures, presenting some conjectures that mirror the results presented for the cases of countable mixtures. As a technical tool, we prove and use an infinite dimensional version of the well-known Barnum-Knill bound.
翻訳日:2024-02-09 17:11:42 公開日:2024-02-07
# 凝集階層クラスタリングを用いたスパムメールの分類とトピックベースアプローチ

Classifying spam emails using agglomerative hierarchical clustering and a topic-based approach ( http://arxiv.org/abs/2402.05296v1 )

ライセンス: Link先を確認
F. Janez-Martino, R. Alaiz-Rodriguez, V. Gonzalez-Castro, E. Fidalgo, and E. Alegre(参考訳) スパムメールは、マルウェア、フィッシング、または詐欺を含む可能性のある、迷惑な、時には有害なメッセージである。 効率的なアンチスパムフィルタの設計に対処する多くの研究とは異なり、スパムメール問題を異なる、新しい視点からアプローチする。 サイバーセキュリティユニットのニーズに注目して,スパムメールの分類を複数のカテゴリに分類するためのトピックベースアプローチを提案する。 本研究では,SPEMC-15K-EとSPEMC-15K-Sの2つの新しいデータセットを提案し,それぞれ英語とスペイン語で約15Kのメールを出力する。 我々は16のパイプラインを評価し,単語のバグ,Word2Vec,BERTの4つのテキスト表現技術と,サポートベクトルマシン,N\"aive Bayes,ランダムフォレスト,ロジスティック回帰の4つの分類手法を組み合わせた。 実験結果によると、TF-IDFとLRは英語データセットで最高性能を示し、F1スコアは0.953、精度は94.6%、スペインデータセットではTF-IDFとNBは0.945、精度は98.5%である。 処理時間に関して、TF-IDFとLRは、それぞれ英語とスペイン語のスパムメールを平均で処理し、最速の分類に導かれる。

Spam emails are unsolicited, annoying and sometimes harmful messages which may contain malware, phishing or hoaxes. Unlike most studies that address the design of efficient anti-spam filters, we approach the spam email problem from a different and novel perspective. Focusing on the needs of cybersecurity units, we follow a topic-based approach for addressing the classification of spam email into multiple categories. We propose SPEMC-15K-E and SPEMC-15K-S, two novel datasets with approximately 15K emails each in English and Spanish, respectively, and we label them using agglomerative hierarchical clustering into 11 classes. We evaluate 16 pipelines, combining four text representation techniques -Term Frequency-Inverse Document Frequency (TF-IDF), Bag of Words, Word2Vec and BERT- and four classifiers: Support Vector Machine, N\"aive Bayes, Random Forest and Logistic Regression. Experimental results show that the highest performance is achieved with TF-IDF and LR for the English dataset, with a F1 score of 0.953 and an accuracy of 94.6%, and while for the Spanish dataset, TF-IDF with NB yields a F1 score of 0.945 and 98.5% accuracy. Regarding the processing time, TF-IDF with LR leads to the fastest classification, processing an English and Spanish spam email in and on average, respectively.
翻訳日:2024-02-09 17:11:26 公開日:2024-02-07
# 特徴選択とランク付けアルゴリズムの安定性を定量化する情報理論的アプローチ

An information theoretic approach to quantify the stability of feature selection and ranking algorithms ( http://arxiv.org/abs/2402.05295v1 )

ライセンス: Link先を確認
Alaiz-Rodriguez, R., and Parnell, A. C(参考訳) 特徴選択は高次元データを扱う上で重要なステップである。 特に、これらのテクニックは、ノイズ、冗長、無関係な特徴から最も関連する特徴を選択することによって、データから知識発見のプロセスを簡単にします。 これらの実用的応用の多くで生じる問題は、特徴選択アルゴリズムの結果が安定していないことである。 したがって、データの小さなバリエーションは、非常に異なる特徴ランキングをもたらす可能性がある。 これらの方法の安定性を評価することは、前述の状況において重要な問題となる。 本研究では,jensen shannon 発散に基づく情報理論的手法を提案する。 他の安定性尺度とは異なり、この指標はアルゴリズムの結果に適合する: 完全なランクリスト、特徴部分集合、そして、あまり研究されていない部分ランクリストである。 この一般化された計量は、確率的アプローチに従って、同じ大きさのリストの集合全体の差を定量化し、リストの上部に現れる不一致をより重要視することができる。 さらに、変更の補正、下限の上限、決定論的選択の条件など、望ましい特性を有する。 本研究では, この安定性指標を, 完全に制御された方法で生成したデータと併用し, 特徴ランク付けと選択結果に関するSpearmansランキング相関やKunchevasインデックスなどの一般的な指標と比較する。 さらに, 食品品質評価の現実問題において, 異なる観点からの安定性の定量化の可能性を示す実験的検討を行った。

Feature selection is a key step when dealing with high dimensional data. In particular, these techniques simplify the process of knowledge discovery from the data by selecting the most relevant features out of the noisy, redundant and irrelevant features. A problem that arises in many of these practical applications is that the outcome of the feature selection algorithm is not stable. Thus, small variations in the data may yield very different feature rankings. Assessing the stability of these methods becomes an important issue in the previously mentioned situations. We propose an information theoretic approach based on the Jensen Shannon divergence to quantify this robustness. Unlike other stability measures, this metric is suitable for different algorithm outcomes: full ranked lists, feature subsets as well as the lesser studied partial ranked lists. This generalized metric quantifies the difference among a whole set of lists with the same size, following a probabilistic approach and being able to give more importance to the disagreements that appear at the top of the list. Moreover, it possesses desirable properties including correction for change, upper lower bounds and conditions for a deterministic selection. We illustrate the use of this stability metric with data generated in a fully controlled way and compare it with popular metrics including the Spearmans rank correlation and the Kunchevas index on feature ranking and selection outcomes, respectively. Additionally, experimental validation of the proposed approach is carried out on a real-world problem of food quality assessment showing its potential to quantify stability from different perspectives.
翻訳日:2024-02-09 17:10:57 公開日:2024-02-07
# 医学的ビジョンと言語に基づく疾患検出のためのマルチモーダルフェデレーション学習におけるモダリティ不合理性の検討

Examining Modality Incongruity in Multimodal Federated Learning for Medical Vision and Language-based Disease Detection ( http://arxiv.org/abs/2402.05294v1 )

ライセンス: Link先を確認
Pramit Saha, Divyanshu Mishra, Felix Wagner, Konstantinos Kamnitsas, J. Alison Noble(参考訳) マルチモーダルフェデレーション学習(mmfl)は、各クライアントの複数のモダリティを利用して、ユニモーダル学習よりも強力なフェデレーション学習(fl)モデルを構築する。 しかし、異なるクライアントにおけるモダリティの欠如による影響は、モダリティ・インフォニティ(modality incongruity)とも呼ばれ、見過ごされている。 本稿では,モダリティ不均一性の影響を初めて分析し,参加者間のデータ不均一性との関連を明らかにする。 特に,不整合MMFLと不整合MMFLが不整合FLよりも有益かどうかを検討する。 さらに,この問題に対処する3つの経路について検討する。 まず,MMFLにおける情報融合に対する様々な自己注意機構の有効性を検討する。 第2に,マルチモーダルクライアントで事前学習したモダリティ変換のためのモダリティインプテーションネットワーク(min)を導入し,モダリティ問題を解消する可能性について検討する。 第3に,モダリティ・インフォメーション効果の軽減に向けたクライアントレベルおよびサーバレベルのレギュライゼーション手法の能力を評価する。 実験は、MMIC-CXRとOpen-Iの2つの公開されている実世界のデータセット上で、Chest X-Rayと放射線学レポートを用いてMMFL設定で実施されている。

Multimodal Federated Learning (MMFL) utilizes multiple modalities in each client to build a more powerful Federated Learning (FL) model than its unimodal counterpart. However, the impact of missing modality in different clients, also called modality incongruity, has been greatly overlooked. This paper, for the first time, analyses the impact of modality incongruity and reveals its connection with data heterogeneity across participating clients. We particularly inspect whether incongruent MMFL with unimodal and multimodal clients is more beneficial than unimodal FL. Furthermore, we examine three potential routes of addressing this issue. Firstly, we study the effectiveness of various self-attention mechanisms towards incongruity-agnostic information fusion in MMFL. Secondly, we introduce a modality imputation network (MIN) pre-trained in a multimodal client for modality translation in unimodal clients and investigate its potential towards mitigating the missing modality problem. Thirdly, we assess the capability of client-level and server-level regularization techniques towards mitigating modality incongruity effects. Experiments are conducted under several MMFL settings on two publicly available real-world datasets, MIMIC-CXR and Open-I, with Chest X-Ray and radiology reports.
翻訳日:2024-02-09 17:10:32 公開日:2024-02-07
# 大腸癌のリスク予測モデルにおける特徴選択の比較検討

A comparative study on feature selection for a risk prediction model for colorectal cancer ( http://arxiv.org/abs/2402.05293v1 )

ライセンス: Link先を確認
N. Cueto-L\'opez, M. T. Garc\'ia-Ord\'as, V. D\'avila-Batista, V. Moreno, N. Aragon\'es, and R. Alaiz-Rodr\'iguez(参考訳) 背景および客観的リスク予測モデルは、標的疾患の発生リスクが高い人を特定することを目的としている。 機能選択は、過剰適合を避ける予測モデルの性能向上と、主要ながんリスク(および保護)要因の特定に特に重要である。 特徴選択/ランク付けアルゴリズムの安定性を評価することは、より予測力のある特徴を分析することを目的とした場合、重要な問題となる。 この研究は大腸癌に焦点を当てており、リスク予測モデル(ニューラルネットワーク、サポートベクターマシン(svm)、ロジスティック回帰、k-ネアレスト近傍、ブーストツリー)のパフォーマンスの観点からいくつかの特徴ランキングアルゴリズムを評価している。 さらに,スカラー安定性指標を用いた従来のアプローチと,特徴ランキング手法間の類似性と個々の安定性について検討する視覚的アプローチにより,ロバスト性を評価した。 本研究で得られた最も関連性の高い特徴と,最先端の知識に基づく専門家による特徴の比較分析を行った。 結果 ROC曲線 (AUC) の領域における2つの最高の性能結果は、SVMラッパーアプローチ (AUC=0.693) で選択されたトップ41特徴と、ピアソン (AUC=0.689) で選択されたトップ40特徴を用いたロジスティック回帰を用いてSVM分類器によって達成される。 svmとロジスティック回帰分類器のaucがそれぞれ3.9%,1.9%改善し,全機能セットを用いた結果に対して特徴選択を行うことで分類性能が向上することを示した。 この研究で提案された視覚的アプローチは、ニューラルネットワークベースのラッパーランキングが最も不安定であり、ランダムフォレストが最も安定であることを示す。

Background and objective Risk prediction models aim at identifying people at higher risk of developing a target disease. Feature selection is particularly important to improve the prediction model performance avoiding overfitting and to identify the leading cancer risk (and protective) factors. Assessing the stability of feature selection/ranking algorithms becomes an important issue when the aim is to analyze the features with more prediction power. Methods This work is focused on colorectal cancer, assessing several feature ranking algorithms in terms of performance for a set of risk prediction models (Neural Networks, Support Vector Machines (SVM), Logistic Regression, k-Nearest Neighbors and Boosted Trees). Additionally, their robustness is evaluated following a conventional approach with scalar stability metrics and a visual approach proposed in this work to study both similarity among feature ranking techniques as well as their individual stability. A comparative analysis is carried out between the most relevant features found out in this study and features provided by the experts according to the state-of-the-art knowledge. Results The two best performance results in terms of Area Under the ROC Curve (AUC) are achieved with a SVM classifier using the top-41 features selected by the SVM wrapper approach (AUC=0.693) and Logistic Regression with the top-40 features selected by the Pearson (AUC=0.689). Experiments showed that performing feature selection contributes to classification performance with a 3.9% and 1.9% improvement in AUC for the SVM and Logistic Regression classifier, respectively, with respect to the results using the full feature set. The visual approach proposed in this work allows to see that the Neural Network-based wrapper ranking is the most unstable while the Random Forest is the most stable.
翻訳日:2024-02-09 17:10:07 公開日:2024-02-07
# 有限要素氷板モデリングのための高速・高忠実エミュレータとしてのグラフニューラルネットワーク

Graph Neural Networks as Fast and High-fidelity Emulators for Finite-Element Ice Sheet Modeling ( http://arxiv.org/abs/2402.05291v1 )

ライセンス: Link先を確認
Maryam Rahnemoonfar, Younghyun Koo(参考訳) 氷床・海水準系モデル(ISSM)の有限要素法はストークス方程式が支配する氷力学の問題を迅速かつ正確に解くが、そのような数値モデリングは中央処理ユニット(CPU)に集約的な計算を必要とする。 本研究では,ISSMの有限要素構造を保存するための高速代理モデルとしてグラフニューラルネットワーク(GNN)を開発した。 Pine Island Glacier (PIG) における20年間の過渡シミュレーションを用いて、グラフ畳み込みネットワーク(GCN)、グラフ注意ネットワーク(GAT)、同変グラフ畳み込みネットワーク(EGCN)の3つのGNNを訓練・試験する。 これらのGNNは、古典的畳み込みニューラルネットワーク(CNN)や多層知覚(MLP)よりも精度良く氷厚と速度を再現する。 特に、GNNはPIGの高基底融解速度によって引き起こされる氷の質量減少と加速をうまく捉えた。 GNNエミュレータをグラフィック処理ユニット(GPU)に実装すると、CPUベースのISSMシミュレーションよりも最大50倍高速な計算時間が得られる。

Although the finite element approach of the Ice-sheet and Sea-level System Model (ISSM) solves ice dynamics problems governed by Stokes equations quickly and accurately, such numerical modeling requires intensive computation on central processing units (CPU). In this study, we develop graph neural networks (GNN) as fast surrogate models to preserve the finite element structure of ISSM. Using the 20-year transient simulations in the Pine Island Glacier (PIG), we train and test three GNNs: graph convolutional network (GCN), graph attention network (GAT), and equivariant graph convolutional network (EGCN). These GNNs reproduce ice thickness and velocity with better accuracy than the classic convolutional neural network (CNN) and multi-layer perception (MLP). In particular, GNNs successfully capture the ice mass loss and acceleration induced by higher basal melting rates in the PIG. When our GNN emulators are implemented on graphic processing units (GPUs), they show up to 50 times faster computational time than the CPU-based ISSM simulation.
翻訳日:2024-02-09 17:09:10 公開日:2024-02-07
# トランスフォーマーワールドモデルはポリシーのグラデーションを改善するか?

Do Transformer World Models Give Better Policy Gradients? ( http://arxiv.org/abs/2402.05290v1 )

ライセンス: Link先を確認
Michel Ma, Tianwei Ni, Clement Gehring, Pierluca D'Oro, Pierre-Luc Bacon(参考訳) 強化学習の自然なアプローチは、ニューラルネットワークの世界モデルをアンロールすることで将来の報酬を予測し、結果の計算グラフをバックプロパゲートしてポリシーを学ぶことである。 しかし、典型的な世界モデルは損失景観を最適化するのが困難であるため、この方法は長い地平線にとって実用的ではないことが多い。 変圧器は、水平線上の勾配を効率的に伝播することが知られている。 驚くべきことに、一般的に使用されるトランスフォーマーワールドモデルは、長距離のポリシー勾配に有害な回路勾配パスを生成する。 この課題に取り組むために,我々は,勾配伝播のためのより直接的な経路を提供するために設計されたactions world model(awms)と呼ばれる世界モデルクラスを提案する。 このようなAWMを、ネットワークアーキテクチャとそれらが本質的に表すポリシー勾配更新の関係を基盤とするポリシー勾配フレームワークに統合する。 AWMsはシミュレータ自体と比較してナビゲートが容易な最適化景観を生成することができることを示す。 この特性により、トランスフォーマーのAWMは、現実的な長距離タスクの競争ベースラインよりも優れたポリシーを作成できる。

A natural approach for reinforcement learning is to predict future rewards by unrolling a neural network world model, and to backpropagate through the resulting computational graph to learn a policy. However, this method often becomes impractical for long horizons since typical world models induce hard-to-optimize loss landscapes. Transformers are known to efficiently propagate gradients overlong horizons: could they be the solution to this problem? Surprisingly, we show that commonly-used transformer world models produce circuitous gradient paths, which can be detrimental to long-range policy gradients. To tackle this challenge, we propose a class of world models called Actions World Models (AWMs), designed to provide more direct routes for gradient propagation. We integrate such AWMs into a policy gradient framework that underscores the relationship between network architectures and the policy gradient updates they inherently represent. We demonstrate that AWMs can generate optimization landscapes that are easier to navigate even when compared to those from the simulator itself. This property allows transformer AWMs to produce better policies than competitive baselines in realistic long-horizon tasks.
翻訳日:2024-02-09 17:08:34 公開日:2024-02-07
# 深層強化学習における逆入力の分析

Analyzing Adversarial Inputs in Deep Reinforcement Learning ( http://arxiv.org/abs/2402.05284v1 )

ライセンス: Link先を確認
Davide Corsi, Guy Amir, Guy Katz, Alessandro Farinelli(参考訳) 近年、ディープラーニング(DRL)は、現実世界や複雑なシステムへの応用の成功により、機械学習において一般的なパラダイムとなっている。 しかし、最先端のdrlモデルでさえ、例えば、モデルが予測不能で潜在的に危険な決定を下すのを騙すことができる小規模で豊富な入力摂動といった、信頼性の問題に苦しんでいることが示されている。 この欠点は、小さなエラーでも許容できない安全クリティカルなコンテキストにおけるDRLシステムのデプロイを制限する。 本稿では,形式的検証のレンズを通して,逆入力のキャラクタリゼーションの包括的解析を行う。 具体的には,そのような摂動に対する感受性に基づいてモデルを分類し,その計算のためのツールとアルゴリズムのセットを提案する。 本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。 さらに、これらの構成の挙動を分析し、訓練されたDRLネットワークの脆弱性を軽減するためにいくつかの有用なプラクティスとガイドラインを提案する。

In recent years, Deep Reinforcement Learning (DRL) has become a popular paradigm in machine learning due to its successful applications to real-world and complex systems. However, even the state-of-the-art DRL models have been shown to suffer from reliability concerns -- for example, their susceptibility to adversarial inputs, i.e., small and abundant input perturbations that can fool the models into making unpredictable and potentially dangerous decisions. This drawback limits the deployment of DRL systems in safety-critical contexts, where even a small error cannot be tolerated. In this work, we present a comprehensive analysis of the characterization of adversarial inputs, through the lens of formal verification. Specifically, we introduce a novel metric, the Adversarial Rate, to classify models based on their susceptibility to such perturbations, and present a set of tools and algorithms for its computation. Our analysis empirically demonstrates how adversarial inputs can affect the safety of a given DRL system with respect to such perturbations. Moreover, we analyze the behavior of these configurations to suggest several useful practices and guidelines to help mitigate the vulnerability of trained DRL networks.
翻訳日:2024-02-09 17:07:23 公開日:2024-02-07
# TreeForm: フォーム文書解析のためのエンドツーエンドアノテーションと評価

TreeForm: End-to-end Annotation and Evaluation for Form Document Parsing ( http://arxiv.org/abs/2402.05282v1 )

ライセンス: Link先を確認
Ran Zmigrod, Zhiqiang Ma, Armineh Nourbakhsh, Sameena Shah(参考訳) Visually Rich Form Understanding (VRFU) は、ドキュメントの高度に構造化された性質と、高度に可変なスタイルと内容のために複雑な研究課題を提起する。 現在のアノテーションスキームは、形式理解と鍵階層構造を分解し、エンドツーエンドモデルの開発と評価を困難にする。 本稿では、フォームパーサを評価するための新しいf1メトリックを提案し、vrfu用の新しいコンテンツに依存しないツリーベースのアノテーションスキームであるtreeformについて述べる。 従来のアノテーションスキームをツリーフォーム構造に変換し、正規化木編集距離の修正版を用いてツリーフォーム予測を評価する。 我々は、funsd と xfund のデータセットの平均値である 61.5 と 26.4 に対して、エンド・ツー・エンドのパフォーマンス指標とツリーフォーム編集距離の初期ベースラインを提示した。 treeformは、フォームライクなドキュメントの複雑さを注釈、モデリング、評価する深い研究を促進することを願っている。

Visually Rich Form Understanding (VRFU) poses a complex research problem due to the documents' highly structured nature and yet highly variable style and content. Current annotation schemes decompose form understanding and omit key hierarchical structure, making development and evaluation of end-to-end models difficult. In this paper, we propose a novel F1 metric to evaluate form parsers and describe a new content-agnostic, tree-based annotation scheme for VRFU: TreeForm. We provide methods to convert previous annotation schemes into TreeForm structures and evaluate TreeForm predictions using a modified version of the normalized tree-edit distance. We present initial baselines for our end-to-end performance metric and the TreeForm edit distance, averaged over the FUNSD and XFUND datasets, of 61.5 and 26.4 respectively. We hope that TreeForm encourages deeper research in annotating, modeling, and evaluating the complexities of form-like documents.
翻訳日:2024-02-09 17:06:31 公開日:2024-02-07
# 残留学習による水中画像の物理情報化とデータ駆動シミュレーション

Physics Informed and Data Driven Simulation of Underwater Images via Residual Learning ( http://arxiv.org/abs/2402.05281v1 )

ライセンス: Link先を確認
Tanmoy Mondal, Ricardo Mendoza, Lucas Drumetz(参考訳) 一般的に水中の画像は、光が水中を伝播するにつれて減衰し後方散乱されるため、色歪みと低コントラストに悩まされる(波長や水体の性質によって異なる)。 既存の簡易な劣化モデル(大気画像「ハジング」効果に似ている)は有用ではあるが、水の濁度による光の散乱や濁った媒質の反射特性など、測定不能な要因があるため、水中画像の劣化を適切に表現するには不十分である。 データ駆動方式で推定した場合、ネットワークにデハジングのような画像形成方程式しか知られていない水中効果を自動的にシミュレートする深層学習に基づくアーキテクチャと、他の未知の要因による付加的な劣化について提案する。 RGB画像のみを使用し(リアルタイムのシナリオ深度画像が利用できないため)、深度画像を推定する。 テストのために、(実際の水中画像データセットの欠如により)実際の水中画像に類似した画像を手動で生成するための複雑な画像形成モデル/方程式を提案しました。 しかし、このネットワークには、古典的な画像形成方程式(画像デハージングに用いられるもの)のみが通知される。 これは、実際のシナリオでは物理学は完全には知られておらず、単純化されたモデルのみが知られているという事実を模倣している。 複雑な画像形成方程式によって生成された地上の真実のおかげで、提案手法の質的かつ定量的な評価を、他の純粋にデータ駆動の手法と比較して達成できた。

In general, underwater images suffer from color distortion and low contrast, because light is attenuated and backscattered as it propagates through water (differently depending on wavelength and on the properties of the water body). An existing simple degradation model (similar to atmospheric image "hazing" effects), though helpful, is not sufficient to properly represent the underwater image degradation because there are unaccounted for and non-measurable factors e.g. scattering of light due to turbidity of water, reflective characteristics of turbid medium etc. We propose a deep learning-based architecture to automatically simulate the underwater effects where only a dehazing-like image formation equation is known to the network, and the additional degradation due to the other unknown factors if inferred in a data-driven way. We only use RGB images (because in real-time scenario depth image is not available) to estimate the depth image. For testing, we have proposed (due to the lack of real underwater image datasets) a complex image formation model/equation to manually generate images that resemble real underwater images (used as ground truth). However, only the classical image formation equation (the one used for image dehazing) is informed to the network. This mimics the fact that in a real scenario, the physics are never completely known and only simplified models are known. Thanks to the ground truth, generated by a complex image formation equation, we could successfully perform a qualitative and quantitative evaluation of proposed technique, compared to other purely data driven approaches
翻訳日:2024-02-09 17:06:14 公開日:2024-02-07
# マルチモーダルグラフの学習:調査

Learning on Multimodal Graphs: A Survey ( http://arxiv.org/abs/2402.05322v1 )

ライセンス: Link先を確認
Ciyuan Peng, Jiayuan He and Feng Xia(参考訳) マルチモーダルデータは、医療、ソーシャルメディア、輸送など、マルチモーダルグラフが重要な役割を果たすさまざまな領域にまたがる。 マルチモーダルグラフ学習(MGL)と呼ばれるマルチモーダルグラフ上の機械学習は、人工知能(AI)アプリケーションの成功に不可欠である。 この分野での急成長する研究は、様々なグラフデータタイプとモダリティ、学習技術、アプリケーションシナリオを含んでいる。 本稿では,マルチモーダルグラフ学習における既存作品の比較分析を行い,異なるグラフタイプ間でのマルチモーダル学習の達成方法を明らかにし,その特徴について考察する。 さらに,マルチモーダルグラフ学習の重要な応用を概説し,この領域における今後の方向性について考察する。 そこで本論文は,既存のMGL手法の理解と,様々なシナリオにおける適用可能性を求める研究者の基盤資料として機能する。

Multimodal data pervades various domains, including healthcare, social media, and transportation, where multimodal graphs play a pivotal role. Machine learning on multimodal graphs, referred to as multimodal graph learning (MGL), is essential for successful artificial intelligence (AI) applications. The burgeoning research in this field encompasses diverse graph data types and modalities, learning techniques, and application scenarios. This survey paper conducts a comparative analysis of existing works in multimodal graph learning, elucidating how multimodal learning is achieved across different graph types and exploring the characteristics of prevalent learning techniques. Additionally, we delineate significant applications of multimodal graph learning and offer insights into future directions in this domain. Consequently, this paper serves as a foundational resource for researchers seeking to comprehend existing MGL techniques and their applicability across diverse scenarios.
翻訳日:2024-02-09 16:55:57 公開日:2024-02-07
# ナレッジ海を航行する: LLMを用いた惑星規模の回答検索

Navigating the Knowledge Sea: Planet-scale answer retrieval using LLMs ( http://arxiv.org/abs/2402.05318v1 )

ライセンス: Link先を確認
Dipankar Sarkar(参考訳) 情報検索は情報検索の急速に発展する分野であり、基本的なハイパーリンクベースのナビゲーションから高度なアルゴリズム駆動検索エンジンまで、技術と技術の継続的な改良が特徴である。 本稿では,従来の検索手法と解答検索のパラダイムのギャップを埋める上での大規模言語モデル(LLM)の役割に着目し,情報検索技術の進化を包括的に概観することを目的とする。 応答検索とインデックス化の領域におけるllmの統合は、ユーザが情報システムと対話する方法におけるパラダイムシフトを意味する。 このパラダイムシフトは、gpt-4のような大規模言語モデル(llm)の統合によって実現され、人間に似たテキストを理解、生成することができる。 この調査を通じて、この旅を形作る技術的マイルストーンと、この急速に変化する分野における将来の方向性を照らそうとしています。

Information retrieval is a rapidly evolving field of information retrieval, which is characterized by a continuous refinement of techniques and technologies, from basic hyperlink-based navigation to sophisticated algorithm-driven search engines. This paper aims to provide a comprehensive overview of the evolution of Information Retrieval Technology, with a particular focus on the role of Large Language Models (LLMs) in bridging the gap between traditional search methods and the emerging paradigm of answer retrieval. The integration of LLMs in the realms of response retrieval and indexing signifies a paradigm shift in how users interact with information systems. This paradigm shift is driven by the integration of large language models (LLMs) like GPT-4, which are capable of understanding and generating human-like text, thus enabling them to provide more direct and contextually relevant answers to user queries. Through this exploration, we seek to illuminate the technological milestones that have shaped this journey and the potential future directions in this rapidly changing field.
翻訳日:2024-02-09 16:55:42 公開日:2024-02-07
# 体系的文献レビュー更新のためのエビデンス検索・選択自動支援の新たな結果

Emerging Results on Automated Support for Searching and Selecting Evidence for Systematic Literature Review Updates ( http://arxiv.org/abs/2402.05317v1 )

ライセンス: Link先を確認
Bianca Minetto Napole\~ao, Ritika Sarkar, Sylvain Hall\'e, Fabio Petrillo, Marcos Kalinowski(参考訳) コンテキスト: ソフトウェア工学(SE)分野における主要なエビデンスとシステム文献レビュー(SLR)の継続的な成長は、SLR更新の必要性につながります。 しかし、SLR更新の証拠の検索と選択には、SE研究者による多大な努力が必要である。 目的:seにおけるslr更新の研究の検索と選択を支援する自動アプローチの新たな結果を示す。 方法: 機械学習(ML)アルゴリズムを用いて, 雪玉探索手法とSLR更新に関する関連研究の選択を支援する自動ツールプロトタイプを開発した。 SLRレプリケーションと更新による信頼性データセットによる小規模評価により,自動化の提案を評価した。 結果:snowballingベースの検索戦略を効果的に自動化することは,小さな損失を伴う可能性を示し,特にdoi(digital object identifier)のない論文に関連していた。 SLR更新のために選択した研究に最高の性能を与えるMLアルゴリズムは、約74%のリコールと15%の精度で線形サポートベクトルマシンであった。 このようなアルゴリズムを保守的なしきい値で使用することで、欠落した論文のリスクを最小限に抑えることができる。 結論: 雪玉探索を自動化し, SE における SLR 更新の証拠を選択する際に, 解析対象紙数を約 2.5 倍に削減する可能性を示唆する有望な方向の評価点の予備的結果を得た。

Context: The constant growth of primary evidence and Systematic Literature Reviews (SLRs) publications in the Software Engineering (SE) field leads to the need for SLR Updates. However, searching and selecting evidence for SLR updates demands significant effort from SE researchers. Objective: We present emerging results on an automated approach to support searching and selecting studies for SLR updates in SE. Method: We developed an automated tool prototype to perform the snowballing search technique and support selecting relevant studies for SLR updates using Machine Learning (ML) algorithms. We evaluated our automation proposition through a small-scale evaluation with a reliable dataset from an SLR replication and its update. Results: Effectively automating snowballing-based search strategies showed feasibility with minor losses, specifically related to papers without Digital Object Identifier (DOI). The ML algorithm giving the highest performance to select studies for SLR updates was Linear Support Vector Machine, with approximately 74% recall and 15% precision. Using such algorithms with conservative thresholds to minimize the risk of missing papers can significantly reduce evidence selection efforts. Conclusion: The preliminary results of our evaluation point in promising directions, indicating the potential of automating snowballing search efforts and of reducing the number of papers to be manually analyzed by about 2.5 times when selecting evidence for updating SLRs in SE.
翻訳日:2024-02-09 16:55:26 公開日:2024-02-07
# 二重異方性深層クラスタリング

Dual-disentangled Deep Multiple Clustering ( http://arxiv.org/abs/2402.05310v1 )

ライセンス: Link先を確認
Jiawei Yao and Juhua Hu(参考訳) 近年、異なる視点からデータの複数の隠れ構造を明らかにする可能性から、複数のクラスタリングが注目されている。 複数のクラスタリング手法のほとんどは、まずそれらの間の相違を制御して特徴表現を導出し、その後、最終的な複数のクラスタリング結果を達成するために伝統的なクラスタリング手法(例えばk-means)を用いる。 しかし、学習された特徴表現は、異なるクラスタリングの最終的な目標と弱い関係を示すことができる。 さらに、これらの機能はクラスタリングのために明示的に学習されないことが多い。 そこで本研究では,非交叉表現を学習し,DDMCと呼ばれる新しいDual-Disentangled Deep Multiple Clustering法を提案する。 具体的には,変動予測最大化(EM)フレームワークを用いてDDMCを実現する。 Eステップでは、乱れ学習モジュールは粗くきめ細かな乱れ表現を用いて、データからより多様な潜伏因子の集合を得る。 Mステップでは、クラスタ割り当てモジュールがクラスタ目標関数を使用して、クラスタ出力の有効性を向上する。 DDMCは7つの一般的なタスクにまたがって常に最先端の手法より優れていることを示す。 私たちのコードはhttps://github.com/Alexander-Yao/DDMC.comで公開されています。

Multiple clustering has gathered significant attention in recent years due to its potential to reveal multiple hidden structures of the data from different perspectives. Most of multiple clustering methods first derive feature representations by controlling the dissimilarity among them, subsequently employing traditional clustering methods (e.g., k-means) to achieve the final multiple clustering outcomes. However, the learned feature representations can exhibit a weak relevance to the ultimate goal of distinct clustering. Moreover, these features are often not explicitly learned for the purpose of clustering. Therefore, in this paper, we propose a novel Dual-Disentangled deep Multiple Clustering method named DDMC by learning disentangled representations. Specifically, DDMC is achieved by a variational Expectation-Maximization (EM) framework. In the E-step, the disentanglement learning module employs coarse-grained and fine-grained disentangled representations to obtain a more diverse set of latent factors from the data. In the M-step, the cluster assignment module utilizes a cluster objective function to augment the effectiveness of the cluster output. Our extensive experiments demonstrate that DDMC consistently outperforms state-of-the-art methods across seven commonly used tasks. Our code is available at https://github.com/Alexander-Yao/DDMC.
翻訳日:2024-02-09 16:55:01 公開日:2024-02-07
# ジェネレーティブフローネットワークの一般化行動に関する研究

Investigating Generalization Behaviours of Generative Flow Networks ( http://arxiv.org/abs/2402.05309v1 )

ライセンス: Link先を確認
Lazar Atanackovic, Emmanuel Bengio(参考訳) 生成フローネットワーク (GFlowNets, GFNs) は離散空間上の非正規化確率質量関数を学習するための生成フレームワークである。 当初から、GFlowNetsは、学習中に離散空間の大部分を視認できないアプリケーションで生成モデルを学ぶのに有用であることが証明されている。 このことは、GFlowNetsがディープニューラルネットワーク(DNN)と組み合わせると、好ましい一般化特性を持つという仮説を導いた。 本稿では,GFlowNetの一般化の仮説的メカニズムを実証的に検証する。 特に、GFlowNetsが近似するために学習する関数は、一般化を促進する暗黙の基盤構造を持つ。 また、GFlowNetsはオフラインとオフラインのトレーニングに敏感であることもわかっていますが、GFlowNetsが暗黙的に学んだ報酬はトレーニングディストリビューションの変更に対して堅牢です。

Generative Flow Networks (GFlowNets, GFNs) are a generative framework for learning unnormalized probability mass functions over discrete spaces. Since their inception, GFlowNets have proven to be useful for learning generative models in applications where the majority of the discrete space is unvisited during training. This has inspired some to hypothesize that GFlowNets, when paired with deep neural networks (DNNs), have favourable generalization properties. In this work, we empirically verify some of the hypothesized mechanisms of generalization of GFlowNets. In particular, we find that the functions that GFlowNets learn to approximate have an implicit underlying structure which facilitate generalization. We also find that GFlowNets are sensitive to being trained offline and off-policy; however, the reward implicitly learned by GFlowNets is robust to changes in the training distribution.
翻訳日:2024-02-09 16:54:41 公開日:2024-02-07
# 解釈モデルと政策ネットワークを用いたニューロシンボリック強化学習への3つの経路

Three Pathways to Neurosymbolic Reinforcement Learning with Interpretable Model and Policy Networks ( http://arxiv.org/abs/2402.05307v1 )

ライセンス: Link先を確認
Peter Graf and Patrick Emami(参考訳) ニューロシンボリックAIは、古典的シンボリックアプローチの解釈可能性、パーシモニー、明示的な推論と、データ駆動型ニューラルアプローチの統計的学習を組み合わせる。 同時に微分可能かつ解釈可能なモデルとポリシーは、この結婚の鍵となる可能性がある。 本稿では,実世界の強化学習環境において,そのようなモデルとポリシーを実装するための3つの経路を示す。 具体的には、解釈可能なセマンティクスをアーキテクチャに直接組み込むニューラルネットワークの幅広いクラスについて研究する。 論理,シミュレーション,学習を組み合わせることの難しさと本質的な難しさを明らかにした。 学習は連続性と微分可能性から恩恵を受けるが、古典論理は離散的で微分不可能である。 実数値で微分可能な表現への緩和はトレードオフを示し、より学習しやすく、解釈しにくくなる。 もう1つの教訓は、数値シミュレーションの文脈で論理を用いることは、生(実数値時系列)シミュレーションデータから論理述語への非自明なマッピングである。 ルールベースのコントローラの限界と、どの程度の学習が可能なのか? ここで議論された微分可能な解釈可能なアプローチは、大規模で複雑で不確実なシステムにスケールするか? 真に解釈可能でしょうか? これらとその他のテーマを3つのアプローチで強調する。

Neurosymbolic AI combines the interpretability, parsimony, and explicit reasoning of classical symbolic approaches with the statistical learning of data-driven neural approaches. Models and policies that are simultaneously differentiable and interpretable may be key enablers of this marriage. This paper demonstrates three pathways to implementing such models and policies in a real-world reinforcement learning setting. Specifically, we study a broad class of neural networks that build interpretable semantics directly into their architecture. We reveal and highlight both the potential and the essential difficulties of combining logic, simulation, and learning. One lesson is that learning benefits from continuity and differentiability, but classical logic is discrete and non-differentiable. The relaxation to real-valued, differentiable representations presents a trade-off; the more learnable, the less interpretable. Another lesson is that using logic in the context of a numerical simulation involves a non-trivial mapping from raw (e.g., real-valued time series) simulation data to logical predicates. Some open questions this note exposes include: What are the limits of rule-based controllers, and how learnable are they? Do the differentiable interpretable approaches discussed here scale to large, complex, uncertain systems? Can we truly achieve interpretability? We highlight these and other themes across the three approaches.
翻訳日:2024-02-09 16:54:27 公開日:2024-02-07
# 構造インフォームドタンパク質言語モデル

Structure-Informed Protein Language Model ( http://arxiv.org/abs/2402.05856v1 )

ライセンス: Link先を確認
Zuobai Zhang, Jiarui Lu, Vijil Chenthamarakshan, Aur\'elie Lozano, Payel Das, Jian Tang(参考訳) タンパク質言語モデルは、膨大なタンパク質配列データセットの事前トレーニングを通じてタンパク質表現を学習するための強力なツールである。 しかし、従来のタンパク質言語モデルには、タンパク質機能に関連があるにもかかわらず、明確な構造的な監督が欠けている。 そこで本研究では,タンパク質構造を入力として必要とせず,構造情報をタンパク質言語モデルに抽出するためのリモートホモロジー検出の統合を提案する。 この構造インフォームドトレーニングが下流タンパク質機能予測タスクに与える影響を評価する。 実験結果から,EC数とGO項予測の関数アノテーション精度が一貫した向上を示した。 しかし、変異データセットの性能は、標的となる性質とタンパク質構造との関係によって異なる。 これは、タンパク質機能予測タスクに構造認識トレーニングを適用する際に、この関係を考慮することの重要性を強調する。 コードとモデルの重み付けはhttps://github.com/DeepGraphLearning/esm-sで確認できる。

Protein language models are a powerful tool for learning protein representations through pre-training on vast protein sequence datasets. However, traditional protein language models lack explicit structural supervision, despite its relevance to protein function. To address this issue, we introduce the integration of remote homology detection to distill structural information into protein language models without requiring explicit protein structures as input. We evaluate the impact of this structure-informed training on downstream protein function prediction tasks. Experimental results reveal consistent improvements in function annotation accuracy for EC number and GO term prediction. Performance on mutant datasets, however, varies based on the relationship between targeted properties and protein structures. This underscores the importance of considering this relationship when applying structure-aware training to protein function prediction tasks. Code and model weights are available at https://github.com/DeepGraphLearning/esm-s.
翻訳日:2024-02-09 13:49:51 公開日:2024-02-07
# ビッグデータ - 予測のためのサプライチェーン管理フレームワーク: データ前処理と機械学習技術

Big Data - Supply Chain Management Framework for Forecasting: Data Preprocessing and Machine Learning Techniques ( http://arxiv.org/abs/2307.12971v5 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, Jungpil Shin, Istiyaque Ahmed Ridoy, and M. F. Mridha(参考訳) 本稿は,最先端サプライチェーン(sc)の予測戦略と技術を体系的に同定し,比較分析することを目的とする。 sc管理(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)にビッグデータ分析(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)を組み込んだ新しいフレームワークが提案されている。 当初、sc戦略に従ってデータを収集する必要性と収集方法が議論されてきた。 本稿は、期間やSCの目的に応じて異なるタイプの予測の必要性について論じる。 SC KPIとエラー測定システムは、最高性能モデルを最適化するために推奨されている。 モデル性能パラメータの決定と運用管理,透明性,計画効率の向上のために,ファントム在庫の予測および管理決定のSC KPIへの依存に対する悪影響を概説した。 フレームワーク内の循環接続は、プロセス後KPIに基づいて前処理の最適化を導入し、全体的な制御プロセス(発明的管理、労働決定、コスト、生産、容量計画)を最適化する。 この研究の貢献は、標準のSCプロセスフレームワークの提案、予測データ分析の推奨、SCパフォーマンスの予測効果、機械学習アルゴリズムの最適化、そして将来の研究への光の遮蔽にある。

This article intends to systematically identify and comparatively analyze state-of-the-art supply chain (SC) forecasting strategies and technologies. A novel framework has been proposed incorporating Big Data Analytics in SC Management (problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization), forecasting effects on human-workforce, inventory, and overall SC. Initially, the need to collect data according to SC strategy and how to collect them has been discussed. The article discusses the need for different types of forecasting according to the period or SC objective. The SC KPIs and the error-measurement systems have been recommended to optimize the top-performing model. The adverse effects of phantom inventory on forecasting and the dependence of managerial decisions on the SC KPIs for determining model performance parameters and improving operations management, transparency, and planning efficiency have been illustrated. The cyclic connection within the framework introduces preprocessing optimization based on the post-process KPIs, optimizing the overall control process (inventory management, workforce determination, cost, production and capacity planning). The contribution of this research lies in the standard SC process framework proposal, recommended forecasting data analysis, forecasting effects on SC performance, machine learning algorithms optimization followed, and in shedding light on future research.
翻訳日:2024-02-09 11:34:34 公開日:2024-02-07
# 制限付き高次元QKDプロトコルの新しいセキュリティ証明

New Security Proof of a Restricted High-Dimensional QKD Protocol ( http://arxiv.org/abs/2307.09560v3 )

ライセンス: Link先を確認
Hasan Iqbal and Walter O. Krawec(参考訳) 高次元(hd)状態は量子暗号に適用するといくつかの興味深い性質を持つことが知られている。 量子鍵分布(QKD)では、これらの状態は耐雑音性と効率性を改善する可能性がある。 しかし、HD状態の生成と測定は技術的に難しいため、アリスとボブが量子能力に制限されるHD-QKDプロトコルを研究することが重要である。 本稿では,AliceとBobが相互に偏りのない全ベースで送信・測定する必要がない,特定のHD-QKDプロトコル(PRA 97 (4):042347, 2018)を再検討する。 ある意味では、このプロトコルは3つの状態bb84のhdバージョンである: 1つの完全基底はキー蒸留に使われるが、チャネルの忠実性をテストするために1つの状態だけを使用する。 このプロトコルの以前のセキュリティの証明は数値的な方法に依存しているため、高次元の評価は困難である。 本研究では,セキュリティの新たな証明を提供し,脱分極チャネルに対する明示的なキーレート方程式を与え,任意の高次元状態に対するキーレートの評価を可能にする。 さらに,本論文では,8次元以上の先行研究よりも優れた結果が得られ,HD状態が制限されたプロトコルの恩恵を受けることを示す。

High-dimensional (HD) states are known to have several interesting properties when applied to quantum cryptography. For quantum key distribution (QKD), these states have the potential to improve noise tolerance and efficiency. However, creating, and measuring, HD states is technologically challenging, thus making it important to study HD-QKD protocols where Alice and Bob are restricted in their quantum capabilities. In this paper, we revisit a particular HD-QKD protocol, introduced in (PRA 97 (4):042347, 2018), which does not require Alice and Bob to be capable of sending and measuring in full mutually unbiased bases. In a way, the protocol is a HD version of the three state BB84: one full basis is used for key distillation, but only a single state is used, from an alternative basis, for testing the fidelity of the channel. The previous proof of security for this protocol has relied on numerical methods, making it difficult to evaluate for high dimensions. In this work, we provide a new proof of security, and give an explicit key-rate equation for depolarization channels, allowing us to evaluate the key-rate for arbitrarily high dimensional states. Furthermore, our new proof produces better results than prior work for dimensions greater than eight, and shows that HD-states can benefit restricted protocols of this nature.
翻訳日:2024-02-09 11:34:07 公開日:2024-02-07
# マイクロリングを用いたフォトニックGEMM加速器の比較解析

A Comparative Analysis of Microrings Based Incoherent Photonic GEMM Accelerators ( http://arxiv.org/abs/2402.03149v2 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Oluwaseun Adewunmi Alo, and Ishan Thakkar(参考訳) いくつかのマイクロリング共振器(mrr)ベースのアナログフォトニックアーキテクチャは、ディープニューラルネットワークにおける一般行列行列乗算(gemm)を非常にスループットとエネルギー効率で加速するために提案されている。 GEMM関数を実装するために、これらのMRRベースのアーキテクチャは、一般的に5つの異なる方法で光学信号を操作する。 (i)特定のファンアウトを達成するために複数の光信号の分割(コピー) 二 特定のファンインを達成するための複数の光信号の集約(多重化) (iii)アナログ信号振幅に入力値をインプリントする光信号の変調 (iv)アナログ入力重み乗算を実現するための変調光信号の重み付け (v)光信号の総和。 MRRベースのGEMMアクセラレータは、これらの操作の順序がパフォーマンスに与える影響を無視して、任意の順序で信号操作の最初の4つの方法を実行する。 本稿では,(1)masw,(2)asmw,(3)smwaの3種類の命令による加速器機構の詳細な分析を行った。 これらの組織は、異なる大きさのクロストークノイズと光信号損失に影響を及ぼし、回路レベルで異なるレベルの処理並列性、およびシステムレベルでのスループットとエネルギー平均効率に影響を及ぼすことを示す。 CNNの4つのモデルに対する評価結果は,ASMWやMASWに比べ,SMWAの組織がそれぞれ4.4$\times$,5$\times$,5.2$\times$のスループット,エネルギー効率,地域エネルギー効率を実現していることを示している。

Several microring resonator (MRR) based analog photonic architectures have been proposed to accelerate general matrix-matrix multiplications (GEMMs) in deep neural networks with exceptional throughput and energy efficiency. To implement GEMM functions, these MRR-based architectures, in general, manipulate optical signals in five different ways: (i) Splitting (copying) of multiple optical signals to achieve a certain fan-out, (ii) Aggregation (multiplexing) of multiple optical signals to achieve a certain fan-in, (iii) Modulation of optical signals to imprint input values onto analog signal amplitude, (iv) Weighting of modulated optical signals to achieve analog input-weight multiplication, (v) Summation of optical signals. The MRR-based GEMM accelerators undertake the first four ways of signal manipulation in an arbitrary order ignoring the possible impact of the order of these manipulations on their performance. In this paper, we conduct a detailed analysis of accelerator organizations with three different orders of these manipulations: (1) Modulation-Aggregation-Splitting-Weighting (MASW), (2) Aggregation-Splitting-Modulation-Weighting (ASMW), and (3) Splitting-Modulation-Weighting-Aggregation (SMWA). We show that these organizations affect the crosstalk noise and optical signal losses in different magnitudes, which renders these organizations with different levels of processing parallelism at the circuit level, and different magnitudes of throughput and energy-area efficiency at the system level. Our evaluation results for four CNN models show that SMWA organization achieves up to 4.4$\times$, 5$\times$, and 5.2$\times$ better throughput, energy efficiency, and area-energy efficiency, respectively, compared to ASMW and MASW organizations on average.
翻訳日:2024-02-09 11:26:58 公開日:2024-02-07
# EDO-Net: グラフダイナミクスによる変形可能な物体の弾性特性の学習

EDO-Net: Learning Elastic Properties of Deformable Objects from Graph Dynamics ( http://arxiv.org/abs/2209.08996v3 )

ライセンス: Link先を確認
Alberta Longhini, Marco Moletta, Alfredo Reichlin, Michael C. Welle, David Held, Zackory Erickson, and Danica Kragic(参考訳) 未知の物理特性に一般化する変形可能な物体のグラフ力学の学習問題について検討する。 私たちの重要な洞察は、例えば引っ張る相互作用から抽出できる布のような変形可能な物体の弾性的物理的性質の潜在表現を活用することです。 本稿では,弾性特性の異なる多種多様なサンプルに対して学習したグラフ力学モデルであるEDO-Net(Elastic Deformable Object - Net)を提案する。 EDO-Netは適応モジュールと前方力学モジュールを共同で学習する。 前者はオブジェクトの物理的特性の潜在表現を抽出し、後者は潜在表現を利用してグラフとして表現される布のようなオブジェクトの将来の状態を予測する。 シミュレーションと実世界の両方でEDO-Netを評価し,その能力を評価する。 1)未知の物理的性質を一般化すること。 2)学習した表現を新しい下流タスクに転送する。

We study the problem of learning graph dynamics of deformable objects that generalizes to unknown physical properties. Our key insight is to leverage a latent representation of elastic physical properties of cloth-like deformable objects that can be extracted, for example, from a pulling interaction. In this paper we propose EDO-Net (Elastic Deformable Object - Net), a model of graph dynamics trained on a large variety of samples with different elastic properties that does not rely on ground-truth labels of the properties. EDO-Net jointly learns an adaptation module, and a forward-dynamics module. The former is responsible for extracting a latent representation of the physical properties of the object, while the latter leverages the latent representation to predict future states of cloth-like objects represented as graphs. We evaluate EDO-Net both in simulation and real world, assessing its capabilities of: 1) generalizing to unknown physical properties, 2) transferring the learned representation to new downstream tasks.
翻訳日:2024-02-08 21:13:56 公開日:2024-02-07
# 局所ハミルトニアン問題の複雑化:改良されたパラメータと励起状態への拡張

Complexity of the Guided Local Hamiltonian Problem: Improved Parameters and Extension to Excited States ( http://arxiv.org/abs/2207.10097v3 )

ライセンス: Link先を確認
Chris Cade, Marten Folkertsma, Jordi Weggemans(参考訳) Recently it was shown that the so-called guided local Hamiltonian problem -estimating the smallest eigenvalue of a $k$-local Hamiltonian when provided with a description of a quantum state ('guiding state') that is guaranteed to have substantial overlap with the true groundstate -- is BQP-complete for $k \geq 6$ when the required precision is inverse polynomial in the system size $n$, and remains hard even when the overlap of the guiding state with the groundstate is close to a constant $\left(\frac12\Omega\left(\frac{1}{\mathop{poly}(n)}\right)\right)$. 我々はこの結果を3つの方法で改善する:BQP完全であることを示す。 i)ハミルトニアンは2-局所である。 二 誘導状態と目標固有状態の重複は、1-\Omega\left(\frac{1}{\mathop{poly}(n)}\right)$、及び 三 基底状態だけではなく、励起状態のエネルギーを推定することに関心があるとき。 興味深いことに iii)それを最初に示すことでのみ可能とすること ii) 保持。

Recently it was shown that the so-called guided local Hamiltonian problem -- estimating the smallest eigenvalue of a $k$-local Hamiltonian when provided with a description of a quantum state ('guiding state') that is guaranteed to have substantial overlap with the true groundstate -- is BQP-complete for $k \geq 6$ when the required precision is inverse polynomial in the system size $n$, and remains hard even when the overlap of the guiding state with the groundstate is close to a constant $\left(\frac12 - \Omega\left(\frac{1}{\mathop{poly}(n)}\right)\right)$. We improve upon this result in three ways: by showing that it remains BQP-complete when i) the Hamiltonian is 2-local, ii) the overlap between the guiding state and target eigenstate is as large as $1 - \Omega\left(\frac{1}{\mathop{poly}(n)}\right)$, and iii) when one is interested in estimating energies of excited states, rather than just the groundstate. Interestingly, iii) is only made possible by first showing that ii) holds.
翻訳日:2024-02-08 21:13:41 公開日:2024-02-07
# MAC-DO:DRAM技術を用いたCNNのための効率的な出力定常GEMM加速器

MAC-DO: An Efficient Output-Stationary GEMM Accelerator for CNNs Using DRAM Technology ( http://arxiv.org/abs/2207.07862v3 )

ライセンス: Link先を確認
Minki Jeong, Wanyeong Jung(参考訳) DRAMベースのIn-situアクセラレータは、従来のフォン・ノイマンアーキテクチャのメモリウォール問題に対処する可能性を示している。 このようなアクセラレータは、DRAMサブアレイレベルでの単純な論理演算に電荷共有または論理回路を利用する。 しかし、DRAMアレイ内の数個の行セルだけが操作に参加し、ほとんどの行は非活性化されているため、そのスループットは低い配列利用のために制限されている。 さらに、マルチビット乗算 (MAC) 演算のような複雑な操作には多くのサイクルを必要とするため、データアクセスと移動が大きくなり、電力効率が悪化する可能性がある。 これらの制約を克服するために,DRAMを用いた高速かつ低消費電力なインサイトアクセラレータMAC-DOを提案する。 以前のDRAMベースのin-situアクセラレータと比較すると、MAC-DOセルは2つの1T1C DRAMセル(2つのトランジスタと2つのキャパシタ)で構成され、本質的に1サイクルでマルチビットMAC操作をサポートし、線形性と既存の1T1C DRAMセルと配列構造との互換性を確保する。 この達成は、電荷ステアリングを利用した新しいアナログ計算法によって促進される。 さらにMAC-DOはアイドルセルを使わずに各MAC-DOセルでのMAC操作を同時に行うことができ、スループットとエネルギー効率を大幅に向上させる。 その結果、MAC-DOアレイは出力定常写像に基づいて行列乗算を効率的に加速することができ、ディープニューラルネットワーク(DNN)で実行される計算の大部分をサポートする。 さらに、MAC-DOアレイは、3種類のデータ(入力、重み、出力)を効率的に再利用し、データ移動を最小限にする。

DRAM-based in-situ accelerators have shown their potential in addressing the memory wall challenge of the traditional von Neumann architecture. Such accelerators exploit charge sharing or logic circuits for simple logic operations at the DRAM subarray level. However, their throughput is limited due to low array utilization, as only a few row cells in a DRAM array participate in operations while most rows remain deactivated. Moreover, they require many cycles for more complex operations such as a multi-bit multiply-accumulate (MAC) operation, resulting in significant data access and movement and potentially worsening power efficiency. To overcome these limitations, this paper presents MAC-DO, an efficient and low-power DRAM-based in-situ accelerator. Compared to previous DRAM-based in-situ accelerators, a MAC-DO cell, consisting of two 1T1C DRAM cells (two transistors and two capacitors), innately supports a multi-bit MAC operation within a single cycle, ensuring good linearity and compatibility with existing 1T1C DRAM cells and array structures. This achievement is facilitated by a novel analog computation method utilizing charge steering. Additionally, MAC-DO enables concurrent individual MAC operations in each MAC-DO cell without idle cells, significantly improving throughput and energy efficiency. As a result, a MAC-DO array efficiently can accelerate matrix multiplications based on output stationary mapping, supporting the majority of computations performed in deep neural networks (DNNs). Furthermore, a MAC-DO array efficiently reuses three types of data (input, weight and output), minimizing data movement.
翻訳日:2024-02-08 21:13:25 公開日:2024-02-07
# 任意戦略に対する対立帯域

Adversarial Bandits against Arbitrary Strategies ( http://arxiv.org/abs/2205.14839v4 )

ライセンス: Link先を確認
Jung-hun Kim, Se-Young Yun(参考訳) 本稿では, 任意の戦略に対して, S$が問題の硬さのパラメータであり, このパラメータがエージェントに与えられない, 逆帯域問題について検討する。 この問題に対処するため,オンラインミラー降下法(OMD)を用いたマスタベースフレームワークを採用した。 まず、単純な OMD を用いたマスターベースアルゴリズムを提供し、損失推定器の分散から$T^{2/3}$が生じるような$\tilde{O}(S^{1/2}K^{1/3}T^{2/3})$を達成する。 分散の影響を軽減するために, OMD の適応学習率を用いて $\tilde{O}(\min\{\mathbb{E}[\sqrt{SKT\rho_T(h^\dagger)}], S\sqrt{KT}\})$, ここで $\rho_T(h^\dagger)$ は損失推定器の分散項である。

We study the adversarial bandit problem against arbitrary strategies, in which $S$ is the parameter for the hardness of the problem and this parameter is not given to the agent. To handle this problem, we adopt the master-base framework using the online mirror descent method (OMD). We first provide a master-base algorithm with simple OMD, achieving $\tilde{O}(S^{1/2}K^{1/3}T^{2/3})$, in which $T^{2/3}$ comes from the variance of loss estimators. To mitigate the impact of the variance, we propose using adaptive learning rates for OMD and achieve $\tilde{O}(\min\{\mathbb{E}[\sqrt{SKT\rho_T(h^\dagger)}],S\sqrt{KT}\})$, where $\rho_T(h^\dagger)$ is a variance term for loss estimators.
翻訳日:2024-02-08 21:12:54 公開日:2024-02-07
# 分布的一般化量子力学による3次元ディラックデルタシュロディンガーポテンシャルの特異波動関数のエネルギー固有値

The Energy Eigenvalue for the Singular Wave Function of the Three Dimensional Dirac Delta Schrodinger Potential via Distributionally Generalized Quantum Mechanics ( http://arxiv.org/abs/2101.07876v6 )

ライセンス: Link先を確認
Michael Maroun(参考訳) Unlike the situation for the 1d Dirac delta derivative Schrodinger pseudo potential (SPP) and the 2d Dirac delta SPP, where the indeterminacy originates from a lack of scale in the first and both a lack of scale as well as the wave function not being well defined at the support of the generalized function SPP; the obstruction in 3d Euclidean space for the Schrodinger equation with the Dirac delta as a SPP only comes from the wave function (the $L^2$ bound sate solution) being singular at the compact point support of the Dirac delta function (measure). この問題は、再正規化や正規化を繰り返すことなく、完全に数学的に厳密に解かれる。 この方法は、著者によって開発されたシュロディンガー理論の分布一般化版を伴い、形式記号 "$H\psi$" を分布空間の要素として、コンパクトな支持を持つ滑らかな函数の空間への位相的双対ベクトル空間とみなす。 二つの主な事実が明らかになる。 第一は、そのような系の束縛状態エネルギーは、数学と理論物理学の両方の文献と一致する、よく考えられた文脈で計算できるということである。 二つ目は、ヘルマン=ファインマンの定理の厳密な分布バージョンが存在することである。

Unlike the situation for the 1d Dirac delta derivative Schrodinger pseudo potential (SPP) and the 2d Dirac delta SPP, where the indeterminacy originates from a lack of scale in the first and both a lack of scale as well as the wave function not being well defined at the support of the generalized function SPP; the obstruction in 3d Euclidean space for the Schrodinger equation with the Dirac delta as a SPP only comes from the wave function (the $L^2$ bound sate solution) being singular at the compact point support of the Dirac delta function (measure). The problem is solved here in a completely mathematically rigorous manner with no recourse to renormalization nor regularization. The method involves a distributionally generalized version of the Schrodinger theory as developed by the author, which regards the formal symbol "$H\psi$" as an element of the space of distributions, the topological dual vector space to the space of smooth functions with compact support. Two main facts come to light. The first is the bound state energy of such a system can be calculated in a well-posed context, the value of which agrees with both the mathematical and theoretical physics literature. The second is that there is then a rigorous distributional version of the Hellmann-Feynman theorem.
翻訳日:2024-02-08 21:11:33 公開日:2024-02-07
# CAN IDSデータの概要とROADデータセットの導入

A Comprehensive Guide to CAN IDS Data & Introduction of the ROAD Dataset ( http://arxiv.org/abs/2012.14600v3 )

ライセンス: Link先を確認
Miki E. Verma and Robert A. Bridges and Michael D. Iannacone and Samuel C. Hollifield and Pablo Moriano and Steven C. Hespeler and Bill Kay and Frank L. Combs(参考訳) 現代の車両ではユビキタスだが、コントロールエリアネットワーク(CAN)には基本的なセキュリティ特性がなく、容易に利用することができる。 canへの侵入を検知するcan security researchの分野が急速に成長している。 多くの研究者にとって、高価な資産や専門知識を必要とするため、様々な侵入による車載CANデータの生成は不可能である。 研究者を支援するために,既存のopen canイントラクションデータセットに対する最初の包括的なガイドを示す。各データセットの品質解析と,各データセットのメリット,欠点,推奨ユースケースの列挙を含む。 現在のパブリックなCAN IDSデータセットは、実造(単純なメッセージインジェクション)攻撃や、しばしば合成データにおけるシミュレートされた攻撃に限られており、忠実性に欠ける。 一般に、車両への攻撃の物理的影響は利用可能なデータセットでは検証されない。 1つのデータセットだけが信号変換データを提供するが、対応する生バイナリバージョンは提供しない。 全体として、利用可能なデータpit-holesのidは、制限された、しばしば不適切なデータ(通常、メソッドを真にテストするには簡単に検出できない攻撃を伴う)のテストで動作します。 我々の主な貢献として、1台のCANデータの3.5時間以上からなるROAD(Real ORNL Automotive Dynamometer) CAN Intrusion Datasetを提示する。 ロードには様々な活動中に記録された周囲のデータが含まれており、複数の変種と実際のファズ、製造、ユニークな高度な攻撃の例でステルスを増す攻撃や、仮面攻撃をシミュレートしている。 信号変換入力を必要とするCAN IDSのベンチマークを容易にするため,多くのCANキャプチャに対して信号時系列フォーマットを提供する。 コントリビューションは,CAN IDS分野における適切なベンチマークと互換性の確保を目的としている。

Although ubiquitous in modern vehicles, Controller Area Networks (CANs) lack basic security properties and are easily exploitable. A rapidly growing field of CAN security research has emerged that seeks to detect intrusions on CANs. Producing vehicular CAN data with a variety of intrusions is out of reach for most researchers as it requires expensive assets and expertise. To assist researchers, we present the first comprehensive guide to the existing open CAN intrusion datasets, including a quality analysis of each dataset and an enumeration of each's benefits, drawbacks, and suggested use case. Current public CAN IDS datasets are limited to real fabrication (simple message injection) attacks and simulated attacks often in synthetic data, which lack fidelity. In general, the physical effects of attacks on the vehicle are not verified in the available datasets. Only one dataset provides signal-translated data but not a corresponding raw binary version. Overall, the available data pigeon-holes CAN IDS works into testing on limited, often inappropriate data (usually with attacks that are too easily detectable to truly test the method), and this lack data has stymied comparability and reproducibility of results. As our primary contribution, we present the ROAD (Real ORNL Automotive Dynamometer) CAN Intrusion Dataset, consisting of over 3.5 hours of one vehicle's CAN data. ROAD contains ambient data recorded during a diverse set of activities, and attacks of increasing stealth with multiple variants and instances of real fuzzing, fabrication, and unique advanced attacks, as well as simulated masquerade attacks. To facilitate benchmarking CAN IDS methods that require signal-translated inputs, we also provide the signal time series format for many of the CAN captures. Our contributions aim to facilitate appropriate benchmarking and needed comparability in the CAN IDS field.
翻訳日:2024-02-08 21:11:11 公開日:2024-02-07
# 表情認識を用いたドメイン適応型解釈可能な画像感情認識

Domain Adaptation based Interpretable Image Emotion Recognition using Facial Expression Recognition ( http://arxiv.org/abs/2011.08388v2 )

ライセンス: Link先を確認
Puneet Kumar and Balasubramanian Raman(参考訳) 本稿では,顔と非顔と非人体成分を含む一般的な画像中の感情を識別する領域適応手法を提案する。 事前訓練されたモデルと、画像感情認識(IER)のための十分な注釈付きデータセットが不十分であることの課題に対処する。 まず、顔の感情認識(FER)システムを提案し、次に画像の感情認識に適応させる。 まず、ある顔画像を個別の感情クラスに分類する深層学習に基づくFERシステムを提案する。 さらに,提案するferシステムを用いて,画像に表現された感情をドメイン適応を用いて認識する画像認識システムを提案する。 ジェネリックイメージを'happy'、'sad'、'hate'、'anger'クラスに分類する。 新たな解釈可能性アプローチであるDivide and Conquer based Shap (DnCShap) も、感情認識に関連性の高い視覚的特徴を解釈するために提案されている。 システムアーキテクチャはアブレーション研究により決定され、4つのFERと4つのIERデータセットで実験が行われた。 提案されたIERシステムは、IAPSaデータセットで59.61%、ArtPhotoデータセットで57.83%、FIデータセットで67.93%、EMOTICデータセットで55.13%の感情分類精度を示した。 特定の感情クラスにつながる重要な視覚的特徴が同定され、様々な感情クラスの埋め込みプロットがシステムの予測を説明するために解析された。

A domain adaptation technique has been proposed in this paper to identify the emotions in generic images containing facial & non-facial objects and non-human components. It addresses the challenge of the insufficient availability of pre-trained models and well-annotated datasets for image emotion recognition (IER). It starts with proposing a facial emotion recognition (FER) system and then moves on to adapting it for image emotion recognition. First, a deep-learning-based FER system has been proposed that classifies a given facial image into discrete emotion classes. Further, an image recognition system has been proposed that adapts the proposed FER system to recognize the emotions portrayed by images using domain adaptation. It classifies the generic images into 'happy,' 'sad,' 'hate,' and 'anger' classes. A novel interpretability approach, Divide and Conquer based Shap (DnCShap), has also been proposed to interpret the highly relevant visual features for emotion recognition. The proposed system's architecture has been decided through ablation studies, and the experiments are conducted on four FER and four IER datasets. The proposed IER system has shown an emotion classification accuracy of 59.61% for the IAPSa dataset, 57.83% for the ArtPhoto dataset, 67.93% for the FI dataset, and 55.13% for the EMOTIC dataset. The important visual features leading to a particular emotion class have been identified, and the embedding plots for various emotion classes have been analyzed to explain the proposed system's predictions.
翻訳日:2024-02-08 21:10:39 公開日:2024-02-07
# 3フェミオントポロジカル量子計算

3-Fermion topological quantum computation ( http://arxiv.org/abs/2011.04693v2 )

ライセンス: Link先を確認
Sam Roberts, Dominic J. Williamson(参考訳) 本稿では,3-フェルミオン・アノン理論における対称性欠陥のクリフォード完全分岐と融合に基づく普遍トポロジカル量子計算のためのスキームについて述べる。 対称欠陥を持つ3フェルミオン・エノン理論に対するウォーカー・ワンモデルの基底状態を用いた格子上のこの計算スキームのフォールトトレラントな測定に基づく実現法を定式化する。 ウォーカー・ワン計測に基づく位相量子計算パラダイムは、熱的に安定な対称性が保護された位相秩序を持つ計算資源状態の一般的な構成を提供する。 また,Bomb\'{i}n による2次元サブシステムコードにおいて,3-Fermion anyon理論の対称性欠陥がコード変形による3-Fermion 欠陥計算方式の代替実装とどのように接触するかを示す。

We present a scheme for universal topological quantum computation based on Clifford complete braiding and fusion of symmetry defects in the 3-Fermion anyon theory, supplemented with magic state injection. We formulate a fault-tolerant measurement-based realisation of this computational scheme on the lattice using ground states of the Walker--Wang model for the 3-Fermion anyon theory with symmetry defects. The Walker--Wang measurement-based topological quantum computation paradigm that we introduce provides a general construction of computational resource states with thermally stable symmetry-protected topological order. We also demonstrate how symmetry defects of the 3-Fermion anyon theory can be realized in a 2D subsystem code due to Bomb\'{i}n -- making contact with an alternative implementation of the 3-Fermion defect computation scheme via code deformations.
翻訳日:2024-02-08 21:10:13 公開日:2024-02-07
# 放射線用コンボリューションフィルタの標準化

Standardised convolutional filtering for radiomics ( http://arxiv.org/abs/2006.05470v9 )

ライセンス: Link先を確認
Adrien Depeursinge, Vincent Andrearczyk, Philip Whybra, Joost van Griethuysen, Henning M\"uller, Roger Schaer, Martin Valli\`eres, Alex Zwanenburg (for the Image Biomarker Standardisation Initiative)(参考訳) 画像バイオマーカー標準化イニシアチブ(IBSI)は、画像から画像バイオマーカー(特徴)を抽出する計算プロセスの標準化により、放射線医学研究の再現性を向上させることを目的としている。 従来,169の一般的な特徴の基準値を定め,標準放射能画像処理スキームを作成し,放射能研究のための報告ガイドラインを開発した。 しかし、いくつかの側面は標準化されていない。 ここでは、放射能における畳み込みフィルタの利用と定量的画像解析に関する参照マニュアルの完全なバージョンを示す。 ガウスフィルタのウェーブレットやラプラシアンのようなフィルタは、エッジやブロブのような特定の画像特性を強調する上で重要な役割を果たす。 フィルタ応答マップから得られた特徴は再現性が低かった。 このリファレンスマニュアルは、畳み込みフィルタの定義、報告すべきパラメータ、参照機能値、参照標準に準拠したソフトウェアを検証するテストを提供する。

The Image Biomarker Standardisation Initiative (IBSI) aims to improve reproducibility of radiomics studies by standardising the computational process of extracting image biomarkers (features) from images. We have previously established reference values for 169 commonly used features, created a standard radiomics image processing scheme, and developed reporting guidelines for radiomic studies. However, several aspects are not standardised. Here we present a complete version of a reference manual on the use of convolutional filters in radiomics and quantitative image analysis. Filters, such as wavelets or Laplacian of Gaussian filters, play an important part in emphasising specific image characteristics such as edges and blobs. Features derived from filter response maps were found to be poorly reproducible. This reference manual provides definitions for convolutional filters, parameters that should be reported, reference feature values, and tests to verify software compliance with the reference standard.
翻訳日:2024-02-08 21:09:58 公開日:2024-02-07
# 変分推論におけるベイズ優先とペナルティの等価性

An Equivalence between Bayesian Priors and Penalties in Variational Inference ( http://arxiv.org/abs/2002.00178v3 )

ライセンス: Link先を確認
Pierre Wolinski, Guillaume Charpiat, Yann Ollivier(参考訳) 機械学習では、パラメータのいくつかの値をペナライズするアドホック正規化項によって変調される確率モデルのパラメータを最適化することが一般的である。 正規化項は、変分推論(英語版)において自然に現れる: 最適化の損失は、近似後段とベイズ前段の間のクルバック・リーバー分岐項を含む。 我々は、この手順に従って発生する正則化器を完全に特徴付け、与えられたペナルティに対応する事前を計算する体系的な方法を提供する。 このようなキャラクタリゼーションはペナルティ関数上の制約を見つけるために使用され、全体の手続きはベイズ関数のままである。

In machine learning, it is common to optimize the parameters of a probabilistic model, modulated by an ad hoc regularization term that penalizes some values of the parameters. Regularization terms appear naturally in Variational Inference, a tractable way to approximate Bayesian posteriors: the loss to optimize contains a Kullback--Leibler divergence term between the approximate posterior and a Bayesian prior. We fully characterize the regularizers that can arise according to this procedure, and provide a systematic way to compute the prior corresponding to a given penalty. Such a characterization can be used to discover constraints over the penalty function, so that the overall procedure remains Bayesian.
翻訳日:2024-02-08 21:09:42 公開日:2024-02-07
# コンピュータビジョンのための完全双曲畳み込みニューラルネットワーク

Fully Hyperbolic Convolutional Neural Networks for Computer Vision ( http://arxiv.org/abs/2303.15919v3 )

ライセンス: Link先を確認
Ahmad Bdeir and Kristian Schwethelm and Niels Landwehr(参考訳) 実世界のビジュアルデータは、双曲空間において効果的に表現できる固有の階層構造を示す。 双曲型ニューラルネットワーク(HNN)は、そのような空間における特徴表現を学習するための有望なアプローチである。 しかし、現在のコンピュータビジョンにおけるhnnはユークリッドのバックボーンに依存しており、タスクヘッドの双曲空間にのみ機能を投影し、双曲幾何学の利点を十分に活用する能力を制限する。 そこで我々は,コンピュータビジョンタスク用に設計された完全双曲畳み込みニューラルネットワーク(cnn)hcnnを提案する。 ローレンツモデルに基づいて,CNNの基本成分を一般化し,畳み込み層,バッチ正規化,多項ロジスティック回帰の新たな定式化を提案する。 {標準ビジョンタスクの実験は、HCNNフレームワークをハイブリッドと完全に双曲的の両方で有望な性能を示す。 全体として、私たちのコントリビューションは、画像データに見られる複雑な構造をより良く表現できる、より強力なHNNを開発する基盤となると信じています。 私たちのコードはhttps://github.com/kschwethelm/HyperbolicCVで公開されています。

Real-world visual data exhibit intrinsic hierarchical structures that can be represented effectively in hyperbolic spaces. Hyperbolic neural networks (HNNs) are a promising approach for learning feature representations in such spaces. However, current HNNs in computer vision rely on Euclidean backbones and only project features to the hyperbolic space in the task heads, limiting their ability to fully leverage the benefits of hyperbolic geometry. To address this, we present HCNN, a fully hyperbolic convolutional neural network (CNN) designed for computer vision tasks. Based on the Lorentz model, we generalize fundamental components of CNNs and propose novel formulations of the convolutional layer, batch normalization, and multinomial logistic regression. {Experiments on standard vision tasks demonstrate the promising performance of our HCNN framework in both hybrid and fully hyperbolic settings.} Overall, we believe our contributions provide a foundation for developing more powerful HNNs that can better represent complex structures found in image data. Our code is publicly available at https://github.com/kschwethelm/HyperbolicCV.
翻訳日:2024-02-08 21:02:50 公開日:2024-02-07
# nバージョン設計による高可用性ブロックチェーンノード

Highly Available Blockchain Nodes With N-Version Design ( http://arxiv.org/abs/2303.14438v3 )

ライセンス: Link先を確認
Javier Ron, C\'esar Soto-Valero, Long Zhang, Benoit Baudry, Martin Monperrus(参考訳) すべてのソフトウェアと同様に、ブロックチェーンノードは、基盤となる実行スタックの障害にさらされる。 不安定な実行環境は、ブロックチェーンノードインターフェースの可用性を損なう可能性がある。 本稿では,N-version Blockchainノードの概念を紹介する。 この新しいタイプのノードは、AvizienisのNバージョンプログラミングビジョンのラインで、同じブロックチェーンプロトコルの異なる実装の同時実行に依存している。 N-ETHと呼ばれるEthereumのコンテキストでN-versionブロックチェーンノードのプロトタイプを設計し実装する。 我々は,N-ETHが不安定な実行環境の影響を緩和し,環境欠陥下での可用性を著しく向上できることを示す。 不安定な実行環境をシミュレートするため,システムコールレベルで障害注入を行う。 その結果、既存のethereumノードの実装は、同じ不安定なシナリオで非対称に振る舞うことが判明した。 N-ETHは、Ethereumノードの多様な実装で利用可能なこの非対称な振る舞いを活用して、最も積極的なフォールトインジェクション戦略の下でも、可用性を向上します。 私たちはブロックチェーンインフラストラクチャのドメインにおけるNバージョン設計の妥当性を最初に検証しています。 産業的観点から見ると、私たちの結果は、GoogleやConsenSys、その他多くの大手ブロックチェーン企業など、ブロックチェーンノードを運用する企業にとって最も重要です。

As all software, blockchain nodes are exposed to faults in their underlying execution stack. Unstable execution environments can disrupt the availability of blockchain nodes interfaces, resulting in downtime for users. This paper introduces the concept of N-version Blockchain nodes. This new type of node relies on simultaneous execution of different implementations of the same blockchain protocol, in the line of Avizienis' N-version programming vision. We design and implement an N-version blockchain node prototype in the context of Ethereum, called N-ETH. We show that N-ETH is able to mitigate the effects of unstable execution environments and significantly enhance availability under environment faults. To simulate unstable execution environments, we perform fault injection at the system-call level. Our results show that existing Ethereum node implementations behave asymmetrically under identical instability scenarios. N-ETH leverages this asymmetric behavior available in the diverse implementations of Ethereum nodes to provide increased availability, even under our most aggressive fault-injection strategies. We are the first to validate the relevance of N-version design in the domain of blockchain infrastructure. From an industrial perspective, our results are of utmost importance for businesses operating blockchain nodes, including Google, ConsenSys, and many other major blockchain companies.
翻訳日:2024-02-08 21:02:32 公開日:2024-02-07
# テキスト生成モデルのための(スコアベース)概念代数

Concept Algebra for (Score-Based) Text-Controlled Generative Models ( http://arxiv.org/abs/2302.03693v5 )

ライセンス: Link先を確認
Zihao Wang, Lin Gui, Jeffrey Negrea, Victor Veitch(参考訳) 本稿では,テキスト誘導生成モデルにおける学習表現の構造を,スコアベースモデルに焦点をあてる。 そのようなモデルの鍵となる性質は、異なる概念を 'disentangled' な方法で構成できることである。 これはこれらのモデルが、概念を 'disentangled' な方法でエンコードする内部表現を持っていることを示唆している。 ここでは、概念がある表現空間の部分空間として符号化されるという考えに焦点を当てる。 これは何を意味するのかを形式化し、表現に自然な選択があることを示し、与えられた概念に対応する表現の一部を識別する簡単な方法を開発する。 特に、表現の代数的操作を通じてモデルによって表現される概念を操作することができる。 このアイデアを安定拡散を用いて実例で示す。 https://github.com/zihao12/concept-algebra-code

This paper concerns the structure of learned representations in text-guided generative models, focusing on score-based models. A key property of such models is that they can compose disparate concepts in a `disentangled' manner. This suggests these models have internal representations that encode concepts in a `disentangled' manner. Here, we focus on the idea that concepts are encoded as subspaces of some representation space. We formalize what this means, show there's a natural choice for the representation, and develop a simple method for identifying the part of the representation corresponding to a given concept. In particular, this allows us to manipulate the concepts expressed by the model through algebraic manipulation of the representation. We demonstrate the idea with examples using Stable Diffusion. Code in https://github.com/zihao12/concept-algebra-code
翻訳日:2024-02-08 21:01:57 公開日:2024-02-07
# 最適状態移動による組合せ最適化のための高速量子アプローチ

Rapid quantum approaches for combinatorial optimisation inspired by optimal state-transfer ( http://arxiv.org/abs/2301.06846v2 )

ライセンス: Link先を確認
Robert J. Banks, Dan E. Browne and P.A. Warburton(参考訳) そこで本稿では,ハミルトニアンにインスパイアされた組合せ最適化問題に対処するための新しい設計ヒューリスティックを提案する。 結果は高速な近似最適化アルゴリズムである。 この新設計ヒューリスティックの成功の数値的な証拠を提供する。 提案手法は,ほとんどの問題に対して最小の深さでの量子近似最適化アルゴリズムよりも高い近似比を示し,これと同等の資源を利用する。 これは、アディバティック・インフルエンス・アプローチとは異なる、組合せ最適化問題に対処するための新しいアプローチを研究するための扉を開く。

We propose a new design heuristic to tackle combinatorial optimisation problems, inspired by Hamiltonians for optimal state-transfer. The result is a rapid approximate optimisation algorithm. We provide numerical evidence of the success of this new design heuristic. We find this approach results in a better approximation ratio than the Quantum Approximate Optimisation Algorithm at lowest depth for the majority of problem instances considered, while utilising comparable resources. This opens the door to investigating new approaches for tackling combinatorial optimisation problems, distinct from adiabatic-influenced approaches.
翻訳日:2024-02-08 21:01:26 公開日:2024-02-07
# アンサンブル学習における多様性の統一理論

A Unified Theory of Diversity in Ensemble Learning ( http://arxiv.org/abs/2301.03962v3 )

ライセンス: Link先を確認
Danny Wood and Tingting Mu and Andrew Webb and Henry Reeve and Mikel Luj\'an and Gavin Brown(参考訳) 本稿では,多様な教師付き学習シナリオにおける多様性の性質を説明するアンサンブル多様性の理論を提案する。 この挑戦は、30年以上にわたるオープンな研究課題であるアンサンブル学習の聖杯として言及されている。 この枠組みは,アンサンブル損失のバイアス分散分解において,多様性が隠された次元であることを明らかにする。 回帰と分類の両方において幅広い損失(例えば、正方形、クロスエントロピー、ポアソン損失など)に対して、偏分散多様性分解の正確な族を証明した。 加法的なバイアス分散分解が利用できない損失(例えば 0/1 の損失)に対して、多様性の効果を定量化するという別のアプローチを提示します。 全体として、多様性はバイアスや分散と全く同じ意味で、モデル適合の尺度であるが、アンサンブルメンバー間の統計的依存関係を考慮に入れる。 したがって、多くの作業が目指すように多様性を最大化するべきではない -- 代わりに、管理すべきバイアス/分散/多様性のトレードオフがあります。

We present a theory of ensemble diversity, explaining the nature of diversity for a wide range of supervised learning scenarios. This challenge has been referred to as the holy grail of ensemble learning, an open research issue for over 30 years. Our framework reveals that diversity is in fact a hidden dimension in the bias-variance decomposition of the ensemble loss. We prove a family of exact bias-variance-diversity decompositions, for a wide range of losses in both regression and classification, e.g., squared, cross-entropy, and Poisson losses. For losses where an additive bias-variance decomposition is not available (e.g., 0/1 loss) we present an alternative approach: quantifying the effects of diversity, which turn out to be dependent on the label distribution. Overall, we argue that diversity is a measure of model fit, in precisely the same sense as bias and variance, but accounting for statistical dependencies between ensemble members. Thus, we should not be maximising diversity as so many works aim to do -- instead, we have a bias/variance/diversity trade-off to manage.
翻訳日:2024-02-08 21:01:15 公開日:2024-02-07
# 予測符号化ネットワークのための安定・高速・完全自動学習アルゴリズム

A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive Coding Networks ( http://arxiv.org/abs/2212.00720v2 )

ライセンス: Link先を確認
Tommaso Salvatori, Yuhang Song, Yordan Yordanov, Beren Millidge, Zhenghua Xu, Lei Sha, Cornelius Emde, Rafal Bogacz, Thomas Lukasiewicz(参考訳) 予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学に触発されたモデルである。 しかし、そのようなモデルの訓練は非効率で不安定である。 本研究は, シナプス重みに対する更新規則の時間的スケジューリングを単に変更することで, 従来よりも効率的で安定なアルゴリズムとなり, 収束性の観点から理論的に保証されることを示す。 逐次予測符号化 (iPC) と呼ばれるアルゴリズムは, 完全自動であるため, 従来のアルゴリズムよりも生物学的に妥当である。 広範にわたる実験において,iPC は画像分類のための多数のベンチマークや条件付きおよびマスキング言語モデルのトレーニングにおいて,多数のハイパーパラメータに対するテスト精度,効率,収束性の点で,元の定式化よりも常に優れた性能を示すことを示す。

Predictive coding networks are neuroscience-inspired models with roots in both Bayesian statistics and neuroscience. Training such models, however, is quite inefficient and unstable. In this work, we show how by simply changing the temporal scheduling of the update rule for the synaptic weights leads to an algorithm that is much more efficient and stable than the original one, and has theoretical guarantees in terms of convergence. The proposed algorithm, that we call incremental predictive coding (iPC) is also more biologically plausible than the original one, as it it fully automatic. In an extensive set of experiments, we show that iPC constantly performs better than the original formulation on a large number of benchmarks for image classification, as well as for the training of both conditional and masked language models, in terms of test accuracy, efficiency, and convergence with respect to a large set of hyperparameters.
翻訳日:2024-02-08 20:59:59 公開日:2024-02-07
# 安定であるか否かは、それが問題である:逆問題に対するニューラルネットワークを理解する。

To be or not to be stable, that is the question: understanding neural networks for inverse problems ( http://arxiv.org/abs/2211.13692v3 )

ライセンス: Link先を確認
Davide Evangelista, James Nagy, Elena Morotti, Elena Loli Piccolomini(参考訳) 例えば、信号や画像処理において発生する線形逆問題の解は、悪条件がデータに存在するノイズを増幅するので、難しい問題である。 最近導入されたディープラーニングに基づくアルゴリズムは、従来のモデルベースのパフォーマンスアプローチを圧倒するが、データ摂動に関する不安定さに苦しんでいる。 本稿では,ニューラルネットワークの安定性と精度のトレードオフを理論的に解析する。 さらに,ニューラルネットワークにおけるネットワークトレーニングおよび前処理安定化演算子において,モデルに基づく反復的スキームから継承された正規化特性を用いて,ネットワーク安定性を高め,良好な精度を維持するための教師なしの異なるソリューションを提案する。 画像デブラリングに関する広範囲な数値実験により,提案する深層学習に基づくデータノイズ処理手法の理論的結果と有効性が確認された。

The solution of linear inverse problems arising, for example, in signal and image processing is a challenging problem since the ill-conditioning amplifies, in the solution, the noise present in the data. Recently introduced algorithms based on deep learning overwhelm the more traditional model-based approaches in performance, but they typically suffer from instability with respect to data perturbation. In this paper, we theoretically analyze the trade-off between stability and accuracy of neural networks, when used to solve linear imaging inverse problems for not under-determined cases. Moreover, we propose different supervised and unsupervised solutions to increase the network stability and maintain a good accuracy, by means of regularization properties inherited from a model-based iterative scheme during the network training and pre-processing stabilizing operator in the neural networks. Extensive numerical experiments on image deblurring confirm the theoretical results and the effectiveness of the proposed deep learning-based approaches to handle noise on the data.
翻訳日:2024-02-08 20:59:43 公開日:2024-02-07
# 再帰的分割のポイントワイズ挙動とその不均一因果効果推定への応用について

On the Pointwise Behavior of Recursive Partitioning and Its Implications for Heterogeneous Causal Effect Estimation ( http://arxiv.org/abs/2211.10805v3 )

ライセンス: Link先を確認
Matias D. Cattaneo, Jason M. Klusowski, Peter M. Tian(参考訳) 決定木学習は、ポイントワイズ推論にますます使われている。 重要な応用例としては、因果的不均質な治療効果や動的政策決定、条件付き質的回帰や実験の設計などがある。 本稿では,適応的再帰的分割法によって訓練された決定木を用いて,一様ノルムにおける収束の多項式率の達成に失敗できることを実証することにより,決定木の使用を疑問視する。 代わりに、収束は任意に遅いか、あるいは、正直な回帰木のようないくつかの重要な特別な場合では、完全に失敗する。 ランダムな森林は、樹木をほとんど最適な手順に転換し、解釈可能性を失い、さらに2つの追加のチューニングパラメータを導入することで状況を改善することができることを示す。 ランダム林の2つの特徴, サブサンプリングとランダム特徴選択機構は, それぞれが考慮されたモデルクラスに対してほぼ最適な性能を達成するのに顕著に寄与している。

Decision tree learning is increasingly being used for pointwise inference. Important applications include causal heterogenous treatment effects and dynamic policy decisions, as well as conditional quantile regression and design of experiments, where tree estimation and inference is conducted at specific values of the covariates. In this paper, we call into question the use of decision trees (trained by adaptive recursive partitioning) for such purposes by demonstrating that they can fail to achieve polynomial rates of convergence in uniform norm with non-vanishing probability, even with pruning. Instead, the convergence may be arbitrarily slow or, in some important special cases, such as honest regression trees, fail completely. We show that random forests can remedy the situation, turning poor performing trees into nearly optimal procedures, at the cost of losing interpretability and introducing two additional tuning parameters. The two hallmarks of random forests, subsampling and the random feature selection mechanism, are seen to each distinctively contribute to achieving nearly optimal performance for the model class considered.
翻訳日:2024-02-08 20:59:26 公開日:2024-02-07
# 連続モンテカルログラフ探索

Continuous Monte Carlo Graph Search ( http://arxiv.org/abs/2210.01426v3 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Amin Babadi, Yi Zhao, Juho Kannala, Alexander Ilin, Joni Pajarinen(参考訳) オンラインプランニングは多くの複雑なシーケンシャルな意思決定タスクでハイパフォーマンスに不可欠である。 モンテカルロ・ツリー・サーチ (mcts) は、効率的なオンライン・プランニングのために探索と搾取を行うための原則的なメカニズムを採用しており、go、チェス、shogiなど多くの個別意思決定領域における比較手法よりも優れている。 その後、連続ドメインへのmctsの拡張が開発されている。 しかし,本質的に高い分岐係数と探索木サイズの爆発は既存手法を制限している。 この問題を解決するために,MCTSを連続状態と行動空間を持つ環境でのオンラインプランニングに拡張した連続モンテカルログラフサーチ(CMCGS)を提案する。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。 このアイデアを実現するため、MCGSはMCTS検索ツリーの代わりに層状有向グラフを生成するため、同様の状態を限られた数の確率的行動帯域ノードにクラスタリングする。 CMCGSは、いくつかの複雑な連続DeepMind Control Suiteベンチマークと2次元ナビゲーションおよび探索タスクにおいて、限られたサンプル予算で同等の計画手法より優れていることを示す。 さらに、CMCGSは並列化によってスケールアップすることができ、学習力学モデルを用いて連続制御においてクロスエントロピー法(CEM)よりも優れている。

Online planning is crucial for high performance in many complex sequential decision-making tasks. Monte Carlo Tree Search (MCTS) employs a principled mechanism for trading off exploration for exploitation for efficient online planning, and it outperforms comparison methods in many discrete decision-making domains such as Go, Chess, and Shogi. Subsequently, extensions of MCTS to continuous domains have been developed. However, the inherent high branching factor and the resulting explosion of the search tree size are limiting the existing methods. To address this problem, we propose Continuous Monte Carlo Graph Search (CMCGS), an extension of MCTS to online planning in environments with continuous state and action spaces. CMCGS takes advantage of the insight that, during planning, sharing the same action policy between several states can yield high performance. To implement this idea, at each time step, CMCGS clusters similar states into a limited number of stochastic action bandit nodes, which produce a layered directed graph instead of an MCTS search tree. Experimental evaluation shows that CMCGS outperforms comparable planning methods in several complex continuous DeepMind Control Suite benchmarks and 2D navigation and exploration tasks with limited sample budgets. Furthermore, CMCGS can be scaled up through parallelization, and it outperforms the Cross-Entropy Method (CEM) in continuous control with learned dynamics models.
翻訳日:2024-02-08 20:57:57 公開日:2024-02-07
# O$n$ Learning Deep O($n$)-同変超球面

O$n$ Learning Deep O($n$)-Equivariant Hyperspheres ( http://arxiv.org/abs/2305.15613v5 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack, Andreas Robinson, Cuong Le(参考訳) 本稿では,超球面と正則 n$-simplexes を用いて,o$(n)$ の強群に包含される$n$d の反射と回転の変換の下で同変な深層特徴を学習する手法を提案する。 すなわち、球面決定曲面を持つo$(n)$同値ニューロンを任意の次元$n$に一般化し、これをディープ同値超球面と呼ぶ。 入力点を直接操作するネットワーク上でそれらを結合する方法を実証し、二つの点と球の関係に基づいて不変作用素を提案する。 n$d の合成および実世界のデータを用いて、理論的な貢献を実験的に検証し、我々のアプローチが o$(n)$-equivariant benchmark データセット(分類と回帰)の競合手法よりも優れていることを発見し、優れたスピード/パフォーマンストレードオフを示す。

In this paper, we utilize hyperspheres and regular $n$-simplexes and propose an approach to learning deep features equivariant under the transformations of $n$D reflections and rotations, encompassed by the powerful group of O$(n)$. Namely, we propose O$(n)$-equivariant neurons with spherical decision surfaces that generalize to any dimension $n$, which we call Deep Equivariant Hyperspheres. We demonstrate how to combine them in a network that directly operates on the basis of the input points and propose an invariant operator based on the relation between two points and a sphere, which as we show, turns out to be a Gram matrix. Using synthetic and real-world data in $n$D, we experimentally verify our theoretical contributions and find that our approach is superior to the competing methods for O$(n)$-equivariant benchmark datasets (classification and regression), demonstrating a favorable speed/performance trade-off.
翻訳日:2024-02-08 20:51:37 公開日:2024-02-07
# タスク双対と明示的アウトライン制御による高精度アウトライン記述テキスト生成の高速化

Advancing Precise Outline-Conditioned Text Generation with Task Duality and Explicit Outline Control ( http://arxiv.org/abs/2305.14459v3 )

ライセンス: Link先を確認
Yunzhe Li, Qian Chen, Weixiang Yan, Wen Wang, Qinglin Zhang, Hari Sundaram(参考訳) アウトライン条件付きテキスト生成に関する既存の研究は、通常、与えられたアウトラインをキーワードやフレーズなどの粗いスケッチとして使用してテキストを生成することを目的としている。 しかし,これらの手法は,大まかなアウトラインの明瞭さと合理性が欠如していることから,アウトラインと生成されたテキスト間の整合性を評価することが困難である。 本稿では,特定の文レベルのアウトラインに基づいてストーリーを生成する必要のある,正確なアウトライン条件付き生成という新しいテキスト生成タスクを提案する。 そこで本研究では,WPOGとCDMという2つの新しいデータセットを構築した。 BARTやGPT-2のような微調整モデルに基づく強力なベースラインを提供し、ChatGPTやVicunaのようなモデルのゼロショット性能を評価する。 さらに, 微調整モデルとゼロショット推論モデルにおいてユビキタスに観察される正確なアウトライン条件付き生成におけるアウトライン情報の不均衡利用の問題を明らかにする。 この問題に対処するため,本稿では,要約と生成のタスク双対性を活用したアウトライン利用制御手法と新しいフレームワークを提案する。 提案手法は,不均衡なアウトライン利用の問題を効果的に緩和し,微調整とゼロショット設定の両方において正確なアウトライン条件付きテキスト生成の質を向上させる。

Existing works on outline-conditioned text generation typically aim to generate text using provided outlines as rough sketches, such as keywords and phrases. However, these approaches make it challenging to control the quality of text generation and assess consistency between outlines and generated texts due to lack of clarity and rationality of the rough outlines. In this paper, we introduce a novel text generation task called Precise Outline-conditioned Generation, which requires generating stories based on specific, sentence-level outlines. To facilitate research on this task, we construct two new datasets, WPOG and CDM. We provide strong baselines based on fine-tuning models such as BART and GPT-2, and evaluating zero-shot performance of models such as ChatGPT and Vicuna. Furthermore, we identify an issue of imbalanced utilization of the outline information in the precise outline-conditioned generation, which is ubiquitously observed across fine-tuned models and zero-shot inference models. To address this issue, we propose an explicit outline utilization control approach and a novel framework that leverages the task duality between summarization and generation. Experimental results show that the proposed approaches effectively alleviate the issue of imbalanced outline utilization and enhance the quality of precise outline-conditioned text generation for both fine-tuning and zero-shot settings.
翻訳日:2024-02-08 20:50:54 公開日:2024-02-07
# Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセット3Dビジュアルグラウンド

Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans ( http://arxiv.org/abs/2305.13876v3 )

ライセンス: Link先を確認
Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe(参考訳) 本稿では,既存の3D画像グラウンドモデル,特に制限された3Dリソースの制約を克服し,特定の3Dデータセットに過度に適合する傾向を克服する,3Dシーンにおけるクロスデータセット視覚グラウンドの新たなタスクを提案する。 クロス3dvgを容易にするために、大規模な3dビジュアルグラウンドデータセットであるriareferを作成しました。 3RScanの1,380の屋内RGB-Dスキャンの中に、人間のアノテーションによる3Dオブジェクトの63万以上の多様な記述が含まれている。 ソース3dビジュアルグラウンドデータセットを用いてクロス3dvgモデルをトレーニングした後、ターゲットデータセット、例えば、異なるセンサー、3d再構築方法、言語アノテーションを使用して、ターゲットラベルなしで評価する。 3dデータセット間のギャップを埋めるように設計されたクリップベースのマルチビュー2dおよび3d統合により、確立された視覚接地モデルを用いて包括的な実験を行う。 クロス3dvgタスク。 (i)クロスデータセットの3Dビジュアルグラウンドは、データセット間の3Dデータと言語変異のため、単一のデータセットによる学習や評価よりも大幅にパフォーマンスが低下する。 さらに 2) オブジェクト検出器とローカライゼーションモジュールの改善,3DデータとマルチビューCLIPベースの画像特徴の融合により,この低性能を緩和できる。 私たちのCross3DVGタスクは、深い言語理解を活用しながら、多様な3Dシーンを処理する堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供することができる。

We present a novel task for cross-dataset visual grounding in 3D scenes (Cross3DVG), which overcomes limitations of existing 3D visual grounding models, specifically their restricted 3D resources and consequent tendencies of overfitting a specific 3D dataset. We created RIORefer, a large-scale 3D visual grounding dataset, to facilitate Cross3DVG. It includes more than 63k diverse descriptions of 3D objects within 1,380 indoor RGB-D scans from 3RScan, with human annotations. After training the Cross3DVG model using the source 3D visual grounding dataset, we evaluate it without target labels using the target dataset with, e.g., different sensors, 3D reconstruction methods, and language annotators. Comprehensive experiments are conducted using established visual grounding models and with CLIP-based multi-view 2D and 3D integration designed to bridge gaps among 3D datasets. For Cross3DVG tasks, (i) cross-dataset 3D visual grounding exhibits significantly worse performance than learning and evaluation with a single dataset because of the 3D data and language variants across datasets. Moreover, (ii) better object detector and localization modules and fusing 3D data and multi-view CLIP-based image features can alleviate this lower performance. Our Cross3DVG task can provide a benchmark for developing robust 3D visual grounding models to handle diverse 3D scenes while leveraging deep language understanding.
翻訳日:2024-02-08 20:50:29 公開日:2024-02-07
# lms: コード解析のためのコード構文とセマンティクスの理解

LMs: Understanding Code Syntax and Semantics for Code Analysis ( http://arxiv.org/abs/2305.12138v3 )

ライセンス: Link先を確認
Wei Ma, Shangqing Liu, Zhihao Lin, Wenhan Wang, Qiang Hu, Ye Liu, Cen Zhang, Liming Nie, Li Li, Yang Liu(参考訳) 大規模言語モデル~(LLM)は、コードや文書生成といったSEタスクにおいて優れたパフォーマンスを示すことによって、ソフトウェア工学(SE)に革命をもたらす大きな可能性を示している。 しかし、ソフトウェア工学における高い信頼性とリスクコントロール要件は、LLMの解釈可能性の欠如を懸念する。 この問題に対処するため,我々はLLMの能力とSEにおけるコード解析の限界を評価する研究を行った。 我々は、コード分析に関連するSEタスクに対処するために人工知能に必要な能力~(AI)モデルを3つのカテゴリに分類する。 1)構文理解。 2)静的な行動の理解,及び 3)動的行動理解。 本研究は,抽象構文木 (AST) や制御フローグラフ (CFG) ,コールグラフ (CG) など,LLMがコード構文や意味構造を理解する能力に注目した。 GPT4, GPT3.5, StarCoder, CodeLlama-13b-インストラクトという4つの最先端基礎モデルを採用した。 C、Java、Python、Solidityを含む言語横断タスクにおけるLLMの性能を評価した。 その結果,LLMにはコード構文を理解する能力がある一方で,コード意味論,特に動的意味論の理解に苦慮していることがわかった。 LLMは抽象構文木(AST)パーサに類似した機能を有し、静的コード解析の初期能力を示す。 さらに,本研究は,llmがコード意味構造を解釈し,存在しない事実をつくり出す際に幻覚になりやすいことを浮き彫りにした。 これらの結果から,LLM出力の正当性を検証し,SEにおける信頼性を保証する方法を検討する必要があることが示唆された。 さらに重要なことは、llmが生成するコードは通常構文が正しいが脆弱である理由に対する最初の答えを提供します。

Large language models~(LLMs) demonstrate significant potential to revolutionize software engineering (SE) by exhibiting outstanding performance in SE tasks such as code and document generation. However, the high reliability and risk control requirements in software engineering raise concerns about the lack of interpretability of LLMs. To address this concern, we conducted a study to evaluate the capabilities of LLMs and their limitations for code analysis in SE. We break down the abilities needed for artificial intelligence~(AI) models to address SE tasks related to code analysis into three categories: 1) syntax understanding, 2) static behavior understanding, and 3) dynamic behavior understanding. Our investigation focused on the ability of LLMs to comprehend code syntax and semantic structures, which include abstract syntax trees (AST), control flow graphs (CFG), and call graphs (CG). We employed four state-of-the-art foundational models, GPT4, GPT3.5, StarCoder and CodeLlama-13b-instruct. We assessed the performance of LLMs on cross-language tasks involving C, Java, Python, and Solidity. Our findings revealed that while LLMs have a talent for understanding code syntax, they struggle with comprehending code semantics, particularly dynamic semantics. We conclude that LLMs possess capabilities similar to an Abstract Syntax Tree (AST) parser, demonstrating initial competencies in static code analysis. Furthermore, our study highlights that LLMs are susceptible to hallucinations when interpreting code semantic structures and fabricating nonexistent facts. These results indicate the need to explore methods to verify the correctness of LLM output to ensure its dependability in SE. More importantly, our study provides an initial answer to why the codes generated by LLM are usually syntax-correct but vulnerable.
翻訳日:2024-02-08 20:50:00 公開日:2024-02-07
# 一般神経ゲージ場

General Neural Gauge Fields ( http://arxiv.org/abs/2305.03462v3 )

ライセンス: Link先を確認
Fangneng Zhan, Lingjie Liu, Adam Kortylewski, Christian Theobalt(参考訳) 近年のニューラル・ラディアンス・フィールドのようなニューラル・フィールドの進歩は、シーン表現学習の境界を大きく押し上げている。 3Dシーンの計算効率とレンダリング品質を高めるために、人気のある研究のラインは、3D座標系を別の測定系、例えば2次元多様体とハッシュテーブルにマッピングして、ニューラルネットワークをモデル化する。 座標系の変換は一般に \emph{gauge transformation} と呼ばれ、通常は直交射影や空間ハッシュ関数といった事前定義された写像関数である。 エンドツーエンドでニューラルネットワークとともに、望ましいゲージ変換を直接学べるのか? 本研究では,この問題を離散的0&連続ケースの分類法を用いて一般パラダイムに拡張し,ゲージ変換とニューラルネットワークを共同で最適化する学習フレームワークを開発した。 ゲージ変換の学習が容易に崩壊する問題に対処するために、ゲージ変換中の情報保存の原理から一般的な正規化機構を導出する。 正規化によるゲージ学習における高い計算コストを回避するために,シーン情報を本質的に保存し,優れた性能が得られる情報不変ゲージ変換を直接導出する。 プロジェクト: https://fnzhan.com/neural-gauge-fields

The recent advance of neural fields, such as neural radiance fields, has significantly pushed the boundary of scene representation learning. Aiming to boost the computation efficiency and rendering quality of 3D scenes, a popular line of research maps the 3D coordinate system to another measuring system, e.g., 2D manifolds and hash tables, for modeling neural fields. The conversion of coordinate systems can be typically dubbed as \emph{gauge transformation}, which is usually a pre-defined mapping function, e.g., orthogonal projection or spatial hash function. This begs a question: can we directly learn a desired gauge transformation along with the neural field in an end-to-end manner? In this work, we extend this problem to a general paradigm with a taxonomy of discrete \& continuous cases, and develop a learning framework to jointly optimize gauge transformations and neural fields. To counter the problem that the learning of gauge transformations can collapse easily, we derive a general regularization mechanism from the principle of information conservation during the gauge transformation. To circumvent the high computation cost in gauge learning with regularization, we directly derive an information-invariant gauge transformation which allows to preserve scene information inherently and yield superior performance. Project: https://fnzhan.com/Neural-Gauge-Fields
翻訳日:2024-02-08 20:48:49 公開日:2024-02-07
# あらゆるものを一度にまとめる:創発的デコヒーレントな歴史の数値的実証

Everything Everywhere All At Once: A First Principles Numerical Demonstration of Emergent Decoherent Histories ( http://arxiv.org/abs/2304.10258v2 )

ライセンス: Link先を確認
Philipp Strasberg, Teresa E. Reinhard, Joseph Schindler(参考訳) 歴史形式論の中では、デコヒーレンス関数は孤立量子系における古典性の出現を研究する公式なツールであるが、第一原理からの明確な評価は報告されていない。 シュレーディンガー方程式の正確な数値対角化に基づく最大5時間の履歴について評価を行う。 一般確率行列モデルの緩やかで粗い観測値に対するデコヒーレンス(decoherence)の頑健な出現と、ヒルベルト空間次元を4桁以上変化させることで有限サイズのスケーリング則を抽出する。 具体的には,系の粒子数の関数として,コヒーレント効果の指数的抑制を予想し,観察する。 このことは、環境に誘導された非一貫性、量子ダーウィン主義、マルコフ近似、アンサンブル平均に頼らずに、多くの世界の解釈(または、ヒストリー形式主義のセット選択問題)の望ましい基礎問題の最小の理論枠組みへの解決策を示唆している。 さらに、宇宙の波動関数、量子力学の解釈、時間の矢印に関する結果の意義についても論じる。

Within the histories formalism the decoherence functional is a formal tool to investigate the emergence of classicality in isolated quantum systems, yet an explicit evaluation of it from first principles has not been reported. We provide such an evaluation for up to five-time histories based on exact numerical diagonalization of the Schroedinger equation. We find a robust emergence of decoherence for slow and coarse observables of a generic random matrix model and extract a finite size scaling law by varying the Hilbert space dimension over four orders of magnitude. Specifically, we conjecture and observe an exponential suppression of coherent effects as a function of the particle number of the system. This suggests a solution to the preferred basis problem of the many worlds interpretation (or the set selection problem of the histories formalism) within a minimal theoretical framework -- without relying on environmentally induced decoherence, quantum Darwinism, Markov approximations or ensemble averages. We further discuss the implications of our results for the wave function of the Universe, interpretations of quantum mechanics and the arrow(s) of time.
翻訳日:2024-02-08 20:48:29 公開日:2024-02-07
# Masked Language Modellingから自己注意は何を学べるか?

What does self-attention learn from Masked Language Modelling? ( http://arxiv.org/abs/2304.07235v3 )

ライセンス: Link先を確認
Riccardo Rende, Federica Gerace, Alessandro Laio, Sebastian Goldt(参考訳) トランスフォーマーは自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。 彼らは単語のように入力のシーケンスを自己認識と呼ばれるメカニズムを使って処理し、それはマスク付き言語モデリング(MLM)によって訓練される。 MLMでは、単語は入力シーケンスでランダムにマスクされ、ネットワークは欠落した単語を予測するために訓練される。 変圧器の実用的成功にもかかわらず、どのようなデータ分散自意識が効率的に学習できるかは不明だ。 ここでは,単語の位置と埋め込みの処理を分離すると,一層の自己注意層が,サイトとポッツの色との相互作用を伴う一般化ポッツモデルの条件を学習することを示す。 さらに, このニューラルネットワークのトレーニングは, 統計物理学でよく知られた擬似類似解法によって, 逆ポッツ問題の解法と完全に等価であることを示す。 このマッピングを用いて,レプリカ法によるモデルシナリオにおける自己注意の一般化誤差を解析的に計算する。

Transformers are neural networks which revolutionised natural language processing and machine learning. They process sequences of inputs, like words, using a mechanism called self-attention, which is trained via masked language modelling (MLM). In MLM, a word is randomly masked in an input sequence, and the network is trained to predict the missing word. Despite the practical success of transformers, it remains unclear what type of data distribution self-attention can learn efficiently. Here, we show analytically that if one decouples the treatment of word positions and embeddings, a single layer of self-attention learns the conditionals of a generalised Potts model with interactions between sites and Potts colours. Moreover, we show that training this neural network is exactly equivalent to solving the inverse Potts problem by the so-called pseudo-likelihood method, well known in statistical physics. Using this mapping, we compute the generalisation error of self-attention in a model scenario analytically using the replica method.
翻訳日:2024-02-08 20:48:07 公開日:2024-02-07
# 1次元および2次元環境における後継特徴の雑音レジリエンスと前任特徴アルゴリズムの検討

Exploring the Noise Resilience of Successor Features and Predecessor Features Algorithms in One and Two-Dimensional Environments ( http://arxiv.org/abs/2304.06894v2 )

ライセンス: Link先を確認
Hyunsu Lee(参考訳) 本研究は, 動物における空間学習の予測地図理論に基づいて, ノイズ環境下での継承特徴(SF)と先行特徴(PF)アルゴリズムのダイナミクスを考察した。 比較分析のベンチマークとしてQ-learningとQ($\lambda$)ラーニングを用い,予期せぬ結果を得た。 PFが優れた性能を示した従来の文献と対照的に,ノイズの多い環境では,PFはSFを超えなかった。 1次元グリッドの世界では、SFは優れた適応性を示し、様々なノイズレベルにわたって堅牢な性能を維持した。 ノイズの増加に伴う性能低下傾向は, 線形劣化パターンを示す全アルゴリズムで一貫した傾向を示した。 このシナリオは2次元グリッドの世界にシフトし、ノイズがアルゴリズムの性能に及ぼす影響が非線形関係を示し、適性トレースの$\lambda$パラメータに影響された。 この複雑さは、ノイズとアルゴリズムの有効性の相互作用が、環境次元と特定のアルゴリズムパラメータと結びついていることを示唆している。 さらに,計算神経科学と強化学習(RL)の分岐談話に寄与し,空間ナビゲーションにおけるSFとPF学習の神経生物学的並列性を探究する。 予期せぬ性能傾向にもかかわらず、この結果はRLアルゴリズムに固有の長所と短所の理解を深める。 この知識は、ロボット工学、ゲーミングAI、そして自律走行車ナビゲーションにおける応用の進展に欠かせないものであり、RLアルゴリズムがどのように処理し、ノイズの多い入力から学習するかを継続的に探究するための必須条件となっている。

Based on the predictive map theory of spatial learning in animals, this study delves into the dynamics of Successor Feature (SF) and Predecessor Feature (PF) algorithms within noisy environments. Utilizing Q-learning and Q($\lambda$) learning as benchmarks for comparative analysis, our investigation yielded unexpected outcomes. Contrary to prevailing expectations and previous literature where PF demonstrated superior performance, our findings reveal that in noisy environments, PF did not surpass SF. In a one-dimensional grid world, SF exhibited superior adaptability, maintaining robust performance across varying noise levels. This trend of diminishing performance with increasing noise was consistent across all examined algorithms, indicating a linear degradation pattern. The scenario shifted in a two-dimensional grid world, where the impact of noise on algorithm performance demonstrated a non-linear relationship, influenced by the $\lambda$ parameter of the eligibility trace. This complexity suggests that the interaction between noise and algorithm efficacy is tied to the environmental dimensionality and specific algorithmic parameters. Furthermore, this research contributes to the bridging discourse between computational neuroscience and reinforcement learning (RL), exploring the neurobiological parallels of SF and PF learning in spatial navigation. Despite the unforeseen performance trends, the findings enrich our comprehension of the strengths and weaknesses inherent in RL algorithms. This knowledge is pivotal for advancing applications in robotics, gaming AI, and autonomous vehicle navigation, underscoring the imperative for continued exploration into how RL algorithms process and learn from noisy inputs.
翻訳日:2024-02-08 20:47:47 公開日:2024-02-07
# nebla:neural beer-lambertによるパノラマx線写真からの口腔構造の3次元再構築

NeBLa: Neural Beer-Lambert for 3D Reconstruction of Oral Structures from Panoramic Radiographs ( http://arxiv.org/abs/2304.04027v6 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, In-Seok Song, Seung Jun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 しかし、PXは平らな2D画像のみを提供し、口腔構造の3Dビューを欠いている。 本稿では,NeBLa(Neural Beer-Lambert)を用いて実世界のPXから3次元口腔構造を推定する。 neblaは、パノラマ画像のみに基づくさまざまな対象(患者)に対して、完全な3d再構成に取り組む。 我々は3次元コーンビームCT(CBCT)データから、X線レンダリングのBeer-Lambert法則とPX画像の回転原理に基づいて、シミュレートされたPX(SimPX)と呼ばれる中間表現を生成する。 simpxはpxを真にシミュレートするだけでなく、3dデータへの戻すプロセスを手助けする。 我々は,SimPXを3次元出力に変換するために,グローバルおよびローカルな入力特徴を利用するレイトレーシングに基づく新しいニューラルモデルを提案する。 推測時に、実PX画像を意味正規化を伴うSimPXスタイルの画像に変換し、その変換画像を生成モジュールで処理して高品質な出力を生成する。 実験の結果,NeBLaは再現作業において,定量的かつ質的に,先行技術よりも優れていた。 従来の方法とは異なり、NeBLaは歯科アーチの形状や整合したPX-CBCTデータセットなどの事前情報を必要としない。 私たちのコードはhttps://github.com/sihwa-park/neblaで入手できます。

Panoramic radiography (Panoramic X-ray, PX) is a widely used imaging modality for dental examination. However, PX only provides a flattened 2D image, lacking in a 3D view of the oral structure. In this paper, we propose NeBLa (Neural Beer-Lambert) to estimate 3D oral structures from real-world PX. NeBLa tackles full 3D reconstruction for varying subjects (patients) where each reconstruction is based only on a single panoramic image. We create an intermediate representation called simulated PX (SimPX) from 3D Cone-beam computed tomography (CBCT) data based on the Beer-Lambert law of X-ray rendering and rotational principles of PX imaging. SimPX aims at not only truthfully simulating PX, but also facilitates the reverting process back to 3D data. We propose a novel neural model based on ray tracing which exploits both global and local input features to convert SimPX to 3D output. At inference, a real PX image is translated to a SimPX-style image with semantic regularization, and the translated image is processed by generation module to produce high-quality outputs. Experiments show that NeBLa outperforms prior state-of-the-art in reconstruction tasks both quantitatively and qualitatively. Unlike prior methods, NeBLa does not require any prior information such as the shape of dental arches, nor the matched PX-CBCT dataset for training, which is difficult to obtain in clinical practice. Our code is available at https://github.com/sihwa-park/nebla.
翻訳日:2024-02-08 20:47:16 公開日:2024-02-07
# 個人差分学習におけるユーティリティ損失の軽減について:幾何学的カーネルアプローチによる新しい視点

On Mitigating the Utility-Loss in Differentially Private Learning: A new Perspective by a Geometrically Inspired Kernel Approach ( http://arxiv.org/abs/2304.01300v4 )

ライセンス: Link先を確認
Mohit Kumar, Bernhard A. Moser, Lukas Fischer(参考訳) プライバシとユーティリティのトレードオフは、差分プライベート機械学習の基本的な問題のひとつとして残っている。 本稿では,幾何学的インスパイアされたカーネルに基づく分類の精度低下を緩和する手法を提案する。 このアプローチでは、与えられたデータポイントのアフィン殻の表現が、Reproduction Kernel Hilbert Spaces (RKHS) で学習される。 これにより、個々のデータポイントに関するプライバシーに敏感な情報を隠蔽し、メンバシップ推論攻撃のリスクを大幅に低減することで、プライバシとユーティリティのトレードオフを改善する新しい距離尺度が導かれる。 このアプローチの有効性は、MNISTデータセット、フライブルク食料品データセット、本物のバイオメディカルデータセットの実験を通じて実証される。 このアプローチが計算上実用的であることは確認されている。 フェデレーション学習へのアプローチの適用を考察し,分散データによる精度損失は限界値か,あるいはそれほど高くないことが観察された。

Privacy-utility tradeoff remains as one of the fundamental issues of differentially private machine learning. This paper introduces a geometrically inspired kernel-based approach to mitigate the accuracy-loss issue in classification. In this approach, a representation of the affine hull of given data points is learned in Reproducing Kernel Hilbert Spaces (RKHS). This leads to a novel distance measure that hides privacy-sensitive information about individual data points and improves the privacy-utility tradeoff via significantly reducing the risk of membership inference attacks. The effectiveness of the approach is demonstrated through experiments on MNIST dataset, Freiburg groceries dataset, and a real biomedical dataset. It is verified that the approach remains computationally practical. The application of the approach to federated learning is considered and it is observed that the accuracy-loss due to data being distributed is either marginal or not significantly high.
翻訳日:2024-02-08 20:46:51 公開日:2024-02-07
# カイゼン:継続的な微調整を伴う実践的自己教師付き連続学習

Kaizen: Practical Self-supervised Continual Learning with Continual Fine-tuning ( http://arxiv.org/abs/2303.17235v2 )

ライセンス: Link先を確認
Chi Ian Tang, Lorena Qendro, Dimitris Spathis, Fahim Kawsar, Cecilia Mascolo, Akhil Mathur(参考訳) 自己教師付き学習(ssl)は、オフライントレーニング時のコンピュータビジョンタスクにおいて顕著なパフォーマンスを示している。 しかし、新しいデータが徐々に導入される連続学習(cl)シナリオでは、モデルがまだ壊滅的な忘れに苦しむ。 モデルをスクラッチからトレーニングして、新たに生成されたデータに適応することは、時間がかかり非効率である。 以前のアプローチでは、すべてのタスクからのラベルが微調整中に利用可能であることを前提として、知識蒸留による自己監督対象の再獲得を推奨していた。 本稿では,SSLプロセスの任意のステップで利用可能なラベルを活用可能な実践的な環境で,自己教師付き連続学習を一般化する。 継続タスクの増加に伴い、事前トレーニングと微調整のフェーズにおいて、柔軟性が向上する。 カイゼンでは, 特徴抽出器と分類器の双方に対する破滅的な忘れを, 慎重に設計した損失関数で緩和する訓練アーキテクチャを導入する。 連続学習の異なる側面を反映した総合的な評価指標を用いて、カイゼンは競合ビジョンベンチマークにおいて従来のSSLモデルよりも大幅に優れており、CIFAR-100の精度は最大16.5%向上していることを示した。 kaizenは、知識の保持と新しいデータからの学習のトレードオフとエンドツーエンドモデルとのバランスをとることができ、継続的学習システムの実践的展開への道を開くことができる。

Self-supervised learning (SSL) has shown remarkable performance in computer vision tasks when trained offline. However, in a Continual Learning (CL) scenario where new data is introduced progressively, models still suffer from catastrophic forgetting. Retraining a model from scratch to adapt to newly generated data is time-consuming and inefficient. Previous approaches suggested re-purposing self-supervised objectives with knowledge distillation to mitigate forgetting across tasks, assuming that labels from all tasks are available during fine-tuning. In this paper, we generalize self-supervised continual learning in a practical setting where available labels can be leveraged in any step of the SSL process. With an increasing number of continual tasks, this offers more flexibility in the pre-training and fine-tuning phases. With Kaizen, we introduce a training architecture that is able to mitigate catastrophic forgetting for both the feature extractor and classifier with a carefully designed loss function. By using a set of comprehensive evaluation metrics reflecting different aspects of continual learning, we demonstrated that Kaizen significantly outperforms previous SSL models in competitive vision benchmarks, with up to 16.5% accuracy improvement on split CIFAR-100. Kaizen is able to balance the trade-off between knowledge retention and learning from new data with an end-to-end model, paving the way for practical deployment of continual learning systems.
翻訳日:2024-02-08 20:46:35 公開日:2024-02-07
# 自己教師型視覚表現学習のための混合オートエンコーダ

Mixed Autoencoder for Self-supervised Visual Representation Learning ( http://arxiv.org/abs/2303.17152v3 )

ライセンス: Link先を確認
Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung(参考訳) Masked Autoencoder (MAE)は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。 しかしながら、maeの効果的なデータ拡張戦略は依然としてオープンな質問であり、最も重要な部分となる対照的な学習の方法とは異なる。 本稿では,MAEの混合促進効果について検討する。 まず, 相互情報(mi)の増加により, ナイーブ混合が縮退するモデル性能を示す。 そこで本研究では,各パッチに対して,同種パッチの認識を明示的に要求するだけでなく,下流の高密度認識性能を向上させるために,オブジェクト認識による事前学習を行うことにより,MI増加を緩和する。 大規模な実験により,提案したMixedAE (MixedAE) が,様々な下流タスクにおけるマスク画像モデリング (MIM) 強化における最先端の転送結果を実現することを示す。 具体的には、imagenet-1k, ade20k, coco 上の +0.3% の精度、 +1.7 miou と +0.9 ap をそれぞれ標準 vit ベースで上回っている。 さらに、MIM法とインスタンス識別を組み合わせた強力なMIM法であるiBOTを超え、トレーニングを2倍に加速する。 私たちの知る限りでは、プレテキストタスク設計の観点からMIMの混合を検討するのはこれが初めてです。 コードは利用可能になる。

Masked Autoencoder (MAE) has demonstrated superior performance on various vision tasks via randomly masking image patches and reconstruction. However, effective data augmentation strategies for MAE still remain open questions, different from those in contrastive learning that serve as the most important part. This paper studies the prevailing mixing augmentation for MAE. We first demonstrate that naive mixing will in contrast degenerate model performance due to the increase of mutual information (MI). To address, we propose homologous recognition, an auxiliary pretext task, not only to alleviate the MI increasement by explicitly requiring each patch to recognize homologous patches, but also to perform object-aware self-supervised pre-training for better downstream dense perception performance. With extensive experiments, we demonstrate that our proposed Mixed Autoencoder (MixedAE) achieves the state-of-the-art transfer results among masked image modeling (MIM) augmentations on different downstream tasks with significant efficiency. Specifically, our MixedAE outperforms MAE by +0.3% accuracy, +1.7 mIoU and +0.9 AP on ImageNet-1K, ADE20K and COCO respectively with a standard ViT-Base. Moreover, MixedAE surpasses iBOT, a strong MIM method combined with instance discrimination, while accelerating training by 2x. To our best knowledge, this is the very first work to consider mixing for MIM from the perspective of pretext task design. Code will be made available.
翻訳日:2024-02-08 20:46:12 公開日:2024-02-07
# 1次元ナノフォトニック導波路に結合した量子ビット鎖を通る単一光子輸送の動的理論

Dynamical theory of single-photon transport through a qubit chain coupled to a one-dimensional nanophotonic waveguide ( http://arxiv.org/abs/2307.14752v2 )

ライセンス: Link先を確認
Ya. S. Greenberg, O. A. Chuikin, A. A. Shtygashev, A. G. Moiseev(参考訳) 1次元(1D)フォトニック導波路の連続モードに結合した線形量子ビット鎖を通る単一光子パルスのダイナミクスについて検討した。 我々は、キュービット振幅と透過スペクトルと反射スペクトルの時間依存力学理論を導出する。 正の周波数に対してのみ存在する光子量子ビットカップリングの必要性はシステムのダイナミクスを大きく変えることができることを示した。 まず、光子を介する量子ビット間の双極子-双極子相互作用が、それらの間の位相コヒーレンスを破る。 第2に、透過スペクトルと反射スペクトルのスペクトル線は、入射パルスの形状と、チェーン内のパルス中心と第1量子ビットとの間の初期距離に決定的に依存する。 我々はこの理論を1量子系と2量子系に適用する。 この2つのケースでは、時が無限になるにつれて量子ビットの振幅と光子放射スペクトルの明示的な表現が得られる。 入射ガウス波パケットに対して、伝送光と反射光の直線形状を計算する。

We study the dynamics of a single-photon pulse travelling through a linear qubit chain coupled to continuum modes in a one-dimensional (1D) photonic waveguide. We derive a time-dependent dynamical theory for qubit amplitudes and for transmitted and reflected spectra. We show that the requirement for the photon-qubit coupling to exist only for positive frequencies can significantly change the dynamics of the system. First, it leads to an additional photon-mediated dipole-dipole interaction between qubits which results in the violation of the phase coherence between them. Second, the spectral lines of transmitted and reflected spectra crucially depend on the shape of the incident pulse and the initial distance between the pulse center and the first qubit in the chain. We apply our theory to one-qubit and two-qubit systems. For these two cases, we obtain the explicit expressions for the qubits' amplitudes and the photon radiation spectra as time tends to infinity. For the incident Gaussian wave packet we calculate the line shapes of transmitted and reflected photons.
翻訳日:2024-02-08 20:38:47 公開日:2024-02-07
# Deep Fusion: 事前訓練によるネットワークトレーニングの効率化

Deep Fusion: Efficient Network Training via Pre-trained Initializations ( http://arxiv.org/abs/2306.11903v2 )

ライセンス: Link先を確認
Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder, Sammy Jerome, Benoit Dherin(参考訳) 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。 LLMの文脈におけるディープニューラルネットワークのトレーニングに関連する課題の1つは、大量の計算リソースと時間の必要性である。 これを軽減するために、ネットワーク成長アルゴリズムは潜在的なコスト削減を提供するが、その基盤となるメカニズムは理解されていない。 この論文には2つの重要な貢献がある。 まず,より小さなネットワークの事前学習初期化を活用したネットワークトレーニングの効率的なアプローチであるdeep fusionを提案する。 第二に, 学習中のネットワーク成長のダイナミクスを説明するために, 後方誤差解析を用いた理論的枠組みを提案する。 我々の実験は、Deep Fusionがトレーニングプロセスを加速するだけでなく、計算要求を低減し、様々なNLPタスクやT5モデルサイズにおける従来のトレーニングメソッドのパフォーマンスを維持または超える実践的で効果的なアプローチであることを示す。 最後に,deep fusionの最適利用を導く理論的枠組みを検証することで,トレーニングダイナミクスを慎重に最適化することで,トレーニング時間とリソース消費の両方を大幅に削減できることを示した。

In recent years, deep learning has made remarkable progress in a wide range of domains, with a particularly notable impact on natural language processing tasks. One of the challenges associated with training deep neural networks in the context of LLMs is the need for large amounts of computational resources and time. To mitigate this, network growing algorithms offer potential cost savings, but their underlying mechanisms are poorly understood. We present two notable contributions in this paper. First, we present Deep Fusion, an efficient approach to network training that leverages pre-trained initializations of smaller networks. Second, we propose a theoretical framework using backward error analysis to illustrate the dynamics of mid-training network growth. Our experiments show how Deep Fusion is a practical and effective approach that not only accelerates the training process but also reduces computational requirements, maintaining or surpassing traditional training methods' performance in various NLP tasks and T5 model sizes. Finally, we validate our theoretical framework, which guides the optimal use of Deep Fusion, showing that with carefully optimized training dynamics, it significantly reduces both training time and resource consumption.
翻訳日:2024-02-08 20:38:32 公開日:2024-02-07
# 逐次ビデオコンパイルのためのプログレッシブフーリエニューラル表現

Progressive Fourier Neural Representation for Sequential Video Compilation ( http://arxiv.org/abs/2306.11305v3 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, DaHyun Kim, Sung Ju Hwang, and Chang D Yoo(参考訳) neural implicit representation (nir) は、複雑な高次元データを表現空間にエンコードし、訓練可能なマッピング関数によって容易に再構成する能力によって、最近注目されている。 しかし、NIR法は、データ関連性や類似性に関わらず、対象データと表現モデルの間の1対1のマッピングを仮定する。 その結果、複数の複雑なデータに対する一般化が貧弱になり、その効率性とスケーラビリティが制限される。 本研究は、連続学習に動機づけられ、複数の複雑なビデオデータに対するニューラルネットワークの暗黙表現を逐次符号化セッション上で蓄積・転送する方法を検討する。 nirの限界を克服するために,フーリエ空間に適応的かつコンパクトな部分加群を探索し,各トレーニングセッションで動画をエンコードすることを目的とした,プログレッシブ・フーリエ・ニューラル・表現(pfnr)を提案する。 このスパース化ニューラルエンコーディングにより、ニューラルネットワークは自由重みを持ち、将来のビデオへの適応性が向上する。 さらに、新しいビデオの表現を学ぶ際、PFNRは以前のビデオの表現を凍結重みで転送する。 この設計により、モデルは複数のビデオの高品質なニューラル表現を継続的に蓄積し、以前のビデオの学習された表現を完全に保存するロスレスデコードを保証することができる。 我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。 PFNRコードはhttps://github.com/ihaeyong/PFNR.gitで入手できる。

Neural Implicit Representation (NIR) has recently gained significant attention due to its remarkable ability to encode complex and high-dimensional data into representation space and easily reconstruct it through a trainable mapping function. However, NIR methods assume a one-to-one mapping between the target data and representation models regardless of data relevancy or similarity. This results in poor generalization over multiple complex data and limits their efficiency and scalability. Motivated by continual learning, this work investigates how to accumulate and transfer neural implicit representations for multiple complex video data over sequential encoding sessions. To overcome the limitation of NIR, we propose a novel method, Progressive Fourier Neural Representation (PFNR), that aims to find an adaptive and compact sub-module in Fourier space to encode videos in each training session. This sparsified neural encoding allows the neural network to hold free weights, enabling an improved adaptation for future videos. In addition, when learning a representation for a new video, PFNR transfers the representation of previous videos with frozen weights. This design allows the model to continuously accumulate high-quality neural representations for multiple videos while ensuring lossless decoding that perfectly preserves the learned representations for previous videos. We validate our PFNR method on the UVG8/17 and DAVIS50 video sequence benchmarks and achieve impressive performance gains over strong continual learning baselines. The PFNR code is available at https://github.com/ihaeyong/PFNR.git.
翻訳日:2024-02-08 20:38:14 公開日:2024-02-07
# PAC-Chernoff境界:補間規則の一般化を理解する

PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime ( http://arxiv.org/abs/2306.10947v2 )

ライセンス: Link先を確認
Andr\'es R. Masegosa and Luis A. Ortega(参考訳) 本稿では,過パラメータモデルクラスの下でも補間子にとって完全にタイトな分布依存pac-chernoffバウンドを提案する。 この境界は、大偏差理論の基本原理に依存し、単純実数値関数として記述されたモデルの滑らかさを自然に特徴づける。 この分布依存境界とスムーズさの新たな定義に基づいて, 補間器の一般化が極めて良好である一方で, 他がそうでない理由を統一した理論的説明を提案する。 また、最近の学習技術(例えば$\ell_2$-norm, distance-from-initialization, input-gradient and variance regularization)とデータ拡張、不変アーキテクチャ、過パラメータ化)が、なぜそれらを見つけることができるのか。 創発的な結論は、これらの手法はすべてオプティマイザをより滑らかな補間器に偏らせる補完的手順を提供しており、この理論解析によれば、より一般化誤差のある方法である。 この研究の主な知見の1つは、分布に依存した境界が、高度にパラメータ化された補間器の一般化能力の背後にある複雑なダイナミクスをよりよく理解する強力なツールとなることである。

In this paper, we present a distribution-dependent PAC-Chernoff bound that is perfectly tight for interpolators even under overparametrized model classes. This bound relies on basic principles of Large Deviation Theory and naturally provides a characterization of the smoothness of a model described as a simple real-valued function. Based on this distribution-dependent bound and the novel definition of smoothness, we propose an unifying theoretical explanation of why some interpolators generalize remarkably well while others not. And why a wide range of modern learning techniques (i.e., $\ell_2$-norm, distance-from-initialization, input-gradient and variance regularization together with data augmentation, invariant architectures, and overparameterization) are able to find them. The emergent conclusion is that all these methods provide complimentary procedures that bias the optimizer to smoother interpolators, which, according to this theoretical analysis, are the ones with better generalization error. One of the main insights of this study is that distribution-dependent bounds serve as a powerful tool better understand the complex dynamics behind the generalization capabilities of highly-overparameterized interpolators.
翻訳日:2024-02-08 20:37:45 公開日:2024-02-07
# MAX-CUTの連続量子ウォークは熱い

Continuous-time quantum walks for MAX-CUT are hot ( http://arxiv.org/abs/2306.10365v2 )

ライセンス: Link先を確認
Robert J. Banks, Ehsan Haque, Farah Nazef, Fatima Fethallah, Fatima Ruqaya, Hamza Ahsan, Het Vora, Hibah Tahir, Ibrahim Ahmad, Isaac Hewins, Ishaq Shah, Krish Baranwal, Mannan Arora, Mateen Asad, Mubasshirah Khan, Nabian Hasan, Nuh Azad, Salgai Fedaiee, Shakeel Majeed, Shayam Bhuyan, Tasfia Tarannum, Yahya Ali, Dan E. Browne and P. A. Warburton(参考訳) 時間非依存ハミルトニアンと熱化の関係を利用して、MAX-CUTの連続時間量子ウォークの性能に関するヒューリスティックな予測を行う。 その結果得られる予測は、基礎となるマックスカットグラフの三角形の数に依存する。 これらの結果を,多段階量子ウォークとフロケシステムによる時間依存的な設定に拡張する。 このアプローチは、連続時間量子アルゴリズムによる組合せ最適化問題に取り組む際のユニタリダイナミクスの役割を理解する新しい方法を提供する。

By exploiting the link between time-independent Hamiltonians and thermalisation, heuristic predictions on the performance of continuous-time quantum walks for MAX-CUT are made. The resulting predictions depend on the number of triangles in the underlying MAX-CUT graph. We extend these results to the time-dependent setting with multi-stage quantum walks and Floquet systems. The approach followed here provides a novel way of understanding the role of unitary dynamics in tackling combinatorial optimisation problems with continuous-time quantum algorithms.
翻訳日:2024-02-08 20:37:25 公開日:2024-02-07
# ClimSim:ハイブリッド物理-ML気候エミュレーションのための大規模マルチスケールデータセット

ClimSim: A large multi-scale dataset for hybrid physics-ML climate emulation ( http://arxiv.org/abs/2306.08754v5 )

ライセンス: Link先を確認
Sungduk Yu, Walter Hannah, Liran Peng, Jerry Lin, Mohamed Aziz Bhouri, Ritwik Gupta, Bj\"orn L\"utjens, Justus Christopher Will, Gunnar Behrens, Julius Busecke, Nora Loose, Charles I Stern, Tom Beucler, Bryce Harrop, Benjamin R Hillman, Andrea Jenney, Savannah Ferretti, Nana Liu, Anima Anandkumar, Noah D Brenowitz, Veronika Eyring, Nicholas Geneva, Pierre Gentine, Stephan Mandt, Jaideep Pathak, Akshay Subramaniam, Carl Vondrick, Rose Yu, Laure Zanna, Tian Zheng, Ryan Abernathey, Fiaz Ahmed, David C Bader, Pierre Baldi, Elizabeth Barnes, Christopher Bretherton, Peter Caldwell, Wayne Chuang, Yilun Han, Yu Huang, Fernando Iglesias-Suarez, Sanket Jantre, Karthik Kashinath, Marat Khairoutdinov, Thorsten Kurth, Nicholas Lutsko, Po-Lun Ma, Griffin Mooers, J. David Neelin, David Randall, Sara Shamekh, Mark A Taylor, Nathan Urban, Janni Yuval, Guang Zhang, Michael Pritchard(参考訳) 現代の気候予測は、計算の制約による空間的および時間的解決が不十分である。 その結果は、嵐のような臨界過程の不正確で不正確な予測である。 物理と機械学習(ML)を組み合わせたハイブリッドな手法は、新しい世代の高忠実度気候シミュレータを導入し、計算ハングリーで短い高解像度のシミュレーションをMLエミュレータにアウトソーシングすることでムーアの法則を助長することができる。 しかし、このハイブリッドML-物理シミュレーションアプローチは、ドメイン固有の治療を必要としており、トレーニングデータや関連する、使いやすいワークフローがないため、MLの専門家にはアクセスできない。 ClimSimは、ハイブリッドML物理研究のために設計された、史上最大のデータセットである。 気候科学者とML研究者のコンソーシアムによって開発されたマルチスケール気候シミュレーションを含んでいる。 570億対の多変量入力および出力ベクトルからなり、ホストの気候シミュレータのマクロスケールの物理状態に対する局所ネスト、高分解能、高忠実性物理学の影響を分離する。 データセットはグローバルにカバーされており、複数年にわたってサンプリング頻度が高く、結果としてエミュレータがダウンストリーム結合と互換性を持つように設計されている。 我々は,MLの課題とその得点を明らかにするために,決定論的および確率的回帰ベースラインを実装した。 データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res)とコード(https://leap-stc.github.io/ClimSim)は、科学と社会の利益のために、ハイブリッドML物理と高忠実度気候シミュレーションの開発を支援するために公開されている。

Modern climate projections lack adequate spatial and temporal resolution due to computational constraints. A consequence is inaccurate and imprecise predictions of critical processes such as storms. Hybrid methods that combine physics with machine learning (ML) have introduced a new generation of higher fidelity climate simulators that can sidestep Moore's Law by outsourcing compute-hungry, short, high-resolution simulations to ML emulators. However, this hybrid ML-physics simulation approach requires domain-specific treatment and has been inaccessible to ML experts because of lack of training data and relevant, easy-to-use workflows. We present ClimSim, the largest-ever dataset designed for hybrid ML-physics research. It comprises multi-scale climate simulations, developed by a consortium of climate scientists and ML researchers. It consists of 5.7 billion pairs of multivariate input and output vectors that isolate the influence of locally-nested, high-resolution, high-fidelity physics on a host climate simulator's macro-scale physical state. The dataset is global in coverage, spans multiple years at high sampling frequency, and is designed such that resulting emulators are compatible with downstream coupling into operational climate simulators. We implement a range of deterministic and stochastic regression baselines to highlight the ML challenges and their scoring. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res) and code (https://leap-stc.github.io/ClimSim) are released openly to support the development of hybrid ML-physics and high-fidelity climate simulations for the benefit of science and society.
翻訳日:2024-02-08 20:36:50 公開日:2024-02-07
# 予測輝度による可逆的ハーフトーン変換

Taming Reversible Halftoning via Predictive Luminance ( http://arxiv.org/abs/2306.08309v3 )

ライセンス: Link先を確認
Cheuk-Kit Lau, Menghan Xia, Tien-Tsin Wong(参考訳) 伝統的なハーフトーンは通常、二値ドットで画像をディザリングする際に色を落とすため、元の色情報を復元することが困難になる。 カラーイメージを元のバージョンに完全復元可能なバイナリハーフトーンに変換する,新しいハーフトーン技術を提案する。 提案手法は,2つの畳み込みニューラルネットワーク(CNN)による可逆半音パターンの生成と,CNNの平坦性劣化問題を緩和するためのノイズインセンティブブロック(NIB)から構成される。 さらに,提案手法では,青音品質と復元精度の矛盾に対処するため,予測可能な情報をネットワークからオフロードする予測器組込み手法を提案し,本手法はハーフトーンパターンに類似した輝度情報である。 このようなアプローチにより、ネットワークは、修復品質を損なうことなく、より優れたブルーノイズ品質のハーフトーンを生産する柔軟性を得ることができる。 多段階訓練法と損失重み付けに関する詳細な研究が行われている。 我々は, 半音のスペクトル解析, 半音の精度, 復元精度, データ埋め込み研究について, 予測器埋め込み法と新しい手法を比較した。 エントロピー評価の結果,我々のハーフトーンは,新しいベース法よりもエントロピー情報が少ないことがわかった。 実験により, 半音の青色音質を改善するために, 予測器埋込み法により柔軟性が向上し, 耐障害性も向上した。

Traditional halftoning usually drops colors when dithering images with binary dots, which makes it difficult to recover the original color information. We proposed a novel halftoning technique that converts a color image into a binary halftone with full restorability to its original version. Our novel base halftoning technique consists of two convolutional neural networks (CNNs) to produce the reversible halftone patterns, and a noise incentive block (NIB) to mitigate the flatness degradation issue of CNNs. Furthermore, to tackle the conflicts between the blue-noise quality and restoration accuracy in our novel base method, we proposed a predictor-embedded approach to offload predictable information from the network, which in our case is the luminance information resembling from the halftone pattern. Such an approach allows the network to gain more flexibility to produce halftones with better blue-noise quality without compromising the restoration quality. Detailed studies on the multiple-stage training method and loss weightings have been conducted. We have compared our predictor-embedded method and our novel method regarding spectrum analysis on halftone, halftone accuracy, restoration accuracy, and the data embedding studies. Our entropy evaluation evidences our halftone contains less encoding information than our novel base method. The experiments show our predictor-embedded method gains more flexibility to improve the blue-noise quality of halftones and maintains a comparable restoration quality with a higher tolerance for disturbances.
翻訳日:2024-02-08 20:36:16 公開日:2024-02-07
# 畳み込みニューラルネットワークによる大規模空間問題の解法

Solving Large-scale Spatial Problems with Convolutional Neural Networks ( http://arxiv.org/abs/2306.08191v2 )

ライセンス: Link先を確認
Damian Owerko, Charilaos I. Kanatsoulis, Alejandro Ribeiro(参考訳) 過去10年間で、ディープラーニングの研究はますます強力なハードウェアによって加速され、モデルの複雑さとデータ量の増加が促進された。 これは持続不可能になりつつあるため、効率に再フォーカスする必要がある。 本稿では,大規模空間問題に対する学習効率を向上させるために,トランスファー学習を用いる。 畳み込みニューラルネットワーク (cnn) は, 信号の小さな窓上で学習できるが, 性能劣化が少なく, 任意に大きい信号で評価し, 結果の一般化誤差に対する理論的拘束力を提供する。 我々の証明は、伝達学習において過小評価されている特性であるCNNのシフト等価性を利用する。 理論的結果は、モバイルインフラの需要(MID)の文脈で実験的に支持される。 提案手法は数百のエージェントで大規模に中規模に取り組むことが可能であり,その前に計算処理が難しかった。

Over the past decade, deep learning research has been accelerated by increasingly powerful hardware, which facilitated rapid growth in the model complexity and the amount of data ingested. This is becoming unsustainable and therefore refocusing on efficiency is necessary. In this paper, we employ transfer learning to improve training efficiency for large-scale spatial problems. We propose that a convolutional neural network (CNN) can be trained on small windows of signals, but evaluated on arbitrarily large signals with little to no performance degradation, and provide a theoretical bound on the resulting generalization error. Our proof leverages shift-equivariance of CNNs, a property that is underexploited in transfer learning. The theoretical results are experimentally supported in the context of mobile infrastructure on demand (MID). The proposed approach is able to tackle MID at large scales with hundreds of agents, which was computationally intractable prior to this work.
翻訳日:2024-02-08 20:35:48 公開日:2024-02-07
# 符号付きバーコードを用いた多パラメータ持続ホモロジーの安定ベクトル化

Stable Vectorization of Multiparameter Persistent Homology using Signed Barcodes as Measures ( http://arxiv.org/abs/2306.03801v2 )

ライセンス: Link先を確認
David Loiseaux, Luis Scoccola, Mathieu Carri\`ere, Magnus Bakke Botnan, Steve Oudot(参考訳) 永続ホモロジー (PH) は、解釈可能で摂動に安定な重み付きグラフのような幾何学的データに対して位相記述子を提供する。 PHのほとんどの応用は1パラメータの場合に焦点を当てており、そこでは1パラメータPHディスクリプタをヒルベルト空間の要素として安定なベクトル化に依存したデータサイエンスで使用するための幅広い手法がある。 複数の利害関係によってフィルタリングされるデータの多パラメータPH(MPH)は、その1パラメータよりもはるかにリッチな情報を符号化するが、MPH記述子に対する安定性の欠如は、MPHの安定ベクトル化のための選択肢を制限してきた。 本稿では,符号付きバーコード(最近のMPH記述子ファミリー)の解釈が,あるパラメータから複数のパラメータへのベクトル化戦略の自然な拡張につながることを示すことによって,両世界の長所をまとめることを目的とする。 結果として得られる特徴ベクトルは定義しやすく、計算しやすく、確実に安定である。 概念実証として,署名されたバーコードとベクトル化の簡単な選択に着目するが,特徴ベクトルと最先端のトポロジに基づく各種データとの比較では,すでに顕著な性能向上が見られる。

Persistent homology (PH) provides topological descriptors for geometric data, such as weighted graphs, which are interpretable, stable to perturbations, and invariant under, e.g., relabeling. Most applications of PH focus on the one-parameter case -- where the descriptors summarize the changes in topology of data as it is filtered by a single quantity of interest -- and there is now a wide array of methods enabling the use of one-parameter PH descriptors in data science, which rely on the stable vectorization of these descriptors as elements of a Hilbert space. Although the multiparameter PH (MPH) of data that is filtered by several quantities of interest encodes much richer information than its one-parameter counterpart, the scarceness of stability results for MPH descriptors has so far limited the available options for the stable vectorization of MPH. In this paper, we aim to bring together the best of both worlds by showing how the interpretation of signed barcodes -- a recent family of MPH descriptors -- as signed measures leads to natural extensions of vectorization strategies from one parameter to multiple parameters. The resulting feature vectors are easy to define and to compute, and provably stable. While, as a proof of concept, we focus on simple choices of signed barcodes and vectorizations, we already see notable performance improvements when comparing our feature vectors to state-of-the-art topology-based methods on various types of data.
翻訳日:2024-02-08 20:35:33 公開日:2024-02-07
# pagar: 逆強化学習における報酬誤用 : 主人公アンタゴニストによる模倣学習

PAGAR: Taming Reward Misalignment in Inverse Reinforcement Learning-Based Imitation Learning with Protagonist Antagonist Guided Adversarial Reward ( http://arxiv.org/abs/2306.01731v3 )

ライセンス: Link先を確認
Weichao Zhou, Wenchao Li(参考訳) 多くの模倣学習 (IL) アルゴリズムは逆強化学習 (IRL) を用いて、専門家がその実演行動に基づいて暗黙的に最適化している本質的な報酬関数を推論する。 しかし、実際には、IRLベースのILは、推論された報酬とタスクの目的とのミスアライメントのために、基礎となるタスクを達成できない。 本稿では,PGA(Protagonist Antagonist Guided Adversarial Reward)と呼ばれる半教師付き報酬設計パラダイムを導入することで,ILのこのような悪用に対する感受性を論じる。 PAGARベースのILは、IRLベースのILのように単一の報酬関数ではなく、混合報酬関数の下でうまく機能するポリシーを訓練する。 我々は,パガーベースilが報酬不一致に起因するタスク障害を回避できる理論的条件を明らかにする。 また,PAGARベースのILの実装に対して,実践的なオン・アンド・オフポリシーアプローチを提案する。 実験結果から,本アルゴリズムは複雑なタスクにおいて標準のILベースラインよりも優れており,転送設定が難しいことがわかった。

Many imitation learning (IL) algorithms employ inverse reinforcement learning (IRL) to infer the intrinsic reward function that an expert is implicitly optimizing for based on their demonstrated behaviors. However, in practice, IRL-based IL can fail to accomplish the underlying task due to a misalignment between the inferred reward and the objective of the task. In this paper, we address the susceptibility of IL to such misalignment by introducing a semi-supervised reward design paradigm called Protagonist Antagonist Guided Adversarial Reward (PAGAR). PAGAR-based IL trains a policy to perform well under mixed reward functions instead of a single reward function as in IRL-based IL. We identify the theoretical conditions under which PAGAR-based IL can avoid the task failures caused by reward misalignment. We also present a practical on-and-off policy approach to implementing PAGAR-based IL. Experimental results show that our algorithm outperforms standard IL baselines in complex tasks and challenging transfer settings.
翻訳日:2024-02-08 20:35:07 公開日:2024-02-07
# MERT:大規模自己指導型音響音楽理解モデル

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training ( http://arxiv.org/abs/2306.00107v3 )

ライセンス: Link先を確認
Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghao Xiao, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Zili Wang, Yike Guo, Jie Fu(参考訳) 自己教師付き学習(SSL)は、視覚、テキスト、音声の分野における大規模データに対する一般的なモデルをトレーニングするための有望なパラダイムとして最近登場した。 SSLは音声と音声で有効であることが証明されているが、音楽オーディオへの応用はまだ十分に検討されていない。 これは、音楽の知識、特に音色や音色の特徴をモデル化することに関連する独特の課題が原因である。 本研究のギャップに対処するために,教師モデルを取り入れた大規模自己教師訓練(mert)を用いた音響音楽理解モデルを提案する。 本研究は,従来の音声と音声のアプローチを性能面で上回る教師モデルの効果的な組み合わせを見出した。 この組み合わせには、Residual Vector Quantisation - Variational AutoEncoder (RVQ-VAE)に基づく音響教師と、Constant-Q Transform (CQT)に基づく音楽教師が含まれる。 さらに,アコースティック言語モデルの事前学習における不安定性を克服し,設計パラダイムを95万から330万のパラメータに拡張可能にするため,幅広い設定を検討する。 実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,良好な演奏が可能であることが示唆された。

Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is partially due to the distinctive challenges associated with modelling musical knowledge, particularly tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified an effective combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantisation - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attain state-of-the-art (SOTA) overall scores.
翻訳日:2024-02-08 20:34:33 公開日:2024-02-07
# 軽度過パラメータのreluネットワークは、好適なロスランドスケープを持つ

Mildly Overparameterized ReLU Networks Have a Favorable Loss Landscape ( http://arxiv.org/abs/2305.19510v2 )

ライセンス: Link先を確認
Kedar Karhadkar, Michael Murray, Hanna Tseran, Guido Mont\'ufar(参考訳) 本研究では,2乗誤差損失のための汎用有限入力データセット上での,浅層と深層,軽度過パラメータのreluニューラルネットワークの損失状況について検討した。 その結果,ほとんどのアクティベーションパターンは,局所最小値が低いパラメータ領域に対応していることがわかった。 さらに、1次元の入力データに対して、ネットワークによって実現可能なほとんどの活性化領域は、高次元のグローバルミニマと悪いローカルミニマを含むことを示す。 過パラメータ化の量によっては,ジャコビアンがフルランクの領域から多くの領域への位相遷移を見いだすことにより,これらの結果が実験的に確認される。

We study the loss landscape of both shallow and deep, mildly overparameterized ReLU neural networks on a generic finite input dataset for the squared error loss. We show both by count and volume that most activation patterns correspond to parameter regions with no bad local minima. Furthermore, for one-dimensional input data, we show most activation regions realizable by the network contain a high dimensional set of global minima and no bad local minima. We experimentally confirm these results by finding a phase transition from most regions having full rank Jacobian to many regions having deficient rank depending on the amount of overparameterization.
翻訳日:2024-02-08 20:34:06 公開日:2024-02-07
# MixFormerV2: 効率的なフルトランスフォーマートラッキング

MixFormerV2: Efficient Fully Transformer Tracking ( http://arxiv.org/abs/2305.15896v2 )

ライセンス: Link先を確認
Yutao Cui, Tianhui Song, Gangshan Wu and Limin Wang(参考訳) トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を達成した。 しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。 本稿では,この問題を解決するために,高密度畳み込み演算や複雑なスコア予測モジュールを使わずに, 'emph{MixFormerV2} と呼ばれる完全変圧器追跡フレームワークを提案する。 私たちの重要な設計は、4つの特別な予測トークンを導入し、ターゲットテンプレートと検索エリアのトークンに結合することです。 次に、これらの混合トークンシーケンスに統一トランスフォーマーバックボーンを適用する。 これらの予測トークンは、混合注意によってターゲットテンプレートと検索領域の複雑な相関を捉えることができる。 これらに基づいて、追跡ボックスを予測し、単純なMLPヘッドを用いて信頼度を推定する。 mixformerv2の効率をさらに高めるために,希薄蒸留と深遠蒸留を含む新しい蒸留ベースのモデル還元パラダイムを提案する。 前者は、濃厚なヘッドベースのMixViTから完全なトランスフォーマートラッカーに知識を転送することを目的としており、後者はバックボーンのいくつかの層を掘り起こすのに使われる。 我々は、MixFormerV2-BがLaSOTで70.6\%、TNL2kで57.4\%、高速GPUで165 FPS、MixFormerV2-SがFEAR-Lを2.7\%、リアルタイムCPUでLaSOTで2.7\%超える2種類のMixForemrV2をインスタンス化する。

Transformer-based trackers have achieved strong accuracy on the standard benchmarks. However, their efficiency remains an obstacle to practical deployment on both GPU and CPU platforms. In this paper, to overcome this issue, we propose a fully transformer tracking framework, coined as \emph{MixFormerV2}, without any dense convolutional operation and complex score prediction module. Our key design is to introduce four special prediction tokens and concatenate them with the tokens from target template and search areas. Then, we apply the unified transformer backbone on these mixed token sequence. These prediction tokens are able to capture the complex correlation between target template and search area via mixed attentions. Based on them, we can easily predict the tracking box and estimate its confidence score through simple MLP heads. To further improve the efficiency of MixFormerV2, we present a new distillation-based model reduction paradigm, including dense-to-sparse distillation and deep-to-shallow distillation. The former one aims to transfer knowledge from the dense-head based MixViT to our fully transformer tracker, while the latter one is used to prune some layers of the backbone. We instantiate two types of MixForemrV2, where the MixFormerV2-B achieves an AUC of 70.6\% on LaSOT and an AUC of 57.4\% on TNL2k with a high GPU speed of 165 FPS, and the MixFormerV2-S surpasses FEAR-L by 2.7\% AUC on LaSOT with a real-time CPU speed.
翻訳日:2024-02-08 20:33:51 公開日:2024-02-07
# アクティブフィードバックをもつ工学的不安定な量子状態

Engineering unsteerable quantum states with active feedback ( http://arxiv.org/abs/2308.00384v2 )

ライセンス: Link先を確認
Samuel Morales, Yuval Gefen, Igor Gornyi, Alex Zazunov, Reinhold Egger(参考訳) 量子回路における量子状態形成のためのアクティブステアリングプロトコルを提案する。各システムキュービットは、小さなステアリングオペレータから選択された単純な結合を用いて、単一の検出器キュービットに接続される。 1回のステップで期待されるコスト関数ゲインを最大化するように決定する。 これらのプロトコルを複数のマルチキュービットモデルに適用する。 私たちの結果は3つの目覚ましい洞察に支えられている。 まず、標準忠実度が有用なコスト関数を与えないことを示し、代わりに、局所忠実度項を含むことでステアリングを成功させる。 第2に、ステアリングダイナミクスは各システムキュービットに別々に作用するが、生成した目標状態の絡み合いが導入され、ステップ毎に検出器キュービットペアでベル測定を行うことで、自由に調整することができる。 これは、エンタングルメントスワッピングの弱い測定変種を実装している。 第3に、数値シミュレーションにより、アクティブステアリングプロトコルは、n$-qubit w 状態のような受動的に制御不能な状態を含む任意に指定された目標状態に到達できることが示されている。

We propose active steering protocols for quantum state preparation in quantum circuits where each system qubit is connected to a single detector qubit, employing a simple coupling selected from a small set of steering operators. The decision is made such that the expected cost-function gain in one time step is maximized. We apply these protocols to several many-qubit models. Our results are underlined by three remarkable insights. First, we show that the standard fidelity does not give a useful cost function; instead, successful steering is achieved by including local fidelity terms. Second, although the steering dynamics acts on each system qubit separately, entanglement in the generated target state is introduced, and can be tuned at will, by performing Bell measurements on detector qubit pairs after every time step. This implements a weak-measurement variant of entanglement swapping. Third, numerical simulations suggest that the active steering protocol can reach arbitrarily designated target states, including passively unsteerable states such as the $N$-qubit W state.
翻訳日:2024-02-08 20:27:03 公開日:2024-02-07
# 汎用視覚言語顔偽造検出に向けて

Towards General Visual-Linguistic Face Forgery Detection ( http://arxiv.org/abs/2307.16545v2 )

ライセンス: Link先を確認
Ke Sun, Shen Chen, Taiping Yao, Haozhe Yang, Xiaoshuai Sun, Shouhong Ding and Rongrong Ji(参考訳) deepfakeは、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす現実的な顔操作だ。 既存の方法は、このタスクをデジタルラベルやマスク信号を使って検出モデルを訓練するバイナリ分類として扱う。 このような監督には意味的情報と解釈性が欠けていると論じる。 この問題に対処するため,本論文では,微粒な文レベルのプロンプトをアノテーションとして用いた視覚言語的顔偽造検出(VLFFD)という新しいパラダイムを提案する。 現在のdeepfakesデータセットではテキストアノテーションが利用できないため、vlffdはプロンプト偽造画像ジェネレータ(pfig)を介して、対応するきめ細かいプロンプトを持つ混合偽造画像を生成する。 そして、細粒度混合データと粗粒度原データとを混合し、粗粒度共学習フレームワーク(c2f)と共同で訓練することにより、より一般化と解釈性を得ることができる。 提案手法は,いくつかの難解なベンチマークにおいて既存の検出モデルを改善したことを示す。 さらに,本手法をマルチモーダル大規模モデルに統合し,その可能性を示す注目すべき結果を得た。 この統合により、VLFFDパラダイムの性能が向上するだけでなく、高度なマルチモーダル技術と組み合わせることで、ディープフェイク検出の進化する課題に対処する可能性も強調される。

Deepfakes are realistic face manipulations that can pose serious threats to security, privacy, and trust. Existing methods mostly treat this task as binary classification, which uses digital labels or mask signals to train the detection model. We argue that such supervisions lack semantic information and interpretability. To address this issues, in this paper, we propose a novel paradigm named Visual-Linguistic Face Forgery Detection(VLFFD), which uses fine-grained sentence-level prompts as the annotation. Since text annotations are not available in current deepfakes datasets, VLFFD first generates the mixed forgery image with corresponding fine-grained prompts via Prompt Forgery Image Generator (PFIG). Then, the fine-grained mixed data and coarse-grained original data and is jointly trained with the Coarse-and-Fine Co-training framework (C2F), enabling the model to gain more generalization and interpretability. The experiments show the proposed method improves the existing detection models on several challenging benchmarks. Furthermore, we have integrated our method with multimodal large models, achieving noteworthy results that demonstrate the potential of our approach. This integration not only enhances the performance of our VLFFD paradigm but also underscores the versatility and adaptability of our method when combined with advanced multimodal technologies, highlighting its potential in tackling the evolving challenges of deepfake detection.
翻訳日:2024-02-08 20:26:08 公開日:2024-02-07
# select2col: 意味情報の空間-時間的重要性を活用した協調的知覚

Select2Col: Leveraging Spatial-Temporal Importance of Semantic Information for Efficient Collaborative Perception ( http://arxiv.org/abs/2307.16517v3 )

ライセンス: Link先を確認
Yuntao Liu, Qian Huang, Rongpeng Li, Xianfu Chen, Zhifeng Zhao, Shuyuan Zhao, Yongdong Zhu and Honggang Zhang(参考訳) 共有意味情報の活用による協調的知覚は、孤立したエージェントの個々の制限を克服する上で重要な役割を担っている。 しかし、既存の協調認識手法は、時間次元の重要性を無視しながら、意味情報の空間的特徴にのみ焦点をあてる傾向にある。 その結果、コラボレーションの潜在的な利点は未利用のままである。 本稿では,semanti\underline{c} informa\underline{t}ionの\underline{s}patial-t\underline{e}mpora\underline{l} importanc\underline{e}を考慮した,新しい協調的知覚フレームワークselect2colを提案する。 Select2Col内では、軽量グラフニューラルネットワーク(GNN)を用いた協調者選択手法を開発し、認識性能の向上における各協調者の意味情報(IoSI)の重要性を推定し、負の影響をもたらす可能性のあるものを除き、貢献的協力者を特定する。 さらに,HPHA (historical pre hybrid attention) と呼ばれるセマンティック情報融合アルゴリズムを提案する。このアルゴリズムは多段階の注意と短期の注意モジュールを統合し,空間次元と時間次元から特徴表現としてIoSIを捕捉し,選択した協力者からの情報の効率的な融合にIoSI一貫性重みを割り当てる。 3つのオープンデータセットに関する広範囲な実験により,提案するselect2colは,最先端のアプローチに比べて知覚性能が著しく向上することを示した。 この研究に関連するコードはhttps://github.com/huangqzj/select2col/で公開されている。

Collaborative perception by leveraging the shared semantic information plays a crucial role in overcoming the individual limitations of isolated agents. However, existing collaborative perception methods tend to focus solely on the spatial features of semantic information, while neglecting the importance of the temporal dimension. Consequently, the potential benefits of collaboration remain underutilized. In this article, we propose Select2Col, a novel collaborative perception framework that takes into account the \underline{s}patial-t\underline{e}mpora\underline{l} importanc\underline{e} of semanti\underline{c} informa\underline{t}ion. Within the Select2Col, we develop a collaborator selection method that utilizes a lightweight graph neural network (GNN) to estimate the importance of semantic information (IoSI) of each collaborator in enhancing perception performance, thereby identifying contributive collaborators while excluding those that potentially bring negative impact. Moreover, we present a semantic information fusion algorithm called HPHA (historical prior hybrid attention), which integrates multi-scale attention and short-term attention modules to capture the IoSI in feature representation from the spatial and temporal dimensions respectively, and assigns IoSI-consistent weights for efficient fusion of information from selected collaborators. Extensive experiments on three open datasets demonstrate that our proposed Select2Col significantly improves the perception performance compared to state-of-the-art approaches. The code associated with this research is publicly available at https://github.com/huangqzj/Select2Col/.
翻訳日:2024-02-08 20:25:40 公開日:2024-02-07
# 非線形逆問題に対する再電流運動量加速度を持つディープアンロールネットワーク

Deep Unrolling Networks with Recurrent Momentum Acceleration for Nonlinear Inverse Problems ( http://arxiv.org/abs/2307.16120v3 )

ライセンス: Link先を確認
Qingping Zhou, Jiayu Qian, Junqi Tang, Jinglai Li(参考訳) モデルベースの反復アルゴリズムとデータ駆動型ディープラーニングソリューションの強みを組み合わせることで、deep unrolling network(dunets)は逆イメージング問題を解決するための一般的なツールとなっている。 DuNetは、多くの線形逆問題に適用されているが、非線形問題は、その手法の性能を損なう傾向がある。 最適化アルゴリズムでよく用いられる運動量加速技術に着想を得て,長期記憶再帰ニューラルネットワーク(LSTM-RNN)を用いて運動量加速過程をシミュレートするリカレント運動量加速(RMA)フレームワークを提案する。 RMAモジュールは、LSTM-RNNが以前の勾配から知識を学び、保持する能力を活用する。 RMAを学習近位勾配降下法(LPGD)と学習原始双対法(LPD)の2つの一般的なDuNetに適用し,それぞれLPGD-RMAとLPD-RMAとなる。 非線形デコンボリューション問題と境界値が制限された電気インピーダンストモグラフィ問題という2つの非線形逆問題に関する実験結果を提供する。 最初の実験で、RMAによる改善は問題の非線形性に関して大きく増加することがわかった。 第2の例の結果はさらに、RMAスキームがDuNetの性能を著しく改善することを示した。

Combining the strengths of model-based iterative algorithms and data-driven deep learning solutions, deep unrolling networks (DuNets) have become a popular tool to solve inverse imaging problems. While DuNets have been successfully applied to many linear inverse problems, nonlinear problems tend to impair the performance of the method. Inspired by momentum acceleration techniques that are often used in optimization algorithms, we propose a recurrent momentum acceleration (RMA) framework that uses a long short-term memory recurrent neural network (LSTM-RNN) to simulate the momentum acceleration process. The RMA module leverages the ability of the LSTM-RNN to learn and retain knowledge from the previous gradients. We apply RMA to two popular DuNets -- the learned proximal gradient descent (LPGD) and the learned primal-dual (LPD) methods, resulting in LPGD-RMA and LPD-RMA respectively. We provide experimental results on two nonlinear inverse problems: a nonlinear deconvolution problem, and an electrical impedance tomography problem with limited boundary measurements. In the first experiment we have observed that the improvement due to RMA largely increases with respect to the nonlinearity of the problem. The results of the second example further demonstrate that the RMA schemes can significantly improve the performance of DuNets in strongly ill-posed problems.
翻訳日:2024-02-08 20:25:06 公開日:2024-02-07
# NormAUG:領域一般化のための正規化誘導拡張

NormAUG: Normalization-guided Augmentation for Domain Generalization ( http://arxiv.org/abs/2307.13492v2 )

ライセンス: Link先を確認
Lei Qi, Hongpeng Yang, Yinghuan Shi, Xin Geng(参考訳) 深層学習は教師あり学習において大きな進歩を遂げた。 しかしながら、この環境でトレーニングされたモデルは、トレーニングとテストセットの間のドメインシフトによってしばしば課題に直面し、テスト中のパフォーマンスが大幅に低下する。 この問題に対処するために、複数のトレーニングドメインから堅牢でドメイン不変な特徴を学習するために、いくつかのドメイン一般化手法が開発されている。 データ拡張は、トレーニングデータの多様性を高めることで、この目標を達成する上で重要な役割を果たす。 本稿では,各領域の異なるバッチによって生成される異なる統計量による画像の正規化が特徴を乱すことができるという観察に着想を得て,NormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。 本手法は,主経路と補助(拡張)経路の2つの経路を含む。 訓練中、補助経路は複数のサブパスを含み、それぞれが単一のドメインのバッチ正規化や複数のドメインのランダムな組み合わせに対応する。 これは機能レベルで多様な情報を導入し、メインパスの一般化を改善する。 さらに,NomAUG法は理論的な観点から,既存の上界の一般化を効果的に抑制する。 テスト段階では,モデルの補助経路からの予測を組み合わせるためにアンサンブル戦略を活用し,さらなる性能向上を図る。 提案手法の有効性を検証するために,複数のベンチマークデータセット上で広範な実験を行った。

Deep learning has made significant advancements in supervised learning. However, models trained in this setting often face challenges due to domain shift between training and test sets, resulting in a significant drop in performance during testing. To address this issue, several domain generalization methods have been developed to learn robust and domain-invariant features from multiple training domains that can generalize well to unseen test domains. Data augmentation plays a crucial role in achieving this goal by enhancing the diversity of the training data. In this paper, inspired by the observation that normalizing an image with different statistics generated by different batches with various domains can perturb its feature, we propose a simple yet effective method called NormAUG (Normalization-guided Augmentation). Our method includes two paths: the main path and the auxiliary (augmented) path. During training, the auxiliary path includes multiple sub-paths, each corresponding to batch normalization for a single domain or a random combination of multiple domains. This introduces diverse information at the feature level and improves the generalization of the main path. Moreover, our NormAUG method effectively reduces the existing upper boundary for generalization based on theoretical perspectives. During the test stage, we leverage an ensemble strategy to combine the predictions from the auxiliary path of our model, further boosting performance. Extensive experiments are conducted on multiple benchmark datasets to validate the effectiveness of our proposed method.
翻訳日:2024-02-08 20:24:38 公開日:2024-02-07
# 設計プロセスにおける検索型生成のための特許人工物記述からのエンジニアリング設計知識グラフ

Engineering Design Knowledge Graphs from Patented Artefact Descriptions for Retrieval-Augmented Generation in the Design Process ( http://arxiv.org/abs/2307.06985v5 )

ライセンス: Link先を確認
L Siddharth, Jianxi Luo(参考訳) 大きな言語モデル(LLM)は非常に人気があるが、設計プロセスにおいてドメイン固有の知識集約タスクをサポートするために、明示的な文脈的な事実を必要とする。 LLMを使って構築されたアプリケーションは、設計プロセスに合うようにRetrieval-Augmented Generation (RAG)を採用する必要がある。 本稿では,800万以上のアーティファクトの標準記述を提供する特許文書から明らかな事実を識別するためのデータ駆動手法を提案する。 本手法では,44,227文と事実のデータセットを用いて,RoBERTaトランスフォーマーに基づくシーケンス分類モデルを訓練する。 文中のトークンをエンティティまたはリレーションシップとして分類すると、別の分類器を使用して与えられたエンティティの特定の関係トークンを識別し、フォームヘッドエンティティの明示的な事実 ::リレーション::テールエンティティを識別する。 ファクト構築のためのベンチマーク手法では,BERT変換器を用いたトークン埋め込みを組み込んだ線形分類器とグラフニューラルネットワークを用いて,実体と関係の関連性を予測する。 提案手法をファンシステム関連特許4,870件に適用し,約300万件の知識ベースを蓄積する。 一般的なドメイン知識を表す事実と特定のサブシステムや問題に関する知識を検索することで、これらの事実が設計プロセスにもっと関係のあるテキストを生成するためのllmをどのように文脈化するかを実証する。

Despite significant popularity, Large-language Models (LLMs) require explicit, contextual facts to support domain-specific knowledge-intensive tasks in the design process. The applications built using LLMs should hence adopt Retrieval-Augmented Generation (RAG) to better suit the design process. In this article, we present a data-driven method to identify explicit facts from patent documents that provide standard descriptions of over 8 million artefacts. In our method, we train roBERTa Transformer-based sequence classification models using our dataset of 44,227 sentences and facts. Upon classifying tokens in a sentence as entities or relationships, our method uses another classifier to identify specific relationship tokens for a given pair of entities so that explicit facts of the form head entity :: relationship :: tail entity are identified. In the benchmark approaches for constructing facts, we use linear classifiers and Graph Neural Networks (GNNs) both incorporating BERT Transformer-based token embeddings to predict associations among the entities and relationships. We apply our method to 4,870 fan system related patents and populate a knowledge base of around 3 million facts. Upon retrieving the facts representing generalisable domain knowledge and the knowledge of specific subsystems and issues, we demonstrate how these facts contextualise LLMs for generating text that is more relevant to the design process.
翻訳日:2024-02-08 20:24:14 公開日:2024-02-07
# 離散群に対する非平衡絡み合い非対称性:XYスピン鎖の例

Non-equilibrium entanglement asymmetry for discrete groups: the example of the XY spin chain ( http://arxiv.org/abs/2307.06902v2 )

ライセンス: Link先を確認
Florent Ferro, Filiberto Ares, Pasquale Calabrese(参考訳) エンタングルメント非対称性(英: entanglement asymmetric)は、エンタングルメント法を用いて、拡張量子系の一部で対称性がどの程度壊れているかを測定する新しい量である。 これまでのところ、連続アーベル対称性の破れを特徴付けるためにのみ用いられてきた。 本稿では、この概念をcyclic $\mathbb{z}_n$ groupに拡張する。 応用例として、強磁性相において基底状態が自発的に$\mathbb{z}_2$スピンパリティ対称性を破るxyスピンチェーンを考える。 大域量子クエンチ後のこの対称性の非平衡力学を徹底的に研究し、標準順序パラメータの既知の結果を一般化する。

The entanglement asymmetry is a novel quantity that, using entanglement methods, measures how much a symmetry is broken in a part of an extended quantum system. So far it has only been used to characterise the breaking of continuous Abelian symmetries. In this paper, we extend the concept to cyclic $\mathbb{Z}_N$ groups. As an application, we consider the XY spin chain, in which the ground state spontaneously breaks the $\mathbb{Z}_2$ spin parity symmetry in the ferromagnetic phase. We thoroughly investigate the non-equilibrium dynamics of this symmetry after a global quantum quench, generalising known results for the standard order parameter.
翻訳日:2024-02-08 20:23:46 公開日:2024-02-07
# 自己校正分類器指導によるラベルデータ少ないスコアベース条件生成

Score-based Conditional Generation with Fewer Labeled Data by Self-calibrating Classifier Guidance ( http://arxiv.org/abs/2307.04081v3 )

ライセンス: Link先を確認
Paul Kuo-Ming Huang, Si-An Chen, Hsuan-Tien Lin(参考訳) SGM(Score-based Generative Model)は、画像生成品質の高い深層生成モデルのファミリである。 初期の研究では、未条件のSGMと訓練された分類器のガイダンスを結合することにより、SGMをクラス条件の生成に取り組むよう拡張した。 しかしながら、そのような分類器誘導型SGMは、特にラベル付きデータが少ない場合、正確な条件生成を必ずしも達成しない。 この問題は、下層の非条件分布と協調することなく、分類器が過度に適合する傾向に根ざしていると論じる。 非条件分布を尊重するために、分類器自体を正規化させて分類器誘導SGMを改善することを提案する。 提案手法の鍵となる考え方は、エネルギーモデルからの原理を用いて分類器を非条件SGMの別の視点に変換することである。 既存の無条件SGMの損失は、分類器の内部無条件スコアを校正することで正規化を達成するために利用することができる。 正規化スキームはラベル付きデータだけでなくラベルなしデータにも適用でき、さらに分類器を改善することができる。 ラベル付きデータが少ない様々な割合において,提案手法が条件付き生成品質を大幅に向上させることを示す実験結果が得られた。 この拡張により、制限されたラベル付きデータを用いた生成モデリングのための自己校正手法の可能性を検証した。

Score-based generative models (SGMs) are a popular family of deep generative models that achieve leading image generation quality. Early studies extend SGMs to tackle class-conditional generation by coupling an unconditional SGM with the guidance of a trained classifier. Nevertheless, such classifier-guided SGMs do not always achieve accurate conditional generation, especially when trained with fewer labeled data. We argue that the problem is rooted in the classifier's tendency to overfit without coordinating with the underlying unconditional distribution. To make the classifier respect the unconditional distribution, we propose improving classifier-guided SGMs by letting the classifier regularize itself. The key idea of our proposed method is to use principles from energy-based models to convert the classifier into another view of the unconditional SGM. Existing losses for unconditional SGMs can then be leveraged to achieve regularization by calibrating the classifier's internal unconditional scores. The regularization scheme can be applied to not only the labeled data but also unlabeled ones to further improve the classifier. Across various percentages of fewer labeled data, empirical results show that the proposed approach significantly enhances conditional generation quality. The enhancements confirm the potential of the proposed self-calibration technique for generative modeling with limited labeled data.
翻訳日:2024-02-08 20:23:33 公開日:2024-02-07
# 連続可変系における状態伝達のためのノイズデカップリング

Noise Decoupling for State Transfer in Continuous Variable Systems ( http://arxiv.org/abs/2307.02059v3 )

ライセンス: Link先を確認
Fattah Sakuldee, Behnam Tonekaboni(参考訳) 連続変数を用いた状態伝達問題に対して,一意演算のランダムな混合によって与えられる雑音チャネルの玩具モデルを考える。 送信ノードと受信ノードの間の経路をインターベンションできると仮定して、生成および消滅演算子の線形多項式と二次多項式によって生成されたノイズチャネルを制御し、同一チャネルを実現するため、ノイズデカップリングという用語が提案される。 ランダムな定音の場合、一般ノイズプロファイルでは目標状態が回復でき、ノイズと比較して介入が速い場合にはデカップリングを行うことができる。 送信機の状態は、目標状態の畳み込みと、ノイズと操作スキームを特徴付けるフィルタ関数として記述できることを示す。 また,同様の解析を高階多項式生成器の場合にも拡張可能であることも簡単に議論する。 最後に,数値計算によりプロトコルを実証する。

We consider a toy model of noise channels, given by a random mixture of unitary operations, for state transfer problems with continuous variables. Assuming that the path between the transmitter node and the receiver node can be intervened, we propose a noise decoupling protocol to manipulate the noise channels generated by linear and quadratic polynomials of creation and annihilation operators, to achieve an identity channel, hence the term noise decoupling. For random constant noise, the target state can be recovered while for the general noise profile, the decoupling can be done when the interventions are fast compared to the noise. We show that the state at the transmitter can be written as a convolution of the target state and a filter function characterizing the noise and the manipulation scheme. We also briefly discuss that a similar analysis can be extended to the case of higher-order polynomial generators. Finally, we demonstrate the protocols by numerical calculations.
翻訳日:2024-02-08 20:23:13 公開日:2024-02-07
# ECG-Image-Kit: 深層学習に基づく心電図デジタル化を実現する合成画像生成ツールボックス

ECG-Image-Kit: A Synthetic Image Generation Toolbox to Facilitate Deep Learning-Based Electrocardiogram Digitization ( http://arxiv.org/abs/2307.01946v4 )

ライセンス: Link先を確認
Kshama Kodthalu Shivashankara, Deepanshi, Afagh Mehri Shervedani, Gari D. Clifford, Matthew A. Reyna, Reza Sameni(参考訳) 心臓血管疾患は世界中で死亡の主な原因であり、心電図(ECG)は診断に不可欠である。 伝統的に、ECGは紙に印刷される。 しかし、これらのプリントアウトはスキャンしても時系列データを必要とする高度なecg診断ソフトウェアと互換性がない。 ECG画像のデジタル化は、ECG診断における機械学習モデルのトレーニングと、数十年にわたって収集された広範なグローバルアーカイブの活用に不可欠である。 画像処理の深層学習モデルは将来性が高いが,参照時系列データによる臨床ECGアーカイブの欠如は困難である。 現実的な生成データモデルを用いたデータ拡張技術はソリューションを提供する。 本稿では,時系列データからリアルなアーティファクトを合成したマルチリードECG画像を生成するオープンソースツールボックスECG-Image-Kitを紹介する。 このツールは、リアルタイム時系列データからecgイメージを合成し、テキストアーティファクト、しわ、折り目などの歪みを、標準的なecg紙背景に適用する。 ケーススタディでは、PhyloNet QTデータベースから、ECG-Image-Kitを使用して21,801個のECG画像のデータセットを作成しました。 このデータセット上で,従来のコンピュータビジョンとディープニューラルネットワークモデルを組み合わせて,合成画像から時系列データへの変換を行い,評価を行った。 信号対雑音比(SNR)を算出し,QRS幅,RR,QT間隔などの臨床パラメータを心電図時系列から抽出した基底事実と比較し,デジタル化品質を評価した。 その結果,この深層学習パイプラインは紙ECGを正確にデジタル化し,臨床パラメータを維持し,デジタル化に対する生成的アプローチを強調した。 このツールボックスは現在、紙ECG画像のデジタル化と分類に焦点を当てた2024 PhysioNet Challengeのデータ拡張をサポートしている。

Cardiovascular diseases are a major cause of mortality globally, and electrocardiograms (ECGs) are crucial for diagnosing them. Traditionally, ECGs are printed on paper. However, these printouts, even when scanned, are incompatible with advanced ECG diagnosis software that require time-series data. Digitizing ECG images is vital for training machine learning models in ECG diagnosis and to leverage the extensive global archives collected over decades. Deep learning models for image processing are promising in this regard, although the lack of clinical ECG archives with reference time-series data is challenging. Data augmentation techniques using realistic generative data models provide a solution. We introduce ECG-Image-Kit, an open-source toolbox for generating synthetic multi-lead ECG images with realistic artifacts from time-series data. The tool synthesizes ECG images from real time-series data, applying distortions like text artifacts, wrinkles, and creases on a standard ECG paper background. As a case study, we used ECG-Image-Kit to create a dataset of 21,801 ECG images from the PhysioNet QT database. We developed and trained a combination of a traditional computer vision and deep neural network model on this dataset to convert synthetic images into time-series data for evaluation. We assessed digitization quality by calculating the signal-to-noise ratio (SNR) and compared clinical parameters like QRS width, RR, and QT intervals recovered from this pipeline, with the ground truth extracted from ECG time-series. The results show that this deep learning pipeline accurately digitizes paper ECGs, maintaining clinical parameters, and highlights a generative approach to digitization. This toolbox currently supports data augmentation for the 2024 PhysioNet Challenge, focusing on digitizing and classifying paper ECG images.
翻訳日:2024-02-08 20:22:58 公開日:2024-02-07
# マニフォールド上のベクトル量子回帰

Vector Quantile Regression on Manifolds ( http://arxiv.org/abs/2307.01037v2 )

ライセンス: Link先を確認
Marco Pegoraro, Sanketh Vedula, Aviv A. Rosenberg, Irene Tallini, Emanuele Rodol\`a, Alex M. Bronstein(参考訳) QR(Quantile regression)は、対象変数の条件量子化の分布自由度推定のための統計ツールである。 QRは、対象の分布がユニバリケートでユークリッド領域で定義されるという仮定によって制限される。 四量体の概念は近年多変量分布に拡張されたが、多様体上の多変量分布のqrは、球体(気候・地質現象)やトーラス(タンパク質の双面角)など、本質的に多くの重要な応用が分散しているにもかかわらず、未検討のままである。 最適輸送理論とc-凹関数を利用して、多様体上の高次元変数の条件ベクトル量子関数(M-CVQF)を有意に定義する。 本手法は,条件付き信頼度集合と確率の量的推定,回帰,計算を可能にする。 提案手法の有効性を実証し, 合成および実データ実験による非ユークリッド量子化の意味に関する知見を提供する。

Quantile regression (QR) is a statistical tool for distribution-free estimation of conditional quantiles of a target variable given explanatory features. QR is limited by the assumption that the target distribution is univariate and defined on an Euclidean domain. Although the notion of quantiles was recently extended to multi-variate distributions, QR for multi-variate distributions on manifolds remains underexplored, even though many important applications inherently involve data distributed on, e.g., spheres (climate and geological phenomena), and tori (dihedral angles in proteins). By leveraging optimal transport theory and c-concave functions, we meaningfully define conditional vector quantile functions of high-dimensional variables on manifolds (M-CVQFs). Our approach allows for quantile estimation, regression, and computation of conditional confidence sets and likelihoods. We demonstrate the approach's efficacy and provide insights regarding the meaning of non-Euclidean quantiles through synthetic and real data experiments.
翻訳日:2024-02-08 20:22:24 公開日:2024-02-07
# シャッフルsgdによる経験的リスク最小化 : 初歩的視点と限界の改善

Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective and Improved Bounds ( http://arxiv.org/abs/2306.12498v2 )

ライセンス: Link先を確認
Xufeng Cai, Cheuk Yin Lin, Jelena Diakonikolas(参考訳) 確率勾配降下(SGD)は、おそらく現代の機械学習において最も一般的な最適化手法である。 置換なしでデータセットからサンプリングし、各エポックで(可能な)再シャッフルする経験的な実践とは対照的に、理論上のSGDは置換を伴うサンプリングの仮定に依存している。 SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。 凸有限和問題と$n$成分と各成分関数に対する$L$-平滑性仮定では、十分小さい -- $\mathcal{O}(\frac{1}{nL})$ -- ステップサイズで上と下の境界が一致する。 しかし、これらの境界は悲観的すぎるように見える ― 実際、予測された性能は、完全な勾配降下よりも一般的には良くなく、経験的な観察に一致しない。 本研究では,シャッフルsgdの理論と実践のギャップを狭めるため,一般有限和問題から線形予測器による経験的リスク最小化へ焦点を絞る。 これにより、原始双対的な視点を採り、二辺の巡回座標更新を伴う原始双対法としてSGDを解釈することができる。 この観点から、データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明する。 特に、我々の境界は既存の解析よりもはるかに高速な収束を、ある場合には$\sqrt{n}$の次数で予測する。 一般的な機械学習データセットでは、境界がより厳密であることが実証的に示されています。 さらに, 解析を非滑らか凸問題やより一般的な有限サム問題にも拡張し, 同様の改善を行った。

Stochastic gradient descent (SGD) is perhaps the most prevalent optimization method in modern machine learning. Contrary to the empirical practice of sampling from the datasets without replacement and with (possible) reshuffling at each epoch, the theoretical counterpart of SGD usually relies on the assumption of sampling with replacement. It is only very recently that SGD with sampling without replacement -- shuffled SGD -- has been analyzed. For convex finite sum problems with $n$ components and under the $L$-smoothness assumption for each component function, there are matching upper and lower bounds, under sufficiently small -- $\mathcal{O}(\frac{1}{nL})$ -- step sizes. Yet those bounds appear too pessimistic -- in fact, the predicted performance is generally no better than for full gradient descent -- and do not agree with the empirical observations. In this work, to narrow the gap between the theory and practice of shuffled SGD, we sharpen the focus from general finite sum problems to empirical risk minimization with linear predictors. This allows us to take a primal-dual perspective and interpret shuffled SGD as a primal-dual method with cyclic coordinate updates on the dual side. Leveraging this perspective, we prove fine-grained complexity bounds that depend on the data matrix and are never worse than what is predicted by the existing bounds. Notably, our bounds predict much faster convergence than the existing analyses -- by a factor of the order of $\sqrt{n}$ in some cases. We empirically demonstrate that on common machine learning datasets our bounds are indeed much tighter. We further extend our analysis to nonsmooth convex problems and more general finite-sum problems, with similar improvements.
翻訳日:2024-02-08 20:22:07 公開日:2024-02-07
# タイムリーヘルスケア介入のための適応型多エージェント深層強化学習

Adaptive Multi-Agent Deep Reinforcement Learning for Timely Healthcare Interventions ( http://arxiv.org/abs/2309.10980v3 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, Hong-Ning Dai, and Jianming Yong(参考訳) 効果的な患者モニタリングは、タイムリーな介入と医療結果の改善に不可欠である。 従来の監視システムは複雑でダイナミックな環境を扱うのに苦労し、バイタルサインが変動し、重要な状況を特定するのが遅れる。 この課題に対処するために,多エージェント深部強化学習(DRL)を用いた新しいAI駆動型患者監視フレームワークを提案する。 アプローチでは複数の学習エージェントをデプロイし,心拍数,呼吸量,温度などの生理的特徴をモニタする。 これらのエージェントは、一般的な医療監視環境と相互作用し、患者の行動パターンを学習し、緊急度に基づいて対応する救急チーム(met)に警告するインフォームド判断を行う。 本研究では, PPG-DaLiA と WESAD の2つのデータセットを用いた実世界の生理・運動データを用いたマルチエージェント DRL フレームワークの性能評価を行った。 結果を、Q-Learning、PPO、Actor-Critic、Double DQN、DDPG、WISEMLやCA-MAQLといった監視フレームワークなど、いくつかのベースラインモデルと比較する。 実験の結果,DRL法は他のベースラインモデルよりも優れており,患者のバイタルサインのより正確なモニタリングが可能であることがわかった。 さらに,各エージェントの学習プロセスを微調整するためにハイパーパラメータ最適化を行う。 ハイパーパラメータを最適化することで、学習率と割引率を高め、患者の健康状態を監視するエージェント全体のパフォーマンスを向上させる。

Effective patient monitoring is vital for timely interventions and improved healthcare outcomes. Traditional monitoring systems often struggle to handle complex, dynamic environments with fluctuating vital signs, leading to delays in identifying critical conditions. To address this challenge, we propose a novel AI-driven patient monitoring framework using multi-agent deep reinforcement learning (DRL). Our approach deploys multiple learning agents, each dedicated to monitoring a specific physiological feature, such as heart rate, respiration, and temperature. These agents interact with a generic healthcare monitoring environment, learn the patients' behaviour patterns, and make informed decisions to alert the corresponding Medical Emergency Teams (METs) based on the level of emergency estimated. In this study, we evaluate the performance of the proposed multi-agent DRL framework using real-world physiological and motion data from two datasets: PPG-DaLiA and WESAD. We compare the results with several baseline models, including Q-Learning, PPO, Actor-Critic, Double DQN, and DDPG, as well as monitoring frameworks like WISEML and CA-MAQL. Our experiments demonstrate that the proposed DRL approach outperforms all other baseline models, achieving more accurate monitoring of patient's vital signs. Furthermore, we conduct hyperparameter optimization to fine-tune the learning process of each agent. By optimizing hyperparameters, we enhance the learning rate and discount factor, thereby improving the agents' overall performance in monitoring patient health status.
翻訳日:2024-02-08 20:14:54 公開日:2024-02-07
# OpenAIは私たちの税例を批判するが、GPT-4は本当に課税できるのか?

OpenAI Cribbed Our Tax Example, But Can GPT-4 Really Do Tax? ( http://arxiv.org/abs/2309.09992v2 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) 筆者らは、GPT-4のライブストリームデモでOpenAIが税法の実例を得た理由、なぜGPT-4が間違った回答を得たのか、どうやって確実に税を計算できないのかを説明している。

The authors explain where OpenAI got the tax law example in its livestream demonstration of GPT-4, why GPT-4 got the wrong answer, and how it fails to reliably calculate taxes.
翻訳日:2024-02-08 20:14:28 公開日:2024-02-07
# 変分量子光非線形性を持つフォトニック量子メソロジー

Photonic quantum metrology with variational quantum optical non-linearities ( http://arxiv.org/abs/2309.09841v2 )

ライセンス: Link先を確認
A. Mu\~noz de las Heras, C. Tabares, J. T. Schneider, L. Tagliacozzo, D. Porras and A. Gonz\'alez-Tudela(参考訳) フォトニック量子メートル法は、NOONやツインフォック状態のような光の量子状態を利用して、古典的な精度限界を超える未知のパラメータを測定する。 現在のプロトコルでは、ゲートエラーによって大きな光子数を持つ状態を生成する際のフィデリティ(または確率)の指数関数的な減少と、ノイズに対する状態の感度の増大という、2つの厳しい制限に苦しめられている。 本稿では,量子光学的非線形性と変分量子アルゴリズムを組み合わせた決定論的プロトコルを開発し,両面の大幅な改善を実現する。 まず,変分プロトコルが光子数に依存しない少ない演算数でmetrologically-relevant stateを生成する方法を示し,ゲートエラーを考慮した場合のフィデリティが指数関数的に向上することを示す。 第2に,このような状態は,文献の他の状態と比較して,雑音に対するロバスト性が向上することを示す。 我々のプロトコルは、空洞QEDのような最先端の装置で既に見られる相互作用を利用するので、近い将来、よりスケーラブルなフォトニック量子メートル法がもたらされることを期待する。

Photonic quantum metrology harnesses quantum states of light, such as NOON or Twin-Fock states, to measure unknown parameters beyond classical precision limits. Current protocols suffer from two severe limitations that preclude their scalability: the exponential decrease in fidelities (or probabilities) when generating states with large photon numbers due to gate errors, and the increased sensitivity of such states to noise. Here, we develop a deterministic protocol combining quantum optical non-linearities and variational quantum algorithms that provides a substantial improvement on both fronts. First, we show how the variational protocol can generate metrologically-relevant states with a small number of operations which does not significantly depend on photon-number, resulting in exponential improvements in fidelities when gate errors are considered. Second, we show that such states offer a better robustness to noise compared to other states in the literature. Since our protocol harnesses interactions already appearing in state-of-the-art setups, such as cavity QED, we expect that it will lead to more scalable photonic quantum metrology in the near future.
翻訳日:2024-02-08 20:14:21 公開日:2024-02-07
# dformer: 意味セグメンテーションのためのrgbd表現学習の再考

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ( http://arxiv.org/abs/2309.09668v2 )

ライセンス: Link先を確認
Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin Hou(参考訳) 本稿では,新しいRGB-D事前学習フレームワークであるDFormerについて述べる。 dformerには2つの新しいイノベーションがあります 1)RGB-D情報を事前訓練したバックボーンでエンコードする以前の作業とは異なり、ImageNet-1Kから画像深度ペアを使用してバックボーンを事前訓練するので、DFormerにはRGB-D表現をエンコードする能力がある。 2) DFormerは,新規なビルディングブロック設計により,RGBと深度情報の両方を符号化するためのRGB-Dブロックからなる。 DFormerは、RGB事前訓練されたバックボーンによる深度マップにおける3次元幾何学関係のミスマッチ符号化を避ける。 rgb-dセマンティクスセグメンテーションとrgb-dサルエントオブジェクト検出という2つの一般的なrgb-dタスクに対して,プリトレーニングされたdformerを軽量デコーダヘッドで微調整した。 実験の結果,2つのrgb-dセマンティクスセグメンテーションデータセットと5つのrgb-dサルエントオブジェクト検出データセットの計算コストの半分以下で,この2つのタスクで新たな最先端性能を達成できた。 私たちのコードは、https://github.com/VCIP-RGBD/DFormer.comで利用可能です。

We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that encode RGB-D information with RGB pretrained backbone, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D representations; 2) DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design. DFormer avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in existing methods but has not been resolved. We finetune the pretrained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D semantic segmentation datasets and five RGB-D salient object detection datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.
翻訳日:2024-02-08 20:14:02 公開日:2024-02-07
# ゲート型リカレントニューラルネットワークが注目を集める

Gated recurrent neural networks discover attention ( http://arxiv.org/abs/2309.01775v2 )

ライセンス: Link先を確認
Nicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, Jo\~ao Sacramento(参考訳) 近年のアーキテクチャ開発により、リカレントニューラルネットワーク(RNN)は、特定のシーケンスモデリングタスクにおけるトランスフォーマーのパフォーマンスに到達し、さらに上回っている。 現代のRNNは、フィードフォワード経路と乗法ゲーティングで相互接続された線形リカレント層という、顕著なデザインパターンを特徴としている。 本稿では、これら2つの設計要素を備えたrnnが、トランスフォーマのメインビルディングブロックである(線形)自己アテンションを正確に実装できることを示す。 トレーニングされたRNNの集合をリバースエンジニアリングすることで、実際には勾配降下が我々の構成を発見する。 特に,トランスフォーマーが優れていることが分かっている単純なインコンテキスト学習タスクを解決するために訓練されたrnnについて検討し,トランスフォーマーが使用する同じ注意に基づくインコンテキスト学習アルゴリズムに勾配降下が潜んでいることを見出した。 本研究は,ニューラルネットワークにおける乗法的相互作用の重要性を浮き彫りにして,特定のrnnが予期しないほど注意を引いている可能性を示唆する。

Recent architectural developments have enabled recurrent neural networks (RNNs) to reach and even surpass the performance of Transformers on certain sequence modeling tasks. These modern RNNs feature a prominent design pattern: linear recurrent layers interconnected by feedforward paths with multiplicative gating. Here, we show how RNNs equipped with these two design elements can exactly implement (linear) self-attention, the main building block of Transformers. By reverse-engineering a set of trained RNNs, we find that gradient descent in practice discovers our construction. In particular, we examine RNNs trained to solve simple in-context learning tasks on which Transformers are known to excel and find that gradient descent instills in our RNNs the same attention-based in-context learning algorithm used by Transformers. Our findings highlight the importance of multiplicative interactions in neural networks and suggest that certain RNNs might be unexpectedly implementing attention under the hood.
翻訳日:2024-02-08 20:13:29 公開日:2024-02-07
# フェデレーション学習における分散資源管理のための価格差別ゲーム

Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v4 )

ライセンス: Link先を確認
Han Zhang, Halvin Yang and Guopeng Zhang(参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりもはるかに少ない。 本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。 価格の差は、flがもたらした性能改善と、コンピューティングと通信能力の多様性に基づいている。 この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処する価格判別ゲーム(PDG)を策定する。 PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。 シミュレーション結果は,提案手法の有効性を検証する。

In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach.
翻訳日:2024-02-08 20:13:11 公開日:2024-02-07
# 視覚言語データセット蒸留

Vision-Language Dataset Distillation ( http://arxiv.org/abs/2308.07545v3 )

ライセンス: Link先を確認
Xindi Wu, Byron Zhang, Zhiwei Deng, Olga Russakovsky(参考訳) データセット蒸留法は、大規模なデータセットを小さな合成データに還元し、新しいモデルをスクラッチからすばやくトレーニングするのに十分な情報を保存する。 しかしながら、データセットの蒸留に関する以前の研究は、画像分類データセットにのみ焦点を合わせてきた。 本研究では,トラジェクトリマッチングのアイデアに基づいて,最初の視覚言語によるデータセット蒸留法を設計する。 重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。 これを解決するために, コントラスト式で画像テキスト対を共同蒸留する手法を提案する。 さらに, 複雑な視覚言語モデルにおいて, より効率的かつ効果的な軌跡マッチングを可能にするために, ローランク適応 (lora) マッチングを利用する。 既存のベースラインがないため、蒸留アプローチを3つの視覚言語コアセット選択法と比較する。 例えばflickr30kでは、トレーニングのために1000のイメージテキストペアを選択する最良のコアセット選択方法が、5.6%のイメージからテキストへの検索精度(recall@1)を達成しています。

Dataset distillation methods reduce large-scale datasets to smaller sets of synthetic data, which preserve sufficient information for quickly training a new model from scratch. However, prior work on dataset distillation has focused exclusively on image classification datasets, whereas modern large-scale datasets are primarily in the vision-language space. In this work, we design the first vision-language dataset distillation method, building on the idea of trajectory matching. A key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed method jointly distills the image-text pairs in a contrastive formulation. Further, we leverage Low-Rank Adaptation (LoRA) matching to enable more efficient and effective trajectory matching in complex modern vision-language models. Since there are no existing baselines, we compare our distillation approach to three adapted vision-language coreset selection methods. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmarks: for example, on Flickr30K, the best coreset selection method selecting 1000 image-text pairs for training achieves only 5.6% image-to-text retrieval accuracy (i.e., recall@1); in contrast, our dataset distillation approach almost doubles that to 9.9% with just 100 (an order of magnitude fewer) training pairs.
翻訳日:2024-02-08 20:12:32 公開日:2024-02-07
# エゴセントリックビジョンの将来への展望

An Outlook into the Future of Egocentric Vision ( http://arxiv.org/abs/2308.07123v2 )

ライセンス: Link先を確認
Chiara Plizzari, Gabriele Goletto, Antonino Furnari, Siddhant Bansal, Francesco Ragusa, Giovanni Maria Farinella, Dima Damen, Tatiana Tommasi(参考訳) 未来はどうなるのか? 不思議だ! 本研究では,外向きカメラとデジタルオーバーレイを備えたウェアラブルコンピューティングが,日々の生活に取り入れられることが期待される,エゴセントリックビジョンの現在の研究と期待されている未来とのギャップについて検討する。 このギャップを理解するため、この記事はキャラクタベースのストーリーを通じて未来を考察することから始まり、現在のテクノロジーの限界を例示する。 次に、この未来と以前に定義された研究課題のマッピングを提供する。 各課題について,その専門的な研究,現状の方法論,利用可能なデータセットを調査し,今後の研究への適用性を制限する欠点を考察する。 この調査は、特定のハードウェアに依存しない、自我中心のビジョンのためのソフトウェアモデルに焦点を当てている。 この論文は、常にオンでパーソナライズされ、生活を支えていくエゴセントリックなビジョンへの道を開くために、即時探査の分野を推奨する。

What will the future be? We wonder! In this survey, we explore the gap between current research in egocentric vision and the ever-anticipated future, where wearable computing, with outward facing cameras and digital overlays, is expected to be integrated in our every day lives. To understand this gap, the article starts by envisaging the future through character-based stories, showcasing through examples the limitations of current technology. We then provide a mapping between this future and previously defined research tasks. For each task, we survey its seminal works, current state-of-the-art methodologies and available datasets, then reflect on shortcomings that limit its applicability to future research. Note that this survey focuses on software models for egocentric vision, independent of any specific hardware. The paper concludes with recommendations for areas of immediate explorations so as to unlock our path to the future always-on, personalised and life-enhancing egocentric vision.
翻訳日:2024-02-08 20:12:08 公開日:2024-02-07
# 強化学習を用いた量子熱エンジンの最適サイクルの検討

Exploring the Optimal Cycle for Quantum Heat Engine using Reinforcement Learning ( http://arxiv.org/abs/2308.06794v2 )

ライセンス: Link先を確認
Gao-xiang Deng, Haoqiang Ai, Bingcheng Wang, Wei Shao, Yu Liu, Zheng Cui(参考訳) 新興ナノデバイスにおける量子熱力学的関係は重要であるが、しばしば複雑である。 量子熱力学における機械学習の応用は、新しい展望をもたらした。 本研究は強化学習を用いて量子熱エンジンの最適サイクルを生成する。 具体的には,3レベルコヒーレントな量子熱エンジンのサイクルを最大平均出力で最適化するために,ソフトアクター批判アルゴリズムを採用した。 その結果、コヒーレント三段式熱エンジンの最適平均出力出力は、元のサイクル(定常限界)の1.28倍であることがわかった。 一方、最適サイクルの効率は他の研究者による報告と同様にカーゾン=アルボーンの効率よりも大きい。 特に、この最適サイクルは、圧縮および拡張過程においてボルツマン関数を適用してオットー様サイクルとして適用することができ、この方法の有効性を示している。

Quantum thermodynamic relationships in emerging nanodevices are significant but often complex to deal with. The application of machine learning in quantum thermodynamics has provided a new perspective. This study employs reinforcement learning to output the optimal cycle of quantum heat engine. Specifically, the soft actor-critic algorithm is adopted to optimize the cycle of three-level coherent quantum heat engine with the aim of maximal average power. The results show that the optimal average output power of the coherent three-level heat engine is 1.28 times greater than the original cycle (steady limit). Meanwhile, the efficiency of the optimal cycle is greater than the Curzon-Ahlborn efficiency as well as reporting by other researchers. Notably, this optimal cycle can be fitted as an Otto-like cycle by applying the Boltzmann function during the compression and expansion processes, which illustrates the effectiveness of the method.
翻訳日:2024-02-08 20:11:50 公開日:2024-02-07
# 異種システムオンチップにおける共有メモリ保持型コンカレントDNN実行

Shared Memory-contention-aware Concurrent DNN Execution for Diversely Heterogeneous System-on-Chips ( http://arxiv.org/abs/2308.05869v2 )

ライセンス: Link先を確認
Ismet Dagli, Mehmet Belviranli(参考訳) 最先端のモバイルと自律システムの2つの特徴 1) 主にディープニューラルネットワーク(DNN)推論で、同時かつ継続的に実行される複数のワークロードがある。 2)特定の操作用に調整されたヘテロジニアスアクセラレータを組み込んだ共有メモリシステムオンチップ(soc)で動作する。 システムスループットの最大化やエンドツーエンドのワークロード遅延の最小化に必要な、効率的なパフォーマンスとリソース管理技術が欠如している。 本研究では,DNN推論処理の並列実行において,レイヤを特徴付け,マッピングする新しいスキームであるHaX-CoNNを提案する。 提案方式は, 層間実行特性, 共有メモリ(SM)競合, アクセラレータ間遷移を考慮に入れ, 最適スケジュールを求める。 NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SoCs上でHaX-CoNNを評価した。 実験結果から,HX-CoNNはメモリ競合を最大45%低減し,最新手法と比較して,レイテンシとスループットを最大32%,スループットを最大29%向上できることがわかった。

Two distinguishing features of state-of-the-art mobile and autonomous systems are 1) there are often multiple workloads, mainly deep neural network (DNN) inference, running concurrently and continuously; and 2) they operate on shared memory system-on-chips (SoC) that embed heterogeneous accelerators tailored for specific operations. State-of-the-art lacks efficient performance and resource management techniques necessary to either maximize total system throughput or minimize end-to-end workload latency. In this work, we propose HaX-CoNN, a novel scheme that characterizes and maps layers in concurrently executing DNN inference workloads to a diverse set of accelerators within a SoC. Our scheme uniquely takes per-layer execution characteristics, shared memory (SM) contention, and inter-accelerator transitions into account to find optimal schedules. We evaluate HaX-CoNN on NVIDIA Orin, NVIDIA Xavier, and Qualcomm Snapdragon 865 SoCs. Our experimental results indicate that HaX-CoNN minimizes memory contention by up to 45% and can improve latency and total throughput by up to 32% and 29%, respectively, compared to the state-of-the-art approaches.
翻訳日:2024-02-08 20:11:39 公開日:2024-02-07
# 画像認識のためのスピントロニクス:超高速データ駆動シミュレーションによる性能ベンチマーク

Spintronics for image recognition: performance benchmarking via ultrafast data-driven simulations ( http://arxiv.org/abs/2308.05810v3 )

ライセンス: Link先を確認
Anatole Moureaux and Chlo\'e Chopin and Simon de Wergifosse and Laurent Jacques and Flavio Abreu Araujo(参考訳) 本稿では,Vortex-based spin-torque oscillator (STVO) と呼ばれる単一スピントロニクスナノ構造を用いたエコー状態ネットワーク(ESN)を用いた画像分類の実証を行った。 我々は,データ駆動型thiele方程式法(dd-tea)と呼ばれる超高速データ駆動シミュレーションフレームワークを用いてstvoダイナミクスをシミュレートする。 これにより、ナノ構造系の繰り返しの実験操作に伴う問題を回避することができる。 我々は、mnist, emnist-letters, fashion mnistデータセットを用いた分類課題の解決に成功して、ソリューションの汎用性を示す。 シミュレーションにより,多数の学習パラメータを持つesnにおいて,svoダイナミクスをアクティベーション関数として用いた結果が,reluやsgmoidのような従来の非線形アクティベーション関数と同等であることが判明した。 MNISTデータセットで最先端の精度を実現する一方で、システムアーキテクチャの比較的単純さとタスクの複雑さの増加により、EMNISTレターとファッションMNISTの性能は低下する。 DD-TEAフレームワークがより深いアーキテクチャの探索を可能にし、最終的に分類精度が向上することを期待しています。

We present a demonstration of image classification using an echo-state network (ESN) relying on a single simulated spintronic nanostructure known as the vortex-based spin-torque oscillator (STVO) delayed in time. We employ an ultrafast data-driven simulation framework called the data-driven Thiele equation approach (DD-TEA) to simulate the STVO dynamics. This allows us to avoid the challenges associated with repeated experimental manipulation of such a nanostructured system. We showcase the versatility of our solution by successfully applying it to solve classification challenges with the MNIST, EMNIST-letters and Fashion MNIST datasets. Through our simulations, we determine that within an ESN with numerous learnable parameters the results obtained using the STVO dynamics as an activation function are comparable to the ones obtained with other conventional nonlinear activation functions like the reLU and the sigmoid. While achieving state-of-the-art accuracy levels on the MNIST dataset, our model's performance on EMNIST-letters and Fashion MNIST is lower due to the relative simplicity of the system architecture and the increased complexity of the tasks. We expect that the DD-TEA framework will enable the exploration of deeper architectures, ultimately leading to improved classification accuracy.
翻訳日:2024-02-08 20:11:20 公開日:2024-02-07
# adaboost コードの解析的解析法

When Analytic Calculus Cracks AdaBoost Code ( http://arxiv.org/abs/2308.01070v2 )

ライセンス: Link先を確認
Jean-Marc Brossier, Olivier Lafitte, Lenny R\'ethor\'e(参考訳) 教師付き学習の原則は、複数の弱い分類器を結合してより強い分類器を得ることである。 AdaBoostはこのアプローチの完璧な例と評価されている。 本研究は, scikit-learn で実装された adaboost 手順を解析したものである。 本稿では,弱分類器の組み合わせは真理表を用いて明示的に計算できるため,adaboost は名称のみのアルゴリズムであることを示す。 実際、真理表を構成する弱分類器を持つトレーニングセットの論理解析を用いて、解析式を通して、手続きによって得られたこれらの弱分類器の組み合わせの重みを回復する。 この式がリスクの最小点を与えないことを観察し、最小点を計算するシステムを提供し、scikit-learnにおけるadaboost手順がfreundとschapireによって記述されたアルゴリズムを実装していないことをチェックする。

The principle of boosting in supervised learning involves combining multiple weak classifiers to obtain a stronger classifier. AdaBoost has the reputation to be a perfect example of this approach. This study analyzes the (two classes) AdaBoost procedure implemented in scikit-learn. This paper shows that AdaBoost is an algorithm in name only, as the resulting combination of weak classifiers can be explicitly calculated using a truth table. Indeed, using a logical analysis of the training set with weak classifiers constructing a truth table, we recover, through an analytical formula, the weights of the combination of these weak classifiers obtained by the procedure. We observe that this formula does not give the point of minimum of the risk, we provide a system to compute the exact point of minimum and we check that the AdaBoost procedure in scikit-learn does not implement the algorithm described by Freund and Schapire.
翻訳日:2024-02-08 20:10:58 公開日:2024-02-07
# 自動割引スケジューリングによる観察からの模倣学習

Imitation Learning from Observation with Automatic Discount Scheduling ( http://arxiv.org/abs/2310.07433v3 )

ライセンス: Link先を確認
Yuyang Liu, Weijun Dong, Yingdong Hu, Chuan Wen, Zhao-Heng Yin, Chongjie Zhang, Yang Gao(参考訳) 人間はしばしば観察と模倣によって新しいスキルを得る。 ロボットエージェントにとって、インターネット上で利用可能な多数のラベルのないビデオデモデータから学ぶことは、専門家をそのアクションにアクセスせずに模倣することを必要とし、Imitation Learning from Observations (ILfO)として知られる課題を提示している。 ILfO問題に取り組むための一般的なアプローチは、エージェントと専門家の観察から計算したプロキシ報酬を利用して、それらを逆強化学習問題に変換することである。 いずれにせよ,プログレッシブ依存特性に特徴付けられるタスクがこのようなアプローチに重大な課題をもたらすことは明らかであり,これらのタスクでは,エージェントは,後続のタスクを習得する前に,まず専門家の以前の振る舞いを学習する必要がある。 調査の結果,後段に割り当てられた報奨信号が初期行動の学習を妨げることが主な原因であることが判明した。 この課題に対処するために、エージェントが後続のエージェントに進む前に以前の動作をマスターできる新しいILfOフレームワークを提案する。 学習段階での強化学習における割引要因を適応的に変更し、初期報酬を優先し、初期行動がマスターされた場合にのみ後続報酬を徐々に実施する自動割引スケジューリング(ads)機構を導入する。 9つのメタワールドタスクで実施した実験により,本手法がすべてのタスクにおいて,解決不能なメソッドを含む最先端のメソッドを大幅に上回ることを実証した。

Humans often acquire new skills through observation and imitation. For robotic agents, learning from the plethora of unlabeled video demonstration data available on the Internet necessitates imitating the expert without access to its action, presenting a challenge known as Imitation Learning from Observations (ILfO). A common approach to tackle ILfO problems is to convert them into inverse reinforcement learning problems, utilizing a proxy reward computed from the agent's and the expert's observations. Nonetheless, we identify that tasks characterized by a progress dependency property pose significant challenges for such approaches; in these tasks, the agent needs to initially learn the expert's preceding behaviors before mastering the subsequent ones. Our investigation reveals that the main cause is that the reward signals assigned to later steps hinder the learning of initial behaviors. To address this challenge, we present a novel ILfO framework that enables the agent to master earlier behaviors before advancing to later ones. We introduce an Automatic Discount Scheduling (ADS) mechanism that adaptively alters the discount factor in reinforcement learning during the training phase, prioritizing earlier rewards initially and gradually engaging later rewards only when the earlier behaviors have been mastered. Our experiments, conducted on nine Meta-World tasks, demonstrate that our method significantly outperforms state-of-the-art methods across all tasks, including those that are unsolvable by them.
翻訳日:2024-02-08 20:09:27 公開日:2024-02-07
# XAIの公正性に関する批判的調査

A Critical Survey on Fairness Benefits of XAI ( http://arxiv.org/abs/2310.13007v5 )

ライセンス: Link先を確認
Luca Deck, Jakob Schoeffer, Maria De-Arteaga, Niklas K\"uhl(参考訳) 本稿では,説明可能なai(xai)と公平性の関係に関する典型的な主張を分析し,これら2つの概念間の多次元関係を解消する。 体系的な文献レビューとその後の質的内容分析に基づいて,XAIの公正性に関する175論文から7つの古文書を抽出した。 我々はこれらの主張に関して重要な注意事項を提示し、特定の公正なデシダラタに対するXAIの可能性と限界に関する今後の議論のエントリポイントを提供する。 重要なのは クレームがしばしば (i)曖昧で単純である (ii)規範的な接地がないこと、又は (iii)xaiの能力に乏しい。 我々は、XAIを倫理的パナセアではなく、アルゴリズム的公正性の多次元的社会技術的課題にアプローチするための多くのツールの1つと考えることを奨励する。 また、XAIと公正を主張する際には、どのようなXAI手法が使われているのか、どの公正を軽視しているか、どのように公正を許容するか、XAIの恩恵を受ける利害関係者は誰か、といった点をより明確にする必要があることを強調する。

In this critical survey, we analyze typical claims on the relationship between explainable AI (XAI) and fairness to disentangle the multidimensional relationship between these two concepts. Based on a systematic literature review and a subsequent qualitative content analysis, we identify seven archetypal claims from 175 papers on the alleged fairness benefits of XAI. We present crucial caveats with respect to these claims and provide an entry point for future discussions around the potentials and limitations of XAI for specific fairness desiderata. Importantly, we notice that claims are often (i) vague and simplistic, (ii) lacking normative grounding, or (iii) poorly aligned with the actual capabilities of XAI. We encourage to conceive XAI not as an ethical panacea but as one of many tools to approach the multidimensional, sociotechnical challenge of algorithmic fairness. Moreover, when making a claim about XAI and fairness, we emphasize the need to be more specific about what kind of XAI method is used and which fairness desideratum it refers to, how exactly it enables fairness, and who is the stakeholder that benefits from XAI.
翻訳日:2024-02-08 20:02:08 公開日:2024-02-07
# バックドアでプライバシーを守る

Defending Our Privacy With Backdoors ( http://arxiv.org/abs/2310.08320v3 )

ライセンス: Link先を確認
Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting(参考訳) 未処理で、しばしばセンシティブなWebスクラッドデータに基づいてトレーニングされた大規模なAIモデルの拡散は、プライバシー上の大きな懸念を引き起こしている。 懸念の1つは、敵がプライバシー攻撃を使ってトレーニングデータに関する情報を抽出できることである。 残念ながら、パフォーマンスを犠牲にすることなく、特定の情報をモデルから取り除くという作業は簡単ではなく、難しいことが証明されている。 我々は,視覚言語モデルから個人の名前や顔などの個人情報を,スクラッチから再学習する代わりに数分だけ微調整することで,バックドア攻撃に基づく比較的簡単かつ効果的な防御手法を提案する。 具体的には, テキストエンコーダにバックドアを戦略的に挿入することで, センシティブなフレーズの埋め込みを, 人名ではなく「人」の言葉と整合させる。 画像エンコーダでは、モデルから削除される個人の埋め込みを、匿名で普遍的な埋め込みにマップします。 実験により, ゼロショット分類器の特殊なプライバシー攻撃を用いて, CLIP に対するバックドアベース防御の有効性を実証した。 私たちのアプローチは、バックドア攻撃に対する新たな"デュアルユース"な視点を提供するだけでなく、未確認のweb階層データでトレーニングされたモデル内の個人のプライバシを強化する有望な手段を提供します。

The proliferation of large AI models trained on uncurated, often sensitive web-scraped data has raised significant privacy concerns. One of the concerns is that adversaries can extract information about the training data using privacy attacks. Unfortunately, the task of removing specific information from the models without sacrificing performance is not straightforward and has proven to be challenging. We propose a rather easy yet effective defense based on backdoor attacks to remove private information such as names and faces of individuals from vision-language models by fine-tuning them for only a few minutes instead of re-training them from scratch. Specifically, through strategic insertion of backdoors into text encoders, we align the embeddings of sensitive phrases with those of neutral terms-"a person" instead of the person's actual name. For image encoders, we map embeddings of individuals to be removed from the model to a universal, anonymous embedding. Our empirical results demonstrate the effectiveness of our backdoor-based defense on CLIP by assessing its performance using a specialized privacy attack for zero-shot classifiers. Our approach provides not only a new "dual-use" perspective on backdoor attacks, but also presents a promising avenue to enhance the privacy of individuals within models trained on uncurated web-scraped data.
翻訳日:2024-02-08 20:01:27 公開日:2024-02-07
# 2$-to-$1$PN関数とLi境界による$\varepsilon_{d}$-ASIC-POVMの構成

Construction of $\varepsilon_{d}$-ASIC-POVMs via $2$-to-$1$ PN functions and the Li bound ( http://arxiv.org/abs/2310.06418v2 )

ライセンス: Link先を確認
Meng Cao and Xiantao Deng(参考訳) 有限次元$d$の対称情報完備作用素値測度 (SIC-POVMs) は情報完備POVM (IC-POVMs) の特に魅力的な場合である。 しかし、SIC-POVMの構築は困難であり、SIC-POVMの無限族が存在するかどうかさえ明らかではない。 量子情報処理におけるいくつかの応用を実現するために、Klappenecker et al。 [37]は、ほぼ対称な情報完全POVM(ASIC-POVM)と呼ばれるSIC-POVMの近似バージョンを導入した。 本稿では、次元 $d=q$ の $\varepsilon_{d}$-asic-povm と次元 $d=q+1$の $\varepsilon_{d}$-asic-povm のクラスを構築し、ここで $q$ は素数である。 完全非線形(pn)関数はすべて$\varepsilon_{q}$-asic-povmの構築に使用できることを証明します。 我々は、$\varepsilon_{q}$-ASIC-POVMに対応するベクトルの集合が双角フレームを形成することを示す。 $\varepsilon_{q+1}$-ASIC-POVMs の構成は、Li 境界と呼ばれる乗法的文字和推定に基づいている。 我々は、$\varepsilon_{q+1}$-ASIC-POVMに対応するベクトルの集合が漸近的に最適なコードブックを形成することを示す。 我々は$\varepsilon_{q}$-ASIC-POVMs (resp) の "how close" を特徴付ける。 $\varepsilon_{q+1}$-ASIC-POVMs は次元 $q$ (resp. dimension $q+1$) の SIC-POVMs に由来する。 最後に、$\varepsilon_{d}$-ASIC-POVMsを構築することの重要性を説明する。

Symmetric informationally complete positive operator-valued measures (SIC-POVMs) in finite dimension $d$ are a particularly attractive case of informationally complete POVMs (IC-POVMs), which consist of $d^{2}$ subnormalized projectors with equal pairwise fidelity. However, it is difficult to construct SIC-POVMs, and it is not even clear whether there exists an infinite family of SIC-POVMs. To realize some possible applications in quantum information processing, Klappenecker et al. [37] introduced an approximate version of SIC-POVMs called approximately symmetric informationally complete POVMs (ASIC-POVMs). In this paper, we construct a class of $\varepsilon_{d}$-ASIC-POVMs in dimension $d=q$ and a class of $\varepsilon_{d}$-ASIC-POVMs in dimension $d=q+1$, respectively, where $q$ is a prime power. We prove that all $2$-to-$1$ perfect nonlinear (PN) functions can be used for constructing $\varepsilon_{q}$-ASIC-POVMs. We show that the set of vectors corresponding to the $\varepsilon_{q}$-ASIC-POVM forms a biangular frame. The construction of $\varepsilon_{q+1}$-ASIC-POVMs is based on a multiplicative character sum estimate called the Li bound. We show that the set of vectors corresponding to the $\varepsilon_{q+1}$-ASIC-POVM forms an asymptotically optimal codebook. We characterize "how close" the $\varepsilon_{q}$-ASIC-POVMs (resp. $\varepsilon_{q+1}$-ASIC-POVMs) are from being SIC-POVMs of dimension $q$ (resp. dimension $q+1$). Finally, we explain the significance of constructing $\varepsilon_{d}$-ASIC-POVMs.
翻訳日:2024-02-08 20:00:37 公開日:2024-02-07
# 同時次元削減:マルチモーダル表現学習のためのデータ効率的なアプローチ

Simultaneous Dimensionality Reduction: A Data Efficient Approach for Multimodal Representations Learning ( http://arxiv.org/abs/2310.04458v2 )

ライセンス: Link先を確認
Eslam Abdelaleem, Ahmed Roman, K. Michael Martini, Ilya Nemenman(参考訳) 本稿では,次元還元(DR)へのアプローチとして,独立次元化(IDR)と同時次元化(SDR)の2種類について検討する。 主成分分析がパラダイム的な例であるIDR法では、各モダリティは独立に圧縮され、可能な限り各モダリティに多くのばらつきを保とうとする。 対照的に、sdrでは、減った記述間の共変を最大化するために同時にモダリティを圧縮し、個々の変動がどれだけ保存されているかに注意を払わない。 パラダイマティックな例としては、部分最小正方形と正準相関解析がある。 これらのdrメソッドは統計学の定番ですが、相対的な正確さとデータセットのサイズ要件はよく分かっていません。 本稿では,既知の分散構造と共分散構造を持つマルチモーダルデータを合成する生成線形モデルを提案する。 本研究では,データ中のサンプル数,信号対雑音比,変動信号数および共変信号数の関数として,共分散構造の再構成精度を評価する。 数値実験により,線形sdr法が線形idr法を一貫して上回っており,より少ないデータセットでより高品質で簡潔な縮小次元表現が得られることを示す。 顕著なことに、正規化されたCAAは、サンプルの数がデータ次元よりもはるかに小さい場合でも、低次元の弱い共変構造を識別することができる。 我々の研究は、SDRがデータの共変パターンをより効果的に検出できるという文献における過去の観察を裏付け、説明します。 これらの結果は,共変量検出においては,変動の保存よりも,実世界データ解析においてsdrよりもsdrが好ましいことを示唆する。

We explore two primary classes of approaches to dimensionality reduction (DR): Independent Dimensionality Reduction (IDR) and Simultaneous Dimensionality Reduction (SDR). In IDR methods, of which Principal Components Analysis is a paradigmatic example, each modality is compressed independently, striving to retain as much variation within each modality as possible. In contrast, in SDR, one simultaneously compresses the modalities to maximize the covariation between the reduced descriptions while paying less attention to how much individual variation is preserved. Paradigmatic examples include Partial Least Squares and Canonical Correlations Analysis. Even though these DR methods are a staple of statistics, their relative accuracy and data set size requirements are poorly understood. We introduce a generative linear model to synthesize multimodal data with known variance and covariance structures to examine these questions. We assess the accuracy of the reconstruction of the covariance structures as a function of the number of samples, signal-to-noise ratio, and the number of varying and covarying signals in the data. Using numerical experiments, we demonstrate that linear SDR methods consistently outperform linear IDR methods and yield higher-quality, more succinct reduced-dimensional representations with smaller datasets. Remarkably, regularized CCA can identify low-dimensional weak covarying structures even when the number of samples is much smaller than the dimensionality of the data, which is a regime challenging for all dimensionality reduction methods. Our work corroborates and explains previous observations in the literature that SDR can be more effective in detecting covariation patterns in data. These findings suggest that SDR should be preferred to IDR in real-world data analysis when detecting covariation is more important than preserving variation.
翻訳日:2024-02-08 19:59:49 公開日:2024-02-07
# ブラッグ回折とブロッホ振動を用いた弱曲線時空の原子干渉計

Atom interferometers in weakly curved spacetimes using Bragg diffraction and Bloch oscillations ( http://arxiv.org/abs/2310.03719v2 )

ライセンス: Link先を確認
Michael Werner, Philip K. Schwartz, Jan-Niclas Kirsten-Siem{\ss}, Naceur Gaaloul, Domenico Giulini and Klemens Hammerer(参考訳) 本研究では,光パルス原子干渉計において最大$\mathcal{o}(c^{-2})$までの相対論的位相を弾性散乱(ブラッグ回折)とブロッホ振動(ブロッホ振動)に基づく弱い曲がった時空で決定する系統的アプローチを提案する。 我々の分析は、パラメータ化ポストニュートン形式を用いた第一原理から導かれる。 ここでは、任意の干渉計ジオメトリに対する相対論的位相の代数的表現を自動的に導出する。 ケーススタディでは、対称および反対称ラムゼー・ボーデ波干渉計、および10mと100mの基線長を持つ対称二重回折干渉計について検討する。 我々は,マッハ・ツェンダー干渉計の計算結果と比較した。

We present a systematic approach to determine all relativistic phases up to $\mathcal{O}(c^{-2})$ in light-pulse atom interferometers in weakly curved spacetime that are based on elastic scattering, namely Bragg diffraction and Bloch oscillations. Our analysis is derived from first principles using the parameterized post-Newtonian formalism. In the treatment developed here, we derive algebraic expressions for relativistic phases for arbitrary interferometer geometries in an automated manner. As case studies, we consider symmetric and antisymmetric Ramsey-Bord\'e interferometers, as well as a symmetric double diffraction interferometer with baseline lengths of 10 m and 100 m. We compare our results to previous calculations conducted for a Mach-Zehnder interferometer.
翻訳日:2024-02-08 19:59:20 公開日:2024-02-07
# 変分多変量情報ボトルネック-変分損失のためのフレームワーク

Deep Variational Multivariate Information Bottleneck -- A Framework for Variational Losses ( http://arxiv.org/abs/2310.03311v2 )

ライセンス: Link先を確認
Eslam Abdelaleem and Ilya Nemenman and K. Michael Martini(参考訳) 変動次元減少法は高い精度、生成能力、頑健さで知られている。 既存の変分法を統一するフレームワークを導入し、新しいものを設計する。 このフレームワークは、圧縮する情報を指定するエンコーダグラフをデコーダグラフに対してトレードオフし、生成モデルを指定する多変量情報ボトルネックの解釈に基づいている。 このフレームワークを用いて,情報ボトルネックや自動エンコーダなどを含む既存の次元削減手法を改良する。 このフレームワークは、アルゴリズムの深部変分CA(DVCCA)をβ-DVCCAに拡張するトレードオフパラメータを自然に導入する。 本研究では,2つの変数を同時に圧縮し,圧縮表現間の情報を保存する新しい手法であるdvsib(deep variational symmetric informational bottleneck)を導出する。 これらのアルゴリズムを実装し、ノイズMNISTデータセット上で共有低次元潜在空間を生成する能力を評価する。 本研究では,データ構造に適合するアルゴリズム(この場合,β-DVCCAとDVSIB)が,分類精度,潜伏変数の次元性,サンプル効率によって,より優れた潜伏空間を生成することを示す。 このフレームワークは、他の多視点表現学習アルゴリズムを統一し、新しい問題固有損失関数の導出と実装に利用できると信じている。

Variational dimensionality reduction methods are known for their high accuracy, generative abilities, and robustness. We introduce a framework to unify many existing variational methods and design new ones. The framework is based on an interpretation of the multivariate information bottleneck, in which an encoder graph, specifying what information to compress, is traded-off against a decoder graph, specifying a generative model. Using this framework, we rederive existing dimensionality reduction methods including the deep variational information bottleneck and variational auto-encoders. The framework naturally introduces a trade-off parameter extending the deep variational CCA (DVCCA) family of algorithms to beta-DVCCA. We derive a new method, the deep variational symmetric informational bottleneck (DVSIB), which simultaneously compresses two variables to preserve information between their compressed representations. We implement these algorithms and evaluate their ability to produce shared low dimensional latent spaces on Noisy MNIST dataset. We show that algorithms that are better matched to the structure of the data (in our case, beta-DVCCA and DVSIB) produce better latent spaces as measured by classification accuracy, dimensionality of the latent variables, and sample efficiency. We believe that this framework can be used to unify other multi-view representation learning algorithms and to derive and implement novel problem-specific loss functions.
翻訳日:2024-02-08 19:59:07 公開日:2024-02-07
# PolySketchFormer: Sketching Polynomial Kernelsによる高速トランスフォーマー

PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels ( http://arxiv.org/abs/2310.01655v2 )

ライセンス: Link先を確認
Praneeth Kacham, Vahab Mirrokni, Peilin Zhong(参考訳) 2次時間とメモリの複雑さは、シーケンス長に関して、大規模トランスフォーマーベースの言語モデルのトレーニングと展開において重要な計算ボトルネックを示す。 近年の理論的結果は,4次ソフトマックスアテンション近似の難解性を示す。 本稿では,高次多項式注意がモデル品質を犠牲にすることなく,ソフトマックスを効果的に置き換えることができることを示す。 次に,近似保証付き線形時間多項式注意を実現するために,数値線形代数から多項式スケッチ手法を開発する。 重要なこととして,本手法は注意行列のスパース化を必要とせず,この高速化を実現する。 また,因果マスキングを効率的に適用するためのブロックベースアルゴリズムを提案する。 これらの技術を組み合わせて、言語モデリングのための実用的な線形時間トランスフォーマーアーキテクチャである \emph{polysketchformer} を提供する。 長いコンテキストを処理可能な言語モデルをトレーニングすることで,PolySketchFormerを実証的に検証する。 これらの実験では、Google Cloud TPU上の合成データセットと実世界のデータセット(PG19、Wikipedia、C4)の両方を利用している。 32k型とgpt-2型モデルのコンテキスト長については,フラッシュアテンションに比べて2.5~4倍のスピードアップを達成し,実験全体で品質の低下は観察されなかった。

The quadratic time and memory complexity inherent to self-attention mechanisms, with respect to sequence length, presents a critical computational bottleneck in the training and deployment of large-scale Transformer-based language models. Recent theoretical results indicate the intractability of sub-quadratic softmax attention approximation under reasonable complexity assumptions. This paper addresses this challenge by first demonstrating that polynomial attention with high degree can effectively replace softmax without sacrificing model quality. Next, we develop polynomial sketching techniques from numerical linear algebra to achieve linear-time polynomial attention with approximation guarantees. Crucially, our approach achieves this speedup without requiring the sparsification of attention matrices. We also present a block-based algorithm to apply causal masking efficiently. Combining these techniques, we provide \emph{PolySketchFormer}, a practical linear-time Transformer architecture for language modeling that offers provable guarantees. We validate PolySketchFormer empirically by training language models capable of handling long contexts. These experiments utilize both synthetic and real-world datasets (PG19, Wikipedia and C4) on Google Cloud TPUs. For context lengths of 32k and GPT-2 style models, our model achieves a 2.5-4x speedup in training compared to FlashAttention, with no observed degradation in quality across our experiments.
翻訳日:2024-02-08 19:58:05 公開日:2024-02-07
# 機械学習からの学習: 1064トラップにおけるツリウム原子のボース・アインシュタイン凝縮の最適化

Learning from machine learning: optimization of the Bose-Einstein condensate of the thulium atom at a 1064 trap ( http://arxiv.org/abs/2311.06795v2 )

ライセンス: Link先を確認
D.A. Kumpilov, D.A. Pershin, I.S. Cojocaru, V.A. Khlebnikov, I.A. Pyrkh, A.E. Rudnev, E.A. Fedotova, K.A. Khoruzhii, P.A. Aksentsev, D.V. Gaifutdinov, A.K. Zykova, V.V. Tsyganok, A.V. Akimov(参考訳) ボース=アインシュタイン凝縮体中の原子の数は実験の規模を決定するため、量子シミュレーションには不可欠である。 凝縮体中の原子数の最適化は、機械学習技術を用いて効率的に解ける複雑な問題である。 しかしながら、このアプローチは通常、基礎となる物理学についての洞察を与えない。 ここでは1064nmの双極子トラップでツリウム原子の凝縮の例として,機械学習から物理を学ぶ可能性を示す。 凝縮原子数の最適化により飽和が明らかになった。 機械学習の結果から得られた知見から、3体の組換えプロセスは原子数を制限する可能性が高いと結論づけた。 この制限はファノ・フェシュバッハ共鳴を利用して達成された。

The number of atoms in Bose-Einstein condensate determines the scale of experiments that can be performed, making it crucial for quantum simulations. Optimization of the number of atoms in the condensate is a complicated problem which could be efficiently solved using machine learning technique. Nevertheless, this approach usually does not give any insight in the underlying physics. Here we demonstrate possibility to learn physics from the machine learning on an example of condensation of thulium atoms at a 1064-nm dipole trap. Optimization of the number of condensed atoms revealed a saturation. Drawing insights from machine learning results, it was concluded that a 3-body recombination process was likely limiting the number of atoms. This limitation was successfully overcome by leveraging Fano-Feshbach resonances.
翻訳日:2024-02-08 19:48:23 公開日:2024-02-07
# 分岐ネットワークにおけるヒューリスティック最適輸送

Heuristic Optimal Transport in Branching Networks ( http://arxiv.org/abs/2311.06650v3 )

ライセンス: Link先を確認
M. Andrecut(参考訳) 最適輸送は、通常距離の関数として定義されるコストを最小限にして、ソースをターゲットにマッピングすることを目的としている。 この問題の解決策は、ソースをターゲットに最適に接続する直線セグメントで構成されており、分岐は示さない。 これらの最適解は、分岐構造が一般的である自然および人工の輸送ネットワークと対照的である。 本稿では,ネットワークにおける最適輸送のための高速ヒューリスティック分岐法について述べる。 また, 世界中の141,182の都市を対象とする, 人工的な例, 簡易な心血管ネットワーク, および"サンタクロース"分布ネットワークへの数値的応用について述べる。

Optimal transport aims to learn a mapping of sources to targets by minimizing the cost, which is typically defined as a function of distance. The solution to this problem consists of straight line segments optimally connecting sources to targets, and it does not exhibit branching. These optimal solutions are in stark contrast with both natural, and man-made transportation networks, where branching structures are prevalent. Here we discuss a fast heuristic branching method for optimal transport in networks. We also provide several numerical applications to synthetic examples, a simplified cardiovascular network, and the "Santa Claus" distribution network which includes 141,182 cities around the world, with known location and population.
翻訳日:2024-02-08 19:48:11 公開日:2024-02-07
# 不確実性計算による一般化線形モデルの高速化

Accelerating Generalized Linear Models by Trading off Computation for Uncertainty ( http://arxiv.org/abs/2310.20285v2 )

ライセンス: Link先を確認
Lukas Tatzel, Jonathan Wenger, Frank Schneider, Philipp Hennig(参考訳) ベイズ一般化線形モデル(glms)は、カテゴリー、順序、連続データをモデル化するための柔軟な確率的枠組みを定義し、実際に広く使われている。 しかし、GLMの正確な推測は大規模なデータセットでは違法に高価であり、実際には近似を必要とする。 その結果生じる近似誤差はモデルの信頼性に悪影響を与え、予測の不確実性には考慮されない。 本稿では,このエラーを明示的にモデル化する反復的手法のファミリーを紹介する。 これらは並列コンピューティングハードウェアに特化しており、計算を効率よくリサイクルし、GLMの時間とメモリの要求の両方を減らすために情報を圧縮する。 本手法は,現実的に大きな分類問題に対して,不確実性を高めるために減算計算をトレードオフすることで,競合ベースラインと比較して有意に学習を加速する。

Bayesian Generalized Linear Models (GLMs) define a flexible probabilistic framework to model categorical, ordinal and continuous data, and are widely used in practice. However, exact inference in GLMs is prohibitively expensive for large datasets, thus requiring approximations in practice. The resulting approximation error adversely impacts the reliability of the model and is not accounted for in the uncertainty of the prediction. In this work, we introduce a family of iterative methods that explicitly model this error. They are uniquely suited to parallel modern computing hardware, efficiently recycle computations, and compress information to reduce both the time and memory requirements for GLMs. As we demonstrate on a realistically large classification problem, our method significantly accelerates training compared to competitive baselines by trading off reduced computation for increased uncertainty.
翻訳日:2024-02-08 19:47:58 公開日:2024-02-07
# 制約に対する量子部分空間補正

Quantum Subspace Correction for Constraints ( http://arxiv.org/abs/2310.20191v2 )

ライセンス: Link先を確認
Kelly Ann Pawlak, Jeffrey M. Epstein, Daniel Crow, Srilekha Gandhari, Ming Li, Thomas C. Bohdanowicz, Jonathan King(参考訳) 我々は、イジング表現における計算問題の制約を満たす部分空間を安定化する演算子を構築できることを実証する。 制約セットを与えられたユニタリと関連する測定値を構築するための明確なレシピを提供する。 安定化器の測定は制約違反の検出を可能にし、制約された部分空間への回復経路を提供する。 この手法を「量子部分空間補正」と呼ぶ。 例えば、最も単純な局所制約部分空間:独立集合を用いて安定化器を明示的に検討する。 停止状態とペアを組むとき, 完全均一あるいは重み付き分布を全制約条件で生成することが保証されるアルゴリズムが, 部分的拒絶サンプリングの量子アナログであることがわかった。 停止条件は、サブグラフ近似のために変更することができる。 臨界硬度$\lambda_d^*$以下の$d-$regularグラフ上の正確なギブス分布をサブ線形時間で作成できることが示される。 最後に、フォールトトレラント深度低減のための量子部分空間補正の可能性を検討する。 特に, 断熱状態生成アルゴリズムを用いて, 最大独立セットの作成において, トロタライズによって引き起こされる誤差を検出し, 回復する方法について検討する。

We demonstrate that it is possible to construct operators that stabilize the constraint-satisfying subspaces of computational problems in their Ising representations. We provide an explicit recipe to construct unitaries and associated measurements given a set of constraints. The stabilizer measurements allow the detection of constraint violations, and provide a route to recovery back into the constrained subspace. We call this technique ''quantum subspace correction". As an example, we explicitly investigate the stabilizers using the simplest local constraint subspace: Independent Set. We find an algorithm that is guaranteed to produce a perfect uniform or weighted distribution over all constraint-satisfying states when paired with a stopping condition: a quantum analogue of partial rejection sampling. The stopping condition can be modified for sub-graph approximations. We show that it can prepare exact Gibbs distributions on $d-$regular graphs below a critical hardness $\lambda_d^*$ in sub-linear time. Finally, we look at a potential use of quantum subspace correction for fault-tolerant depth-reduction. In particular we investigate how the technique detects and recovers errors induced by Trotterization in preparing maximum independent set using an adiabatic state preparation algorithm.
翻訳日:2024-02-08 19:47:42 公開日:2024-02-07
# 生成予訓練変圧器を用いた小型二元系波形生成

Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer ( http://arxiv.org/abs/2310.20172v2 )

ライセンス: Link先を確認
Ruijun Shi, Yue Zhou, Tianyu Zhao, Zhoujian Cao, Zhixiang Ren(参考訳) 宇宙からの重力波検出は今後10年で最も期待されている重力波検出プロジェクトの一つであり、膨大なコンパクトなバイナリシステムを検出することを約束している。 しかし、空間GW波形の正確な予測は未定である。 CBS-GPT(Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer)と呼ばれる解釈可能な大モデルであるTDI 2.0を提案する。 小型の連星系波形に対して, 大規模ブラックホール連星 (MBHB) , 極端質量比吸光 (EMRI) , 銀河連星 (GB) の波形予測を訓練し, 予測精度は99%, 91%, 99%, 99%であった。 本研究は,重力波領域における大規模事前学習モデルの可能性を示し,複雑な波形生成,ギャップ補完,GW科学のための深層学習モデル設計など,今後の研究への新たな機会とガイダンスを提供する。

Space-based gravitational wave detection is one of the most anticipated gravitational wave (GW) detection projects in the next decade, which is promising to detect abundant compact binary systems. However, the precise prediction of space GW waveforms remains unexplored. To solve the data processing difficulty in the increasing waveform complexity caused by detectors' response and second-generation time-delay interferometry (TDI 2.0), an interpretable pre-trained large model named CBS-GPT (Compact Binary Systems Waveform Generation with Generative Pre-trained Transformer) is proposed. For compact binary system waveforms, three models were trained to predict the waveforms of massive black hole binary (MBHB), extreme mass-ratio inspirals (EMRIs), and galactic binary (GB), achieving prediction accuracies of 99%, 91%, and 99%, respectively at most.The CBS-GPT model exhibits notable generalization and interpretability, with its hidden parameters effectively capturing the intricate information of waveforms, even with complex instrument response and a wide parameter range. Our research demonstrates the potential of large pre-trained models in gravitational wave realm, opening up new opportunities and guidance for future researches such as the complex waveforms generation, gap completion, and deep learning model design for GW science.
翻訳日:2024-02-08 19:47:24 公開日:2024-02-07
# rTsfNet: マルチヘッド3次元回転と時系列特徴抽出による人間活動認識のためのDNNモデル

rTsfNet: a DNN model with Multi-head 3D Rotation and Time Series Feature Extraction for IMU-based Human Activity Recognition ( http://arxiv.org/abs/2310.19283v3 )

ライセンス: Link先を確認
Yu Enokibori(参考訳) imuベースのharドメインでは、多くのディープラーニング(dl)アルゴリズムが提案されているが、tsf(handcrafted time series features)を使用する従来の機械学習は、いまだによく機能する。 DLとTSFの組み合わせがDLのみのアプローチよりも精度が高いことはまれである。 しかし、IMUベースのHARでは時系列機能に問題がある。 抽出された特徴の量は、3Dベースを選択する方法によって大きく異なる。 幸いなことに、DLの強みは入力データの特徴を捉え、パラメータを適応的に導出することである。 そこで本研究では,IMUに基づく人間活動認識(HAR)のための新しいDNNモデルとして,マルチヘッド3D回転と時系列特徴抽出を備えたDNNモデルであるrTsfNetを提案する。 rTsfNetはDNN内で3D回転パラメータを抽出することで特徴を導出する3Dベースを自動的に選択する。 そして、多くの研究者の知恵に基づいて時系列特徴(TSF)を導出し、MLPを用いてHARを実現する。 rTsfNetはCNNを使用しないモデルであるが、よく管理されたベンチマーク条件と複数のデータセット(UCI HAR、PAMAP2、Daphnet、OPPORTUNITY)の下で既存のモデルよりも高い精度を達成した。

Although many deep learning (DL) algorithms have been proposed for the IMU-based HAR domain, traditional machine learning that utilizes handcrafted time series features (TSFs) still often performs well. It is not rare that combinations among DL and TSFs show better accuracy than DL-only approaches. However, there is a problem with time series features in IMU-based HAR. The amount of derived features can vary greatly depending on the method used to select the 3D basis. Fortunately, DL's strengths include capturing the features of input data and adaptively deriving parameters. Thus, as a new DNN model for IMU-based human activity recognition (HAR), this paper proposes rTsfNet, a DNN model with Multi-head 3D Rotation and Time Series Feature Extraction. rTsfNet automatically selects 3D bases from which features should be derived by extracting 3D rotation parameters within the DNN. Then, time series features (TSFs), based on many researchers' wisdom, are derived to achieve HAR using MLP. Although rTsfNet is a model that does not use CNN, it achieved higher accuracy than existing models under well-managed benchmark conditions and multiple datasets: UCI HAR, PAMAP2, Daphnet, and OPPORTUNITY, all of which target different activities.
翻訳日:2024-02-08 19:46:35 公開日:2024-02-07
# クロスパーソン活動認識のためのテスト時間最適化

Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition ( http://arxiv.org/abs/2310.18562v2 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, HuaJun Xi, Bob Zhang, Lei Zhang, Hongxin Wei(参考訳) ヒューマンアクティビティ認識(har)モデルは、個人間のアクティビティパターンの分布の変化により、現実世界のアプリケーションでパフォーマンス低下に苦しむことが多い。 テスト時間適応(TTA)は、テストストリームを利用してリアルタイム推論の予測を調整することを目的とした、新たな学習パラダイムである。 しかし、最適化に基づくTTAアルゴリズムの計算コストが高いため、リソース制約のあるエッジデバイス上での動作は困難である。 本稿では,センサベースHARのためのOFTTA(Optimization-Free Test-Time Adaptation)フレームワークを提案する。 OFTTAは最適化のない方法で特徴抽出器と線形分類器を同時に調整する。 特徴抽出器として,従来のバッチ正規化(CBN)層を置き換えるために,EDTN(Exponential DecayTest-time Normalization)を提案する。 EDTNはCBNとテストタイムバッチ正規化(TBN)を組み合わせて、ドメインシフトに対する信頼性のある特徴を抽出する。 分類器では,維持支援セットで計算した特徴量とプロトタイプの距離を計算し,予測値の調整を行う。 さらに、サポートセットの更新は擬似ラベルに基づいており、これはEDTNによって抽出された信頼できる機能の恩恵を受けることができる。 3つの公開対人HARデータセットと2つの異なるTTA設定に関する大規模な実験は、OFTTAが分類性能と計算効率の両方において最先端のTTAアプローチより優れていることを示した。 最後に,提案するofttaがエッジデバイス上で優れていることを検証し,実際のアプリケーションへのデプロイが可能であることを示す。 私たちのコードはhttps://github.com/Claydon-Wang/OFTTAで公開されています。

Human Activity Recognition (HAR) models often suffer from performance degradation in real-world applications due to distribution shifts in activity patterns across individuals. Test-Time Adaptation (TTA) is an emerging learning paradigm that aims to utilize the test stream to adjust predictions in real-time inference, which has not been explored in HAR before. However, the high computational cost of optimization-based TTA algorithms makes it intractable to run on resource-constrained edge devices. In this paper, we propose an Optimization-Free Test-Time Adaptation (OFTTA) framework for sensor-based HAR. OFTTA adjusts the feature extractor and linear classifier simultaneously in an optimization-free manner. For the feature extractor, we propose Exponential DecayTest-time Normalization (EDTN) to replace the conventional batch normalization (CBN) layers. EDTN combines CBN and Test-time batch Normalization (TBN) to extract reliable features against domain shifts with TBN's influence decreasing exponentially in deeper layers. For the classifier, we adjust the prediction by computing the distance between the feature and the prototype, which is calculated by a maintained support set. In addition, the update of the support set is based on the pseudo label, which can benefit from reliable features extracted by EDTN. Extensive experiments on three public cross-person HAR datasets and two different TTA settings demonstrate that OFTTA outperforms the state-of-the-art TTA approaches in both classification performance and computational efficiency. Finally, we verify the superiority of our proposed OFTTA on edge devices, indicating possible deployment in real applications. Our code is available at https://github.com/Claydon-Wang/OFTTA.
翻訳日:2024-02-08 19:46:10 公開日:2024-02-07
# ファイバーチャネルと自由空間チャネル間のアクティブスイッチングを用いたモード間量子鍵分布実験

Intermodal quantum key distribution field trial with active switching between fiber and free-space channels ( http://arxiv.org/abs/2310.17441v2 )

ライセンス: Link先を確認
Francesco Picciariello, Ilektra Karakosta-Amarantidou, Edoardo Rossi, Marco Avesani, Giulio Foletto, Luca Calderaro, Giuseppe Vallone, Paolo Villoresi, and Francesco Vedovato(参考訳) インターモーダル量子鍵分布は、グローバル量子ネットワークの発展に必要な要素であるファイバーネットワークと自由空間チャネルの完全な相互運用を可能にする。 本研究では,パドバ大都市圏の620mの空き空間リンクと17kmの展開繊維との間で,アクティブチャネルを交互に切り替える3ノード不均質量子ネットワークにおいて,モード間量子鍵分布システムのフィールドトライアルを行う。 自由空間チャネルの性能はリンクの大気乱流強度に対して評価される。 フィールドトライアルは、光ファイバーと自由空間のチャネル間の相互運用性を証明し、両方のチャネルのkbpsの順序の秘密鍵レートで数日続いた。 qkdハードウェアとソフトウェアは、たとえリンクの固有の特性が明確に異なるとしても、2つのチャネルで作業するための異なる戦略を必要としない。 スイッチングシステムは、信頼できる量子鍵分散ネットワークのコスト対効果の高いソリューションであり、異なるネットワークトポロジ内の必要なデバイス数を減らす。

Intermodal quantum key distribution enables the full interoperability of fiber networks and free-space channels, which are both necessary elements for the development of a global quantum network. We present a field trial of an intermodal quantum key distribution system in a 3-node heterogeneous quantum network - comprised of two polarization-based transmitters and a single receiver - in which the active channel is alternately switched between a free-space link of 620 m and a 17km-long deployed fiber in the metropolitan area of Padova. The performance of the free-space channel is evaluated against the atmospheric turbulence strength of the link. The field trial lasted for several hours in daylight conditions, attesting the interoperability between fiber and free-space channels, with a secret key rate of the order of kbps for both the channels. The QKD hardware and software require no different strategies to work over the two channels, even if the intrinsic characteristics of the links are clearly different. The switching system represents a cost-effective solution for a trusted quantum key distribution network, reducing the number of necessary devices in different network topologies.
翻訳日:2024-02-08 19:45:44 公開日:2024-02-07
# キャビティリセットと冷却のためのオンデマンド駆動散逸

On-demand driven dissipation for cavity reset and cooling ( http://arxiv.org/abs/2310.16785v3 )

ライセンス: Link先を確認
Vivek Maurya, Haimeng Zhang, Daria Kowsari, Andre Kuo, Darian M. Hartsell, Clark Miyamoto, Jocelyn Liu, Sadman Shanto, Evangelos Vlachos, Azarin Zarassi, Kater W. Murch, and Eli M. Levenson-Falk(参考訳) 電磁界の目標モード上で能動的かつオンデマンドで調整可能な消散を提供する超伝導回路装置を提案する。 私たちのデバイスは、ブロードバンドフィルタモードと共振するように調整可能な「消毒器」をベースとしています。 パラメトリックに駆動すると、この散逸器は駆動周波数に等しいエネルギーデチューニングと結合した任意のモードの損失を誘導する。 この装置を用いて超伝導量子ビットの読み出し空洞を測定後にリセットし,50\\\mu\mathrm{s}^{-1}$以上の特性を有する光子を除去した。 また, キャビティの減衰と冷却を同時に行うために, 消散を常に駆動し, 熱光子揺らぎを適切な非干渉チャネルとして効果的に除去できることを実証した。 本研究は,回路QEDにおける環境工学およびエントロピー除去のためのモジュールツールとしての有用性を示す。

We present a superconducting circuit device that provides active, on-demand, tunable dissipation on a target mode of the electromagnetic field. Our device is based on a tunable "dissipator" that can be made lossy when tuned into resonance with a broadband filter mode. When driven parametrically, this dissipator induces loss on any mode coupled to it with energy detuning equal to the drive frequency. We demonstrate the use of this device to reset a superconducting qubit's readout cavity after a measurement, removing photons with a characteristic rate above $50\ \mu\mathrm{s}^{-1}$. We also demonstrate that the dissipation can be driven constantly to simultaneously damp and cool the cavity, effectively eliminating thermal photon fluctuations as a relevant decoherence channel. Our results demonstrate the utility of our device as a modular tool for environmental engineering and entropy removal in circuit QED.
翻訳日:2024-02-08 19:45:22 公開日:2024-02-07
# モデルに基づくドリフト記述を用いた臨界インフラ内の異常位置推定

Localizing Anomalies in Critical Infrastructure using Model-Based Drift Explanations ( http://arxiv.org/abs/2310.15830v2 )

ライセンス: Link先を確認
Valerie Vaquet and Fabian Hinder and Jonas Vaquet and Kathrin Lammers and Lars Quakernack and Barbara Hammer(参考訳) 気候変動に直面すると、すでに限定された飲料水の利用量は今後減少し、飲料水はますます希少な資源となる。 相当量の水は、水運と流通網の漏れによって失われる。 したがって、異常検出と局所化は、特に漏洩には不可欠であるが、複雑な相互作用と水分配網の要求の変化により困難である。 本研究では,ベイズネットワークを用いたネットワークのモデル化により,重要なインフラシステムのダイナミクスに及ぼす異常の影響を分析する。 次に,問題がどのように接続されているかを説明し,概念ドリフトのレンズを通して考察する。 特に,概念ドリフトのモデルに基づく説明は,ネットワークに関する限られた情報から異常を局所化するための有望なツールであると主張する。 この手法は現実的なベンチマークシナリオを用いて実験的に評価される。 本手法は,水系における漏洩やセンサ障害を考慮し,より一般的に重要なインフラに適用できることを示すため,電力系統におけるセンサ障害を局所化するための導出手法の適用性を示す。

Facing climate change, the already limited availability of drinking water will decrease in the future rendering drinking water an increasingly scarce resource. Considerable amounts of it are lost through leakages in water transportation and distribution networks. Thus, anomaly detection and localization, in particular for leakages, are crucial but challenging tasks due to the complex interactions and changing demands in water distribution networks. In this work, we analyze the effects of anomalies on the dynamics of critical infrastructure systems by modeling the networks employing Bayesian networks. We then discuss how the problem is connected to and can be considered through the lens of concept drift. In particular, we argue that model-based explanations of concept drift are a promising tool for localizing anomalies given limited information about the network. The methodology is experimentally evaluated using realistic benchmark scenarios. To showcase that our methodology applies to critical infrastructure more generally, in addition to considering leakages and sensor faults in water systems, we showcase the suitability of the derived technique to localize sensor faults in power systems.
翻訳日:2024-02-08 19:45:05 公開日:2024-02-07
# 大規模言語モデルによるファクトチェックのペリルと約束

The Perils & Promises of Fact-checking with Large Language Models ( http://arxiv.org/abs/2310.13549v2 )

ライセンス: Link先を確認
Dorian Quelle, Alexandre Bovet(参考訳) クレームの検証に機械学習を使用する自動ファクトチェックは、人間のファクトチェック能力を超えて誤情報が広まるにつれ、重要になっている。 gpt-4のような大規模言語モデル(llm)は、学術論文や訴訟、ニュース記事の執筆や情報検証にますます信頼され、真理を虚偽と認識し、結果を確認することの重要性を強調している。 事実チェックタスクにおけるLCMの能力と限界を理解することは、私たちの情報エコシステムの健全性を確保するために不可欠である。 そこで我々は,LLMエージェントの語句検索,文脈データ検索,意思決定による事実確認における使用状況の評価を行った。 重要なことは、我々のフレームワークにおいて、エージェントはそれらの推論を説明し、検索されたコンテキストから関連するソースを引用する。 本研究は, 文脈情報を用いたLLMの高度化を示すものである。 GPT-4はGPT-3より優れているが、精度はクエリ言語とクレームの正確性によって異なる。 LLMは事実チェックにおいて有望であるが、不整合精度のため注意が必要である。 我々の調査はさらなる研究を要求し、エージェントがいつ成功し、いつ失敗するかをより深く理解する。

Automated fact-checking, using machine learning to verify claims, has grown vital as misinformation spreads beyond human fact-checking capacity. Large Language Models (LLMs) like GPT-4 are increasingly trusted to write academic papers, lawsuits, and news articles and to verify information, emphasizing their role in discerning truth from falsehood and the importance of being able to verify their outputs. Understanding the capacities and limitations of LLMs in fact-checking tasks is therefore essential for ensuring the health of our information ecosystem. Here, we evaluate the use of LLM agents in fact-checking by having them phrase queries, retrieve contextual data, and make decisions. Importantly, in our framework, agents explain their reasoning and cite the relevant sources from the retrieved context. Our results show the enhanced prowess of LLMs when equipped with contextual information. GPT-4 outperforms GPT-3, but accuracy varies based on query language and claim veracity. While LLMs show promise in fact-checking, caution is essential due to inconsistent accuracy. Our investigation calls for further research, fostering a deeper comprehension of when agents succeed and when they fail.
翻訳日:2024-02-08 19:44:49 公開日:2024-02-07
# 高次元ゲームへの対物形状のスケーリング

Scaling Opponent Shaping to High Dimensional Games ( http://arxiv.org/abs/2312.12568v2 )

ライセンス: Link先を確認
Akbir Khan and Timon Willi and Newton Kwan and Andrea Tacchetti and Chris Lu and Edward Grefenstette and Tim Rockt\"aschel and Jakob Foerster(参考訳) 混合インセンティブを持つマルチエージェント設定では、ゼロサムゲーム用に開発された手法が有害な結果をもたらすことが示されている。 この問題に対処するため、相手のシェーピング(os)メソッドは、コプレイヤの学習ダイナミクスに影響を与えるように明示的に学習し、経験的に個人と集団の成果を改善する。 しかし,高次導関数の推定やモデルフリーなメタラーニングのスケーリングといった課題があるため,低次元環境においてのみos手法が評価されている。 より複雑な設定にスケールする別の方法は、望ましくないソリューションに収束するか、環境や共同プレイヤに関する非現実的な仮定に依存する。 本稿では,時間的拡張動作と長時間の地平線を持つ汎用ゲームへのOSベースのアプローチを初めて実現した。 従来のアルゴリズムが用いたメタ状態と履歴の表現を分析した後、Shaperと呼ばれる簡易バージョンを提案する。 文献からの挑戦的な状況において、Shaperが個人的および集団的成果を改善することを実証的に示す。 さらに文献に暗黙的な手法を定式化し,その相手の形状に対する寄与を分析した。 本手法は,特定の環境下での先行手法の機能向上に有効であることを示す。 最後に、CoinGameのような従来の環境は、時間的に拡張された一般サム相互作用を分析するのに不十分であることを示す。

In multi-agent settings with mixed incentives, methods developed for zero-sum games have been shown to lead to detrimental outcomes. To address this issue, opponent shaping (OS) methods explicitly learn to influence the learning dynamics of co-players and empirically lead to improved individual and collective outcomes. However, OS methods have only been evaluated in low-dimensional environments due to the challenges associated with estimating higher-order derivatives or scaling model-free meta-learning. Alternative methods that scale to more complex settings either converge to undesirable solutions or rely on unrealistic assumptions about the environment or co-players. In this paper, we successfully scale an OS-based approach to general-sum games with temporally-extended actions and long-time horizons for the first time. After analysing the representations of the meta-state and history used by previous algorithms, we propose a simplified version called Shaper. We show empirically that Shaper leads to improved individual and collective outcomes in a range of challenging settings from literature. We further formalize a technique previously implicit in the literature, and analyse its contribution to opponent shaping. We show empirically that this technique is helpful for the functioning of prior methods in certain environments. Lastly, we show that previous environments, such as the CoinGame, are inadequate for analysing temporally-extended general-sum interactions.
翻訳日:2024-02-08 19:38:00 公開日:2024-02-07
# proxydet: オープンボカブラリオブジェクト検出のためのクラス別ミックスアップによるプロキシ新規クラス合成

ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2312.07266v3 )

ライセンス: Link先を確認
Joonhyun Jeong, Geondo Park, Jayeon Yoo, Hyungsik Jung, Heesu Kim(参考訳) open-vocabulary object detection (ovod)は、トレーニングセットにカテゴリが含まれていない新しいオブジェクトを認識することを目的としている。 トレーニング中にこれらの見えないクラスを分類するために、多くのOVODフレームワークは、CLIPのような主に事前訓練されたビジョンと言語モデルのゼロショット機能を利用する。 未確認の新規クラスにおける一般化をさらに向上するため,既存のトレーニングデータ以外にも,かなりの数の新規カテゴリラベルを含む外部データソースに擬似領域ラベルを付加する手法が提案されている。 その単純さにもかかわらず、これらの擬似ラベル付け手法は、疑似ラベル化されていない真に目に見えない新しいクラスに関して、依然として限定的な改善を示している。 本稿では,新しいクラス全体の分布を一般化するための新しい,かつ単純な手法を提案する。 クリップ埋め込み空間における基底 (seen) クラスによって構築された凸包内に多数の新規クラスが存在するという観測に触発されて, 1対の基底クラス間の線形混合により新規クラスを近似するプロキシ・ノベルクラスを合成する。 これらの合成プロキシーノベルクラスで検出器を訓練することにより、新しいクラスの埋め込み空間を効果的に探索する。 LVIS や COCO などの様々な OVOD ベンチマークによる実験結果は、他の最先端手法と比較して、新しいクラスにおいて優れた性能を示した。 コードはhttps://github.com/clovaai/proxydetで入手できる。

Open-vocabulary object detection (OVOD) aims to recognize novel objects whose categories are not included in the training set. In order to classify these unseen classes during training, many OVOD frameworks leverage the zero-shot capability of largely pretrained vision and language models, such as CLIP. To further improve generalization on the unseen novel classes, several approaches proposed to additionally train with pseudo region labeling on the external data sources that contain a substantial number of novel category labels beyond the existing training data. Albeit its simplicity, these pseudo-labeling methods still exhibit limited improvement with regard to the truly unseen novel classes that were not pseudo-labeled. In this paper, we present a novel, yet simple technique that helps generalization on the overall distribution of novel classes. Inspired by our observation that numerous novel classes reside within the convex hull constructed by the base (seen) classes in the CLIP embedding space, we propose to synthesize proxy-novel classes approximating novel classes via linear mixup between a pair of base classes. By training our detector with these synthetic proxy-novel classes, we effectively explore the embedding space of novel classes. The experimental results on various OVOD benchmarks such as LVIS and COCO demonstrate superior performance on novel classes compared to the other state-of-the-art methods. Code is available at https://github.com/clovaai/ProxyDet.
翻訳日:2024-02-08 19:37:36 公開日:2024-02-07
# グラフニューラルネットワークのための因子化説明器

Factorized Explainer for Graph Neural Networks ( http://arxiv.org/abs/2312.05596v2 )

ライセンス: Link先を確認
Rundong Huang, Farhad Shirani, Dongsheng Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習する能力によって、注目を集めている。 これらの深層学習モデルのブラックボックスを開くために、GNN予測を理解するために、ポストホックなインスタンスレベルの説明法が提案されている。 これらの手法は,訓練されたGNNの予測動作を説明する部分構造を探索する。 本稿では,多種多様な説明課題に対して,グラフ情報ボトルネック(GIB)の原理に基づく従来の手法では,説明可能性の概念と一致しない自明な解が認められていることを解析的に示す。 代わりに、上述した自明な解を避けるために修正された GIB の原理が用いられるかもしれないと論じる。 さらに、理論的性能保証を伴う新しい因子化説明モデルを導入する。 修正GIBを用いて,提案した因子化説明器の構造特性を解析した。 提案手法の有効性を検証するために, 合成データセットと実世界のデータセットについて広範な実験を行った。

Graph Neural Networks (GNNs) have received increasing attention due to their ability to learn from graph-structured data. To open the black-box of these deep learning models, post-hoc instance-level explanation methods have been proposed to understand GNN predictions. These methods seek to discover substructures that explain the prediction behavior of a trained GNN. In this paper, we show analytically that for a large class of explanation tasks, conventional approaches, which are based on the principle of graph information bottleneck (GIB), admit trivial solutions that do not align with the notion of explainability. Instead, we argue that a modified GIB principle may be used to avoid the aforementioned trivial solutions. We further introduce a novel factorized explanation model with theoretical performance guarantees. The modified GIB is used to analyze the structural properties of the proposed factorized explainer. We conduct extensive experiments on both synthetic and real-world datasets to validate the effectiveness of our proposed factorized explainer.
翻訳日:2024-02-08 19:37:11 公開日:2024-02-07
# DiSK:構造化知識の拡散モデル

DiSK: A Diffusion Model for Structured Knowledge ( http://arxiv.org/abs/2312.05253v2 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, James Hensman, Bhaskar Mitra(参考訳) 構造化された(辞書のような)データは、属性が提示される順序に対する形式化や感度など、さまざまな理由で構造化されたエンティティと戦うことができるため、左から右への言語モデルの課題を示す。 タブラル生成モデルは、柔軟性の欠如など、異なる制約のセットに悩まされる。 構造化知識の拡散モデル(disk) - 構造化データに特化した新しいアーキテクチャとトレーニングアプローチを提案する。 DiSKはガウス混合モデルアプローチを用いてテキスト、分類、連続的な数値データを処理し、数値を扱う際の精度を向上させる。 拡散訓練を用いて特性間の関係をモデル化する。 実験では、さまざまなドメインにまたがる15以上のデータセットに対して、グラフデータモデリング、合成、計算に関するDiSKの最先端のパフォーマンスを示す。 DiSKは、構造化データの生成モデリングと操作に有効な誘導バイアスを提供する。 提案する手法は、将来の言語モデルにおける知識操作の改善への扉を開く可能性がある。

Structured (dictionary-like) data presents challenges for left-to-right language models, as they can struggle with structured entities for a wide variety of reasons such as formatting and sensitivity to the order in which attributes are presented. Tabular generative models suffer from a different set of limitations such as their lack of flexibility. We introduce Diffusion Models of Structured Knowledge (DiSK) - a new architecture and training approach specialized for structured data. DiSK handles text, categorical, and continuous numerical data using a Gaussian mixture model approach, which allows for improved precision when dealing with numbers. It employs diffusion training to model relationships between properties. Experiments demonstrate DiSK's state-of-the-art performance on tabular data modeling, synthesis, and imputation on over 15 datasets across diverse domains. DiSK provides an effective inductive bias for generative modeling and manipulation of structured data. The techniques we propose could open the door to improved knowledge manipulation in future language models.
翻訳日:2024-02-08 19:36:56 公開日:2024-02-07
# 大型言語モデルのための可読性指紋

Human-Readable Fingerprint for Large Language Models ( http://arxiv.org/abs/2312.04828v2 )

ライセンス: Link先を確認
Boyi Zeng, Chenghu Zhou, Xinbing Wang, Zhouhan Lin(参考訳) 大規模言語モデル(LLM)の著作権保護は、リソース集約的なトレーニングと、慎重に設計されたライセンスを伴うため、重要になっている。 しかし, LLMの原モデルを特定することは, 潜在的なパラメータ変化のため困難である。 本研究では,モデルパラメータを暴露したり,トレーニングに干渉したりすることなく,基本モデルを一意に識別するLLM用人読指紋を提案する。 まず, LLMパラメータのベクトル方向が, モデルが事前訓練中に収束した後も安定であり, 継続事前訓練, 教師付き微調整(SFT), RLHFなどの訓練段階を通じて無視可能な摂動を示す。 この必要性は、モデルパラメータの方向を追い出すために余分な項でLSMを訓練し続け、モデルが損傷することによって検証される。 しかし、この方向は次元置換や行列回転のような単純な攻撃に弱いため、性能に影響を与えずに大きく変化する。 そこで本研究では,トランスフォーマー構造を利用して,潜在的攻撃を系統的に解析し,LLMのベースモデルを特定する3つの不変項を定義する。 これらの不変項を畳み込みエンコーダを用いてガウスベクトルにマッピングし、それをスタイルガン2で自然画像に変換することで、人間に読めるようにする。 本手法では,犬の外観がllmの基本モデルを強く示すように,llmの識別指紋として犬画像を生成する。 指紋は質的識別のための直感的な情報を提供し、不変項は定量的かつ正確な検証に使用できる。 種々のLLM実験結果から,本手法の有効性が示された。

Protecting the copyright of large language models (LLMs) has become crucial due to their resource-intensive training and accompanying carefully designed licenses. However, identifying the original base model of an LLM is challenging due to potential parameter alterations. In this study, we introduce a human-readable fingerprint for LLMs that uniquely identifies the base model without exposing model parameters or interfering with training. We first observe that the vector direction of LLM parameters remains stable after the model has converged during pretraining, showing negligible perturbations through subsequent training steps, including continued pretraining, supervised fine-tuning (SFT), and RLHF, which makes it a sufficient condition to identify the base model. The necessity is validated by continuing to train an LLM with an extra term to drive away the model parameters' direction and the model becomes damaged. However, this direction is vulnerable to simple attacks like dimension permutation or matrix rotation, which significantly change it without affecting performance. To address this, leveraging the Transformer structure, we systematically analyze potential attacks and define three invariant terms that identify an LLM's base model. We make these invariant terms human-readable by mapping them to a Gaussian vector using a convolutional encoder and then converting it into a natural image with StyleGAN2. Our method generates a dog image as an identity fingerprint for an LLM, where the dog's appearance strongly indicates the LLM's base model. The fingerprint provides intuitive information for qualitative discrimination, while the invariant terms can be employed for quantitative and precise verification. Experimental results across various LLMs demonstrate the effectiveness of our method.
翻訳日:2024-02-08 19:36:42 公開日:2024-02-07
# グラフ表現学習のためのリカレント距離フィルタリング

Recurrent Distance Filtering for Graph Representation Learning ( http://arxiv.org/abs/2312.01538v2 )

ライセンス: Link先を確認
Yuhui Ding, Antonio Orvieto, Bobby He, Thomas Hofmann(参考訳) 反復的な1ホップメッセージパッシングに基づくグラフニューラルネットワークは、遠隔ノードからの情報を効果的に活用するのに苦労していることが示されている。 逆にグラフ変換器は、各ノードが他のすべてのノードに直接参加できるようにするが、グラフ誘導バイアスがなく、アドホックな位置符号化に頼る必要がある。 本稿では,これらの課題を解決するための新しいアーキテクチャを提案する。 私たちのアプローチは、シーケンシャルデータ上の深い状態空間モデルによって提供される長距離モデリングの最近のブレークスルーに起因しています。 与えられた対象ノードに対して、モデルはターゲットと最短距離で他のノードを集約し、リニアなrnnを使用してホップ表現のシーケンスをエンコードします。 線形RNNは、安定な長距離信号伝搬のために特定の対角形でパラメータ化され、理論的には近傍階層を符号化するのに十分な表現性を持つ。 位置符号化を必要とせず,様々なベンチマークにおける最先端グラフトランスフォーマと比較して,計算コストを大幅に削減したモデルの性能が極めて高いことを実証的に示す。

Graph neural networks based on iterative one-hop message passing have been shown to struggle in harnessing the information from distant nodes effectively. Conversely, graph transformers allow each node to attend to all other nodes directly, but lack graph inductive bias and have to rely on ad-hoc positional encoding. In this paper, we propose a new architecture to reconcile these challenges. Our approach stems from the recent breakthroughs in long-range modeling provided by deep state-space models on sequential data: for a given target node, our model aggregates other nodes by their shortest distances to the target and uses a linear RNN to encode the sequence of hop representations. The linear RNN is parameterized in a particular diagonal form for stable long-range signal propagation and is theoretically expressive enough to encode the neighborhood hierarchy. With no need for positional encoding, we empirically show that the performance of our model is highly competitive compared with that of state-of-the-art graph transformers on various benchmarks, with a significantly reduced computational cost.
翻訳日:2024-02-08 19:36:13 公開日:2024-02-07
# RefinedFields: 制約のないシーンのための放射場リファインメント

RefinedFields: Radiance Fields Refinement for Unconstrained Scenes ( http://arxiv.org/abs/2312.00639v2 )

ライセンス: Link先を確認
Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Val\'erie Gouet-Brunet(参考訳) 制約のない画像から大きなシーンをモデル化することは、コンピュータビジョンにおいて大きな課題であることが証明されている。 実世界の画像から取得した事前条件が存在しないクローズドワールド設定で既存のシーンモデリングに対処する方法が存在する。 筆者らはRefinedFieldsを提案するが、これは私たちの知る限り、事前学習されたモデルを利用した最初の手法である。 我々は、交互学習手法を用いて最適化誘導によりK-Planes表現を洗練するために、事前訓練ネットワークを用いる。 我々は,合成データと実際の観光写真収集における手法のメリットを検証し,広範な実験を行った。 RefinedFieldsはレンダリングシーンをリッチなディテールで強化し、野生における新しいビュー合成のタスクにおける以前の作業より優れています。 私たちのプロジェクトページはhttps://refinedfields.github.io.orgにある。

Modeling large scenes from unconstrained images has proven to be a major challenge in computer vision. Existing methods tackling in-the-wild scene modeling operate in closed-world settings, where no conditioning on priors acquired from real-world images is present. We propose RefinedFields, which is, to the best of our knowledge, the first method leveraging pre-trained models to improve in-the-wild scene modeling. We employ pre-trained networks to refine K-Planes representations via optimization guidance using an alternating training procedure. We carry out extensive experiments and verify the merit of our method on synthetic data and real tourism photo collections. RefinedFields enhances rendered scenes with richer details and outperforms previous work on the task of novel view synthesis in the wild. Our project page can be found at https://refinedfields.github.io .
翻訳日:2024-02-08 19:35:54 公開日:2024-02-07
# cdeval: 大きな言語モデルの文化的次元を測定するためのベンチマーク

CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models ( http://arxiv.org/abs/2311.16421v2 )

ライセンス: Link先を確認
Yuhang Wang, Yanxu Zhu, Chao Kong, Shuyu Wei, Xiaoyuan Yi, Xing Xie and Jitao Sang(参考訳) 大規模言語モデル(llm)のスケーリングによって能力が劇的に向上するにつれ、その責任と倫理的利用を確保するために、アライメントの問題に注目が集まっている。 既存のアライメント努力は、HHH原則のような普遍的価値に主に集中しているが、本質的に多元的かつ多様である文化の側面には十分な注意が払われていない。 この研究は、LLMの文化的側面を評価することを目的とした新しいベンチマークであるCDEvalを導入する。 CDEvalは、GPT-4の自動生成と人間の検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。 我々の包括的な実験は、主流のllmの文化に興味深い洞察を与え、異なる次元とドメインにおける構成とバリエーションを強調する。 この知見は, LLM開発における文化的考慮事項の統合の重要性, 特に多様な文化的状況における応用の重要性を浮き彫りにした。 CDEvalを通じて、文化的な側面を含むことでLCMアライメント研究の地平を広げ、LCMの将来の発展と評価のためのより包括的な枠組みを提供する。 このベンチマークは、LLMにおける文化的研究の貴重なリソースとなり、より文化的に認識され、センシティブなモデルへの道を開いた。

As the scaling of Large Language Models (LLMs) has dramatically enhanced their capabilities, there has been a growing focus on the alignment problem to ensure their responsible and ethical use. While existing alignment efforts predominantly concentrate on universal values such as the HHH principle, the aspect of culture, which is inherently pluralistic and diverse, has not received adequate attention. This work introduces a new benchmark, CDEval, aimed at evaluating the cultural dimensions of LLMs. CDEval is constructed by incorporating both GPT-4's automated generation and human verification, covering six cultural dimensions across seven domains. Our comprehensive experiments provide intriguing insights into the culture of mainstream LLMs, highlighting both consistencies and variations across different dimensions and domains. The findings underscore the importance of integrating cultural considerations in LLM development, particularly for applications in diverse cultural settings. Through CDEval, we aim to broaden the horizon of LLM alignment research by including cultural dimensions, thus providing a more holistic framework for the future development and evaluation of LLMs. This benchmark serves as a valuable resource for cultural studies in LLMs, paving the way for more culturally aware and sensitive models.
翻訳日:2024-02-08 19:34:37 公開日:2024-02-07
# 有害な人間のフィードバックによるユニバーサルジェイルブレイクのバックドア

Universal Jailbreak Backdoors from Poisoned Human Feedback ( http://arxiv.org/abs/2311.14455v2 )

ライセンス: Link先を確認
Javier Rando and Florian Tram\`er(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと協調して有用な無害な応答を生成するために用いられる。 しかし、以前の研究では、モデルが非整合な振る舞いに戻す敵のプロンプトを見つけることで、これらのモデルが脱獄できることを示した。 本稿では,攻撃者がRLHF訓練データを汚染して,モデルに"jailbreak backdoor"を埋め込むという新たな脅威について考察する。 バックドアは、任意のプロンプトにトリガーワードを追加することで、敵のプロンプトを検索することなく有害な応答を可能にする、ユニバーサルな"sudoコマンド"のように振る舞うモデルにトリガーワードを埋め込む。 ユビキタス・ジェイルブレイクのバックドアは、以前研究された言語モデルのバックドアよりもはるかに強力です。 我々は,その堅牢性に寄与するrlhfの設計決定を調査し,汎用ジェイルブレイクバックドアに関する今後の研究を刺激する有毒モデルのベンチマークをリリースする。

Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
翻訳日:2024-02-08 19:34:15 公開日:2024-02-07
# ポストプロセスヘテロダイン検出による分光レイリー限界の破れ

Beating the spectroscopic Rayleigh limit via post-processed heterodyne detection ( http://arxiv.org/abs/2311.10574v2 )

ライセンス: Link先を確認
Wiktor Krokosz, Mateusz Mazelanik, Micha{\l} Lipka, Marcin Jarzyna, Wojciech Wasilewski, Konrad Banaszek, Micha{\l} Parniak(参考訳) 量子インスパイアされた超解像法は、イメージングにおけるレイリー限界、または分光における類似のフーリエ極限を超える。 これは、発生した光電界に含まれる情報を、工学的測定によって注意深く抽出することで達成される。 複雑な実験装置の代替として、単純なホモダイン検出とカスタマイズデータ分析を用いる方法がある。 本手法を時間周波数領域で実験的に検討し,熱および位相平均コヒーレント状態の2種類の光源の分光超解像を実証した。 実験結果は推定理論に基づく理論的予測によって裏付けられる。

Quantum-inspired superresolution methods surpass the Rayleigh limit in imaging, or the analogous Fourier limit in spectroscopy. This is achieved by carefully extracting the information carried in the emitted optical field by engineered measurements. An alternative to complex experimental setups is to use simple homodyne detection and customized data analysis. We experimentally investigate this method in the time-frequency domain and demonstrate the spectroscopic superresolution for two distinct types of light sources: thermal and phase-averaged coherent states. The experimental results are backed by theoretical predictions based on estimation theory.
翻訳日:2024-02-08 19:33:19 公開日:2024-02-07
# ラベル付きインタラクティブトピックモデル

Labeled Interactive Topic Models ( http://arxiv.org/abs/2311.09438v2 )

ライセンス: Link先を確認
Kyle Seelman, Mozhi Zhang, Jordan Boyd-Graber(参考訳) トピックモデルは、広範なドキュメントコレクションを理解するのに価値があるが、最も関連するトピックを常に特定するとは限らない。 古典的な確率的およびアンカーベースのトピックモデルは、ユーザがより適切なトピックに向けてモデルをガイドできるインタラクティブバージョンを提供する。 しかし、そのようなインタラクティブな機能はニューラルトピックモデルに欠けている。 そこで我々は,ニューラルネットワークモデルに対するユーザフレンドリなインタラクションを提案する。 このインタラクションは、ユーザがトピックに単語ラベルを割り当てることを可能にし、トピック内の単語が与えられたラベルと密接に一致したトピックモデルの更新につながる。 我々のアプローチは2つの異なる種類の神経話題モデルを含んでいる。 1つ目は、トレーニングプロセス中にトピックの埋め込みがトレーニング可能で進化するモデルを含む。 2つ目のタイプは、トピック埋め込みがトレーニング後に統合され、トピックリファインメントに対する異なるアプローチを提供するモデルである。 これらのニューラルトピックモデルとのユーザインタラクションを容易にするために,対話型インタフェースを開発した。 このインターフェースにより、ユーザーは必要に応じてトピックに関わり、ラベルを変更できる。 本手法を人間実験により評価し,関連する文書を検索するためにトピックをリラベルすることができる。 ユーザラベリングは,ユーザラベリングに比較して,特定のクエリに対する関連文書の検索を支援することにより,ドキュメントランクスコアを向上させる。

Topic models are valuable for understanding extensive document collections, but they don't always identify the most relevant topics. Classical probabilistic and anchor-based topic models offer interactive versions that allow users to guide the models towards more pertinent topics. However, such interactive features have been lacking in neural topic models. To correct this lacuna, we introduce a user-friendly interaction for neural topic models. This interaction permits users to assign a word label to a topic, leading to an update in the topic model where the words in the topic become closely aligned with the given label. Our approach encompasses two distinct kinds of neural topic models. The first includes models where topic embeddings are trainable and evolve during the training process. The second kind involves models where topic embeddings are integrated post-training, offering a different approach to topic refinement. To facilitate user interaction with these neural topic models, we have developed an interactive interface. This interface enables users to engage with and re-label topics as desired. We evaluate our method through a human study, where users can relabel topics to find relevant documents. Using our method, user labeling improves document rank scores, helping to find more relevant documents to a given query when compared to no user labeling.
翻訳日:2024-02-08 19:33:08 公開日:2024-02-07
# iDeLog:Sigma-Lognormalパラメータの反復的双対空間と運動論的抽出

iDeLog: Iterative Dual Spatial and Kinematic Extraction of Sigma-Lognormal Parameters ( http://arxiv.org/abs/2401.15473v2 )

ライセンス: Link先を確認
Miguel A. Ferrer, Moises Diaz, Cristina Carmona-Duarte, Rejean Plamondon(参考訳) 急速運動のキネマティック理論とその関連するシグマ対数正規モデルは、様々な応用で広く用いられている。 モデルの物理的および生物学的意味は、迅速な運動のために広く検証され、検証されているが、連続した長い複雑な動きで使用される際にいくつかの欠点が検出されている。 このような欠点を軽減し、モータ等価性理論と知覚可能な視覚フィードバックにインスパイアされた本研究では、Sigma-Lognormalパラメータ、すなわちiDeLogを抽出する新しい枠組みを提案する。 具体的には、iDeLogは2つのステップから構成される。 モータ等価モデルの影響を受け、第1の方法は、軌道から仮想点と角度の集合と速度から対数正規の列で定義される初期アクションプランを別々に導出する。 第2のステップでは、オープンループモータ制御と互換性のある仮想視覚フィードバックに基づいて、アクションプランの仮想目標点を反復移動させ、観測および再構成された軌道と速度とのマッチングを改善する。 手書き署名を用いた実験で、iDeLogはSigma-Lognormalの以前の開発と比べて有望な結果を得た。

The Kinematic Theory of rapid movements and its associated Sigma-Lognormal model have been extensively used in a large variety of applications. While the physical and biological meaning of the model have been widely tested and validated for rapid movements, some shortcomings have been detected when it is used with continuous long and complex movements. To alleviate such drawbacks, and inspired by the motor equivalence theory and a conceivable visual feedback, this paper proposes a novel framework to extract the Sigma-Lognormal parameters, namely iDeLog. Specifically, iDeLog consists of two steps. The first one, influenced by the motor equivalence model, separately derives an initial action plan defined by a set of virtual points and angles from the trajectory and a sequence of lognormals from the velocity. In the second step, based on a hypothetical visual feedback compatible with an open-loop motor control, the virtual target points of the action plan are iteratively moved to improve the matching between the observed and reconstructed trajectory and velocity. During experiments conducted with handwritten signatures, iDeLog obtained promising results as compared to the previous development of the Sigma-Lognormal.
翻訳日:2024-02-08 19:24:15 公開日:2024-02-07
# peft for speech - 最適な配置、マージ戦略、アンサンブル技術を公開する

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques ( http://arxiv.org/abs/2401.02122v2 )

ライセンス: Link先を確認
Tzu-Han Lin, How-Shing Wang, Hao-Yung Weng, Kuang-Chen Peng, Zih-Ching Chen, Hung-yi Lee(参考訳) パラメータ効率の良いファインチューニング(PEFT)は音声処理において有効な方法として認識されつつある。 しかし、PEFT法の最適手法と配置はいまだ決定的ではない。 本研究では,異なるPEFT手法と,異なるアーキテクチャ探索(DARTS)を適応させるレイヤワイド配置の比較実験を行った。 また,多様なPEFT戦略を活用するためのアンサンブル学習の活用についても検討する。 その結果、DARTSは、同じPEFTメソッドを自己監視学習(SSL)モデルのすべての層に挿入する、ベースラインアプローチよりも優れていることが判明した。 対照的に、アンサンブル学習アプローチ、特に多数決を採るアプローチは、優れたパフォーマンスを示している。 我々の統計的証拠は、異なるペフト法が様々な方法で学習することを示している。 この変化は、アンサンブル学習による様々なPEFTメソッドのシナジスティックな統合が、個々のレイヤワイズ最適化と比較して、独自の学習能力を効果的に活用できる理由を説明できるかもしれない。

Parameter-Efficient Fine-Tuning (PEFT) is increasingly recognized as an effective method in speech processing. However, the optimal approach and the placement of PEFT methods remain inconclusive. Our study conducts extensive experiments to compare different PEFT methods and their layer-wise placement adapting Differentiable Architecture Search (DARTS). We also explore the use of ensemble learning to leverage diverse PEFT strategies. The results reveal that DARTS does not outperform the baseline approach, which involves inserting the same PEFT method into all layers of a Self-Supervised Learning (SSL) model. In contrast, an ensemble learning approach, particularly one employing majority voting, demonstrates superior performance. Our statistical evidence indicates that different PEFT methods learn in varied ways. This variation might explain why the synergistic integration of various PEFT methods through ensemble learning can harness their unique learning capabilities more effectively compared to individual layer-wise optimization.
翻訳日:2024-02-08 19:23:16 公開日:2024-02-07
# 非相互作用電子の格子リングにおける測定誘起クロック

Measurement-induced Clock in a Lattice Ring of Non-interacting Electrons ( http://arxiv.org/abs/2312.17672v2 )

ライセンス: Link先を確認
David S. Schlegel, Stefan Kehrein(参考訳) 本研究では, 外部駆動を伴わない非相互作用定常量子系における周期性の出現について検討した。 具体的には、弱い局所位置測定を行う非相互作用電子の格子環を考える。 本研究では, 定常二時間相関関数の周期構造を解析し, 系の群速度と周期性の関係を明らかにする。 本研究は、非平衡定常状態の2時間相関器における周期的挙動を強調し、最小相互作用量子系における周期的現象の理解に寄与する測定誘起クロック機構を示す。

We examine the emergence of periodicity in a non-interacting steady-state quantum system without external drive inspired by quantum time crystals' spontaneous time-translation symmetry breaking. Specifically, we consider a lattice ring of non-interacting electrons undergoing weak local position measurements. Our analysis uncovers time-periodic structures in steady-state two-time correlation functions, with periodicity linked to the system's group velocity. This study demonstrates a measurement-induced clock mechanism, highlighting periodic behaviors in two-time correlators of a non-equilibrium steady state, contributing to understanding time-periodic phenomena in minimally interactive quantum systems.
翻訳日:2024-02-08 19:23:01 公開日:2024-02-07
# インストラクション融合:ハイブリダイゼーションによる迅速な進化の促進

Instruction Fusion: Advancing Prompt Evolution through Hybridization ( http://arxiv.org/abs/2312.15692v3 )

ライセンス: Link先を確認
Weidong Guo, Jiuding Yang, Kaitong Yang, Xiangyang Li, Zhuwei Rao, Yu Xu, Di Niu(参考訳) コード生成に特化した大規模言語モデル(llm)の微調整は、オープンドメインのコーディングクエリの使用によって顕著な進歩を遂げている。 成功にもかかわらず、Evol-Instructのような既存の方法論はパフォーマンスの制限に直面し、コード生成タスクのさらなる強化を妨げる。 本稿では,既存のプロンプト進化技術の制約を検証し,新しい手法である命令融合(if)を提案する。 ハイブリダイゼーションプロセスを通じて2つの異なるプロンプトを革新的に組み合わせることで、コードllmのためのトレーニングプロンプトの進化が促進される。 提案手法は,HumanEval,HumanEval+,MBPP,MBPP+,MultiPL-Eの5つのコード生成ベンチマークにおけるコードLLMの性能を著しく向上し,コード生成におけるLLMの能力向上にインストラクションフュージョンが有効であることを示す。

The fine-tuning of Large Language Models (LLMs) specialized in code generation has seen notable advancements through the use of open-domain coding queries. Despite the successes, existing methodologies like Evol-Instruct encounter performance limitations, impeding further enhancements in code generation tasks. This paper examines the constraints of existing prompt evolution techniques and introduces a novel approach, Instruction Fusion (IF). IF innovatively combines two distinct prompts through a hybridization process, thereby enhancing the evolution of training prompts for code LLMs. Our experimental results reveal that the proposed novel method effectively addresses the shortcomings of prior methods, significantly improving the performance of Code LLMs across five code generation benchmarks, namely HumanEval, HumanEval+, MBPP, MBPP+ and MultiPL-E, which underscore the effectiveness of Instruction Fusion in advancing the capabilities of LLMs in code generation.
翻訳日:2024-02-08 19:22:51 公開日:2024-02-07
# 騒音蒸留によるインテクスト強化学習の創発

Emergence of In-Context Reinforcement Learning from Noise Distillation ( http://arxiv.org/abs/2312.12275v2 )

ライセンス: Link先を確認
Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin, Viacheslav Sinii, Sergey Kolesnikov(参考訳) 近年,様々な環境やタスクに適応するトランスフォーマーの能力について,強化学習に関する広範な研究が行われている。 現在のコンテキスト内RLメソッドは、RLエージェントによって生成されるか、あるいは最適なポリシーからのアクションでラベル付けする必要があるデータに対する厳格な要求によって制限される。 本稿では,この問題に対処するために,雑音によるカリキュラムからテキスト内強化学習を可能にする新しいデータ取得手法AD$^\varepsilon$を提案する。 本研究では,学習履歴の収集を支援する合成ノイズ注入カリキュラムの構築が可能であることを示す。 さらに,学習データセットにおける最良サブ最適ポリシを2倍のマージンで上回るインコンテキストrlを用いて,最適なポリシを用いた生成の必要性を軽減できることを実験的に実証した。

Recently, extensive studies in Reinforcement Learning have been carried out on the ability of transformers to adapt in-context to various environments and tasks. Current in-context RL methods are limited by their strict requirements for data, which needs to be generated by RL agents or labeled with actions from an optimal policy. In order to address this prevalent problem, we propose AD$^\varepsilon$, a new data acquisition approach that enables in-context Reinforcement Learning from noise-induced curriculum. We show that it is viable to construct a synthetic noise injection curriculum which helps to obtain learning histories. Moreover, we experimentally demonstrate that it is possible to alleviate the need for generation using optimal policies, with in-context RL still able to outperform the best suboptimal policy in a learning dataset by a 2x margin.
翻訳日:2024-02-08 19:22:22 公開日:2024-02-07
# ラベルなし多変量時系列異常検出

Label-Free Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2312.11549v2 )

ライセンス: Link先を確認
Qihang Zhou, Shibo He, Haoyu Liu, Jiming Chen, Wenchao Meng(参考訳) 多変量時系列(MTS)における異常検出は、一級分類(OCC)において広く研究されている。 OCCのトレーニングサンプルは正常であると考えられており、実際の状況では保証が難しい。 このような場合、訓練分布を正規分布とするoccに基づく異常検出法の性能を低下させることができる。 本稿では,mts異常検出のための動的グラフとエンティティ認識正規化フローを用いた教師なし異常検出手法であるmtgflowを提案する。 MTGFlowはまずトレーニングサンプル全体の密度を推定し、その後、適合分布内のテストサンプルの密度に基づいて異常なインスタンスを識別する。 これは、異常なインスタンスが通常のインスタンスよりも疎密度を示し、クリーンなトレーニングデータセットに依存しないという広く受け入れられた仮定に依存している。 しかし、エンティティ間の複雑な依存関係と、その多様な特性による密度を直接推定することは困難である。 そこで我々は,mtsの複雑かつ正確な分布パターンを効果的に捉えるために,グラフ構造学習モデルを用いてエンティティ間の相互依存的および進化的関係を学習する。 さらに,このアプローチでは,エンティティ認識正規化フローを用いることで,個々のエンティティのユニークな特性を取り入れている。 これにより、各エンティティをパラメータ化正規分布として表現することができる。 さらに, 類似した特徴を持つエンティティについても考慮し, 類似した特徴を持つエンティティの共通性を活かしたクラスタ戦略を提案し, より正確かつ詳細な密度推定を行う。 このクラスタ対応拡張をMTGFlow_clusterと呼ぶ。 mtgflowとmtgflowクラスタが優れた検出性能を示す6つのベンチマークデータセットについて,広範な実験を行った。

Anomaly detection in multivariate time series (MTS) has been widely studied in one-class classification (OCC) setting. The training samples in OCC are assumed to be normal, which is difficult to guarantee in practical situations. Such a case may degrade the performance of OCC-based anomaly detection methods which fit the training distribution as the normal distribution. In this paper, we propose MTGFlow, an unsupervised anomaly detection approach for MTS anomaly detection via dynamic Graph and entity-aware normalizing Flow. MTGFlow first estimates the density of the entire training samples and then identifies anomalous instances based on the density of the test samples within the fitted distribution. This relies on a widely accepted assumption that anomalous instances exhibit more sparse densities than normal ones, with no reliance on the clean training dataset. However, it is intractable to directly estimate the density due to complex dependencies among entities and their diverse inherent characteristics. To mitigate this, we utilize the graph structure learning model to learn interdependent and evolving relations among entities, which effectively captures complex and accurate distribution patterns of MTS. In addition, our approach incorporates the unique characteristics of individual entities by employing an entity-aware normalizing flow. This enables us to represent each entity as a parameterized normal distribution. Furthermore, considering that some entities present similar characteristics, we propose a cluster strategy that capitalizes on the commonalities of entities with similar characteristics, resulting in more precise and detailed density estimation. We refer to this cluster-aware extension as MTGFlow_cluster. Extensive experiments are conducted on six widely used benchmark datasets, in which MTGFlow and MTGFlow cluster demonstrate their superior detection performance.
翻訳日:2024-02-08 19:22:08 公開日:2024-02-07
# フェアネスの制約はどれくらいでバイアスデータから回復できるのか?

How Far Can Fairness Constraints Help Recover From Biased Data? ( http://arxiv.org/abs/2312.10396v2 )

ライセンス: Link先を確認
Mohit Sharma, Amit Deshpande(参考訳) 公平な分類に対する一般的な信念は、公平性の制約が正確さとトレードオフを伴い、バイアスのあるデータが悪化する可能性があることである。 この信念に反して、blum & stangl (2019) は、極度に偏ったデータでも等しく機会制約のある公平な分類は、元のデータ分布上で最適に正確かつ公平な分類を回復できることを示した。 彼らの結果は、公正性の制約がデータバイアスを暗黙的に修正し、公正さと正確さのトレードオフを同時に克服できることを示しているので興味深い。 彼らのデータバイアスモデルは、少数人口における下層表現とラベルバイアスをシミュレートし、データ分布とバイアスパラメータの簡単な条件下で、ラベルノイズを用いたスタイリングされたデータ分布で上記の結果を示す。 本稿では、blum & stangl(2019)の結果を異なる公平性制約、データバイアスモデル、データ分布、仮説クラスに拡張するための一般的なアプローチを提案する。 我々はそれらの結果を強化し、そのスタイル化された分布がi.d.ノイズの代わりにMassartノイズを持つラベルを持つ場合に拡張する。 任意のデータ分布に対してfair rejectオプション分類器を用いて同様の回復結果を示す。 さらに任意のデータ分布や任意の仮説クラスに一般化する、すなわち、任意のデータ分布に対して、与えられた仮説クラスの最適精度の分類器が公平で堅牢であれば、バイアスパラメータが一定の単純な条件を満たすとき、バイアス分布に等しい機会制約を課した公正な分類によって回復できることを示す。 最後に,この手法を,分類と公平な機械学習パイプラインにおける時間変動データバイアスに適用することを示す。

A general belief in fair classification is that fairness constraints incur a trade-off with accuracy, which biased data may worsen. Contrary to this belief, Blum & Stangl (2019) show that fair classification with equal opportunity constraints even on extremely biased data can recover optimally accurate and fair classifiers on the original data distribution. Their result is interesting because it demonstrates that fairness constraints can implicitly rectify data bias and simultaneously overcome a perceived fairness-accuracy trade-off. Their data bias model simulates under-representation and label bias in underprivileged population, and they show the above result on a stylized data distribution with i.i.d. label noise, under simple conditions on the data distribution and bias parameters. We propose a general approach to extend the result of Blum & Stangl (2019) to different fairness constraints, data bias models, data distributions, and hypothesis classes. We strengthen their result, and extend it to the case when their stylized distribution has labels with Massart noise instead of i.i.d. noise. We prove a similar recovery result for arbitrary data distributions using fair reject option classifiers. We further generalize it to arbitrary data distributions and arbitrary hypothesis classes, i.e., we prove that for any data distribution, if the optimally accurate classifier in a given hypothesis class is fair and robust, then it can be recovered through fair classification with equal opportunity constraints on the biased distribution whenever the bias parameters satisfy certain simple conditions. Finally, we show applications of our technique to time-varying data bias in classification and fair machine learning pipelines.
翻訳日:2024-02-08 19:21:44 公開日:2024-02-07
# 高品質3d生成のための安定スコア蒸留

Stable Score Distillation for High-Quality 3D Generation ( http://arxiv.org/abs/2312.09305v2 )

ライセンス: Link先を確認
Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang(参考訳) SDS(Score Distillation Sampling)は条件付き3Dコンテンツ生成において顕著な性能を示したが、その定式化の包括的理解はいまだに欠けており、3D生成の進展を妨げる。 本研究では,SDSをモード探索,モード分割,分散還元という3つの機能成分の組み合わせとして分解し,それぞれの特性を解析する。 本研究は,最初の2項の固有欠如による過剰なスムースネスや非可算性といった問題を示し,sdsで導入されたものよりもより高度な分散還元項を提案する。 本研究では,高品質な3d生成のための各用語を戦略的に編成し,様々な3d生成フレームワークや3d表現に容易に組み込むことのできる,安定スコア蒸留 (ssd) という簡易かつ効果的な手法を提案する。 広範にわたる実験により,提案手法の有効性が検証され,高精細度な3dコンテンツを生成することができることを示した。

Although Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation, a comprehensive understanding of its formulation is still lacking, hindering the development of 3D generation. In this work, we decompose SDS as a combination of three functional components, namely mode-seeking, mode-disengaging and variance-reducing terms, analyzing the properties of each. We show that problems such as over-smoothness and implausibility result from the intrinsic deficiency of the first two terms and propose a more advanced variance-reducing term than that introduced by SDS. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation and can be readily incorporated to various 3D generation frameworks and 3D representations. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness.
翻訳日:2024-02-08 19:21:12 公開日:2024-02-07
# コミュニケーション効率のよい連合学習のための欲深いシャプリークライアント選択

Greedy Shapley Client Selection for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2312.09108v3 )

ライセンス: Link先を確認
Pranava Singhal, Shashi Raj Pandey, Petar Popovski(参考訳) フェデレートラーニング(FL)の標準的なクライアント選択アルゴリズムは、しばしばバイアスがなく、クライアントのランダムなサンプリングを含む。 これは、クライアント間でのデータ分散、コンピューティング、および通信リソースが著しく異質であることに特徴付けられる、実用的な環境での高速収束に最適であることが証明されている。 パラメータサーバ(PS)との通信機会の制限によるタイミング制約のあるアプリケーションでは、クライアントの選択戦略は、固定された通信ラウンドの予算内でモデルトレーニングを完了させる上で重要である。 この問題に対処するため、各通信ラウンドで最も貢献するクライアントを特定し、優しく選択する、バイアスのあるクライアント選択戦略であるGreedyFedを開発した。 この手法はPSにおけるShapley Valueの高速近似アルゴリズムに基づいており、多くのクライアントを持つ現実世界のアプリケーションで計算が計算可能である。 複数の実世界のデータセット上のさまざまなクライアント選択戦略と比較して、GreedyFedは、タイミング制約下での高速で安定した収束と、データ分散、システム制約、プライバシ要件の高度な不均一性を示唆している。

The standard client selection algorithms for Federated Learning (FL) are often unbiased and involve uniform random sampling of clients. This has been proven sub-optimal for fast convergence under practical settings characterized by significant heterogeneity in data distribution, computing, and communication resources across clients. For applications having timing constraints due to limited communication opportunities with the parameter server (PS), the client selection strategy is critical to complete model training within the fixed budget of communication rounds. To address this, we develop a biased client selection strategy, GreedyFed, that identifies and greedily selects the most contributing clients in each communication round. This method builds on a fast approximation algorithm for the Shapley Value at the PS, making the computation tractable for real-world applications with many clients. Compared to various client selection strategies on several real-world datasets, GreedyFed demonstrates fast and stable convergence with high accuracy under timing constraints and when imposing a higher degree of heterogeneity in data distribution, systems constraints, and privacy requirements.
翻訳日:2024-02-08 19:20:51 公開日:2024-02-07
# 視線追跡による中国語話者の言語景観イメージの認識

Using eye tracking to investigate what native Chinese speakers notice about linguistic landscape images ( http://arxiv.org/abs/2312.08906v3 )

ライセンス: Link先を確認
Zichao Wei, Yewei Qin(参考訳) 言語学的景観は社会言語学研究において重要な分野である。 視線追跡技術は心理学研究において一般的な技術である。 言語学的景観を研究するために眼球運動を用いる例は少ない。 本稿では,視線追跡技術を用いて言語景観の実際の固定について検討し,固定時間と固定時間という2次元において,中国語母語話者の言語景観への固定が一般的な景観よりも高いことを見出した。 本稿では,この現象は言語景観の情報密度が高いためであると主張する。 同時に、この現象の他の可能性についても論じている。

Linguistic landscape is an important field in sociolinguistic research. Eye tracking technology is a common technology in psychological research. There are few cases of using eye movement to study linguistic landscape. This paper uses eye tracking technology to study the actual fixation of the linguistic landscape and finds that in the two dimensions of fixation time and fixation times, the fixation of native Chinese speakers to the linguistic landscape is higher than that of the general landscape. This paper argues that this phenomenon is due to the higher information density of linguistic landscapes. At the same time, the article also discusses other possible reasons for this phenomenon.
翻訳日:2024-02-08 19:20:32 公開日:2024-02-07
# OLMo: 言語モデルの科学を加速する

OLMo: Accelerating the Science of Language Models ( http://arxiv.org/abs/2402.00838v2 )

ライセンス: Link先を確認
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi(参考訳) 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発の詳細は公開されていない。 これらの詳細が、バイアスや潜在的なリスクを含むこれらのモデルを科学的に研究する上で重要であることから、研究コミュニティが強力で真にオープンなlmsにアクセスすることが不可欠であると考えています。 この技術的レポートはolmoの最初のリリースについて詳述している。olmoは最先端の真にオープンな言語モデルであり、言語モデリングの科学を構築し、研究するためのフレームワークである。 モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、トレーニングデータやトレーニング、評価コードを含むOLMoとフレームワーク全体をリリースしています。 このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
翻訳日:2024-02-08 19:13:15 公開日:2024-02-07
# もっとよくフィットするか? 個人ドライバに適応したインクリメンタル学習型マルチモーダルオブジェクト参照フレームワーク

Looking for a better fit? An Incremental Learning Multimodal Object Referencing Framework adapting to Individual Drivers ( http://arxiv.org/abs/2401.16123v2 )

ライセンス: Link先を確認
Amr Gomaa and Guillermo Reyes and Michael Feld and Antonio Kr\"uger(参考訳) 自動車産業の、自動および半自動車両への急速な進歩は、タッチベースや音声コマンドシステムのような従来の車両インタラクションの手法を、車両外の物体を参照するなど、幅広い非運転関連のタスクに不適当にしている。 その結果、運転時のより適切な相互作用として、ジェスチャー入力(手、視線、頭ポーズジェスチャーなど)へと研究が移行した。 しかし,運転の動的特性と個人差により,運転者のジェストラル入力性能には有意な差がある。 理論上、この固有の変数は、データ駆動機械学習モデルによって緩和される可能性があるが、一般的な方法論は、オブジェクト参照のための制約付きシングルインスタンストレーニングモデルに傾いている。 これらのモデルでは、個々のドライバーの発散挙動や様々な運転シナリオに継続的に適応する能力が限られている。 そこで本稿では,オブジェクトの駆動と参照という2つのタスクに携わるドライバの振る舞いや特徴に適応する,新しい回帰に基づく漸進的学習手法である‘textit{IcRegress} を提案する。 ドライバエクスペリエンス,安全性,利便性を高めるために,生涯学習を継続することで,マルチモーダルなジェストラルインタフェースをよりパーソナライズし,適応可能なソリューションを提案する。 提案手法は車外オブジェクト参照のユースケースを用いて評価され,手作業,運転経験,運転条件など,さまざまなドライバ特性にまたがる1つの訓練モデルに適応したインクリメンタルラーニングモデルの優位性を強調した。 最後に、再現性を促進し、デプロイを容易にし、さらなる研究を促進するために、我々は、オープンソースフレームワークとして、 \url{https://github.com/amrgomaaelhady/IcRegress}でアプローチを提供しています。

The rapid advancement of the automotive industry towards automated and semi-automated vehicles has rendered traditional methods of vehicle interaction, such as touch-based and voice command systems, inadequate for a widening range of non-driving related tasks, such as referencing objects outside of the vehicle. Consequently, research has shifted toward gestural input (e.g., hand, gaze, and head pose gestures) as a more suitable mode of interaction during driving. However, due to the dynamic nature of driving and individual variation, there are significant differences in drivers' gestural input performance. While, in theory, this inherent variability could be moderated by substantial data-driven machine learning models, prevalent methodologies lean towards constrained, single-instance trained models for object referencing. These models show a limited capacity to continuously adapt to the divergent behaviors of individual drivers and the variety of driving scenarios. To address this, we propose \textit{IcRegress}, a novel regression-based incremental learning approach that adapts to changing behavior and the unique characteristics of drivers engaged in the dual task of driving and referencing objects. We suggest a more personalized and adaptable solution for multimodal gestural interfaces, employing continuous lifelong learning to enhance driver experience, safety, and convenience. Our approach was evaluated using an outside-the-vehicle object referencing use case, highlighting the superiority of the incremental learning models adapted over a single trained model across various driver traits such as handedness, driving experience, and numerous driving conditions. Finally, to facilitate reproducibility, ease deployment, and promote further research, we offer our approach as an open-source framework at \url{https://github.com/amrgomaaelhady/IcRegress}.
翻訳日:2024-02-08 19:12:59 公開日:2024-02-07
# lil'hdoc:小さな閾値ギャップ下で腕を識別するアルゴリズム

lil'HDoC: An Algorithm for Good Arm Identification under Small Threshold Gap ( http://arxiv.org/abs/2401.15879v2 )

ライセンス: Link先を確認
Tzu-Hsien Tsai, Yun-Da Tsai, Shou-De Lin(参考訳) グッドアーム識別(GAI)は、単一の学習者が良い腕と特定されるとすぐに腕を出力する純粋探索バンディット問題である。 良い腕は、与えられたしきい値以上の期待報酬を持つアームとして定義される。 本稿では,腕の期待報酬と与えられたしきい値との間の距離を示す,小さなしきい値ギャップの下でのgai問題に焦点を当てる。 我々は,HDoCアルゴリズムの総サンプリング複雑性を大幅に改善するLil'HDoCと呼ばれる新しいアルゴリズムを提案する。 Lil'HDoCの最初の$\lambda$出力アームのサンプルの複雑さは、期待される報酬と閾値の間の距離が小さい場合を除いて、元のHDoCアルゴリズムによって境界づけられていることを示す。 広範な実験により,本アルゴリズムが合成データと実世界データの両方において最先端アルゴリズムよりも優れていることを確認した。

Good arm identification (GAI) is a pure-exploration bandit problem in which a single learner outputs an arm as soon as it is identified as a good arm. A good arm is defined as an arm with an expected reward greater than or equal to a given threshold. This paper focuses on the GAI problem under a small threshold gap, which refers to the distance between the expected rewards of arms and the given threshold. We propose a new algorithm called lil'HDoC to significantly improve the total sample complexity of the HDoC algorithm. We demonstrate that the sample complexity of the first $\lambda$ output arm in lil'HDoC is bounded by the original HDoC algorithm, except for one negligible term, when the distance between the expected reward and threshold is small. Extensive experiments confirm that our algorithm outperforms the state-of-the-art algorithms in both synthetic and real-world datasets.
翻訳日:2024-02-08 19:12:25 公開日:2024-02-07
# 術前-術中画像融合法による腹腔鏡下肝切除における拡張現実の客観的比較

An objective comparison of methods for augmented reality in laparoscopic liver resection by preoperative-to-intraoperative image fusion ( http://arxiv.org/abs/2401.15753v2 )

ライセンス: Link先を確認
Sharib Ali, Yamid Espinel, Yueming Jin, Peng Liu, Bianca G\"uttner, Xukun Zhang, Lihua Zhang, Tom Dowrick, Matthew J. Clarkson, Shiting Xiao, Yifan Wu, Yijun Yang, Lei Zhu, Dai Sun, Lan Li, Micha Pfeiffer, Shahid Farid, Lena Maier-Hein, Emmanuel Buc, Adrien Bartoli(参考訳) 腹腔鏡下肝切除のための拡張現実(Augmented reality)は、腹腔鏡下画像上に投射することで、外科医が肝臓内に埋め込まれた腫瘍や血管をローカライズできる可視化モードである。 CTまたはMRIデータから抽出した術前3Dモデルを術中腹腔鏡画像に登録する。 3D-2D融合の観点では、ほとんどのアルゴリズムは登録をガイドするために解剖学的ランドマークを使用している。 これらのランドマークには、肝臓の下尾根、ファルシフォーム靭帯、閉塞輪郭などがある。 通常は、腹腔鏡画像と3Dモデルの両方で手動で特徴付けられるが、これは時間がかかり、経験のないユーザーが行うとエラーを含むことがある。 そのため、手術室で拡張現実を効果的に使用できるように、このプロセスを自動化する必要がある。 今回我々は,医療画像・コンピュータ支援介入(miccai 2022)会議において,これらのランドマークを自動的に検出し,登録に利用する可能性を検証したp2ilf(preoperative-intraoperative laparoscopic fusion challenge)を開催する。 課題は2つのタスクに分けられた。 1)2次元及び3次元ランドマーク検出タスクと方法 2) 3D-2D 登録業務。 167枚の腹腔鏡画像と9例の術前3Dモデルによるトレーニングデータと、対応する2Dおよび3Dランドマークアノテーションが得られた。 4ヶ国から計6チームが参加し, 提案手法を16枚の画像と2つの術前3Dモデルで評価した。 すべてのチームが2Dおよび3Dランドマークセグメンテーションタスクのためのディープラーニングベースの方法と、登録タスクのための異なるレンダリングベースの方法を提案した。 実験結果に基づいて,本分野の研究の現在の限界と今後の方向性を決定する3つの重要な仮説を提案する。

Augmented reality for laparoscopic liver resection is a visualisation mode that allows a surgeon to localise tumours and vessels embedded within the liver by projecting them on top of a laparoscopic image. Preoperative 3D models extracted from CT or MRI data are registered to the intraoperative laparoscopic images during this process. In terms of 3D-2D fusion, most of the algorithms make use of anatomical landmarks to guide registration. These landmarks include the liver's inferior ridge, the falciform ligament, and the occluding contours. They are usually marked by hand in both the laparoscopic image and the 3D model, which is time-consuming and may contain errors if done by a non-experienced user. Therefore, there is a need to automate this process so that augmented reality can be used effectively in the operating room. We present the Preoperative-to-Intraoperative Laparoscopic Fusion Challenge (P2ILF), held during the Medical Imaging and Computer Assisted Interventions (MICCAI 2022) conference, which investigates the possibilities of detecting these landmarks automatically and using them in registration. The challenge was divided into two tasks: 1) A 2D and 3D landmark detection task and 2) a 3D-2D registration task. The teams were provided with training data consisting of 167 laparoscopic images and 9 preoperative 3D models from 9 patients, with the corresponding 2D and 3D landmark annotations. A total of 6 teams from 4 countries participated, whose proposed methods were evaluated on 16 images and two preoperative 3D models from two patients. All the teams proposed deep learning-based methods for the 2D and 3D landmark segmentation tasks and differentiable rendering-based methods for the registration task. Based on the experimental outcomes, we propose three key hypotheses that determine current limitations and future directions for research in this domain.
翻訳日:2024-02-08 19:12:09 公開日:2024-02-07
# vivim:医療用ビデオオブジェクトセグメンテーションのためのビデオビジョンmamba

Vivim: a Video Vision Mamba for Medical Video Object Segmentation ( http://arxiv.org/abs/2401.14168v2 )

ライセンス: Link先を確認
Yijun Yang, Zhaohu Xing, Lei Zhu(参考訳) 従来の畳み込みニューラルネットワークは受容場が限られているが、トランスフォーマーベースのネットワークは計算複雑性の観点から長期的な依存関係を構築するのに中途半端である。 このようなボトルネックは、ビデオ分析タスクで長いビデオシーケンスを処理する場合に大きな課題となる。 最近では、mambaで有名な効率的なハードウェアアウェアデザインのステートスペースモデル(ssm)が長いシーケンスモデリングで素晴らしい成果を上げており、多くの視覚タスクでディープニューラルネットワークの開発が容易になっている。 ビデオフレームにおける利用可能なヒントをよりよく捉えるため,本稿ではvivimという医療用ビデオオブジェクトセグメンテーションタスクのための汎用的なビデオビジョンmambaベースのフレームワークを提案する。 我々のビビムは、設計したテンポラルマンバブロックにより、長期時空間表現を様々なスケールのシーケンスに効果的に圧縮することができる。 既存のビデオレベルのトランスフォーマー方式と比較すると, 高速性能に優れたセグメンテーション性能を維持している。 大腸内視鏡ビデオにおける超音波映像における乳腺病変分画とポリープ分画の広範な実験により,vivimの有用性と有効性が示された。 コードは、https://github.com/scott-yjyang/Vivim.comで入手できる。

Traditional convolutional neural networks have a limited receptive field while transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. Such the bottleneck poses a significant challenge when processing long video sequences in video analysis tasks. Very recently, the state space models (SSMs) with efficient hardware-aware designs, famous by Mamba, have exhibited impressive achievements in long sequence modeling, which facilitates the development of deep neural networks on many vision tasks. To better capture available cues in video frames, this paper presents a generic Video Vision Mamba-based framework for medical video object segmentation tasks, named Vivim. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales by our designed Temporal Mamba Block. Compared to existing video-level Transformer-based methods, our model maintains excellent segmentation results with better speed performance. Extensive experiments on breast lesion segmentation in ultrasound videos and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim. The code is available at: https://github.com/scott-yjyang/Vivim.
翻訳日:2024-02-08 19:10:38 公開日:2024-02-07
# 大規模言語モデル時代の進化的計算:調査とロードマップ

Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap ( http://arxiv.org/abs/2401.10034v2 )

ライセンス: Link先を確認
Xingyu Wu, Sheng-hao Wu, Jibin Wu, Liang Feng, Kay Chen Tan(参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらしただけでなく、様々な領域にその力を拡大し、人工知能への大きな一歩を踏み出した。 LLMと進化的アルゴリズム(EA)の相互作用は、目的や方法論が異なるにも拘わらず、複雑な問題に適用可能性の共通の追求を共有している。 一方、EAは、ブラックボックス設定下でのLLMのさらなる拡張のための最適化フレームワークを提供し、柔軟性のあるグローバル検索能力を持つLLMに権限を与えることができる。 一方、LLMに固有の豊富なドメイン知識により、EAはよりインテリジェントな検索を行うことができる。 さらに、LLMのテキスト処理と生成能力は、幅広いタスクにまたがってEAをデプロイするのに役立ちます。 本稿では,これらの相補的優位性に基づいて,相互インスピレーションを LLM 強化 EA と EA 強化 LLM の2つの主要経路に分類する,徹底的なレビューと,先進的なロードマップを提供する。 ニューラルネットワーク探索、コード生成、ソフトウェアエンジニアリング、および様々な生成タスクなど、さまざまなシナリオにおけるLLMとEAの融合を実証するために、いくつかの統合されたシナジー手法が導入された。 LLM時代のEA研究に焦点をあてた最初の総合的なレビューとして、本論文はLLMとEAの協調可能性を理解するための基礎的な足場を提供する。 注意深い分類と批判的分析により,我々はこれら2つの強力なパラダイムの学際研究における現在進行中の談話に寄与する。 特定された課題と今後の方向性は、この革新的なコラボレーションの可能性を解き放ち、最適化と人工知能の進歩を促進することを目的とした研究者や実践者へのガイダンスを提供する。

Large Language Models (LLMs) have not only revolutionized natural language processing but also extended their prowess to various domains, marking a significant stride towards artificial general intelligence. The interplay between LLMs and Evolutionary Algorithms (EAs), despite differing in objectives and methodologies, share a common pursuit of applicability in complex problems. Meanwhile, EA can provide an optimization framework for LLM's further enhancement under black-box settings, empowering LLM with flexible global search capacities. On the other hand, the abundant domain knowledge inherent in LLMs could enable EA to conduct more intelligent searches. Furthermore, the text processing and generative capabilities of LLMs would aid in deploying EAs across a wide range of tasks. Based on these complementary advantages, this paper provides a thorough review and a forward-looking roadmap, categorizing the reciprocal inspiration into two main avenues: LLM-enhanced EA and EA-enhanced LLM. Some integrated synergy methods are further introduced to exemplify the amalgamation of LLMs and EAs in diverse scenarios, including neural architecture search, code generation, software engineering, and various generation tasks. As the first comprehensive review focused on the EA research in the era of LLMs, this paper provides a foundational stepping stone for understanding the collaborative potential of LLMs and EAs. By meticulous categorization and critical analysis, we contribute to the ongoing discourse on the cross-disciplinary study of these two powerful paradigms. The identified challenges and future directions offer guidance for researchers and practitioners aiming to unlock the full potential of this innovative collaboration in propelling advancements in optimization and artificial intelligence.
翻訳日:2024-02-08 19:10:12 公開日:2024-02-07
# スーパーポイントグラフクラスタリングとしてのスケーラブルな3Dパノプティクスセグメンテーション

Scalable 3D Panoptic Segmentation As Superpoint Graph Clustering ( http://arxiv.org/abs/2401.06704v2 )

ライセンス: Link先を確認
Damien Robert, Hugo Raguet, Loic Landrieu(参考訳) 本稿では,この課題をスケーラブルなグラフクラスタリング問題として再定義することにより,大規模3次元点雲のパノプティカルセグメンテーションを効率的に行う方法を提案する。 このアプローチは、ローカルな補助タスクのみを使用してトレーニングできるため、トレーニング中のリソース集約型インスタンスマッチングステップが不要になる。 さらに,我々の定式化はスーパーポイントパラダイムに容易に適応でき,効率も向上する。 これにより、モデルは単一の推論で数百万のポイントと数千のオブジェクトでシーンを処理できます。 この方法はsuperclusterと呼ばれ、2つの屋内スキャンデータセットで最新のpanopticセグメンテーション性能を実現している。s3dis area~5の50.1$ pq (+7.8$)、scannetv2の58.7$ pq (+25.2$)である。 また、KITTI-360 と DALES という2つの大規模モバイルマッピングベンチマークの最先端を初めて設定した。 たったの209ドル(約2万2000円)のパラメータで、私たちのモデルはベストコンペティングメソッドの30ドル(約3万3000円)以上もします。 私たちのコードと事前訓練されたモデルは、https://github.com/drprojects/superpoint_transformer.comで利用可能です。

We introduce a highly efficient method for panoptic segmentation of large 3D point clouds by redefining this task as a scalable graph clustering problem. This approach can be trained using only local auxiliary tasks, thereby eliminating the resource-intensive instance-matching step during training. Moreover, our formulation can easily be adapted to the superpoint paradigm, further increasing its efficiency. This allows our model to process scenes with millions of points and thousands of objects in a single inference. Our method, called SuperCluster, achieves a new state-of-the-art panoptic segmentation performance for two indoor scanning datasets: $50.1$ PQ ($+7.8$) for S3DIS Area~5, and $58.7$ PQ ($+25.2$) for ScanNetV2. We also set the first state-of-the-art for two large-scale mobile mapping benchmarks: KITTI-360 and DALES. With only $209$k parameters, our model is over $30$ times smaller than the best-competing method and trains up to $15$ times faster. Our code and pretrained models are available at https://github.com/drprojects/superpoint_transformer.
翻訳日:2024-02-08 19:09:15 公開日:2024-02-07
# 大規模言語モデルによる多対多多言語機械翻訳の促進に向けて

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models ( http://arxiv.org/abs/2401.05861v2 )

ライセンス: Link先を確認
Pengzhi Gao, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) 機械翻訳の訓練パラダイムは、広範囲な並列コーパスを用いたニューラルマシン翻訳(nmt)モデルから、高品質翻訳ペアを用いた多言語大言語モデル(llm)の指導微調整へと徐々にシフトしている。 本稿では,ゼロショット翻訳方向に着目したllmの多対多の多言語翻訳の促進に焦点をあてる。 我々は、ファインタニングで採用される即時戦略がゼロショット翻訳に不可欠であることを示し、異なる言語間の表現ギャップを埋め、ゼロショット翻訳性能を向上させるために、言語間整合正則化(XConST)を導入する。 XConSTは新しい手法ではなく、LLMで微調整された翻訳命令に適応したCrossConST(Gao et al., 2023a)のバージョンである。 ALMA (Xu et al., 2023), Tower (Team, 2024), LLaMA-2 (Touvron et al., 2023) による実験結果から, 本手法は翻訳性能を一貫して改善することが示された。 実装はhttps://github.com/gpengzhi/CrossConST-LLMで公開しています。

The training paradigm for machine translation has gradually shifted, from learning neural machine translation (NMT) models with extensive parallel corpora to instruction finetuning on multilingual large language models (LLMs) with high-quality translation pairs. In this paper, we focus on boosting many-to-many multilingual translation of LLMs with an emphasis on zero-shot translation directions. We demonstrate that prompt strategies adopted during finetuning are crucial to zero-shot translation and introduce a cross-lingual consistency regularization, XConST, to bridge the representation gap among different languages and improve zero-shot translation performance. XConST is not a new method, but a version of CrossConST (Gao et al., 2023a) adapted for translation instruction finetuning with LLMs. Experimental results on ALMA (Xu et al., 2023), Tower (Team, 2024), and LLaMA-2 (Touvron et al., 2023) show that our approach consistently improves translation performance. Our implementations are available at https://github.com/gpengzhi/CrossConST-LLM.
翻訳日:2024-02-08 19:08:48 公開日:2024-02-07
# 基礎モデル学習における効果的なフェデレーション学習手法の検討

A Survey on Efficient Federated Learning Methods for Foundation Model Training ( http://arxiv.org/abs/2401.04472v2 )

ライセンス: Link先を確認
Herbert Woisetschl\"ager, Alexander Isenko, Shiqiang Wang, Ruben Mayer, Hans-Arno Jacobsen(参考訳) フェデレーテッド・ラーニング(FL)は、多数のクライアントにわたるプライバシー保護協調トレーニングを促進するための確立した技術となっている。 しかしながら、flに対する新たなアプローチでは、小さなディープラーニングモデルのみに関わる貢献を議論し、フルモデルのクライアントへのトレーニングに注力することが多い。 Foundation Models (FM)の後、多くのディープラーニングアプリケーションでは現実が異なる。 通常、FMはすでに様々なタスクで事前トレーニングされており、完全なモデルトレーニングよりもはるかに小さなデータセットで特定の下流タスクに微調整することができる。 しかし、このようなデータセットへのアクセスはしばしば困難である。 その設計上、FLはデータサイロを開くのに役立つ。 本稿では,flシステムにおけるfms活用のための重要な要素である計算・通信効率に着目した新しい分類法を提案する。 本稿では、FLアプリケーションにおけるパラメータ効率細調整(PEFT)の利点と欠点について論じ、FLフレームワークのFM対応性について詳しく検討し、FLにおける生成モデルの評価方法や、プライバシとPEFTの相互運用に関する今後の研究機会を提供する。

Federated Learning (FL) has become an established technique to facilitate privacy-preserving collaborative training across a multitude of clients. However, new approaches to FL often discuss their contributions involving small deep-learning models only and focus on training full models on clients. In the wake of Foundation Models (FM), the reality is different for many deep learning applications. Typically, FMs have already been pre-trained across a wide variety of tasks and can be fine-tuned to specific downstream tasks over significantly smaller datasets than required for full model training. However, access to such datasets is often challenging. By its design, FL can help to open data silos. With this survey, we introduce a novel taxonomy focused on computational and communication efficiency, the vital elements to make use of FMs in FL systems. We discuss the benefits and drawbacks of parameter-efficient fine-tuning (PEFT) for FL applications, elaborate on the readiness of FL frameworks to work with FMs and provide future research opportunities on how to evaluate generative models in FL as well as the interplay of privacy and PEFT.
翻訳日:2024-02-08 19:08:27 公開日:2024-02-07
# ニーズを良く把握する:分析推論によるLLMによるマーケティング需要の構造的理解に向けて

Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs ( http://arxiv.org/abs/2401.04319v2 )

ライセンス: Link先を確認
Junjie Wang, Dan Yang, Binbin Hu, Yue Shen, Ziqi Liu, Wen Zhang, Jinjie Gu, Zhiqiang Zhang(参考訳) 本稿では,非専門家のマーケターが,自然言語形式の要求のみに応じてターゲットユーザを選択できる,新たなユーザターゲティング手法について検討する。 この問題の鍵は、自然言語を実用的な構造化論理言語、すなわちマーケター要求の構造化された理解に変換する方法である。 大規模言語モデル(LLM)の印象的な自然言語処理能力を考えると,LLMを活用してこの問題を解決する。 過去の研究では、LLMの推論能力は、チェーン・オブ・シンクレット(CoT)のプロンプトによって効果的に向上できることが示されている。 既存のメソッドには、(1)単純な"Let's Think by Step"の呪文を使うか、あるいはプロンプトと質問の互換性を考慮せずにデモで固定例を提供するか、LLMを構造化言語変換のような複雑な推論タスクでは非効率にする。 2) 従来手法は, 工業的シナリオには適さない, クローズドソースモデルや過大なモデルで実装されることが多い。 そこで本研究では,ARALLM (Analogical Reasoning Augmented Large Language Models) とPrompting (Analogical Reasoning based Prompting) とReasoning-Augmented Multi-Task Model Distillation の2つのモジュールを提案する。

In this paper, we explore a new way for user targeting, where non-expert marketers could select their target users solely given demands in natural language form. The key to this issue is how to transform natural languages into practical structured logical languages, i.e., the structured understanding of marketer demands. Considering the impressive natural language processing ability of large language models (LLMs), we try to leverage LLMs to solve this issue. Past research indicates that the reasoning ability of LLMs can be effectively enhanced through chain-of-thought (CoT) prompting. But existing methods still have some limitations: (1) Previous methods either use simple "Let's think step by step" spells or provide fixed examples in demonstrations without considering compatibility between prompts and questions, making LLMs ineffective in some complex reasoning tasks such as structured language transformation. (2) Previous methods are often implemented in closed-source models or excessively large models, which is not suitable in industrial practical scenarios. Based on these, we propose ARALLM (i.e., Analogical Reasoning Augmented Large Language Models) consisting of two modules: Analogical Reasoning based Prompting and Reasoning-Augmented Multi-Task Model Distillation.
翻訳日:2024-02-08 19:08:06 公開日:2024-02-07
# apt-pipe:ソーシャルコンピューティングデータアノテーションのための自動プロンプトチューニングツール

APT-Pipe: An Automatic Prompt-Tuning Tool for Social Computing Data Annotation ( http://arxiv.org/abs/2402.01697v2 )

ライセンス: Link先を確認
Yiming Zhu, Zhizhuo Yin, Ehsan-Ul Haq, Lik-Hang Lee, Gareth Tyson, Pan Hui(参考訳) 最近の研究は、ソーシャルコンピューティングテキストにラベルアノテーションを実行するための、ChatGPTのようなLLMアプリケーションの可能性を強調している。 しかし、パフォーマンスが入力プロンプトの品質にかかっていることは、すでによく知られている。 これに対処するために、プロンプトのチューニング -- プロンプトの品質を改善するためのテクニックとガイドライン -- に関する多くの研究が行われてきた。 しかし、これらは主に手動の労力と注釈付きデータセットの事前知識に依存している。 この制限に対処するために,自動プロンプトチューニングパイプラインであるAPT-Pipeを提案する。 APT-Pipeは、任意のデータセット上でChatGPTのテキスト分類性能を高めるために、プロンプトを自動的にチューニングすることを目的としている。 APT-Pipeを実装し、12の異なるテキスト分類データセットでテストする。 APT-Pipeによって調整されたプロンプトは、ChatGPTが12つの実験データセットのうち9つの重み付きF1スコアを達成するのに役立つ。 さらに、APT-Pipeの柔軟性をフレームワークとして強調し、追加のチューニングメカニズムをサポートするためにどのように拡張できるかを示す。

Recent research has highlighted the potential of LLM applications, like ChatGPT, for performing label annotation on social computing text. However, it is already well known that performance hinges on the quality of the input prompts. To address this, there has been a flurry of research into prompt tuning -- techniques and guidelines that attempt to improve the quality of prompts. Yet these largely rely on manual effort and prior knowledge of the dataset being annotated. To address this limitation, we propose APT-Pipe, an automated prompt-tuning pipeline. APT-Pipe aims to automatically tune prompts to enhance ChatGPT's text classification performance on any given dataset. We implement APT-Pipe and test it across twelve distinct text classification datasets. We find that prompts tuned by APT-Pipe help ChatGPT achieve higher weighted F1-score on nine out of twelve experimented datasets, with an improvement of 7.01% on average. We further highlight APT-Pipe's flexibility as a framework by showing how it can be extended to support additional tuning mechanisms.
翻訳日:2024-02-08 18:59:53 公開日:2024-02-07
# 教育のためのジェネレーティブAI(GAIED):進歩、機会、課題

Generative AI for Education (GAIED): Advances, Opportunities, and Challenges ( http://arxiv.org/abs/2402.01580v2 )

ライセンス: Link先を確認
Paul Denny, Sumit Gulwani, Neil T. Heffernan, Tanja K\"aser, Steven Moore, Anna N. Rafferty, Adish Singla(参考訳) この調査の論文は、neurips 2023 conferenceで著者らが主催したgaied("guide"と発音する)ワークショップから発展したものだ。 研究者,教育者,実践者たちを集結させ,教育向上のための生成型aiの可能性を探るためのコミュニティ構築活動の一環として,gaiedワークショップを組織した。 本稿では,ワークショップ活動の概要と,GAIED領域における今後の研究方向性について紹介する。

This survey article has grown out of the GAIED (pronounced "guide") workshop organized by the authors at the NeurIPS 2023 conference. We organized the GAIED workshop as part of a community-building effort to bring together researchers, educators, and practitioners to explore the potential of generative AI for enhancing education. This article aims to provide an overview of the workshop activities and highlight several future research directions in the area of GAIED.
翻訳日:2024-02-08 18:59:14 公開日:2024-02-07
# 大規模言語モデルのための連続学習:調査

Continual Learning for Large Language Models: A Survey ( http://arxiv.org/abs/2402.01364v2 )

ライセンス: Link先を確認
Tongtong Wu, Linhao Luo, Yuan-Fang Li, Shirui Pan, Thuy-Trang Vu, Gholamreza Haffari(参考訳) 大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。 しかし、llmに新しいスキルを与え、急速に進化する人間の知識を最新に保つためには、更新が必要である。 本稿では,LLMの連続学習に関する最近の研究について述べる。 LLMの独特な性質のため、連続的な事前学習、命令チューニング、アライメントを含む、新しい多段階分類方式で継続学習手法をカタログ化する。 llmの連続学習と,より小さなモデルで使用される単純な適応法と,検索型生成やモデル編集などの拡張戦略を比較した。 さらに、ベンチマークと評価に関する議論から、この重要なタスクに対するいくつかの課題と今後の作業の方向性を明らかにする。

Large language models (LLMs) are not amenable to frequent re-training, due to high training costs arising from their massive scale. However, updates are necessary to endow LLMs with new skills and keep them up-to-date with rapidly evolving human knowledge. This paper surveys recent works on continual learning for LLMs. Due to the unique nature of LLMs, we catalog continue learning techniques in a novel multi-staged categorization scheme, involving continual pretraining, instruction tuning, and alignment. We contrast continual learning for LLMs with simpler adaptation methods used in smaller models, as well as with other enhancement strategies like retrieval-augmented generation and model editing. Moreover, informed by a discussion of benchmarks and evaluation, we identify several challenges and future work directions for this crucial task.
翻訳日:2024-02-08 18:59:05 公開日:2024-02-07
# フォワードバックワードメッセージパッシングを用いた微分可能部分観測可能な一般化線形モデル

A Differentiable Partially Observable Generalized Linear Model with Forward-Backward Message Passing ( http://arxiv.org/abs/2402.01263v2 )

ライセンス: Link先を確認
Chengrui Li, Weihan Li, Yule Wang, and Anqi Wu(参考訳) 部分的に観測可能な一般化線形モデル(POGLM)は、既存の隠れニューロンを仮定して神経接続を理解する強力なツールである。 スパイクトレインは可視ニューロンからのみ記録されるため、既存の研究では変分推論を用いてPOGLMを学習する一方、この潜伏変数モデルを学ぶのが困難である。 主な問題として,(1) サンプルポアソン隠れスパイクカウントは, VI における経路勾配推定器の使用を妨げること,(2) 既存の変分モデルの設計は表現性や時間効率に悪影響を及ぼさないこと,などがあげられる。 本稿では,(1)既存の作業におけるスコア関数勾配推定器よりもパスワイズ勾配推定器を良好に使用できる,新しい微分可能な poglm を提案する。 2) 変分モデルに対するフォワード・バック・メッセージ・パッシング・サンプリング手法を提案する。 包括的実験により、私たちの前向きメッセージパッシングによる差別化可能なPOGLMは、1つの合成データセットと2つの実世界のデータセット上でより優れたパフォーマンスをもたらすことが示された。 さらに,本手法はより解釈可能なパラメータとなり,神経科学におけるその意義を強調する。

The partially observable generalized linear model (POGLM) is a powerful tool for understanding neural connectivity under the assumption of existing hidden neurons. With spike trains only recorded from visible neurons, existing works use variational inference to learn POGLM meanwhile presenting the difficulty of learning this latent variable model. There are two main issues: (1) the sampled Poisson hidden spike count hinders the use of the pathwise gradient estimator in VI; and (2) the existing design of the variational model is neither expressive nor time-efficient, which further affects the performance. For (1), we propose a new differentiable POGLM, which enables the pathwise gradient estimator, better than the score function gradient estimator used in existing works. For (2), we propose the forward-backward message-passing sampling scheme for the variational model. Comprehensive experiments show that our differentiable POGLMs with our forward-backward message passing produce a better performance on one synthetic and two real-world datasets. Furthermore, our new method yields more interpretable parameters, underscoring its significance in neuroscience.
翻訳日:2024-02-08 18:58:51 公開日:2024-02-07
# 事前トレーニングとドメイン適応のためのトークン化を最大限に活用する

Getting the most out of your tokenizer for pre-training and domain adaptation ( http://arxiv.org/abs/2402.01035v2 )

ライセンス: Link先を確認
Gautier Dagan, Gabriel Synnaeve, Baptiste Rozi\`ere(参考訳) トークン化は、現代のllmの未熟でしばしば無視されるコンポーネントである。 ほとんどの出版物は、トークン化を最適化するためにアブレーションや分析を行うことなく、他のモデルからしばしば借用される全ての実験に単一のトークン化器を使用する。 さらに、ベースモデルを微調整する場合、トークン化器は一般に変更されない。 本稿では,トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータが,モデルの生成速度,有効コンテキストサイズ,メモリ使用量,ダウンストリーム性能に著しく影響を及ぼすことを示す。 我々は、特殊なByte-Pair Encoding code tokenizerを訓練し、HumanEvalやMBPPなどのコード生成タスクにおけるトークン設計がLLMの性能に与える影響を広範囲に改善し、事前訓練されたLLMにおけるトークン設計のハイパーパラメータ選択と切り替えを推奨する。 スクラッチからトレーニングしたモデルと事前トレーニングされたモデルで実験を行い、幅広いユースケースへの適用性を検証する。 我々は,500億以上のトークンを微調整すると,事前学習したLCMのトークン化を専門化して,生成速度と有効コンテキストサイズを大きく向上させることができることを発見した。

Tokenization is an understudied and often neglected component of modern LLMs. Most published works use a single tokenizer for all experiments, often borrowed from another model, without performing ablations or analysis to optimize tokenization. Moreover, the tokenizer is generally kept unchanged when fine-tuning a base model. In this paper, we show that the size, pre-tokenization regular expression, and training data of a tokenizer can significantly impact the model's generation speed, effective context size, memory usage, and downstream performance. We train specialized Byte-Pair Encoding code tokenizers, and conduct extensive ablations on the impact of tokenizer design on the performance of LLMs for code generation tasks such as HumanEval and MBPP, and provide recommendations for tokenizer hyper-parameters selection and switching the tokenizer in a pre-trained LLM. We perform our experiments on models trained from scratch and from pre-trained models, verifying their applicability to a wide range of use-cases. We find that when fine-tuning on more than 50 billion tokens, we can specialize the tokenizer of a pre-trained LLM to obtain large gains in generation speed and effective context size.
翻訳日:2024-02-08 18:58:31 公開日:2024-02-07
# 相関誤差を用いた多変量確率時系列予測

Multivariate Probabilistic Time Series Forecasting with Correlated Errors ( http://arxiv.org/abs/2402.01000v2 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Lijun Sun(参考訳) 誤差間の相関のモデル化は、確率時系列予測における予測の不確かさをいかに正確に定量化できるかに密接に関係している。 近年の多変量モデルでは,誤差間の同時相関を考慮し,統計的単純性のために時間的に独立しているという仮定が一般的である。 しかし、実世界の観測はしばしばこの仮定から逸脱し、エラーは通常、時間的に相関した共変量の排除のような様々な要因により、実質的な自己相関を示す。 本研究では,誤差の自己相関を効果的に特徴付け可能な共分散行列の低ランクプラス対角パラメータ化に基づく効率的な手法を提案する。 提案手法にはいくつかの望ましい性質がある: 複雑性は時系列数とスケールせず、その結果の共分散は予測の校正に利用でき、ガウス分布誤差を持つ任意のモデルとシームレスに統合できる。 これらの特性をgpvarとtransformerという2つの異なるニューラル予測モデルを用いて実証する。 実験により,複数の実世界のデータセット上での予測精度の向上と不確実性定量化の質について,本手法の有効性を確認した。

Modeling the correlations among errors is closely associated with how accurately the model can quantify predictive uncertainty in probabilistic time series forecasting. Recent multivariate models have made significant progress in accounting for contemporaneous correlations among errors, while a common assumption on these errors is that they are temporally independent for the sake of statistical simplicity. However, real-world observations often deviate from this assumption, since errors usually exhibit substantial autocorrelation due to various factors such as the exclusion of temporally correlated covariates. In this work, we propose an efficient method, based on a low-rank-plus-diagonal parameterization of the covariance matrix, which can effectively characterize the autocorrelation of errors. The proposed method possesses several desirable properties: the complexity does not scale with the number of time series, the resulting covariance can be used for calibrating predictions, and it can seamlessly integrate with any model with Gaussian-distributed errors. We empirically demonstrate these properties using two distinct neural forecasting models-GPVar and Transformer. Our experimental results confirm the effectiveness of our method in enhancing predictive accuracy and the quality of uncertainty quantification on multiple real-world datasets.
翻訳日:2024-02-08 18:58:08 公開日:2024-02-07
# 大規模言語モデルに基づくファジィ技術:調査

Large Language Models Based Fuzzing Techniques: A Survey ( http://arxiv.org/abs/2402.00350v2 )

ライセンス: Link先を確認
Linghan Huang, Peizhou Zhao, Huaming Chen, Lei Ma(参考訳) ソフトウェアが重要な役割を果たす現代では、ソフトウェアセキュリティと脆弱性分析がソフトウェア開発に不可欠になっている。 効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。 さらに、LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進され、目覚ましい性能を示している。 既存のファジングテスト技術は完全に自動化されておらず、ソフトウェア脆弱性が進化し続けることを考えると、大規模な言語モデルに基づいたファジングテストを採用する傾向が強まっている。 この調査は、LLMとソフトウェアテストのファジングテストを融合させるアプローチの体系的な概要を提供する。 本稿では, LLM, ファジリング試験, ファジリング試験の3分野における文献の統計的解析と議論を行い, 2024年までの最先端手法を要約した。 また,今後,llmsが生成するファジングテスト技術が広く普及し,応用される可能性についても調査した。

In the modern era where software plays a pivotal role, software security and vulnerability analysis have become essential for software development. Fuzzing test, as an efficient software testing method, are widely used in various domains. Moreover, the rapid development of Large Language Models (LLMs) has facilitated their application in the field of software testing, demonstrating remarkable performance. Considering that existing fuzzing test techniques are not entirely automated and software vulnerabilities continue to evolve, there is a growing trend towards employing fuzzing test generated based on large language models. This survey provides a systematic overview of the approaches that fuse LLMs and fuzzing tests for software testing. In this paper, a statistical analysis and discussion of the literature in three areas, namely LLMs, fuzzing test, and fuzzing test generated based on LLMs, are conducted by summarising the state-of-the-art methods up until 2024. Our survey also investigates the potential for widespread deployment and application of fuzzing test techniques generated by LLMs in the future.
翻訳日:2024-02-08 18:57:47 公開日:2024-02-07
# 大規模aiモデルによるマルチメディアの検出:調査

Detecting Multimedia Generated by Large AI Models: A Survey ( http://arxiv.org/abs/2402.00045v3 )

ライセンス: Link先を確認
Li Lin, Neeraj Gupta, Yue Zhang, Hainan Ren, Chun-Hao Liu, Feng Ding, Xin Wang, Xin Li, Luisa Verdoliva, Shu Hu(参考訳) 大規模AIモデル(LAIM)の急速な進歩、特に拡散モデルと大規模言語モデルは、AI生成マルチメディアが日々のさまざまな側面にますます統合される新しい時代を象徴している。 多くの分野において有益であるが、この内容は潜在的な誤用、社会的破壊、倫理的懸念などの重大なリスクをもたらす。 その結果、LAIMによるマルチメディアの検出が重要となり、関連する研究が顕著に増加した。 それにもかかわらず、LAIM生成マルチメディアの検出に特に焦点をあてる体系的な調査には、注目すべきギャップが残っている。 そこで本研究では,laimsが作成したマルチメディア(テキスト,画像,ビデオ,オーディオ,マルチモーダルコンテンツなど)の検出に関する既存の研究を包括的にカバーする最初の調査を行う。 具体的には, メディアモダリティによって分類され, 純粋な検出(検出性能を高めるための試み)と検出(一般化性, 堅牢性, 検出器の解釈性など)という2つの視点に合致する, 検出方法の新しい分類法を提案する。 さらに,この分野の研究者や実践者にとって有用なリソースを提供するために,生成メカニズム,公開データセット,オンライン検出ツールの概要を提示した。 さらに,laimsが生成するマルチメディア検出における未探索,進行中,新興の課題に対処する今後の研究の課題を特定し,今後の方向性を提案する。 この調査の目的は、学術的なギャップを埋め、グローバルなAIセキュリティ努力に貢献することであり、デジタル領域における情報の整合性の確保を支援することです。 プロジェクトリンクはhttps://github.com/Purdue-M2/Detect-LAIM- generated-Multimedia-Survey。

The rapid advancement of Large AI Models (LAIMs), particularly diffusion models and large language models, has marked a new era where AI-generated multimedia is increasingly integrated into various aspects of daily life. Although beneficial in numerous fields, this content presents significant risks, including potential misuse, societal disruptions, and ethical concerns. Consequently, detecting multimedia generated by LAIMs has become crucial, with a marked rise in related research. Despite this, there remains a notable gap in systematic surveys that focus specifically on detecting LAIM-generated multimedia. Addressing this, we provide the first survey to comprehensively cover existing research on detecting multimedia (such as text, images, videos, audio, and multimodal content) created by LAIMs. Specifically, we introduce a novel taxonomy for detection methods, categorized by media modality, and aligned with two perspectives: pure detection (aiming to enhance detection performance) and beyond detection (adding attributes like generalizability, robustness, and interpretability to detectors). Additionally, we have presented a brief overview of generation mechanisms, public datasets, and online detection tools to provide a valuable resource for researchers and practitioners in this field. Furthermore, we identify current challenges in detection and propose directions for future research that address unexplored, ongoing, and emerging issues in detecting multimedia generated by LAIMs. Our aim for this survey is to fill an academic gap and contribute to global AI security efforts, helping to ensure the integrity of information in the digital realm. The project link is https://github.com/Purdue-M2/Detect-LAIM-generated-Multimedia-Survey.
翻訳日:2024-02-08 18:57:32 公開日:2024-02-07
# KVQuant:KVキャッシュ量子化による1000万コンテキストLLM推論を目指して

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization ( http://arxiv.org/abs/2401.18079v2 )

ライセンス: Link先を確認
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney, Yakun Sophia Shao, Kurt Keutzer, Amir Gholami(参考訳) LLMは、大きなコンテキストウインドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増加しており、これらの大きなコンテキストウインドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な原因となっている。 量子化はkvキャッシュのアクティベーションを圧縮するための有望なアプローチであるが、既存のソリューションはサブ4ビットのような超低精度でアクティベーションを正確に表現できない。 本稿では、キャッシュされたKVアクティベーションを定量化する新しい手法を取り入れて、この問題に対処するKVQuantについて述べる。 i) チャネルごとの鍵量子化。ここでは、キーアクティベーションを量子化し、分布をよりよく一致させる寸法を調整する。 二 回転位置埋め込みの前のキーアクティベーションを定量化し、その量子化への影響を緩和する前回転鍵量子化 三 非均一KVキャッシュの量子化で、各層ごとの感度重み付き非均一なデータ型を導出し、その分布をよりよく表す。 (iv)ベクトル当たりの密度・分散量子化であって、各ベクトルに対して外れ値を分離し、量子化範囲の歪を最小化するもの (v)Q-Normでは、分散シフトを緩和するために量子化セントロイドを正規化し、2ビット量子化のさらなる利点を提供する。 提案手法をLLaMA, LLaMA-2, Mistralモデルに適用することにより, Wikitext-2およびC4の3ビット量子化による<0.1$パープレキシティ劣化を達成し, 既存手法より優れている。 提案手法は,A100-80GBのGPUで最大100万,8GPUで最大1000万のコンテキスト長を持つLLaMA-7Bモデルを実現する。

LLMs are seeing growing use for applications such as document analysis and summarization which require large context windows, and with these large context windows KV cache activations surface as the dominant contributor to memory consumption during inference. Quantization is a promising approach for compressing KV cache activations; however, existing solutions fail to represent activations accurately in ultra-low precisions, such as sub-4-bit. In this work, we present KVQuant, which addresses this problem by incorporating novel methods for quantizing cached KV activations, including: (i) Per-Channel Key Quantization, where we adjust the dimension along which we quantize the Key activations to better match the distribution; (ii) Pre-RoPE Key Quantization, where we quantize Key activations before the rotary positional embedding to mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization, where we derive per-layer sensitivity-weighted non-uniform datatypes that better represent the distributions; (iv) Per-Vector Dense-and-Sparse Quantization, where we isolate outliers separately for each vector to minimize skews in quantization ranges; and (v) Q-Norm, where we normalize quantization centroids in order to mitigate distribution shift, providing additional benefits for 2-bit quantization. By applying our method to the LLaMA, LLaMA-2, and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit quantization on both Wikitext-2 and C4, outperforming existing approaches. Our method enables serving the LLaMA-7B model with a context length of up to 1 million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.
翻訳日:2024-02-08 18:57:01 公開日:2024-02-07
# 非線形共分散行列推定器を用いた正規化線形判別分析

Regularized Linear Discriminant Analysis Using a Nonlinear Covariance Matrix Estimator ( http://arxiv.org/abs/2401.17760v2 )

ライセンス: Link先を確認
Maaz Mahadi, Tarig Ballal, Muhammad Moinuddin, Tareq Y. Al-Naffouri, and Ubaid M. Al-Saggaf(参考訳) 線形判別分析(LDA)はデータ分類において広く用いられている手法である。 この手法は多くの分類問題において適切な性能を提供するが、データ共分散行列が不調な場合に効率が悪くなる。 これはしばしば、特徴空間の次元がトレーニングデータサイズよりも大きいか、あるいは同等であるときに発生する。 このような状況に対処するために,データ共分散行列の正規化線形推定器に基づく正規化lda(rlda)法が提案されている。 RLDA法の性能はよく研究されており、すでに最適正則化スキームが提案されている。 本稿では,非線形(NL)共分散行列推定器と一致する逆共分散行列の正半定根型推定器の性能について検討する。 推定器は線形推定法を用いて最適分類器のスコア関数を再構成し,最終的に提案したNL-RLDA分類器を導出する。 提案手法の誤分類率の漸近的・一貫した推定を二重漸近的状態とクラスに対する多変量ガウスモデルに仮定して導出する。 一次元グリッド探索と組み合わせた一貫した推定器を用いて、提案したNL-RLDA分類器に必要な正規化パラメータの値を設定する。 合成データと実データの両方に基づく性能評価は,提案手法の有効性を示す。 提案手法は複数のデータセット上で最先端の手法より優れている。 各種データセットにおける最先端手法と比較して,提案手法は優れた性能を示す。

Linear discriminant analysis (LDA) is a widely used technique for data classification. The method offers adequate performance in many classification problems, but it becomes inefficient when the data covariance matrix is ill-conditioned. This often occurs when the feature space's dimensionality is higher than or comparable to the training data size. Regularized LDA (RLDA) methods based on regularized linear estimators of the data covariance matrix have been proposed to cope with such a situation. The performance of RLDA methods is well studied, with optimal regularization schemes already proposed. In this paper, we investigate the capability of a positive semidefinite ridge-type estimator of the inverse covariance matrix that coincides with a nonlinear (NL) covariance matrix estimator. The estimator is derived by reformulating the score function of the optimal classifier utilizing linear estimation methods, which eventually results in the proposed NL-RLDA classifier. We derive asymptotic and consistent estimators of the proposed technique's misclassification rate under the assumptions of a double-asymptotic regime and multivariate Gaussian model for the classes. The consistent estimator, coupled with a one-dimensional grid search, is used to set the value of the regularization parameter required for the proposed NL-RLDA classifier. Performance evaluations based on both synthetic and real data demonstrate the effectiveness of the proposed classifier. The proposed technique outperforms state-of-art methods over multiple datasets. When compared to state-of-the-art methods across various datasets, the proposed technique exhibits superior performance.
翻訳日:2024-02-08 18:56:26 公開日:2024-02-07
# adiabatic thouless pumpingへの近道

Shortcuts to adiabatic Thouless pumping ( http://arxiv.org/abs/2401.17081v2 )

ライセンス: Link先を確認
Wenjie Liu and Yongguan Ke and Chaohong Lee(参考訳) 循環的断熱進化における粒子の量子化輸送であるThouless pumpingは、遅い運転はコヒーレント時間を超え、速い運転は量子化を損なうという課題に直面している。 このジレンマに対処するために,近距離断熱によるThoulessポンプの高速化を提案する。 逆ダイアバティック理論を用いて, 分散抑制トウレスポンプをアダイアバティック・レジームを超えて行うための制御ハミルトニアンを解析的に導出する。 従来の thouless pumping 法と比較して,高速なトポロジカルポンピングアプローチは顕著な利点を提供する。 まず、従来のアプローチよりも11桁の速さでポンプの時間を大幅に削減できる。 第2に,本手法はウェーブパレット拡散を効果的に抑制し,その効率をさらに高める。 さらに、中程度の雑音レベルに対するプロトコルのレジリエンスを実証する。 本研究は, 断熱体制を超えて高速なトポロジカルポンピングを実現するための実用的で効率的な方法を提案する。

Thouless pumping, the quantized transport of particles in a cyclic adiabatic evolution, faces a challenge: slow driving may exceed the coherent time, while fast driving may break quantization. To address this dilemma, we propose to speed up Thouless pumping using shortcuts to adiabaticity. By using counterdiabatic theory, we analytically derive the controlled Hamiltonian for implementing dispersion-suppressed Thouless pumping beyond the adiabatic regime. Compared to traditional Thouless pumping methods, our fast topological pumping approach offers remarkable advantages. Firstly, it enables a substantial reduction of pumping time up to 11 orders of magnitude faster than the traditional approach. Secondly, our method effectively suppresses wavepacket diffusion, further enhancing its efficiency. Furthermore, we demonstrate the resilience of our protocol against moderate noise levels. Our study offers a practical and efficient method for achieving fast topological pumping beyond the adiabatic regime.
翻訳日:2024-02-08 18:56:04 公開日:2024-02-07
# pbscsr:ピアノブートレッグスコア作曲家スタイル認識データセット

PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset ( http://arxiv.org/abs/2401.16803v2 )

ライセンス: Link先を確認
Arhan Jain, Alec Bunn, Austin Pham, and TJ Tsai(参考訳) 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。 私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するデータセットを作ることでした。 この目的を達成するために,これまでに提案されたブートレッグスコアと呼ばれるシート音楽の特徴表現を用いて,スタッフラインに対するノートヘッドの位置を符号化する。 この表現を用いて,IMSLP上のピアノ楽譜の固定長ブートレグスコア断片をサンプリングした。 データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。 ラベル付きデータはmnistイメージをミラーする形式で提示され、効率的な方法でモデルを可視化、操作、および訓練することが極めて容易になる。 さらに,IMSLP上の生シート音楽画像やその他の関連データにアクセスするための関連メタデータも含んでいる。 このデータセットで研究できるいくつかの研究課題について述べる。例えば、数ショットまたはゼロショットの設定における作曲家スタイルの認識のバリエーションなどである。 以前にモデルを提案したタスクについては、コードとベースライン結果をリリースして、比較します。 また,PBSCSRのデータが今後の研究における実りある探索の分野の研究に特に適しているというオープンな研究課題についても論じる。

This article motivates, describes, and presents the PBSCSR dataset for studying composer style recognition of piano sheet music. Our overarching goal was to create a dataset for studying composer style recognition that is "as accessible as MNIST and as challenging as ImageNet". To achieve this goal, we use a previously proposed feature representation of sheet music called a bootleg score, which encodes the position of noteheads relative to the staff lines. Using this representation, we sample fixed-length bootleg score fragments from piano sheet music images on IMSLP. The dataset itself contains 40,000 62x64 bootleg score images for a 9-way classification task, 100,000 62x64 bootleg score images for a 100-way classification task, and 29,310 unlabeled variable-length bootleg score images for pretraining. The labeled data is presented in a form that mirrors MNIST images, in order to make it extremely easy to visualize, manipulate, and train models in an efficient manner. Additionally, we include relevant metadata to allow access to the underlying raw sheet music images and other related data on IMSLP. We describe several research tasks that could be studied with the dataset, including variations of composer style recognition in a few-shot or zero-shot setting. For tasks that have previously proposed models, we release code and baseline results for future works to compare against. We also discuss open research questions that the PBSCSR data is especially well suited to facilitate research on and areas of fruitful exploration in future work.
翻訳日:2024-02-08 18:55:51 公開日:2024-02-07
# cDVGAN:マルチクラス重力波信号と格子生成のためのフレキシブルモデル

cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation ( http://arxiv.org/abs/2401.16356v3 )

ライセンス: Link先を確認
Tom Dooney, Lyana Curier, Daniel Tan, Melissa Lopez, Chris Van Den Broeck, Stefano Bromuri(参考訳) 重力波(GW)とGW検出器グリッチの現実的な時間領域観測のシミュレーションは、GWデータ解析の進歩に役立つ。 シミュレーションされたデータは、信号検索のためのデータセットの拡張、機械学習のためのデータセットのバランス、検出スキームの検証によって下流タスクで使用できる。 本研究では、重力波(GW)と検出器グリッチを表す複数の時間領域観測のクラスをシミュレートする、ジェネレーティブ・アドバーサリアル・ネットワーク・フレームワークにおける新しい条件モデルである条件微分型GAN(cDVGAN)を提案する。 cDVGANはまた、条件付きクラスベクトルの補間によってクラス間のばらつきにまたがる一般化されたハイブリッドサンプルを生成することもできる。 cDVGANは、GANの典型的な2人対戦ゲームに追加のプレイヤーを導入し、補助判別器が1次微分時間列を解析する。 その結果, 合成データの提供により, 元のデータの特徴をよりよく把握できることがわかった。 cDVGAN条件は3つのクラスで、LIGO blip と Tomte glitch の事象を観測3回目(O3)から2回、そして3回目は2回目(BBH)の融合を表す。 提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。 具体的には,cdvgan生成データを用いた学習畳み込みニューラルネットワーク(cnns)が,他の最先端ganモデルからの合成データを超えて,検出器ノイズに埋め込まれたサンプルの検出を改善していることを示す。 我々の最高の合成データセットは、ベースラインGANの合成データセットと比較して、AUCのパフォーマンスが4.2%向上する。 さらに,CNNをcDVGANのハイブリッドサンプルでトレーニングすることで,標準クラスのみをトレーニングし,LIGO検出器バックグラウンドに埋め込まれた実サンプルを同定する(cDVGANの4%のAUC改善)。

Simulating realistic time-domain observations of gravitational waves (GWs) and GW detector glitches can help in advancing GW data analysis. Simulated data can be used in downstream tasks by augmenting datasets for signal searches, balancing data sets for machine learning, and validating detection schemes. In this work, we present Conditional Derivative GAN (cDVGAN), a novel conditional model in the Generative Adversarial Network framework for simulating multiple classes of time-domain observations that represent gravitational waves (GWs) and detector glitches. cDVGAN can also generate generalized hybrid samples that span the variation between classes through interpolation in the conditioned class vector. cDVGAN introduces an additional player into the typical 2-player adversarial game of GANs, where an auxiliary discriminator analyzes the first-order derivative time-series. Our results show that this provides synthetic data that better captures the features of the original data. cDVGAN conditions on three classes, two denoised from LIGO blip and tomte glitch events from its 3rd observing run (O3), and the third representing binary black hole (BBH) mergers. Our proposed cDVGAN outperforms 4 different baseline GAN models in replicating the features of the three classes. Specifically, our experiments show that training convolutional neural networks (CNNs) with our cDVGAN-generated data improves the detection of samples embedded in detector noise beyond the synthetic data from other state-of-the-art GAN models. Our best synthetic dataset yields as much as a 4.2% increase in area-under-the-curve (AUC) performance compared to synthetic datasets from baseline GANs. Moreover, training the CNN with hybrid samples from our cDVGAN outperforms CNNs trained only on the standard classes, when identifying real samples embedded in LIGO detector background (4% AUC improvement for cDVGAN).
翻訳日:2024-02-08 18:55:24 公開日:2024-02-07
# 素数分類の探求:スパース符号化による高いリコールレートと高速収束の実現

Exploring Prime Number Classification: Achieving High Recall Rate and Rapid Convergence with Sparse Encoding ( http://arxiv.org/abs/2402.03363v2 )

ライセンス: Link先を確認
Serin Lee and S. Kim(参考訳) 本稿では,素数と非素数の分類に焦点をあて,機械学習と数論の交点における新しいアプローチを提案する。 私たちの研究の中心は、従来のニューラルネットワークアーキテクチャと統合した、非常にスパースなエンコーディング手法の開発です。 この組み合わせは有望な結果を示しており、素数を特定する際に99\%以上、本質的に不均衡な整数列から非素数に対して79\%のリコールを達成している。 指定された整数から始まる10^6$整数を用いてトレーニングを行い、同じ開始整数でオフセットされた10^6$から3$までの2ドル10^6$整数の異なる範囲でテストした。 資源のメモリ容量に制約され、分析は3ドルまで制限されるが、本研究では素数解析における機械学習の適用に寄与していると信じている。 この研究は、このような応用の可能性を示すことを目的としており、多様な分野におけるさらなる探索と可能性の促進を望んでいる。

This paper presents a novel approach at the intersection of machine learning and number theory, focusing on the classification of prime and non-prime numbers. At the core of our research is the development of a highly sparse encoding method, integrated with conventional neural network architectures. This combination has shown promising results, achieving a recall of over 99\% in identifying prime numbers and 79\% for non-prime numbers from an inherently imbalanced sequential series of integers, while exhibiting rapid model convergence before the completion of a single training epoch. We performed training using $10^6$ integers starting from a specified integer and tested on a different range of $2 \times 10^6$ integers extending from $10^6$ to $3 \times 10^6$, offset by the same starting integer. While constrained by the memory capacity of our resources, which limited our analysis to a span of $3\times10^6$, we believe that our study contribute to the application of machine learning in prime number analysis. This work aims to demonstrate the potential of such applications and hopes to inspire further exploration and possibilities in diverse fields.
翻訳日:2024-02-08 18:47:50 公開日:2024-02-07
# uehlingポテンシャルの微分方程式

Differential equation for the Uehling potential ( http://arxiv.org/abs/2402.03360v2 )

ライセンス: Link先を確認
Alexei M. Frolov(参考訳) uehlingポテンシャルの2階微分方程式は明示的に導出される。 この微分方程式の右辺は、2つのマクドナルド函数の線型結合で、$K_{0}(b r)$と$K_{1}(b r)$である。 この中心ポテンシャルは、数電子および多電子原子、イオン、ムロン原子、バイムロン原子/イオンおよび他の類似系における真空分極の最低次補正を記述するため、多くのqed問題に大きな関心を寄せている。

The second-order differential equation for the Uehling potential is derived explicitly. The right side of this differential equation is a linear combination of the two Macdonald's functions $K_{0}(b r)$ and $K_{1}(b r)$. This central potential is of great interest in many QED problems, since it describes the lowest-order correction for vacuum polarization in few- and many-electron atoms, ions, muonic and bi-muonic atoms/ions as well as in other similar systems.
翻訳日:2024-02-08 18:47:26 公開日:2024-02-07
# グラフ削減に関する包括的調査:スペース化, 粗化, 凝縮

A Comprehensive Survey on Graph Reduction: Sparsification, Coarsening, and Condensation ( http://arxiv.org/abs/2402.03358v2 )

ライセンス: Link先を確認
Mohammad Hashemi, Shengbo Gong, Juntong Ni, Wenqi Fan, B. Aditya Prakash, Wei Jin(参考訳) 多くの現実世界のデータセットは、自然にグラフとして表現でき、幅広いドメインにまたがる。 しかしながら、グラフデータセットの複雑さとサイズの増加は、分析と計算に重大な課題をもたらす。 これに対し、グラフの縮小技術は、重要な性質を保ちながら、大きなグラフを単純化するために有名になった。 本研究では,グラフ分割,グラフ粗さ化,グラフ凝縮など,グラフ縮小法を包括的に理解することを目的とする。 具体的には,これらの手法の統一的な定義を確立し,それらの課題を分類するための階層的分類法を導入する。 次に,これらの手法の技術的詳細を体系的にレビューし,様々なシナリオにまたがる実践的応用を強調する。 さらに,グラフ削減手法の継続的な有効性を確保するための重要な研究の方向性を概説するとともに, https://github.com/ChandlerBang/awesome-graph-reductionで包括的な論文リストを提供する。 この調査が文学のギャップを橋渡し、この有望な分野の進展を促すことを期待している。

Many real-world datasets can be naturally represented as graphs, spanning a wide range of domains. However, the increasing complexity and size of graph datasets present significant challenges for analysis and computation. In response, graph reduction techniques have gained prominence for simplifying large graphs while preserving essential properties. In this survey, we aim to provide a comprehensive understanding of graph reduction methods, including graph sparsification, graph coarsening, and graph condensation. Specifically, we establish a unified definition for these methods and introduce a hierarchical taxonomy to categorize the challenges they address. Our survey then systematically reviews the technical details of these methods and emphasizes their practical applications across diverse scenarios. Furthermore, we outline critical research directions to ensure the continued effectiveness of graph reduction techniques, as well as provide a comprehensive paper list at https://github.com/ChandlerBang/awesome-graph-reduction. We hope this survey will bridge literature gaps and propel the advancement of this promising field.
翻訳日:2024-02-08 18:47:16 公開日:2024-02-07
# XAI-CF -- サイバー犯罪捜査における説明可能な人工知能の役割を考察する

XAI-CF -- Examining the Role of Explainable Artificial Intelligence in Cyber Forensics ( http://arxiv.org/abs/2402.02452v2 )

ライセンス: Link先を確認
Shahid Alam and Zeynep Altiparmak(参考訳) 複雑なサイバーデバイスの増加に伴い、Cyber Forensics(CF)は多くの新しい課題に直面している。 たとえば、スマートフォン上で動くシステムは数十あり、それぞれに何百万ものダウンロード可能なアプリケーションがある。 この大量のデータを掘り下げて意味を持たせるには、AI(Artificial Intelligence)の分野のような新しい技術が必要である。 これらの手法をcfでうまく適用するには、法医学アナリストや裁判所のメンバーといったcfの利害関係者に対して、インフォームドな判断を行うために、結果を正当化し、説明する必要があります。 CFにAIをうまく適用したいのであれば、AIシステムへの信頼を深める必要がある。 CFにおけるAIの使用を受け入れるその他の要因は、AIを真正、解釈可能、理解可能、インタラクティブなものにすることだ。 こうすることで、AIシステムは一般大衆に受け入れられ、法的基準との整合性を確保することができる。 説明可能なAI(XAI)システムは、CFにおいてこの役割を果たすことができ、そのようなシステムをXAI-CFと呼ぶ。 XAI-CFは必須であり、まだ初期段階にある。 本稿では,XAI-CFの意義と利点について考察し,考察する。 我々は、成功し実用的なxai-cfシステムを構築する必要性を強く強調し、システムの主要な要件と前提条件について論じる。 本稿では,CF と XAI-CF という用語の正式な定義と,XAI を応用・活用して CF の信頼を築き上げている過去の研究の総合的な文献レビューを紹介する。 XAI-CFが直面する課題について論じる。 これらの課題に対する具体的な解決策も提供しています。 CFのためのXAIアプリケーションを構築するための重要な洞察と今後の研究方向を特定します。 本論文は,CFにおけるXAIアプリケーションの役割を読者に探求し,親しみやすくする試みであり,我々は,XAI-CFに関心を持つ将来の研究者に,将来的な基盤を提供すると考えている。

With the rise of complex cyber devices Cyber Forensics (CF) is facing many new challenges. For example, there are dozens of systems running on smartphones, each with more than millions of downloadable applications. Sifting through this large amount of data and making sense requires new techniques, such as from the field of Artificial Intelligence (AI). To apply these techniques successfully in CF, we need to justify and explain the results to the stakeholders of CF, such as forensic analysts and members of the court, for them to make an informed decision. If we want to apply AI successfully in CF, there is a need to develop trust in AI systems. Some other factors in accepting the use of AI in CF are to make AI authentic, interpretable, understandable, and interactive. This way, AI systems will be more acceptable to the public and ensure alignment with legal standards. An explainable AI (XAI) system can play this role in CF, and we call such a system XAI-CF. XAI-CF is indispensable and is still in its infancy. In this paper, we explore and make a case for the significance and advantages of XAI-CF. We strongly emphasize the need to build a successful and practical XAI-CF system and discuss some of the main requirements and prerequisites of such a system. We present a formal definition of the terms CF and XAI-CF and a comprehensive literature review of previous works that apply and utilize XAI to build and increase trust in CF. We discuss some challenges facing XAI-CF. We also provide some concrete solutions to these challenges. We identify key insights and future research directions for building XAI applications for CF. This paper is an effort to explore and familiarize the readers with the role of XAI applications in CF, and we believe that our work provides a promising basis for future researchers interested in XAI-CF.
翻訳日:2024-02-08 18:46:13 公開日:2024-02-07
# AI-Native Wireless SystemsのためのUniversal Foundation ModelとしてのLMM

Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless Systems ( http://arxiv.org/abs/2402.01748v2 )

ライセンス: Link先を確認
Shengzhe Xu, Christo Kurisummoottil Thomas, Omar Hashash, Nikhil Muralidhar, Walid Saad, Naren Ramakrishnan(参考訳) 大規模言語モデル (LLM) と基礎モデルは6Gシステムのゲームチェンジャーとして最近注目されている。 しかし、近年の無線ネットワーク用LLMの取り組みは、自然言語処理(NLP)アプリケーション用に設計された既存の言語モデルの直接的な応用に限られている。 この課題に対処し、無線中心の基盤モデルを作成するために、人工知能(AI)ネイティブネットワークの展開に適したユニバーサル基盤モデルを設計するための包括的なビジョンを示す。 NLPベースの基礎モデルから切り離され,提案するフレームワークは,3つの重要な機能を持つ大規模マルチモーダルモデル(LMM)の設計を促進する。 1)マルチモーダルセンシングデータの処理 2)因果推論と検索型生成(rag)を用いた実世界の無線システムにおける物理的シンボル表現の接地 3) ニューロシンボリックaiによる論理的・数学的推論による動的ネットワーク適応のための無線環境フィードバックからの操作性の実現。 本質的に、これらの特性により、提案されたLMMフレームワークは、様々な層間ネットワークタスクと異なるドメイン間のインテントのアライメントに対応する普遍的な機能を構築することができる。 実験結果から, LMMにおけるRAGを用いたグラウンドディングの有効性を示すとともに, LMMと無線システム設計との整合性を示す。 さらに、lmmsによる数学的問題に対する反応において、バニラllmと比較して示された拡張論理は、lmmに固有の論理的および数学的推論能力を示す。 これらの結果に基づいて,LMMに対するオープンな質問と課題の続編を提示する。 そして、LMMを利用したAIネイティブシステムへの道のりを照らす一連のレコメンデーションで締めくくります。

Large language models (LLMs) and foundation models have been recently touted as a game-changer for 6G systems. However, recent efforts on LLMs for wireless networks are limited to a direct application of existing language models that were designed for natural language processing (NLP) applications. To address this challenge and create wireless-centric foundation models, this paper presents a comprehensive vision on how to design universal foundation models that are tailored towards the deployment of artificial intelligence (AI)-native networks. Diverging from NLP-based foundation models, the proposed framework promotes the design of large multi-modal models (LMMs) fostered by three key capabilities: 1) processing of multi-modal sensing data, 2) grounding of physical symbol representations in real-world wireless systems using causal reasoning and retrieval-augmented generation (RAG), and 3) enabling instructibility from the wireless environment feedback to facilitate dynamic network adaptation thanks to logical and mathematical reasoning facilitated by neuro-symbolic AI. In essence, these properties enable the proposed LMM framework to build universal capabilities that cater to various cross-layer networking tasks and alignment of intents across different domains. Preliminary results from experimental evaluation demonstrate the efficacy of grounding using RAG in LMMs, and showcase the alignment of LMMs with wireless system designs. Furthermore, the enhanced rationale exhibited in the responses to mathematical questions by LMMs, compared to vanilla LLMs, demonstrates the logical and mathematical reasoning capabilities inherent in LMMs. Building on those results, we present a sequel of open questions and challenges for LMMs. We then conclude with a set of recommendations that ignite the path towards LMM-empowered AI-native systems.
翻訳日:2024-02-08 18:43:59 公開日:2024-02-07
# CFTM:連続時間分数トピックモデル

CFTM: Continuous time fractional topic model ( http://arxiv.org/abs/2402.01734v2 )

ライセンス: Link先を確認
Kei Nakagawa, Kohei Hayashi, Yugo Fujimoto(参考訳) 本稿では,動的トピックモデリングのための新しい手法である連続時間分数トピックモデル(cftm)を提案する。 このアプローチでは分数ブラウン運動(fbm)を取り入れ、時間とともにトピックや単語の分布における正の相関や負の相関を効果的に同定し、長期的な依存性や粗さを明らかにする。 理論的解析により,cFTMは,fBmの主な特徴を反映して,これらの長期的依存や単語分布の粗さを捉えることができることが示された。 さらに,CFTMのパラメータ推定プロセスは,従来のトピックモデルであるLDAと同等であることを示す。 cftmの特性を実証するために,経済ニュース記事を用いて実証研究を行う。 これらのテストの結果は、時間の経過とともにトピックの長期的な依存性や粗さを識別し追跡するモデルの能力をサポートする。

In this paper, we propose the Continuous Time Fractional Topic Model (cFTM), a new method for dynamic topic modeling. This approach incorporates fractional Brownian motion~(fBm) to effectively identify positive or negative correlations in topic and word distribution over time, revealing long-term dependency or roughness. Our theoretical analysis shows that the cFTM can capture these long-term dependency or roughness in both topic and word distributions, mirroring the main characteristics of fBm. Moreover, we prove that the parameter estimation process for the cFTM is on par with that of LDA, traditional topic models. To demonstrate the cFTM's property, we conduct empirical study using economic news articles. The results from these tests support the model's ability to identify and track long-term dependency or roughness in topics over time.
翻訳日:2024-02-08 18:43:30 公開日:2024-02-07
# 知識グラフ完成のための大規模言語モデルからの文脈化蒸留

Contextualization Distillation from Large Language Model for Knowledge Graph Completion ( http://arxiv.org/abs/2402.01729v2 )

ライセンス: Link先を確認
Dawei Li, Zhen Tan, Tianlong Chen, Huan Liu(参考訳) テキスト情報は知識グラフ補完(KGC)における事前学習言語モデル(PLM)の性能を大幅に向上させるが、ウィキペディアの記事やシンセット定義から収集された既存のコーパスの静的でノイズの多い性質は、しばしばPLMベースのKGCモデルの可能性を制限する。 これらの課題を克服するため,我々は,多彩なプラグイン・アンド・プレイアプローチであるコンテクスト化蒸留戦略を紹介する。 提案手法は,大規模言語モデル(llm)にコンパクトな構造的三重項をコンテキストリッチセグメントに変換するよう指示することから始まる。 次に,これらの強化三重項から得られた洞察を,より小さなkgcモデルで同一化できるように,復元と文脈化という2つの補助タスクを導入する。 さまざまなデータセットとKGCテクニックにわたる包括的な評価は、アプローチの有効性と適応性を強調し、基盤となるパイプラインやアーキテクチャに関係なく、一貫したパフォーマンス向上を明らかにします。 さらに,本解析により,より説明しやすくなり,経路選択や適切な蒸留タスクの選択に関する知見が得られる。 この作業のコードとデータは、https://github.com/David-Li0406/Contextulization-Distillationで公開される。

While textual information significantly enhances the performance of pre-trained language models (PLMs) in knowledge graph completion (KGC), the static and noisy nature of existing corpora collected from Wikipedia articles or synsets definitions often limits the potential of PLM-based KGC models. To surmount these challenges, we introduce the Contextualization Distillation strategy, a versatile plug-in-and-play approach compatible with both discriminative and generative KGC frameworks. Our method begins by instructing large language models (LLMs) to transform compact, structural triplets into context-rich segments. Subsequently, we introduce two tailored auxiliary tasks, reconstruction and contextualization, allowing smaller KGC models to assimilate insights from these enriched triplets. Comprehensive evaluations across diverse datasets and KGC techniques highlight the efficacy and adaptability of our approach, revealing consistent performance enhancements irrespective of underlying pipelines or architectures. Moreover, our analysis makes our method more explainable and provides insight into generating path selection, as well as the choosing of suitable distillation tasks. All the code and data in this work will be released at https://github.com/David-Li0406/Contextulization-Distillation
翻訳日:2024-02-08 18:43:14 公開日:2024-02-07
# AIはテキストメッセージの認識を変えない

AI Does Not Alter Perceptions of Text Messages ( http://arxiv.org/abs/2402.01726v2 )

ライセンス: Link先を確認
N'yoma Diamond(参考訳) 多くの人にとって、不安、抑うつ、その他の社会的および精神的要因は、テキストメッセージの作成を活発な課題にする可能性がある。 この問題を解決するために、大きな言語モデル(LLMs)は、テキスト処理が困難でストレスの多いユーザを支援するのに最適なツールであることを証明している。 しかし,LLM利用の急速な増加にもかかわらず,テキスト合成における補助的利用の検討は行われていない。 LLMの使用に関する主要な懸念は、AIに関する世論の低さが、その使用がAIが支援するテキストメッセージの認識を損なう可能性を導入し、使用が非生産的になることである。 この可能性を検証するために、テキストメッセージが構成においてAI支援を受けたか、受けていないという信念が、その知覚されたトーン、明快さ、意図を伝える能力を変化させる方法について検討する。 本研究では,ランダムにラベル付けされた18のテキストに対して,26人の参加者の知覚を調査した。 参加者のメッセージトーン、明快さ、意図を伝える能力の分析において、AIを利用するという信念が受信者の知覚を変えるという統計的に有意な証拠は存在しない。 このことは、LLMベースのテキスト合成支援が、反生産的な結果のリスクを伴わずに実装できるという希望的な証拠を提供する。

For many people, anxiety, depression, and other social and mental factors can make composing text messages an active challenge. To remedy this problem, large language models (LLMs) may yet prove to be the perfect tool to assist users that would otherwise find texting difficult or stressful. However, despite rapid uptake in LLM usage, considerations for their assistive usage in text message composition have not been explored. A primary concern regarding LLM usage is that poor public sentiment regarding AI introduces the possibility that its usage may harm perceptions of AI-assisted text messages, making usage counter-productive. To (in)validate this possibility, we explore how the belief that a text message did or did not receive AI assistance in composition alters its perceived tone, clarity, and ability to convey intent. In this study, we survey the perceptions of 26 participants on 18 randomly labeled pre-composed text messages. In analyzing the participants' ratings of message tone, clarity, and ability to convey intent, we find that there is no statistically significant evidence that the belief that AI is utilized alters recipient perceptions. This provides hopeful evidence that LLM-based text message composition assistance can be implemented without the risk of counter-productive outcomes.
翻訳日:2024-02-08 18:42:50 公開日:2024-02-07
# 大規模言語モデルの学習のための勾配計算のきめ細かい複雑さ

The Fine-Grained Complexity of Gradient Computation for Training Large Language Models ( http://arxiv.org/abs/2402.04497v1 )

ライセンス: Link先を確認
Josh Alman, Zhao Song(参考訳) 大規模言語モデル(llm)はここ数年、基本的な貢献を行ってきた。 LLMをトレーニングするには、'forward'計算と'backward'計算を交互に実行する必要がある。 前方計算は注意関数評価と見なすことができ、後方計算は勾配計算と見なすことができる。 これまでの[Alman and Song, NeurIPS 2023]の研究では、あるパラメータ規則では前方ステップがほぼ直線的に実行可能であることが証明されたが、一般的な仮説SETHが偽でない限り、残りのパラメータ規則では真のサブ2次時間アルゴリズムは存在しない。 本研究では,一層注意ネットワークの損失関数の勾配を計算するという難解な問題に対してほぼ同じ結果を示し,それゆえllmトレーニング全体のプロセスについて述べる。 これは、llmトレーニングの各ステップのきめ細かい複雑さを完全に特徴付ける。

Large language models (LLMs) have made fundamental contributions over the last a few years. To train an LLM, one needs to alternatingly run `forward' computations and `backward' computations. The forward computation can be viewed as attention function evaluation, and the backward computation can be viewed as a gradient computation. In previous work by [Alman and Song, NeurIPS 2023], it was proved that the forward step can be performed in almost-linear time in certain parameter regimes, but that there is no truly sub-quadratic time algorithm in the remaining parameter regimes unless the popular hypothesis SETH is false. In this work, we show nearly identical results for the harder-seeming problem of computing the gradient of loss function of one layer attention network, and thus for the entire process of LLM training. This completely characterizes the fine-grained complexity of every step of LLM training.
翻訳日:2024-02-08 17:33:29 公開日:2024-02-07
# 次世代鉄道通信におけるLTEの可能性

Unleashing the Potential of LTE for Next Generation Railway Communications ( http://arxiv.org/abs/2402.04479v1 )

ライセンス: Link先を確認
P. Fraga-Lamas, J. Rodr\'iguez-Pi\~neiro, J.A. Garc\'ia-Naya, L. Castedo(参考訳) 鉄道サービスに大きな負担をかける需要がますます高まっている市場では、ブロードバンド無線通信の研究は改善に向けて努力し続けなければならない。 成熟した狭帯域GSM技術に基づいて、GSM-R(Global System for Mobile Communications-Railways)が運用および音声通信の両方にデプロイされている。 GSM-Rは現在の鉄道サービスの要件を満たすが、運転効率、乗客の安全、輸送品質の強化を制限する限られた能力と高コストを課している。 4G Long Term Evolution (LTE) は、GSM-Rの技術的優位性と性能向上だけでなく、現在の汎用通信システムの進化により、GSM-Rの自然な後継となることが期待されている。 本稿では、LTEの重要な特徴と、現在の鉄道サービスの移行と将来のサービス提供の両方をサポートする技術的能力について考察する。

In an increasingly demanding marketplace that will put great strain on railway services, research on broadband wireless communication must continue to strive for improvement. Based on the mature narrowband GSM technology, Global System for Mobile Communications-Railways (GSM-R) has been deployed both for operational and voice communications. Although GSM-R fulfills the requirements of current railway services, it imposes limited capacity and high costs that restrict enhancements of operational efficiency, passenger security and transport quality. 4G Long Term Evolution (LTE) is expected to be the natural successor of GSM-R not only for its technical advantages and increasing performance, but also due to the current evolution of general-purpose communication systems. This paper examines the key features of LTE as well as its technical ability to support both the migration of current railway services and the provisioning of future ones.
翻訳日:2024-02-08 17:33:13 公開日:2024-02-07
# 触覚に基づくグラニュラーメディアからの物体検索

Tactile-based Object Retrieval From Granular Media ( http://arxiv.org/abs/2402.04536v1 )

ライセンス: Link先を確認
Jingxi Xu, Yinsen Jia, Dongxiao Yang, Patrick Meng, Xinyue Zhu, Zihan Guo, Shuran Song, Matei Ciocarlie(参考訳) 粒状媒体に埋設された物体を探索するロボット操作手法geotactを提案する。 これは、粒度メディアとやりとりする必要があるため、また、埋め込みオブジェクトが視覚から完全に隠れることができるため、触覚フィードバックのみに基づいて行うため、難しい課題である。 触覚フィードバックは、周囲のメディアとのユビキタスな接触と、触覚の読み取りによって引き起こされる固有のノイズレベルによって、この文脈ではそれ自体が困難である。 これらの課題に対処するために、センサノイズをシミュレートしたエンドツーエンドの学習手法を用いる。 提案手法は, 不確かさを低減し, 刺激的かつうるさい触感に拘わらず, 物体を安定な把持に誘導するために, マニピュレータが使用する学習型押出し行動の自然発生を導く。 また、シミュレーションでこれらの行動を学習し、実ハードウェアへのゼロショット転送を可能にするトレーニングカリキュラムも導入する。 我々の知る限り、GEOTACTは、多数の異なるオブジェクトを粒度の環境から確実に回収し、実際のハードウェアと統合された触覚センサーで処理する最初の方法です。 ビデオや追加情報はhttps://jxu.ai/geotactで見ることができる。

We introduce GEOTACT, a robotic manipulation method capable of retrieving objects buried in granular media. This is a challenging task due to the need to interact with granular media, and doing so based exclusively on tactile feedback, since a buried object can be completely hidden from vision. Tactile feedback is in itself challenging in this context, due to ubiquitous contact with the surrounding media, and the inherent noise level induced by the tactile readings. To address these challenges, we use a learning method trained end-to-end with simulated sensor noise. We show that our problem formulation leads to the natural emergence of learned pushing behaviors that the manipulator uses to reduce uncertainty and funnel the object to a stable grasp despite spurious and noisy tactile readings. We also introduce a training curriculum that enables learning these behaviors in simulation, followed by zero-shot transfer to real hardware. To the best of our knowledge, GEOTACT is the first method to reliably retrieve a number of different objects from a granular environment, doing so on real hardware and with integrated tactile sensing. Videos and additional information can be found at https://jxu.ai/geotact.
翻訳日:2024-02-08 17:22:13 公開日:2024-02-07
# デジタル画素センサの現状と展望

A Review on Digital Pixel Sensors ( http://arxiv.org/abs/2402.04507v1 )

ライセンス: Link先を確認
Md Rahatul Islam Udoy, Shamiul Alam, Md Mazharul Islam, Akhilesh Jaiswal and Ahmedullah Aziz(参考訳) デジタルピクセルセンサー(DPS)は、現代のイメージングシステムにおいて重要なコンポーネントとして進化し、医療画像、天文学、監視、IoTデバイスなど、さまざまな分野に革命をもたらす可能性がある。 アナログピクセルセンサーと比較すると、DPSは高速で画質が良い。 しかし、各画素の内在的な複雑さは、主にADC回路の収容によるものであり、画素ピッチの大幅な増大を招いている。 残念ながら、このようなピクセルピッチの顕著なエスカレーションは、潜在的な応用分野を著しく狭める障害である高密度積分の実現可能性を大幅に損なう。 それでも、3Dアーキテクチャパラダイムの戦略的統合とともにコンパクトな変換回路を設計することは、一般的な状況に対する潜在的な対策となる。 本稿では,DPS技術の広範な領域について概観する。 異なるタイプのDPS回路の動作原理、利点、課題を分析した。 提案手法は, ADC 操作に基づくいくつかのカテゴリに分類される。 さまざまなパフォーマンス指標に基づく比較研究も、よく理解するために紹介されている。

Digital pixel sensor (DPS) has evolved as a pivotal component in modern imaging systems and has the potential to revolutionize various fields such as medical imaging, astronomy, surveillance, IoT devices, etc. Compared to analog pixel sensors, the DPS offers high speed and good image quality. However, the introduced intrinsic complexity within each pixel, primarily attributed to the accommodation of the ADC circuit, engenders a substantial increase in the pixel pitch. Unfortunately, such a pronounced escalation in pixel pitch drastically undermines the feasibility of achieving high-density integration, which is an obstacle that significantly narrows down the field of potential applications. Nonetheless, designing compact conversion circuits along with strategic integration of 3D architectural paradigms can be a potential remedy to the prevailing situation. This review article presents a comprehensive overview of the vast area of DPS technology. The operating principles, advantages, and challenges of different types of DPS circuits have been analyzed. We categorize the schemes into several categories based on ADC operation. A comparative study based on different performance metrics has also been showcased for a well-rounded understanding.
翻訳日:2024-02-08 17:21:50 公開日:2024-02-07
# 自然言語あいまいさのせん断理論モデルの開発

Developments in Sheaf-Theoretic Models of Natural Language Ambiguities ( http://arxiv.org/abs/2402.04505v1 )

ライセンス: Link先を確認
Kin Ian Lo, Mehrnoosh Sadrzadeh, Shane Mansfield(参考訳) 層は、位相空間を構成する基底とそれらの開集合、例えば開集合上で定義される連続関数に関連するデータからなる数学的対象である。 シーブはもともと代数的トポロジーや論理学で使われてきた。 近年,物理実験や自然言語の曖昧化といった現象もモデル化されている。 後者のモデルは語彙的曖昧さからアナフォラから生じる談話的曖昧さへと拡張する。 はじめに,基本的な照応的談話のデータセットに対する文脈性の新しい尺度を算出し,その結果,先行研究と比較した文脈モデル(82.9%)の比率が3.17%に留まった。 次に,解析的曖昧性を含む自然言語処理課題であるWinograd Schemaの拡張を,文脈的割合0.096でBell-CHSHシナリオでモデル化する方法を示す。

Sheaves are mathematical objects consisting of a base which constitutes a topological space and the data associated with each open set thereof, e.g. continuous functions defined on the open sets. Sheaves have originally been used in algebraic topology and logic. Recently, they have also modelled events such as physical experiments and natural language disambiguation processes. We extend the latter models from lexical ambiguities to discourse ambiguities arising from anaphora. To begin, we calculated a new measure of contextuality for a dataset of basic anaphoric discourses, resulting in a higher proportion of contextual models--82.9%--compared to previous work which only yielded 3.17% contextual models. Then, we show how an extension of the natural language processing challenge, known as the Winograd Schema, which involves anaphoric ambiguities can be modelled on the Bell-CHSH scenario with a contextual fraction of 0.096.
翻訳日:2024-02-08 17:21:35 公開日:2024-02-07
# Text2Street:ストリートビューのための制御可能なテキスト・画像生成

Text2Street: Controllable Text-to-image Generation for Street Views ( http://arxiv.org/abs/2402.04504v1 )

ライセンス: Link先を確認
Jinming Su, Songen Gu, Yiting Duan, Xingyue Chen and Junfeng Luo(参考訳) テキスト・画像生成は拡散モデルの出現とともに顕著な進歩を遂げた。 しかし、路面地形が複雑であり、交通状況が多様であり、気象条件も多様であるため、従来のテキスト・画像モデルでは対応が難しいため、テキストに基づくストリートビューの画像生成は依然として難しい課題である。 これらの課題に対処するために、新しい制御可能なテキスト・ツー・イメージ・フレームワークである \textbf{Text2Street} を提案する。 このフレームワークでは,まず,正確な道路構造とカウントアダプタを組み込んだレーン線を用いたテキスト・ツー・マップ生成を実現し,制御可能な道路トポロジ生成を実現する。 そこで, 位置に基づくオブジェクトレイアウト生成器を提案し, 制御可能なトラフィックオブジェクトレイアウト生成を実現するために, オブジェクトレベルのバウンディングボックス拡散戦略を用いてテキスト・ツー・レイアウト生成を実現する。 最後に、複数制御画像生成装置は、道路トポロジー、オブジェクトレイアウト、気象記述を統合して、制御可能なストリートビュー画像生成を実現するように設計されている。 広汎な実験により,提案手法は制御可能な街路ビューテキスト・画像生成を実現し,街路ビューに対するText2Streetフレームワークの有効性を検証した。

Text-to-image generation has made remarkable progress with the emergence of diffusion models. However, it is still a difficult task to generate images for street views based on text, mainly because the road topology of street scenes is complex, the traffic status is diverse and the weather condition is various, which makes conventional text-to-image models difficult to deal with. To address these challenges, we propose a novel controllable text-to-image framework, named \textbf{Text2Street}. In the framework, we first introduce the lane-aware road topology generator, which achieves text-to-map generation with the accurate road structure and lane lines armed with the counting adapter, realizing the controllable road topology generation. Then, the position-based object layout generator is proposed to obtain text-to-layout generation through an object-level bounding box diffusion strategy, realizing the controllable traffic object layout generation. Finally, the multiple control image generator is designed to integrate the road topology, object layout and weather description to realize controllable street-view image generation. Extensive experiments show that the proposed approach achieves controllable street-view text-to-image generation and validates the effectiveness of the Text2Street framework for street views.
翻訳日:2024-02-08 17:21:18 公開日:2024-02-07
# 時系列データ解析のための動的プロセス不確かさを有するパススペースカルマンフィルタ

Pathspace Kalman Filters with Dynamic Process Uncertainty for Analyzing Time-course Data ( http://arxiv.org/abs/2402.04498v1 )

ライセンス: Link先を確認
Chaitra Agrahar, William Poole, Simone Bianco, Hana El-Samad(参考訳) KF (Kalman Filter) は最適線形状態予測アルゴリズムであり、工学、経済学、ロボット工学、宇宙探査などの分野に応用されている。 ここで、我々は、パススペースカルマンフィルタ(PKF)と呼ばれるKFの拡張を開発する。 a) 基礎となるデータ及び先行知識に関連する不確実性を動的に追跡し、 b) 軌道全体と基礎となる機械学モデルを入力とし、ベイズ法を用いて異なる不確実性の源を定量化する。 このアルゴリズムの応用は、内部力学モデルがデータから時間依存的に逸脱する時間窓を自動的に検出することである。 まず、PKFアルゴリズムの収束を特徴付ける定理を提案する。 次に、PKFは平均二乗誤差を数桁下げる合成データセットにおいて、従来のKF法よりも優れていることを示す。 最後に、この手法を180万以上の遺伝子発現測定を含む生体時空間データセットに適用する。

Kalman Filter (KF) is an optimal linear state prediction algorithm, with applications in fields as diverse as engineering, economics, robotics, and space exploration. Here, we develop an extension of the KF, called a Pathspace Kalman Filter (PKF) which allows us to a) dynamically track the uncertainties associated with the underlying data and prior knowledge, and b) take as input an entire trajectory and an underlying mechanistic model, and using a Bayesian methodology quantify the different sources of uncertainty. An application of this algorithm is to automatically detect temporal windows where the internal mechanistic model deviates from the data in a time-dependent manner. First, we provide theorems characterizing the convergence of the PKF algorithm. Then, we numerically demonstrate that the PKF outperforms conventional KF methods on a synthetic dataset lowering the mean-squared-error by several orders of magnitude. Finally, we apply this method to biological time-course dataset involving over 1.8 million gene expression measurements.
翻訳日:2024-02-08 17:20:55 公開日:2024-02-07
# bi-fluxonトンネルを用いたfluxonium qubitの保護

Using bi-fluxon tunneling to protect the Fluxonium qubit ( http://arxiv.org/abs/2402.04495v1 )

ライセンス: Link先を確認
Wa\"el Ardati, S\'ebastien L\'eger, Shelender Kumar, Vishnu Narayanan Suresh, Dorian Nicolas, Cyril Mori, Francesca D'Esposito, Tereza Vakhtel, Olivier Buisson, Quentin Ficheux and Nicolas Roch(参考訳) 量子状態における量子情報の非結合的な波動関数サポートとノイズ非感受性エネルギーによるエンコーディングは、量子ビット保護の考え方の背後にある鍵である。 完全に保護された量子ビットは、エネルギー緩和と純粋な劣化の両方に対して指数関数的保護を提供すると予想されているが、より単純な回路は、現在達成可能なパラメータを部分的に保護する可能性がある。 本稿では,1次不感なフラックススイートスポットの利点を生かしながら,波動関数の重なりを最小化するフラクトロニウム回路について検討する。 我々の回路は、大きなスーパーインダクタンス(L\sim 1~\mu \rm{H}$)を利用すると、ゼロ外部フラックスで共鳴トンネル機構を組み込んで、同じフラクトンパリティで状態が結合し、バイフラクソントンネルを可能にする。 状態 ||0\rangle$ と $|1\rangle$ はそれぞれパリティ 0 と 1 の波動関数で符号化され、緩和に対する最小の保護形式を保証する。 2トン分光法は、回路のエネルギー準位構造と、単純なフラクソニウムハミルトニアンまたは効果的なバイフラクソンハミルトニアンによって正確に記述できる$m =pm 1$フラクトンに対応する異なるポテンシャル井戸間の4:pi$量子相スリップの存在を明らかにする。 準最適生成にもかかわらず、測定された緩和(T_1 = 177\pm 3 ~\mu s$)とデファス化(T_2^E = 75\pm 5~\mu \rm{s}$)は、我々のアプローチの妥当性を示すだけでなく、部分的に保護されたフラクソニウム量子ビットを用いた量子コンピューティングへの代替方向を開く。

Encoding quantum information in quantum states with disjoint wave-function support and noise insensitive energies is the key behind the idea of qubit protection. While fully protected qubits are expected to offer exponential protection against both energy relaxation and pure dephasing, simpler circuits may grant partial protection with currently achievable parameters. Here, we study a fluxonium circuit in which the wave-functions are engineered to minimize their overlap while benefiting from a first-order-insensitive flux sweet spot. Taking advantage of a large superinductance ($L\sim 1~\mu \rm{H}$), our circuit incorporates a resonant tunneling mechanism at zero external flux that couples states with the same fluxon parity, thus enabling bifluxon tunneling. The states $|0\rangle$ and $|1\rangle$ are encoded in wave-functions with parities 0 and 1, respectively, ensuring a minimal form of protection against relaxation. Two-tone spectroscopy reveals the energy level structure of the circuit and the presence of $4 \pi$ quantum-phase slips between different potential wells corresponding to $m=\pm 1$ fluxons, which can be precisely described by a simple fluxonium Hamiltonian or by an effective bifluxon Hamiltonian. Despite suboptimal fabrication, the measured relaxation ($T_1 = 177\pm 3 ~\mu s$) and dephasing ($T_2^E = 75\pm 5~\mu \rm{s}$) times not only demonstrate the relevance of our approach but also opens an alternative direction towards quantum computing using partially-protected fluxonium qubits.
翻訳日:2024-02-08 17:20:40 公開日:2024-02-07
# 検索なしのグランドマスターレベルチェス

Grandmaster-Level Chess Without Search ( http://arxiv.org/abs/2402.04494v1 )

ライセンス: Link先を確認
Anian Ruoss, Gr\'egoire Del\'etang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein(参考訳) 機械学習における最近の画期的な成功は主に、大規模な注目ベースのアーキテクチャと前例のない規模のデータセットである。 本稿では,チェスにおける大規模トレーニングの効果について検討する。 複雑なヒューリスティック、明示的な検索、あるいはそれらの組み合わせに依存する従来のチェスエンジンとは異なり、1000万のチェスゲームのデータセットで教師付き学習を行う270mパラメータトランスフォーマーモデルをトレーニングします。 データセットの各ボードに強力なStockfish 16エンジンが提供するアクション値をアノテートして,およそ150億のデータポイントを達成しました。 われわれの最大のモデルは2895年のLichess blitz Eloに到達し、いくつかの難解なチェスパズルを、ドメイン固有の調整や明確な検索アルゴリズムなしで解決する。 また,本モデルがAlphaZeroのポリシーと価値ネットワーク(MCTSなし)とGPT-3.5-turbo-インストラクションより優れていることを示す。 モデルとデータセットのサイズを体系的に調べると、強力なチェスのパフォーマンスは十分な規模でしか発生しない。 結果を検証するため,我々は設計選択とハイパーパラメータの広範囲なアブレーションを行う。

The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.
翻訳日:2024-02-08 17:20:01 公開日:2024-02-07
# 低ランクMDPを用いたオフライン制約強化学習の2次アルゴリズム

A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Low-Rank MDPs ( http://arxiv.org/abs/2402.04493v1 )

ライセンス: Link先を確認
Kihyuk Hong, Ambuj Tewari(参考訳) オフライン強化学習(RL)は、事前に収集されたデータセットを使用して期待される累積報酬を最大化するポリシーを学ぶことを目的としている。 低ランクのmdpや一般関数近似を持つオフラインrlは近年広く研究されているが、サンプル複雑性を持つ既存のアルゴリズムは$\epsilon$-optimalポリシーを見つけるために$o(\epsilon^{-2})$である。 本稿では,低ランクのMDPを持つオフラインRLに対する,割引無限水平設定における原始双対アルゴリズムを提案する。 本アルゴリズムは,部分的データカバレッジを仮定した$o(\epsilon^{-2})$のサンプル複雑性を実現する,この設定における計算効率の高いアルゴリズムである。 これは、$O(\epsilon^{-4})$サンプルを必要とする最近の作業を改善する。 さらに,提案アルゴリズムは,付加的な報酬信号に対する制約をサポートすることにより,前処理をオフライン制約付きRL設定に拡張する。

Offline reinforcement learning (RL) aims to learn a policy that maximizes the expected cumulative reward using a pre-collected dataset. Offline RL with low-rank MDPs or general function approximation has been widely studied recently, but existing algorithms with sample complexity $O(\epsilon^{-2})$ for finding an $\epsilon$-optimal policy either require a uniform data coverage assumptions or are computationally inefficient. In this paper, we propose a primal dual algorithm for offline RL with low-rank MDPs in the discounted infinite-horizon setting. Our algorithm is the first computationally efficient algorithm in this setting that achieves sample complexity of $O(\epsilon^{-2})$ with partial data coverage assumption. This improves upon a recent work that requires $O(\epsilon^{-4})$ samples. Moreover, our algorithm extends the previous work to the offline constrained RL setting by supporting constraints on additional reward signals.
翻訳日:2024-02-08 17:19:39 公開日:2024-02-07
# ColorSwap:マルチモーダル評価のための色と語順データセット

ColorSwap: A Color and Word Order Dataset for Multimodal Evaluation ( http://arxiv.org/abs/2402.04492v1 )

ライセンス: Link先を確認
Jirayu Burapacheep, Ishan Gaur, Agam Bhatia, Tristan Thrush(参考訳) 本稿では,マルチモーダルモデルとその色とのマッチングにおける習熟度を評価するために設計されたcolorswapデータセットを提案する。 データセットは2000のユニークなイメージキャプチャペアで構成され、1000の例にグループ化されている。 それぞれの例にはキャプションイメージペアと ``color-swapped'' ペアが含まれる。 例の2つのキャプションは同じ単語を持つが、色の単語は異なるオブジェクトを変更するために再構成されている。 データセットは、ループ内の人間と自動キャプションと画像生成の新たなブレンドによって作成された。 我々は、画像テキストマッチング(ITM)と視覚言語モデル(VLM)を評価し、最新のものでさえもこのタスクでは堅牢ではないことを発見した。 GPT-4VとLLaVAは、より高度なプロンプト技術によって改善されるが、主VLM測定値では72%と42%である。 メインのIMM測定では、CLIPやSigLIPのようなコントラストモデル(それぞれ12%と30%)が、非コントラストのBLIP ITMモデルはより強い(87%)。 また、2000例未満の微調整は、この分散の語順理解タスクにおいて大きなパフォーマンス向上をもたらすことが分かりました。 データセットは以下の通り。 https://github.com/Top34051/colorswap。

This paper introduces the ColorSwap dataset, designed to assess and improve the proficiency of multimodal models in matching objects with their colors. The dataset is comprised of 2,000 unique image-caption pairs, grouped into 1,000 examples. Each example includes a caption-image pair, along with a ``color-swapped'' pair. We follow the Winoground schema: the two captions in an example have the same words, but the color words have been rearranged to modify different objects. The dataset was created through a novel blend of automated caption and image generation with humans in the loop. We evaluate image-text matching (ITM) and visual language models (VLMs) and find that even the latest ones are still not robust at this task. GPT-4V and LLaVA score 72% and 42% on our main VLM metric, although they may improve with more advanced prompting techniques. On the main ITM metric, contrastive models such as CLIP and SigLIP perform close to chance (at 12% and 30%, respectively), although the non-contrastive BLIP ITM model is stronger (87%). We also find that finetuning on fewer than 2,000 examples yields significant performance gains on this out-of-distribution word-order understanding task. The dataset is here: https://github.com/Top34051/colorswap.
翻訳日:2024-02-08 17:19:18 公開日:2024-02-07
# 言語モデルファインチューニングにおける差分プライバシーからのバイアスの除去

De-amplifying Bias from Differential Privacy in Language Model Fine-tuning ( http://arxiv.org/abs/2402.04489v1 )

ライセンス: Link先を確認
Sanjari Srivastava, Piotr Mardziel, Zhikhun Zhang, Archana Ahlawat, Anupam Datta, John C Mitchell(参考訳) 公正性とプライバシは、機械学習(ML)実践者がしばしばモデルで運用しようとする2つの重要な価値である。 Fairnessは、ソーシャル/デミノグラフィーサブグループのモデルバイアスを減らすことを目的としている。 一方、差分プライバシー(dp)メカニズムによるプライバシは、結果のモデルに対する個人のトレーニングデータの影響を制限する。 信頼できるMLのプライバシとフェアネスの目標とのトレードオフは、両方に対処したい人たちに課題をもたらします。 大規模言語モデル(llm)を微調整する場合、dpは性別、人種、宗教的バイアスを増幅し、dpのないモデルよりも偏りのあるモデルを生成する。 増幅の原因は,部分群間の勾配の収束の差であることがわかった。 二元性バイアスの場合、偏見に対処する既知の方法であるCDA(Counterfactual Data Augmentation)が、DPによる偏見増幅を緩和することを示した。 結果として、DPとCDAは、公正性とプライバシの両方を維持しながら、モデルの微調整に使用できる。

Fairness and privacy are two important values machine learning (ML) practitioners often seek to operationalize in models. Fairness aims to reduce model bias for social/demographic sub-groups. Privacy via differential privacy (DP) mechanisms, on the other hand, limits the impact of any individual's training data on the resulting model. The trade-offs between privacy and fairness goals of trustworthy ML pose a challenge to those wishing to address both. We show that DP amplifies gender, racial, and religious bias when fine-tuning large language models (LLMs), producing models more biased than ones fine-tuned without DP. We find the cause of the amplification to be a disparity in convergence of gradients across sub-groups. Through the case of binary gender bias, we demonstrate that Counterfactual Data Augmentation (CDA), a known method for addressing bias, also mitigates bias amplification by DP. As a consequence, DP and CDA together can be used to fine-tune models while maintaining both fairness and privacy.
翻訳日:2024-02-08 17:18:55 公開日:2024-02-07
# 非可換量子マスター方程式をもつ量子ブラウン系におけるクォーコニウムダイナミクス

Quarkonium dynamics in the quantum Brownian regime with non-abelian quantum master equations ( http://arxiv.org/abs/2402.04488v1 )

ライセンス: Link先を確認
St\'ephane Delorme, Roland Katz, Thierry Gousset, Pol Bernard Gossiaux, Jean-Paul Blaizot(参考訳) 我々は最近導出された量子マスター方程式の1次元設定における数値解を提案する。 熱平衡におけるクォーク-グルーオンプラズマ中の1つの重いクォーク-反クォーク対のダイナミクスに焦点をあて、プラズマの温度が$q\bar{q}$系のエネルギー準位間の間隔と比べ、いわゆる量子ブラウン状態(quantum brownian regime)に注目する。 計算で用いられる1次元のポテンシャルは、チャーモニウムの現象学に関連する数を生成するように調整されている。 方程式は異なる初期状態と媒体構成を用いて解かれる。 様々な温度レジームが研究され、スクリーニングと衝突の影響が徹底的に分析された。 方程式の技術的特徴を解析する。 進化を制御する異なる作用素の貢献は、温度の関数として議論される。 いくつかの現象学的結果に対処する。

We present numerical solutions in a one-dimensional setting of quantum master equations that have been recently derived. We focus on the dynamics of a single heavy quark-antiquark pair in a Quark-Gluon Plasma in thermal equilibrium, in the so-called quantum Brownian regime where the temperature of the plasma is large in comparison with the spacing between the energy levels of the $Q\bar{Q}$ system. The one-dimensional potential used in the calculations has been adjusted so as to produce numbers that are relevant for the phenomenology of the charmonium. The equations are solved using different initial states and medium configurations. Various temperature regimes are studied and the effects of screening and collisions thoroughly analyzed. Technical features of the equations are analyzed. The contributions of the different operators that control the evolution are discussed as a function of the temperature. Some phenomenological consequences are addressed.
翻訳日:2024-02-08 17:18:37 公開日:2024-02-07
# フェデレート・バンディットに対するインセンティブ付き真理コミュニケーション

Incentivized Truthful Communication for Federated Bandits ( http://arxiv.org/abs/2402.04485v1 )

ライセンス: Link先を確認
Zhepei Wei, Chuanhao Li, Tianze Ren, Haifeng Xu, Hongning Wang(参考訳) 近年,フェデレーテッド・バンディット学習の効率性と実践性を高めるため,サーバが提供したインセンティブが参加コストを上回る場合にのみ,クライアント間のコミュニケーションを動機付けるインセンティブが導入されている。 しかし、既存のインセンティブメカニズムは、クライアントが真に真理を仮定している。彼らはみな、真価を報告し、従って、あるクライアントが請求する高いコストは、サーバーが払わなければならないほどである。 したがって、このようなメカニズムは、誤った報告によって自らのユーティリティを最適化しようとする戦略的クライアントに対して脆弱である。 この問題に対処するために,各参加者に対するインセンティブが自己申告コストから独立しており,真のコストを報告することが最善の効用を達成する唯一の方法である,真理フェドバン(true-fedban)と呼ばれるインセンティブ互換(すなわち真理)通信プロトコルを提案する。 さらに重要なのは、Trath-FedBanはオーバーヘッドなしにサブ線形後悔と通信コストを保証します。 言い換えれば,本稿の中核となる概念的貢献は,フェデレーテッド・バンディット学習において,インセンティブの適合性とほぼ最適な後悔を同時に達成できることを初めて示すことである。 広範な数値実験により,提案手法の有効性がさらに検証された。

To enhance the efficiency and practicality of federated bandit learning, recent advances have introduced incentives to motivate communication among clients, where a client participates only when the incentive offered by the server outweighs its participation cost. However, existing incentive mechanisms naively assume the clients are truthful: they all report their true cost and thus the higher cost one participating client claims, the more the server has to pay. Therefore, such mechanisms are vulnerable to strategic clients aiming to optimize their own utility by misreporting. To address this issue, we propose an incentive compatible (i.e., truthful) communication protocol, named Truth-FedBan, where the incentive for each participant is independent of its self-reported cost, and reporting the true cost is the only way to achieve the best utility. More importantly, Truth-FedBan still guarantees the sub-linear regret and communication cost without any overheads. In other words, the core conceptual contribution of this paper is, for the first time, demonstrating the possibility of simultaneously achieving incentive compatibility and nearly optimal regret in federated bandit learning. Extensive numerical studies further validate the effectiveness of our proposed solution.
翻訳日:2024-02-08 17:18:21 公開日:2024-02-07
# BEBLID: 効率の良いバイナリローカルイメージ記述子

BEBLID: Boosted efficient binary local image descriptor ( http://arxiv.org/abs/2402.04482v1 )

ライセンス: Link先を確認
Iago Su\'arez, Ghesn Sfeir, Jos\'e M. Buenaposada, Luis Baumela(参考訳) ローカル画像の特徴の効率的なマッチングは多くのコンピュータビジョンアプリケーションにおいて基本的な課題である。 しかし、トップマッチングアルゴリズムのリアルタイム性能は、ハードウェアの単純さと有限エネルギー供給のため、携帯電話やドローンのような計算的に制限されたデバイスで損なわれている。 本稿では,効率の良いバイナリ画像記述子であるBEBLIDを紹介する。 以前の実数値ディスクリプタであるBELIDを改善して,マッチングと精度の向上を実現しています。 この目的のために、AdaBoostを使用して、より優れたローカル記述を生成する弱い階層のトレーニングスキームを改善しています。 さらに、全ての弱学習者が強い学習者の組み合わせで同じ重みを持つように強制して記述子をバイナライズし、マッチングや検索タスクで生じる非対称性に対処するアンバランスデータセットでトレーニングする。 私たちの実験では、beblidは、文献で最速のアルゴリズムであるorbよりも、siftに近い精度と計算効率を実現しています。

Efficient matching of local image features is a fundamental task in many computer vision applications. However, the real-time performance of top matching algorithms is compromised in computationally limited devices, such as mobile phones or drones, due to the simplicity of their hardware and their finite energy supply. In this paper we introduce BEBLID, an efficient learned binary image descriptor. It improves our previous real-valued descriptor, BELID, making it both more efficient for matching and more accurate. To this end we use AdaBoost with an improved weak-learner training scheme that produces better local descriptions. Further, we binarize our descriptor by forcing all weak-learners to have the same weight in the strong learner combination and train it in an unbalanced data set to address the asymmetries arising in matching and retrieval tasks. In our experiments BEBLID achieves an accuracy close to SIFT and better computational efficiency than ORB, the fastest algorithm in the literature.
翻訳日:2024-02-08 17:17:58 公開日:2024-02-07
# MIRT : 4次元CT(4DCT)のための同時再構成とアフィン運動補償法

MIRT: a simultaneous reconstruction and affine motion compensation technique for four dimensional computed tomography (4DCT) ( http://arxiv.org/abs/2402.04480v1 )

ライセンス: Link先を確認
Anh-Tuan Nguyen, Jens Renders, Domenico Iuso, Yves Maris, Jeroen Soete, Martine Wevers, Jan Sijbers, and Jan De Beenhouwer(参考訳) 4次元CT(4DCT)では、一連の2次元投影画像から、移動または変形するサンプルの3次元像を再構成する。 最近の反復運動補償再構成手法では、参照取得や代替画像再構成や動き推定ステップが必要となる。 これらの方法において、運動推定ステップは、完全変形ベクトル場(dvfs)または剛体運動やスケーリングを含むアフィン運動に対応する限られたパラメータの集合の推定を含む。 これらのアプローチの大半はネスト反復に依存しており、かなりの計算コストがかかる。 解析的定式化の直接的な利点と計算複雑性の大幅な低減にもかかわらず、CT画像における一般的なアフィン運動に対するDVFのパラメータ化についての調査は行われていない。 本研究では,画像再構成とアフィン運動推定を単一の更新ステップで組み合わせた効率的な反復的再構成手法である運動補償反復再構成手法(mirt)を提案する。 現状の4DCT法の大半が実データ上で試験されていない場合,シミュレーションおよび実実験の結果から,アフィン運動補正法とアフィン運動補正法を併用することにより,本手法の精度が向上することが示唆された。 特に、4DCTの新たな応用に繋がる、実際に取得したプロジェクション・ラジオグラフィーからの運動の外観における適切なマイクロスケールダイヤモンドの正確な再構築を可能にする。

In four-dimensional computed tomography (4DCT), 3D images of moving or deforming samples are reconstructed from a set of 2D projection images. Recent techniques for iterative motion-compensated reconstruction either necessitate a reference acquisition or alternate image reconstruction and motion estimation steps. In these methods, the motion estimation step involves the estimation of either complete deformation vector fields (DVFs) or a limited set of parameters corresponding to the affine motion, including rigid motion or scaling. The majority of these approaches rely on nested iterations, incurring significant computational expenses. Notably, despite the direct benefits of an analytical formulation and a substantial reduction in computational complexity, there has been no exploration into parameterizing DVFs for general affine motion in CT imaging. In this work, we propose the Motion-compensated Iterative Reconstruction Technique (MIRT)- an efficient iterative reconstruction scheme that combines image reconstruction and affine motion estimation in a single update step, based on the analytical gradients of the motion towards both the reconstruction and the affine motion parameters. When most of the state-of-the-art 4DCT methods have not attempted to be tested on real data, results from simulation and real experiments show that our method outperforms the state-of-the-art CT reconstruction with affine motion correction methods in computational feasibility and projection distance. In particular, this allows accurate reconstruction for a proper microscale diamond in the appearance of motion from the practically acquired projection radiographs, which leads to a novel application of 4DCT.
翻訳日:2024-02-08 17:17:42 公開日:2024-02-07
# OIL-AD:シーケンス決定シーケンスの異常検出フレームワーク

OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences ( http://arxiv.org/abs/2402.04567v1 )

ライセンス: Link先を確認
Chen Wang, Sarah Erfani, Tansu Alpcan, Christopher Leckie(参考訳) 意思決定シーケンスにおける異常検出は、正規性表現学習の複雑さとタスクの逐次的性質のため、難しい問題である。 強化学習(rl)に基づく既存の手法の多くは、環境ダイナミクス、報酬信号、環境とのオンラインインタラクションへのアクセスなど、非現実的な仮定によって現実の世界では実装が難しい。 これらの制約に対処するために,オフライン模倣学習に基づく異常検出(oil-ad)という非教師付き手法を提案する。 我々のオフライン学習モデルはトランスフォーマーポリシーネットワークによる行動クローンの適応であり、通常の軌道からQ関数と状態値関数を学習するためにトレーニングプロセスを変更する。 本稿では,Q関数と状態値関数がエージェントの行動データに十分な情報を与え,異常検出のための2つの特徴を導出することを提案する。 本手法の背景にある直観は、q関数から導かれる動作最適性特徴が各局所状態における最適動作とを区別し、状態値関数から導かれる逐次関連特徴は、意思決定(状態と行動のペア)の間の時間的相関を維持する可能性を秘めている。 実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。

Anomaly detection in decision-making sequences is a challenging problem due to the complexity of normality representation learning and the sequential nature of the task. Most existing methods based on Reinforcement Learning (RL) are difficult to implement in the real world due to unrealistic assumptions, such as having access to environment dynamics, reward signals, and online interactions with the environment. To address these limitations, we propose an unsupervised method named Offline Imitation Learning based Anomaly Detection (OIL-AD), which detects anomalies in decision-making sequences using two extracted behaviour features: action optimality and sequential association. Our offline learning model is an adaptation of behavioural cloning with a transformer policy network, where we modify the training process to learn a Q function and a state value function from normal trajectories. We propose that the Q function and the state value function can provide sufficient information about agents' behavioural data, from which we derive two features for anomaly detection. The intuition behind our method is that the action optimality feature derived from the Q function can differentiate the optimal action from others at each local state, and the sequential association feature derived from the state value function has the potential to maintain the temporal correlations between decisions (state-action pairs). Our experiments show that OIL-AD can achieve outstanding online anomaly detection performance with up to 34.8% improvement in F1 score over comparable baselines.
翻訳日:2024-02-08 17:08:49 公開日:2024-02-07
# ビット列を持つ長距離量子デジタルシグネチャの高効率化

Efficient Quantum Digital Signatures over Long Distances with Likely Bit Strings ( http://arxiv.org/abs/2402.04544v1 )

ライセンス: Link先を確認
Ji-Qian Qin, Zong-Wen Yu, and Xiang-Bin Wang(参考訳) qdss(quantum digital signatures)は、偽造や棄却に対するメッセージの情報理論的なセキュリティを提供する。 1ビットメッセージに署名する従来のQDSプロトコルと比較して、ハッシュ関数ベースのQDSプロトコルは量子リソースを保存でき、任意の長さのメッセージに署名することができる。 ビット文字列の候補として,長い距離にわたってハッシュ関数を持つ効率的なqdsプロトコルを提案する。 提案手法は,任意の量子鍵分布に基づくQDSプロトコルに適用でき,署名率を大幅に向上し,QDSプロトコルのセキュアな署名距離を劇的に向上させることができる。 計算資源を節約するために,Alice が Bob と Charlie の検証プロセスに参加する改良手法を提案する。 これにより、考えられる文字列の膨大な数に関連する計算の複雑さが排除される。 提案手法と改良手法の利点を,送信・送信型QDSの例で示す。 典型的なパラメータでは,提案手法と改良手法の両方が署名率を100倍以上に向上させ,ハッシュ関数ベースのqdsプロトコルに比べて約150kmのシグネチャ距離を増加させることができる。

Quantum digital signatures (QDSs) can provide information-theoretic security of messages against forgery and repudiation. Compared with previous QDS protocols that focus on signing one-bit messages, hash function-based QDS protocols can save quantum resources and are able to sign messages of arbitrary length. Using the idea of likely bit strings, we propose an efficient QDS protocol with hash functions over long distances. Our method of likely bit strings can be applied to any quantum key distribution-based QDS protocol to significantly improve the signature rate and dramatically increase the secure signature distance of QDS protocols. In order to save computing resources, we propose an improved method where Alice participates in the verification process of Bob and Charlie. This eliminates the computational complexity relating to the huge number of all likely strings. We demonstrate the advantages of our method and our improved method with the example of sending-or-not-sending QDS. Under typical parameters, both our method and our improved method can improve the signature rate by more than 100 times and increase the signature distance by about 150 km compared with hash function-based QDS protocols without likely bit strings.
翻訳日:2024-02-08 17:08:21 公開日:2024-02-07
# コード混合データにおける感情検出のための言語間スクリプト転送とアライメント

Share What You Already Know: Cross-Language-Script Transfer and Alignment for Sentiment Detection in Code-Mixed Data ( http://arxiv.org/abs/2402.04542v1 )

ライセンス: Link先を確認
Niraj Pahari and Kazutaka Shimada(参考訳) コードスイッチングには複数の言語が混在する。 これはソーシャルメディアのテキストでますます発生している現象である。 通常、コード混合テキストは、1つのスクリプトで書かれるが、関連する言語は異なるスクリプトを持っている。 事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。 既存の研究では、コード交換されたテキストをそのまま利用する。 しかし、各言語でネイティブスクリプトを使用すると、事前訓練された知識により、テキストの表現性が向上する。 そこで本研究では,個々の言語スクリプトにおけるテキスト表現の相互注意とアライメントを利用した言語間知識共有アーキテクチャを提案する。 ネパール英語とヒンズー英語のコード切り換えテキストを含む2つの異なるデータセットに関する実験結果は,提案手法の有効性を示している。 モデル説明可能性を用いたモデルの解釈は、言語固有の表現間の言語固有の知識の共有を示す。

Code-switching entails mixing multiple languages. It is an increasingly occurring phenomenon in social media texts. Usually, code-mixed texts are written in a single script, even though the languages involved have different scripts. Pre-trained multilingual models primarily utilize the data in the native script of the language. In existing studies, the code-switched texts are utilized as they are. However, using the native script for each language can generate better representations of the text owing to the pre-trained knowledge. Therefore, a cross-language-script knowledge sharing architecture utilizing the cross attention and alignment of the representations of text in individual language scripts was proposed in this study. Experimental results on two different datasets containing Nepali-English and Hindi-English code-switched texts, demonstrate the effectiveness of the proposed method. The interpretation of the model using model explainability technique illustrates the sharing of language-specific knowledge between language-specific representations.
翻訳日:2024-02-08 17:08:02 公開日:2024-02-07
# BRI3L:視線知覚領域の同定と位置推定のための明度Illusion画像データセット

BRI3L: A Brightness Illusion Image Dataset for Identification and Localization of Regions of Illusory Perception ( http://arxiv.org/abs/2402.04541v1 )

ライセンス: Link先を確認
Aniket Roy, Anirban Roy, Soma Mitra, Kuntal Ghosh(参考訳) 視覚錯覚は視覚知覚を理解する上で重要な役割を果たしている。 現在の視覚錯覚の理解と評価の方法は、ほとんどが決定論的フィルタリングに基づくアプローチであり、少数の視覚錯覚を評価しているため、結論は一般的ではない。 この目的のために,5種類の輝度錯覚の2,366画像(bri3l: 輝度錯視画像データセット)の大規模データセットを作成し,データ駆動型ニューラルネットワークを用いてデータセットをベンチマークする。 データセットは、(1)特定の画像がイラスト/非イラストであるか、(2)画像のイラスト領域のセグメンテーションマスクであるか、というラベル情報を含む。 したがって、このデータセットを用いて分類と分割のタスクを評価できる。 我々は、被験者がデータセットを検証するための標準的な心理物理学実験に従う。 私たちの知る限りでは、これは錯視分類とローカライゼーションのためのデータ駆動アプローチを用いた視覚錯覚とベンチマークのデータセットを開発する最初の試みです。 我々は5つのよく研究された明るさ錯覚について考察する。 1)ヘルマングリッド 2)同時輝度コントラスト 3)白い幻想。 4) 格子錯視、及び 5)グレーティング錯覚を誘発する。 データセットのベンチマークでは、イリュージョンの精度は99.56%、イリュージョンのローカライゼーションの精度は84.37%である。 深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさ錯覚を一般化する。 また,定常拡散モデルを用いて輝度錯覚を生成する能力についても検証した。 githubリポジトリにあるすべてのコード、データセット、命令などを提供しています。

Visual illusions play a significant role in understanding visual perception. Current methods in understanding and evaluating visual illusions are mostly deterministic filtering based approach and they evaluate on a handful of visual illusions, and the conclusions therefore, are not generic. To this end, we generate a large-scale dataset of 22,366 images (BRI3L: BRightness Illusion Image dataset for Identification and Localization of illusory perception) of the five types of brightness illusions and benchmark the dataset using data-driven neural network based approaches. The dataset contains label information - (1) whether a particular image is illusory/nonillusory, (2) the segmentation mask of the illusory region of the image. Hence, both the classification and segmentation task can be evaluated using this dataset. We follow the standard psychophysical experiments involving human subjects to validate the dataset. To the best of our knowledge, this is the first attempt to develop a dataset of visual illusions and benchmark using data-driven approach for illusion classification and localization. We consider five well-studied types of brightness illusions: 1) Hermann grid, 2) Simultaneous Brightness Contrast, 3) White illusion, 4) Grid illusion, and 5) Induced Grating illusion. Benchmarking on the dataset achieves 99.56% accuracy in illusion identification and 84.37% pixel accuracy in illusion localization. The application of deep learning model, it is shown, also generalizes over unseen brightness illusions like brightness assimilation to contrast transitions. We also test the ability of state-of-theart diffusion models to generate brightness illusions. We have provided all the code, dataset, instructions etc in the github repo: https://github.com/aniket004/BRI3L
翻訳日:2024-02-08 17:07:48 公開日:2024-02-07
# ソフト自己生成指導による多様な政策の学習

Learning Diverse Policies with Soft Self-Generated Guidance ( http://arxiv.org/abs/2402.04539v1 )

ライセンス: Link先を確認
Guojian Wang, Faguo Wu, Xiao Zhang, Jianxiang Liu(参考訳) 非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬を伴う強化学習(RL)は困難である。 したがって、エージェントが計算した勾配は確率的であり、有効な情報がない。 過去のメモリバッファを用いた最近の研究は、より効率的な学習プロセスをもたらす可能性がある。 しかし、既存の手法では、しばしばこれらの経験を成功させる必要があり、過度に悪用される可能性があるため、エージェントが最適な振る舞いを採用する可能性がある。 本稿では, 様々な過去の軌跡を, より高速かつ効率的なオンラインRLに活用する手法を開発した。 提案手法は,オフラインデモデータを用いたポリシー改善ステップと追加探索ステップを組み合わせたものである。 本論文の主な貢献は,様々な過去の軌跡を指導として,それを模倣する代わりに,その方針を指示して過去の軌跡を追従し拡大し,報奨や最適性に近づくことなく学習できる点にある。 さらに、チームの多様性を維持し、探索を規制するために、新しい多様性測定が導入された。 提案アルゴリズムは, 離散的かつ連続的な制御タスクに対して, まばらで誤認的な報酬で評価する。 既存のrl法と比較すると,提案手法は多彩な探索と局所視能の回避に関するベースライン法より有意に優れていることが示唆された。

Reinforcement learning (RL) with sparse and deceptive rewards is challenging because non-zero rewards are rarely obtained. Hence, the gradient calculated by the agent can be stochastic and without valid information. Recent studies that utilize memory buffers of previous experiences can lead to a more efficient learning process. However, existing methods often require these experiences to be successful and may overly exploit them, which can cause the agent to adopt suboptimal behaviors. This paper develops an approach that uses diverse past trajectories for faster and more efficient online RL, even if these trajectories are suboptimal or not highly rewarded. The proposed algorithm combines a policy improvement step with an additional exploration step using offline demonstration data. The main contribution of this paper is that by regarding diverse past trajectories as guidance, instead of imitating them, our method directs its policy to follow and expand past trajectories while still being able to learn without rewards and approach optimality. Furthermore, a novel diversity measurement is introduced to maintain the team's diversity and regulate exploration. The proposed algorithm is evaluated on discrete and continuous control tasks with sparse and deceptive rewards. Compared with the existing RL methods, the experimental results indicate that our proposed algorithm is significantly better than the baseline methods regarding diverse exploration and avoiding local optima.
翻訳日:2024-02-08 17:07:16 公開日:2024-02-07
# トリプルト相互作用によるグラフ変換器の改良:トリプルトグラフ変換器を用いた正確な分子グラフ学習

Triplet Interaction Improves Graph Transformers: Accurate Molecular Graph Learning with Triplet Graph Transformers ( http://arxiv.org/abs/2402.04538v1 )

ライセンス: Link先を確認
Md Shamim Hussain, Mohammed J. Zaki and Dharmashankar Subramanian(参考訳) グラフトランスフォーマーは通常、ペア対ペア通信を欠き、代わりに隣のペアが共通のノードを介して情報を交換する。 本稿では,新しい三重項注意とアグリゲーション機構を介してグラフ内の2つの隣接ペア間の直接通信を可能にする三重項グラフトランスフォーマ(tgt)を提案する。 tgtは、2dグラフから原子間距離を最初に予測し、それらの距離を下流タスクに使用することで分子特性予測に適用される。 新たな3段階トレーニング手順と確率推論により、トレーニング効率とモデル性能がさらに向上する。 本モデルでは,PCQM4Mv2 と OC20 IS2RE のオープンチャレンジベンチマークを用いて,SOTA(State-of-the-art)の新たな結果を得る。 また、転送学習により、QM9、MOLPCBA、LIT-PCBA分子特性予測ベンチマークのSOTA結果を得る。 また、旅行セールスマン問題(TSP)において、SOTAによるTGTの一般性を示す。

Graph transformers typically lack direct pair-to-pair communication, instead forcing neighboring pairs to exchange information via a common node. We propose the Triplet Graph Transformer (TGT) that enables direct communication between two neighboring pairs in a graph via novel triplet attention and aggregation mechanisms. TGT is applied to molecular property prediction by first predicting interatomic distances from 2D graphs and then using these distances for downstream tasks. A novel three-stage training procedure and stochastic inference further improve training efficiency and model performance. Our model achieves new state-of-the-art (SOTA) results on open challenge benchmarks PCQM4Mv2 and OC20 IS2RE. We also obtain SOTA results on QM9, MOLPCBA, and LIT-PCBA molecular property prediction benchmarks via transfer learning. We also demonstrate the generality of TGT with SOTA results on the traveling salesman problem (TSP).
翻訳日:2024-02-08 17:06:53 公開日:2024-02-07
# RA-Rec: LLMに基づくレコメンデーションのための効率的なID表現アライメントフレームワーク

RA-Rec: An Efficient ID Representation Alignment Framework for LLM-based Recommendation ( http://arxiv.org/abs/2402.04527v1 )

ライセンス: Link先を確認
Xiaohan Yu, Li Zhang, Xin Zhao, Yue Wang, Zhongrui Ma(参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理タスクのための強力なツールとして登場し、LLMベースのRSと呼ばれるレコメンデーションシステムとLLMを組み合わせる、新たな飛躍をもたらした。 現在のアプローチは一般的に、ID直接利用パラダイムとID翻訳パラダイムという2つの主要なパラダイムに分類される。 この制限に対処するために,LLMに事前学習したIDを組み込んだID表現という新しいパラダイムを提案する。 本稿では,複数のIDベースの手法やLLMアーキテクチャと互換性のあるLLMレコメンデーションのための効率的なID表現アライメントフレームワークであるRA-Recを提案する。 具体的には,ID埋め込みをソフトプロンプトとして扱い,新しいアライメントモジュールとアライメントに適したデータ構造を持つ効率的なチューニング手法を設計する。 大規模な実験では、RA-Recが現在の最先端メソッドを大幅に上回り、最大3.0%のHitRate@100の改善を達成し、10倍のトレーニングデータを活用する。

Large language models (LLM) have recently emerged as a powerful tool for a variety of natural language processing tasks, bringing a new surge of combining LLM with recommendation systems, termed as LLM-based RS. Current approaches generally fall into two main paradigms, the ID direct usage paradigm and the ID translation paradigm, noting their core weakness stems from lacking recommendation knowledge and uniqueness. To address this limitation, we propose a new paradigm, ID representation, which incorporates pre-trained ID embeddings into LLMs in a complementary manner. In this work, we present RA-Rec, an efficient ID representation alignment framework for LLM-based recommendation, which is compatible with multiple ID-based methods and LLM architectures. Specifically, we treat ID embeddings as soft prompts and design an innovative alignment module and an efficient tuning method with tailored data construction for alignment. Extensive experiments demonstrate RA-Rec substantially outperforms current state-of-the-art methods, achieving up to 3.0% absolute HitRate@100 improvements while utilizing less than 10x training data.
翻訳日:2024-02-08 17:06:36 公開日:2024-02-07
# 量子散逸ダイナミクスにおける多重時間スケールの理解:量子軌道からの洞察

Understanding multiple timescales in quantum dissipative dynamics: Insights from quantum trajectories ( http://arxiv.org/abs/2402.04524v1 )

ライセンス: Link先を確認
Matthew Gerry, Michael J. Kewming, and Dvira Segal(参考訳) ほぼ縮退したエネルギー準位を持つ開量子系は、リンドブラッド型量子マスター方程式でモデル化されたとしても、平衡へのアプローチにおいて長寿命の準安定状態を示すことが示されている。 これはリウヴィリアン固有値の違いによる時間スケールの劇的な分離の結果である。 これらの準安定状態はしばしば非ゼロコヒーレンスを持ち、系が熱平衡に達すると、長い時間でしか死なない。 この効果をもたらす2つの異なる状況について検討する: 散逸的ダイナミクスは、ほぼ退化部分空間内でのみ状態が結合する状態と、それらが分離されたほぼ退化部分空間の間の有限エネルギー分割を飛び越える状態である。 それぞれのケースにおいて、基底の変化は、エネルギー固有ベイジよりもシステム-バス相互作用の影響を自然に捉え、別々の時間スケールが別々のプロセス(例えば非エネルギー固有ベイジへのデコヒーレンス、初期状態への人口相関の崩壊)と関連していることを示す表現につながることがしばしば見出される。 このアプローチは、量子軌道の検査と組み合わせることで、コヒーレント振動、熱緩和、デコヒーレンスが同時に発生する場合のオープンシステムの進化がどのように特徴づけられるかを直感的に示す。

Open quantum systems with nearly degenerate energy levels have been shown to exhibit long-lived metastable states in the approach to equilibrium, even when modelled with certain Lindblad-form quantum master equations. This is a result of dramatic separation of timescales due to differences between Liouvillian eigenvalues. These metastable states often have nonzero coherences which die off only in the long time limit once the system reaches thermal equilibrium. We examine two distinct situations that give rise to this effect: one in which dissipative dynamics couple together states only within a nearly degenerate subspace, and one in which they give rise to jumps over finite energy splittings, between separate nearly degenerate subspaces. We find, in each case, that a change of basis can often lead to a representation which more naturally captures the impact of the system-bath interaction than does the energy eigenbasis, revealing that separate timescales are associated with separate processes (e.g. decoherence into a non-energy eigenbasis, decay of population correlations to the initial state). This approach is paired with the inspection of quantum trajectories, which further provide intuition as to how open system evolution is characterized when coherent oscillations, thermal relaxation, and decoherence all occur simultaneously.
翻訳日:2024-02-08 17:06:16 公開日:2024-02-07
# SumRec:オープンドメイン対話を用いた推薦フレームワーク

SumRec: A Framework for Recommendation using Open-Domain Dialogue ( http://arxiv.org/abs/2402.04523v1 )

ライセンス: Link先を確認
Ryutaro Asahara, Masaki Takahashi, Chiho Iwahashi, Michimasa Inaba(参考訳) チャット対話には、話者の興味や好み、経験に関する有用な情報が含まれているが、オープンドメインのチャット対話からの知識は、様々なシステムをパーソナライズし、高度な情報を提供するために利用することができる。 To extract the speaker and item characteristics, the SumRec framework employs a large language model (LLM) to generate a summary of the speaker information from a dialogue and to recommend information about an item according to the type of user.The speaker and item information are then input into a score estimation model, generating a recommendation score.Experimental results show that the SumRec framework provides better recommendations than the baseline method of using dialogues and item descriptions in their original form. 私たちのデータセットとコードはhttps://github.com/Ryutaro-A/SumRecで公開されています。

Chat dialogues contain considerable useful information about a speaker's interests, preferences, and experiences.Thus, knowledge from open-domain chat dialogue can be used to personalize various systems and offer recommendations for advanced information.This study proposed a novel framework SumRec for recommending information from open-domain chat dialogue.The study also examined the framework using ChatRec, a newly constructed dataset for training and evaluation. To extract the speaker and item characteristics, the SumRec framework employs a large language model (LLM) to generate a summary of the speaker information from a dialogue and to recommend information about an item according to the type of user.The speaker and item information are then input into a score estimation model, generating a recommendation score.Experimental results show that the SumRec framework provides better recommendations than the baseline method of using dialogues and item descriptions in their original form. Our dataset and code is publicly available at https://github.com/Ryutaro-A/SumRec
翻訳日:2024-02-08 17:05:50 公開日:2024-02-07
# 現代ホップフィールドモデルの計算極限について:細粒度複素度解析

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis ( http://arxiv.org/abs/2402.04520v1 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Thomas Lin, Zhao Song, Han Liu(参考訳) 細粒度複雑性解析から現代のホップフィールドモデルのメモリ検索ダイナミクスの計算限界について検討する。 我々の重要な貢献は、パターンのノルムに基づく全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。 具体的には,入力クエリパターンとメモリパターンのノルムの上限基準を定式化する。 この基準の下には、Strong Exponential Time hypothesis (SETH) を仮定して、現代のホップフィールドモデルの準四進的(効率的な)変種が存在する。 この理論を提示するために, 効率のよい基準が成り立つとき, 低ランク近似を用いた現代ホップフィールドモデルの効率的な構成の形式的例を示す。 これには、計算時間に対する低いバウンダリの導出、ストアドメモリパターンの$\Max\{#、入力クエリシーケンス$\}$の長さとの線形スケーリングが含まれる。 さらに,メモリ検索エラーのバウンドと指数的メモリ容量を証明した。

We investigate the computational limits of the memory retrieval dynamics of modern Hopfield models from the fine-grained complexity analysis. Our key contribution is the characterization of a phase transition behavior in the efficiency of all possible modern Hopfield models based on the norm of patterns. Specifically, we establish an upper bound criterion for the norm of input query patterns and memory patterns. Only below this criterion, sub-quadratic (efficient) variants of the modern Hopfield model exist, assuming the Strong Exponential Time Hypothesis (SETH). To showcase our theory, we provide a formal example of efficient constructions of modern Hopfield models using low-rank approximation when the efficient criterion holds. This includes a derivation of a lower bound on the computational time, scaling linearly with $\Max\{$# of stored memory patterns, length of input query sequence$\}$. In addition, we prove its memory retrieval error bound and exponential memory capacity.
翻訳日:2024-02-08 17:05:37 公開日:2024-02-07
# biodrone: ロバストな視覚のためのドローンベースの単一物体追跡ベンチマーク

BioDrone: A Bionic Drone-based Single Object Tracking Benchmark for Robust Vision ( http://arxiv.org/abs/2402.04519v1 )

ライセンス: Link先を確認
Xin Zhao and Shiyu Hu and Yipei Wang and Jing Zhang and Yimin Hu and Rongshuai Liu and Haibin Ling and Yin Li and Renshu Li and Kun Liu and Jiadong Li(参考訳) 単一物体追跡(sot: single object tracking)は、自動運転、拡張現実、ロボットナビゲーションなど幅広い応用分野において、コンピュータビジョンにおける根本的な問題である。 SOTの堅牢性は2つの大きな課題に直面している。 これらの課題は、無人航空機(UAV)が撮影したビデオに特に現れ、標的は通常カメラから遠く離れており、しばしばカメラに対して大きな動きをしている。 SOT手法のロバスト性を評価するため,SOTのためのバイオドローンベースのビジュアルベンチマークであるBioDroneを提案する。 既存のUAVデータセットとは異なり、BioDroneは羽ばたきUAVシステムから撮影したビデオを特徴としている。 そこでBioDroneは、連続するフレーム間の劇的な変化を伴う小さなターゲットの追跡を強調し、SOTの新しい堅牢なビジョンベンチマークを提供する。 これまでBioDroneは、UAVベースの最大のSOTベンチマークを提供し、高品質なマニュアルアノテーションと、堅牢な視覚分析のために設計されたフレームレベルのラベルを自動的に生成している。 提案したBioDroneを利用して,既存のSOT手法を体系的に評価し,20種類の代表モデルの性能を比較し,SOTA法(KeepTrack KeepTrack)をロバストSOTに最適化する新しい手法について検討する。 我々の評価は、堅牢なSOTのための新たなベースラインと洞察につながる。 今後、biodroneがロバストなsotの高品質なベンチマークになるだけでなく、ロバストなコンピュータビジョンに関する今後の研究も期待したい”。 データベース、ツールキット、評価サーバ、ベースラインの結果はhttp://biodrone.aitestunion.comで公開されている。

Single object tracking (SOT) is a fundamental problem in computer vision, with a wide range of applications, including autonomous driving, augmented reality, and robot navigation. The robustness of SOT faces two main challenges: tiny target and fast motion. These challenges are especially manifested in videos captured by unmanned aerial vehicles (UAV), where the target is usually far away from the camera and often with significant motion relative to the camera. To evaluate the robustness of SOT methods, we propose BioDrone -- the first bionic drone-based visual benchmark for SOT. Unlike existing UAV datasets, BioDrone features videos captured from a flapping-wing UAV system with a major camera shake due to its aerodynamics. BioDrone hence highlights the tracking of tiny targets with drastic changes between consecutive frames, providing a new robust vision benchmark for SOT. To date, BioDrone offers the largest UAV-based SOT benchmark with high-quality fine-grained manual annotations and automatically generates frame-level labels, designed for robust vision analyses. Leveraging our proposed BioDrone, we conduct a systematic evaluation of existing SOT methods, comparing the performance of 20 representative models and studying novel means of optimizing a SOTA method (KeepTrack KeepTrack) for robust SOT. Our evaluation leads to new baselines and insights for robust SOT. Moving forward, we hope that BioDrone will not only serve as a high-quality benchmark for robust SOT, but also invite future research into robust computer vision. The database, toolkits, evaluation server, and baseline results are available at http://biodrone.aitestunion.com.
翻訳日:2024-02-08 17:05:21 公開日:2024-02-07
# グラフ上の確率測度に対する一般化ソボレフ輸送

Generalized Sobolev Transport for Probability Measures on a Graph ( http://arxiv.org/abs/2402.04516v1 )

ライセンス: Link先を確認
Tam Le, Truyen Nguyen, Kenji Fukumizu(参考訳) グラフ計量空間上で支援される測度に対する最適輸送(ot)問題について検討する。 最近、Le et al. (2022) はグラフ構造を利用し、高速な計算のために閉形式表現を生成する OT の変種、すなわち Sobolev transport (ST) を提案する。 しかし、ST は定義の中で $L^p$ の幾何構造と結合しているため、他の先行構造に対して ST を利用するのは自明ではない。 対照的に古典的なOTは、基礎となるコスト関数を変更して様々な幾何学構造に適応する柔軟性を持っている。 重要な例はOrlicz-Wasserstein (OW) であり、これは \emph{Orlicz 幾何構造を利用して$L^p$構造を超えて動く。 標準的な$p$-order wassersteinの使用と比較すると、owは特定の機械学習アプローチを進めるのに非常に役立ちます。 それでもOWは、2レベル最適化の定式化により、計算に新たな課題を提起している。 本研究では,Orlicz構造に対する特定の凸関数のクラスを利用して,一般化ソボレフ輸送(GST)を提案する。 GSTはSTを特別な場合として包含し、$L^p$幾何を超える事前構造に利用できる。 OW に関して、OW の複雑な二段階最適化問題とは異なり、GST を計算するには単変量最適化問題を単に解くだけでよいことを示す。 GSTはOWよりも数桁高速であることを示す。 さらに,文書分類におけるGSTの利点とトポロジカルデータ解析におけるいくつかの課題について,予備的な証拠を提供する。

We study the optimal transport (OT) problem for measures supported on a graph metric space. Recently, Le et al. (2022) leverage the graph structure and propose a variant of OT, namely Sobolev transport (ST), which yields a closed-form expression for a fast computation. However, ST is essentially coupled with the $L^p$ geometric structure within its definition which makes it nontrivial to utilize ST for other prior structures. In contrast, the classic OT has the flexibility to adapt to various geometric structures by modifying the underlying cost function. An important instance is the Orlicz-Wasserstein (OW) which moves beyond the $L^p$ structure by leveraging the \emph{Orlicz geometric structure}. Comparing to the usage of standard $p$-order Wasserstein, OW remarkably helps to advance certain machine learning approaches. Nevertheless, OW brings up a new challenge on its computation due to its two-level optimization formulation. In this work, we leverage a specific class of convex functions for Orlicz structure to propose the generalized Sobolev transport (GST). GST encompasses the ST as its special case, and can be utilized for prior structures beyond the $L^p$ geometry. In connection with the OW, we show that one only needs to simply solve a univariate optimization problem to compute the GST, unlike the complex two-level optimization problem in OW. We empirically illustrate that GST is several-order faster than the OW. Moreover, we provide preliminary evidences on the advantages of GST for document classification and for several tasks in topological data analysis.
翻訳日:2024-02-08 17:04:51 公開日:2024-02-07
# 次世代ネットワークにおける適応的トラフィックルーティングのための深層強化学習手法

A Deep Reinforcement Learning Approach for Adaptive Traffic Routing in Next-gen Networks ( http://arxiv.org/abs/2402.04515v1 )

ライセンス: Link先を確認
Akshita Abrol, Purnima Murali Mohan, Tram Truong-Huu(参考訳) 次世代ネットワークは、トラフィックダイナミクスに基づいたネットワーク構成の自動化と適応的な調整を可能にするために、管理の大幅な進化を必要とする。 ソフトウェア定義ネットワーク(SDN)とプログラマブルスイッチの出現は、柔軟性とプログラマビリティを実現する。 しかし、トラフィックポリシーを決定する伝統的な手法は通常、手作りのプログラミング最適化とヒューリスティックアルゴリズムに基づいている。 これらの手法は、例えば静的ネットワークの負荷とトポロジーを考慮して、次世代ネットワークでは不十分な扱いやすい解を得るために非現実的な仮定をする。 本稿では、適応的なトラフィックルーティングのための深層強化学習(DRL)アプローチを設計・開発する。 我々は,drlフレームワークに統合されたディープグラフ畳み込みニューラルネットワーク(dgcnn)を設計し,ネットワークトポロジだけでなく,リンクやノード属性からもトラフィック挙動を学習する。 我々は、DGCNNモデルをDRLフレームワークでトレーニングするためにDeep Q-Learning技術を採用し、ラベル付きトレーニングデータセットを必要とせずに、フレームワークがトラフィックダイナミクスに迅速に適応できるようにする。 モデルはq値の推定を利用して、トラフィックフロー要求毎にルーティングパスを選択し、探索とエクスプロイトのバランスをとる。 我々は,様々な交通パターンを用いた広範な実験を行い,提案手法の性能をOSPFプロトコルと比較した。 実験の結果,OSPFと比較してネットワークスループットを最大7.8%向上し,トラフィック遅延を最大16.1%低減することで,提案手法の有効性と適応性を示した。

Next-gen networks require significant evolution of management to enable automation and adaptively adjust network configuration based on traffic dynamics. The advent of software-defined networking (SDN) and programmable switches enables flexibility and programmability. However, traditional techniques that decide traffic policies are usually based on hand-crafted programming optimization and heuristic algorithms. These techniques make non-realistic assumptions, e.g., considering static network load and topology, to obtain tractable solutions, which are inadequate for next-gen networks. In this paper, we design and develop a deep reinforcement learning (DRL) approach for adaptive traffic routing. We design a deep graph convolutional neural network (DGCNN) integrated into the DRL framework to learn the traffic behavior from not only the network topology but also link and node attributes. We adopt the Deep Q-Learning technique to train the DGCNN model in the DRL framework without the need for a labeled training dataset, enabling the framework to quickly adapt to traffic dynamics. The model leverages q-value estimates to select the routing path for every traffic flow request, balancing exploration and exploitation. We perform extensive experiments with various traffic patterns and compare the performance of the proposed approach with the Open Shortest Path First (OSPF) protocol. The experimental results show the effectiveness and adaptiveness of the proposed framework by increasing the network throughput by up to 7.8% and reducing the traffic delay by up to 16.1% compared to OSPF.
翻訳日:2024-02-08 17:04:23 公開日:2024-02-07
# ストリーム上の効率的な推論のためのオンラインカスケード学習

Online Cascade Learning for Efficient Inference over Streams ( http://arxiv.org/abs/2402.04513v1 )

ライセンス: Link先を確認
Lunyiu Nie, Zhimin Ding, Erdong Hu, Christopher Jermaine, Swarat Chaudhuri(参考訳) 大規模言語モデル(LLM)は、データストリームに関する複雑なクエリに応答する自然な役割を持つが、LLM推論の計算コストが高いため、そのようなタスクの多くでは実現不可能である。 この課題に対処する最初のアプローチであるオンラインカスケード学習を提案する。 ここでの目的はモデルの"カスケード"を学習することであり、まず低容量モデル(ロジスティック回帰器など)から始まり、与えられた入力で使用されるモデルを決定する遅延ポリシーとともに強力なLCMで終わる。 我々は,オンライン学習カスケードのタスクを模倣学習問題として定式化し,その問題に対する無反応アルゴリズムを与える。 4つのベンチマークによる実験結果から,提案手法は推定コストを最大90%削減しつつ,LLMを精度良く並列化し,ストリーム処理の有効性と適応性を実証した。

Large Language Models (LLMs) have a natural role in answering complex queries about data streams, but the high computational cost of LLM inference makes them infeasible in many such tasks. We propose online cascade learning, the first approach to addressing this challenge. The objective here is to learn a "cascade" of models, starting with lower-capacity models (such as logistic regressors) and ending with a powerful LLM, along with a deferral policy that determines the model that is used on a given input. We formulate the task of learning cascades online as an imitation-learning problem and give a no-regret algorithm for the problem. Experimental results across four benchmarks show that our method parallels LLMs in accuracy while cutting down inference costs by as much as 90%, underscoring its efficacy and adaptability in stream processing.
翻訳日:2024-02-08 17:03:58 公開日:2024-02-07
# デュアルアウトプットスパイキングアーキテクチャ(dosa)を用いた連続多段学習における不均衡ロバスト性向上に向けて

Towards Improved Imbalance Robustness in Continual Multi-Label Learning with Dual Output Spiking Architecture (DOSA) ( http://arxiv.org/abs/2402.04596v1 )

ライセンス: Link先を確認
Sourav Mishra, Shirin Dora and Suresh Sundaram(参考訳) 典型的な教師付き分類問題に対処するために設計されたアルゴリズムは、固定されたサンプルとラベルのセットからのみ学習できるため、データは時間とともに複数のラベルに関連付けられたサンプルのストリームとして到着する現実世界には適さない。 これはタスクに依存しない連続的マルチラベル学習問題の研究を動機付ける。 近年の文献では,深層学習手法を用いた連続的多段学習のアルゴリズムが提案されているが,計算量が多い傾向がある。 スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワークに代わる計算効率の良い代替手段を提供するが、既存の文献では連続的なマルチラベル学習にはSNNを使用していない。 また、SNNで複数のラベルを正確に決定することは、まだオープンな研究課題である。 この研究は、これらの研究ギャップを埋めるための二重出力スパイクアーキテクチャ(DOSA)を提案する。 また,データ不均衡に対するロバスト性を高めることにより,モデルのマルチラベル分類性能を向上させる新しい不均衡認識損失関数を提案する。 不均衡処理における損失関数の有効性を評価するため、修正F1スコアが提示される。 いくつかのベンチマークマルチラベルデータセットの実験により、提案した損失関数でトレーニングされたDOSAは、データ不均衡に対するロバスト性を向上し、従来の最先端アルゴリズムであるCIFDMよりも優れた連続マルチラベル学習性能が得られることが示された。

Algorithms designed for addressing typical supervised classification problems can only learn from a fixed set of samples and labels, making them unsuitable for the real world, where data arrives as a stream of samples often associated with multiple labels over time. This motivates the study of task-agnostic continual multi-label learning problems. While algorithms using deep learning approaches for continual multi-label learning have been proposed in the recent literature, they tend to be computationally heavy. Although spiking neural networks (SNNs) offer a computationally efficient alternative to artificial neural networks, existing literature has not used SNNs for continual multi-label learning. Also, accurately determining multiple labels with SNNs is still an open research problem. This work proposes a dual output spiking architecture (DOSA) to bridge these research gaps. A novel imbalance-aware loss function is also proposed, improving the multi-label classification performance of the model by making it more robust to data imbalance. A modified F1 score is presented to evaluate the effectiveness of the proposed loss function in handling imbalance. Experiments on several benchmark multi-label datasets show that DOSA trained with the proposed loss function shows improved robustness to data imbalance and obtains better continual multi-label learning performance than CIFDM, a previous state-of-the-art algorithm.
翻訳日:2024-02-08 16:56:29 公開日:2024-02-07
# S-Agents:オープンエンド環境における自己組織化剤

S-Agents: self-organizing agents in open-ended environment ( http://arxiv.org/abs/2402.04578v1 )

ライセンス: Link先を確認
Jiaqi Chen and Yuxian Jiang and Jiachen Lu and Li Zhang(参考訳) 大規模言語モデル(LLM)を活用することで、自律エージェントは大幅に改善され、さまざまなタスクを処理できるようになった。 オープンエンド設定では、効率と有効性のためのコラボレーションの最適化は柔軟な調整を必要とする。 それにもかかわらず、現在の研究は主に固定的でタスク指向のワークフローを強調し、エージェント中心の組織構造を見落としています。 人間の組織行動からインスピレーションを得て,動的ワークフローのための「エージェントツリー」構造を備えた自己組織化エージェントシステム(S-Agents),情報優先順位のバランスをとる「時間ガラスエージェントアーキテクチャ」,エージェント間の非同期タスク実行を可能にする「非障害物協調」手法を導入する。 この構造はエージェントのグループを自律的に調整でき、人間の介入なしにオープンでダイナミックな環境の課題に効率的に対処できる。 実験の結果,S-AgentsはMinecraft環境で協調作業や資源収集を行い,その効果を検証した。

Leveraging large language models (LLMs), autonomous agents have significantly improved, gaining the ability to handle a variety of tasks. In open-ended settings, optimizing collaboration for efficiency and effectiveness demands flexible adjustments. Despite this, current research mainly emphasizes fixed, task-oriented workflows and overlooks agent-centric organizational structures. Drawing inspiration from human organizational behavior, we introduce a self-organizing agent system (S-Agents) with a "tree of agents" structure for dynamic workflow, an "hourglass agent architecture" for balancing information priorities, and a "non-obstructive collaboration" method to allow asynchronous task execution among agents. This structure can autonomously coordinate a group of agents, efficiently addressing the challenges of an open and dynamic environment without human intervention. Our experiments demonstrate that S-Agents proficiently execute collaborative building tasks and resource collection in the Minecraft environment, validating their effectiveness.
翻訳日:2024-02-08 16:56:06 公開日:2024-02-07
# コードスニペットを必要とするstack overflowの質問を特定できますか? コードスニペットの欠落原因と影響の調査

Can We Identify Stack Overflow Questions Requiring Code Snippets? Investigating the Cause & Effect of Missing Code Snippets ( http://arxiv.org/abs/2402.04575v1 )

ライセンス: Link先を確認
Saikat Mondal, Mohammad Masudur Rahman, Chanchal K. Roy(参考訳) Stack Overflow(SO)のQ&Aサイトでは、コードに関連する問題(エラー、予期せぬ振る舞いなど)に対するソリューションをリクエストすることが多い。 残念ながら、質問の提出中に必要なコードスニペットを見逃すことが多いため、質問が迅速かつ適切な回答を得るのを防げる可能性がある。 本研究では,必要な質問に対して,コードスニペットの欠落の原因と効果を実験的に検討する。 ここで、私たちの貢献は3倍です。 まず、要求されたコードスニペットの有無が、質問タイプ(ミスコード、リクエスト後のコード、提出中のコードスニペット)と対応するメタデータ(例えば、受け入れられた回答の存在)の相関にどのように影響するかを分析します。 私たちの分析によると、質問の提出中に必要なコードスニペットを含む質問に対して、受け入れられた回答を得る確率は、コードを見逃した質問よりも3倍高い。 また,要求されるコードスニペットの有無以外に,回答を受け取る質問に影響する要因(例えばユーザ評価)について検討する。 このような要因が,必要なコードスニペットの有無とメタデータの回答の相関性に影響を与えないことが分かりました。 次に、必要なコードスニペットを見逃す理由を理解するために、64人の実践者を調査しました。 約60%は、ユーザーが自分の質問がコードスニペットを必要とするかどうか知らないことに同意している。 第三に、テキストベースの4つの特徴(キーワードなど)を抽出し、6つのMLモデルを構築し、コードスニペットを必要とする問題を特定する。 我々のモデルは86.5%の精度、90.8%のリコール、85.3%のf1-score、85.2%の精度でターゲットの質問を予測できる。 私たちの仕事は、プログラミングの質問応答においてかなりの時間を節約し、未解決の質問を減らすことによって、価値のある知識ベースの品質を向上させる可能性を秘めています。

On the Stack Overflow (SO) Q&A site, users often request solutions to their code-related problems (e.g., errors, unexpected behavior). Unfortunately, they often miss required code snippets during their question submission, which could prevent their questions from getting prompt and appropriate answers. In this study, we conduct an empirical study investigating the cause & effect of missing code snippets in SO questions whenever required. Here, our contributions are threefold. First, we analyze how the presence or absence of required code snippets affects the correlation between question types (missed code, included code after requests & had code snippets during submission) and corresponding answer meta-data (e.g., presence of an accepted answer). According to our analysis, the chance of getting accepted answers is three times higher for questions that include required code snippets during their question submission than those that missed the code. We also investigate whether the confounding factors (e.g., user reputation) affect questions receiving answers besides the presence or absence of required code snippets. We found that such factors do not hurt the correlation between the presence or absence of required code snippets and answer meta-data. Second, we surveyed 64 practitioners to understand why users miss necessary code snippets. About 60% of them agree that users are unaware of whether their questions require any code snippets. Third, we thus extract four text-based features (e.g., keywords) and build six ML models to identify the questions that need code snippets. Our models can predict the target questions with 86.5% precision, 90.8% recall, 85.3% F1-score, and 85.2% overall accuracy. Our work has the potential to save significant time in programming question-answering and improve the quality of the valuable knowledge base by decreasing unanswered and unresolved questions.
翻訳日:2024-02-08 16:55:49 公開日:2024-02-07
# 進化するターゲットドメインに対する進歩的保守的適応

Progressive Conservative Adaptation for Evolving Target Domains ( http://arxiv.org/abs/2402.04573v1 )

ライセンス: Link先を確認
Gangming Zhao, Chaoqi Chen, Wenhao He, Chengwei Pan, Chaowei Fang, Jinpeng Li, Xilin Chen, and Yizhou Yu(参考訳) 従来のドメイン適応は、典型的にはソースドメインから定常ターゲットドメインに知識を転送する。 しかし、現実の多くのケースでは、ターゲットデータが順次出現し、連続的に分布が変化する。 このような対象データに対する復元と適応は、時間とともに計算とリソース消費をエスカレートする。 したがって、進化するドメイン適応(eda)問題、すなわち、歴史的なターゲットドメインにアクセスせずに進化するターゲットドメインにモデルを適用するために、アルゴリズムを考案することが不可欠である。 この目的を達成するために,progressive conservative adapt (pcada) という,単純かつ効果的なアプローチを提案する。 従来の分布から逸脱する新たなターゲットデータを管理するため、段階的に更新されたクラスプロトタイプに基づいて分類器ヘッドを微調整する。 さらに、最新のターゲットドメインに適応することで、以前のターゲットドメインから学んだ特徴に干渉する可能性があるため、保守的なスパースアテンション機構を開発する。 このメカニズムは必須次元における特徴適応を制限し、歴史的知識に関する推論を緩和する。 提案したPCAdaはメタラーニングフレームワークを用いて実装され,段階的に更新されたクラスプロトタイプを内ループに組み込むことで分類器の高速な適応を実現し,外ループの保守的スパース・アテンションを通じて,歴史的知識に強く干渉することなく一般化された特徴を学習する。 回転したmnist, caltran, portraitsデータセットの実験により,本手法の有効性が示された。

Conventional domain adaptation typically transfers knowledge from a source domain to a stationary target domain. However, in many real-world cases, target data usually emerge sequentially and have continuously evolving distributions. Restoring and adapting to such target data results in escalating computational and resource consumption over time. Hence, it is vital to devise algorithms to address the evolving domain adaptation (EDA) problem, \emph{i.e.,} adapting models to evolving target domains without access to historic target domains. To achieve this goal, we propose a simple yet effective approach, termed progressive conservative adaptation (PCAda). To manage new target data that diverges from previous distributions, we fine-tune the classifier head based on the progressively updated class prototypes. Moreover, as adjusting to the most recent target domain can interfere with the features learned from previous target domains, we develop a conservative sparse attention mechanism. This mechanism restricts feature adaptation within essential dimensions, thus easing the inference related to historical knowledge. The proposed PCAda is implemented with a meta-learning framework, which achieves the fast adaptation of the classifier with the help of the progressively updated class prototypes in the inner loop and learns a generalized feature without severely interfering with the historic knowledge via the conservative sparse attention in the outer loop. Experiments on Rotated MNIST, Caltran, and Portraits datasets demonstrate the effectiveness of our method.
翻訳日:2024-02-08 16:55:17 公開日:2024-02-07
# ChatGPTにおけるユーザインタラクションの強化:課題解決のための複数プロンプトの特性と統合

Enhancing User Interaction in ChatGPT: Characterizing and Consolidating Multiple Prompts for Issue Resolution ( http://arxiv.org/abs/2402.04568v1 )

ライセンス: Link先を確認
Saikat Mondal, Suborno Deb Bappon, Chanchal K. Roy(参考訳) プロンプトデザインは、ChatGPTの有効性を形作る上で重要な役割を担い、モデルが文脈的に正確な応答を抽出する能力に影響を与える。 従って、chatgptの実用性と性能を最大化するために最適なプロンプト構成が不可欠である。 しかし、不正確または曖昧な指示がChatGPTからの望ましくない応答を引き起こすため、準最適プロンプト設計は反復的な洗練を必要とする可能性がある。 既存の研究では、ChatGPTが生み出す応答の関連性を改善するためのいくつかの素早いパターンと戦略を探求している。 しかし、複数のプロンプトの提出を必要とする制約の探求はまだ未解決の試みである。 本研究では, コントリビューションが2つある。 まず、複数のイテレーションを必要とするプロンプトデザインのギャップを明らかにする。 特に、JavaやPythonに関連する問題を解決するために提出された686のプロンプトを手動で分析し、11のプロンプト設計ギャップ(例えば仕様の欠如)を特定します。 このようなギャップ探索はChatGPTにおける単一プロンプトの有効性を高めることができる。 次に,複数のプロンプトを1つのプロンプトに統合することにより,ChatGPT応答の再現を試みる。 プロンプトを4つのギャップ(例えば、コンテキストの欠如)で完全に統合し、3つのギャップ(例えば、追加機能)でプロンプトを部分的に統合することができる。 このような取り組みは、ユーザーがこれらのギャップを緩和するより最適なプロンプトを設計するための具体的な証拠を提供する。 我々の研究結果と証拠はできる。 (a)ユーザ時間を節約する (b)コストを削減し、 (c) ユーザの満足度を高める。

Prompt design plays a crucial role in shaping the efficacy of ChatGPT, influencing the model's ability to extract contextually accurate responses. Thus, optimal prompt construction is essential for maximizing the utility and performance of ChatGPT. However, sub-optimal prompt design may necessitate iterative refinement, as imprecise or ambiguous instructions can lead to undesired responses from ChatGPT. Existing studies explore several prompt patterns and strategies to improve the relevance of responses generated by ChatGPT. However, the exploration of constraints that necessitate the submission of multiple prompts is still an unmet attempt. In this study, our contributions are twofold. First, we attempt to uncover gaps in prompt design that demand multiple iterations. In particular, we manually analyze 686 prompts that were submitted to resolve issues related to Java and Python programming languages and identify eleven prompt design gaps (e.g., missing specifications). Such gap exploration can enhance the efficacy of single prompts in ChatGPT. Second, we attempt to reproduce the ChatGPT response by consolidating multiple prompts into a single one. We can completely consolidate prompts with four gaps (e.g., missing context) and partially consolidate prompts with three gaps (e.g., additional functionality). Such an effort provides concrete evidence to users to design more optimal prompts mitigating these gaps. Our study findings and evidence can - (a) save users time, (b) reduce costs, and (c) increase user satisfaction.
翻訳日:2024-02-08 16:54:52 公開日:2024-02-07
# 放射線治療における線量予測のためのマルチスケール微細化トリプレットコンストラントトランスフォーマ

Triplet-constraint Transformer with Multi-scale Refinement for Dose Prediction in Radiotherapy ( http://arxiv.org/abs/2402.04566v1 )

ライセンス: Link先を確認
Lu Wen, Qihun Zhang, Zhenghao Feng, Yuanyuan Xu, Xiao Chen, Jiliu Zhou, Yan Wang(参考訳) 放射線療法は、計画目標体積(PTV)に十分な放射線線量を適用しつつ、危険臓器(OAR)への線量障害を最小化することを目的とした、がんの主要な治療である。 畳み込みニューラルネットワーク(CNN)は、線量マップを予測して放射線治療計画を自動化する。 しかしながら、現在のCNNベースの手法では、線量マップにおける顕著な線量差、すなわち、内部のPTVにおける高線量値と外部のPTVにおける低線量差を無視し、準最適予測をもたらす。 本稿では,高品質な線量分布を予測するために,マルチスケール精細化による三重項制約変換器(TCtrans)を提案する。 具体的には、新しいPTV誘導三重項制約は、PTVの明示的な形状を利用して、内部および外部のPTVにおける線量特徴表現を洗練させるように設計されている。 さらに、複数のスケールで異なる復号層における三重項制約を効果的に満たすマルチスケールリファインメント(MSR)モジュールを導入する。 また、グローバルドシメトリの重要な知識を学ぶためにトランスフォーマエンコーダが考案されている。 臨床頸部癌データセットの実験は,本手法の優位性を示した。

Radiotherapy is a primary treatment for cancers with the aim of applying sufficient radiation dose to the planning target volume (PTV) while minimizing dose hazards to the organs at risk (OARs). Convolutional neural networks (CNNs) have automated the radiotherapy plan-making by predicting the dose maps. However, current CNN-based methods ignore the remarkable dose difference in the dose map, i.e., high dose value in the interior PTV while low value in the exterior PTV, leading to a suboptimal prediction. In this paper, we propose a triplet-constraint transformer (TCtrans) with multi-scale refinement to predict the high-quality dose distribution. Concretely, a novel PTV-guided triplet constraint is designed to refine dose feature representations in the interior and exterior PTV by utilizing the explicit geometry of PTV. Furthermore, we introduce a multi-scale refinement (MSR) module to effectively fulfill the triplet constraint in different decoding layers with multiple scales. Besides, a transformer encoder is devised to learn the important global dosimetric knowledge. Experiments on a clinical cervical cancer dataset demonstrate the superiority of our method.
翻訳日:2024-02-08 16:54:26 公開日:2024-02-07
# 注意ガイドCAM:自己注意ガイドによる視覚変換器の視覚的説明

Attention Guided CAM: Visual Explanations of Vision Transformer Guided by Self-Attention ( http://arxiv.org/abs/2402.04563v1 )

ライセンス: Link先を確認
Saebom Leem, Hyunseok Seo(参考訳) Vision Transformer (ViT) はコンピュータビジョン分野で最も広く使われているモデルの一つであり、様々なタスクにおいて優れた性能を持つ。 様々なアプリケーションでViTベースのアーキテクチャを完全に活用するためには、適切なローカライゼーション性能を持つ適切な可視化手法が必要であるが、CNNベースのモデルで使用されるこれらの手法は、そのユニークな構造のため、ViTでは利用できない。 本研究では,ViTに適応した注意誘導型可視化手法を提案し,その決定に対して高レベルなセマンティックな説明を提供する。 本手法は,分類出力から直接自己注意に伝播する勾配を選択的に集約し,入力画像の各位置から抽出した画像特徴の寄与を収集する。 これらの勾配は、ペアワイズパッチ相関スコアである正規化セルフアテンションスコアによってさらに導かれる。 自己着脱機構により効率的に検出されるパッチレベルのコンテキスト情報の勾配を補うために使用される。 本手法は,クラスラベルのみにローカライゼーション性能を付与した,詳細な高レベル意味説明を提供する。 その結果,本手法は弱教師付きローカライゼーションタスクにおけるViTの先進的な説明可能性手法よりも優れ,対象クラスオブジェクトの全インスタンスをキャプチャする優れた能力を示す。 一方,本手法は,摂動比較テストで示されるモデルを忠実に説明するための可視化を提供する。

Vision Transformer(ViT) is one of the most widely used models in the computer vision field with its great performance on various tasks. In order to fully utilize the ViT-based architecture in various applications, proper visualization methods with a decent localization performance are necessary, but these methods employed in CNN-based models are still not available in ViT due to its unique structure. In this work, we propose an attention-guided visualization method applied to ViT that provides a high-level semantic explanation for its decision. Our method selectively aggregates the gradients directly propagated from the classification output to each self-attention, collecting the contribution of image features extracted from each location of the input image. These gradients are additionally guided by the normalized self-attention scores, which are the pairwise patch correlation scores. They are used to supplement the gradients on the patch-level context information efficiently detected by the self-attention mechanism. This approach of our method provides elaborate high-level semantic explanations with great localization performance only with the class labels. As a result, our method outperforms the previous leading explainability methods of ViT in the weakly-supervised localization task and presents great capability in capturing the full instances of the target class object. Meanwhile, our method provides a visualization that faithfully explains the model, which is demonstrated in the perturbation comparison test.
翻訳日:2024-02-08 16:54:06 公開日:2024-02-07
# 大規模言語モデルエージェントは人間の信頼行動をシミュレートできるか?

Can Large Language Model Agents Simulate Human Trust Behaviors? ( http://arxiv.org/abs/2402.04559v1 )

ライセンス: Link先を確認
Chengxing Xie, Canyu Chen, Feiran Jia, Ziyu Ye, Kai Shu, Adel Bibi, Ziniu Hu, Philip Torr, Bernard Ghanem, Guohao Li(参考訳) 大規模言語モデル(llm)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとしてますます採用されている。 LLMエージェントは本当に人間の行動をシミュレートできるか? 本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。 まず, LLMエージェントは一般に, 行動経済学において広く認知されている信頼ゲーム(Trust Games)の枠組みの下で, エージェント信頼と呼ばれる信頼行動を示す。 そして, LLMエージェントは信頼行動に関して人間と高い行動アライメントを持ち, LLMエージェントによる人間信頼行動のシミュレートの可能性を示す。 さらに,エージェント信頼のバイアスとエージェントと人間に対するエージェント信頼の差について検討した。 また,エージェント信頼の本質的性質を,高度な推論戦略や外部操作を含む条件下で検討する。 信頼が最重要であるさまざまなシナリオに対して、さらに重要な意味を提供する。 本研究は, LLMエージェントの挙動とLLM-ヒト類似性を理解するための重要なステップである。

Large Language Model (LLM) agents have been increasingly adopted as simulation tools to model humans in applications such as social science. However, one fundamental question remains: can LLM agents really simulate human behaviors? In this paper, we focus on one of the most critical behaviors in human interactions, trust, and aim to investigate whether or not LLM agents can simulate human trust behaviors. We first find that LLM agents generally exhibit trust behaviors, referred to as agent trust, under the framework of Trust Games, which are widely recognized in behavioral economics. Then, we discover that LLM agents can have high behavioral alignment with humans regarding trust behaviors, indicating the feasibility to simulate human trust behaviors with LLM agents. In addition, we probe into the biases in agent trust and the differences in agent trust towards agents and humans. We also explore the intrinsic properties of agent trust under conditions including advanced reasoning strategies and external manipulations. We further offer important implications for various scenarios where trust is paramount. Our study represents a significant step in understanding the behaviors of LLM agents and the LLM-human analogy.
翻訳日:2024-02-08 16:53:42 公開日:2024-02-07
# DMAT:人間の除染のための動的マスク対応変圧器

DMAT: A Dynamic Mask-Aware Transformer for Human De-occlusion ( http://arxiv.org/abs/2402.04558v1 )

ライセンス: Link先を確認
Guoqiang Liang, Jiahao Hu, Qingyue Wang, Shizhou Zhang(参考訳) 目立たない人間の部分の外観をオクルード画像から推測することを目的としたヒューマン・デクルージョンは、人物再識別や意図推論など、多くの人間関連のタスクにおいて大きな価値を持っている。 この課題に対処するために,人間の領域からの情報を動的に増強し,閉塞から弱める動的マスク対応トランス (DMAT) を提案する。 まず,拡張カーネルを用いた拡張畳み込みヘッドの設計を行い,局所的有効コンテキストをキャプチャし,周囲の咬合の影響を緩和する。 目に見える部分に集中するため,複数のマスクを一体化することにより,非閉塞領域が背景に同化することを防止する新しい動的マルチヘッド型人間マスク誘導注意機構を提案する。 さらに、領域アップサンプリング戦略を用いて、補間画像に対するオクルージョンの影響を軽減する。 モデル学習中、人間の領域の回復効果をさらに強調するためにアモーダルロスが開発され、モデルの収束も改善される。 ahpデータセットに関する広範な実験は、最近の最先端の手法よりも優れた性能を示している。

Human de-occlusion, which aims to infer the appearance of invisible human parts from an occluded image, has great value in many human-related tasks, such as person re-id, and intention inference. To address this task, this paper proposes a dynamic mask-aware transformer (DMAT), which dynamically augments information from human regions and weakens that from occlusion. First, to enhance token representation, we design an expanded convolution head with enlarged kernels, which captures more local valid context and mitigates the influence of surrounding occlusion. To concentrate on the visible human parts, we propose a novel dynamic multi-head human-mask guided attention mechanism through integrating multiple masks, which can prevent the de-occluded regions from assimilating to the background. Besides, a region upsampling strategy is utilized to alleviate the impact of occlusion on interpolated images. During model learning, an amodal loss is developed to further emphasize the recovery effect of human regions, which also refines the model's convergence. Extensive experiments on the AHP dataset demonstrate its superior performance compared to recent state-of-the-art methods.
翻訳日:2024-02-08 16:53:25 公開日:2024-02-07
# 触媒設計と最適化のための人工知能(AI)ワークフロー

An Artificial Intelligence (AI) workflow for catalyst design and optimization ( http://arxiv.org/abs/2402.04557v1 )

ライセンス: Link先を確認
Nung Siong Lai, Yi Shen Tew, Xialin Zhong, Jun Yin, Jiali Li, Binhang Yan, Xiaonan Wang(参考訳) 環境問題とエネルギー需要の圧迫に対処するために新規触媒開発を追求する中で、従来の設計と最適化手法は触媒パラメータ空間の複雑さと広さのために不足することが多い。 機械学習(ML)の出現は、触媒最適化の分野で新たな時代を迎え、従来の技術の欠点に対する潜在的な解決策を提供する。 しかし、既存の方法では、触媒合成に関する科学的研究の急成長する分野に含まれる情報の豊富さを効果的に活用できない。 そこで本研究では,Large Language Models (LLM) とベイズ最適化,触媒最適化の高速化と向上を目的としたアクティブ学習ループを統合した,革新的な人工知能(AI)ワークフローを提案する。 提案手法は,高度言語理解と堅牢な最適化戦略を組み合わせることで,多様な文献から抽出した知識を実用的な実験と最適化のための実用的なパラメータに効果的に翻訳する。 本稿では,このAIワークフローのアンモニア製造における触媒合成の最適化への応用を実証する。 その結果、従来の方法に代わる迅速で、資源効率が高く、高精度な触媒開発プロセスを効率化するワークフローの能力を強調した。

In the pursuit of novel catalyst development to address pressing environmental concerns and energy demand, conventional design and optimization methods often fall short due to the complexity and vastness of the catalyst parameter space. The advent of Machine Learning (ML) has ushered in a new era in the field of catalyst optimization, offering potential solutions to the shortcomings of traditional techniques. However, existing methods fail to effectively harness the wealth of information contained within the burgeoning body of scientific literature on catalyst synthesis. To address this gap, this study proposes an innovative Artificial Intelligence (AI) workflow that integrates Large Language Models (LLMs), Bayesian optimization, and an active learning loop to expedite and enhance catalyst optimization. Our methodology combines advanced language understanding with robust optimization strategies, effectively translating knowledge extracted from diverse literature into actionable parameters for practical experimentation and optimization. In this article, we demonstrate the application of this AI workflow in the optimization of catalyst synthesis for ammonia production. The results underscore the workflow's ability to streamline the catalyst development process, offering a swift, resource-efficient, and high-precision alternative to conventional methods.
翻訳日:2024-02-08 16:53:06 公開日:2024-02-07
# FM-Fusion:Vision-Language Foundationモデルによるインスタンス対応セマンティックマッピング

FM-Fusion: Instance-aware Semantic Mapping Boosted by Vision-Language Foundation Models ( http://arxiv.org/abs/2402.04555v1 )

ライセンス: Link先を確認
Chuhao Liu, Ke Wang, Jieqi Shi, Zhijian Qiao, Shaojie Shen(参考訳) 教師付き物体検出器に基づく意味マッピングは画像分布に敏感である。 現実世界の環境では、オブジェクトの検出とセグメンテーションのパフォーマンスが大きな低下を招き、より広い領域でのセマンティックマッピングの使用を妨げます。 一方,視覚言語基礎モデルの開発は,データ分散における強いゼロショット転送性を示している。 汎用的なインスタンス対応セマンティクスマップを構築する機会を提供する。 そこで本研究では,基礎モデルから生成されたオブジェクト検出からインスタンス認識セマンティックマッピングを向上する方法を検討する。 オープンセットラベル計測からクローズセット意味クラスを予測する確率的ラベル融合法を提案する。 インスタンスリファインメントモジュールは、一貫性のないセグメンテーションによって引き起こされる過剰なセグメンテーションインスタンスをマージする。 すべてのモジュールを統一的なセマンティックマッピングシステムに統合します。 RGB-D入力のシーケンスを読み取ると、インスタンス認識のセマンティックマップを段階的に再構築する。 ScanNetおよびSceneNNデータセットにおいて,本手法のゼロショット性能を評価する。 本手法は,scannetセマンティックインスタンスセグメンテーションタスクにおいて,平均平均精度40.3 (map) を達成する。 従来のセマンティクスマッピングメソッドを大幅に上回っている。

Semantic mapping based on the supervised object detectors is sensitive to image distribution. In real-world environments, the object detection and segmentation performance can lead to a major drop, preventing the use of semantic mapping in a wider domain. On the other hand, the development of vision-language foundation models demonstrates a strong zero-shot transferability across data distribution. It provides an opportunity to construct generalizable instance-aware semantic maps. Hence, this work explores how to boost instance-aware semantic mapping from object detection generated from foundation models. We propose a probabilistic label fusion method to predict close-set semantic classes from open-set label measurements. An instance refinement module merges the over-segmented instances caused by inconsistent segmentation. We integrate all the modules into a unified semantic mapping system. Reading a sequence of RGB-D input, our work incrementally reconstructs an instance-aware semantic map. We evaluate the zero-shot performance of our method in ScanNet and SceneNN datasets. Our method achieves 40.3 mean average precision (mAP) on the ScanNet semantic instance segmentation task. It outperforms the traditional semantic mapping method significantly.
翻訳日:2024-02-08 16:52:46 公開日:2024-02-07
# BirdNeRF: 空中画像から大規模シーンを高速で再現する

BirdNeRF: Fast Neural Reconstruction of Large-Scale Scenes From Aerial Imagery ( http://arxiv.org/abs/2402.04554v1 )

ライセンス: Link先を確認
Huiqing Zhang, Yifei Xue, Ming Liao, Yizhen Lao(参考訳) 本研究では,空中画像を用いた大規模シーンの再構成に特化して設計されたNeRF(Neural Radiance Fields)の適応版であるBirdNeRFを紹介する。 小型・オブジェクト中心のNeRF再構成に焦点をあてた以前の研究とは異なり,本研究は(1)大規模モデルに付随する遅いトレーニングとレンダリングの問題に対処するなど,複数の課題に対処する。 2) 膨大な数のイメージをモデル化し、高性能gpuなどの広範なリソースを必要とする計算要求を満たす。 (3) モデル能力の限界により, 大規模再建作業でよく見られる重要な人工物や視力の低さを克服する。 具体的には,大きな空中画像集合を適切な大きさの重ね合わせで複数の小さな集合に分解し,サブシーンの個々のnerfを訓練する,新しいバードビュー・ポーズに基づく空間分解アルゴリズムを提案する。 この分解アプローチは、レンダリング時間をシーンサイズから分離するだけでなく、任意の規模の環境にシームレスにスケールできる。 さらに、環境のブロックごとの更新を可能にし、再構築プロセスの柔軟性と適応性を高める。 さらに,独自に学習したサブシーンを効果的に活用し,優れたレンダリング結果を生成するプロジェクションガイドによる新規なビュー再レンダリング戦略を提案する。 我々は既存のデータセットに対するアプローチと、独自のドローン映像に対するアプローチを評価し、従来のフォトグラメトリソフトウェアよりも10倍、最先端の大規模NeRFソリューションよりも50倍の再現速度を、同じレンダリング品質の1つのGPU上で改善した。

In this study, we introduce BirdNeRF, an adaptation of Neural Radiance Fields (NeRF) designed specifically for reconstructing large-scale scenes using aerial imagery. Unlike previous research focused on small-scale and object-centric NeRF reconstruction, our approach addresses multiple challenges, including (1) Addressing the issue of slow training and rendering associated with large models. (2) Meeting the computational demands necessitated by modeling a substantial number of images, requiring extensive resources such as high-performance GPUs. (3) Overcoming significant artifacts and low visual fidelity commonly observed in large-scale reconstruction tasks due to limited model capacity. Specifically, we present a novel bird-view pose-based spatial decomposition algorithm that decomposes a large aerial image set into multiple small sets with appropriately sized overlaps, allowing us to train individual NeRFs of sub-scene. This decomposition approach not only decouples rendering time from the scene size but also enables rendering to scale seamlessly to arbitrarily large environments. Moreover, it allows for per-block updates of the environment, enhancing the flexibility and adaptability of the reconstruction process. Additionally, we propose a projection-guided novel view re-rendering strategy, which aids in effectively utilizing the independently trained sub-scenes to generate superior rendering results. We evaluate our approach on existing datasets as well as against our own drone footage, improving reconstruction speed by 10x over classical photogrammetry software and 50x over state-of-the-art large-scale NeRF solution, on a single GPU with similar rendering quality.
翻訳日:2024-02-08 16:52:29 公開日:2024-02-07
# 汎用リー群プレコンディショナーによる曲率インフォームドSGD

Curvature-Informed SGD via General Purpose Lie-Group Preconditioners ( http://arxiv.org/abs/2402.04553v1 )

ライセンス: Link先を確認
Omead Pooladzandi and Xi-Lin Li(参考訳) 本稿では,Hessian-vector製品から得られた曲率情報や,BFGSアルゴリズムと同様のパラメータと勾配の有限差を利用して,確率勾配降下(SGD)を加速する新しい手法を提案する。 提案手法は,行列フリープリコンディショナーと低ランク近似プリコンディショナーの2つのプリコンディショナーを含む。 確率的勾配雑音に頑健で,線探索や減衰を必要としない基準を用いて,両方のプリコンディショナーをオンラインで更新する。 対応する対称性や不変性を維持するために、プレコンディショナーはある種の連結リー群に制約される。 リー群の等分散性はプレコンディショナリング過程を単純化し、その不変性は2階オプティマイザで一般的に必要とされる減衰の必要性を排除している。 その結果、パラメータ更新の学習率とプレコンディショナリングのステップサイズは自然に正規化され、デフォルト値はほとんどのシナリオでうまく機能する。 提案手法は計算オーバーヘッドの少ないSGDの収束を改善するための有望な方向を提供する。 プレコンディショニングされたSGD(PSGD)は、複数の現代のディープラーニングアーキテクチャにおいて、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。 本稿では,玩具を再現するためのコードと大規模実験を行った。

We present a novel approach to accelerate stochastic gradient descent (SGD) by utilizing curvature information obtained from Hessian-vector products or finite differences of parameters and gradients, similar to the BFGS algorithm. Our approach involves two preconditioners: a matrix-free preconditioner and a low-rank approximation preconditioner. We update both preconditioners online using a criterion that is robust to stochastic gradient noise and does not require line search or damping. To preserve the corresponding symmetry or invariance, our preconditioners are constrained to certain connected Lie groups. The Lie group's equivariance property simplifies the preconditioner fitting process, while its invariance property eliminates the need for damping, which is commonly required in second-order optimizers. As a result, the learning rate for parameter updating and the step size for preconditioner fitting are naturally normalized, and their default values work well in most scenarios. Our proposed approach offers a promising direction for improving the convergence of SGD with low computational overhead. We demonstrate that Preconditioned SGD (PSGD) outperforms SoTA on Vision, NLP, and RL tasks across multiple modern deep-learning architectures. We have provided code for reproducing toy and large scale experiments in this paper.
翻訳日:2024-02-08 16:52:00 公開日:2024-02-07
# Riemann-Lebesgue Forest for Regression

Riemann-Lebesgue Forest for Regression ( http://arxiv.org/abs/2402.04550v1 )

ライセンス: Link先を確認
Tian Qin, Wei-Min Huang(参考訳) 本稿では,レグレッションのためのRLF(Riemann-Lebesgue Forest)と呼ばれる新しいアンサンブル手法を提案する。 RLFの中核となる考え方は、測定可能な関数を数区間に分割することで近似する方法を模倣することである。 このアイデアを念頭に置いて、我々はRiemann-Lebesgue Treeと呼ばれる新しいツリー学習者を開発し、応答$Y$や特徴空間$\mathbf{X}$の各非終端ノードの方向からノードを分割する機会を得る。 本稿では,主にHoeffding decomposition \cite{Vaart} と Stein のメソッド \cite{Chen2010NormalAB} を用いて,異なるパラメータ設定下での RLF の漸近性能を一般化する。 基底関数 $Y=f(\mathbf{X})$ が加法回帰モデルに従うとき、RLF は \cite{Scornet2014ConsistencyOR} の引数と一致する。 RLFの原生無作為林に対する競争性能はシミュレーションデータと実世界のデータセットの実験によって実証された。

We propose a novel ensemble method called Riemann-Lebesgue Forest (RLF) for regression. The core idea of RLF is to mimic the way how a measurable function can be approximated by partitioning its range into a few intervals. With this idea in mind, we develop a new tree learner named Riemann-Lebesgue Tree which has a chance to split the node from response $Y$ or a direction in feature space $\mathbf{X}$ at each non-terminal node. We generalize the asymptotic performance of RLF under different parameter settings mainly through Hoeffding decomposition \cite{Vaart} and Stein's method \cite{Chen2010NormalAB}. When the underlying function $Y=f(\mathbf{X})$ follows an additive regression model, RLF is consistent with the argument from \cite{Scornet2014ConsistencyOR}. The competitive performance of RLF against original random forest \cite{Breiman2001RandomF} is demonstrated by experiments in simulation data and real world datasets.
翻訳日:2024-02-08 16:51:36 公開日:2024-02-07
# MEMORYLLM: 自己更新可能な大規模言語モデルを目指して

MEMORYLLM: Towards Self-Updatable Large Language Models ( http://arxiv.org/abs/2402.04624v1 )

ライセンス: Link先を確認
Yu Wang, Xiusi Chen, Jingbo Shang, Julian McAuley(参考訳) 既存のLarge Language Models (LLM) は通常、デプロイ後に静的のままであり、モデルに新しい知識を注入するのは困難である。 我々は,自己回復可能なパラメータのかなりの部分を含むモデルを構築し,新しい知識を効果的かつ効率的に統合することを目指している。 そこで本研究では,変圧器の潜伏空間内に,変圧器と固定サイズのメモリプールを備えるモデルMEMORYLLMを紹介する。 MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。 評価の結果,モデル編集ベンチマークの性能が示すように,新しい知識を効果的に取り入れる能力が示された。 一方、このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証される長期情報保持能力を示す。 MEMORYLLMは、100万近いメモリ更新後のパフォーマンス低下の兆候のない、運用上の整合性も示している。

Existing Large Language Models (LLMs) usually remain static after deployment, which might make it hard to inject new knowledge into the model. We aim to build models containing a considerable portion of self-updatable parameters, enabling the model to integrate new knowledge effectively and efficiently. To this end, we introduce MEMORYLLM, a model that comprises a transformer and a fixed-size memory pool within the latent space of the transformer. MEMORYLLM can self-update with text knowledge and memorize the knowledge injected earlier. Our evaluations demonstrate the ability of MEMORYLLM to effectively incorporate new knowledge, as evidenced by its performance on model editing benchmarks. Meanwhile, the model exhibits long-term information retention capacity, which is validated through our custom-designed evaluations and long-context benchmarks. MEMORYLLM also shows operational integrity without any sign of performance degradation even after nearly a million memory updates.
翻訳日:2024-02-08 16:42:33 公開日:2024-02-07
# LLMポスト編集によるクロスドメイン低リソーステキスト生成の改善:プログラマ・インタプリタアプローチ

Improving Cross-Domain Low-Resource Text Generation through LLM Post-Editing: A Programmer-Interpreter Approach ( http://arxiv.org/abs/2402.04609v1 )

ライセンス: Link先を確認
Zhuang Li, Levon Haroutunian, Raj Tumuluri, Philip Cohen, Gholamreza Haffari(参考訳) ポスト編集は GPT-3.5 や GPT-4 のような大規模言語モデル(LLM)によって生成されるテキストの品質向上に有効であることが証明されている。 しかし、後編集のための小さな言語モデルのみに依存すると、LLMがドメインをまたいで一般化する能力を制限することができる。 さらに,これらの手法の編集戦略はテキスト生成作業に最適ではない。 これらの制約に対処するため,LLMの領域一般化能力を保持するニューラルプログラマ・解釈手法を提案する。 このフレームワークの編集アクションは、特にテキスト生成のために設計されている。 拡張実験により、プログラマ・インタプリタは論理形式変換や低リソース機械翻訳においてGPT-3.5の性能を著しく向上させ、ドメイン間設定における他のSOTA (State-of-the-art) LLMポスト編集手法よりも優れていることが示された。

Post-editing has proven effective in improving the quality of text generated by large language models (LLMs) such as GPT-3.5 or GPT-4, particularly when direct updating of their parameters to enhance text quality is infeasible or expensive. However, relying solely on smaller language models for post-editing can limit the LLMs' ability to generalize across domains. Moreover, the editing strategies in these methods are not optimally designed for text-generation tasks. To address these limitations, we propose a neural programmer-interpreter approach that preserves the domain generalization ability of LLMs when editing their output. The editing actions in this framework are specifically devised for text generation. Extensive experiments demonstrate that the programmer-interpreter significantly enhances GPT-3.5's performance in logical form-to-text conversion and low-resource machine translation, surpassing other state-of-the-art (SOTA) LLM post-editing methods in cross-domain settings.
翻訳日:2024-02-08 16:42:18 公開日:2024-02-07
# Alirector: アライメント強化中国の文法エラーコレクタ

Alirector: Alignment-Enhanced Chinese Grammatical Error Corrector ( http://arxiv.org/abs/2402.04601v1 )

ライセンス: Link先を確認
Haihui Yang and Xiaojun Quan(参考訳) 中国の文法的誤り訂正(cgec)は、シーケンシャル・ツー・シークエンス(seq2seq)モデルやデコーダのみの大型言語モデル(llm)のような自己回帰生成モデルを採用する場合、深刻な過度な修正課題に直面している。 従来の手法はSeq2Seqモデルでは過補正に対処するが、デコーダのみのLLMに適応することは困難である。 本稿では,seq2seqモデルとデコーダのみのllmに適用可能な誤り訂正問題に対するアライメント強調補正器を提案する。 本手法はまず,原文の初期修正を生成するための補正モデルを訓練する。 そして、原文を初期修正と組み合わせ、アライメントモデルを介して別の修正ラウンドをフィードし、アライメントモデルを強制して潜在的な過補正に集中させる。 さらに、ニュアンスを識別するモデルの能力を高めるため、原文の逆アライメントと初期補正をさらに検討する。 最後に、アライメントの知識を2つのアライメントモデルから補正モデルに転送し、過補正を回避する方法を指示する。 3つのCGECデータセットによる実験結果から,オーバーコレクトを緩和し,全体的な性能を向上させるためのアプローチの有効性が示された。

Chinese grammatical error correction (CGEC) faces serious overcorrection challenges when employing autoregressive generative models such as sequence-to-sequence (Seq2Seq) models and decoder-only large language models (LLMs). While previous methods aim to address overcorrection in Seq2Seq models, they are difficult to adapt to decoder-only LLMs. In this paper, we propose an alignment-enhanced corrector for the overcorrection problem that applies to both Seq2Seq models and decoder-only LLMs. Our method first trains a correction model to generate an initial correction of the source sentence. Then, we combine the source sentence with the initial correction and feed it through an alignment model for another round of correction, aiming to enforce the alignment model to focus on potential overcorrection. Moreover, to enhance the model's ability to identify nuances, we further explore the reverse alignment of the source sentence and the initial correction. Finally, we transfer the alignment knowledge from two alignment models to the correction model, instructing it on how to avoid overcorrection. Experimental results on three CGEC datasets demonstrate the effectiveness of our approach in alleviating overcorrection and improving overall performance.
翻訳日:2024-02-08 16:41:57 公開日:2024-02-07
# JEANIE: 時間視点アライメントによる3次元骨格配列の類似度測定

Meet JEANIE: a Similarity Measure for 3D Skeleton Sequences via Temporal-Viewpoint Alignment ( http://arxiv.org/abs/2402.04599v1 )

ライセンス: Link先を確認
Lei Wang and Jun Liu and Liang Zheng and Tom Gedeon and Piotr Koniusz(参考訳) ビデオシーケンスは、動作速度、時間的位置、ポーズの顕著なニュアンス変化(望ましくない効果)を示し、2つのフレームを比較したり、2つのシーケンスの類似性を評価する際に、時間的視点のずれを生じる。 そこで本研究では,シーケンス対に対する共用tEmporalとcAmera viewpoiNt alIgnmEnt(JEANIE)を提案する。 特に,カメラと被験者のポーズを3Dで容易に操作できる3Dスケルトン配列に着目した。 骨格的少数ショット動作認識(fsar)におけるjeanieの評価を行い,新しいクラスのサンプルが限られているため,サポートクエリ列ペアの時間的ブロック(シーケンスを構成する時間的チャンク)をマッチングすることが不可欠であることを示した。 クエリシーケンスが与えられると、複数のカメラロケーションをシミュレートして、複数のビューを作成します。 サポートシーケンスについては、一般的なdynamic time warping(dtw)のように、ビューシミュレートされたクエリシーケンスとマッチします。 具体的には、各サポート時間ブロックは、クエリ時間ブロックと、同じまたは隣接する(次の)時間インデックスと、隣接するカメラビューとを一致させて、共同ローカル時間視点ワープを実現する。 JEANIEは、時間的視点のワープパターンが異なるマッチングパスの最小距離を選択し、時間的アライメントのみを実行するDTWよりも有利である。 JEANIEを距離測度とするシーケンスのクラスタリングに類似した教師なしFSARも提案する。 jeanieは、ntu-60, ntu-120, kinetics-skeleton, uwa3d multiview activity ii on supervised and unsupervised fsar, and their meta-learning inspired fusionという最先端の成果を達成している。

Video sequences exhibit significant nuisance variations (undesired effects) of speed of actions, temporal locations, and subjects' poses, leading to temporal-viewpoint misalignment when comparing two sets of frames or evaluating the similarity of two sequences. Thus, we propose Joint tEmporal and cAmera viewpoiNt alIgnmEnt (JEANIE) for sequence pairs. In particular, we focus on 3D skeleton sequences whose camera and subjects' poses can be easily manipulated in 3D. We evaluate JEANIE on skeletal Few-shot Action Recognition (FSAR), where matching well temporal blocks (temporal chunks that make up a sequence) of support-query sequence pairs (by factoring out nuisance variations) is essential due to limited samples of novel classes. Given a query sequence, we create its several views by simulating several camera locations. For a support sequence, we match it with view-simulated query sequences, as in the popular Dynamic Time Warping (DTW). Specifically, each support temporal block can be matched to the query temporal block with the same or adjacent (next) temporal index, and adjacent camera views to achieve joint local temporal-viewpoint warping. JEANIE selects the smallest distance among matching paths with different temporal-viewpoint warping patterns, an advantage over DTW which only performs temporal alignment. We also propose an unsupervised FSAR akin to clustering of sequences with JEANIE as a distance measure. JEANIE achieves state-of-the-art results on NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II on supervised and unsupervised FSAR, and their meta-learning inspired fusion.
翻訳日:2024-02-08 16:41:35 公開日:2024-02-07
# ソフトウェア製品ラインにおける優先度付きペアワイズテストデータ生成問題を解決するcmsaアルゴリズム

CMSA algorithm for solving the prioritized pairwise test data generation problem in software product lines ( http://arxiv.org/abs/2402.04597v1 )

ライセンス: Link先を確認
Javier Ferrer, Francisco Chicano, Jos\'e Antonio Ortega Toro(参考訳) ソフトウェア製品ライン(SPL)では、多数の有効な機能の組み合わせが存在するため、家族のすべての製品をテストするのは難しい、あるいは不可能かもしれない。 ですから私たちは,これらすべての組み合わせ(pairwise)をテスト可能な,製品ファミリの最小限のサブセットを見つけたいと思っています。 さらに、1つの製品をテストすることは大きな努力であり、優先順位のあるフィーチャのセットからなる製品を最初にテストすることが望ましい。 この問題は優先順位付きペアワイズテストデータ生成問題と呼ばれる。 この問題に対する整数線形プログラミングに基づく最先端のアルゴリズムは、中小のインスタンスでは十分高速である。 しかし、これらのアルゴリズムで計算するには大きすぎる実例がいくつか存在するが、これは候補解の数の指数関数的増加のためである。 また、これらのヒューリスティックスは必ずしも最良のソリューションに導くとは限らない。 本研究では,コンストラクタ,マージ,解決,適応と呼ばれるハイブリッドメタヒューリスティックアルゴリズムに基づく新しいアプローチを提案する。 整数線形プログラミング(hilp)に基づくハイブリッドアルゴリズム、整数非線形プログラミング(hinlp)に基づくハイブリッドアルゴリズム、並列優先順位付き遺伝的ソルバ(ppgs)、および優先度付きicplと呼ばれる欲望アルゴリズムである。 分析の結果、cmsaは、より多くの実行時間を必要とするものの、ほとんどのインスタンスとほとんどのレベルの重み付きカバレッジにおいて、統計的にはるかに優れた品質ソリューションをもたらすことが判明した。

In Software Product Lines (SPLs) it may be difficult or even impossible to test all the products of the family because of the large number of valid feature combinations that may exist. Thus, we want to find a minimal subset of the product family that allows us to test all these possible combinations (pairwise). Furthermore, when testing a single product is a great effort, it is desirable to first test products composed of a set of priority features. This problem is called Prioritized Pairwise Test Data Generation Problem. State-of-the-art algorithms based on Integer Linear Programming for this problema are faster enough for small and medium instances. However, there exists some real instances that are too large to be computed with these algorithms in a reasonable time because of the exponential growth of the number of candidate solutions. Also, these heuristics not always lead us to the best solutions. In this work we propose a new approach based on a hybrid metaheuristic algorithm called Construct, Merge, Solve & Adapt. We compare this matheuristic with four algorithms: a Hybrid algorithm based on Integer Linear Programming ((HILP), a Hybrid algorithm based on Integer Nonlinear Programming (HINLP), the Parallel Prioritized Genetic Solver (PPGS), and a greedy algorithm called prioritized-ICPL. The analysis reveals that CMSA results in statistically significantly better quality solutions in most instances and for most levels of weighted coverage, although it requires more execution time.
翻訳日:2024-02-08 16:40:59 公開日:2024-02-07
# ランサムウェア検出ダイナミクス:洞察と意義

Ransomware Detection Dynamics: Insights and Implications ( http://arxiv.org/abs/2402.04594v1 )

ライセンス: Link先を確認
Mike Nkongolo(参考訳) ランサムウェア攻撃の台頭は、これらの脅威を特定し緩和するための効果的な戦略の開発を必要とした。 本研究は,Bitcoin(BTC)およびUSD(USD)のランサムウェア関連および良性取引を識別するための特徴選択アルゴリズムの利用について検討する。 ランサムウェア関連btcおよびusdトランザクションの総合リポジトリであるugransomeデータセットを活用して,暗号通貨エコシステムにおけるランサムウェアアクティビティの特徴を捉えるために設計された,一連の新機能を提案する。 これらの機能は、トランザクションメタデータ、ランサム分析、行動パターンを含み、ランサムウェア関連の金融トランザクションの多面的なビューを提供する。 厳密な実験と評価を通じて,BTCおよびUSDトランザクションを正確に抽出し,ランサムウェア関連財務フローの早期発見と防止を支援する機能セットの有効性を示す。 Gini Impurity と Mutual Information (MI) に基づいたランサムウェア特徴選択アルゴリズム(RFSA)を導入し,UGRansome データセットから重要なランサムウェア特徴を選択する。 Gini ImpurityとMIベースの機能選択がランサムウェア検出システムを効果的に識別することで、ランサムウェア検出システムを強化する可能性を強調している。 この分析によると、ランサムウェアのインシデントの約68%が1回の攻撃当たり平均2.01 BTCトランザクションで、1.46から2.56の範囲でBTCトランザクションを伴っている。 この発見はランサムウェアの要求の動的かつ適応的な性質を強調し、特定のサイバー攻撃に対して一定の量がないことを示唆し、ランサムウェアの脅威の進化の風景を強調している。

The rise of ransomware attacks has necessitated the development of effective strategies for identifying and mitigating these threats. This research investigates the utilization of a feature selection algorithm for distinguishing ransomware-related and benign transactions in both Bitcoin (BTC) and United States Dollar (USD). Leveraging the UGRansome dataset, a comprehensive repository of ransomware related BTC and USD transactions, we propose a set of novel features designed to capture the distinct characteristics of ransomware activity within the cryptocurrency ecosystem. These features encompass transaction metadata, ransom analysis, and behavioral patterns, offering a multifaceted view of ransomware-related financial transactions. Through rigorous experimentation and evaluation, we demonstrate the effectiveness of our feature set in accurately extracting BTC and USD transactions, thereby aiding in the early detection and prevention of ransomware-related financial flows. We introduce a Ransomware Feature Selection Algorithm (RFSA) based on Gini Impurity and Mutual Information (MI) for selecting crucial ransomware features from the UGRansome dataset. Insights from the visualization highlight the potential of Gini Impurity and MI-based feature selection to enhance ransomware detection systems by effectively discriminating between ransomware classes. The analysis reveals that approximately 68% of ransomware incidents involve BTC transactions within the range of 1.46 to 2.56, with an average of 2.01 BTC transactions per attack. The findings emphasize the dynamic and adaptable nature of ransomware demands, suggesting that there is no fixed amount for specific cyberattacks, highlighting the evolving landscape of ransomware threats.
翻訳日:2024-02-08 16:40:35 公開日:2024-02-07
# ultralink: オープンソースの知識エンハンスド多言語教師付き微調整データセット

UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset ( http://arxiv.org/abs/2402.04588v1 )

ライセンス: Link先を確認
Haoyu Wang, Shuo Wang, Yukun Yan, Xujia Wang, Zhiyu Yang, Yuzhuang Xu, Zhenghao Liu, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun(参考訳) オープンソースの大規模言語モデル(llm)は、さまざまな分野で大きな力を得ています。 それにもかかわらず、ほとんどの研究は主に英語に集中し、多言語教師による微調整の領域への探索は限られていた。 そこで本研究では,オープンソースの多言語教師付き微調整データセットを構築する。 英語の指示を単純に翻訳する以前の研究と異なり、LLMの言語固有の能力と言語に依存しない能力の両方を考慮する。 言語特化能力については、LLMのより文化特化的な知識を引き出すための知識基盤データ拡張アプローチを導入し、異なる国のユーザに提供する能力を向上させる。 言語に依存しない能力については,現代のLLMは言語間移動能力が強いため,様々な言語で同じ内容を繰り返し学習する必要はない。 その結果、言語に依存しないSFTデータを性能劣化なしに実質的にプルークすることができるため、SFT処理をより効率的にすることができる。 得られたUltraLinkデータセットは、5つの言語にまたがる約100万のサンプルで構成されており、提案したデータ構築方法は他言語にも容易に拡張できる。 UltraLink-LMはUltraLinkでトレーニングされており、多くのタスクで代表的ベースラインを上回っている。

Open-source large language models (LLMs) have gained significant strength across diverse fields. Nevertheless, the majority of studies primarily concentrate on English, with only limited exploration into the realm of multilingual supervised fine-tuning. In this work, we therefore construct an open-source multilingual supervised fine-tuning dataset. Different from previous works that simply translate English instructions, we consider both the language-specific and language-agnostic abilities of LLMs. For language-specific abilities, we introduce a knowledge-grounded data augmentation approach to elicit more culture-specific knowledge of LLMs, improving their ability to serve users from different countries. For language-agnostic abilities, we find through experiments that modern LLMs exhibit strong cross-lingual transfer capabilities, thus repeatedly learning identical content in various languages is not necessary. Consequently, we can substantially prune the language-agnostic SFT data without any performance degradation, making the SFT process more efficient. The resulting UltraLink dataset comprises approximately 1 million samples across five languages, and the proposed data construction method can also be easily extended to other languages. UltraLink-LM, which is trained on UltraLink, outperforms several representative baselines across many tasks.
翻訳日:2024-02-08 16:40:05 公開日:2024-02-07
# cbct歯の分節化のためのマスキング画像モデルによる半教師付き学習

Sparse Anatomical Prompt Semi-Supervised Learning with Masked Image Modeling for CBCT Tooth Segmentation ( http://arxiv.org/abs/2402.04587v1 )

ライセンス: Link先を確認
Pengyu Dai, Yafei Ou, Yang Liu, Yue Zhao(参考訳) コーンビームct (cbct) の歯科画像における正確な歯の識別と分節化は, 歯科医が行う手技診断の効率と精度を著しく向上させる。 しかし、既存のセグメンテーション手法は主に大規模なデータボリュームトレーニングに基づいて開発され、そのアノテーションは非常に時間がかかる。 一方,CBCT歯像の各分類の歯列位置は密接な位置にあり,微妙なクラス間差が伴うため,限られたデータを用いたトレーニングモデルでは不明瞭な境界が生じる。 これらの課題に対処するため,本研究では,大量のラベルなしデータを効果的に活用し,限られたラベル付きデータで正確な歯のセグメント化を実現するタスク指向マスク自動エンコーダパラダイムを提案する。 具体的には,まずマスク付きオートエンコーダの自己教師付き事前学習フレームワークを構築し,ラベルなしデータを用いてネットワーク性能を向上させる。 次に, 歯の境界情報を取り込んで, 歯の解剖学的特徴を学習するネットワークを支援するために, グラフ注意に基づくスパースマスクプロンプト機構を導入する。 我々の知る限り、私たちはCBCT歯のセグメンテーションタスクにマスク事前訓練パラダイムの統合を開拓しています。 実験により,提案手法の有効性と境界プロンプト機構の可能性の両方が示された。

Accurate tooth identification and segmentation in Cone Beam Computed Tomography (CBCT) dental images can significantly enhance the efficiency and precision of manual diagnoses performed by dentists. However, existing segmentation methods are mainly developed based on large data volumes training, on which their annotations are extremely time-consuming. Meanwhile, the teeth of each class in CBCT dental images being closely positioned, coupled with subtle inter-class differences, gives rise to the challenge of indistinct boundaries when training model with limited data. To address these challenges, this study aims to propose a tasked-oriented Masked Auto-Encoder paradigm to effectively utilize large amounts of unlabeled data to achieve accurate tooth segmentation with limited labeled data. Specifically, we first construct a self-supervised pre-training framework of masked auto encoder to efficiently utilize unlabeled data to enhance the network performance. Subsequently, we introduce a sparse masked prompt mechanism based on graph attention to incorporate boundary information of the teeth, aiding the network in learning the anatomical structural features of teeth. To the best of our knowledge, we are pioneering the integration of the mask pre-training paradigm into the CBCT tooth segmentation task. Extensive experiments demonstrate both the feasibility of our proposed method and the potential of the boundary prompt mechanism.
翻訳日:2024-02-08 16:39:45 公開日:2024-02-07
# bi-objective next release 問題を解決するための効率的なanytimeアルゴリズム

Efficient anytime algorithms to solve the bi-objective Next Release Problem ( http://arxiv.org/abs/2402.04586v1 )

ライセンス: Link先を確認
Miguel \'Angel Dom\'inguez-R\'ios, Francisco Chicano, Enrique Alba, Isabel Mar\'ia del \'Aguila, Jos\'e del Sagrado(参考訳) 次のリリースの問題は、ソフトウェア製品の次のリリースで開発する要件のサブセットを選択することにあります。 選択は、開発コストを最小化し、要件の制約を満たしながら、ステークホルダーの満足度を最大化する方法で行うべきです。 近年,整数線形計画法に基づく厳密解法が提案されている。 現実には、問題の効率的な解を全て計算する必要はなく、客観的な空間における十分なスプレッドセットは、意思決定者にとってより便利である。 完全なパレートフロントを見つけるために過去に用いられた厳密な手法は、対象空間を辞書順に探索するか、目的の重み付け和を使って単一目的の問題を解決する。 そこで本研究では,探索中いつでも適切な解集合を維持する5つの新しい手法を提案し,十分な数の解集合が見つかると,決定者がアルゴリズムを止めることができるようにした。 この機能によりメソッドはいつでも呼び出される。 サポートされたソリューションとサポートされていないソリューションの両方を見つけ、提供された時間が十分長いならば、Paretoフロント全体を完成させることができます。

The Next Release Problem consists in selecting a subset of requirements to develop in the next release of a software product. The selection should be done in a way that maximizes the satisfaction of the stakeholders while the development cost is minimized and the constraints of the requirements are fulfilled. Recent works have solved the problem using exact methods based on Integer Linear Programming. In practice, there is no need to compute all the efficient solutions of the problem; a well-spread set in the objective space is more convenient for the decision maker. The exact methods used in the past to find the complete Pareto front explore the objective space in a lexicographic order or use a weighted sum of the objectives to solve a single-objective problem, finding only supported solutions. In this work, we propose five new methods that maintain a well-spread set of solutions at any time during the search, so that the decision maker can stop the algorithm when a large enough set of solutions is found. The methods are called anytime due to this feature. They find both supported and non-supported solutions, and can complete the whole Pareto front if the time provided is long enough.
翻訳日:2024-02-08 16:39:22 公開日:2024-02-07
# 低光度画像強調のためのトラブルメーカ学習

Troublemaker Learning for Low-Light Image Enhancement ( http://arxiv.org/abs/2402.04584v1 )

ライセンス: Link先を確認
Yinghao Song, Zhiyuan Cao, Wanhong Xiang, Sifan Long, Bo Yang, Hongwei Ge, Yanchun Liang, Chunguo Wu(参考訳) 低光度画像強調(llie)は、露出不足の画像の色と明るさを復元する。 教師付き手法は、低/常光画像ペアの収集に高いコストがかかる。 教師なしの手法は複雑な損失関数の作成に多大な労力を費やす。 我々は,この2つの課題を,通常の光画像を入力としてトレーニングを行うtml(tml)戦略を通じて解決する。 TMLは単純で、まず入力を減らし、その明るさを上げる。 TMLは2つのコアコンポーネントに基づいている。 まず、トラブルメーカーモデル(tm)は、通常画像からの擬似低照度画像を構築し、ペアワイズデータのコストを緩和する。 第二に、予測モデル(PM)は擬似低照度画像の明るさを高める。 さらに,PM出力の視覚的性能を向上させるために,拡張モデル(EM)を組み込んだ。 さらに、LLIEタスクでは、同じオブジェクトに関するより多くの情報をキャプチャできるため、グローバルな要素相関を特徴付けることが重要である。 CNNは、これをうまく達成することができず、自己注意は、高い時間的複雑さを持つ。 そこで本研究では,O(n)時間複雑性を伴うグローバル動的畳み込み(GDC)を提案する。 GDCモジュールをベースとして,UGDCモデルを構築した。 TMLでトレーニングされたUGDCが、公開データセットの最先端アプローチと競合するパフォーマンスを達成できることを、大規模に定量化および定性的な実験が示している。 コードはhttps://github.com/Rainbowman0/TML_LLIEで公開されている。

Low-light image enhancement (LLIE) restores the color and brightness of underexposed images. Supervised methods suffer from high costs in collecting low/normal-light image pairs. Unsupervised methods invest substantial effort in crafting complex loss functions. We address these two challenges through the proposed TroubleMaker Learning (TML) strategy, which employs normal-light images as inputs for training. TML is simple: we first dim the input and then increase its brightness. TML is based on two core components. First, the troublemaker model (TM) constructs pseudo low-light images from normal images to relieve the cost of pairwise data. Second, the predicting model (PM) enhances the brightness of pseudo low-light images. Additionally, we incorporate an enhancing model (EM) to further improve the visual performance of PM outputs. Moreover, in LLIE tasks, characterizing global element correlations is important because more information on the same object can be captured. CNN cannot achieve this well, and self-attention has high time complexity. Accordingly, we propose Global Dynamic Convolution (GDC) with O(n) time complexity, which essentially imitates the partial calculation process of self-attention to formulate elementwise correlations. Based on the GDC module, we build the UGDC model. Extensive quantitative and qualitative experiments demonstrate that UGDC trained with TML can achieve competitive performance against state-of-the-art approaches on public datasets. The code is available at https://github.com/Rainbowman0/TML_LLIE.
翻訳日:2024-02-08 16:39:04 公開日:2024-02-07
# 心理学的研究 : 色彩のコントラストと輝度がグレースケールマッピングに及ぼす影響

A Psychological Study: Importance of Contrast and Luminance in Color to Grayscale Mapping ( http://arxiv.org/abs/2402.04583v1 )

ライセンス: Link先を確認
Prasoon Ambalathankandy, Yafei Ou, Sae Kaneko, Masayuki Ikebe(参考訳) グレースケール画像は画像処理とコンピュータビジョンタスクに不可欠である。 輝度とコントラストを効果的に強調し、重要な視覚的特徴を強調しながら、他のアルゴリズムと容易に互換性がある。 さらに、単純化された表現は、ストレージと送信の目的で効率的である。 コントラストの保存は視覚的品質を維持する上で重要であるが、特定のアプリケーションやタスクに関連する情報を保存するなどの他の要因は、最適なパフォーマンスを達成するためにより重要である。 異なる脱色アルゴリズムを評価し比較するために,心理学実験を設計した。 実験中、被験者は仮想的な「無色世界」のカラーイメージを想像し、彼らの精神的視覚化に最もよく似たグレースケールのイメージを選択するように指示された。 我々は2種類のアルゴリズムの比較を行った。 (i)知覚に基づくシンプルな色空間変換アルゴリズム、及び (II)反復法を含む空間コントラストに基づくアルゴリズム。 実験の結果,cielabは平均で優れた性能を示し,知覚に基づく脱色アルゴリズムの有効性が示唆された。 一方,空間コントラストに基づくアルゴリズムは,DCオフセットや人工コントラスト生成などの要因により,比較的低い性能を示した。 しかし,これらのアルゴリズムでは選択時間が短かった。 特に、どのアルゴリズムも全てのテスト画像で他のアルゴリズムよりも一貫して優れています。 本稿では,実験結果と分析に基づいて,色とグレースケールのマッピングにおけるコントラストと輝度の意義を総合的に検討する。

Grayscale images are essential in image processing and computer vision tasks. They effectively emphasize luminance and contrast, highlighting important visual features, while also being easily compatible with other algorithms. Moreover, their simplified representation makes them efficient for storage and transmission purposes. While preserving contrast is important for maintaining visual quality, other factors such as preserving information relevant to the specific application or task at hand may be more critical for achieving optimal performance. To evaluate and compare different decolorization algorithms, we designed a psychological experiment. During the experiment, participants were instructed to imagine color images in a hypothetical "colorless world" and select the grayscale image that best resembled their mental visualization. We conducted a comparison between two types of algorithms: (i) perceptual-based simple color space conversion algorithms, and (ii) spatial contrast-based algorithms, including iteration-based methods. Our experimental findings indicate that CIELAB exhibited superior performance on average, providing further evidence for the effectiveness of perception-based decolorization algorithms. On the other hand, the spatial contrast-based algorithms showed relatively poorer performance, possibly due to factors such as DC-offset and artificial contrast generation. However, these algorithms demonstrated shorter selection times. Notably, no single algorithm consistently outperformed the others across all test images. In this paper, we will delve into a comprehensive discussion on the significance of contrast and luminance in color-to-grayscale mapping based on our experimental results and analysis.
翻訳日:2024-02-08 16:38:41 公開日:2024-02-07
# 高次元前方不確かさ定量化のためのサロゲートモデルとしての次元還元

Dimensionality reduction can be used as a surrogate model for high-dimensional forward uncertainty quantification ( http://arxiv.org/abs/2402.04582v1 )

ライセンス: Link先を確認
Jungho Kim, Sang-ri Yi, Ziqi Wang(参考訳) 本研究では, 不確かさの定量化における次元性低減の結果から確率的サロゲートモデルを構築する手法を提案する。 この仮説は、計算モデルの出力によって強化された高次元入力が低次元表現を許容するものである。 この仮定は、物理学に基づく計算モデルを用いた多くの不確実な定量化応用によって満たされる。 提案手法は,入力出力空間における次元減少の結果から,サロゲートモデルを「抽出」するため,次元減少の逐次適用とサロゲートモデリングとの違いがある。 この特徴は、入力空間が真に高次元であるときに望ましい。 提案手法は,特徴空間から入力出力空間への再構成写像を回避し,マニフォールド上の確率的学習から分岐する。 提案手法の最終産物は,決定論的入力を確率的出力に伝達し,その制約を克服しながら逐次的「次元還元+ガウス過程回帰」アプローチの利便性を保った確率的シミュレータである。 提案手法は,高次元入力の不確かさを特徴とする2つの不確かさ量化問題によって実証される。

We introduce a method to construct a stochastic surrogate model from the results of dimensionality reduction in forward uncertainty quantification. The hypothesis is that the high-dimensional input augmented by the output of a computational model admits a low-dimensional representation. This assumption can be met by numerous uncertainty quantification applications with physics-based computational models. The proposed approach differs from a sequential application of dimensionality reduction followed by surrogate modeling, as we "extract" a surrogate model from the results of dimensionality reduction in the input-output space. This feature becomes desirable when the input space is genuinely high-dimensional. The proposed method also diverges from the Probabilistic Learning on Manifold, as a reconstruction mapping from the feature space to the input-output space is circumvented. The final product of the proposed method is a stochastic simulator that propagates a deterministic input into a stochastic output, preserving the convenience of a sequential "dimensionality reduction + Gaussian process regression" approach while overcoming some of its limitations. The proposed method is demonstrated through two uncertainty quantification problems characterized by high-dimensional input uncertainties.
翻訳日:2024-02-08 16:38:19 公開日:2024-02-07
# エンボディエージェントのクロスドメイン政策移転に関する包括的調査

A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents ( http://arxiv.org/abs/2402.04580v1 )

ライセンス: Link先を確認
Haoyi Niu, Jianming Hu, Guyue Zhou, Xianyuan Zhan(参考訳) ロボット学習と具体化aiの急成長によって、大量のデータに対する需要が高まっている。 しかし、コストのかかるデータ収集プロセスと厳格な安全要件のために、ターゲットドメインから十分なバイアスのないデータを集めることは依然として課題である。 その結果、研究者はコスト効率の良いデータ取得と迅速なモデル反復のために、シミュレーションや実験室環境などの容易にアクセス可能なソースドメインからのデータを利用することが多い。 それでも、これらのソースドメインの環境と実施形態は、ターゲットドメインのそれとは大きく異なり、効果的なクロスドメインポリシー転送アプローチの必要性を強調する。 本稿では,既存のドメイン間政策伝達手法の体系的レビューを行う。 ドメインギャップの微妙な分類を通じて、各問題設定の全体的洞察と設計上の考察をカプセル化する。 また、ドメイン間政策伝達問題における鍵となる方法論について高レベルな議論を行う。 最後に、現在のパラダイムの能力を超えたオープンな課題を要約し、この分野の将来的な方向性について論じる。

The burgeoning fields of robot learning and embodied AI have triggered an increasing demand for large quantities of data. However, collecting sufficient unbiased data from the target domain remains a challenge due to costly data collection processes and stringent safety requirements. Consequently, researchers often resort to data from easily accessible source domains, such as simulation and laboratory environments, for cost-effective data acquisition and rapid model iteration. Nevertheless, the environments and embodiments of these source domains can be quite different from their target domain counterparts, underscoring the need for effective cross-domain policy transfer approaches. In this paper, we conduct a systematic review of existing cross-domain policy transfer methods. Through a nuanced categorization of domain gaps, we encapsulate the overarching insights and design considerations of each problem setting. We also provide a high-level discussion about the key methodologies used in cross-domain policy transfer problems. Lastly, we summarize the open challenges that lie beyond the capabilities of current paradigms and discuss potential future directions in this field.
翻訳日:2024-02-08 16:37:59 公開日:2024-02-07
# 最適輸送による集団的反事実説明

Collective Counterfactual Explanations via Optimal Transport ( http://arxiv.org/abs/2402.04579v1 )

ライセンス: Link先を確認
Ahmad-Reza Ehyaei, Ali Shirali, Samira Samadi(参考訳) 反事実的説明は、個人が希望するクラスにラベルを変更できるコスト最適化アクションを提供する。 しかし、実質的な事例が状態修正を求める場合、そのような個人中心の手法は新たな競争と予期せぬコストにつながる可能性がある。 さらに、これらの推奨事項は、基礎となるデータ分布を無視して、ユーザが異常値として認識するアクションを推奨する可能性がある。 これらの問題に対処するため,本研究では,提案する行動に個人の現在の密度を活用することを重視し,反事実的説明を定式化する集団的アプローチを提案する。 我々の問題は自然に最適な輸送問題である。 最適な輸送に関する広範な文献を活用し,この集団的手法が古典的反事実的説明のデシデラタをどのように改善するかを述べる。 提案手法の有効性と古典的手法との関係を明らかにするため,数値シミュレーションによる提案を支持する。

Counterfactual explanations provide individuals with cost-optimal actions that can alter their labels to desired classes. However, if substantial instances seek state modification, such individual-centric methods can lead to new competitions and unanticipated costs. Furthermore, these recommendations, disregarding the underlying data distribution, may suggest actions that users perceive as outliers. To address these issues, our work proposes a collective approach for formulating counterfactual explanations, with an emphasis on utilizing the current density of the individuals to inform the recommended actions. Our problem naturally casts as an optimal transport problem. Leveraging the extensive literature on optimal transport, we illustrate how this collective method improves upon the desiderata of classical counterfactual explanations. We support our proposal with numerical simulations, illustrating the effectiveness of the proposed approach and its relation to classic methods.
翻訳日:2024-02-08 16:37:44 公開日:2024-02-07
# スコアベース生成モデルにおけるノイズスケジュールの解析

An analysis of the noise schedule for score-based generative models ( http://arxiv.org/abs/2402.04650v1 )

ライセンス: Link先を確認
Stanislas Strasman (SU, LPSM (UMR\_8001)), Antonio Ocello (CMAP), Claire Boyer (LPSM (UMR\_8001), IUF), Sylvain Le Corff (LPSM (UMR\_8001), SU), Vincent Lemaire (LPSM (UMR\_8001))(参考訳) スコアベース生成モデル(SGM)は、目標からのノイズ摂動サンプルのみを用いてスコア関数を学習することにより、目標データ分布を推定することを目的としている。 近年の文献では、ターゲットと推定分布の誤差を評価し、KL(Kulback-Leibler)の発散とワッサーシュタイン距離を通じて生成品質を計測している。 既存の結果はすべて、ノイズスケジュールの時間均等な速度で得られている。 データ分布に関する穏やかな仮定の下では、目標と推定分布との間のklの分岐の上限を、時間に依存したノイズスケジュールによって明示的に設定する。 スコアがリプシッツ連続であると仮定すると、より有利な収縮機構を生かして、wasserstein距離に縛られた誤差を改善する。 また,提案する上限値を用いて雑音スケジュールを自動的に調整するアルゴリズムを提案する。 文献における標準選択と比較して,ノイズスケジュール最適化の性能を実証的に説明する。

Score-based generative models (SGMs) aim at estimating a target data distribution by learning score functions using only noise-perturbed samples from the target. Recent literature has focused extensively on assessing the error between the target and estimated distributions, gauging the generative quality through the Kullback-Leibler (KL) divergence and Wasserstein distances. All existing results have been obtained so far for time-homogeneous speed of the noise schedule. Under mild assumptions on the data distribution, we establish an upper bound for the KL divergence between the target and the estimated distributions, explicitly depending on any time-dependent noise schedule. Assuming that the score is Lipschitz continuous, we provide an improved error bound in Wasserstein distance, taking advantage of favourable underlying contraction mechanisms. We also propose an algorithm to automatically tune the noise schedule using the proposed upper bound. We illustrate empirically the performance of the noise schedule optimization in comparison to standard choices in the literature.
翻訳日:2024-02-08 16:30:26 公開日:2024-02-07
# LLMとVLM: きめ細かい記述子を用いたオープン語彙オブジェクト検出

LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors ( http://arxiv.org/abs/2402.04630v1 )

ライセンス: Link先を確認
Sheng Jin, Xueying Jiang, Jiaxing Huang, Lewei Lu, Shijian Lu(参考訳) 画像分類タスクにおける視覚言語モデル(VLM)の卓越したゼロショット能力にインスパイアされたオープンボキャブラリオブジェクト検出は、広義のVLM知識を検出器訓練に蒸留することで、関心が高まりつつある。 しかし、既存のほとんどのオープン語彙検出器は、領域埋め込みをカテゴリラベル(例えば自転車)のみと整列することで学習し、視覚埋め込みとオブジェクト部分(例えばペダルやベル)のきめ細かい記述との整列に対するVLMの能力を無視している。 本稿では, 条件付き文脈プロンプトと階層型テキスト記述子を導入し, 高精度な地域テキストアライメントと, 一般のオープン語彙検出訓練を可能にするDVDetを提案する。 特に、条件付き文脈は、局所的な埋め込みを画像のような表現に変換し、一般にオープンな語彙検出訓練に直接組み込むことができる。 さらに,インタラクティブで暗黙的な知識レポジトリとして大規模言語モデルを導入して,視覚的指向のテキスト記述子を反復マイニングし,高精度な領域テキストアライメントを実現する。 複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていることが示された。

Inspired by the outstanding zero-shot capability of vision language models (VLMs) in image classification tasks, open-vocabulary object detection has attracted increasing interest by distilling the broad VLM knowledge into detector training. However, most existing open-vocabulary detectors learn by aligning region embeddings with categorical labels (e.g., bicycle) only, disregarding the capability of VLMs on aligning visual embeddings with fine-grained text description of object parts (e.g., pedals and bells). This paper presents DVDet, a Descriptor-Enhanced Open Vocabulary Detector that introduces conditional context prompts and hierarchical textual descriptors that enable precise region-text alignment as well as open-vocabulary detection training in general. Specifically, the conditional context prompt transforms regional embeddings into image-like representations that can be directly integrated into general open vocabulary detection training. In addition, we introduce large language models as an interactive and implicit knowledge repository which enables iterative mining and refining visually oriented textual descriptors for precise region-text alignment. Extensive experiments over multiple large-scale benchmarks show that DVDet outperforms the state-of-the-art consistently by large margins.
翻訳日:2024-02-08 16:30:09 公開日:2024-02-07
# オープンシステムにおけるlandauerの原理による純状態と熱状態の区別

Distinguishing pure and thermal states by Landauer's principle in open systems ( http://arxiv.org/abs/2402.04628v1 )

ライセンス: Link先を確認
Hao Xu(参考訳) 純粋状態と熱状態の区別方法に関するポルチンスキーの思考実験から始め、より運用的な視点を提供するために、量子ビットと空洞量子場理論(QFT)の相互作用を研究するための特定のシステムを構築した。 量子ビットと空洞qftの初期状態の制限を課すことなく、摂動法によってシステム秩序の進化を順番に計算する。 我々は、熱状態の決定の基盤として、量子計算と量子測定における重要な境界であるランダウアーの原理を選択する。 初期状態形式を逆追跡することにより、空洞QFTで満たさなければならない条件を得る:消滅作用素の期待値はゼロであり、粒子数演算子の期待値はボース=アインシュタイン分布を満たすべきである。 また、熱状態と熱状態の代替案である正準熱純量子(ctpq)状態の違いについても考察する。

Starting from Polchinski's thought experiment on how to distinguish between pure and thermal states, we construct a specific system to study the interaction between qubit and cavity quantum field theory (QFT) in order to provide a more operational point of view. Without imposing any restrictions on the initial states of qubit and cavity QFT, we compute the evolution of the system order by order by the perturbation method. We choose Landauer's principle, an important bound in quantum computation and quantum measurement, as the basis for the determination of the thermal state. By backtracking the initial state form, we obtain the conditions that must be satisfied by the cavity QFT: the expectation value of the annihilation operator should be zero, and the expectation value of the particle number operator should satisfy the Bose-Einstein distribution. We also discuss the difference between the thermal state and a possible alternative to the thermal state: the canonical thermal pure quantum (CTPQ) state.
翻訳日:2024-02-08 16:29:43 公開日:2024-02-07
# SPARQL生成:ライフサイエンス知識グラフを用いた質問応答のための微調整OpenLLaMAの解析

SPARQL Generation: an analysis on fine-tuning OpenLLaMA for Question Answering over a Life Science Knowledge Graph ( http://arxiv.org/abs/2402.04627v1 )

ライセンス: Link先を確認
Julio C. Rangel, Tarcisio Mendes de Farias, Ana Claudia Sima and Norio Kobayashi(参考訳) 幅広い自然言語処理アプリケーションにおけるLarge Language Models (LLM) の成功は、LLMを利用した知識グラフに関する新しい質問回答システムへの道を開く。 しかし、その実装を妨げる主な障害の1つは、質問を対応するSPARQLクエリに変換するタスク、特にドメイン固有のKGの場合のトレーニングデータの不足である。 この課題を克服するため,本研究では,openllama llmをライフサイエンス知識グラフよりも質問応答に微調整するためのいくつかの戦略を評価する。 特に,既存のクエリのセットを与えられた知識グラフ上に拡張して,セマンティックに強化された質問-to-SPARQLクエリペアのより大きなデータセットに拡張する,エンドツーエンドのデータ拡張アプローチを提案する。 この文脈では,意味のある変数名やインラインコメントなど,クエリにおける意味的"クエリ"の役割についても検討する。 最後に,実世界のbgee遺伝子発現知識グラフに対するアプローチを評価し,無作為な変数名とコメントを含まないベースラインと比較して,意味的手がかりがモデル性能を最大33%向上できることを示した。

The recent success of Large Language Models (LLM) in a wide range of Natural Language Processing applications opens the path towards novel Question Answering Systems over Knowledge Graphs leveraging LLMs. However, one of the main obstacles preventing their implementation is the scarcity of training data for the task of translating questions into corresponding SPARQL queries, particularly in the case of domain-specific KGs. To overcome this challenge, in this study, we evaluate several strategies for fine-tuning the OpenLlama LLM for question answering over life science knowledge graphs. In particular, we propose an end-to-end data augmentation approach for extending a set of existing queries over a given knowledge graph towards a larger dataset of semantically enriched question-to-SPARQL query pairs, enabling fine-tuning even for datasets where these pairs are scarce. In this context, we also investigate the role of semantic "clues" in the queries, such as meaningful variable names and inline comments. Finally, we evaluate our approach over the real-world Bgee gene expression knowledge graph and we show that semantic clues can improve model performance by up to 33% compared to a baseline with random variable names and no comments included.
翻訳日:2024-02-08 16:29:26 公開日:2024-02-07
# ノイズマップガイダンス:実画像編集のための空間コンテキストによるインバージョン

Noise Map Guidance: Inversion with Spatial Context for Real Image Editing ( http://arxiv.org/abs/2402.04625v1 )

ライセンス: Link先を確認
Hansam Cho, Jonghyun Lee, Seoung Bum Kim, Tae-Hyun Oh, Yonghyun Jeong(参考訳) テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。 しかし、実際の画像の編集への応用は、主にテキスト条件が復元品質を劣化させ、その後編集精度に影響を及ぼすため、ハードルに直面することが多い。 null-text inversion (nti) はこの領域で進歩を遂げたが、空間的文脈を捉えられず、時間ステップごとの計算集約的な最適化が必要となる。 これらの課題に対処するために、実画像編集に適した空間文脈に富んだ逆法であるノイズマップガイダンス(NMG)を提案する。 重要なことは、NMGは最適化を必要とせずにこれを達成するが、編集品質は維持する。 実験的検討では,様々な編集技術にまたがるNMGの適応性と,DDIMインバージョンに対する頑健さを強調した。

Text-guided diffusion models have become a popular tool in image synthesis, known for producing high-quality and diverse images. However, their application to editing real images often encounters hurdles primarily due to the text condition deteriorating the reconstruction quality and subsequently affecting editing fidelity. Null-text Inversion (NTI) has made strides in this area, but it fails to capture spatial context and requires computationally intensive per-timestep optimization. Addressing these challenges, we present Noise Map Guidance (NMG), an inversion method rich in a spatial context, tailored for real-image editing. Significantly, NMG achieves this without necessitating optimization, yet preserves the editing quality. Our empirical investigations highlight NMG's adaptability across various editing techniques and its robustness to variants of DDIM inversions.
翻訳日:2024-02-08 16:29:05 公開日:2024-02-07
# ジェネレータによる妥当性保存デルタデバッギング

Validity-Preserving Delta Debugging via Generator ( http://arxiv.org/abs/2402.04623v1 )

ライセンス: Link先を確認
Luyao Ren, Xing Zhang, Ziyue Hua, Yanyan Jiang, Xiao He, Tao Xie(参考訳) 効率的なデバッグには、バグを引き起こすテストインプットの削減が不可欠だ。 デルタデバッギングはこの目的のために最も一般的なアプローチである。 テスト入力が特定の仕様に準拠する必要がある場合、既存のdeltaデバッギングプラクティスは有効性の問題に遭遇する。 この全体的な効果と効率の低下は、仕様が構文構造を超えて拡張されるとさらに顕著になる。 私たちの重要な洞察は、これらの仕様に気付いている入力ジェネレータを活用して、テスト入力の直接的な削減を行うのではなく、有効な削減入力を生成するべきだということです。 本稿では,有効性保存型リデューサを導出するジェネレータ型デルタデバッグ手法であるgreduceを提案する。 具体的には、ジェネレータとその実行が、バグ誘発テストインプットの生成方法を示すものであることを条件として、GReduceは、削減された有効なテストインプットを出力するジェネレータ上の他の実行を検索する。 GReduceの有効性,効率,汎用性を評価するため,グラフ,ディープラーニングモデル,JavaScriptプログラムの3つの領域にGReduceと最先端のReduce Persesを適用した。 GReduceの結果は28.5%、34.6%、75.6%、GReduceは17.5%、0.6%、65.4%である。

Reducing test inputs that trigger bugs is crucial for efficient debugging. Delta debugging is the most popular approach for this purpose. When test inputs need to conform to certain specifications, existing delta debugging practice encounters a validity problem: it blindly applies reduction rules, producing a large number of invalid test inputs that do not satisfy the required specifications. This overall diminishing effectiveness and efficiency becomes even more pronounced when the specifications extend beyond syntactical structures. Our key insight is that we should leverage input generators, which are aware of these specifications, to generate valid reduced inputs, rather than straightforwardly performing reduction on test inputs. In this paper, we propose a generator-based delta debugging method, namely GReduce, which derives validity-preserving reducers. Specifically, given a generator and its execution, demonstrating how the bug-inducing test input is generated, GReduce searches for other executions on the generator that yield reduced, valid test inputs. To evaluate the effectiveness, efficiency, and versatility of GReduce, we apply GReduce and the state-of-the-art reducer Perses in three domains: graphs, deep learning models, and JavaScript programs. The results of GReduce are 28.5%, 34.6%, 75.6% in size of those from Perses, and GReduce takes 17.5%, 0.6%, 65.4% time taken by Perses.
翻訳日:2024-02-08 16:28:50 公開日:2024-02-07
# グラフトポロジ上の特徴分布がグラフ畳み込みの影響を媒介する:ホモフィリー視点

Feature Distribution on Graph Topology Mediates the Effect of Graph Convolution: Homophily Perspective ( http://arxiv.org/abs/2402.04621v1 )

ライセンス: Link先を確認
Soo Yong Lee, Sunwoo Kim, Fanchen Bu, Jaemin Yoo, Jiliang Tang, Kijung Shin(参考訳) 同じクラスのノード間の特徴ベクトルをランダムにシャッフルすることはグラフニューラルネットワーク(GNN)にどのように影響するか? この機能は直感的に、グラフトポロジとGNNが学ぶべき機能(A-X依存)の間の依存を乱す。 驚くべきことに、機能シャッフル後のGNN性能の一貫性と大幅な改善が観察された。 GNNへのA-X依存の影響を見落としており、以前の文献ではこの現象を十分に理解していない。 そこで2つの研究課題を提起する。 まず、A-X依存度はどのように測定されるべきか。 第2に、A-X依存はGNNにどのように影響するのか? それに対し私たちは (i)A-X依存の原則的尺度を提案する。 (ii)a-x依存を制御するランダムグラフモデルの設計。 (iii)a-x依存がグラフ畳み込みとどう関係するかの理論を定め、 (iv)理論と整合する実世界のグラフに関する経験的解析。 A-X依存はグラフ畳み込みの効果を媒介し、より小さい依存はGNNベースのノード分類を改善する。

How would randomly shuffling feature vectors among nodes from the same class affect graph neural networks (GNNs)? The feature shuffle, intuitively, perturbs the dependence between graph topology and features (A-X dependence) for GNNs to learn from. Surprisingly, we observe a consistent and significant improvement in GNN performance following the feature shuffle. Having overlooked the impact of A-X dependence on GNNs, the prior literature does not provide a satisfactory understanding of the phenomenon. Thus, we raise two research questions. First, how should A-X dependence be measured, while controlling for potential confounds? Second, how does A-X dependence affect GNNs? In response, we (i) propose a principled measure for A-X dependence, (ii) design a random graph model that controls A-X dependence, (iii) establish a theory on how A-X dependence relates to graph convolution, and (iv) present empirical analysis on real-world graphs that aligns with the theory. We conclude that A-X dependence mediates the effect of graph convolution, such that smaller dependence improves GNN-based node classification.
翻訳日:2024-02-08 16:28:24 公開日:2024-02-07
# CataractBot:白内障患者のためのLLMベースのエキスパート・イン・ザ・ループチャットボット

CataractBot: An LLM-Powered Expert-in-the-Loop Chatbot for Cataract Patients ( http://arxiv.org/abs/2402.04620v1 )

ライセンス: Link先を確認
Pragnya Ramjee, Bhuvan Sachdeva, Satvik Golechha, Shreyas Kulkarni, Geeta Fulari, Kaushik Murali, Mohit Jain(参考訳) 患者は健康状態、治療の選択肢、潜在的なリスクについてより信頼できる情報を求めている。 情報ソースが豊富であるにもかかわらず、デジタル時代は過剰でしばしば不正確な情報を持つ個人を圧倒している。 患者は主に医師や病院のスタッフを信頼し、専門家が支援する健康情報の必要性を強調している。 しかし、専門家への圧力はコミュニケーション時間を短縮し、情報共有に影響を与えている。 このギャップに対処するため,大規模言語モデル(LLM)を利用したループ型チャットボットのCatalactBotを提案する。 インドの第三次眼科病院と共同で開発されたCatalactBotは、キュレートされた知識ベースに問い合わせることで、白内障手術に関連する質問に即座に答え、専門家が検証した応答を非同期に提供する。 CataractBotはマルチモーダルサポートと多言語機能を備えている。 49人の参加者による実運用調査で、白内障ボットは、いつでもアクセシビリティを提供し、時間を節約し、多様なリテラシーレベルに適応できることが証明された。 信頼は専門家の検証によって確立された。 我々の研究結果は、専門家によるLLMボットの設計における今後の取り組みを知らせる可能性がある。

The healthcare landscape is evolving, with patients seeking more reliable information about their health conditions, treatment options, and potential risks. Despite the abundance of information sources, the digital age overwhelms individuals with excess, often inaccurate information. Patients primarily trust doctors and hospital staff, highlighting the need for expert-endorsed health information. However, the pressure on experts has led to reduced communication time, impacting information sharing. To address this gap, we propose CataractBot, an experts-in-the-loop chatbot powered by large language models (LLMs). Developed in collaboration with a tertiary eye hospital in India, CataractBot answers cataract surgery related questions instantly by querying a curated knowledge base, and provides expert-verified responses asynchronously. CataractBot features multimodal support and multilingual capabilities. In an in-the-wild deployment study with 49 participants, CataractBot proved valuable, providing anytime accessibility, saving time, and accommodating diverse literacy levels. Trust was established through expert verification. Broadly, our results could inform future work on designing expert-mediated LLM bots.
翻訳日:2024-02-08 16:28:08 公開日:2024-02-07
# 修正MBConvブロックによるマルチスケールセマンティックセマンティックセグメンテーション

Multi-Scale Semantic Segmentation with Modified MBConv Blocks ( http://arxiv.org/abs/2402.04618v1 )

ライセンス: Link先を確認
Xi Chen, Yang Cai, Yuan Wu, Bo Xiong, Taesung Park(参考訳) 近年、MBConvブロックは、リソース制限された設定の効率性のために設計され、後に最先端の画像分類性能に適応した。 彼らの成功にもかかわらず、セマンティックセグメンテーションへの応用はいまだに研究されていない。 本稿では,セマンティックセグメンテーションに適したMBConvブロックの新規適応を提案する。 セマンティックセグメンテーションは画像分類よりもより詳細な空間情報の抽出を必要とするという知見に基づいている。 マルチスケールのセマンティクスセグメンテーションを効果的に実行するには、u-netアーキテクチャの各ブランチは、その解像度に関わらず、同等のセグメンテーション機能を持つべきである。 これらの変更を実装することで、都市景観テストと検証データセットにおいて、84.5%と84.0%のユニオン(iou)スコアの印象的な平均交点を達成し、提案する修正が意味セグメンテーション性能の向上に有効であることを示す。

Recently, MBConv blocks, initially designed for efficiency in resource-limited settings and later adapted for cutting-edge image classification performances, have demonstrated significant potential in image classification tasks. Despite their success, their application in semantic segmentation has remained relatively unexplored. This paper introduces a novel adaptation of MBConv blocks specifically tailored for semantic segmentation. Our modification stems from the insight that semantic segmentation requires the extraction of more detailed spatial information than image classification. We argue that to effectively perform multi-scale semantic segmentation, each branch of a U-Net architecture, regardless of its resolution, should possess equivalent segmentation capabilities. By implementing these changes, our approach achieves impressive mean Intersection over Union (IoU) scores of 84.5% and 84.0% on the Cityscapes test and validation datasets, respectively, demonstrating the efficacy of our proposed modifications in enhancing semantic segmentation performance.
翻訳日:2024-02-08 16:27:49 公開日:2024-02-07
# infllm: トレーニングフリーメモリを用いた超長列理解のためのllmの固有能力

InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory ( http://arxiv.org/abs/2402.04617v1 )

ライセンス: Link先を確認
Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Song Han, Maosong Sun(参考訳) 大規模言語モデル(LLM)は、LLM駆動エージェントのような長いストリーミング入力を持つ現実世界のアプリケーションにおいて、基盤として現れている。 しかし、最大長が制限されたシーケンスで事前訓練された既存のLLMでは、ドメイン外問題や乱れの問題により、長いシーケンスに一般化できない。 これらの問題を緩和するため、既存の作業では、非常に長いシーケンスの処理を実現するために、スライディングアテンションウィンドウを採用し、遠くのトークンを捨てている。 残念ながら、これらのアプローチは必然的に、セマンティクスを深く理解するためにシーケンス内の長距離依存性を捉えることができない。 本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。 特に、InfLLMは、遠隔コンテキストを追加のメモリ単位に格納し、注意計算のためにトークン関連ユニットを検索する効率的なメカニズムを用いる。 これにより、InfLLMはLLMが長いシーケンスを効率的に処理できると同時に、長距離依存関係をキャプチャする機能も維持できる。 トレーニングなしでは、InfLLMは数千のトークンのシーケンスで事前トレーニングされたLLMを、長いシーケンスでこれらのLLMを継続的にトレーニングする競争ベースラインよりも優れたパフォーマンスを達成することができる。 シーケンス長が$1,024$Kにスケールしても、InfLLMは事実上長距離依存関係をキャプチャする。

Large language models (LLMs) have emerged as a cornerstone in real-world applications with lengthy streaming inputs, such as LLM-driven agents. However, existing LLMs, pre-trained on sequences with restricted maximum length, cannot generalize to longer sequences due to the out-of-domain and distraction issues. To alleviate these issues, existing efforts employ sliding attention windows and discard distant tokens to achieve the processing of extremely long sequences. Unfortunately, these approaches inevitably fail to capture long-distance dependencies within sequences to deeply understand semantics. This paper introduces a training-free memory-based method, InfLLM, to unveil the intrinsic ability of LLMs to process streaming long sequences. Specifically, InfLLM stores distant contexts into additional memory units and employs an efficient mechanism to lookup token-relevant units for attention computation. Thereby, InfLLM allows LLMs to efficiently process long sequences while maintaining the ability to capture long-distance dependencies. Without any training, InfLLM enables LLMs pre-trained on sequences of a few thousand tokens to achieve superior performance than competitive baselines continually training these LLMs on long sequences. Even when the sequence length is scaled to $1,024$K, InfLLM still effectively captures long-distance dependencies.
翻訳日:2024-02-08 16:27:29 公開日:2024-02-07
# TinyLLM: 複数の大規模言語モデルから小さな学生を学ぶ

TinyLLM: Learning a Small Student from Multiple Large Language Models ( http://arxiv.org/abs/2402.04616v1 )

ライセンス: Link先を確認
Yijun Tian, Yikun Han, Xiusi Chen, Wei Wang, Nitesh V. Chawla(参考訳) より強力な大規模言語モデル(LLM)からより小さな言語モデルへの推論能力の移行は、より小さなLSMの方が低コストでデプロイしやすいため、非常に魅力的である。 既存の解法の中で、知識蒸留はその優れた効率と一般化のために際立っている。 しかし,既存の手法には,知識の多様性の制限やコンテキスト情報の豊富な欠如など,いくつかの欠点がある。 この課題を解決し,コンパクト言語モデルの学習を容易にするために,多人数の教師llmから小学生llmを学ぶための新しい知識蒸留パラダイムであるtinyllmを提案する。 特に,学生のLCMは正しい回答を生成するだけでなく,これらの答えの背景にある理性を理解することを奨励する。 異なるLLMが多様な推論スキルを持っていることを考慮し、様々なLLM教師の知識を同化するために学生モデルを指導する。 さらに,コンテクスト内サンプル生成器と教師による思考の連鎖戦略を導入して,その合理性が正確であり,文脈的に適切なシナリオで基礎化されていることを保証する。 2つの推論タスクにわたる6つのデータセットに対する大規模な実験は、我々の方法の優位性を示している。 その結果,TinyLLMはモデルサイズがかなり小さいにもかかわらず,大きなLLMよりも優れていた。

Transferring the reasoning capability from stronger large language models (LLMs) to smaller ones has been quite appealing, as smaller LLMs are more flexible to deploy with less expense. Among the existing solutions, knowledge distillation stands out due to its outstanding efficiency and generalization. However, existing methods suffer from several drawbacks, including limited knowledge diversity and the lack of rich contextual information. To solve the problems and facilitate the learning of compact language models, we propose TinyLLM, a novel knowledge distillation paradigm to learn a small student LLM from multiple large teacher LLMs. In particular, we encourage the student LLM to not only generate the correct answers but also understand the rationales behind these answers. Given that different LLMs possess diverse reasoning skills, we guide the student model to assimilate knowledge from various teacher LLMs. We further introduce an in-context example generator and a teacher-forcing Chain-of-Thought strategy to ensure that the rationales are accurate and grounded in contextually appropriate scenarios. Extensive experiments on six datasets across two reasoning tasks demonstrate the superiority of our method. Results show that TinyLLM can outperform large teacher LLMs significantly, despite having a considerably smaller model size.
翻訳日:2024-02-08 16:27:04 公開日:2024-02-07
# ScreenAI: UIとインフォグラフィック理解のための視覚言語モデル

ScreenAI: A Vision-Language Model for UI and Infographics Understanding ( http://arxiv.org/abs/2402.04615v1 )

ライセンス: Link先を確認
Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor C\u{a}rbune, Jason Lin, Jindong Chen, Abhanshu Sharma(参考訳) スクリーンユーザインターフェース(UI)とインフォグラフィック(インフォグラフィック)は、人間のコミュニケーションや人間と機械の相互作用において重要な役割を果たす。 UIとインフォグラフィック理解に特化した視覚言語モデルであるScreenAIを紹介する。 私たちのモデルは、pix2structの柔軟なパッチ戦略によってpaliアーキテクチャを改善し、データセットのユニークな混合でトレーニングします。 この混合の核となるのは、モデルがui要素の型と場所を識別しなければならない、新しいスクリーンアノテーションタスクである。 これらのテキストアノテーションを使って画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。 我々はこれらの設計選択の影響を実証するためにアブレーション研究を行っている。 わずか5Bパラメータで、ScreenAIはUIとインフォグラフィックベースのタスク(Multi-page DocVQA, WebSRC, MoTIF, Widget Captioning)に対する新しい最先端と、他のモデル(Chart QA, DocVQA, InfographicVQA)に対する新しい最高のパフォーマンスを達成する。 最後に、スクリーンアノテーションタスクに焦点を当てた3つの新しいデータセットと、質問応答に焦点を当てた2つのデータセットをリリースします。

Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
翻訳日:2024-02-08 16:26:42 公開日:2024-02-07
# Fithfulness vs. Plausibility:大規模言語モデルからの説明の信頼性について

Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models ( http://arxiv.org/abs/2402.04614v1 )

ライセンス: Link先を確認
Chirag Agarwal, Sree Harsha Tanneru, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。 最近の研究は、現代のLLMが自己説明(SE)を生成できることを示している。 自己説明は、会話的かつもっともらしい性質のために広く採用されている。 しかし、彼らの忠実さをほとんど理解していない。 本研究では, LLM によるSEs の忠実度と妥当性の両立を論じる。 我々は、llmは、一見人間にとって論理的で一貫性のある、妥当な説明を生成するのに長けているが、これらの説明は、必ずしもllmの推論プロセスと一致せず、その忠実性に関する懸念を提起していると主張している。 ユーザフレンドリーなインターフェースの需要に起因した説明の妥当性向上に対する現在の傾向は、彼らの忠実さを損なう可能性があることを強調する。 我々は、高い意思決定に使用されるLCMにおいて、説明の忠実さが重要であると断言する。 さらに,実世界のアプリケーションの忠実性要件を特定し,そのニーズを満たす説明をコミュニティに求める。 最後に,多種多様なハイテイク領域におけるLCMの透過的展開に不可欠な,自己説明の忠実さを損なうことなく向上させる新たな方法論やフレームワークの必要性を強調し,今後の研究の方向性を提案する。

Large Language Models (LLMs) are deployed as powerful tools for several natural language processing (NLP) applications. Recent works show that modern LLMs can generate self-explanations (SEs), which elicit their intermediate reasoning steps for explaining their behavior. Self-explanations have seen widespread adoption owing to their conversational and plausible nature. However, there is little to no understanding of their faithfulness. In this work, we discuss the dichotomy between faithfulness and plausibility in SEs generated by LLMs. We argue that while LLMs are adept at generating plausible explanations -- seemingly logical and coherent to human users -- these explanations do not necessarily align with the reasoning processes of the LLMs, raising concerns about their faithfulness. We highlight that the current trend towards increasing the plausibility of explanations, primarily driven by the demand for user-friendly interfaces, may come at the cost of diminishing their faithfulness. We assert that the faithfulness of explanations is critical in LLMs employed for high-stakes decision-making. Moreover, we urge the community to identify the faithfulness requirements of real-world applications and ensure explanations meet those needs. Finally, we propose some directions for future work, emphasizing the need for novel methodologies and frameworks that can enhance the faithfulness of self-explanations without compromising their plausibility, essential for the transparent deployment of LLMs in diverse high-stakes domains.
翻訳日:2024-02-08 16:26:14 公開日:2024-02-07
# 核ヒルベルト空間におけるf-次元のモロー包絡に対するワッサーシュタイン勾配流

Wasserstein Gradient Flows for Moreau Envelopes of f-Divergences in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2402.04613v1 )

ライセンス: Link先を確認
Sebastian Neumayer, Viktor Stein, Gabriele Steidl(参考訳) 最も一般的に用いられる$f$-divergences of measures(例えば、Kulback-Leiblerの発散)は、関連する措置の支持に関する制限を受ける。 対策は、特性カーネル$K$に付随する2乗最大平均誤差(MMD)によって$f$-divergenceを正規化することである。 本稿では、いわゆるカーネル平均埋め込みを用いて、対応する正規化が $k$ に付随する再生核ヒルベルト空間内のある関数のモロー包含として書き換えられることを示す。 そして、ヒルベルト空間のモローエンベロープのよく知られた結果を利用して、MDD規則化された$f$-divergencesの特性、特にそれらの勾配の証明を行う。 その後,mmdで正規化した$f$-divergencesのwasserstein勾配流を解析した。 最後に,wasserstein勾配流は経験的測度から始まり,tsallis-$\alpha$ divergencesを用いた概念実証数値例を提供する。

Most commonly used $f$-divergences of measures, e.g., the Kullback-Leibler divergence, are subject to limitations regarding the support of the involved measures. A remedy consists of regularizing the $f$-divergence by a squared maximum mean discrepancy (MMD) associated with a characteristic kernel $K$. In this paper, we use the so-called kernel mean embedding to show that the corresponding regularization can be rewritten as the Moreau envelope of some function in the reproducing kernel Hilbert space associated with $K$. Then, we exploit well-known results on Moreau envelopes in Hilbert spaces to prove properties of the MMD-regularized $f$-divergences and, in particular, their gradients. Subsequently, we use our findings to analyze Wasserstein gradient flows of MMD-regularized $f$-divergences. Finally, we consider Wasserstein gradient flows starting from empirical measures and provide proof-of-the-concept numerical examples with Tsallis-$\alpha$ divergences.
翻訳日:2024-02-08 16:25:49 公開日:2024-02-07
# CLIF: スパイクニューラルネットワークのための相補的漏洩積分と火炎ニューロン

CLIF: Complementary Leaky Integrate-and-Fire Neuron for Spiking Neural Networks ( http://arxiv.org/abs/2402.04663v1 )

ライセンス: Link先を確認
Yulong Huang, Xiaopeng Lin, Hongwei Ren, Yue Zhou, Zunchang Liu, Haotian Fu, Biao Pan, Bojun Cheng(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。 従来のディープニューラルネットワーク(ANN)と比較して、SNNは時間情報を処理するための優れた効率と能力を示す。 しかし、SNNのスパイク機構の区別が難しいため、SNNを訓練することは依然として困難である。 シュロゲート勾配法は一般にSNNの訓練に使用されるが、ANNに比べて精度が劣ることが多い。 我々は、分解された精度と時間次元の勾配の消失をLeaky Integrate-and-Fire(LIF)neuron-based SNNのトレーニング過程の分析および実験的研究を通して関連付ける。 さらに,CLIF(Complementary Leaky Integrate-and-Fire)ニューロンを提案する。 CLIFは、バイナリ出力を維持しながら、時間勾配の計算におけるバックプロパゲーションを容易にするために、余分なパスを生成する。 CLIFはハイパーパラメータフリーで、幅広い適用性を備えている。 さまざまなデータセットに対する大規模な実験は、他のニューロンモデルに対するCLIFの明確なパフォーマンス上の優位性を示している。 さらに、CLIFのパフォーマンスは、ネットワーク構造とトレーニング条件が同じである優れたANNをわずかに上回っている。

Spiking neural networks (SNNs) are promising brain-inspired energy-efficient models. Compared to conventional deep Artificial Neural Networks (ANNs), SNNs exhibit superior efficiency and capability to process temporal information. However, it remains a challenge to train SNNs due to their undifferentiable spiking mechanism. The surrogate gradients method is commonly used to train SNNs, but often comes with an accuracy disadvantage over ANNs counterpart. We link the degraded accuracy to the vanishing of gradient on the temporal dimension through the analytical and experimental study of the training process of Leaky Integrate-and-Fire (LIF) Neuron-based SNNs. Moreover, we propose the Complementary Leaky Integrate-and-Fire (CLIF) Neuron. CLIF creates extra paths to facilitate the backpropagation in computing temporal gradient while keeping binary output. CLIF is hyperparameter-free and features broad applicability. Extensive experiments on a variety of datasets demonstrate CLIF's clear performance advantage over other neuron models. Moreover, the CLIF's performance even slightly surpasses superior ANNs with identical network structure and training conditions.
翻訳日:2024-02-08 16:18:07 公開日:2024-02-07
# アーチファクトデザインによる対向ロバスト性

Adversarial Robustness Through Artifact Design ( http://arxiv.org/abs/2402.04660v1 )

ライセンス: Link先を確認
Tsufit Shua and Mahmood Sharif(参考訳) 逆例は機械学習の課題として生まれた。 それらを妨げるために、ほとんどの防御はモデルの訓練方法(例えば、敵の訓練)や推論方法(例えば、ランダム化平滑化)を変える。 それでも、これらのアプローチはモデルの対向的堅牢性を大幅に改善する一方で、モデルは対向的な例に非常に影響を受けやすいままである。 トラヒックサイン認識などの特定の領域において、アーティファクト(例えばサイン)がどのように設計されるべきかを規定する標準に従ってオブジェクトが実装されていることを識別するため、敵対的ロバスト性を改善するための新しいアプローチを提案する。 具体的には、標準を再定義し、既存の標準に小さな変更を加え、敵の例から防御する方法を提供する。 我々は,アーチファクト設計の問題をロバストな最適化問題として定式化し,グラデーションベースおよびグリーディ探索法を提案する。 交通信号認識の分野における我々のアプローチを評価し,交通信号ピクトグラム(記号)とその色を変更することを可能にした。 その結果, 対人訓練と組み合わせることで, 2つの対人タイプに対する最先端の手法と比較して, 25.18 % の頑健な精度が向上し, 良性入力の精度が向上した。

Adversarial examples arose as a challenge for machine learning. To hinder them, most defenses alter how models are trained (e.g., adversarial training) or inference is made (e.g., randomized smoothing). Still, while these approaches markedly improve models' adversarial robustness, models remain highly susceptible to adversarial examples. Identifying that, in certain domains such as traffic-sign recognition, objects are implemented per standards specifying how artifacts (e.g., signs) should be designed, we propose a novel approach for improving adversarial robustness. Specifically, we offer a method to redefine standards, making minor changes to existing ones, to defend against adversarial examples. We formulate the problem of artifact design as a robust optimization problem, and propose gradient-based and greedy search methods to solve it. We evaluated our approach in the domain of traffic-sign recognition, allowing it to alter traffic-sign pictograms (i.e., symbols within the signs) and their colors. We found that, combined with adversarial training, our approach led to up to 25.18\% higher robust accuracy compared to state-of-the-art methods against two adversary types, while further increasing accuracy on benign inputs.
翻訳日:2024-02-08 16:17:49 公開日:2024-02-07
# 視覚言語モデルに対する開語彙校正

Open-Vocabulary Calibration for Vision-Language Models ( http://arxiv.org/abs/2402.04655v1 )

ライセンス: Link先を確認
Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei(参考訳) 視覚言語モデル(VLM)は、画像認識、テキスト駆動型ビジュアルコンテンツ生成、ビジュアルチャットボットなどにおける様々なオープン語彙タスクを扱う強力な能力を示している。 近年、VLMの下流性能を改善するための適応法、特に素早い学習のようなパラメータ効率の高い微調整法に多大な努力とリソースが注がれている。 しかし、主に見過ごされてきた重要な側面は、細調整されたVLMにおける信頼性校正の問題であり、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。 本稿では,即興学習の文脈における信頼度校正問題を体系的に検討し,既存の校正手法ではこの問題,特にオープンボキャブラリー設定では解決が不十分であることを明らかにした。 そこで本研究では,予測テキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づくDAC(Distance-Aware Calibration)を提案する。 11のダウンストリームデータセットに適用した7つの異なるプロンプトラーニング手法を用いた実験は、推論速度を犠牲にすることなく高い有効性を達成するdacの有効性を示す。

Vision-language models (VLMs) have emerged as formidable tools, showing their strong capability in handling various open-vocabulary tasks in image recognition, text-driven visual content generation, and visual chatbots, to name a few. In recent years, considerable efforts and resources have been devoted to adaptation methods for improving downstream performance of VLMs, particularly on parameter-efficient fine-tuning methods like prompt learning. However, a crucial aspect that has been largely overlooked is the confidence calibration problem in fine-tuned VLMs, which could greatly reduce reliability when deploying such models in the real world. This paper bridges the gap by systematically investigating the confidence calibration problem in the context of prompt learning and reveals that existing calibration methods are insufficient to address the problem, especially in the open-vocabulary setting. To solve the problem, we present a simple and effective approach called Distance-Aware Calibration (DAC), which is based on scaling the temperature using as guidance the distance between predicted text labels and base classes. The experiments with 7 distinct prompt learning methods applied across 11 diverse downstream datasets demonstrate the effectiveness of DAC, which achieves high efficacy without sacrificing the inference speed.
翻訳日:2024-02-08 16:17:23 公開日:2024-02-07
# 逆問題に対する超完全深層学習法

An Over Complete Deep Learning Method for Inverse Problems ( http://arxiv.org/abs/2402.04653v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) 逆問題に対する有意義な解決策を得ることは、科学や工学における多くの応用において大きな課題となっている。 近年,近位および拡散に基づく機械学習手法が有望な結果を示している。 しかし、本研究で示すように、いくつかの模範的な問題に適用すると、課題にも直面することができる。 オーバーコンプリート辞書に関する以前の研究と同様、解を高次元に埋め込むことでこれらの欠点を克服できることを示す。 提案する研究の目新しさは,埋め込みベクトルの埋め込みと正規化を共同で設計し,学習することである。 このアプローチのメリットを,いくつかの例と一般的な逆問題に対して示す。

Obtaining meaningful solutions for inverse problems has been a major challenge with many applications in science and engineering. Recent machine learning techniques based on proximal and diffusion-based methods have shown promising results. However, as we show in this work, they can also face challenges when applied to some exemplary problems. We show that similar to previous works on over-complete dictionaries, it is possible to overcome these shortcomings by embedding the solution into higher dimensions. The novelty of the work proposed is that we jointly design and learn the embedding and the regularizer for the embedding vector. We demonstrate the merit of this approach on several exemplary and common inverse problems.
翻訳日:2024-02-08 16:17:00 公開日:2024-02-07
# 量子相関共有:非局所性から他の非古典的相関への最近の進歩

Quantum Correlation Sharing: A Review On Recent Progress From Nonlocality To Other Non-Classical Correlations ( http://arxiv.org/abs/2402.04652v1 )

ライセンス: Link先を確認
Zinuo Cai and Changliang Ren, Tianfeng Feng, Xiaoqi Zhou, Jingling Chen(参考訳) このレビューは、逐次測定によって促進される量子相関共有の領域における最近の進歩を包括的に探求し、合成する。 我々は,結合確率の解釈を掘り下げて調査を開始し,特定の測定方法の文脈内での量子相関の検証の基礎を築いた。 その後の節では、様々な測定戦略とシナリオの下で非局所的共有を慎重に探求し、これらの戦略が量子的非局所性の普及に与える影響について研究する。 asymmetry"や"weak value"といったキーパースペクティブは、さまざまなシナリオにわたる詳細な分析を通じて精査され、非局所性共有の可能性を評価することができます。 また,この現象に関連する実験的取り組みについて概観する。 第3部では,ステアリングシェアリングに関する研究成果を示し,ステアリングシェアリングの実現可能性と,異なるシナリオにおける量子ステアリングシェアリングの特徴を要約した。 第4節では、ネットワークの非局所性、量子絡み合い、量子コンテキスト性といった様々な量子相関の共有について議論している。 第5節では、特にシーケンシャルな測定戦略に基づいて、量子相関共有の適用の進捗に関する包括的なレビューを行っている。 量子ランダムアクセス符号化、乱数生成、自己テストタスクなどの応用が強調されている。 最後に、本研究分野の重要な未解決問題のいくつかを議論し、リストアップし、記事全体をまとめる。

This review offers a comprehensive exploration and synthesis of recent advancements in the domain of quantum correlation sharing facilitated through sequential measurements. We initiate our inquiry by delving into the interpretation of the joint probability, laying the foundation for an examination of quantum correlations within the context of specific measurement methods. The subsequent section meticulously explores nonlocal sharing under diverse measurement strategies and scenarios, with a specific focus on investigating the impact of these strategies on the dissemination of quantum nonlocality. Key perspectives such as "asymmetry" and "weak value" are scrutinized through detailed analyses across various scenarios, allowing us to evaluate the potential of nonlocality sharing. We also provide a retrospective overview of experimental endeavors associated with this phenomenon. The third part of our exploration presents research findings on steering sharing, offering clarity on the feasibility of steering sharing and summarizing the distinctive properties of quantum steering sharing in different scenarios. Continuing our journey, the fourth section delves into discussions on the sharing of diverse quantum correlations, encompassing network nonlocality, quantum entanglement, and quantum contextuality. Moving forward, the fifth section conducts a comprehensive review of the progress in the application of quantum correlation sharing, specifically based on sequential measurement strategies. Applications such as quantum random access coding, random number generation, and self-testing tasks are highlighted. Finally, we discuss and list some of the key unresolved issues in this research field, and conclude the entire article.
翻訳日:2024-02-08 16:16:51 公開日:2024-02-07
# OV-NeRF:3次元意味理解のための視覚モデルと言語基礎モデルを用いたオープンボキャブラリニューラルラジアンス場

OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding ( http://arxiv.org/abs/2402.04648v1 )

ライセンス: Link先を確認
Guibiao Liao, Kaichen Zhou, Zhenyu Bao, Kanglin Liu, Qing Li(参考訳) ニューラルレージアンスフィールド(NeRF)の開発は、3Dシーンの幾何学的特徴と外観特性をカプセル化するための強力な表現を提供する。 オープンな3次元意味認識タスクにおけるNeRFの能力向上は近年注目されている。 しかし、CLIPが提供するノイズやビュー一貫性のないセマンティックスにより、セマンティックフィールド学習の難しさに対処するために、Contrastive Language-Image Pretraining(CLIP)から直接セマンティクスを抽出する現在の手法が提案されている。 これらの制約に対処するため,我々は,事前学習された視覚と言語基盤モデルの可能性を生かして,単一視点とクロスビュー戦略によるセマンティックフィールド学習を強化するOV-NeRFを提案する。 まず,シングルビューの観点から,samから派生した2次元マスクの提案を活用し,各トレーニング視点のノイズを解消し,正確な意味場学習を容易にすることで,地域意味ランキング(rsr)正則化を導入する。 第2に,クロスビューの観点から,ビュー・一貫性のないセマンティクスによる課題に対処するための,クロスビュー・セルフエンハンスメント(CSE)戦略を提案する。 CLIPからの2Dの一貫性のないセマンティクスを必ず活用するのではなく、CSEは、よく訓練されたセマンティクスフィールド自体から生成された3D一貫性のあるセマンティクスを、セマンティクスのトレーニングに活用する。 大規模な実験により、OV-NeRFは現在の最先端手法よりも優れており、それぞれReplicaとScannetのmIoU測定値において20.31%と18.42%の大幅な改善が達成されている。 さらに, 各種CLIP構成に対して一貫した優れた結果を示し, その堅牢性を検証した。

The development of Neural Radiance Fields (NeRFs) has provided a potent representation for encapsulating the geometric and appearance characteristics of 3D scenes. Enhancing the capabilities of NeRFs in open-vocabulary 3D semantic perception tasks has been a recent focus. However, current methods that extract semantics directly from Contrastive Language-Image Pretraining (CLIP) for semantic field learning encounter difficulties due to noisy and view-inconsistent semantics provided by CLIP. To tackle these limitations, we propose OV-NeRF, which exploits the potential of pre-trained vision and language foundation models to enhance semantic field learning through proposed single-view and cross-view strategies. First, from the single-view perspective, we introduce Region Semantic Ranking (RSR) regularization by leveraging 2D mask proposals derived from SAM to rectify the noisy semantics of each training view, facilitating accurate semantic field learning. Second, from the cross-view perspective, we propose a Cross-view Self-enhancement (CSE) strategy to address the challenge raised by view-inconsistent semantics. Rather than invariably utilizing the 2D inconsistent semantics from CLIP, CSE leverages the 3D consistent semantics generated from the well-trained semantic field itself for semantic field training, aiming to reduce ambiguity and enhance overall semantic consistency across different views. Extensive experiments validate our OV-NeRF outperforms current state-of-the-art methods, achieving a significant improvement of 20.31% and 18.42% in mIoU metric on Replica and Scannet, respectively. Furthermore, our approach exhibits consistent superior results across various CLIP configurations, further verifying its robustness.
翻訳日:2024-02-08 16:16:25 公開日:2024-02-07
# latent plan transformer: 潜在変数推論としての計画

Latent Plan Transformer: Planning as Latent Variable Inference ( http://arxiv.org/abs/2402.04647v1 )

ライセンス: Link先を確認
Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu(参考訳) 長期的なリターンを目指すタスクでは、計画が必要である。 オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。 具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。 本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために,遅延空間を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。 LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。 学習において、潜在変数の後方サンプリングは自然に部分軌跡を集め、有限文脈にもかかわらず一貫した抽象を形成する。 テスト時間中、潜在変数はポリシー実行前の期待リターンから推測され、推論として計画するという考えが実現される。 その後、エピソード全体の自己回帰政策をガイドし、計画として機能する。 実験の結果,LPTは最適軌道から改善された決定を発見できることがわかった。 Gym-Mujoco、Maze2D、Connect Fourなどいくつかのベンチマークで競合性能を達成し、微妙なクレジット割り当て、軌道縫合、環境問題への適応能力を示している。 これらの結果は、潜在変数推論がステップ毎の報酬プロンプトの強力な代替となることを検証している。

In tasks aiming for long-term returns, planning becomes necessary. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge. We introduce the Latent Plan Transformer (LPT), a novel model that leverages a latent space to connect a Transformer-based trajectory generator and the final return. LPT can be learned with maximum likelihood estimation on trajectory-return pairs. In learning, posterior sampling of the latent variable naturally gathers sub-trajectories to form a consistent abstraction despite the finite context. During test time, the latent variable is inferred from an expected return before policy execution, realizing the idea of planning as inference. It then guides the autoregressive policy throughout the episode, functioning as a plan. Our experiments demonstrate that LPT can discover improved decisions from suboptimal trajectories. It achieves competitive performance across several benchmarks, including Gym-Mujoco, Maze2D, and Connect Four, exhibiting capabilities of nuanced credit assignments, trajectory stitching, and adaptation to environmental contingencies. These results validate that latent variable inference can be a strong alternative to step-wise reward prompting.
翻訳日:2024-02-08 16:15:48 公開日:2024-02-07
# ブロックスパース信号からの多様化による学習

Learning with Diversification from Block Sparse Signal ( http://arxiv.org/abs/2402.04646v1 )

ライセンス: Link先を確認
Yanhao Zhang, Zhihan Zhu and Yong Xia(参考訳) 本稿では,実世界データに広く分布するブロックスパース現象を特徴付けるために,先述した多角化ブロックスパースを提案する。 分散と相関行列の多様化を可能とし,既定ブロック情報に対する既存のブロックスパース学習手法の感度問題に効果的に対応し,オーバーフィッティングのリスクを軽減しつつ適応ブロック推定を可能にする。 これに基づいて、EMアルゴリズムと双対昇降法による超パラメータ推定法を用いて、分散ブロックスパースベイズ学習法(DivSBL)を提案する。 さらに、このモデルの大域的および局所的最適性理論を確立する。 実験は既存のアルゴリズムよりもDivSBLの利点を検証する。

This paper introduces a novel prior called Diversified Block Sparse Prior to characterize the widespread block sparsity phenomenon in real-world data. By allowing diversification on variance and correlation matrix, we effectively address the sensitivity issue of existing block sparse learning methods to pre-defined block information, which enables adaptive block estimation while mitigating the risk of overfitting. Based on this, a diversified block sparse Bayesian learning method (DivSBL) is proposed, utilizing EM algorithm and dual ascent method for hyperparameter estimation. Moreover, we establish the global and local optimality theory of our model. Experiments validate the advantages of DivSBL over existing algorithms.
翻訳日:2024-02-08 16:15:28 公開日:2024-02-07
# LEVI:異なる視点のレイヤーワイド・アンサンブルによる一般化可能な微調整

LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views ( http://arxiv.org/abs/2402.04644v1 )

ライセンス: Link先を確認
Yuji Roh, Qingyun Liu, Huan Gui, Zhe Yuan, Yujin Tang, Steven Euijong Whang, Liang Liu, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao(参考訳) 新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために、微調整が広く使われている。 様々なタスクで微調整が成功している一方で、近年の研究では、微調整モデルの非知覚分布への一般化(すなわち、分布外; ood)における課題が観察されている。 OODの一般化を改善するために、過去の研究では微調整データの限界を特定し、事前学習データから学んだ一般的な表現を維持するために微調整を規制していた。 しかし、事前学習データやモデルの潜在的な制限はしばしば無視される。 本稿では,事前学習した表現に過度に依存すると,下流のタスクに必須な表現を学習できないため,OODの一般化を損なう可能性があることを論じる。 事前トレーニングされたデータと比較して、新しいタスクが異なる(サブ)ドメインにある場合、特に破滅的になる可能性がある。 プレトレーニングデータと微調整データの両方の課題に対処するため,トレーニングと推論の効率を保ちながら,事前学習されたモデルを小さなタスク固有モデルで階層的にアダプティブアンサンブルするLEVIを提案する。 2つの補完モデルを組み合わせることで、LEVIは微調整データと事前学習モデルの両方において問題のある特徴を効果的に抑制し、新しいタスクに有用な特徴を保存する。 大規模言語と視覚モデルによる広範な実験により、LEVIは微調整データと事前訓練された特徴の異なるビューを強調することにより、微調整の一般化を大幅に改善することが示された。

Fine-tuning is becoming widely used for leveraging the power of pre-trained foundation models in new downstream tasks. While there are many successes of fine-tuning on various tasks, recent studies have observed challenges in the generalization of fine-tuned models to unseen distributions (i.e., out-of-distribution; OOD). To improve OOD generalization, some previous studies identify the limitations of fine-tuning data and regulate fine-tuning to preserve the general representation learned from pre-training data. However, potential limitations in the pre-training data and models are often ignored. In this paper, we contend that overly relying on the pre-trained representation may hinder fine-tuning from learning essential representations for downstream tasks and thus hurt its OOD generalization. It can be especially catastrophic when new tasks are from different (sub)domains compared to pre-training data. To address the issues in both pre-training and fine-tuning data, we propose a novel generalizable fine-tuning method LEVI, where the pre-trained model is adaptively ensembled layer-wise with a small task-specific model, while preserving training and inference efficiencies. By combining two complementing models, LEVI effectively suppresses problematic features in both the fine-tuning data and pre-trained model and preserves useful features for new tasks. Broad experiments with large language and vision models show that LEVI greatly improves fine-tuning generalization via emphasizing different views from fine-tuning data and pre-trained features.
翻訳日:2024-02-08 16:15:15 公開日:2024-02-07
# ドメインブリッジ:ブラックボックスモデルのための生成モデルに基づくドメイン鑑識

Domain Bridge: Generative model-based domain forensic for black-box models ( http://arxiv.org/abs/2402.04640v1 )

ライセンス: Link先を確認
Jiyi Zhang, Han Fang, Ee-Chien Chang(参考訳) 機械学習モデルの法医学的な調査では、モデルのデータドメインを決定する技術が重要な役割を果たす。 このような手法は広い領域を見つけるのに有効であるが、ドメイン内のよりきめ細かいクラスを特定するのに苦労することが多い。 本稿では、一般的なデータ領域(例えば、人間の顔)だけでなく、特定の属性(例えば、眼鏡)も決定する拡張アプローチを提案する。 本手法では,エンコーダとして画像埋め込みモデル,デコーダとして生成モデルを用いる。 粗い粒度の記述から始めて、デコーダは一連の画像を生成し、それが未知のターゲットモデルに提示される。 モデルで成功した分類は、エンコーダをガイドして記述を洗練させ、その後の反復でより具体的な画像を生成するために使用される。 この反復的な洗練は、正確な関心のクラスを狭める。 我々のアプローチの重要な強みは、生成モデルの安定拡散を訓練する拡張データセットlaion-5bを活用することである。 これはimagenetのような従来のコーポラを超えて、検索スペースを拡大します。 実験結果は,モデルの入力領域の特定の属性を識別する手法の性能を示し,深層学習モデルのより詳細な法医学的解析への道筋を示した。

In forensic investigations of machine learning models, techniques that determine a model's data domain play an essential role, with prior work relying on large-scale corpora like ImageNet to approximate the target model's domain. Although such methods are effective in finding broad domains, they often struggle in identifying finer-grained classes within those domains. In this paper, we introduce an enhanced approach to determine not just the general data domain (e.g., human face) but also its specific attributes (e.g., wearing glasses). Our approach uses an image embedding model as the encoder and a generative model as the decoder. Beginning with a coarse-grained description, the decoder generates a set of images, which are then presented to the unknown target model. Successful classifications by the model guide the encoder to refine the description, which in turn, are used to produce a more specific set of images in the subsequent iteration. This iterative refinement narrows down the exact class of interest. A key strength of our approach lies in leveraging the expansive dataset, LAION-5B, on which the generative model Stable Diffusion is trained. This enlarges our search space beyond traditional corpora, such as ImageNet. Empirical results showcase our method's performance in identifying specific attributes of a model's input domain, paving the way for more detailed forensic analyses of deep learning models.
翻訳日:2024-02-08 16:14:43 公開日:2024-02-07
# CIRCUS:反物質・原子・量子物理学実験のための自律制御システム

CIRCUS: an autonomous control system for antimatter, atomic and quantum physics experiments ( http://arxiv.org/abs/2402.04637v1 )

ライセンス: Link先を確認
Marco Volponi, Saiva Huck, Ruggero Caravita, Jakub Zielinski, Georgy Kornakov, Grzegorz Kasprowicz, Dorota Nowicka, Tassilo Rauschendorfer, Benjamin Rien\"acker, Francesco Prelz, Marcis Auzins, Benedikt Bergmann, Petr Burian, Roberto Sennen Brusa, Antoine Camper, Fabrizio Castelli, Roman Ciury{\l}o, Giovanni Consolati, Michael Doser, Lisa Gl\"oggler, {\L}ukasz Graczykowski, Malgorzata Grosbart, Francesco Guatieri, Nataly Gusakova, Fredrik Gustafsson, Stefan Haider, Malgorzata Janik, Gunn Khatri, {\L}ukasz K{\l}osowski, Valts Krumins, Lidia Lappo, Adam Linek, Jan Malamant, Sebastiano Mariazzi, Luca Penasa, Vojtech Petracek, Mariusz Piwi\'nski, Stanislav Pospisil, Luca Povolo, Sadiqali Rangwala, Bharat Rawat, Volodymyr Rodin, Ole R{\o}hne, Heidi Sandaker, Petr Smolyanskiy, Tomasz Sowi\'nski, Dariusz Tefelski, Theodoros Vafeiadis, Carsten Welsch, Tim Wolz, Michal Zawada, Nicola Zurlo(参考訳) 強力で堅牢な制御システムは、様々なデバイスの管理と正確な時間同期を必要とする、近代的な複雑な物理実験の重要な、しばしば無視される柱である。 aegisのコラボレーションは、cernのantiproton deceleratorやより広い意味では原子と量子物理学の研究において、時間クリティカルな実験に最適化された新しい自律制御システムである。 セットアップはSinara/ARTIQとTALOSに基づいており、ALPACA分析パイプラインを統合している。 厳密な同期性要件と、実験の反復可能な自動操作に適しており、リアルタイムデータ分析からのフィードバックによって自律パラメータの最適化を実現している。 circusはaegisでデプロイとテストに成功しており、実験に依存せず、オープンソースとしてリリースされているため、他の実験でもその能力を活用することができる。

A powerful and robust control system is a crucial, often neglected, pillar of any modern, complex physics experiment that requires the management of a multitude of different devices and their precise time synchronisation. The AEgIS collaboration presents CIRCUS, a novel, autonomous control system optimised for time-critical experiments such as those at CERN's Antiproton Decelerator and, more broadly, in atomic and quantum physics research. Its setup is based on Sinara/ARTIQ and TALOS, integrating the ALPACA analysis pipeline, the last two developed entirely in AEgIS. It is suitable for strict synchronicity requirements and repeatable, automated operation of experiments, culminating in autonomous parameter optimisation via feedback from real-time data analysis. CIRCUS has been successfully deployed and tested in AEgIS; being experiment-agnostic and released open-source, other experiments can leverage its capabilities.
翻訳日:2024-02-08 16:14:22 公開日:2024-02-07
# transllama:llmベースの同時翻訳システム

TransLLaMa: LLM-based Simultaneous Translation System ( http://arxiv.org/abs/2402.04636v1 )

ライセンス: Link先を確認
Roman Koshkin, Katsuhito Sudoh and Satoshi Nakamura(参考訳) デコーダのみの大規模言語モデル(llms)は最近、テキスト生成と推論において印象的な能力を示している。 それでも、現在はエンコーダ・デコーダ変換器が支配している同時機械翻訳(SiMT)には限定的な応用がある。 本研究では、因果的に整列したソースと目的の文ペアからなる小さなデータセットを微調整した後、学習済みのオープンソースLCMが特別な「待機」トークンを生成して入力セグメンテーションを直接制御できることを実証する。 これにより、別個の方針の必要性を排除し、LLMは特定の最先端のベースラインに匹敵するBLEUスコアで英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。 また,GPT-4のようなクローズソースモデルも評価し,事前訓練(ゼロショット)なしでのSiMTタスクの実行を奨励する結果を示し,将来のSiMTシステム向上の道筋を示す。

Decoder-only large language models (LLMs) have recently demonstrated impressive capabilities in text generation and reasoning. Nonetheless, they have limited applications in simultaneous machine translation (SiMT), currently dominated by encoder-decoder transformers. This study demonstrates that, after fine-tuning on a small dataset comprising causally aligned source and target sentence pairs, a pre-trained open-source LLM can control input segmentation directly by generating a special "wait" token. This obviates the need for a separate policy and enables the LLM to perform English-German and English-Russian SiMT tasks with BLEU scores that are comparable to those of specific state-of-the-art baselines. We also evaluated closed-source models such as GPT-4, which displayed encouraging results in performing the SiMT task without prior training (zero-shot), indicating a promising avenue for enhancing future SiMT systems.
翻訳日:2024-02-08 16:14:02 公開日:2024-02-07
# GSN:ニューラルラジアンス場における一般セグメンテーション

GSN: Generalisable Segmentation in Neural Radiance Field ( http://arxiv.org/abs/2402.04632v1 )

ライセンス: Link先を確認
Vinayak Gupta, Rahul Goel, Sirikonda Dhawal, P. J. Narayanan(参考訳) 伝統的なラジアンス・フィールド(RF)表現は特定のシーンの詳細を捉え、各シーンでアフレッシュを訓練しなければならない。 セグメンテーションタスクを容易にするために、rfsにセマンティック特徴フィールドが追加された。 一般化されたRF表現は、ビュー補間原理を学ぶ。 一般化されたRFは、いくつかのビューを考えると、未知の未学習シーンの新たなビューを描画することができる。 一般化されたGNT表現に特徴体を除去する方法を提案する。 我々のGSN表現は、一貫したピクセルごとのセマンティックな特徴とともに、目に見えないシーンの新たなビューを生成します。 これにより任意のシーンのマルチビューセグメンテーションが可能になる。 一般化されたRFに蒸留された異なる意味的特徴を示す。 私たちのマルチビューセグメンテーション結果は、従来のRFを使用するメソッドと同等です。 GSNは標準RF法と一般RF法のギャップを著しく埋める。 プロジェクトページ: https://vinayak-vg.github.io/gsn/

Traditional Radiance Field (RF) representations capture details of a specific scene and must be trained afresh on each scene. Semantic feature fields have been added to RFs to facilitate several segmentation tasks. Generalised RF representations learn the principles of view interpolation. A generalised RF can render new views of an unknown and untrained scene, given a few views. We present a way to distil feature fields into the generalised GNT representation. Our GSN representation generates new views of unseen scenes on the fly along with consistent, per-pixel semantic features. This enables multi-view segmentation of arbitrary new scenes. We show different semantic features being distilled into generalised RFs. Our multi-view segmentation results are on par with methods that use traditional RFs. GSN closes the gap between standard and generalisable RF methods significantly. Project Page: https://vinayak-vg.github.io/GSN/
翻訳日:2024-02-08 16:13:44 公開日:2024-02-07
# 認知戦略強化型説得型対話エージェントの将来 : 新たな展望と動向

The Future of Cognitive Strategy-enhanced Persuasive Dialogue Agents: New Perspectives and Trends ( http://arxiv.org/abs/2402.04631v1 )

ライセンス: Link先を確認
Mengqi Chen, Bin Guo, Hao Wang, Haoyu Li, Qian Zhao, Jingqi Liu, Yasan Ding, Yan Pan, Zhiwen Yu(参考訳) 人間のコミュニケーションにおいて重要な能力の1つである説得は、インテリジェントな対話システム分野の研究者から広く注目を集めている。 人間は、様々なシナリオ(例えば、社会的善に対する説得、オンラインプラットフォームでの議論)における会話を通じて、他人の視点、態度、行動を変えるよう説得する傾向がある。 他者に特定の立場を受け入れるよう説得できる対話エージェントを開発することは、真に知的で人為的な対話システムを実現するために不可欠である。 大規模言語モデル(llm)の実質的な進歩により、対話エージェントは文脈理解と応答生成において例外的な能力を得た。 しかし、典型的な複雑な認知心理学システムとして、説得的対話エージェントは認知心理学の領域からの知識を必要とし、人間のような説得のレベルに達する。 その結果,会話を通じて説得目標を達成するための認知戦略を取り入れた認知戦略強化型説得対話エージェント(CogAgent)が主流となっている。 本稿では,CogAgentの研究動向を説明するために,まずいくつかの基本的な認知心理学理論を提示し,説得戦略,トピックパス計画戦略,議論構造予測戦略を含む3つの典型的な認知戦略を定式化した。 次に,CagAgentの基盤となる形式的定義を取り入れた新しいシステムアーキテクチャを提案する。 代表的な研究は、認知戦略の組合せに基づいて詳細に検討され、続いて権威的ベンチマークと評価指標の要約が続く。 最後に,今後の研究者に向けて,オープンイシューとcogagentの今後の方向性に関する知見をまとめる。

Persuasion, as one of the crucial abilities in human communication, has garnered extensive attention from researchers within the field of intelligent dialogue systems. We humans tend to persuade others to change their viewpoints, attitudes or behaviors through conversations in various scenarios (e.g., persuasion for social good, arguing in online platforms). Developing dialogue agents that can persuade others to accept certain standpoints is essential to achieving truly intelligent and anthropomorphic dialogue system. Benefiting from the substantial progress of Large Language Models (LLMs), dialogue agents have acquired an exceptional capability in context understanding and response generation. However, as a typical and complicated cognitive psychological system, persuasive dialogue agents also require knowledge from the domain of cognitive psychology to attain a level of human-like persuasion. Consequently, the cognitive strategy-enhanced persuasive dialogue agent (defined as CogAgent), which incorporates cognitive strategies to achieve persuasive targets through conversation, has become a predominant research paradigm. To depict the research trends of CogAgent, in this paper, we first present several fundamental cognitive psychology theories and give the formalized definition of three typical cognitive strategies, including the persuasion strategy, the topic path planning strategy, and the argument structure prediction strategy. Then we propose a new system architecture by incorporating the formalized definition to lay the foundation of CogAgent. Representative works are detailed and investigated according to the combined cognitive strategy, followed by the summary of authoritative benchmarks and evaluation metrics. Finally, we summarize our insights on open issues and future directions of CogAgent for upcoming researchers.
翻訳日:2024-02-08 16:13:32 公開日:2024-02-07
# AINS:自動車用モノカメラを用いたラインカラー識別による室内ナビゲーションソリューション

AINS: Affordable Indoor Navigation Solution via Line Color Identification Using Mono-Camera for Autonomous Vehicles ( http://arxiv.org/abs/2402.04750v1 )

ライセンス: Link先を確認
Nizamuddin Maitlo, Nooruddin Noonari, Kaleem Arshid, Naveed Ahmed, Sathishkumar Duraisamy(参考訳) 近年,特に屋内シナリオを対象とした新しい手法の研究により,自律走行車の有効性と効率を改善するための様々な方法が研究されている。 屋内ナビゲーションシステムにおける自律走行車両は、特に屋内シナリオにおけるGPSの精度の制限に多くの課題がある。 この問題を解決するために、屋内シナリオにおける自動運転車の頑健な方法がいくつか検討されてきたが、提案手法の非効率性は高い展開コストである。 以上の課題に対処するため,単眼カメラをベースとした自律走行車のための低コスト屋内ナビゲーション手法であるAffordable Indoor Navigation Solution (AINS)を提案する。 提案手法は主にモノカメラをベースとし,レンジファインダやナビゲーションセンサなど,様々な巨大・非効率なセンサを頼らずに経路を探索する。 提案手法は,コストを考慮した屋内ナビゲーションシステムの導入が可能であることを示す。 提案手法が示す結果が既存のソリューションよりも優れていることを観察し,推定誤差と時間消費を低減できることを示した。

Recently, researchers have been exploring various ways to improve the effectiveness and efficiency of autonomous vehicles by researching new methods, especially for indoor scenarios. Autonomous Vehicles in indoor navigation systems possess many challenges especially the limited accuracy of GPS in indoor scenarios. Several, robust methods have been explored for autonomous vehicles in indoor scenarios to solve this problem, but the ineffectiveness of the proposed methods is the high deployment cost. To address the above-mentioned problems we have presented A low-cost indoor navigation method for autonomous vehicles called Affordable Indoor Navigation Solution (AINS) which is based on based on Monocular Camera. Our proposed solution is mainly based on a mono camera without relying on various huge or power-inefficient sensors to find the path, such as range finders and other navigation sensors. Our proposed method shows that we can deploy autonomous vehicles indoor navigation systems while taking into consideration the cost. We can observe that the results shown by our solution are better than existing solutions and we can reduce the estimated error and time consumption.
翻訳日:2024-02-08 16:05:57 公開日:2024-02-07
# ランダムリンドブラッドダイナミクスにおけるデコヒーレンス速度

Decoherence Rate in Random Lindblad Dynamics ( http://arxiv.org/abs/2402.04705v1 )

ライセンス: Link先を確認
Yifeng Yang, Zhenyu Xu, and Adolfo del Campo(参考訳) オープン量子システムはデコヒーレンスを実行し、量子から古典的行動への遷移を担っている。 デコヒーレンスが発生する時間尺度は、その速度の上限を用いて解析することができる。 ウィグナー・ダイソン対称性クラスを持つガウスおよびジニブルアンサンブルから派生したランダムなリンドブラッド作用素が支配する開カオス量子系のダイナミクスについて検討する。 これらの系では、アンサンブル平均純度は時間関数として単調に崩壊する。 この崩壊はデコヒーレンス率によって制御され、ヒルベルト空間の次元によって上界に有界であり、アンサンブル対称性とは独立である。 これらの結果は異なるアンサンブルを混合し、デコヒーレンス率制限の普遍的な特徴を示す。 さらに, ランダムなリンドブラジアンが支配する開カオス量子系は, 初期状態に関わらず, 本質的に最も急速な非一貫性を示す傾向がある。 この現象は、その上界付近のデコヒーレンス率の濃度と関係している。 本研究は,分散量子カオスにおけるデコヒーレンスの主な特徴を,量子基礎から高エネルギー物理学,量子技術への応用について明らかにした。

Open quantum systems undergo decoherence, responsible for the transition from quantum to classical behavior. The time scale in which decoherence takes place can be analyzed using upper limits to its rate. We examine the dynamics of open chaotic quantum systems governed by random Lindblad operators, sourced from Gaussian and Ginibre ensembles with Wigner-Dyson symmetry classes. In these systems, the ensemble-averaged purity decays monotonically as function of time. This decay is governed by the decoherence rate, which is upper bounded by the dimension of their Hilbert space, and is independent of the ensemble symmetry. These findings hold upon mixing different ensembles, indicating the universal character of the decoherence rate limit. Moreover, our findings reveal that open chaotic quantum systems, governed by random Lindbladians, inherently tend to exhibit the most rapid decoherence, regardless of the initial state. This phenomenon is associated with the concentration of the decoherence rate near its upper bound. Our work identifies primary features of decoherence in dissipative quantum chaos, with applications ranging from quantum foundations to high-energy physics and quantum technologies.
翻訳日:2024-02-08 16:05:41 公開日:2024-02-07
# evoseed: 現実世界の錯覚でディープニューラルネットワークの脅威を露呈

EvoSeed: Unveiling the Threat on Deep Neural Networks with Real-World Illusions ( http://arxiv.org/abs/2402.04699v1 )

ライセンス: Link先を確認
Shashank Kotyan, PoYuan Mao, Danilo Vasconcellos Vargas(参考訳) ディープニューラルネットワークは、人間の知覚に影響を与えないが、誤分類されている自然の敵対的なサンプルを用いて利用される。 現在のアプローチでは、ディープニューラルネットワークのホワイトボックスの性質を利用して、これらの逆サンプルを生成したり、逆サンプルの分布をトレーニング分布と比較したりしていることが多い。 現状のアプローチの限界を緩和するため,我々は,新しい進化戦略に基づく探索アルゴリズムフレームワークであるevoseedを提案する。 提案フレームワークは,補助拡散モデルと分類モデルを用いて,モデルに依存しないブラックボックス環境で動作する。 我々は,CMA-ESを用いて,条件付き拡散モデルによって処理された逆数ベクトルの探索を最適化し,非制限の自然逆数サンプルを分類モデルで誤分類する。 実験により、生成した逆向き画像は画像品質が高く、異なる分類器に転送可能であることが示された。 提案手法は, 進化的アルゴリズムを用いて, 敵検体の品質向上を図っている。 われわれの研究が、現実世界のシナリオにおけるディープニューラルネットワークの堅牢性を高める新しい道を開くことを願っている。 プロジェクトwebサイトは \url{https://shashankkotyan.github.io/evoseed} でアクセスできる。

Deep neural networks are exploited using natural adversarial samples, which have no impact on human perception but are misclassified. Current approaches often rely on the white-box nature of deep neural networks to generate these adversarial samples or alter the distribution of adversarial samples compared to training distribution. To alleviate the limitations of current approaches, we propose EvoSeed, a novel evolutionary strategy-based search algorithmic framework to generate natural adversarial samples. Our EvoSeed framework uses auxiliary Diffusion and Classifier models to operate in a model-agnostic black-box setting. We employ CMA-ES to optimize the search for an adversarial seed vector, which, when processed by the Conditional Diffusion Model, results in an unrestricted natural adversarial sample misclassified by the Classifier Model. Experiments show that generated adversarial images are of high image quality and are transferable to different classifiers. Our approach demonstrates promise in enhancing the quality of adversarial samples using evolutionary algorithms. We hope our research opens new avenues to enhance the robustness of deep neural networks in real-world scenarios. Project Website can be accessed at \url{https://shashankkotyan.github.io/EvoSeed}.
翻訳日:2024-02-08 16:05:21 公開日:2024-02-07
# 直交性制約を伴わない相関成分の分散からpcaへ

From explained variance of correlated components to PCA without orthogonality constraints ( http://arxiv.org/abs/2402.04692v1 )

ライセンス: Link先を確認
Marie Chavent (IMB), Guy Chavent(参考訳) データマトリックスAのブロック主成分分析(Block PCA)において、単位ノルム直交荷重に対するAZ2の最大化により負荷Zが決定されるが、負荷の直交制約と微分不可能な1ペナルティの両方の処理が困難であるため、1正規化によるスパースPCAの設計には使用が困難である。 本稿では, 相関成分Y = AZ で説明されるデータ行列 A の分散部分を測定する新たな目的関数 expvar(Y) を導入することにより, 負荷の直交制約を緩和することを目的とする。 そこで我々は,2つの既存定義に対するexpvar(y)の数学的および数値的性質の包括的研究を最初に提案する。 2006年],shen and huang [2008年],および4つの新しい定義。 次に, 直交制約を除去するブロックPCAの定式化において, 目的関数として用いるには, これら2つの変分しか適していないことを示す。

Block Principal Component Analysis (Block PCA) of a data matrix A, where loadings Z are determined by maximization of AZ 2 over unit norm orthogonal loadings, is difficult to use for the design of sparse PCA by 1 regularization, due to the difficulty of taking care of both the orthogonality constraint on loadings and the non differentiable 1 penalty. Our objective in this paper is to relax the orthogonality constraint on loadings by introducing new objective functions expvar(Y) which measure the part of the variance of the data matrix A explained by correlated components Y = AZ. So we propose first a comprehensive study of mathematical and numerical properties of expvar(Y) for two existing definitions Zou et al. [2006], Shen and Huang [2008] and four new definitions. Then we show that only two of these explained variance are fit to use as objective function in block PCA formulations for A rid of orthogonality constraints.
翻訳日:2024-02-08 16:04:59 公開日:2024-02-07
# 一般ヒルベルト空間における確率勾配Descenceを用いた演算子学習

Learning Operators with Stochastic Gradient Descent in General Hilbert Spaces ( http://arxiv.org/abs/2402.04691v1 )

ライセンス: Link先を確認
Lei Shi and Jia-Qi Yang(参考訳) 本研究では、確率勾配勾配(SGD)を利用して一般ヒルベルト空間間の作用素を学習する。 対象演算子が固有構造と複雑性を表現するための弱かつ強正則性条件を提案する。 これらの条件下では、SGDアルゴリズムの収束率の上限を確立し、最小限の低境界解析を行い、さらに、収束解析と規則性条件により、SGDアルゴリズムを用いた演算子学習問題のトラクタビリティを定量的に特徴づける。 非線形演算子学習には, 収束解析が依然として有効であることが重要である。 SGD推定器は非線形対象作用素の最適線形近似に収束することを示す。 さらに、ベクトル値および実数値再生カーネルヒルベルト空間に基づく演算子学習問題に対する解析の適用により、新たな収束結果が得られ、既存の文献の結論が洗練される。

This study investigates leveraging stochastic gradient descent (SGD) to learn operators between general Hilbert spaces. We propose weak and strong regularity conditions for the target operator to depict its intrinsic structure and complexity. Under these conditions, we establish upper bounds for convergence rates of the SGD algorithm and conduct a minimax lower bound analysis, further illustrating that our convergence analysis and regularity conditions quantitatively characterize the tractability of solving operator learning problems using the SGD algorithm. It is crucial to highlight that our convergence analysis is still valid for nonlinear operator learning. We show that the SGD estimator will converge to the best linear approximation of the nonlinear target operator. Moreover, applying our analysis to operator learning problems based on vector-valued and real-valued reproducing kernel Hilbert spaces yields new convergence results, thereby refining the conclusions of existing literature.
翻訳日:2024-02-08 16:04:40 公開日:2024-02-07
# stein boltzmann sampling:グローバル最適化のための変分的アプローチ

Stein Boltzmann Sampling: A Variational Approach for Global Optimization ( http://arxiv.org/abs/2402.04689v1 )

ライセンス: Link先を確認
Ga\"etan Serr\'e (CB), Argyris Kalogeratos (CB), Nicolas Vayatis (CB)(参考訳) 本稿では, stein boltzmann sampling (sbs) と呼ばれる, リプシッツ関数のグローバル最適化のための新しいフローベース手法を提案する。 我々の手法は、最適化される関数の最小値の集合に対して漸近的に一様となるボルツマン分布からサンプリングする。 候補解は \emph{Stein Variational Gradient Descent} アルゴリズムでサンプリングされる。 提案手法の漸近収束性を証明し、2つのSBS変種を導入し、様々なベンチマーク関数に対する最先端のグローバル最適化アルゴリズムと比較した。 提案手法の設計, 理論結果, 実験の結果から, sbsは, 効率的なグローバル最適化手法の継続として, 予算をうまく活用しながら, より良いソリューションを創造できるため, 特に適していることが示唆された。

In this paper, we introduce a new flow-based method for global optimization of Lipschitz functions, called Stein Boltzmann Sampling (SBS). Our method samples from the Boltzmann distribution that becomes asymptotically uniform over the set of the minimizers of the function to be optimized. Candidate solutions are sampled via the \emph{Stein Variational Gradient Descent} algorithm. We prove the asymptotic convergence of our method, introduce two SBS variants, and provide a detailed comparison with several state-of-the-art global optimization algorithms on various benchmark functions. The design of our method, the theoretical results, and our experiments, suggest that SBS is particularly well-suited to be used as a continuation of efficient global optimization methods as it can produce better solutions while making a good use of the budget.
翻訳日:2024-02-08 16:04:23 公開日:2024-02-07
# カメラ校正過程におけるオートフォーカスレンズの影響

The Influence of Autofocus Lenses in the Camera Calibration Process ( http://arxiv.org/abs/2402.04686v1 )

ライセンス: Link先を確認
Carlos Ricolfe-Viala, Alicia Esparza(参考訳) カメラのキャリブレーションは、ロボットとコンピュータビジョンにとって重要なステップだ。 堅牢なアプリケーションを実現するには正確なカメラパラメータが必要である。 今日では、カメラキャリブレーションプロセスは、セロに近い再投影誤差でカメラパラメータが正しいと仮定して、一連のデータをピンホールモデルに調整することで構成されている。 全てのカメラパラメータが未知であるため、計算結果は真と考えられる。 しかし、ピンホールモデルは焦点を考慮した場合、カメラの挙動を正確に表現しない。 実写カメラは焦点距離をわずかに変えて画像中の鋭い物体を得るが、一意なピンホールモデルが一定の焦点距離で計算された場合、この特徴はキャリブレーション結果を歪める。 本稿では,カメラキャリブレーションプロセスの深い解析を行い,その弱点を検出し,強化する。 カメラはロボットアームに装着され、外部カメラパラメータを正確に把握し、計算結果と実際のパラメータを比較することができる。 計算結果と真の結果との間に存在するバイアスに基づいて、平面テンプレートの画像を用いた広く受け入れられるカメラキャリブレーション方法の修正を提案する。 距離依存焦点長ピンホールモデルを提案し,キャリブレーションプロセスを大幅に改善した。

Camera calibration is a crucial step in robotics and computer vision. Accurate camera parameters are necessary to achieve robust applications. Nowadays, camera calibration process consists of adjusting a set of data to a pin-hole model, assuming that with a reprojection error close to cero, camera parameters are correct. Since all camera parameters are unknown, computed results are considered true. However, the pin-hole model does not represent the camera behavior accurately if the focus is considered. Real cameras change the focal length slightly to obtain sharp objects in the image and this feature skews the calibration result if a unique pin-hole model is computed with a constant focal length. In this paper, a deep analysis of the camera calibration process is done to detect and strengthen its weaknesses. The camera is mounted in a robot arm to known extrinsic camera parameters with accuracy and to be able to compare computed results with the true ones. Based on the bias that exist between computed results and the true ones, a modification of the widely accepted camera calibration method using images of a planar template is presented. A pin-hole model with distance dependent focal length is proposed to improve the calibration process substantially
翻訳日:2024-02-08 16:04:08 公開日:2024-02-07
# データメッシュにおけるセルフサーブデータプラットフォームのためのアーキテクチャ設計決定

Architectural Design Decisions for Self-Serve Data Platforms in Data Meshes ( http://arxiv.org/abs/2402.04681v1 )

ライセンス: Link先を確認
Tom van Eijk, Indika Kumara, Dario Di Nucci, Damian Andrew Tamburri, Willem-Jan van den Heuvel(参考訳) data meshは、大規模な分析企業データから価値を管理し、生成するための、新たな分散アプローチだ。 データの所有権を、データに最も近いビジネスドメインに移行し、自律製品としてデータの共有と管理を促進し、フェデレーションと自動データガバナンスモデルを使用する。 データメッシュは、データプロダクトを効率的に構築、共有、管理するためのドメインおよびガバナンスチームにサービスを提供するマネージドデータプラットフォームに依存している。 しかし、セルフサービスデータプラットフォームの設計と実装は困難であり、プラットフォームエンジニアとアーキテクトは、プラットフォームがドメインおよびガバナンスチームのエクスペリエンスを向上させるために適切な設計オプションを理解し、選択する必要がある。 そこで本稿では,データメッシュにおける自己管理型データプラットフォームに関する43の産業グレー文学論文を体系的にレビューし,アーキテクチャ設計決定とそれに対応する決定オプションのカタログを提案する。 さらに,データメッシュ経験を持つ6人のデータエンジニアリング専門家と半構造化インタビューを行い,文献から得られた知見の検証,洗練,拡張を行った。 このような設計上の決定と選択肢のカタログは、データメッシュアーキテクチャに関するさらなる研究のためのベースラインを提供しながら、データメッシュを構築する実践者を支援する。

Data mesh is an emerging decentralized approach to managing and generating value from analytical enterprise data at scale. It shifts the ownership of the data to the business domains closest to the data, promotes sharing and managing data as autonomous products, and uses a federated and automated data governance model. The data mesh relies on a managed data platform that offers services to domain and governance teams to build, share, and manage data products efficiently. However, designing and implementing a self-serve data platform is challenging, and the platform engineers and architects must understand and choose the appropriate design options to ensure the platform will enhance the experience of domain and governance teams. For these reasons, this paper proposes a catalog of architectural design decisions and their corresponding decision options by systematically reviewing 43 industrial gray literature articles on self-serve data platforms in data mesh. Moreover, we used semi-structured interviews with six data engineering experts with data mesh experience to validate, refine, and extend the findings from the literature. Such a catalog of design decisions and options drawn from the state of practice shall aid practitioners in building data meshes while providing a baseline for further research on data mesh architectures.
翻訳日:2024-02-08 16:03:49 公開日:2024-02-07
# 忠実な説明者としての大規模言語モデル

Large Language Models As Faithful Explainers ( http://arxiv.org/abs/2402.04678v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Ruixiang Tang, Fan Yang, Mengnan Du, Xuanting Cai, and Xia Hu(参考訳) 大規模言語モデル(llm)は、その豊富な内部知識と推論能力を活用することで、最近複雑なタスクに熟達している。 したがって、この複雑さはllmの複雑な意思決定プロセスを説明する伝統的な入力中心の説明アルゴリズムを妨げる。 このようにして、自然言語形式のフィードフォワード推論により、予測を自己説明するための最近の進歩が現れた。 しかしながら、これらの説明はLLMの意思決定行動を正確に反映していないため、自然言語の説明は忠実さの欠如によってしばしば批判される。 本研究では,LLMの自然言語形式で提供される説明の忠実性を改善するために,生成的説明フレームワークであるxLLMを導入する。 具体的には,xllmの反復最適化プロセスにより,自然言語説明の忠実度を定量化し,忠実度を最大化することを目的とした評価器を提案する。 3つのNLUデータセットで行った実験により、xLLMはLLMの挙動に沿った生成した説明の忠実性を大幅に改善できることが示された。

Large Language Models (LLMs) have recently become proficient in addressing complex tasks by utilizing their rich internal knowledge and reasoning ability. Consequently, this complexity hinders traditional input-focused explanation algorithms for explaining the complex decision-making processes of LLMs. Recent advancements have thus emerged for self-explaining their predictions through a single feed-forward inference in a natural language format. However, natural language explanations are often criticized for lack of faithfulness since these explanations may not accurately reflect the decision-making behaviors of the LLMs. In this work, we introduce a generative explanation framework, xLLM, to improve the faithfulness of the explanations provided in natural language formats for LLMs. Specifically, we propose an evaluator to quantify the faithfulness of natural language explanation and enhance the faithfulness by an iterative optimization process of xLLM, with the goal of maximizing the faithfulness scores. Experiments conducted on three NLU datasets demonstrate that xLLM can significantly improve the faithfulness of generated explanations, which are in alignment with the behaviors of LLMs.
翻訳日:2024-02-08 16:03:27 公開日:2024-02-07
# 抽象要約におけるソース識別

Source Identification in Abstractive Summarization ( http://arxiv.org/abs/2402.04677v1 )

ライセンス: Link先を確認
Yoshi Suhara and Dimitris Alikaniotis(参考訳) ニューラルネットワークの抽象的要約モデルでは、要約をエンドツーエンドで作成し、ソース情報を実際に要約に変換する方法についてはほとんど分かっていない。 本稿では、生成された要約に必須情報を含む入力文を$\textit{source sentences}$と定義し、ソース文を解析して抽象的な要約がどのように作られるかを検討する。 この目的のために,cnn/dailymail と xsum データセットからサンプリングされた文書-要約ペアに対して,pegasus が生成した参照要約とシステム要約のソース文に注釈を付ける。 また、複数の手法を比較して、タスクの強力なベースラインを確立する。 実験の結果, パープレキシティに基づく手法は高度に抽象的な設定で良好に動作し, 類似性に基づく手法は比較的抽出的な設定でロバストに機能することがわかった。 コードとデータはhttps://github.com/suhara/sourcesum.comから入手できます。

Neural abstractive summarization models make summaries in an end-to-end manner, and little is known about how the source information is actually converted into summaries. In this paper, we define input sentences that contain essential information in the generated summary as $\textit{source sentences}$ and study how abstractive summaries are made by analyzing the source sentences. To this end, we annotate source sentences for reference summaries and system summaries generated by PEGASUS on document-summary pairs sampled from the CNN/DailyMail and XSum datasets. We also formulate automatic source sentence detection and compare multiple methods to establish a strong baseline for the task. Experimental results show that the perplexity-based method performs well in highly abstractive settings, while similarity-based methods perform robustly in relatively extractive settings. Our code and data are available at https://github.com/suhara/sourcesum.
翻訳日:2024-02-08 16:03:10 公開日:2024-02-07
# リスク最小化を伴う群分布ロバストデータセット蒸留

Group Distributionally Robust Dataset Distillation with Risk Minimization ( http://arxiv.org/abs/2402.04676v1 )

ライセンス: Link先を確認
Saeed Vahidian, Mingyu Wang, Jianyang Gu, Vyacheslav Kungurtsev, Wei Jiang, Yiran Chen(参考訳) データセット蒸留(dataset distillation, dd)は、トレーニングデータセットの本質情報をキャプチャし、正確な神経モデルのトレーニングを容易にする合成データセットを作成するために広く採用されている技術である。 そのアプリケーションは、転送学習、連合学習、ニューラルネットワーク検索など、さまざまなドメインにまたがる。 合成データを構築する最も一般的な方法は、モデルの収束特性と、合成データセットとトレーニングデータセットとの整合性に依存する。 しかし、トレーニングデータセットのターゲットは、トレーニングセットが人口分布の近似代用であり、後者が興味のあるデータであるのと同じ意味で補助的なものとみなす必要がある。 しかし、その人気にもかかわらず、まだ探索されていない側面は、DDとその一般化、特に非共通部分群の間の関係である。 つまり、人口密度の低い地域からのサンプルに対して、合成データセットでトレーニングされたモデルが適切に機能することを保証するには、どうすればよいのか? ここで、データセットの代表性とカバレッジは、推論時に保証されたトレーニングエラーに対して良好になる。 分散的ロバストな最適化から着想を得て,ddを行うための損失に対するリスク尺度の最小化とクラスタリングを組み合わせたアルゴリズムを提案する。 提案手法の理論的理論的根拠を提供し,その有効一般化と,数値実験による部分群間のロバスト性を示す。

Dataset distillation (DD) has emerged as a widely adopted technique for crafting a synthetic dataset that captures the essential information of a training dataset, facilitating the training of accurate neural models. Its applications span various domains, including transfer learning, federated learning, and neural architecture search. The most popular methods for constructing the synthetic data rely on matching the convergence properties of training the model with the synthetic dataset and the training dataset. However, targeting the training dataset must be thought of as auxiliary in the same sense that the training set is an approximate substitute for the population distribution, and the latter is the data of interest. Yet despite its popularity, an aspect that remains unexplored is the relationship of DD to its generalization, particularly across uncommon subgroups. That is, how can we ensure that a model trained on the synthetic dataset performs well when faced with samples from regions with low population density? Here, the representativeness and coverage of the dataset become salient over the guaranteed training error at inference. Drawing inspiration from distributionally robust optimization, we introduce an algorithm that combines clustering with the minimization of a risk measure on the loss to conduct DD. We provide a theoretical rationale for our approach and demonstrate its effective generalization and robustness across subgroups through numerical experiments.
翻訳日:2024-02-08 16:02:53 公開日:2024-02-07
# ダブル機械学習による因果推論のためのハイパーパラメータチューニング:シミュレーションによる検討

Hyperparameter Tuning for Causal Inference with Double Machine Learning: A Simulation Study ( http://arxiv.org/abs/2402.04674v1 )

ライセンス: Link先を確認
Philipp Bach and Oliver Schacht and Victor Chernozhukov and Sven Klaassen and Martin Spindler(参考訳) 予測タスクにおける現代の機械学習(ml)メソッドの最適性能を達成するには、適切なハイパーパラメータチューニングが不可欠である。 予測のためのML学習者のチューニングには広範な文献があるが、因果学習のためのML学習者のチューニングや、異なるML学習者の選択方法に関するガイダンスはほとんどない。 本稿では,ChernozhukovらによるDouble Machine Learning(DML)アプローチに基づいて,ML手法の予測性能と結果の因果推定との関係を実証的に評価する。 DMLは、いわゆるニュアンスパラメータを教師付き学習問題として扱い、プラグイン推定として使用することで、(因果)パラメータを解く。 我々は,2019 Atlantic Causal Inference Conference Data Challengeのデータを用いて,広範なシミュレーション研究を行う。 DMLを用いた因果推定におけるハイパーパラメータチューニングとその他の実践的意思決定の役割に関する実証的な知見を提供する。 まず、Double Machine Learningにおける機械学習学習者のチューニングにおけるデータ分割方式の重要性を評価する。 第2に、最近のAutoMLフレームワークを含むMLメソッドとハイパーパラメータの選択が、関心の因果パラメータの推定性能に与える影響について検討する。 第3に、パラメトリックな仮定が組み込まれているような特定の因果モデルの選択が、予測性能指標に基づいてどの程度の程度に評価できるかを評価する。

Proper hyperparameter tuning is essential for achieving optimal performance of modern machine learning (ML) methods in predictive tasks. While there is an extensive literature on tuning ML learners for prediction, there is only little guidance available on tuning ML learners for causal machine learning and how to select among different ML learners. In this paper, we empirically assess the relationship between the predictive performance of ML methods and the resulting causal estimation based on the Double Machine Learning (DML) approach by Chernozhukov et al. (2018). DML relies on estimating so-called nuisance parameters by treating them as supervised learning problems and using them as plug-in estimates to solve for the (causal) parameter. We conduct an extensive simulation study using data from the 2019 Atlantic Causal Inference Conference Data Challenge. We provide empirical insights on the role of hyperparameter tuning and other practical decisions for causal estimation with DML. First, we assess the importance of data splitting schemes for tuning ML learners within Double Machine Learning. Second, we investigate how the choice of ML methods and hyperparameters, including recent AutoML frameworks, impacts the estimation performance for a causal parameter of interest. Third, we assess to what extent the choice of a particular causal model, as characterized by incorporated parametric assumptions, can be based on predictive performance metrics.
翻訳日:2024-02-08 16:02:33 公開日:2024-02-07
# g-nas: 単一領域一般化オブジェクト検出のための一般化ニューラルネットワーク探索

G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection ( http://arxiv.org/abs/2402.04672v1 )

ライセンス: Link先を確認
Fan Wu, Jinling Gao, Lanqing Hong, Xinbing Wang, Chenghu Zhou, Nanyang Ye(参考訳) 本稿では,オブジェクト検出のトレーニングに1つのソースドメインのデータしか使用できないが,複数の異なるターゲットドメインを一般化しなければならない,現実的な課題であるs-dgod(single domain generalization object detection)に焦点を当てる。 S-DGODでは、タスクの複雑さのため、高いキャパシティフィッティングと一般化能力が必要である。 微分可能なニューラルネットワーク探索(NAS)は、複雑なデータフィッティングに高い能力があることで知られており、微分可能なNASを活用してS-DGODを解くことを提案する。 しかし、勾配降下によって最適化されたパラメータが偏り、通常、非因果的であり、オブジェクト検出データにおける背景のような基底真理ラベルに散発的に相関する、分かり易い特徴から学習される、特徴の不均衡現象によって、深刻な過剰フィッティング問題に直面する可能性がある。 その結果、特にソースドメインとターゲットドメインの間に大きなドメインギャップがある未確認のターゲットドメインに一般化することで、パフォーマンスが大幅に低下する。 この問題に対処するため、OoDを意識した汎用損失(G-loss)を提案し、NASが勾配降下を利用してパラメーターを最適化するだけでなく、一般化のための残りの予測的特徴を最適化し、全体フレームワークをG-NASと命名する。 S-DGOD都市景観データセットの実験結果から,提案したG-NASはベースライン法と比較してSOTA性能が向上することが示された。 コードはhttps://github.com/wufan-cse/g-nasで入手できる。

In this paper, we focus on a realistic yet challenging task, Single Domain Generalization Object Detection (S-DGOD), where only one source domain's data can be used for training object detectors, but have to generalize multiple distinct target domains. In S-DGOD, both high-capacity fitting and generalization abilities are needed due to the task's complexity. Differentiable Neural Architecture Search (NAS) is known for its high capacity for complex data fitting and we propose to leverage Differentiable NAS to solve S-DGOD. However, it may confront severe over-fitting issues due to the feature imbalance phenomenon, where parameters optimized by gradient descent are biased to learn from the easy-to-learn features, which are usually non-causal and spuriously correlated to ground truth labels, such as the features of background in object detection data. Consequently, this leads to serious performance degradation, especially in generalizing to unseen target domains with huge domain gaps between the source domain and target domains. To address this issue, we propose the Generalizable loss (G-loss), which is an OoD-aware objective, preventing NAS from over-fitting by using gradient descent to optimize parameters not only on a subset of easy-to-learn features but also the remaining predictive features for generalization, and the overall framework is named G-NAS. Experimental results on the S-DGOD urban-scene datasets demonstrate that the proposed G-NAS achieves SOTA performance compared to baseline methods. Codes are available at https://github.com/wufan-cse/G-NAS.
翻訳日:2024-02-08 16:02:10 公開日:2024-02-07
# v2vssc:車間通信による知覚のための3次元意味シーン補完ベンチマーク

V2VSSC: A 3D Semantic Scene Completion Benchmark for Perception with Vehicle to Vehicle Communication ( http://arxiv.org/abs/2402.04671v1 )

ライセンス: Link先を確認
Yuanfang Zhang, Junxuan Li, Kaiqing Luo, Yiying Yang, Jiayi Han, Nian Liu, Denghui Qin, Peng Han, Chengpei Xu(参考訳) セマンティックシーン補完(SSC)は、自動運転車のナビゲーションに直接使用できる意味情報と幾何学的情報の両方を提供することができるため、最近人気を集めている。 しかし、まだ克服すべき課題がある。 SSCはしばしば、センサーの制限による閉塞と短距離知覚によって妨げられ、安全リスクを引き起こす。 本稿では,車両間通信(v2v)を利用したこの問題に対する基礎的解決法を提案する。 そこで我々は,自動運転車がセンサビューからセンサ情報を共有し,共同作業を行うための,初の汎用協調型SCフレームワークを提案する。 提案するフレームワークを検証するため,大規模なV2V知覚データセットOPV2V上に,V2V SSCベンチマークの最初のV2VSSCを構築する。 大規模な実験では、V2V通信を利用することで、幾何計量IoUの8.3%、mIOUの6.0%でSSC性能が向上することを示した。

Semantic scene completion (SSC) has recently gained popularity because it can provide both semantic and geometric information that can be used directly for autonomous vehicle navigation. However, there are still challenges to overcome. SSC is often hampered by occlusion and short-range perception due to sensor limitations, which can pose safety risks. This paper proposes a fundamental solution to this problem by leveraging vehicle-to-vehicle (V2V) communication. We propose the first generalized collaborative SSC framework that allows autonomous vehicles to share sensing information from different sensor views to jointly perform SSC tasks. To validate the proposed framework, we further build V2VSSC, the first V2V SSC benchmark, on top of the large-scale V2V perception dataset OPV2V. Extensive experiments demonstrate that by leveraging V2V communication, the SSC performance can be increased by 8.3% on geometric metric IoU and 6.0% mIOU.
翻訳日:2024-02-08 16:01:39 公開日:2024-02-07
# 時系列健康データを用いた個別治療効果推定の展望

A Perspective on Individualized Treatment Effects Estimation from Time-series Health Data ( http://arxiv.org/abs/2402.04668v1 )

ライセンス: Link先を確認
Ghadeer O. Ghosheh, Moritz G\"ogl and Tingting Zhu(参考訳) 病気の負担は世界中で増大しており、臨床試験で過小評価されている患者に対する不平等な治療効果がある。 しかし、医療は平均的な人口効果によって引き起こされるため、各患者に最も適しているとは限らず、"ワンサイズフィット・オール"なアプローチで運営される。 これらの事実は、パーソナライズされた治療を促進するために個別化された治療効果(ITE)を研究する方法論の必要性を強く示唆している。 機械学習駆動のite推定モデルへの関心が高まっているにもかかわらず、大多数は時系列電子健康記録(ehrs)のために提案された方法論のレビューと理解を限定した表データに焦点を当てている。 この目的のために、本研究では、時系列データのためのiteの成果の概要と今後の研究への洞察を提供する。 この研究は、論文における最新の研究を要約し、理論的な仮定、治療のタイプ、計算フレームワークを考慮してレビューする。 さらに,本研究は,ITTの課題と今後の研究方向性を時系列設定で論じる。 この研究が新たな方向性を開き、エキサイティングで未研究の分野を理解するためのリソースとして機能することを願っています。

The burden of diseases is rising worldwide, with unequal treatment efficacy for patient populations that are underrepresented in clinical trials. Healthcare, however, is driven by the average population effect of medical treatments and, therefore, operates in a "one-size-fits-all" approach, not necessarily what best fits each patient. These facts suggest a pressing need for methodologies to study individualized treatment effects (ITE) to drive personalized treatment. Despite the increased interest in machine-learning-driven ITE estimation models, the vast majority focus on tabular data with limited review and understanding of methodologies proposed for time-series electronic health records (EHRs). To this end, this work provides an overview of ITE works for time-series data and insights into future research. The work summarizes the latest work in the literature and reviews it in light of theoretical assumptions, types of treatment settings, and computational frameworks. Furthermore, this work discusses challenges and future research directions for ITEs in a time-series setting. We hope this work opens new directions and serves as a resource for understanding one of the exciting yet under-studied research areas.
翻訳日:2024-02-08 16:01:22 公開日:2024-02-07
# 照明環境における色認識:CNNアプローチ

Color Recognition in Challenging Lighting Environments: CNN Approach ( http://arxiv.org/abs/2402.04762v1 )

ライセンス: Link先を確認
Nizamuddin Maitlo, Nooruddin Noonari, Sajid Ahmed Ghanghro, Sathishkumar Duraisamy, Fayaz Ahmed(参考訳) 光は人間の視界または機械視界において重要な役割を担い、知覚される色は常に周囲の照明条件に基づいている。 研究者は、コンピュータビジョンの応用のための色検出技術を強化するために取り組んでいる。 彼らは異なる色検出アプローチを使っていくつかの方法を提案しているが、それでも満たせるギャップがある。 この問題に対処するために,畳み込みニューラルネットワーク(CNN)に基づく色検出手法を提案する。 まず、対象物を特定するためにエッジ検出セグメンテーション技術を用いて画像セグメンテーションを行い、そのセグメンテーションされたオブジェクトを、異なる照明条件下で物体の色を検出するように訓練された畳み込みニューラルネットワークに供給する。 異なる照明条件における色検出のロバスト性が大幅に向上できることを実験的に検証し,従来の方法よりも良好な結果を得た。

Light plays a vital role in vision either human or machine vision, the perceived color is always based on the lighting conditions of the surroundings. Researchers are working to enhance the color detection techniques for the application of computer vision. They have implemented proposed several methods using different color detection approaches but still, there is a gap that can be filled. To address this issue, a color detection method, which is based on a Convolutional Neural Network (CNN), is proposed. Firstly, image segmentation is performed using the edge detection segmentation technique to specify the object and then the segmented object is fed to the Convolutional Neural Network trained to detect the color of an object in different lighting conditions. It is experimentally verified that our method can substantially enhance the robustness of color detection in different lighting conditions, and our method performed better results than existing methods.
翻訳日:2024-02-08 15:54:17 公開日:2024-02-07
# 半教師付き核インスタンスセグメンテーションのための境界認識コントラスト学習

Boundary-aware Contrastive Learning for Semi-supervised Nuclei Instance Segmentation ( http://arxiv.org/abs/2402.04756v1 )

ライセンス: Link先を確認
Ye Zhang, Ziyue Wang, Yifeng Wang, Hao Bian, Linghan Cai, Hengrui Li, Lingbo Zhang, Yongbing Zhang(参考訳) 半教師付きセグメンテーション法は自然なシナリオにおいて有望な結果を示し、手動アノテーションへの依存を減らすソリューションを提供する。 しかし、これらの手法は、核と組織間の微妙な色差や、核間の顕著な形態変化により、病理画像に直接適用する場合、重大な課題に直面している。 その結果、生成した擬似ラベルはしばしば、特に核境界において多くのノイズを含む。 上記の問題に対処するために,半教師付き核分割タスクにおける境界雑音を識別する境界対応コントラスト学習ネットワークを提案する。 このモデルには、低分解能デノイング(LRD)モジュールとクロスロIコントラスト学習(CRC)モジュールの2つの重要な設計がある。 LRDは擬似ラベルによる核境界の滑らかさを向上し、CRCは境界特徴の対照的な学習によって前景と背景の識別を強化する。 提案手法が既存の半教師付きインスタンスセグメンテーション法よりも優れていることを示すため,広範な実験を行った。

Semi-supervised segmentation methods have demonstrated promising results in natural scenarios, providing a solution to reduce dependency on manual annotation. However, these methods face significant challenges when directly applied to pathological images due to the subtle color differences between nuclei and tissues, as well as the significant morphological variations among nuclei. Consequently, the generated pseudo-labels often contain much noise, especially at the nuclei boundaries. To address the above problem, this paper proposes a boundary-aware contrastive learning network to denoise the boundary noise in a semi-supervised nuclei segmentation task. The model has two key designs: a low-resolution denoising (LRD) module and a cross-RoI contrastive learning (CRC) module. The LRD improves the smoothness of the nuclei boundary by pseudo-labels denoising, and the CRC enhances the discrimination between foreground and background by boundary feature contrastive learning. We conduct extensive experiments to demonstrate the superiority of our proposed method over existing semi-supervised instance segmentation methods.
翻訳日:2024-02-08 15:53:50 公開日:2024-02-07
# 審美制約付き拡散モデルによる配向レイアウト生成に向けて

Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints ( http://arxiv.org/abs/2402.04754v1 )

ライセンス: Link先を確認
Jian Chen, Ruiyi Zhang, Yufan Zhou, Changyou Chen(参考訳) 制御可能なレイアウト生成(英: Controllable layout generation)とは、図形設計(例えばドキュメントやウェブデザイン)における要素の可視的な配置を、設計意図を表す制約で作成する過程を指す。 最近の拡散ベースモデルは最先端のFIDスコアを達成しているが、以前のトランスフォーマーベースモデルよりも顕著な誤りを示す傾向にある。 本研究では,特定の属性で要素をアレンジしたり,粗いレイアウト設計を書き換えたり完了したりするような,幅広いレイアウト生成タスクを処理する統一モデルである$\textbf{LA}$yout $\textbf{C}$onstraint diffusion mod$\textbf{E}$l (LACE)を提案する。 このモデルは連続拡散モデルに基づいている。 離散拡散モデルを使用する既存の方法と比較して、連続状態空間設計は、訓練において微分可能な審美的制約関数を組み込むことができる。 条件付き生成では,マスキング入力により条件を導入する。 大規模な実験結果から,LACEは高品質なレイアウトを実現し,既存の最先端のベースラインを上回っていることがわかった。

Controllable layout generation refers to the process of creating a plausible visual arrangement of elements within a graphic design (e.g., document and web designs) with constraints representing design intentions. Although recent diffusion-based models have achieved state-of-the-art FID scores, they tend to exhibit more pronounced misalignment compared to earlier transformer-based models. In this work, we propose the $\textbf{LA}$yout $\textbf{C}$onstraint diffusion mod$\textbf{E}$l (LACE), a unified model to handle a broad range of layout generation tasks, such as arranging elements with specified attributes and refining or completing a coarse layout design. The model is based on continuous diffusion models. Compared with existing methods that use discrete diffusion models, continuous state-space design can enable the incorporation of differentiable aesthetic constraint functions in training. For conditional generation, we introduce conditions via masked input. Extensive experiment results show that LACE produces high-quality layouts and outperforms existing state-of-the-art baselines.
翻訳日:2024-02-08 15:53:19 公開日:2024-02-07
# 皮質表面拡散生成モデル

Cortical Surface Diffusion Generative Models ( http://arxiv.org/abs/2402.04753v1 )

ライセンス: Link先を確認
Zhenshan Xie, Simon Dahan, Logan Z. J. Williams, M. Jorge Cardoso, Emma C. Robinson(参考訳) 皮質表面分析は、神経学的および発達障害に影響を及ぼす可能性から、注目を集めている。 従来の視覚拡散モデルは、自然画像の生成に有効であるが、限られたデータセットによる神経画像における複雑な発達パターンのキャプチャに制限がある。 これは、皮質形態の個々の変動率が高い皮質表面の生成に特に当てはまり、脳の発達をモデル化するためのより良い方法と、異なる個人に固有の多様な変動性を緊急に要求する。 本研究では,修正表面視変換器を主アーキテクチャとして,皮質表面計測値の生成のための新しい拡散モデルを提案する。 我々は,ヒトコネクトーム・プロジェクト (dHCP) における本手法の有効性を検証し, 進化する皮質表面の複雑な詳細を捉える上で, 優れた性能を示すことを示す。 さらに,脳卒中後年齢(PMA)を基準とした高品質な皮質表面試料をスキャン時に生成することができる。

Cortical surface analysis has gained increased prominence, given its potential implications for neurological and developmental disorders. Traditional vision diffusion models, while effective in generating natural images, present limitations in capturing intricate development patterns in neuroimaging due to limited datasets. This is particularly true for generating cortical surfaces where individual variability in cortical morphology is high, leading to an urgent need for better methods to model brain development and diverse variability inherent across different individuals. In this work, we proposed a novel diffusion model for the generation of cortical surface metrics, using modified surface vision transformers as the principal architecture. We validate our method in the developing Human Connectome Project (dHCP), the results suggest our model demonstrates superior performance in capturing the intricate details of evolving cortical surfaces. Furthermore, our model can generate high-quality realistic samples of cortical surfaces conditioned on postmenstrual age(PMA) at scan.
翻訳日:2024-02-08 15:52:17 公開日:2024-02-07
# 非凸最適化のための交互最小化の漸近ダイナミクス

Asymptotic Dynamics of Alternating Minimization for Non-Convex Optimization ( http://arxiv.org/abs/2402.04751v1 )

ライセンス: Link先を確認
Koki Okajima and Takashi Takahashi(参考訳) 本研究では,正規分布共変量を持つ双線型非線形凸関数の最適化に適用される交互最小化の漸近ダイナミクスについて検討する。 統計物理学のレプリカ法を多段階のアプローチで適用し,アルゴリズムの進化を正確に追跡する。 以上の結果から,各ステップが前回のすべての時間ステップに依存する2次元離散確率過程によって動的に記述できることが明らかとなった。 この研究で開発された理論的枠組みは、反復最小化の範囲を超えて、様々な反復アルゴリズムの分析に広く適用できる。

This study investigates the asymptotic dynamics of alternating minimization applied to optimize a bilinear non-convex function with normally distributed covariates. We employ the replica method from statistical physics in a multi-step approach to precisely trace the algorithm's evolution. Our findings indicate that the dynamics can be described effectively by a two--dimensional discrete stochastic process, where each step depends on all previous time steps, revealing a memory dependency in the procedure. The theoretical framework developed in this work is broadly applicable for the analysis of various iterative algorithms, extending beyond the scope of alternating minimization.
翻訳日:2024-02-08 15:51:56 公開日:2024-02-07
# 変圧器のロバストN:Mスポーサリティトレーニングのための進行勾配流

Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers ( http://arxiv.org/abs/2402.04744v1 )

ライセンス: Link先を確認
Abhimanyu Rajeshkumar Bambhaniya, Amir Yazdanbakhsh, Suvinay Subramanian, Sheng-Chun Kao, Shivani Agrawal, Utku Evci, Tushar Krishna(参考訳) N:Mの構造的空間性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。 さらに、このスパルシリティの形式は、メモリフットプリントの少ない表現オーバーヘッドのため、かなり魅力的なものとなっている。 n:m構造化スパース性のためのトレーニングレシピの開発には努力が続けられており、主に低スパース性領域($\sim$50\%)に焦点を当てている。 それでも、これらのアプローチでトレーニングされたモデルのパフォーマンスは、高いスパース領域($80\%)に直面すると低下しがちである。 本研究では,既存のスパース・トレーニング・レシピの有効性を \textit{high-sparsity regions} で検討し,この手法が低スパース領域と同等のモデル品質を維持できないと主張する。 この差に寄与する重要な要因は、勾配等級における誘導雑音の高レベルの存在であることを示す。 この望ましくない効果を緩和するため、我々は崩壊機構を用いて段階的にプルーニング要素への勾配の流れを制限する。 提案手法は,高精細度環境下での視覚モデルと言語モデルにおいて,最大2$\%$と5$\%$$でモデル品質を向上させる。 また,モデル精度と学習計算コストのトレードオフをフラップの観点から評価した。 等速訓練FLOPでは,従来のスパーストレーニングレシピと比較して性能が向上し,最大2$\%の精度向上が得られた。 ソースコードはhttps://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsityで入手できる。

N:M Structured sparsity has garnered significant interest as a result of relatively modest overhead and improved efficiency. Additionally, this form of sparsity holds considerable appeal for reducing the memory footprint owing to their modest representation overhead. There have been efforts to develop training recipes for N:M structured sparsity, they primarily focus on low-sparsity regions ($\sim$50\%). Nonetheless, performance of models trained using these approaches tends to decline when confronted with high-sparsity regions ($>$80\%). In this work, we study the effectiveness of existing sparse training recipes at \textit{high-sparsity regions} and argue that these methods fail to sustain the model quality on par with low-sparsity regions. We demonstrate that the significant factor contributing to this disparity is the presence of elevated levels of induced noise in the gradient magnitudes. To mitigate this undesirable effect, we employ decay mechanisms to progressively restrict the flow of gradients towards pruned elements. Our approach improves the model quality by up to 2$\%$ and 5$\%$ in vision and language models at high sparsity regime, respectively. We also evaluate the trade-off between model accuracy and training compute cost in terms of FLOPs. At iso-training FLOPs, our method yields better performance compared to conventional sparse training recipes, exhibiting an accuracy improvement of up to 2$\%$. The source code is available at https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.
翻訳日:2024-02-08 15:51:29 公開日:2024-02-07
# 多次元マーキング過程の非パラメトリック推定

Non-Parametric Estimation of Multi-dimensional Marked Hawkes Processes ( http://arxiv.org/abs/2402.04740v1 )

ライセンス: Link先を確認
Sobin Joseph and Shashi Jain(参考訳) ホークスプロセスの拡張であるマーク付きホークスプロセスは、マークのないホークスプロセスで観察される一定ジャンプサイズとは対照的に、各イベントに可変ジャンプサイズを特徴付けることで自身を区別している。 線形および非線形ホークス過程の非パラメトリックな推定に多くの文献が注がれているが、マークされたホークス過程に関する文献には大きなギャップが残っている。 そこで本研究では,マークされたホークス過程の条件強度を推定する手法を提案する。 本稿では, 励起カーネルを持つホークス過程に対する \textit{Shallow Neural Hawkes with mark} と非線形ホークス過程に対する \textit{Neural Network for Non-Linear Hawkes with Marks} の2つの異なるモデルを紹介する。 これらのアプローチはどちらも、過去の到着時間とその対応するマークを入力として、到着強度を得る。 このアプローチは完全に非パラメトリックであり、マークされたホークス過程に関連する解釈可能性を保つ。 本手法の有効性を検証するために,既知の基底真理を持つ合成データセットを対象とする。 さらに,本手法を暗号通貨注文帳データのモデル化に適用し,実際のシナリオへの適用性を示す。

An extension of the Hawkes process, the Marked Hawkes process distinguishes itself by featuring variable jump size across each event, in contrast to the constant jump size observed in a Hawkes process without marks. While extensive literature has been dedicated to the non-parametric estimation of both the linear and non-linear Hawkes process, there remains a significant gap in the literature regarding the marked Hawkes process. In response to this, we propose a methodology for estimating the conditional intensity of the marked Hawkes process. We introduce two distinct models: \textit{Shallow Neural Hawkes with marks}- for Hawkes processes with excitatory kernels and \textit{Neural Network for Non-Linear Hawkes with Marks}- for non-linear Hawkes processes. Both these approaches take the past arrival times and their corresponding marks as the input to obtain the arrival intensity. This approach is entirely non-parametric, preserving the interpretability associated with the marked Hawkes process. To validate the efficacy of our method, we subject the method to synthetic datasets with known ground truth. Additionally, we apply our method to model cryptocurrency order book data, demonstrating its applicability to real-world scenarios.
翻訳日:2024-02-08 15:51:03 公開日:2024-02-07
# 変形リーマン多様体に沿った量子運動におけるウィグナー時間遅延とハートマン効果

Wigner time delay and Hartman effect in quantum motion along deformed Riemannian manifolds ( http://arxiv.org/abs/2402.04734v1 )

ライセンス: Link先を確認
Benjamin Schwager, Lars Meschede, Jamal Berakdar(参考訳) 波の弾性散乱は、入射波位相に対する位相のシフトによって定量化することができる。 効果が発生する時間の定性的な尺度は、ウィグナー時間遅延によって与えられる。 トンネル時間はトンネル障壁幅の増加とともに飽和することが知られている(ハートマン効果)。 本稿では,変形した一次元リーマン多様体,特にウィグナー時間遅延に関して弾性量子力学的散乱を解析し,ハートマン効果について結論付ける。 局所曲率変動による散乱は共鳴状態を示す不完全導電挙動を示唆し、低エネルギーではアーク長から推定される古典的時間遅延と相違するウィグナー時間遅延をもたらすことが示されている。 しかし、中程度のエネルギーと高エネルギーでは、古典時間と量子時間の遅延は一致する。

Elastic scattering of a wave can be quantified by a shift in the phase with respect to the incoming wave phase. A qualitative measure of the time during which the effect occurs is given by the Wigner time delay. The tunneling time in turn is known to saturate with increasing tunneling barrier width (Hartman effect). Here, we analyze the elastic quantum mechanical scattering in a deformed one-dimensional Riemannian manifold, particularly with respect to the Wigner time delay and conclude on the Hartman effect. It is shown that scattering due to local curvature variations imply imperfect conduction behavior indicating resonance states and leads to a Wigner time delay which, at low energies, is in variance with the classical time delay that is inferred from the arc length. At moderate and high energies, however, classical and quantum time delays coincide.
翻訳日:2024-02-08 15:50:40 公開日:2024-02-07
# 最適輸送による任意サイズの制約付きグラフ切断

Graph Cuts with Arbitrary Size Constraints Through Optimal Transport ( http://arxiv.org/abs/2402.04732v1 )

ライセンス: Link先を確認
Chakib Fettal, Lazhar Labiod, Mohamed Nadif(参考訳) グラフを分割する一般的な方法は最小カットである。 古典的な最小カット方法の欠点の一つは、小さなグループを作る傾向があることであり、そのため正規化や比率カットのようなよりバランスのとれた変種がより成功している。 しかし、これらの変種では、バランス制約は、不均衡データセットのクラスタリングのようないくつかのアプリケーションでは制限されすぎるが、完全なバランスの取れたパーティションを検索するには十分制限されない、と私たちは信じている。 本稿では,任意のサイズ制約の下でグラフを分割するグラフカットアルゴリズムを提案する。 グラフカット問題を正規化Gromov-Wasserstein問題として定式化する。 そこで我々は,大域収束保証を持ち,スパース解が得られ,古典的なスペクトルクラスタリングアルゴリズムと比較して$\mathcal{O}(\log(n))$の加算比しか生じない,より効率的な近似GDアルゴリズムを提案する。

A common way of partitioning graphs is through minimum cuts. One drawback of classical minimum cut methods is that they tend to produce small groups, which is why more balanced variants such as normalized and ratio cuts have seen more success. However, we believe that with these variants, the balance constraints can be too restrictive for some applications like for clustering of imbalanced datasets, while not being restrictive enough for when searching for perfectly balanced partitions. Here, we propose a new graph cut algorithm for partitioning graphs under arbitrary size constraints. We formulate the graph cut problem as a regularized Gromov-Wasserstein problem. We then propose to solve it using accelerated proximal GD algorithm which has global convergence guarantees, results in sparse solutions and only incurs an additional ratio of $\mathcal{O}(\log(n))$ compared to the classical spectral clustering algorithm but was seen to be more efficient.
翻訳日:2024-02-08 15:50:27 公開日:2024-02-07
# 持続可能なソフトウェア工学を教えるための10の簡単なルール

Ten simple rules for teaching sustainable software engineering ( http://arxiv.org/abs/2402.04722v1 )

ライセンス: Link先を確認
Kit Gallagher, Richard Creswell, Ben Lambert, Martin Robinson, Chon Lok Lei, Gary R. Mirams, David J. Gavaghan(参考訳) 計算手法と関連するソフトウェア実装は、科学研究のあらゆる分野の中心である。 現代の生物学研究は、特にシステム生物学において、ますます大規模なデータセットの処理と編成、複雑な力学モデルのシミュレート、データの分析と管理のためのツールの提供、出力の可視化と編成のためのソフトウェアツールの開発に大きく依存している。 しかし、高品質な研究ソフトウェアを開発するためには、多くのソフトウェア開発スキルを開発する必要がある。 計算研究における再現性と優れた開発プラクティスの確保に重点が置かれている。 しかし、研究者の育成に有効な特定の教育戦略に、高品質なソフトウェアを作るために必要な複雑なスキルセットを伝えることにはあまり注意が払われておらず、学術的・工業的なバイオメディカル研究の基盤となることがますます求められている。 ten simple rules collectionの最近の論文では、生物学の学生に対する基礎的コンピュータ科学とコーディング技術の教育について論じられている。 我々は、科学者が学術研究に適合する(再利用可能な)持続可能なソフトウェアパッケージを開発するために必要なスキルを効果的に教えるための具体的なステップを説明することによって、この議論を進めます。 私たちのアドバイスは、ソフトウェア開発スキルの向上を望むすべての学生や研究者に当てはまる可能性が高いが、我々のガイドラインは、初期の博士課程の学生の典型的な、プログラムリテラシーはあるがソフトウェア開発やエンジニアリングの正式なトレーニングがほとんどない学生の聴衆に向けられている。 これらのプラクティスは、博士課程のトレーニング環境以外でも適用可能であり、より一般的に生命科学において、大学院のトレーニングスキームの重要な部分を形成するべきだと考えています。

Computational methods and associated software implementations are central to every field of scientific investigation. Modern biological research, particularly within systems biology, has relied heavily on the development of software tools to process and organize increasingly large datasets, simulate complex mechanistic models, provide tools for the analysis and management of data, and visualize and organize outputs. However, developing high-quality research software requires scientists to develop a host of software development skills, and teaching these skills to students is challenging. There has been a growing importance placed on ensuring reproducibility and good development practices in computational research. However, less attention has been devoted to informing the specific teaching strategies which are effective at nurturing in researchers the complex skillset required to produce high-quality software that, increasingly, is required to underpin both academic and industrial biomedical research. Recent articles in the Ten Simple Rules collection have discussed the teaching of foundational computer science and coding techniques to biology students. We advance this discussion by describing the specific steps for effectively teaching the necessary skills scientists need to develop sustainable software packages which are fit for (re-)use in academic research or more widely. Although our advice is likely to be applicable to all students and researchers hoping to improve their software development skills, our guidelines are directed towards an audience of students that have some programming literacy but little formal training in software development or engineering, typical of early doctoral students. These practices are also applicable outside of doctoral training environments, and we believe they should form a key part of postgraduate training schemes more generally in the life sciences.
翻訳日:2024-02-08 15:50:08 公開日:2024-02-07
# InstructScene: セマンティックグラフを用いたインストラクション駆動3次元室内シーン合成

InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior ( http://arxiv.org/abs/2402.04717v1 )

ライセンス: Link先を確認
Chenguo Lin, Yadong Mu(参考訳) 自然言語を補完することは3次元屋内シーン合成システムにとって魅力的な特性である。 既存の方法は、オブジェクトの関節分布を直接モデル化し、シーン内のオブジェクト関係を暗黙的に表現することで、生成の制御性を阻害する。 InstructSceneは、セマンティックグラフとレイアウトデコーダを統合した新しい生成フレームワークで、3Dシーン合成の可制御性と忠実性を改善する。 提案するセマンティックグラフは,シーンの出現やレイアウト分布を事前に学習し,ゼロショットで様々な下流タスクにまたがる汎用性を示す。 テキスト駆動3Dシーン合成のベンチマークを容易にするため,大規模言語とマルチモーダルモデルを用いた高品質なシーン命令ペアデータセットをキュレートする。 実験結果から,提案手法は既存の最先端手法をはるかに上回っていることが明らかとなった。 徹底的なアブレーション研究は重要な設計要素の有効性を確認する。 プロジェクトページ: https://chenguolin.github.io/projects/InstructScene

Comprehending natural language instructions is a charming property for 3D indoor scene synthesis systems. Existing methods directly model object joint distributions and express object relations implicitly within a scene, thereby hindering the controllability of generation. We introduce InstructScene, a novel generative framework that integrates a semantic graph prior and a layout decoder to improve controllability and fidelity for 3D scene synthesis. The proposed semantic graph prior jointly learns scene appearances and layout distributions, exhibiting versatility across various downstream tasks in a zero-shot manner. To facilitate the benchmarking for text-driven 3D scene synthesis, we curate a high-quality dataset of scene-instruction pairs with large language and multimodal models. Extensive experimental results reveal that the proposed method surpasses existing state-of-the-art approaches by a large margin. Thorough ablation studies confirm the efficacy of crucial design components. Project page: https://chenguolin.github.io/projects/InstructScene.
翻訳日:2024-02-08 15:49:39 公開日:2024-02-07
# グラフに基づく近似近傍探索のための適応エントリーポイント選択の理論的および実証的解析

Theoretical and Empirical Analysis of Adaptive Entry Point Selection for Graph-based Approximate Nearest Neighbor Search ( http://arxiv.org/abs/2402.04713v1 )

ライセンス: Link先を確認
Yutaro Oguri and Yusuke Matsui(参考訳) 本稿では,グラフに基づく近似近距離探索(anns)における適応的エントリーポイント選択の理論的および経験的解析を行う。 新しい概念を紹介します。 $b\textit{-monotonic path}$と$B\textit{-MSNET}$。 適応的エントリーポイント選択は,従来よりも一般的な条件下において,固定中心エントリーポイントよりも高い性能を示す。 実験では, 分散データとハードインスタンスを用いた課題シナリオにおいて, 様々なデータセットにおける精度, 速度, メモリ使用率において, 手法の有効性を検証する。 本研究は,実世界の高次元データアプリケーションのためのグラフベースの ann のエントリポイント最適化に関する深い知見を提供する。

We present a theoretical and empirical analysis of the adaptive entry point selection for graph-based approximate nearest neighbor search (ANNS). We introduce novel concepts: $b\textit{-monotonic path}$ and $B\textit{-MSNET}$, which better capture an actual graph in practical algorithms than existing concepts like MSNET. We prove that adaptive entry point selection offers better performance upper bound than the fixed central entry point under more general conditions than previous work. Empirically, we validate the method's effectiveness in accuracy, speed, and memory usage across various datasets, especially in challenging scenarios with out-of-distribution data and hard instances. Our comprehensive study provides deeper insights into optimizing entry points for graph-based ANNS for real-world high-dimensional data applications.
翻訳日:2024-02-08 15:49:22 公開日:2024-02-07
# 解釈可能なグラフニューラルネットワークのための情報ボトルネックを用いた検索に基づく因果学習

Incorporating Retrieval-based Causal Learning with Information Bottlenecks for Interpretable Graph Neural Networks ( http://arxiv.org/abs/2402.04710v1 )

ライセンス: Link先を確認
Jiahua Rao, Jiancong Xie, Hanjing Lin, Shuangjia Zheng, Zhen Wang, Yuedong Yang(参考訳) グラフニューラルネットワーク(GNN)は、トポロジデータを効果的に処理する能力でかなりの注目を集めているが、その解釈性は依然として重要な関心事である。 現在の解釈法は、gnnの透明で直感的な理解を提供するため、ポストホックな説明によって支配されている。 しかし、複雑な部分グラフの解釈性能は限られており、その説明をGNN予測の前進に利用できない。 一方、重要な部分グラフを捉えるために透明なGNNモデルが提案されている。 このような手法はGNNの予測を改善できるが、通常は説明ではうまく機能しない。 したがって、GNNの説明と予測をよりうまく組み合わせる新たな戦略が望まれる。 本研究では,検索に基づく因果学習をグラフ情報ボットネック(GIB)理論に組み込んだ,解釈可能な因果GNNフレームワークを開発した。 このフレームワークは、gibによって検出された重要なサブグラフを半パラメトリックに取得し、説明可能なサブグラフを因果モジュールを介して圧縮することができる。 このフレームワークは最先端の手法を一貫して上回り、様々な説明タイプを持つ実世界の説明シナリオにおいて32.71\%高い精度を達成することが実証された。 さらに重要なことは、学習した説明により、GNN予測性能も改善できることである。

Graph Neural Networks (GNNs) have gained considerable traction for their capability to effectively process topological data, yet their interpretability remains a critical concern. Current interpretation methods are dominated by post-hoc explanations to provide a transparent and intuitive understanding of GNNs. However, they have limited performance in interpreting complicated subgraphs and can't utilize the explanation to advance GNN predictions. On the other hand, transparent GNN models are proposed to capture critical subgraphs. While such methods could improve GNN predictions, they usually don't perform well on explanations. Thus, it is desired for a new strategy to better couple GNN explanation and prediction. In this study, we have developed a novel interpretable causal GNN framework that incorporates retrieval-based causal learning with Graph Information Bottleneck (GIB) theory. The framework could semi-parametrically retrieve crucial subgraphs detected by GIB and compress the explanatory subgraphs via a causal module. The framework was demonstrated to consistently outperform state-of-the-art methods, and to achieve 32.71\% higher precision on real-world explanation scenarios with diverse explanation types. More importantly, the learned explanations were shown able to also improve GNN prediction performance.
翻訳日:2024-02-08 15:49:08 公開日:2024-02-07
# 量子軌道としてのメモリ効率確率シミュレータの埋め込み

Embedding memory-efficient stochastic simulators as quantum trajectories ( http://arxiv.org/abs/2402.04708v1 )

ライセンス: Link先を確認
Thomas J. Elliott and Mile Gu(参考訳) 量子力学に内在する複雑さを活用することで、量子技術は多くの計算上の利点を約束する。 そのような利点の1つは、確率的モデリングの分野にあり、量子確率シミュレータは、最高の古典的シミュレータよりも低いメモリオーバーヘッドで動作できることが示されている。 この利点は連続時間確率過程において特に顕著であるが、前述した量子確率シミュレータは準連続時間ベースでのみ動作し、時間分解能を高めながら回路の複雑さが増す。 ここでは、オープン量子系をモデル化する手法である量子軌跡との対応を確立することにより、真の連続時間量子確率シミュレータをそのようなオープン量子系に組み込むことができ、このギャップを埋め、以前の制約を回避できることを示す。 さらに,ジャンプのみの軌跡として表される離散時間確率過程に対して,そのような埋め込みをどのように行うかを示し,量子システム自体の構造複雑性を研究する新たな手段として逆方向の対応をどのように見るかについて議論する。

By exploiting the complexity intrinsic to quantum dynamics, quantum technologies promise a whole host of computational advantages. One such advantage lies in the field of stochastic modelling, where it has been shown that quantum stochastic simulators can operate with a lower memory overhead than their best classical counterparts. This advantage is particularly pronounced for continuous-time stochastic processes; however, the corresponding quantum stochastic simulators heretofore prescribed operate only on a quasi-continuous-time basis, and suffer an ever-increasing circuit complexity with increasing temporal resolution. Here, by establishing a correspondence with quantum trajectories -- a method for modelling open quantum systems -- we show how truly continuous-time quantum stochastic simulators can be embedded in such open quantum systems, bridging this gap and obviating previous constraints. We further show how such an embedding can be made for discrete-time stochastic processes, which manifest as jump-only trajectories, and discuss how viewing the correspondence in the reverse direction provides new means of studying structural complexity in quantum systems themselves.
翻訳日:2024-02-08 15:48:49 公開日:2024-02-07
# spiking-physformer:並列スパイク駆動変圧器を用いたカメラベースリモートフォトプレチモグラフィ

Spiking-PhysFormer: Camera-Based Remote Photoplethysmography with Parallel Spike-driven Transformer ( http://arxiv.org/abs/2402.04798v1 )

ライセンス: Link先を確認
Mingxaun Liu, Jiankai Tang, Haoxiang Li, Jiahao Qi, Siwei Li, Kegang Wang, Yuntao Wang, Hong Chen(参考訳) 人工ニューラルネットワーク(anns)は、脈波、心拍数、呼吸速度などの顔ビデオからの心臓活動や生理的信号をより正確に測定するために、カメラベースのリモートフォトプレチモグラフィ(rppg)に役立つ。 しかし、既存の ann ベースの手法の多くはかなりの計算リソースを必要とするため、モバイルデバイスへの効果的なデプロイには困難が伴う。 一方、スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいディープラーニングの潜在能力を秘めている。 我々の知る限り、私たちは、電力消費量を減らすことを目的としたハイブリッドニューラルネットワーク(HNN)モデルであるSpking-PhysFormerを提案しながら、初めてRPPGの領域にSNNを導入しました。 具体的には、提案されたSpking-PhyFormerは、ANNベースのパッチ埋め込みブロック、SNNベースのトランスフォーマーブロック、ANNベースの予測ヘッドで構成される。 まず, 局所的および大域的時空間的特徴を集約する能力を維持しつつ, 変圧器ブロックの簡易化を図るため, 逐次サブブロックを置き換える並列スパイク変圧器ブロックを設計する。 さらに,モデルの性能を損なうことなく値パラメータを省略する簡易なスパイキング自己アテンション機構を提案する。 4つのデータセット(PURE, UBFC-rPPG, UBFC-Phys, MMPD)で行った実験により, 提案モデルがPhysFormerと比較して12.4倍の消費電力削減を実現していることが示された。 さらに、変圧器ブロックの消費電力を12.2倍に削減するとともに、physformerや他のann系モデルとしての性能を維持している。

Artificial neural networks (ANNs) can help camera-based remote photoplethysmography (rPPG) in measuring cardiac activity and physiological signals from facial videos, such as pulse wave, heart rate and respiration rate with better accuracy. However, most existing ANN-based methods require substantial computing resources, which poses challenges for effective deployment on mobile devices. Spiking neural networks (SNNs), on the other hand, hold immense potential for energy-efficient deep learning owing to their binary and event-driven architecture. To the best of our knowledge, we are the first to introduce SNNs into the realm of rPPG, proposing a hybrid neural network (HNN) model, the Spiking-PhysFormer, aimed at reducing power consumption. Specifically, the proposed Spiking-PhyFormer consists of an ANN-based patch embedding block, SNN-based transformer blocks, and an ANN-based predictor head. First, to simplify the transformer block while preserving its capacity to aggregate local and global spatio-temporal features, we design a parallel spike transformer block to replace sequential sub-blocks. Additionally, we propose a simplified spiking self-attention mechanism that omits the value parameter without compromising the model's performance. Experiments conducted on four datasets-PURE, UBFC-rPPG, UBFC-Phys, and MMPD demonstrate that the proposed model achieves a 12.4\% reduction in power consumption compared to PhysFormer. Additionally, the power consumption of the transformer block is reduced by a factor of 12.2, while maintaining decent performance as PhysFormer and other ANN-based models.
翻訳日:2024-02-08 15:41:38 公開日:2024-02-07
# リアルタイム大規模変形のためのメッシュベースガウススプレーティング

Mesh-based Gaussian Splatting for Real-time Large-scale Deformation ( http://arxiv.org/abs/2402.04796v1 )

ライセンス: Link先を確認
Lin Gao, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu and Yu-Kun Lai(参考訳) 神経距離場や神経放射場を含む神経暗黙的表現は、複雑な幾何学とトポロジーで表面を再構成し、シーンの新しい視点を生成する重要な能力を示している。 それにもかかわらず、ユーザがこれらの暗黙的な表現を、リアルタイムな方法で大きな変形で直接変形または操作することは困難である。 Gaussian Splatting(GS)は、静的なシーンを表現し、新しいビューの高品質かつリアルタイムな合成を容易にするための明示的な幾何学を持つ有望な方法である。 しかし、離散ガウス群と明示トポロジーの欠如のため、容易に変形することができない。 そこで我々は,インタラクティブな変形を可能にする新しいgsベース手法を開発した。 私たちのキーとなるアイデアは、ガウスの学習と操作に統合された革新的なメッシュベースのGS表現を設計することです。 3d gaussianのレンダリングは、適応的な改良のためにメッシュフェイススプリットをガイドし、メッシュフェイススプリットは3d gaussianの分割を指示する。 さらに、明示的なメッシュ制約はガウス分布の定式化に寄与し、品質の低いガウス分布(例えば、ガウス分布を不整列化させるガウス分布)を抑圧し、視覚品質を高め、変形中のアーティファクトを回避する。 この表現に基づき, メッシュの操作に応じて3次元ガウスのパラメータを変化させる変形可能なgsを実現するために, 大規模ガウス変形手法をさらに導入する。 本手法は,既存のメッシュ変形データセットから,より現実的なデータ駆動ガウス変形を実現する。 実験により,提案手法は高いフレームレート(平均65FPS)で予測可能なレンダリング結果を維持しつつ,高品質な再構成と有効変形を実現することを示す。

Neural implicit representations, including Neural Distance Fields and Neural Radiance Fields, have demonstrated significant capabilities for reconstructing surfaces with complicated geometry and topology, and generating novel views of a scene. Nevertheless, it is challenging for users to directly deform or manipulate these implicit representations with large deformations in the real-time fashion. Gaussian Splatting(GS) has recently become a promising method with explicit geometry for representing static scenes and facilitating high-quality and real-time synthesis of novel views. However,it cannot be easily deformed due to the use of discrete Gaussians and lack of explicit topology. To address this, we develop a novel GS-based method that enables interactive deformation. Our key idea is to design an innovative mesh-based GS representation, which is integrated into Gaussian learning and manipulation. 3D Gaussians are defined over an explicit mesh, and they are bound with each other: the rendering of 3D Gaussians guides the mesh face split for adaptive refinement, and the mesh face split directs the splitting of 3D Gaussians. Moreover, the explicit mesh constraints help regularize the Gaussian distribution, suppressing poor-quality Gaussians(e.g. misaligned Gaussians,long-narrow shaped Gaussians), thus enhancing visual quality and avoiding artifacts during deformation. Based on this representation, we further introduce a large-scale Gaussian deformation technique to enable deformable GS, which alters the parameters of 3D Gaussians according to the manipulation of the associated mesh. Our method benefits from existing mesh deformation datasets for more realistic data-driven Gaussian deformation. Extensive experiments show that our approach achieves high-quality reconstruction and effective deformation, while maintaining the promising rendering results at a high frame rate(65 FPS on average).
翻訳日:2024-02-08 15:41:04 公開日:2024-02-07
# 明示的なカーネル機能マップによるスケーラブルなマルチビュークラスタリング

Scalable Multi-view Clustering via Explicit Kernel Features Maps ( http://arxiv.org/abs/2402.04794v1 )

ライセンス: Link先を確認
Chakib Fettal, Lazhar Labiod, Mohamed Nadif(参考訳) データサイエンスや機械学習の重要コンポーネントとしての多視点学習に対する認識の高まりは、現実世界のアプリケーション、特にネットワークのコンテキストにおける複数のビューの増加による結果である。 本稿では,マルチビューサブスペースクラスタリングのための新しいスケーラビリティフレームワークを提案する。 クラスタ性能を維持しつつ計算負荷を低減するためにカーネル機能マップを活用する効率的な最適化戦略を提案する。 アルゴリズムのスケーラビリティは、数百万のデータポイントを持つものを含む大規模なデータセットに、標準的なマシンを使って数分で適用できることを意味する。 我々は,最先端のマルチビューサブスペースクラスタリング手法や属性ネットワークのマルチビューアプローチに対して,アルゴリズムの性能を評価するために,様々な規模の実世界のベンチマークネットワーク上で広範囲に実験を行った。

A growing awareness of multi-view learning as an important component in data science and machine learning is a consequence of the increasing prevalence of multiple views in real-world applications, especially in the context of networks. In this paper we introduce a new scalability framework for multi-view subspace clustering. An efficient optimization strategy is proposed, leveraging kernel feature maps to reduce the computational burden while maintaining good clustering performance. The scalability of the algorithm means that it can be applied to large-scale datasets, including those with millions of data points, using a standard machine, in a few minutes. We conduct extensive experiments on real-world benchmark networks of various sizes in order to evaluate the performance of our algorithm against state-of-the-art multi-view subspace clustering methods and attributed-network multi-view approaches.
翻訳日:2024-02-08 15:40:33 公開日:2024-02-07
# オンラインAIフィードバックによる直接言語モデルアライメント

Direct Language Model Alignment from Online AI Feedback ( http://arxiv.org/abs/2402.04792v1 )

ライセンス: Link先を確認
Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel(参考訳) dpoなどのdapメソッドからの直接的なアライメントは、人的フィードバック(rlhf)からの強化学習の効率的な代替手段として最近登場し、個別の報酬モデルを必要としない。 しかしながら、DAPメソッドで使用される好みデータセットは通常、トレーニング前に収集され、更新されないため、フィードバックは純粋にオフラインである。 さらに、これらのデータセットの応答は、アライメントされているものと異なる言語モデルからサンプリングされることが多く、トレーニングによってモデルが進化するので、アライメントフェーズは必然的にオフポリシーである。 本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。 オンラインAIフィードバック(OAIF)は,LLMをアノテータとして使用する。トレーニングイテレーション毎に,現在のモデルから2つの応答をサンプリングし,LLMアノテータにどちらが好まれるかを選択し,オンラインフィードバックを提供する。 その単純さにもかかわらず、OAIFがオフラインDAP法とRLHF法の両方に優れるいくつかのタスクにおいて、人間の評価によって実証する。 さらに,OAIFのフィードバックはLLMアノテータへの命令プロンプトを介して容易に制御可能であることを示す。

Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.
翻訳日:2024-02-08 15:40:19 公開日:2024-02-07
# MLLM-as-a-Judge:ビジョンランゲージベンチマークによるマルチモーダルLCM-as-a-Judgeの評価

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark ( http://arxiv.org/abs/2402.04788v1 )

ライセンス: Link先を確認
Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Pan Zhou, Yao Wan, Lichao Sun(参考訳) 近年,マルチモーダル大規模言語モデル(mllm)が注目されている。 しかし、MLLMの実用性を評価することは、主に人間の嗜好に合致するマルチモーダルベンチマークが欠如していることから、かなりの課題を呈している。 LLM における LLM-as-a-Judge に触発されて,MLLM-as-a-Judge と呼ばれる新しいベンチマークを導入し,Scoring Evaluation, Pair Comparison, Batch Ranking の3つのタスクを含む審査員を支援するためのMLLM の能力を評価する。 本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking タスクにおいて, 人間の嗜好とは大きく異なることを示している。 さらにMLLMは、GPT-4Vのような先進的なモデルであっても、多様なバイアス、幻覚反応、不整合を含む判断の課題に直面している。 これらの知見は, MLLMを信頼性の高い評価指標として, 強化の必要性と今後の研究課題を強調した。 コードとデータセットはhttps://github.com/Dongping-Chen/MLLM-as-a-Judge.comで公開されている。

Multimodal Large Language Models (MLLMs) have gained significant attention recently, showing remarkable potential in artificial general intelligence. However, assessing the utility of MLLMs presents considerable challenges, primarily due to the absence multimodal benchmarks that align with human preferences. Inspired by LLM-as-a-Judge in LLMs, this paper introduces a novel benchmark, termed MLLM-as-a-Judge, to assess the ability of MLLMs in assisting judges including three distinct tasks: Scoring Evaluation, Pair Comparison, and Batch Ranking. Our study reveals that, while MLLMs demonstrate remarkable human-like discernment in Pair Comparisons, there is a significant divergence from human preferences in Scoring Evaluation and Batch Ranking tasks. Furthermore, MLLMs still face challenges in judgment, including diverse biases, hallucinatory responses, and inconsistencies, even for advanced models such as GPT-4V. These findings emphasize the pressing need for enhancements and further research efforts regarding MLLMs as fully reliable evaluators. Code and dataset are available at https://github.com/Dongping-Chen/MLLM-as-a-Judge.
翻訳日:2024-02-08 15:39:58 公開日:2024-02-07
# 自己分析モデルの解析のための仮説駆動フレームワーク

A Hypothesis-Driven Framework for the Analysis of Self-Rationalising Models ( http://arxiv.org/abs/2402.04787v1 )

ライセンス: Link先を確認
Marc Braun, Jenny Kunz(参考訳) LLMの自己分析能力は、生成した説明が予測の妥当性に関する洞察を与えるため、魅力的である。 しかしながら、予測に対する説明がどの程度忠実であるかは疑問であり、その背後にあるパターンをさらに探究する必要性が高まる。 そこで我々は仮説駆動型統計フレームワークを提案する。 我々はベイズネットワークを用いて、タスク(例えば、自然言語推論)がどのように解決され、その内部状態がテンプレートで自然言語に変換されるかについての仮説を実装する。 これらの説明は、自動評価と人的評価を用いたLLM生成自由テキスト説明と比較される。 これにより、LLMとベイズネットワークの意思決定プロセスがどの程度類似しているかを判断できる。 ベイズネットワークにおける実例仮説と2つの実現例を用いて,本フレームワークの利用例を示す。 結果のモデルはGPT-3.5と強い類似性は示さない。 我々は、今後の作業においてllmの決定をよりよく近似するフレームワークの可能性と同様に、この影響について論じる。

The self-rationalising capabilities of LLMs are appealing because the generated explanations can give insights into the plausibility of the predictions. However, how faithful the explanations are to the predictions is questionable, raising the need to explore the patterns behind them further. To this end, we propose a hypothesis-driven statistical framework. We use a Bayesian network to implement a hypothesis about how a task (in our example, natural language inference) is solved, and its internal states are translated into natural language with templates. Those explanations are then compared to LLM-generated free-text explanations using automatic and human evaluations. This allows us to judge how similar the LLM's and the Bayesian network's decision processes are. We demonstrate the usage of our framework with an example hypothesis and two realisations in Bayesian networks. The resulting models do not exhibit a strong similarity to GPT-3.5. We discuss the implications of this as well as the framework's potential to approximate LLM decisions better in future work.
翻訳日:2024-02-08 15:39:33 公開日:2024-02-07
# Shadowheart SGD:任意計算と通信ヘテロジニティの下での最適時間複雑度を持つ分散非同期SGD

Shadowheart SGD: Distributed Asynchronous SGD with Optimal Time Complexity Under Arbitrary Computation and Communication Heterogeneity ( http://arxiv.org/abs/2402.04785v1 )

ライセンス: Link先を確認
Alexander Tyurin, Marta Pozzi, Ivan Ilin, Peter Richt\'arik(参考訳) 作業者からサーバへの通信時間を無視することができない非同期集中型分散環境において,非凸確率最適化問題を考える。 バイアスのない圧縮手法を用いて,従来の集中型手法の時間複雑性を確実に向上させる新しい手法であるShadowheart SGDを開発した。 さらに,Shadowheart SGDの時間的複雑さは,圧縮通信を用いた集中型手法のファミリーにおいて最適であることを示す。 また、サーバからワーカーへのブロードキャストが無視できない双方向設定も検討し、対応する方法を開発した。

We consider nonconvex stochastic optimization problems in the asynchronous centralized distributed setup where the communication times from workers to a server can not be ignored, and the computation and communication times are potentially different for all workers. Using an unbiassed compression technique, we develop a new method-Shadowheart SGD-that provably improves the time complexities of all previous centralized methods. Moreover, we show that the time complexity of Shadowheart SGD is optimal in the family of centralized methods with compressed communication. We also consider the bidirectional setup, where broadcasting from the server to the workers is non-negligible, and develop a corresponding method.
翻訳日:2024-02-08 15:39:20 公開日:2024-02-07
# 周期的活性化コーディネートネットワークのニューラルタンジェントカーネルの解析

Analyzing the Neural Tangent Kernel of Periodically Activated Coordinate Networks ( http://arxiv.org/abs/2402.04783v1 )

ライセンス: Link先を確認
Hemanth Saratchandran, Shin-Fang Chng, Simon Lucey(参考訳) 近年、周期的アクティベーション関数を利用したニューラルネットワークは、従来のReLUアクティベートネットワークと比較して、視覚タスクにおいて優れた性能を示すことが証明されている。 しかし、このパフォーマンス向上の根本的な理由については、まだ理解が限られている。 本稿では,そのニューラルネットワークカーネル(NTK)の分析を通じて,周期的に活性化されるネットワークの理論的理解を提供することにより,このギャップに対処することを目的とする。 NTKの最小固有値を有限幅設定で導出し、データサンプル数に応じて少なくとも線形に成長する1つの広い層のみを必要とする、比較的一般的なネットワークアーキテクチャを用いて導出する。 その結果,定期的に活性化されるネットワークは,NTKの観点からはReLU活性化ネットワークよりもtextit{notably more well-behaved} であることが示唆された。 さらに,このようなネットワークの記憶能力に適用し,理論的な予測を実証的に検証する。 我々の研究は、周期的に活性化されるニューラルネットワークの性質と、深層学習の分野での可能性についてより深く理解している。

Recently, neural networks utilizing periodic activation functions have been proven to demonstrate superior performance in vision tasks compared to traditional ReLU-activated networks. However, there is still a limited understanding of the underlying reasons for this improved performance. In this paper, we aim to address this gap by providing a theoretical understanding of periodically activated networks through an analysis of their Neural Tangent Kernel (NTK). We derive bounds on the minimum eigenvalue of their NTK in the finite width setting, using a fairly general network architecture which requires only one wide layer that grows at least linearly with the number of data samples. Our findings indicate that periodically activated networks are \textit{notably more well-behaved}, from the NTK perspective, than ReLU activated networks. Additionally, we give an application to the memorization capacity of such networks and verify our theoretical predictions empirically. Our study offers a deeper understanding of the properties of periodically activated neural networks and their potential in the field of deep learning.
翻訳日:2024-02-08 15:39:06 公開日:2024-02-07
# StableMask:デコーダのみの変換器で因果マスキングを精錬する

StableMask: Refining Causal Masking in Decoder-only Transformer ( http://arxiv.org/abs/2402.04779v1 )

ライセンス: Link先を確認
Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao, Xiaoyu Shen, Qiang Zhang(参考訳) 因果マスクと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。 まず、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意点をゼロではないものと、最大1にまとめることが必要である。 これにより、特定のトークンに不均等な過剰な注意を割り当てるモデルが補完される。 第二に、RPEベースのトランスフォーマーは絶対位置情報を符号化する能力に限界があるため、位置クリティカルなタスクにおける応用を制限するため、普遍的な近似器ではない。 そこで本研究では,因果マスクの精錬により両限界に対処できるパラメータフリー手法であるstablemaskを提案する。 注意分布のバランスをとるために疑似注意値を導入し、徐々に減少するマスク比を通じて絶対位置情報を符号化する。 stablemaskの有効性は理論的にも実証的にも検証され、様々なデータセットとエンコーディングメソッドで71mから1.4bのパラメータサイズで言語モデルの大幅な拡張が示されている。 さらに,(1)streamingllmのような特別な手法を使わずに効率的な補間を自然にサポートし,(2)既存の注意最適化手法と容易に統合できることを示す。

The decoder-only Transformer architecture with causal masking and relative position encoding (RPE) has become the de facto choice in language modeling. Despite its exceptional performance across various tasks, we have identified two limitations: First, it requires all attention scores to be non-zero and sum up to 1, even if the current embedding has sufficient self-contained information. This compels the model to assign disproportional excessive attention to specific tokens. Second, RPE-based Transformers are not universal approximators due to their limited capacity at encoding absolute positional information, which limits their application in position-critical tasks. In this work, we propose StableMask: a parameter-free method to address both limitations by refining the causal mask. It introduces pseudo-attention values to balance attention distributions and encodes absolute positional information via a progressively decreasing mask ratio. StableMask's effectiveness is validated both theoretically and empirically, showing significant enhancements in language models with parameter sizes ranging from 71M to 1.4B across diverse datasets and encoding methods. We further show that it naturally supports (1) efficient extrapolation without special tricks such as StreamingLLM and (2) easy integration with existing attention optimization techniques.
翻訳日:2024-02-08 15:38:47 公開日:2024-02-07
# エントロピーを用いた最大祖先グラフの高速スコアベース探索アルゴリズム

A fast score-based search algorithm for maximal ancestral graphs using entropy ( http://arxiv.org/abs/2402.04777v1 )

ライセンス: Link先を確認
Zhongyi Hu and Robin Evans(参考訳) \emph{maximal ancestral graph} (mags) は、潜在共同創設者の存在下で有名な \emph{directed acyclic graph} を拡張するグラフィカルモデルの一種である。 実験データから未知のMAGを学習するためのほとんどのスコアベースのアプローチは、不安定性と重い計算に苦しむBICスコアに依存している。 本稿では,経験的エントロピー推定と新たに提案された<emph{refined markov property} \citep{hu2023towards} を用いてmagsをスコアリングするためのimsets \citep{studeny2006probabilistic}の枠組みを提案する。 我々のグラフィカル検索手順は \citet{claassen2022greedy} に似ているが、理論的結果から改善されている。 探索アルゴリズムは, 次数, 最大頭部サイズ, 識別パス数を制限し, ノード数の多項式であることを示す。 シミュレーション実験では,他の最先端のMAG学習アルゴリズムと比較して優れた性能を示す。

\emph{Maximal ancestral graph} (MAGs) is a class of graphical model that extend the famous \emph{directed acyclic graph} in the presence of latent confounders. Most score-based approaches to learn the unknown MAG from empirical data rely on BIC score which suffers from instability and heavy computations. We propose to use the framework of imsets \citep{studeny2006probabilistic} to score MAGs using empirical entropy estimation and the newly proposed \emph{refined Markov property} \citep{hu2023towards}. Our graphical search procedure is similar to \citet{claassen2022greedy} but improved from our theoretical results. We show that our search algorithm is polynomial in number of nodes by restricting degree, maximal head size and number of discriminating paths. In simulated experiment, our algorithm shows superior performance compared to other state of art MAG learning algorithms.
翻訳日:2024-02-08 15:38:27 公開日:2024-02-07
# 非エルミートSSHモデルにおける絡み合いハミルトニアン

Entanglement Hamiltonian in the non-Hermitian SSH model ( http://arxiv.org/abs/2402.04776v1 )

ライセンス: Link先を確認
Federico Rottoli and Michele Fossati and Pasquale Calabrese(参考訳) 絡み合いハミルトニアンは、拡張量子系における絡み合いの最も包括的な特徴付けを提供する。 ユニタリ量子場理論の鍵となる結果は、絡み合ったハミルトンの局所性を確立するビソグナーノ=ウィッチマンの定理である。 本研究では,非エルミート的Su-Schrieffer-Heeger(SSH)連鎖に着目した。 ガッピング相と臨界相の両方における絡み合いハミルトニアンの研究を行った。 ガッピングフェーズでは、格子の絡み合いハミルトニアンが格子のビソニャーノ-ウィッチマン結果と相容れており、格子指数の絡み合い温度は線形であることが分かる。 臨界点において、単体モデルに存在しない新しい想像的化学ポテンシャル項を同定する。 この作用素は、臨界時に非エルミートSSH鎖で観測される負の絡み合いエントロピーの責任を負う。

Entanglement Hamiltonians provide the most comprehensive characterisation of entanglement in extended quantum systems. A key result in unitary quantum field theories is the Bisognano-Wichmann theorem, which establishes the locality of the entanglement Hamiltonian. In this work, our focus is on the non-Hermitian Su-Schrieffer-Heeger (SSH) chain. We study the entanglement Hamiltonian both in a gapped phase and at criticality. In the gapped phase we find that the lattice entanglement Hamiltonian is compatible with a lattice Bisognano-Wichmann result, with an entanglement temperature linear in the lattice index. At the critical point, we identify a new imaginary chemical potential term absent in unitary models. This operator is responsible for the negative entanglement entropy observed in the non-Hermitian SSH chain at criticality.
翻訳日:2024-02-08 15:38:10 公開日:2024-02-07
# Devetak-Winterよりはるかに高いキーレートを持つ連続可変QKD

Continuous-Variable QKD with key rates far above Devetak-Winter ( http://arxiv.org/abs/2402.04770v1 )

ライセンス: Link先を確認
Arpan Akash Ray and Boris Skoric(参考訳) 長距離連続可変量子鍵分布(CVQKD)は非常に高いノイズレベルを持ち、使用した誤り訂正符号は非常に低いレートでなければならない。 この方式では、キャパシティに近い性能を持つことが知られているランダムコードブック誤り訂正を実装することが実現可能となる。 本研究では,拡散スペクトル透かしにインスパイアされたcvqkd用ランダムコードブックリバース・リコンシリエーションスキームを提案する。 提案手法は,公開和解データと秘密鍵との統計的疎結合を実現する新しい方法である。 秘密鍵レートの理論解析を行い,数値的な結果を示す。 メッセージサイズがAliceとBobの測定値の相互情報I(X;Y)を超えると、最高のパフォーマンスが得られる。 コードレートとフレーム拒絶率のトレードオフと、QKDの誤り訂正がランダムデータのみを分解する必要があるという事実から、このやや非直感的な結果が理解されている。 我々は、Devetak-Winter値I(X;Y)-I(E;Y)よりもはるかに高い秘密鍵長を得る。

Continuous-Variable Quantum Key Distribution (CVQKD) at large distances has such high noise levels that the employed error-correcting codes must have very low rate. In this regime it becomes feasible to implement random-codebook error correction, which is known to perform close to capacity. We propose a random-codebook reverse reconciliation scheme for CVQKD that is inspired by spread-spectrum watermarking. Our scheme has a novel way of achieving statistical decoupling between the publicly sent reconciliation data and the secret key. We provide a theoretical analysis of the secret key rate and we present numerical results. The best performance is obtained when the message size exceeds the mutual information I(X;Y) between Alice and Bob's measurements. This somewhat counter-intuitive result is understood from a tradeoff between code rate and frame rejection rate, combined with the fact that error correction for QKD needs to reconcile only random data. We obtain secret key lengths that lie far above the Devetak-Winter value I(X;Y)-I(E;Y).
翻訳日:2024-02-08 15:37:55 公開日:2024-02-07
# 対人ロボットインタラクションのための社会運動予測に基づくロボットインタラクション行動生成

Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction ( http://arxiv.org/abs/2402.04768v1 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Yashuai Yan, Dongheui Lee(参考訳) ロボットを人口の多い環境に統合することは、人間の社会的ダイナミクスを理解する必要がある複雑な課題である。 本研究では,ロボットの動作訓練においてロボットを観察することなく,人間と対話するロボットの動きを合成し,共有ロボット表現空間における社会的動き予測をモデル化することを提案する。 社会シナリオで遭遇したエージェントの将来の動きを予測するために,前述の共有空間で動作するECHOと呼ばれるトランスフォーマーベースのアーキテクチャを開発した。 先行研究とは対照的に、周囲のエージェントに基づいて予測された個々の動きを洗練し、現場に1人だけいる場合の単動予測を可能にしながら、訓練を容易にする社会運動問題を再構成する。 我々は,多対人動作予測タスクにおけるモデルの評価を行い,実時間で効率よく動作しながら,大差で最先端性能を得る。 さらに,本手法の有効性を定性的に示し,テキストコマンドで制御可能な人間とロボットのインタラクション行動を生成する。

Integrating robots into populated environments is a complex challenge that requires an understanding of human social dynamics. In this work, we propose to model social motion forecasting in a shared human-robot representation space, which facilitates us to synthesize robot motions that interact with humans in social scenarios despite not observing any robot in the motion training. We develop a transformer-based architecture called ECHO, which operates in the aforementioned shared space to predict the future motions of the agents encountered in social scenarios. Contrary to prior works, we reformulate the social motion problem as the refinement of the predicted individual motions based on the surrounding agents, which facilitates the training while allowing for single-motion forecasting when only one human is in the scene. We evaluate our model in multi-person and human-robot motion forecasting tasks and obtain state-of-the-art performance by a large margin while being efficient and performing in real-time. Additionally, our qualitative results showcase the effectiveness of our approach in generating human-robot interaction behaviors that can be controlled via text commands.
翻訳日:2024-02-08 15:37:36 公開日:2024-02-07
# コード・アズ・リワード - VLMによる強化学習の強化

Code as Reward: Empowering Reinforcement Learning with VLMs ( http://arxiv.org/abs/2402.04764v1 )

ライセンス: Link先を確認
David Venuto, Sami Nur Islam, Martin Klissarov, Doina Precup, Sherry Yang, Ankit Anand(参考訳) 事前訓練されたビジョンランゲージモデル(VLM)は視覚概念を理解し、複雑なタスクをサブタスクに記述し分解し、タスク完了に関するフィードバックを提供する。 本稿では,これらの能力を活用して強化学習(rl)エージェントのトレーニングを支援することを目的とする。 原則として、VLMは画像に基づく観察を自然に分析し、学習の進捗に対するフィードバック(回帰)を提供するため、この目的に適している。 しかしながら、VLMの推論は計算コストがかかるため、報酬を計算するために頻繁にクエリすることで、RLエージェントのトレーニングを著しく遅くする。 この課題に対処するため,Code as Reward (VLM-CaR) というフレームワークを提案する。 VLM-CaRは、コード生成によってVLMから高密度報酬関数を生成し、VLMを直接クエリする際の計算負担を大幅に削減する。 提案手法により得られた高密度報酬は, 多様な離散的かつ連続的な環境において非常に正確であり, 元の疎環境報酬よりもRLポリシーの訓練に有効であることを示す。

Pre-trained Vision-Language Models (VLMs) are able to understand visual concepts, describe and decompose complex tasks into sub-tasks, and provide feedback on task completion. In this paper, we aim to leverage these capabilities to support the training of reinforcement learning (RL) agents. In principle, VLMs are well suited for this purpose, as they can naturally analyze image-based observations and provide feedback (reward) on learning progress. However, inference in VLMs is computationally expensive, so querying them frequently to compute rewards would significantly slowdown the training of an RL agent. To address this challenge, we propose a framework named Code as Reward (VLM-CaR). VLM-CaR produces dense reward functions from VLMs through code generation, thereby significantly reducing the computational burden of querying the VLM directly. We show that the dense rewards generated through our approach are very accurate across a diverse set of discrete and continuous environments, and can be more effective in training RL policies than the original sparse environment rewards.
翻訳日:2024-02-08 15:37:18 公開日:2024-02-07
# 進化する異種群集における特殊集団行動の発生

Emergence of specialized Collective Behaviors in Evolving Heterogeneous Swarms ( http://arxiv.org/abs/2402.04763v1 )

ライセンス: Link先を確認
Fuda van Diggelen, Matteo De Carlo, Nicolas Cambier, Eliseo Ferrante, A.E. Eiben(参考訳) 社会昆虫の群れのような自然集団は、複雑なタスクに対処し、生き残るのに有用な、驚くべきタスク専門化の度合いを示す。 これは表現型的可塑性によって支えられ、それぞれが1つのタスクに特化して異なるクラスの個体に対して異なる形で表現される同じ遺伝子型を共有する。 本研究では,創発的知覚課題における特殊集団行動の出現を研究するため,表現型可塑性を有するシミュレーションロボット群を進化させる。 現象型可塑性は、ジェノタイプを2つのコンポーネントに分割し、各コンポーネントに1つの異なるニューラルネットワークコントローラを関連づけることで、行動の不均一性の形で実現される。 2つの構成要素を通してグループ全体の振る舞いを表現する遺伝子型は、単一のフィットネス機能によって進化する。 得られた行動を分析し,これらの結果から得られた知見を用いてオンライン規制機構を設計する。 私たちの実験は3つの大きな発見を示しました 1) サブグループは異なる創発的挙動を進化させる。 2) 群全体の有効性は2つのサブグループ間の相互作用に依存するため, 特異なサブグループ行動よりもロバストなパフォーマンスをもたらす。 3) オンライン規制機構は全体的なパフォーマンスとスケーラビリティを向上させる。

Natural groups of animals, such as swarms of social insects, exhibit astonishing degrees of task specialization, useful to address complex tasks and to survive. This is supported by phenotypic plasticity: individuals sharing the same genotype that is expressed differently for different classes of individuals, each specializing in one task. In this work, we evolve a swarm of simulated robots with phenotypic plasticity to study the emergence of specialized collective behavior during an emergent perception task. Phenotypic plasticity is realized in the form of heterogeneity of behavior by dividing the genotype into two components, with one different neural network controller associated to each component. The whole genotype, expressing the behavior of the whole group through the two components, is subject to evolution with a single fitness function. We analyse the obtained behaviors and use the insights provided by these results to design an online regulatory mechanism. Our experiments show three main findings: 1) The sub-groups evolve distinct emergent behaviors. 2) The effectiveness of the whole swarm depends on the interaction between the two sub-groups, leading to a more robust performance than with singular sub-group behavior. 3) The online regulatory mechanism enhances overall performance and scalability.
翻訳日:2024-02-08 15:36:59 公開日:2024-02-07
# SARI:単純な平均値とロバスト同定に基づく雑音部分ラベル学習

SARI: Simplistic Average and Robust Identification based Noisy Partial Label Learning ( http://arxiv.org/abs/2402.04835v1 )

ライセンス: Link先を確認
Darshana Saravanan, Naresh Manwani, Vineet Gandhi(参考訳) 部分ラベル学習(Partial label learning、PLL)は、各トレーニングインスタンスが、真のラベルである候補ラベル(partial label)のセットとペアリングされる弱い教師付き学習パラダイムである。 ノイズPLL(NPLL)はこの制約を緩和し、一部の部分ラベルが真のラベルを含まないようにし、問題の実用性を高める。 本研究はNPLLを中心とし,近辺の重み付けアルゴリズムを用いて雑音のある部分ラベルを利用して画像に擬似ラベルを割り当てるSARIという最小限のフレームワークを提案する。 これらの擬似ラベルとイメージペアは、ラベルスムーシングと標準正規化技術を備えたディープニューラルネットワーク分類器のトレーニングに使用される。 分類器の特徴と予測はその後、擬似ラベルの精度を洗練・向上するために使用される。 SARIは、文学における平均的戦略(擬似ラベル付け)と同定的戦略(類型化学習)の強みを組み合わせたものである。 7つのデータセットについて徹底的な実験を行い,従来の9つのNPLL法とPLL法との比較を行った。 SARIは、ほぼすべての研究環境で最先端の結果を達成し、きめ細かい分類と極端な雑音設定においてかなりの利益を得る。

Partial label learning (PLL) is a weakly-supervised learning paradigm where each training instance is paired with a set of candidate labels (partial label), one of which is the true label. Noisy PLL (NPLL) relaxes this constraint by allowing some partial labels to not contain the true label, enhancing the practicality of the problem. Our work centers on NPLL and presents a minimalistic framework called SARI that initially assigns pseudo-labels to images by exploiting the noisy partial labels through a weighted nearest neighbour algorithm. These pseudo-label and image pairs are then used to train a deep neural network classifier with label smoothing and standard regularization techniques. The classifier's features and predictions are subsequently employed to refine and enhance the accuracy of pseudo-labels. SARI combines the strengths of Average Based Strategies (in pseudo labelling) and Identification Based Strategies (in classifier training) from the literature. We perform thorough experiments on seven datasets and compare SARI against nine NPLL and PLL methods from the prior art. SARI achieves state-of-the-art results in almost all studied settings, obtaining substantial gains in fine-grained classification and extreme noise settings.
翻訳日:2024-02-08 15:31:06 公開日:2024-02-07
# 表面符号のためのブロックBPデコーダ

A blockBP decoder for the surface code ( http://arxiv.org/abs/2402.04834v1 )

ライセンス: Link先を確認
Aviad Kaufmann, Itai Arad(参考訳) 本稿では,テンソルネットワークデコーダの精度と,信念伝達アルゴリズムの効率と並列性を組み合わせた,表面符号のための新しいデコーダを提案する。 我々の主案は、テンソル・ネットワーク・デコーダの高価なテンソル・ネットワークの縮約ステップを、信仰伝播に基づく最近の近似縮約アルゴリズムであるブロックBPアルゴリズムに置き換えることである。 当社のデコーダは信念伝達デコーダであり、縮退した最大確率デコーダフレームワークで動作する。 従来のテンソル・ネットワークデコーダとは異なり、我々のアルゴリズムは効率的に並列に動作し、したがってリアルタイムデコーダに適している。 我々は,デコーダを数値的にテストし,格子サイズや雑音レベルが広い場合に,最小ウェイト・パーフェクト・マッチ(MWPM)デコーダよりも優れた論理誤差の確率を与えることを示した。

We present a new decoder for the surface code, which combines the accuracy of the tensor-network decoders with the efficiency and parallelism of the belief-propagation algorithm. Our main idea is to replace the expensive tensor-network contraction step in the tensor-network decoders with the blockBP algorithm - a recent approximate contraction algorithm, based on belief propagation. Our decoder is therefore a belief-propagation decoder that works in the degenerate maximal likelihood decoding framework. Unlike conventional tensor-network decoders, our algorithm can run efficiently in parallel, and may therefore be suitable for real-time decoding. We numerically test our decoder and show that for a large range of lattice sizes and noise levels it delivers a logical error probability that outperforms the Minimal-Weight-Perfect-Matching (MWPM) decoder, sometimes by more than an order of magnitude.
翻訳日:2024-02-08 15:30:43 公開日:2024-02-07
# longはアライメントのためのものだ: 命令の微調整のためのシンプルだが強固なベースライン

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning ( http://arxiv.org/abs/2402.04833v1 )

ライセンス: Link先を確認
Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion(参考訳) LLMの微調整は高品質なデータを必要とするという意見もあるが、それらは何なのか? LIMA (NeurIPS 2023) と AlpaGasus (ICLR 2024) は、手作業によるキュレーションや GPT-3.5-Turbo を品質スコアリングとして使用する、最先端の手法である。 GPT-4 と PaLM-2 の判断では,1000 命令を標準データセットから最長応答で選択する極めて単純な基準は,実際の知識を試験する OpenLLM ベンチマークにおいて競争力を維持しながら,これらの高度な手法を一貫して上回ることを示す。 現状のLLM (Llama-2-7B, Llama-2-13B, Mistral-7B) とデータセット (Alpaca-52k, Evol-Instruct-70k) でこれを実証する。 さらに、このような長い命令を軽量に改良することで、微調整されたLLMの能力をさらに向上させ、AlpacaEval 2.0上での2番目に高いLlama-2-7Bベースのモデルが得られる。 また,GPT-4のより長い応答を優先することによる性能向上を確実にするために,我々のモデルを徹底的に分析し,人工的な改善を除外する。 以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。

There is a consensus that instruction fine-tuning of LLMs requires high-quality data, but what are they? LIMA (NeurIPS 2023) and AlpaGasus (ICLR 2024) are state-of-the-art methods for selecting such high-quality examples, either via manual curation or using GPT-3.5-Turbo as a quality scorer. We show that the extremely simple baseline of selecting the 1,000 instructions with longest responses from standard datasets can consistently outperform these sophisticated methods according to GPT-4 and PaLM-2 as judges, while remaining competitive on the OpenLLM benchmarks that test factual knowledge. We demonstrate this for several state-of-the-art LLMs (Llama-2-7B, Llama-2-13B, and Mistral-7B) and datasets (Alpaca-52k and Evol-Instruct-70k). In addition, a lightweight refinement of such long instructions can further improve the abilities of the fine-tuned LLMs, and allows us to obtain the 2nd highest-ranked Llama-2-7B-based model on AlpacaEval 2.0 while training on only 1,000 examples and no extra preference data. We also conduct a thorough analysis of our models to ensure that their enhanced performance is not simply due to GPT-4's preference for longer responses, thus ruling out any artificial improvement. In conclusion, our findings suggest that fine-tuning on the longest instructions should be the default baseline for any research on instruction fine-tuning.
翻訳日:2024-02-08 15:30:26 公開日:2024-02-07
# 構造d-DNNFは否定で閉鎖されない

Structured d-DNNF Is Not Closed Under Negation ( http://arxiv.org/abs/2402.04832v1 )

ライセンス: Link先を確認
Harry Vinall-Smeeth(参考訳) 構造化d-DNNFとSDDはどちらもOBDDよりも指数関数的に簡潔である。 さらに、SDDは基本的にOBDDと同じくらい魅力的です。 しかし、これは2つの重要な疑問を残している。 まず、OBDDは構造化d-DNNFよりもトラクタブルな変換をサポートしていますか? 次に、構造d-DNNFはSDDよりも簡潔か? 本稿では,両質問に対して肯定的回答を行う。 最初の質問では、OBDDとは異なり、構造化d-DNNFはポリ時間否定、解離、存在量化操作をサポートしていない。 コーナリーとして、等価多項式サイズの構造d-DNNFを持つが、SDDのような表現を持たない関数が存在すると推定し、第二の疑問に答える。 また、この第2の結果を算術回路(AC)に引き上げ、PSDDと構造d-DNNFに類似した単調ACとの簡潔さのギャップを示す。

Both structured d-DNNF and SDD can be exponentially more succinct than OBDD. Moreover, SDD is essentially as tractable as OBDD. But this has left two important open questions. Firstly, does OBDD support more tractable transformations than structured d-DNNF? And secondly, is structured d-DNNF more succinct than SDD? In this paper, we answer both questions in the affirmative. For the first question we show that, unlike OBDD, structured d-DNNF does not support polytime negation, disjunction, or existential quantification operations. As a corollary, we deduce that there are functions with an equivalent polynomial-sized structured d-DNNF but with no such representation as an SDD, thus answering the second question. We also lift this second result to arithmetic circuits (AC) to show a succinctness gap between PSDD and the monotone AC analogue to structured d-DNNF.
翻訳日:2024-02-08 15:29:55 公開日:2024-02-07
# 微分プログラミングによるSGP4と高精度伝播のギャップの解消

Closing the Gap Between SGP4 and High-Precision Propagation via Differentiable Programming ( http://arxiv.org/abs/2402.04830v1 )

ライセンス: Link先を確認
Giacomo Acciarini, At{\i}l{\i}m G\"une\c{s} Baydin, Dario Izzo(参考訳) SGP4(Simplified General Perturbations 4)軌道伝搬法は、地球周回物体の位置と速度を迅速かつ確実に予測するために広く用いられている。 連続的な改良にもかかわらず、SGPモデルは数値プロパゲータの精度に欠けており、誤差は大幅に小さい。 本研究では、PyTorchを用いて実装されたSGP4の新しい微分可能バージョンであるdSGP4を提案する。 SGP4を微分可能にすることで、dSGP4は、宇宙船の軌道決定、状態変換、共分散変換、状態遷移行列計算、共分散伝播など、様々な宇宙関連の応用を促進する。 さらに、dsgp4のpytorch実装は、2ライン要素セット(tles)のバッチをまたいだ恥ずかしいほど並列な軌道伝播を可能にし、将来の衛星位置の分散予測にcpu、gpu、高度なハードウェアの計算能力を活用する。 さらに、dSGP4の微分性は、現代の機械学習技術との統合を可能にする。 そこで我々は,ニューラルネットを軌道伝搬器に統合した新しい軌道伝搬パラダイムML-dSGP4を提案する。 確率勾配降下により、この合成モデルの入力、出力、パラメータは反復的に洗練され、SGP4の精度を超える。 ニューラルネットワークはデフォルトでアイデンティティ演算子として機能し、SGP4の振舞いに固執する。 しかし、dSGP4の微分性は、エフェメリスデータによる微調整を可能にし、計算速度を維持しながら精度を向上させる。 これにより、衛星オペレーターや研究者は、特定のエフェミリや高精度数値伝播データを用いてモデルを訓練し、軌道予測能力を大幅に向上させることができる。

The Simplified General Perturbations 4 (SGP4) orbital propagation method is widely used for predicting the positions and velocities of Earth-orbiting objects rapidly and reliably. Despite continuous refinement, SGP models still lack the precision of numerical propagators, which offer significantly smaller errors. This study presents dSGP4, a novel differentiable version of SGP4 implemented using PyTorch. By making SGP4 differentiable, dSGP4 facilitates various space-related applications, including spacecraft orbit determination, state conversion, covariance transformation, state transition matrix computation, and covariance propagation. Additionally, dSGP4's PyTorch implementation allows for embarrassingly parallel orbital propagation across batches of Two-Line Element Sets (TLEs), leveraging the computational power of CPUs, GPUs, and advanced hardware for distributed prediction of satellite positions at future times. Furthermore, dSGP4's differentiability enables integration with modern machine learning techniques. Thus, we propose a novel orbital propagation paradigm, ML-dSGP4, where neural networks are integrated into the orbital propagator. Through stochastic gradient descent, this combined model's inputs, outputs, and parameters can be iteratively refined, surpassing SGP4's precision. Neural networks act as identity operators by default, adhering to SGP4's behavior. However, dSGP4's differentiability allows fine-tuning with ephemeris data, enhancing precision while maintaining computational speed. This empowers satellite operators and researchers to train the model using specific ephemeris or high-precision numerical propagation data, significantly advancing orbital prediction capabilities.
翻訳日:2024-02-08 15:29:41 公開日:2024-02-07
# 物理ベース逆レンダリングにおける非距離環境エミッタとしてのNeRF

NeRF as Non-Distant Environment Emitter in Physics-based Inverse Rendering ( http://arxiv.org/abs/2402.04829v1 )

ライセンス: Link先を確認
Jingwang Ling, Ruihan Yu, Feng Xu, Chun Du, Shuang Zhao(参考訳) 物理ベースの逆レンダリングは、捕獲された2D画像から形状、材料、照明を共同最適化することを目的としている。 ここでの照明は忠実な光輸送シミュレーションを達成する重要な部分である。 環境マップは逆レンダリングの照明モデルとして一般的に用いられるが、その遠方の照明仮定は空間的不変照明につながり、これは実世界の逆レンダリングにおける不正確な近似となる。 我々は、空間的に変化する環境照明モデルとしてNeRFを用い、非距離環境エミッタとしてNeRFを用いて逆レンダリングパイプラインを構築することを提案する。 提案手法と実データと合成データセットの環境マップを比較することで,NeRFベースのエミッタがシーンライティングをより正確にモデル化し,より正確な逆レンダリングを実現することを示す。 プロジェクトページとビデオ: https://nerfemitterpbir.github.io/

Physics-based inverse rendering aims to jointly optimize shape, materials, and lighting from captured 2D images. Here lighting is an important part of achieving faithful light transport simulation. While the environment map is commonly used as the lighting model in inverse rendering, we show that its distant lighting assumption leads to spatial invariant lighting, which can be an inaccurate approximation in real-world inverse rendering. We propose to use NeRF as a spatially varying environment lighting model and build an inverse rendering pipeline using NeRF as the non-distant environment emitter. By comparing our method with the environment map on real and synthetic datasets, we show that our NeRF-based emitter models the scene lighting more accurately and leads to more accurate inverse rendering. Project page and video: https://nerfemitterpbir.github.io/.
翻訳日:2024-02-08 15:29:15 公開日:2024-02-07
# 高速同期型潜時音声拡散

Fast Timing-Conditioned Latent Audio Diffusion ( http://arxiv.org/abs/2402.04825v1 )

ライセンス: Link先を確認
Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, Jordi Pons(参考訳) テキストプロンプトから44.1khzの長いステレオ音声を生成することは計算的に要求される。 さらに、以前の作品の多くは、音楽や音響効果が持続時間によって自然に変化することに対処していない。 本研究では,テキストプロンプトと生成モデルを用いて,44.1khzの長尺な可変長ステレオ音楽と音の効率的な生成に焦点をあてた。 安定オーディオは潜時拡散に基づいており、潜時拡散は完全畳み込み変分オートエンコーダによって定義される。 テキストプロンプトとタイミング埋め込みに条件付けされており、生成された音楽や音の内容と長さの両方を細かく制御することができる。 安定オーディオは、A100 GPU上で8秒で95秒までのステレオ信号を44.1kHzでレンダリングすることができる。 計算効率と高速な推論にもかかわらず、2つの公開テキスト・音楽・オーディオのベンチマークで最高の1つであり、最先端のモデルとは違い、構造とステレオの音で音楽を生成することができる。

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.
翻訳日:2024-02-08 15:28:59 公開日:2024-02-07
# 協調型参照ゲームにおける追従行動の異なるコミュニケーションポリシーの学習

Learning Communication Policies for Different Follower Behaviors in a Collaborative Reference Game ( http://arxiv.org/abs/2402.04824v1 )

ライセンス: Link先を確認
Philipp Sadler, Sherzod Hakimov and David Schlangen(参考訳) Albrecht and Stone (2018) は、変化する行動のモデリングは「他のエージェントができることの本質的に制約のない性質のために」未解決の問題のままであると述べている。 本研究は,協調参照ゲームにおけるパートナー行動に対するニューラルネットワークエージェントの適応性を評価する。 このゲームの成功は、知識のあるガイドが、複数の邪魔者の中から特定のパズル片の選択に言語的にフォロワーを導くことができる場合に達成される。 我々は,この言語基底化と協調のタスクを強化学習問題として捉え,信頼度や自律性の次元に応じて異なる様々なヒューリスティックな従者行動とうまく連携するニューラルエージェント(ガイド)を,共通強化訓練アルゴリズム(ppo)が作成できる程度を測定する。 目標条件に加えて,想定されたコミュニケーション努力も尊重する学習信号を用いて実験を行った。 以上の結果から,この新成分は冗長性の低いコミュニケーション戦略(一部のステップでは沈黙)につながり,また,ガイドの戦略がパートナーの信頼と自律性レベルに実際に適合することを示す。

Albrecht and Stone (2018) state that modeling of changing behaviors remains an open problem "due to the essentially unconstrained nature of what other agents may do". In this work we evaluate the adaptability of neural artificial agents towards assumed partner behaviors in a collaborative reference game. In this game success is achieved when a knowledgeable Guide can verbally lead a Follower to the selection of a specific puzzle piece among several distractors. We frame this language grounding and coordination task as a reinforcement learning problem and measure to which extent a common reinforcement training algorithm (PPO) is able to produce neural agents (the Guides) that perform well with various heuristic Follower behaviors that vary along the dimensions of confidence and autonomy. We experiment with a learning signal that in addition to the goal condition also respects an assumed communicative effort. Our results indicate that this novel ingredient leads to communicative strategies that are less verbose (staying silent in some of the steps) and that with respect to that the Guide's strategies indeed adapt to the partner's level of confidence and autonomy.
翻訳日:2024-02-08 15:28:42 公開日:2024-02-07
# 合成データはどれくらいリアルか? 表データに対する深部生成モデルの制約

How Realistic Is Your Synthetic Data? Constraining Deep Generative Models for Tabular Data ( http://arxiv.org/abs/2402.04823v1 )

ライセンス: Link先を確認
Mihaela C\u{a}t\u{a}lina Stoian, Salijona Dyrmishi, Maxime Cordy, Thomas Lukasiewicz, Eleonora Giunchiglia(参考訳) 深部生成モデル(Deep Generative Models, DGM)は、表データを生成する強力なツールであることが示されている。 しかし、現実的な合成データを生成するには、問題の背景知識をエンコードする制約を遵守する必要があるため、その分布を適切に近似するには不十分であることが多い。 本稿では,この制限に対処し,グラフデータに対するDGMを制約付き深部生成モデル (Constrained Deep Generative Models, C-DGMs) に変換する方法を示す。 これは、自動的に制約を解析し、それらをDGMとシームレスに統合された制約層(CL)に変換することで達成される。 さまざまなDGMやタスクによる大規模な実験分析から、標準のDGMは制約に違反することが多いことが分かる。 そして、c-dgmsがトレーニング時に、制約によって表される背景知識を活用し、ユーティリティと検出の最大$6.5\%$の改善で標準の知識を上回ることができることを定量的に実証する。 さらに,clがトレーニング時にどのように統合される必要はなく,推論時にガードレールとしても使用可能であり,モデル全体のパフォーマンスにいくつかの改善が加えられていることを示す。 最後に、我々のCLがモデルのサンプル生成時間を妨げないことを示す。

Deep Generative Models (DGMs) have been shown to be powerful tools for generating tabular data, as they have been increasingly able to capture the complex distributions that characterize them. However, to generate realistic synthetic data, it is often not enough to have a good approximation of their distribution, as it also requires compliance with constraints that encode essential background knowledge on the problem at hand. In this paper, we address this limitation and show how DGMs for tabular data can be transformed into Constrained Deep Generative Models (C-DGMs), whose generated samples are guaranteed to be compliant with the given constraints. This is achieved by automatically parsing the constraints and transforming them into a Constraint Layer (CL) seamlessly integrated with the DGM. Our extensive experimental analysis with various DGMs and tasks reveals that standard DGMs often violate constraints, some exceeding $95\%$ non-compliance, while their corresponding C-DGMs are never non-compliant. Then, we quantitatively demonstrate that, at training time, C-DGMs are able to exploit the background knowledge expressed by the constraints to outperform their standard counterparts with up to $6.5\%$ improvement in utility and detection. Further, we show how our CL does not necessarily need to be integrated at training time, as it can be also used as a guardrail at inference time, still producing some improvements in the overall performance of the models. Finally, we show that our CL does not hinder the sample generation time of the models.
翻訳日:2024-02-08 15:28:22 公開日:2024-02-07
# e(3)同変メッシュニューラルネットワーク

E(3)-Equivariant Mesh Neural Networks ( http://arxiv.org/abs/2402.04821v1 )

ライセンス: Link先を確認
Thuan Trang, Nhat Khang Ngo, Daniel Levy, Thieu N. Vo, Siamak Ravanbakhsh, Truong Son Hy(参考訳) 三角形メッシュは3次元オブジェクトを表現するために広く使われている。 その結果、3Dメッシュ上での幾何学的深層学習の必要性に対処する研究が数多く行われている。 しかし、これらのアーキテクチャの多くにおける複雑さは実践的な性能には変換されず、幾何学グラフの単純な深部モデルが実際に競合する。 本研究では,E(n)-Equivariant Graph Neural Networks (EGNNs, Satorras et al., 2021) の更新方程式を最小限に拡張し,メッシュフェース情報を組み込むことにより,階層構造による長距離相互作用を考慮に入れた。 結果として得られるアーキテクチャであるEquivariant Mesh Neural Network (EMNN)は、メッシュタスクにおいて、より複雑な同種メソッドよりも優れており、高速な実行時と高価な前処理がない。

Triangular meshes are widely used to represent three-dimensional objects. As a result, many recent works have address the need for geometric deep learning on 3D mesh. However, we observe that the complexities in many of these architectures does not translate to practical performance, and simple deep models for geometric graphs are competitive in practice. Motivated by this observation, we minimally extend the update equations of E(n)-Equivariant Graph Neural Networks (EGNNs) (Satorras et al., 2021) to incorporate mesh face information, and further improve it to account for long-range interactions through hierarchy. The resulting architecture, Equivariant Mesh Neural Network (EMNN), outperforms other, more complicated equivariant methods on mesh tasks, with a fast run-time and no expensive pre-processing.
翻訳日:2024-02-08 15:27:45 公開日:2024-02-07
# 散逸性ライドバーグガスの集団量子ジャンプ統計のマイクロ波制御

Microwave control of collective quantum jump statistics of a dissipative Rydberg gas ( http://arxiv.org/abs/2402.04815v1 )

ライセンス: Link先を確認
Zong-Kai Liu, Kong-Hao Sun, Albert Cabot, Federico Carollo, Jun Zhang, Zheng-Yuan Zhang, Li-Hua Zhang, Bang Liu, Tian-Yu Han, Qing Li, Yu Ma, Han-Chao Chen, Igor Lesanovsky, Dong-Sheng Ding, Bao-Sen Shi(参考訳) 相転移に近い量子多体系は、外部に適用される摂動に総じて反応する。 我々はこの現象を、双安定状態に調整されたレーザー駆動の消散性ライドバーグガスで探索する。 ここでは2つの準安定相が共存し、それぞれrydberg原子の密度が低く高い。 私たちがその場で観察する群動力学は、これら2つの巨視的に区別された多体相間の確率的集団ジャンプによって特徴づけられる。 これらのジャンプの統計はデュアルトーンマイクロ波場を用いて制御できることを示す。 特に,ジャンプ時間の分布は相対マイクロ波デチューニングのサブハーモニックスに対応するピークを生じさせる。 本研究では, 微調整や超低温を必要とせず, 散逸量子多体系の集合統計特性の制御を実証する。 このようなロバストな現象は、量子センシングと気象学の技術的応用を見出すことができる。

Quantum many-body systems near phase transitions respond collectively to externally applied perturbations. We explore this phenomenon in a laser-driven dissipative Rydberg gas that is tuned to a bistable regime. Here two metastable phases coexist, which feature a low and high density of Rydberg atoms, respectively. The ensuing collective dynamics, which we monitor in situ, is characterized by stochastic collective jumps between these two macroscopically distinct many-body phases. We show that the statistics of these jumps can be controlled using a dual-tone microwave field. In particular, we find that the distribution of jump times develops peaks corresponding to subharmonics of the relative microwave detuning. Our study demonstrates the control of collective statistical properties of dissipative quantum many-body systems without the necessity of fine-tuning or of ultra cold temperatures. Such robust phenomena may find technological applications in quantum sensing and metrology.
翻訳日:2024-02-08 15:27:19 公開日:2024-02-07
# BOWLL: 極めてシンプルなオープンワールドの生涯学習者

BOWLL: A Deceptively Simple Open World Lifelong Learner ( http://arxiv.org/abs/2402.04814v1 )

ライセンス: Link先を確認
Roshni Kamath, Rupert Mitchell, Subarnaduti Paul, Kristian Kersting, Martin Mundt(参考訳) 所定のベンチマークでスカラー性能を向上しようとする試みは、ディープラーニングに深く刻まれているようだ。 しかし、現実世界が注意深くキュレートされることはめったになく、アプリケーションはテストセットで優れていることに限定されない。 実践的なシステムは一般に、新しい概念を認識し、非形式的なデータを積極的に含まないよう要求され、その生涯を通じて獲得した知識を保持する。 これらの重要な要素が個別に厳格に研究されているにもかかわらず、それらの連携したオープンワールドの生涯学習の研究は、最近のトレンドにすぎない。 この多面体フィールドの探索を加速するために、最初のモノリシックで待望のベースラインを導入する。 深層ニューラルネットワークにおけるバッチ正規化のユビキタスな利用を活かし,オープンワールド学習のための標準モデルを再活用するための,極めて単純で極めて効果的な手法を提案する。 実験的な評価を通じて、我々のアプローチが知識を効果的に維持し、情報的データに選択的に集中し、将来の学習を加速できるモデルの将来の標準として機能すべき理由を強調した。

The quest to improve scalar performance numbers on predetermined benchmarks seems to be deeply engraved in deep learning. However, the real world is seldom carefully curated and applications are seldom limited to excelling on test sets. A practical system is generally required to recognize novel concepts, refrain from actively including uninformative data, and retain previously acquired knowledge throughout its lifetime. Despite these key elements being rigorously researched individually, the study of their conjunction, open world lifelong learning, is only a recent trend. To accelerate this multifaceted field's exploration, we introduce its first monolithic and much-needed baseline. Leveraging the ubiquitous use of batch normalization across deep neural networks, we propose a deceptively simple yet highly effective way to repurpose standard models for open world lifelong learning. Through extensive empirical evaluation, we highlight why our approach should serve as a future standard for models that are able to effectively maintain their knowledge, selectively focus on informative data, and accelerate future learning.
翻訳日:2024-02-08 15:26:57 公開日:2024-02-07
# オープンエンディングHRサーベイ応答に対するアスペクトベース感度解析

Aspect-Based Sentiment Analysis for Open-Ended HR Survey Responses ( http://arxiv.org/abs/2402.04812v1 )

ライセンス: Link先を確認
Lois Rink and Job Meijdam and David Graus(参考訳) 従業員の選好、意見、感情を理解することは、効果的な従業員ライフサイクル管理にとって最重要である。 オープンな調査回答は、貴重な情報源として役立ちます。 本稿では、従業員満足度調査におけるオランダのオープンエンド応答のアスペクトベース感情分析(ABSA)に対する機械学習アプローチを提案する。 当社のアプローチは,これらの応答に固有のノイズや変動を克服し,従業員のライフサイクル管理を支援する感情を包括的に分析することを目的としています。 レスポンスクラスタリングを通じて、ドメインの専門家が検証する6つの重要な側面(サリー、スケジュール、コンタクト、コミュニケーション、個人的注意、合意)を特定します。 オランダの調査回答1458件のデータセットをコンパイルし、側面と感情のラベルの不均衡を明らかにする。 本稿では,オランダのBERTモデルに基づくABSAに対して,バッグ・オブ・ワードやゼロショットベースラインと比較する。 我々の研究は、人的資源(HR)分野におけるアスペクトベースの感情分析にオランダ語事前学習言語モデルの最初の成功例を示すことによって、ABSAの分野に大きく貢献している。

Understanding preferences, opinions, and sentiment of the workforce is paramount for effective employee lifecycle management. Open-ended survey responses serve as a valuable source of information. This paper proposes a machine learning approach for aspect-based sentiment analysis (ABSA) of Dutch open-ended responses in employee satisfaction surveys. Our approach aims to overcome the inherent noise and variability in these responses, enabling a comprehensive analysis of sentiments that can support employee lifecycle management. Through response clustering we identify six key aspects (salary, schedule, contact, communication, personal attention, agreements), which we validate by domain experts. We compile a dataset of 1,458 Dutch survey responses, revealing label imbalance in aspects and sentiments. We propose few-shot approaches for ABSA based on Dutch BERT models, and compare them against bag-of-words and zero-shot baselines. Our work significantly contributes to the field of ABSA by demonstrating the first successful application of Dutch pre-trained language models to aspect-based sentiment analysis in the domain of human resources (HR).
翻訳日:2024-02-08 15:26:27 公開日:2024-02-07
# コンパイラ生成デバッグ情報の正確なカバレッジメトリクス

Accurate Coverage Metrics for Compiler-Generated Debugging Information ( http://arxiv.org/abs/2402.04811v1 )

ライセンス: Link先を確認
J. Ryan Stinnett, Stephen Kell(参考訳) 多くのデバッグツールは、変数値やソースライン番号などのプログラム状態のソース言語ビューを示すために、コンパイラが生成したメタデータに依存している。 これは最適化されていないプログラムでは有効であるが、現在のコンパイラは最適化されたプログラムで部分的なデバッグ情報しか生成しないことが多い。 ローカル変数のカバレッジ範囲を測定する現在のアプローチは、粗い仮定(例えば、変数が親のスコープ全体をカバーできると仮定する)に基づいており、ひとつのコンパイルから別のコンパイルに匹敵するものではない。 本研究では,デバッグ品質を改善するための言語実装のモチベーションとして,ツールによって計算可能な新しいメトリクスを提案する。

Many debugging tools rely on compiler-produced metadata to present a source-language view of program states, such as variable values and source line numbers. While this tends to work for unoptimised programs, current compilers often generate only partial debugging information in optimised programs. Current approaches for measuring the extent of coverage of local variables are based on crude assumptions (for example, assuming variables could cover their whole parent scope) and are not comparable from one compilation to another. In this work, we propose some new metrics, computable by our tools, which could serve as motivation for language implementations to improve debugging quality.
翻訳日:2024-02-08 15:25:20 公開日:2024-02-07
# 浮遊双極子散乱器のバックアクション抑制

Back action suppression for levitated dipolar scatterers ( http://arxiv.org/abs/2402.04802v1 )

ライセンス: Link先を確認
Yannick Weiser, Tommaso Faorlin, Lorenz Panzl, Thomas Lafenthaler, Lorenzo Dania, Dmitry S. Bykov, Thomas Monz, Rainer Blatt, Giovanni Cerchiari(参考訳) 浮揚双極子散乱器は、メソスコピックスケールで量子力学を観測するための光学力学系として非常に優れた性能を示す。 しかし、光をほぼあらゆる方向に散乱させる傾向は、特に光収集効率を制限し、その結果、システムから抽出可能な情報に実験的に挑戦する。 本稿では、バックアクションを特定の空間方向に拘束することで、光学的測定から得られる情報を強化するためのセットアップを提案する。 このアプローチは任意の数値開口においてハイゼンベルク制限検出を実現する。 セットアップは、双極子エミッタによって散乱された光、特に高散乱角度で制御し、得られた情報を集中する中空半球ミラーで構成されている。 このミラーは、共焦点レンズや光共振器を含む共振光学で一般的に使用される既存の構成と互換性がある。

Levitated dipolar scatterers exhibit exceptional performance as optomechanical systems for observing quantum mechanics at the mesoscopic scale. However, their tendency to scatter light in almost any direction poses experimental challenges, in particular limiting light collection efficiencies and, consequently, the information extractable from the system. In this article, we present a setup designed to enhance the information gleaned from optomechanical measurements by constraining the back action to a specific spatial direction. This approach facilitates achieving Heisenberg-limited detection at any given numerical aperture. The setup consists of a hollow hemispherical mirror that controls the light scattered by the dipolar emitter, particularly at high scattering angles, thereby focusing the obtained information. This mirror is compatible with existing setups commonly employed in levitated optomechanics, including confocal lenses and optical resonators.
翻訳日:2024-02-08 15:25:03 公開日:2024-02-07
# 生物学的に妥当かつプライベートな遺伝子発現データ生成に向けて

Towards Biologically Plausible and Private Gene Expression Data Generation ( http://arxiv.org/abs/2402.04912v1 )

ライセンス: Link先を確認
Dingfan Chen, Marie Oestreich, Tejumade Afonja, Raouf Kerkouche, Matthias Becker, Mario Fritz(参考訳) ディファレンシャルプライバシ(dp)でトレーニングされた生成モデルは、下流アプリケーションのための合成データの作成においてますます顕著になりつつある。 しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。 本稿では,DP生成モデルが自然応用シナリオでどのように機能するかを,実世界の遺伝子発現データを中心に体系的に分析する。 本稿では,5種類のDP生成手法を総合的に分析し,下流の実用性,統計特性,生物学的妥当性など,様々な角度から分析する。 提案手法は,DP生成法の特徴を照らし,各手法の強みと弱みに対する重要な洞察を与え,今後の発展への興味深い可能性を明らかにする。 おそらく意外なことに、既存の文献で検討されている標準評価基準によれば、ほとんどのメソッドが合理的な下流ユーティリティを実現することができるということがわかりました。 それにもかかわらず、DP手法のいずれも実際のデータセットの生物学的特性を正確に把握できないことがわかった。 この観察は、この分野における現在の方法論の過度な最適化評価の可能性を示し、将来のモデル設計の強化の必要性を強調している。

Generative models trained with Differential Privacy (DP) are becoming increasingly prominent in the creation of synthetic data for downstream applications. Existing literature, however, primarily focuses on basic benchmarking datasets and tends to report promising results only for elementary metrics and relatively simple data distributions. In this paper, we initiate a systematic analysis of how DP generative models perform in their natural application scenarios, specifically focusing on real-world gene expression data. We conduct a comprehensive analysis of five representative DP generation methods, examining them from various angles, such as downstream utility, statistical properties, and biological plausibility. Our extensive evaluation illuminates the unique characteristics of each DP generation method, offering critical insights into the strengths and weaknesses of each approach, and uncovering intriguing possibilities for future developments. Perhaps surprisingly, our analysis reveals that most methods are capable of achieving seemingly reasonable downstream utility, according to the standard evaluation metrics considered in existing literature. Nevertheless, we find that none of the DP methods are able to accurately capture the biological characteristics of the real dataset. This observation suggests a potential over-optimistic assessment of current methodologies in this field and underscores a pressing need for future enhancements in model design.
翻訳日:2024-02-08 15:18:17 公開日:2024-02-07
# 確率長と組成一般化について

On Provable Length and Compositional Generalization ( http://arxiv.org/abs/2402.04875v1 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri(参考訳) 長さ一般化(long generalization) -- 訓練中に見られるものよりも長いシーケンスに一般化する能力、および合成一般化 -- 訓練中に見えないトークンの組み合わせに一般化する能力は、シーケンスからシーケンスへのモデルの分配外一般化の重要な形態である。 本研究では, 深部集合, 変圧器, 状態空間モデル, 単純なリカレントニューラルネットワークなど, 様々なアーキテクチャの証明可能な長さと構成の一般化に向けた第一歩を踏み出す。 アーキテクチャによって、線形あるいは置換関係や基底真理表現といった表現の識別の度合いが異なることが証明され、長さや組成の一般化に必要となる。

Length generalization -- the ability to generalize to longer sequences than ones seen during training, and compositional generalization -- the ability to generalize to token combinations not seen during training, are crucial forms of out-of-distribution generalization in sequence-to-sequence models. In this work, we take the first steps towards provable length and compositional generalization for a range of architectures, including deep sets, transformers, state space models, and simple recurrent neural nets. Depending on the architecture, we prove different degrees of representation identification, e.g., a linear or a permutation relation with ground truth representation, is necessary for length and compositional generalization.
翻訳日:2024-02-08 15:17:57 公開日:2024-02-07
# 実践による学習--因果認識ポリシーを用いたオンライン因果強化学習フレームワーク

Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy ( http://arxiv.org/abs/2402.04869v1 )

ライセンス: Link先を確認
Ruichu Cai, Siyang Huang, Jie Qiao, Wei Chen, Yan Zeng, Keli Zhang, Fuchun Sun, Yang Yu, Zhifeng Hao(参考訳) ヒューマンインテリジェンスにおける直感的認知と推論ソリューションの鍵となる要素として、因果的知識は、探索空間を減らして意思決定に対する強化学習(RL)エージェントの解釈可能性に大きな可能性をもたらす。 しかし、因果RLの急速な発達を妨げるRLへの因果関係の発見と導入には、まだかなりのギャップがある。 本稿では,政策の強化に基づく因果グラフモデルを用いて,状態の生成過程を明示的にモデル化することを検討する。 我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。 提案手法は,探索中の因果構造学習の介入と,活用時の政策指導のための学習因果構造の利用の2つの段階を交互に行う理論的性能保証を伴う枠組みを提案する。 状態空間への直接的介入を可能にする公開ベンチマークが欠如しているため、シミュレーションされた故障警報環境における根本原因局所化タスクを設計し、提案手法の有効性とロバスト性を実証的に示す。 理論的分析から,我々の業績改善は因果誘導型政策学習と因果構造学習の活発なサイクルに起因していることが示唆された。

As a key component to intuitive cognition and reasoning solutions in human intelligence, causal knowledge provides great potential for reinforcement learning (RL) agents' interpretability towards decision-making by helping reduce the searching space. However, there is still a considerable gap in discovering and incorporating causality into RL, which hinders the rapid development of causal RL. In this paper, we consider explicitly modeling the generation process of states with the causal graphical model, based on which we augment the policy. We formulate the causal structure updating into the RL interaction process with active intervention learning of the environment. To optimize the derived objective, we propose a framework with theoretical performance guarantees that alternates between two steps: using interventions for causal structure learning during exploration and using the learned causal structure for policy guidance during exploitation. Due to the lack of public benchmarks that allow direct intervention in the state space, we design the root cause localization task in our simulated fault alarm environment and then empirically show the effectiveness and robustness of the proposed method against state-of-the-art baselines. Theoretical analysis shows that our performance improvement attributes to the virtuous cycle of causal-guided policy learning and causal structure learning, which aligns with our experimental results.
翻訳日:2024-02-08 15:17:19 公開日:2024-02-07
# LLMによるスマートコントラクトの自動要約

Automated Smart Contract Summarization via LLMs ( http://arxiv.org/abs/2402.04863v1 )

ライセンス: Link先を確認
Yingjie Mao, Xiao Li, Zongwei Li, Wenkai Li(参考訳) 自動コード要約生成技術はスマートコントラクトの開発と保守に広く利用されている。 近年,Large Language Models (LLMs) の出現に伴い,Gemini はマルチモーダル入力をサポートする最初のLMM (Large Multimodal Model) として注目されている。 しかし、LMMがマルチモーダル入力から契約コード要約を生成する方法は不明である。 本稿では,実世界のスマートコントラクト上でのGeminiの評価,MMTransとの比較,マルチモーダルプロンプトの組み合わせによる契約コード要約の方法について検討する。 我々は、生成した要約の質を測定するために、いくつかの広く使われている指標(BLEU、METEOR、ROUGE-L)を使用した。 実験の結果,METEORとROUGE-LのメトリクスであるGemini-Pro-Visionは,3発のプロンプトで生成されたコードコメントに対して21.17%,21.05%のスコアを得た。 これらのスコアは、ワンショットプロンプトと5ショットプロンプトで生成されたスコアよりも優れている。

Automatic code Summarization generation technology is widely used in the development and maintenance of smart contracts. In recent years, with the advent of Large Language Models (LLMs), Gemini has received a lot of attention as the first Large Multimodal models (LMMs) to support multimodal input. However, it is unclear how LMMs can generate contract code summarization from multimodal inputs. In this paper, we focus on evaluating Gemini on real-world smart contracts, comparing it to the MMTrans, and exploring how to combine multimodal prompts to generate a contract code summarization. We used several widely used metrics (BLEU, METEOR, and ROUGE-L) to measure the quality of the generated summarization. Our experiments show that METEOR and ROUGE-L metrics, Gemini-Pro-Vision achieves 21.17% and 21.05% scores for code comments generated by three-shot prompts. These scores are better than those generated by one-shot and five-shot prompts.
翻訳日:2024-02-08 15:16:55 公開日:2024-02-07
# codeit: 後見を優先した自己改善型言語モデル

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay ( http://arxiv.org/abs/2402.04858v1 )

ライセンス: Link先を確認
Natasha Butt, Blazej Manczak, Auke Wiggers, Corrado Rainone, David Zhang, Micha\"el Defferrard, Taco Cohen(参考訳) 大規模な言語モデルは、人間レベルの推論能力を必要とすると一般的に信じられているタスクをますます解決している。 しかし、これらのモデルは、抽象および推論コーパス(arc)のような一般的な知性のベンチマークでは、依然として非常に貧弱である。 本稿では,プログラミング・バイ・サンプル問題としてARCにアプローチし,コードイテレーション(Code It)と呼ばれる,言語モデルの自己改善のための新しい,スケーラブルな手法を提案する。 私たちの方法は間を繰り返す 1)プログラムサンプリング及び後見リラベリング、及び 2)優先経験リプレイから学ぶこと。 本手法は,実演の目標(すなわち,入力された対象プログラム出力)をサンプルプログラムが生成した実演出力にレバレッジすることにより,プログラム合成における報酬の極端な分散を効果的に処理する。 CodeItをARCデータセットに適用することにより、事前トレーニングとデータ拡張とともに、優先順位付けされた後視リプレイがタスク間の一般化を成功させることを示す。 CodeItは完全なARC評価データセットにスケールする最初のニューロシンボリックアプローチである。 本手法はarc評価タスクの15%を解決し,最先端の性能を実現し,既存のニューラルベースラインやシンボリックベースラインを上回っている。

Large language models are increasingly solving tasks that are commonly believed to require human-level reasoning ability. However, these models still perform very poorly on benchmarks of general intelligence such as the Abstraction and Reasoning Corpus (ARC). In this paper, we approach ARC as a programming-by-examples problem, and introduce a novel and scalable method for language model self-improvement called Code Iteration (CodeIt). Our method iterates between 1) program sampling and hindsight relabeling, and 2) learning from prioritized experience replay. By relabeling the goal of an episode (i.e., the target program output given input) to the realized output produced by the sampled program, our method effectively deals with the extreme sparsity of rewards in program synthesis. Applying CodeIt to the ARC dataset, we demonstrate that prioritized hindsight replay, along with pre-training and data-augmentation, leads to successful inter-task generalization. CodeIt is the first neuro-symbolic approach that scales to the full ARC evaluation dataset. Our method solves 15% of ARC evaluation tasks, achieving state-of-the-art performance and outperforming existing neural and symbolic baselines.
翻訳日:2024-02-08 15:16:38 公開日:2024-02-07
# 異常検出の進歩:適応モデルと新しいデータセット

Advancing Anomaly Detection: An Adaptation Model and a New Dataset ( http://arxiv.org/abs/2402.04857v1 )

ライセンス: Link先を確認
Liyun Zhu and Arjun Raj and Lei Wang(参考訳) 産業の監視は小売業、製造業、教育、スマートシティといった分野で広く適用されており、それぞれに特別な検出を必要とする独特の異常がある。 しかし、同じシナリオにおける新しい視点への異常検出モデルの適用が課題となる。 これらのモデルをまったく新しいシナリオに拡張するには、再トレーニングや微調整が必要になる。 これらの課題に対処するために,我々は,事前学習されたモデルの新たな概念への迅速な適応のために,マイナショット学習フレームワークを活用したシナリオ適応異常検出(sa2d)手法を提案する。 このアプローチにも関わらず、さまざまなシナリオとカメラビューを備えた包括的なデータセットが存在しないことで、大きな課題が生まれます。 その結果,様々なカメラビューから捉えた14のシナリオを含むマルチシナリオ異常検出(Multi-Scenario Anomaly Detection, MAD)データセットが導入された。 この現実世界のデータセットは、最初の高解像度の異常検出データセットであり、優れたモデルをトレーニングするための確かな基盤を提供する。 MSADには様々な通常の動きパターンが含まれており、様々な照明や気象条件のような困難なバリエーションが組み込まれている。 実験により,SA2Dの有効性を検証し,特にMSADデータセットを用いてトレーニングを行った。 以上の結果から,SA2Dは同一シナリオ内での新たな視点に優れるだけでなく,全く新しいシナリオに直面した場合の競争性能も向上することが示された。 このことは,多様かつ進化する監視シナリオにおける異常検出の課題に対処する上で,我々の手法が持つ可能性を強調している。

Industry surveillance is widely applicable in sectors like retail, manufacturing, education, and smart cities, each presenting unique anomalies requiring specialized detection. However, adapting anomaly detection models to novel viewpoints within the same scenario poses challenges. Extending these models to entirely new scenarios necessitates retraining or fine-tuning, a process that can be time consuming. To address these challenges, we propose the Scenario-Adaptive Anomaly Detection (SA2D) method, leveraging the few-shot learning framework for faster adaptation of pre-trained models to new concepts. Despite this approach, a significant challenge emerges from the absence of a comprehensive dataset with diverse scenarios and camera views. In response, we introduce the Multi-Scenario Anomaly Detection (MSAD) dataset, encompassing 14 distinct scenarios captured from various camera views. This real-world dataset is the first high-resolution anomaly detection dataset, offering a solid foundation for training superior models. MSAD includes diverse normal motion patterns, incorporating challenging variations like different lighting and weather conditions. Through experimentation, we validate the efficacy of SA2D, particularly when trained on the MSAD dataset. Our results show that SA2D not only excels under novel viewpoints within the same scenario but also demonstrates competitive performance when faced with entirely new scenarios. This highlights our method's potential in addressing challenges in detecting anomalies across diverse and evolving surveillance scenarios.
翻訳日:2024-02-08 15:16:17 公開日:2024-02-07
# 擬似軌道を用いた学習後進関数の解説

Explaining Learned Reward Functions with Counterfactual Trajectories ( http://arxiv.org/abs/2402.04856v1 )

ライセンス: Link先を確認
Jan Wehner, Frans Oliehoek, Luciano Cavalcante Siebert(参考訳) 人間の振る舞いやフィードバックから報酬を学ぶことは、AIシステムを人間の価値と整合させるための有望なアプローチであるが、常に正しい報酬関数を抽出できない。 解釈ツールは、ユーザーが学習した報酬関数の欠陥を理解し、評価することができる。 本稿では,正則部分軌跡と正則部分軌跡とを対比することにより,強化学習における報酬関数を解釈するためのCTEを提案する。 我々は,cteの品質基準を6つ導出し,これらの品質基準を最適化した新しいモンテカルロベースアルゴリズムを提案する。 最後に、CTEで学習することで、生成した説明がプロキシ・ヒューマンモデルにどの程度情報をもたらすかを測定する。 CTEは、プロキシ・ヒューマンモデルに対して明らかに有益であり、予測と未知の軌道上の報酬関数との類似性を高める。 さらに、トラジェクタ間の報酬の差を正確に判断し、分布外例に一般化する。 CTEは報酬の完全な理解に繋がるものではないが、我々の方法、より一般的にはXAI法の適応は、学習された報酬関数を解釈するための実りあるアプローチとして提示される。

Learning rewards from human behaviour or feedback is a promising approach to aligning AI systems with human values but fails to consistently extract correct reward functions. Interpretability tools could enable users to understand and evaluate possible flaws in learned reward functions. We propose Counterfactual Trajectory Explanations (CTEs) to interpret reward functions in reinforcement learning by contrasting an original with a counterfactual partial trajectory and the rewards they each receive. We derive six quality criteria for CTEs and propose a novel Monte-Carlo-based algorithm for generating CTEs that optimises these quality criteria. Finally, we measure how informative the generated explanations are to a proxy-human model by training it on CTEs. CTEs are demonstrably informative for the proxy-human model, increasing the similarity between its predictions and the reward function on unseen trajectories. Further, it learns to accurately judge differences in rewards between trajectories and generalises to out-of-distribution examples. Although CTEs do not lead to a perfect understanding of the reward, our method, and more generally the adaptation of XAI methods, are presented as a fruitful approach for interpreting learned reward functions.
翻訳日:2024-02-08 15:15:53 公開日:2024-02-07
# 空間周波数相互作用によるデュアルパス結合画像復調ネットワーク

Dual-Path Coupled Image Deraining Network via Spatial-Frequency Interaction ( http://arxiv.org/abs/2402.04855v1 )

ライセンス: Link先を確認
Yuhong He, Aiwen Jiang, Lingfang Jiang, Zhifeng Wang, Lu Wang(参考訳) 近年,トランスフォーマーは画像デライニングの分野で重要な役割を担っている。 既存の画像デラリニング手法は、自己注意に関する広範な研究を利用している。 印象的な結果を示すが、彼らは重要な周波数情報を無視する傾向がある。 そこで我々は,空間的特徴抽出ブロック (SFEBlock) と周波数的特徴抽出ブロック (FFEBlock) を通じて空間的・周波数的領域からの情報を統合するDPCNet(Dual-Path Coupled Deraining Network)を開発した。 さらに,デュアルパス機能アグリゲーションのための効果的な適応核融合モジュール (AFM) も導入した。 提案手法は,既存のデライニング手法に勝るだけでなく,下流視覚タスクに優れたロバスト性を有する視覚的満足度を達成できることを実証した。

Transformers have recently emerged as a significant force in the field of image deraining. Existing image deraining methods utilize extensive research on self-attention. Though showcasing impressive results, they tend to neglect critical frequency information, as self-attention is generally less adept at capturing high-frequency details. To overcome this shortcoming, we have developed an innovative Dual-Path Coupled Deraining Network (DPCNet) that integrates information from both spatial and frequency domains through Spatial Feature Extraction Block (SFEBlock) and Frequency Feature Extraction Block (FFEBlock). We have further introduced an effective Adaptive Fusion Module (AFM) for the dual-path feature aggregation. Extensive experiments on six public deraining benchmarks and downstream vision tasks have demonstrated that our proposed method not only outperforms the existing state-of-the-art deraining method but also achieves visually pleasuring results with excellent robustness on downstream vision tasks.
翻訳日:2024-02-08 15:15:33 公開日:2024-02-07
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v1 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa(参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労している。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムは単にテキストの類似度が高いため、研究者はなぜ特定の論文が推奨されるのかを混乱させる可能性がある。 また, 「Issue Solution」 と「Issue Finding」 との洞察関係について, 重要な情報が得られていない可能性がある。 本研究は,研究トピックの継承的インサイトと学術論文間の関連性インサイトを反映した階層的木構造知識グラフを構築し,初心者研究者を対象とした研究インサイト調査を支援することを目的としている。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-02-08 15:15:16 公開日:2024-02-07
# マルチパッチ予測:時系列表現学習のためのLLM適応

Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning ( http://arxiv.org/abs/2402.04852v1 )

ライセンス: Link先を確認
Yuxuan Bian, Xuan Ju, Jiangtong Li, Zhijian Xu, Dawei Cheng, Qiang Xu(参考訳) 本研究では,Large Language Models (LLMs) を時系列表現学習に適用する革新的なフレームワークである aLLM4TS を提案する。 提案手法は,従来のマスク・アンド・リコンストラクション手法と比較して,パッチ表現の時間的ダイナミクスをより効果的に捉え,自己教師付きマルチパッチ予測タスクとして時系列予測を再現するものである。 私たちの戦略は2段階の訓練を含む。 (i)。 各種時系列データセットの因果継続事前トレーニングフェーズで、次のパッチ予測に固定され、LLM機能を時系列データの複雑さと効果的に同期する。 (ii) ターゲットとする時系列コンテキストにおけるマルチパッチ予測のための微調整。 当社のフレームワークの特徴的な要素はパッチワイドデコーディング層であり、シーケンスレベルのデコーディングに依存する従来のメソッドとは分離している。 このような設計は個々のパッチを直接時間的シーケンスに変換し、時間的パッチベースの表現を習得する際のモデルの習熟度を大幅に向上させる。 aLLM4TSは、複数の下流タスクにおいて優れた性能を示し、転送可能性の向上による時間的表現の導出の有効性を示し、時系列解析のためのLLMの適応における重要な進歩を示す。

In this study, we present aLLM4TS, an innovative framework that adapts Large Language Models (LLMs) for time-series representation learning. Central to our approach is that we reconceive time-series forecasting as a self-supervised, multi-patch prediction task, which, compared to traditional mask-and-reconstruction methods, captures temporal dynamics in patch representations more effectively. Our strategy encompasses two-stage training: (i). a causal continual pre-training phase on various time-series datasets, anchored on next patch prediction, effectively syncing LLM capabilities with the intricacies of time-series data; (ii). fine-tuning for multi-patch prediction in the targeted time-series context. A distinctive element of our framework is the patch-wise decoding layer, which departs from previous methods reliant on sequence-level decoding. Such a design directly transposes individual patches into temporal sequences, thereby significantly bolstering the model's proficiency in mastering temporal patch-based representations. aLLM4TS demonstrates superior performance in several downstream tasks, proving its effectiveness in deriving temporal representations with enhanced transferability and marking a pivotal advancement in the adaptation of LLMs for time-series analysis.
翻訳日:2024-02-08 15:14:57 公開日:2024-02-07
# AlphaFoldがタンパク質アンサンブル生成のためのフローマッチングを発表

AlphaFold Meets Flow Matching for Generating Protein Ensembles ( http://arxiv.org/abs/2402.04845v1 )

ライセンス: Link先を確認
Bowen Jing, Bonnie Berger, Tommi Jaakkola(参考訳) タンパク質の生物学的機能はしばしば動的構造的アンサンブルに依存する。 本研究では,タンパク質のコンフォメーション・ランドスケープを学習・サンプリングするためのフローベース生成モデリング手法を開発する。 そこで我々は,AlphaFold や ESMFold のような高精度な単一状態予測器をカスタムフローマッチングフレームワークの下で微調整し,AlphaFlow や ESMFlow と呼ばれるタンパク質構造の配列決定生成モデルを得る。 PDBをトレーニングし評価すると,本手法はAlphaFoldとMSAサブサンプリングと比較して精度と多様性の優れた組み合わせを提供する。 本手法では,全原子MDのアンサンブルのさらなる訓練を行ない,コンフォメーションの柔軟性,位置分布,高次アンサンブル観測が可能となる。 さらに,提案手法は,MD軌道の再現よりも高速な壁面収束による静的PDB構造を多様化し,高コストな物理シミュレーションのプロキシとしての可能性を示す。 コードはhttps://github.com/bjing2016/alphaflowで入手できる。

The biological functions of proteins often depend on dynamic structural ensembles. In this work, we develop a flow-based generative modeling approach for learning and sampling the conformational landscapes of proteins. We repurpose highly accurate single-state predictors such as AlphaFold and ESMFold and fine-tune them under a custom flow matching framework to obtain sequence-conditoned generative models of protein structure called AlphaFlow and ESMFlow. When trained and evaluated on the PDB, our method provides a superior combination of precision and diversity compared to AlphaFold with MSA subsampling. When further trained on ensembles from all-atom MD, our method accurately captures conformational flexibility, positional distributions, and higher-order ensemble observables for unseen proteins. Moreover, our method can diversify a static PDB structure with faster wall-clock convergence to certain equilibrium properties than replicate MD trajectories, demonstrating its potential as a proxy for expensive physics-based simulations. Code is available at https://github.com/bjing2016/alphaflow.
翻訳日:2024-02-08 15:14:35 公開日:2024-02-07
# 逐次自己回帰によるデータ効率大ビジョンモデル

Data-efficient Large Vision Models through Sequential Autoregression ( http://arxiv.org/abs/2402.04841v1 )

ライセンス: Link先を確認
Jianyuan Guo, Zhiwei Hao, Chengcheng Wang, Yehui Tang, Han Wu, Han Hu, Kai Han, Chang Xu(参考訳) 純粋にシーケンシャルな視覚データに基づく汎用視覚モデルの訓練は、言語入力を回避し、視覚理解の新しいフロンティアとなった。 これらのモデルは理解するだけでなく、ドメイン外のタスクにシームレスに移行することを目的としています。 しかし、現在の取り組みは、3Bパラメータが上向きのモデルで例示されるような余剰モデルの過度な信頼と、400Bトークンをステージングする大規模な視覚データコーパスの必要性によって妨げられている。 本稿では,限られたデータセット上での操作を革新的に設計した,効率的な自己回帰に基づく視覚モデルの開発について検討する。 我々は,テスト段階における高レベル・低レベルのセマンティック理解にまたがる視覚タスクのスペクトルにおいて,このモデルが習熟度を正確に示す。 我々の経験的評価は、様々なタスクに適応し、パラメータフットプリントを大幅に削減し、トレーニングデータ要求を著しく減らし、一般の視覚モデル分野におけるより持続的でアクセスしやすい進歩の道を開くことを示唆している。 コードはhttps://github.com/ggjy/DeLVMで入手できる。

Training general-purpose vision models on purely sequential visual data, eschewing linguistic inputs, has heralded a new frontier in visual understanding. These models are intended to not only comprehend but also seamlessly transit to out-of-domain tasks. However, current endeavors are hamstrung by an over-reliance on colossal models, exemplified by models with upwards of 3B parameters, and the necessity for an extensive corpus of visual data, often comprising a staggering 400B tokens. In this paper, we delve into the development of an efficient, autoregression-based vision model, innovatively architected to operate on a limited dataset. We meticulously demonstrate how this model achieves proficiency in a spectrum of visual tasks spanning both high-level and low-level semantic understanding during the testing phase. Our empirical evaluations underscore the model's agility in adapting to various tasks, heralding a significant reduction in the parameter footprint, and a marked decrease in training data requirements, thereby paving the way for more sustainable and accessible advancements in the field of generalist vision models. The code is available at https://github.com/ggjy/DeLVM.
翻訳日:2024-02-08 15:14:16 公開日:2024-02-07
# PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング

PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition ( http://arxiv.org/abs/2402.04838v1 )

ライセンス: Link先を確認
Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Can Huang(参考訳) 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。 LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。 llm for ne} (padellm-ner)は、モジュールの追加やアーキテクチャの変更を必要とせず、既存の生成モデルフレームワークにシームレスに統合するアプローチである。 PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減する。 実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。 同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。

In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
翻訳日:2024-02-08 15:13:52 公開日:2024-02-07
# 不変幾何学的深層学習モデルの完全性について

On the Completeness of Invariant Geometric Deep Learning Models ( http://arxiv.org/abs/2402.04836v1 )

ライセンス: Link先を確認
Zian Li, Xiyuan Wang, Shijia Kang, Muhan Zhang(参考訳) 幾何学的深層学習モデルの重要なクラスである不変モデルは、有意義な幾何学的表現を生成することができる。 これらのモデルは、単純さ、優れた実験結果、計算効率によって特徴づけられる。 しかし、それらの理論表現力はいまだに不明であり、そのようなモデルの可能性の深い理解を制限している。 本研究では,不変モデルの理論的表現性を特徴付けることに集中する。 我々はまず、最も古典的な不変モデルであるVanilla DisGNN(距離を取り入れたメッセージパスニューラルネットワーク)の表現性を厳密に拘束し、その不特定ケースを高対称性の幾何グラフのみに制限した。 これらのコーナーケースの対称性を破るために、Vanilla DisGNNをネストしてGeoNGNNという単純なE(3)完全不変設計を導入する。 理論ツールとしてGeoNGNNを活用することで、DimeNet、GemNet、SphereNetの3つの確立された幾何学モデルのE(3)完全性を初めて証明する。 我々の結果は不変モデルの理論的パワーのギャップを埋め、その能力の厳密で包括的な理解に寄与する。 実験では、GeoNGNNは局所環境の捕捉に優れた帰納バイアスを示し、高次不変/等変表現に依存する複雑なモデルと競合する結果を得ると同時に、計算速度を大幅に高速化する。

Invariant models, one important class of geometric deep learning models, are capable of generating meaningful geometric representations by leveraging informative geometric features. These models are characterized by their simplicity, good experimental results and computational efficiency. However, their theoretical expressive power still remains unclear, restricting a deeper understanding of the potential of such models. In this work, we concentrate on characterizing the theoretical expressiveness of invariant models. We first rigorously bound the expressiveness of the most classical invariant model, Vanilla DisGNN (message passing neural networks incorporating distance), restricting its unidentifiable cases to be only those highly symmetric geometric graphs. To break these corner cases' symmetry, we introduce a simple yet E(3)-complete invariant design by nesting Vanilla DisGNN, named GeoNGNN. Leveraging GeoNGNN as a theoretical tool, we for the first time prove the E(3)-completeness of three well-established geometric models: DimeNet, GemNet and SphereNet. Our results fill the gap in the theoretical power of invariant models, contributing to a rigorous and comprehensive understanding of their capabilities. Experimentally, GeoNGNN exhibits good inductive bias in capturing local environments, and achieves competitive results w.r.t. complicated models relying on high-order invariant/equivariant representations while exhibiting significantly faster computational speed.
翻訳日:2024-02-08 15:13:34 公開日:2024-02-07
# covid long haul experience(covid-19)のグラフ化 -- 症状・活動・臨床付着の経時的調査-

Charting the COVID Long Haul Experience -- A Longitudinal Exploration of Symptoms, Activity, and Clinical Adherence ( http://arxiv.org/abs/2402.04937v1 )

ライセンス: Link先を確認
Jessica Pater, Shaan Chopra, Juliette Zaccour, Jeanne Carroll, Fayika Farhat Nova, Tammy Toscos, Shion Guha, Fen Lei Chang(参考訳) COVID Long Haul(CLH)は、様々な患者経験を持つ新興の慢性疾患である。 CLHに対する我々の理解は、診断や問題リストなどの電子健康記録(EHR)のデータに限られており、症状のボラティリティや重症度やその影響を捉えていない。 CLHのユニークなプレゼンテーションをより深く理解するため,14人のCLH患者を対象に3ヶ月にわたるコホート調査を行い,対象(EHR,日次Fitbitログ)と主観的(週次調査,インタビュー)データを収集した。 以上の結果より, CLHの症状, 関連する不確実性, およびその後のCLHが患者の個人的および専門的生活に与える影響が示唆された。 我々は、患者のニーズ、習慣、および臨床推奨事項の遵守、健康データへの関与に関する課題を特定し、新型コロナウイルス後の「新しい正常」を確立する。 我々は、これらの様々なデータストリームの交差点で見られる可能性と、この新しい人口とそれらの特定のニーズのために設計できる説得的ヒューリスティックを反映する。

COVID Long Haul (CLH) is an emerging chronic illness with varied patient experiences. Our understanding of CLH is often limited to data from electronic health records (EHRs), such as diagnoses or problem lists, which do not capture the volatility and severity of symptoms or their impact. To better understand the unique presentation of CLH, we conducted a 3-month long cohort study with 14 CLH patients, collecting objective (EHR, daily Fitbit logs) and subjective (weekly surveys, interviews) data. Our findings reveal a complex presentation of symptoms, associated uncertainty, and the ensuing impact CLH has on patients' personal and professional lives. We identify patient needs, practices, and challenges around adhering to clinical recommendations, engaging with health data, and establishing "new normals" post COVID. We reflect on the potential found at the intersection of these various data streams and the persuasive heuristics possible when designing for this new population and their specific needs.
翻訳日:2024-02-08 15:05:53 公開日:2024-02-07
# 微粒化言語制御による個人化テキスト生成

Personalized Text Generation with Fine-Grained Linguistic Control ( http://arxiv.org/abs/2402.04914v1 )

ライセンス: Link先を確認
Bashar Alhafni, Vivek Kulkarni, Dhruv Kumar, Vipul Raheja(参考訳) 大規模言語モデルのテキスト生成能力がますます顕著になるにつれて、近年の研究は、生成したテキストの特定の側面を制御してパーソナライズすることに注力している。 しかし、制御可能なテキスト生成に関するほとんどの研究は、形式性、ドメイン、感情などの著者の書体スタイルを反映した、特定の高レベル/粗粒度属性の制御やモデリングに焦点を当てている。 本稿では,語彙属性や構文属性など,複数の言語次元にまたがる細粒度属性の制御に着目する。 生成モデルを訓練するための新しいベンチマークを導入し、複数の粒度言語属性に基づいてパーソナライズされたテキストを生成する能力を評価する。 ベンチマークで様々な大規模言語モデルの性能を体系的に調査し、その性能に影響を与える要因から洞察を得る。 コード、データ、事前訓練されたモデルを公開しています。

As the text generation capabilities of large language models become increasingly prominent, recent studies have focused on controlling particular aspects of the generated text to make it more personalized. However, most research on controllable text generation focuses on controlling the content or modeling specific high-level/coarse-grained attributes that reflect authors' writing styles, such as formality, domain, or sentiment. In this paper, we focus on controlling fine-grained attributes spanning multiple linguistic dimensions, such as lexical and syntactic attributes. We introduce a novel benchmark to train generative models and evaluate their ability to generate personalized text based on multiple fine-grained linguistic attributes. We systematically investigate the performance of various large language models on our benchmark and draw insights from the factors that impact their performance. We make our code, data, and pretrained models publicly available.
翻訳日:2024-02-08 15:05:33 公開日:2024-02-07
# ImageNet-trained Classifierはどのような価値を実現するか?

What Values Do ImageNet-trained Classifiers Enact? ( http://arxiv.org/abs/2402.04911v1 )

ライセンス: Link先を確認
Will Penman, Joshua Babu, Abhinaya Raghunathan(参考訳) 我々は「価値」を、重要な社会的関心事のオープンな質問に対して、分類器が話す行動として識別する。 分類器の価値を調べることは、分類器が創造者の前提を超えた社会的プロセスに参加する方法を明らかにする社会的偏見の研究に基づいている。 私たちの場合、この参加には栄養価ととらえるもの、控えめであることの意味などが含まれています。 しかし、AIの社会的偏見とは異なり、分類者の価値観は必ずしも道徳的に恐ろしいものではない。 画像分類器の価値に従うことで、社会の将来についての議論や内省が促進される。 これらの主張を裏付けるために、ImageNetトレーニング/バリデーションデータとカスタムテストデータを用いたImageNet訓練分類器の双方について広範な検討を行った。 我々は,社会のオープン問題に対処する118のカテゴリにおいて知覚的決定境界を同定し,imagenetが学習した分類器が知覚的決定を通じて少なくとも7つの値を持つことを示す。 これらの結果を文脈化するために, 価値, 社会的バイアス, 正確性を統合した概念的枠組みを開発し, 文脈が分類器が作用する値にどのように影響するかを識別するための修辞的手法を提案する。 また,分類器の性能はトレーニングセット内のサブグループの比率を直接反映していないことも確認した。 我々の発見は、コンピュータビジョン以外の他の領域に適用可能なML研究者に、社会世界に対する豊かな感覚をもたらします。

We identify "values" as actions that classifiers take that speak to open questions of significant social concern. Investigating a classifier's values builds on studies of social bias that uncover how classifiers participate in social processes beyond their creators' forethought. In our case, this participation involves what counts as nutritious, what it means to be modest, and more. Unlike AI social bias, however, a classifier's values are not necessarily morally loathsome. Attending to image classifiers' values can facilitate public debate and introspection about the future of society. To substantiate these claims, we report on an extensive examination of both ImageNet training/validation data and ImageNet-trained classifiers with custom testing data. We identify perceptual decision boundaries in 118 categories that address open questions in society, and through quantitative testing of rival datasets we find that ImageNet-trained classifiers enact at least 7 values through their perceptual decisions. To contextualize these results, we develop a conceptual framework that integrates values, social bias, and accuracy, and we describe a rhetorical method for identifying how context affects the values that a classifier enacts. We also discover that classifier performance does not straightforwardly reflect the proportions of subgroups in a training set. Our findings bring a rich sense of the social world to ML researchers that can be applied to other domains beyond computer vision.
翻訳日:2024-02-08 15:05:17 公開日:2024-02-07
# オンライン安全研究・開発への合成データの責任応用の検討

Exploring responsible applications of Synthetic Data to advance Online Safety Research and Development ( http://arxiv.org/abs/2402.04910v1 )

ライセンス: Link先を確認
Pica Johansson, Jonathan Bright, Shyam Krishna, Claudia Fischer, David Leslie(参考訳) 合成データの利用は、バイアス緩和の可能性を示しながら、オンラインの安全研究と開発を加速する機会を提供し、データの保存と共有を促進し、プライバシを保護し、有害なコンテンツへの露出を減らす。 しかしながら、合成データの責任ある使用には、予想されるリスクと課題に関する注意が必要である。 本報告では, 合成データのオンライン安全分野への応用の可能性について検討し, 有効利用の倫理的課題に対処する。

The use of synthetic data provides an opportunity to accelerate online safety research and development efforts while showing potential for bias mitigation, facilitating data storage and sharing, preserving privacy and reducing exposure to harmful content. However, the responsible use of synthetic data requires caution regarding anticipated risks and challenges. This short report explores the potential applications of synthetic data to the domain of online safety, and addresses the ethical challenges that effective use of the technology may present.
翻訳日:2024-02-08 15:04:51 公開日:2024-02-07
# 機械教育における組合せ問題について

On a Combinatorial Problem Arising in Machine Teaching ( http://arxiv.org/abs/2402.04907v1 )

ライセンス: Link先を確認
Brigt H{\aa}vardstun, Jan Kratochv\'il, Joakim Sunde, Jan Arne(参考訳) 本研究では,概念と実例の両面において,教師マッピングをサイズ関数から構築する機械教育のモデルについて検討する。 機械教育における主な疑問は、あらゆる概念、いわゆる教示次元に必要な例の最小数である。 最近の論文 [7] では、このモデルの最悪の場合、概念クラスの大きさの関数として、一貫性行列がゼロ以上の数の二進表現を含むときに起こると推測した。 本稿では,それらの予想を証明する。 この結果は、ハイパーキューブ [12] のエッジ等尺性問題を解く定理の一般化と見なすことができ、我々の証明は [10] の補題に基づいている。

We study a model of machine teaching where the teacher mapping is constructed from a size function on both concepts and examples. The main question in machine teaching is the minimum number of examples needed for any concept, the so-called teaching dimension. A recent paper [7] conjectured that the worst case for this model, as a function of the size of the concept class, occurs when the consistency matrix contains the binary representations of numbers from zero and up. In this paper we prove their conjecture. The result can be seen as a generalization of a theorem resolving the edge isoperimetry problem for hypercubes [12], and our proof is based on a lemma of [10].
翻訳日:2024-02-08 15:04:42 公開日:2024-02-07
# コンフォメーションモンテカルロメタリアナーを用いた個別治療効果の予測

Conformal Monte Carlo Meta-learners for Predictive Inference of Individual Treatment Effects ( http://arxiv.org/abs/2402.04906v1 )

ライセンス: Link先を確認
Jef Jonkers, Jarne Verhaeghe, Glenn Van Wallendael, Luc Duchateau, Sofie Van Hoecke(参考訳) 治療効果と呼ばれる介入の効果の知識は、意思決定において重要である。 条件平均処理効果(CATE)推定器を用いて、この治療効果を推定するためのアプローチは、しばしばこの治療効果の点推定しか提供せず、さらに不確実な定量化がしばしば望まれる。 そこで本研究では, 共形予測システム, モンテカルロサンプリング, CATEメタラーナを活用して, 個別化意思決定に有用な予測分布を生成する新しい手法であるCMCメタラーナを提案する。 さらに,結果の雑音分布に対する具体的な仮定が,これらの不確実性予測に大きく影響することを示す。 それにもかかわらず、CMCフレームワークは、真の個々の治療効果を推定するために、小さな間隔幅を維持しながら、強力な実験カバレッジを示す。

Knowledge of the effect of interventions, called the treatment effect, is paramount for decision-making. Approaches to estimating this treatment effect, e.g. by using Conditional Average Treatment Effect (CATE) estimators, often only provide a point estimate of this treatment effect, while additional uncertainty quantification is frequently desired instead. Therefore, we present a novel method, the Conformal Monte Carlo (CMC) meta-learners, leveraging conformal predictive systems, Monte Carlo sampling, and CATE meta-learners, to instead produce a predictive distribution usable in individualized decision-making. Furthermore, we show how specific assumptions on the noise distribution of the outcome heavily affect these uncertainty predictions. Nonetheless, the CMC framework shows strong experimental coverage while retaining small interval widths to provide estimates of the true individual treatment effect.
翻訳日:2024-02-08 15:04:29 公開日:2024-02-07
# L4Q: LoRA-wise LSQを用いた大規模言語モデルのパラメータ効率的な量子化学習

L4Q: Parameter Efficient Quantization-Aware Training on Large Language Models via LoRA-wise LSQ ( http://arxiv.org/abs/2402.04902v1 )

ライセンス: Link先を確認
Hyesung Jeon, Yulhwa Kim, Jae-joon Kim(参考訳) 学習後量子化(PTQ)と量子化対応学習(QAT)法は,大規模言語モデル(LLM)に関連する高メモリと計算コストの軽減で人気を集めている。 リソース制約のあるシナリオでは、PTQはトレーニングのオーバーヘッドを減らし、QATよりも好まれる。 一方、低ランク適応(LoRA)のようなパラメータ効率細調整(PEFT)手法を導入し、近年、量子化対応PEFT技術について検討している。 しかし、これらのアプローチは、事前量子化モデルの構成に依存するため、一般性に欠ける可能性がある。 それらの効果は非線形量子化または混合精度の重みによって損なわれ、特定の量子化パラメータの再学習は最適な性能を阻害する可能性がある。 これらの課題に対処するため,パラメータ効率を考慮した量子化学習アルゴリズムL4Qを提案する。 L4Q は LLM に対して LoRA で学習した量子化ステップサイズを活用する。 L4Qの同時量子化・微調整プロセスは高精度なモデルに適用でき、より精度のよい線形量子化重みが得られる。 命令データセットを用いてLLaMAとLLaMA2モデルファミリを用いて実験を行い、L4Qの言語理解能力と文脈内学習能力を示し、量子化モデルにPEFTを適用するための訓練時間を維持しながら、サブ4ビット精度を実現した。

Post-training quantization (PTQ) and quantization-aware training (QAT) methods are gaining popularity in mitigating the high memory and computational costs associated with Large Language Models (LLMs). In resource-constrained scenarios, PTQ, with its reduced training overhead, is often preferred over QAT, despite the latter's potential for higher accuracy. Meanwhile, parameter-efficient fine-tuning (PEFT) methods like low-rank adaptation (LoRA) have been introduced, and recent efforts have explored quantization-aware PEFT techniques. However, these approaches may lack generality due to their reliance on the pre-quantized model's configuration. Their effectiveness may be compromised by non-linearly quantized or mixed-precision weights, and the retraining of specific quantization parameters might impede optimal performance. To address these challenges, we propose L4Q, an algorithm for parameter-efficient quantization-aware training. L4Q leverages LoRA-wise learned quantization step size for LLMs, aiming to enhance generality. The simultaneous quantization-and-fine-tuning process of L4Q is applicable to high-precision models, yielding linearly quantized weights with superior accuracy. Our experiments, conducted on the LLaMA and LLaMA2 model families using an instructional dataset, showcase L4Q's capabilities in language comprehension and few-shot in-context learning, achieving sub-4-bit precision while maintaining comparable training times to applying PEFT on a quantized model.
翻訳日:2024-02-08 15:04:14 公開日:2024-02-07
# TAPに基づくモバイルネットワークの高精度絶対時間同期に関する研究

Research on Mobile Network High-precision Absolute Time Synchronization based on TAP ( http://arxiv.org/abs/2402.04901v1 )

ライセンス: Link先を確認
Chenyu Zhang, Xiangming Wen, Wei Zheng, Longdan Yu, Zhaoming Lu and Zhengying Wang(参考訳) モバイル通信と産業用インターネット技術の発展に伴い,多様なシナリオを対象としたネットワークに基づく絶対時間同期の需要が著しく増大している。 TAPは,空気インターフェース上でのサブマイクロ秒同期の実現を目的とした,新しいネットワークタイミング法である。 本稿では,TAPの改良とエンドツーエンドの実現について検討する。 本稿では, タイミング誤差組成とアラン分散からタップを評価する等価なクロックモデルを構築し, タップの有効性と欠陥を分析した。 第2に,詳細な基地局と端末設計を提案し,TAPの改良について述べる。 3GPPとの互換性を最大化しつつ、タイミングエラーとシステムコストを最小限に抑えるため、ハードウェア補償とプロトコルソフトウェア設計の両方を考慮する。 最後に,ソフトウェア定義無線基地局とCOTSベースバンドモジュールをベースとしたTAPエンドツーエンド5Gプロトタイプシステムを提案する。 フィールドテストの結果,提案手法はアプリケーションにおけるTAPの問題を効果的に解決し,様々な状況において200nsレベルのタイミング精度を確実に達成することを示した。 長い観測での平均精度は1ナノ秒に達する。 NTP、TP、および元のTAPを含む一般的なネットワークタイミング法よりも2$\sim$3のオーダーが優れている。

With the development of mobile communication and industrial internet technologies, the demand for robust absolute time synchronization based on network for diverse scenarios is significantly growing. TAP is a novel network timing method that aims to achieve sub-microsecond synchronization over air interface. This paper investigates the improvement and end-to-end realization of TAP. This paper first analyzes the effectiveness and deficiencies of TAP by establishing an equivalent clock model which evaluates TAP from timing error composition and allan variance. Second, this paper proposes a detailed base station and terminal design and the corresponding improvement of TAP. Both hardware compensation and protocol software design are taken into account so as to minimize timing error and system cost while maximizing compatibility with 3GPP. Finally, this paper presents a TAP end-to-end 5G prototype system developed based on software defined radio base station and COTS baseband module. The field test results show that the proposed scheme effectively solves the problems of TAP in application and robustly achieves 200ns level timing accuracy in various situations. The average accuracy with long observations can reach 1 nanosecond. It is 2$\sim$3 orders of magnitude better than common network timing methods, including NTP, PTP and the original TAP.
翻訳日:2024-02-08 15:03:47 公開日:2024-02-07
# 成功の歪み:サッカーにおける傷害リスク軽減とチーム成功の予測モデル

The Strain of Success: A Predictive Model for Injury Risk Mitigation and Team Success in Soccer ( http://arxiv.org/abs/2402.04898v1 )

ライセンス: Link先を確認
Gregory Everett, Ryan Beal, Tim Matthews, Timothy J. Norman, Sarvapali D. Ramchurn(参考訳) 本稿では,サッカーにおける新しいシーケンシャルチーム選択モデルを提案する。 具体的には,実世界サッカーデータから学習した選手固有の情報を用いて,選手の傷害と使用不能の確率過程をモデル化する。 モンテカルロ・ツリー・サーチ(Monte-Carlo Tree Search)は、サッカーシーズンを通して長期チームのパフォーマンスを最適化するゲームのチームを選択するために用いられる。 2018/19年のイングランド・プレミアリーグシーズンのベンチマークソリューションと比較して,我々のアプローチを検証する。 また,本モデルでは,1チーム当たりのケガを13%減らしつつ,11%減らし,コスト削減の可能性を実証し,実際のサッカーチームにおける選手の福祉改善を図った。

In this paper, we present a novel sequential team selection model in soccer. Specifically, we model the stochastic process of player injury and unavailability using player-specific information learned from real-world soccer data. Monte-Carlo Tree Search is used to select teams for games that optimise long-term team performance across a soccer season by reasoning over player injury probability. We validate our approach compared to benchmark solutions for the 2018/19 English Premier League season. Our model achieves similar season expected points to the benchmark whilst reducing first-team injuries by ~13% and the money inefficiently spent on injured players by ~11% - demonstrating the potential to reduce costs and improve player welfare in real-world soccer teams.
翻訳日:2024-02-08 15:03:28 公開日:2024-02-07
# 動的グラフを用いた適応形経路計画のための深層強化学習

Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning ( http://arxiv.org/abs/2402.04894v1 )

ライセンス: Link先を確認
Apoorva Vashisth, Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) 自律ロボットは、効率と労働コストの低さから、データ収集によく用いられる。 ロボットのデータ取得における重要なタスクは、バッテリ寿命の制限など、プラットフォーム固有のリソース制約による観測を収集するために、初期未知の環境を通過する経路を計画することである。 3次元環境における適応型オンラインパスプランニングは,有効な行動の多さと未知のオクルージョンの存在から困難である。 これらの課題に対処するために,未知の3D環境における対象をマップするロボットパスを適応的に計画する,新しい深層強化学習手法を提案する。 私たちのアプローチの重要な側面は動的に構築されたグラフで、ロボットの局所的な計画動作を制限することで、新しく発見された障害物や関心対象に素早く反応することができます。 本稿では,未知環境の探索と関心の対象に関するオンライン収集データの利用のバランスをとる新たな報酬関数を提案する。 本手法は,最先端学習や非学習ベースラインと比較して,より効率的な目標検出を可能にすることを示す。 また,フォトリアリスティックシミュレータにおいて,無人航空機を用いた果樹園モニタリング手法の適用性を示す。

Autonomous robots are often employed for data collection due to their efficiency and low labour costs. A key task in robotic data acquisition is planning paths through an initially unknown environment to collect observations given platform-specific resource constraints, such as limited battery life. Adaptive online path planning in 3D environments is challenging due to the large set of valid actions and the presence of unknown occlusions. To address these issues, we propose a novel deep reinforcement learning approach for adaptively replanning robot paths to map targets of interest in unknown 3D environments. A key aspect of our approach is a dynamically constructed graph that restricts planning actions local to the robot, allowing us to quickly react to newly discovered obstacles and targets of interest. For replanning, we propose a new reward function that balances between exploring the unknown environment and exploiting online-collected data about the targets of interest. Our experiments show that our method enables more efficient target detection compared to state-of-the-art learning and non-learning baselines. We also show the applicability of our approach for orchard monitoring using an unmanned aerial vehicle in a photorealistic simulator.
翻訳日:2024-02-08 15:03:13 公開日:2024-02-07
# 重み付きモデル統合によるAIシステムの確率的検証のための統一フレームワーク

A Unified Framework for Probabilistic Verification of AI Systems via Weighted Model Integration ( http://arxiv.org/abs/2402.04892v1 )

ライセンス: Link先を確認
Paolo Morettin, Andrea Passerini and Roberto Sebastiani(参考訳) AIシステムの確率論的形式検証(PFV)はその初期段階にある。 これまで、アプローチはモデルやプロパティの特定のクラスに対するアドホックアルゴリズムに限られてきた。 本稿では,aiシステムのpfvのための統一フレームワークとして,重み付きモデル統合(wmi)を提案する。 この削減は、公平性、堅牢性、モノトニック性といった関心のある多くの性質を、強い分布的仮定をすることなく、幅広い機械学習モデル上で検証可能にする。 我々は,複数の検証タスクを1つの既製のWMIソルバで解くことによって,このアプローチの汎用性をサポートし,このフレームワークに関連するスケーラビリティの課題と研究の方向性について議論する。

The probabilistic formal verification (PFV) of AI systems is in its infancy. So far, approaches have been limited to ad-hoc algorithms for specific classes of models and/or properties. We propose a unifying framework for the PFV of AI systems based onWeighted Model Integration (WMI), which allows to frame the problem in very general terms. Crucially, this reduction enables the verification of many properties of interest, like fairness, robustness or monotonicity, over a wide range of machine learning models, without making strong distributional assumptions. We support the generality of the approach by solving multiple verification tasks with a single, off-the-shelf WMI solver, then discuss the scalability challenges and research directions related to this promising framework.
翻訳日:2024-02-08 15:02:54 公開日:2024-02-07
# 会話検索における生成ネイティブ広告の検出

Detecting Generated Native Ads in Conversational Search ( http://arxiv.org/abs/2402.04889v1 )

ライセンス: Link先を確認
Sebastian Schmidt, Ines Zelch, Janek Bevendorff, Benno Stein, Matthias Hagen, Martin Potthast(参考訳) YouChatやMicrosoft Copilotといった会話型検索エンジンは、大きな言語モデル(LLM)を使用してクエリの回答を生成する。 オーガニック検索結果から広告を分離するのではなく、このテクノロジーを使ってこれらの回答に広告を生成・統合するのはほんの少しのステップにすぎない。 この種の広告は、ネイティブ広告と製品配置を思い起こさせるものであり、どちらも非常に効果的な微妙かつマニピュレーション的な広告形態である。 情報探索者は, 将来, LLM技術の利用に直面する可能性が高く, 特に, 持続可能なビジネスモデルを開発する必要があるLCMの計算コストが高いことが考えられる。 本稿では,LLMが生成したネイティブ広告(すなわちブロック)に対する対策としても利用できるかどうかを検討する。 この目的のために,文変換器や最先端llmを,広告認識タスクで実験するために,アドインクエリと自動統合広告で生成した回答の大規模なデータセットをコンパイルする。 実験では,LLMが課題に対処する一方,文変換器は0.9以上の検出精度とリコール値を達成する。

Conversational search engines such as YouChat and Microsoft Copilot use large language models (LLMs) to generate answers to queries. It is only a small step to also use this technology to generate and integrate advertising within these answers - instead of placing ads separately from the organic search results. This type of advertising is reminiscent of native advertising and product placement, both of which are very effective forms of subtle and manipulative advertising. It is likely that information seekers will be confronted with such use of LLM technology in the near future, especially when considering the high computational costs associated with LLMs, for which providers need to develop sustainable business models. This paper investigates whether LLMs can also be used as a countermeasure against generated native ads, i.e., to block them. For this purpose we compile a large dataset of ad-prone queries and of generated answers with automatically integrated ads to experiment with fine-tuned sentence transformers and state-of-the-art LLMs on the task of recognizing the ads. In our experiments sentence transformers achieve detection precision and recall values above 0.9, while the investigated LLMs struggle with the task.
翻訳日:2024-02-08 15:02:41 公開日:2024-02-07
# カスケード深度推定とキャリブレーションによる高精度カメラベース3次元物体検出に向けて

Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration ( http://arxiv.org/abs/2402.04883v1 )

ライセンス: Link先を確認
Chaoqun Wang, Yiran Qin, Zijian Kang, Ningning Ma, and Ruimao Zhang(参考訳) 最近のカメラベースの3dオブジェクト検出は、画像から3d特徴空間への変換の精度と、3d空間内のオブジェクトの局在の精度によって制限されている。 本稿では,カメラを用いた3次元物体検出の基本的な課題である,正確な特徴持ち上げと物体位置決めのための深度情報を効果的に学習する方法を提案する。 教師付き推定モデルを用いて深度分布を直接予測する従来の手法と異なり、2つの深度認識学習パラダイムからなるカスケードフレームワークを提案する。 まず,2次元空間から3次元空間への有効性持ち上げを実現するため,相対深度情報を利用した深度推定手法を提案する。 さらに、深度校正(DC)方式では、深度軸に沿った3次元物体の局在摂動を更に調整するために深度再構成を導入する。 実際には、絶対深度最適化損失と相対深さ最適化損失の両方を用いて深さ予測の精度を高めることでdeを明示的に実現し、一方、訓練フェーズにおける深さ消音機構を介して検出トランスにdcの能力が暗黙的に埋め込まれる。 モデルトレーニング全体はエンドツーエンドの方法で行われます。 我々は,NuScenesベンチマークにおけるベースライン検出と,+2.2%/+2.7% NDS/mAPの改善による提案の有効性の評価を行い,55.9%/45.7% NDS/mAPと同等の性能を得た。 さらに,NDSを約2%改善した各種検出器を用いて,その汎用性を示す広範な実験を行った。

Recent camera-based 3D object detection is limited by the precision of transforming from image to 3D feature spaces, as well as the accuracy of object localization within the 3D space. This paper aims to address such a fundamental problem of camera-based 3D object detection: How to effectively learn depth information for accurate feature lifting and object localization. Different from previous methods which directly predict depth distributions by using a supervised estimation model, we propose a cascade framework consisting of two depth-aware learning paradigms. First, a depth estimation (DE) scheme leverages relative depth information to realize the effective feature lifting from 2D to 3D spaces. Furthermore, a depth calibration (DC) scheme introduces depth reconstruction to further adjust the 3D object localization perturbation along the depth axis. In practice, the DE is explicitly realized by using both the absolute and relative depth optimization loss to promote the precision of depth prediction, while the capability of DC is implicitly embedded into the detection Transformer through a depth denoising mechanism in the training phase. The entire model training is accomplished through an end-to-end manner. We propose a baseline detector and evaluate the effectiveness of our proposal with +2.2%/+2.7% NDS/mAP improvements on NuScenes benchmark, and gain a comparable performance with 55.9%/45.7% NDS/mAP. Furthermore, we conduct extensive experiments to demonstrate its generality based on various detectors with about +2% NDS improvements.
翻訳日:2024-02-08 15:02:21 公開日:2024-02-07
# STAR:形状中心のテクスチャ非依存表現による物体検出と6次元空間推定

STAR: Shape-focused Texture Agnostic Representations for Improved Object Detection and 6D Pose Estimation ( http://arxiv.org/abs/2402.04878v1 )

ライセンス: Link先を確認
Peter H\"onig, Stefan Thalhammer, Jean-Baptiste Weibel, Matthias Hirschmanner, Markus Vincze(参考訳) 機械学習の最近の進歩は、ロボット把持のための物体検出と6次元ポーズ推定に大きな恩恵を受けている。 しかしながら、テクスチャレスやメタリックオブジェクトは、視覚の手がかりが少なく、cnnのテクスチャバイアスが小さいため、依然として大きな課題となっている。 この問題に対処するために,cadモデルからの学習に着目し,オブジェクト形状の特徴を強調するテクスチャ非依存アプローチを提案する。 学習形状特徴に焦点を合わせるために、トレーニングデータのレンダリング中にテクスチャをランダム化する。 テクスチャをノイズとして扱うことにより、実世界のオブジェクトインスタンスやトレーニングデータ生成時の最終的な外観の必要性がなくなる。 TLESSとITODDデータセットは、特にロボット工学の工業的設定のために作成され、テクスチャレスと金属の物体を特徴とする。 テクスチャ非依存性はまた、画像ノイズ、動きのぼかし、明るさの変化などの画像摂動に対する堅牢性を高める。 コードとデータセットはgithub.com/hoenigpeter/randomized_texturingで公開されている。

Recent advances in machine learning have greatly benefited object detection and 6D pose estimation for robotic grasping. However, textureless and metallic objects still pose a significant challenge due to fewer visual cues and the texture bias of CNNs. To address this issue, we propose a texture-agnostic approach that focuses on learning from CAD models and emphasizes object shape features. To achieve a focus on learning shape features, the textures are randomized during the rendering of the training data. By treating the texture as noise, the need for real-world object instances or their final appearance during training data generation is eliminated. The TLESS and ITODD datasets, specifically created for industrial settings in robotics and featuring textureless and metallic objects, were used for evaluation. Texture agnosticity also increases the robustness against image perturbations such as imaging noise, motion blur, and brightness changes, which are common in robotics applications. Code and datasets are publicly available at github.com/hoenigpeter/randomized_texturing.
翻訳日:2024-02-08 15:01:54 公開日:2024-02-07
# グループ化損失から見たLCMの再検討

Reconfidencing LLMs from the Grouping Loss Perspective ( http://arxiv.org/abs/2402.04957v1 )

ライセンス: Link先を確認
Lihu Chen, Alexandre Perez-Lebel, Fabian M. Suchanek, Ga\"el Varoquaux(参考訳) ChatGPTやLLaMAを含むLarge Language Models (LLMs) は、自信のある音調で幻覚的な回答を生じさせる。 信頼性スコアを抽出し、校正する試みは有用であることが証明されているが、近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。 本研究では,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築する。 実験の結果、自信過剰になりがちである。 さらに,質問対象者の国籍によっては,他の回答よりも過度に信頼されていることが明らかとなった。 不確実性量子化理論では、これはグループ化損失である。 そこで本稿では, キャリブレーションだけでなく, グループ化損失を解消し, LLMを再構成する手法を提案する。 LLMは、再構成後の応答の精度と信頼性の整合性の向上を示す。

Large Language Models (LLMs), including ChatGPT and LLaMA, are susceptible to generating hallucinated answers in a confident tone. While efforts to elicit and calibrate confidence scores have proven useful, recent findings show that controlling uncertainty must go beyond calibration: predicted scores may deviate significantly from the actual posterior probabilities due to the impact of grouping loss. In this work, we construct a new evaluation dataset derived from a knowledge base to assess confidence scores given to answers of Mistral and LLaMA. Experiments show that they tend to be overconfident. Further, we show that they are more overconfident on some answers than others, \emph{eg} depending on the nationality of the person in the query. In uncertainty-quantification theory, this is grouping loss. To address this, we propose a solution to reconfidence LLMs, canceling not only calibration but also grouping loss. The LLMs, after the reconfidencing process, indicate improved confidence alignment with the accuracy of their responses.
翻訳日:2024-02-08 14:52:05 公開日:2024-02-07
# 知識集約的コンテキストにおけるチャットボット:インテントとllmベースのシステムの比較

Chatbots in Knowledge-Intensive Contexts: Comparing Intent and LLM-Based Systems ( http://arxiv.org/abs/2402.04955v1 )

ライセンス: Link先を確認
Samuel Kernan Freire, Chaofan Wang, Evangelos Niforatos(参考訳) cognitive assistants(ca)は、知識集約的なタスクで人間労働者にコンテキスト認識サポートを提供するチャットボットである。 従来、認知アシスタントはユーザーの意図や会話パターンを事前に定義する特定の方法で応答する。 しかし、この厳格さは自然言語の多様性をうまく処理しない。 自然言語処理(NLP)の最近の進歩は、GPT-4、Llama2、Geminiのような大きな言語モデル(LLM)をパワーアップすることで、CAがより柔軟で人間的な方法で会話できるようになる。 しかしながら、追加の自由度は、特に正確性が重要である知識集約的な文脈において、予期せぬ結果をもたらす可能性がある。 これらの文脈でLCMを使用する可能性を評価するための予備的なステップとして,LCMベースのCAと対話効率,ユーザエクスペリエンス,ワークロード,ユーザビリティに関する意図に基づくシステムを比較した。 その結果,LCMをベースとしたCAは,インテントベースシステムよりもユーザエクスペリエンス,タスク完了率,ユーザビリティ,評価パフォーマンスが向上していることが判明した。

Cognitive assistants (CA) are chatbots that provide context-aware support to human workers in knowledge-intensive tasks. Traditionally, cognitive assistants respond in specific ways to predefined user intents and conversation patterns. However, this rigidness does not handle the diversity of natural language well. Recent advances in natural language processing (NLP), powering large language models (LLM) such as GPT-4, Llama2, and Gemini, could enable CAs to converse in a more flexible, human-like manner. However, the additional degrees of freedom may have unforeseen consequences, especially in knowledge-intensive contexts where accuracy is crucial. As a preliminary step to assessing the potential of using LLMs in these contexts, we conducted a user study comparing an LLM-based CA to an intent-based system regarding interaction efficiency, user experience, workload, and usability. This revealed that LLM-based CAs exhibited better user experience, task completion rate, usability, and perceived performance than intent-based systems, suggesting that switching NLP techniques should be investigated further.
翻訳日:2024-02-08 14:51:47 公開日:2024-02-07
# カルマンフィルタ制約を用いたポーズ推定のための4次元変形部モデル

4-Dimensional deformation part model for pose estimation using Kalman filter constraints ( http://arxiv.org/abs/2402.04953v1 )

ライセンス: Link先を確認
Enrique Martinez-Berti, Antonio-Jose Sanchez-Salmeron, Carlos Ricolfe-Viala(参考訳) 本稿の主目的は,4次元変形部モデル部分解にカルマンフィルタを付加した場合のポーズ推定精度への影響を分析することである。 実験は、この手法が最先端の手法と比較してポーズ推定精度を向上し、カルマンフィルタがこの精度を向上させることを示す2つのデータセットで実行される。

The main goal of this article is to analyze the effect on pose estimation accuracy when using a Kalman filter added to 4-dimensional deformation part model partial solutions. The experiments run with two data sets showing that this method improves pose estimation accuracy compared with state-of-the-art methods and that a Kalman filter helps to increase this accuracy.
翻訳日:2024-02-08 14:51:27 公開日:2024-02-07
# 因果探索アルゴリズム評価のためのマルコフ等価クラスに関するメトリクス

Metrics on Markov Equivalence Classes for Evaluating Causal Discovery Algorithms ( http://arxiv.org/abs/2402.04952v1 )

ライセンス: Link先を確認
Jonas Wahl, Jakob Runge(参考訳) 多くの最先端の因果発見手法は、データ生成プロセスの基礎となる因果グラフのグラフィカルな分離と接続ステートメントをエンコードする出力グラフの生成を目的としている。 本研究では,合成データに対する因果的発見法の評価には,その方法の出力の分離/結合がどの程度基礎的真理と一致しているかを測定することによって,この明示的な目標がどの程度うまく達成されるかの分析を含めるべきである。 そこで本研究では,二つの因果グラフの分離・連結の差を正確に把握できない既定評価尺度を示し,s/c距離,マルコフ距離,忠実度距離という3つの新しい距離尺度を導入する。 おもちゃの例、実験実験、擬似コードで理論解析を補完する。

Many state-of-the-art causal discovery methods aim to generate an output graph that encodes the graphical separation and connection statements of the causal graph that underlies the data-generating process. In this work, we argue that an evaluation of a causal discovery method against synthetic data should include an analysis of how well this explicit goal is achieved by measuring how closely the separations/connections of the method's output align with those of the ground truth. We show that established evaluation measures do not accurately capture the difference in separations/connections of two causal graphs, and we introduce three new measures of distance called s/c-distance, Markov distance and Faithfulness distance that address this shortcoming. We complement our theoretical analysis with toy examples, empirical experiments and pseudocode.
翻訳日:2024-02-08 14:51:20 公開日:2024-02-07
# 自動ゲームベータテストへのアプローチ

An approach to automated videogame beta testing ( http://arxiv.org/abs/2402.04938v1 )

ライセンス: Link先を確認
Jennifer Hern\'andez-B\'ecares, Luis Costero, Pedro Pablo G\'omez-Mart\'in(参考訳) 1970年代と1980年代に開発されたビデオゲームは、デザイナー、アーティスト、プログラマの役割を担った1人の人物によって数ヶ月の間に作られた控えめなプログラムであった。 それ以来、ビデオゲームは数百万ドル産業へと発展してきた。 現在、AAAゲーム開発には、数年にわたって何百人もの人々が協力している。 管理とエンジニアリングの要件は同じペースで変わりました。 多くのプロセスは時間をかけて適応されてきたが、これは品質保証タスクには当てはまらない。 本稿では,このベータテストを自動化するアプローチを提案する。

Videogames developed in the 1970s and 1980s were modest programs created in a couple of months by a single person, who played the roles of designer, artist and programmer. Since then, videogames have evolved to become a multi-million dollar industry. Today, AAA game development involves hundreds of people working together over several years. Management and engineering requirements have changed at the same pace. Although many of the processes have been adapted over time, this is not quite true for quality assurance tasks, which are still done mainly manually by human beta testers due to the specific peculiarities of videogames. This paper presents an approach to automate this beta testing.
翻訳日:2024-02-08 14:51:06 公開日:2024-02-07
# 効果的な反断熱駆動による量子制御

Quantum control by effective counterdiabatic driving ( http://arxiv.org/abs/2402.04936v1 )

ライセンス: Link先を確認
Francesco Petiziol, Florian Mintert, Sandro Wimberger(参考訳) 我々は,少数レベルの量子システムにおいて,短絡から断熱へのショートカットに基づく量子制御プロトコルの体系設計手法を概説する。 アディバティックダイナミクスは、時間依存の反ディバティック補正を模倣する制御ハミルトニアンに高周波変調を導入することで加速される。 本稿では,量子状態伝達と量子ゲートの高忠実性実現のために,超伝導回路からリドバーグ原子に至るまでのプラットフォームにおいて,効果的な対断駆動に基づく多くの応用例を示す。

We review a scheme for the systematic design of quantum control protocols based on shortcuts to adiabaticity in few-level quantum systems. The adiabatic dynamics is accelerated by introducing high-frequency modulations in the control Hamiltonian, which mimic a time-dependent counterdiabatic correction. We present a number of applications for the high-fidelity realization of quantum state transfers and quantum gates based on effective counterdiabatic driving, in platforms ranging from superconducting circuits to Rydberg atoms.
翻訳日:2024-02-08 14:50:57 公開日:2024-02-07
# コンテキストレスバンドのオンライン学習へのベイズ的アプローチと公衆衛生への応用

A Bayesian Approach to Online Learning for Contextual Restless Bandits with Applications to Public Health ( http://arxiv.org/abs/2402.04933v1 )

ライセンス: Link先を確認
Biyonka Liang, Lily Xu, Aparna Taneja, Milind Tambe, Lucas Janson(参考訳) Restless Multi-armed bandits (RMAB) は公衆衛生介入プログラムにおける逐次的資源配分をモデル化するために用いられる。 これらの設定では、基礎となる遷移力学は、しばしば事前の未知であり、オンライン強化学習(RL)を必要とする。 しかし、RMABのオンラインRLにおける既存の手法は、文脈情報や非定常性のような現実世界の公衆衛生アプリケーションにしばしば存在するプロパティを組み込むことはできない。 本稿では,bayesian learning for context rmabs (bcor)を提案する。これはrmabsのオンラインrlアプローチであり,bayesian modelingのテクニックとトンプソンサンプリングを新規に組み合わせ,コンテキストや非定常rmabsといった複雑なrmab設定を柔軟にモデル化する。 我々のアプローチの重要な貢献は、比較的短い時間軸で予算制限された設定で、未知のrmab遷移ダイナミクスを素早く学ぶために腕内と腕間の共有情報を活用する能力です。 実験により,BCoRは,インドにおける実際の公衆衛生キャンペーンから構築したものを含む,様々な実験環境において,既存のアプローチよりもはるかに高い有限サンプル性能を実現していることを示す。

Restless multi-armed bandits (RMABs) are used to model sequential resource allocation in public health intervention programs. In these settings, the underlying transition dynamics are often unknown a priori, requiring online reinforcement learning (RL). However, existing methods in online RL for RMABs cannot incorporate properties often present in real-world public health applications, such as contextual information and non-stationarity. We present Bayesian Learning for Contextual RMABs (BCoR), an online RL approach for RMABs that novelly combines techniques in Bayesian modeling with Thompson sampling to flexibly model a wide range of complex RMAB settings, such as contextual and non-stationary RMABs. A key contribution of our approach is its ability to leverage shared information within and between arms to learn unknown RMAB transition dynamics quickly in budget-constrained settings with relatively short time horizons. Empirically, we show that BCoR achieves substantially higher finite-sample performance than existing approaches over a range of experimental settings, including one constructed from a real-world public health campaign in India.
翻訳日:2024-02-08 14:50:49 公開日:2024-02-07
# 拡散モデルのためのブルーノイズ

Blue noise for diffusion models ( http://arxiv.org/abs/2402.04930v1 )

ライセンス: Link先を確認
Xingchang Huang, Corentin Sala\"un, Cristina Vasconcelos, Christian Theobalt, Cengiz \"Oztireli, Gurprit Singh(参考訳) 既存の拡散モデルのほとんどは、全ての時間ステップのトレーニングとサンプリングにガウスノイズを使用するが、ノイズネットワークによって再構成された周波数コンテンツは最適ではない。 コンピュータグラフィックスにおける相関ノイズの多様な応用にもかかわらず、トレーニングプロセスを改善する可能性は過小評価されている。 本稿では,画像内および画像間の相関ノイズを考慮した拡散モデルについて紹介する。 より具体的には、相関雑音を訓練プロセスに組み込むための時間変動雑音モデルと、相関雑音マスクの高速生成法を提案する。 本モデルは決定論的拡散モデルに基づいて構築され,ガウス白色(ランダム)ノイズのみを用いた場合と比較して,青雑音を用いて生成品質を向上させる。 さらに,1つのミニバッチ内に画像間の相関を導入し,勾配流を改善する。 提案手法を用いて,様々なデータセットについて定性的および定量的評価を行い,既存の決定論的拡散モデルよりもfidメトリックを用いて異なるタスクの改善を実現する。

Most of the existing diffusion models use Gaussian noise for training and sampling across all time steps, which may not optimally account for the frequency contents reconstructed by the denoising network. Despite the diverse applications of correlated noise in computer graphics, its potential for improving the training process has been underexplored. In this paper, we introduce a novel and general class of diffusion models taking correlated noise within and across images into account. More specifically, we propose a time-varying noise model to incorporate correlated noise into the training process, as well as a method for fast generation of correlated noise mask. Our model is built upon deterministic diffusion models and utilizes blue noise to help improve the generation quality compared to using Gaussian white (random) noise only. Further, our framework allows introducing correlation across images within a single mini-batch to improve gradient flow. We perform both qualitative and quantitative evaluations on a variety of datasets using our method, achieving improvements on different tasks over existing deterministic diffusion models in terms of FID metric.
翻訳日:2024-02-08 14:50:24 公開日:2024-02-07
# 拡散誘導音源データ生成によるソースフリー領域適応

Source-Free Domain Adaptation with Diffusion-Guided Source Data Generation ( http://arxiv.org/abs/2402.04929v1 )

ライセンス: Link先を確認
Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha(参考訳) 本稿では,Diffusion Models for Source-Free Domain Adaptation (DM-SFDA) の一般化能力を活用する新しい手法を提案する。 DM-SFDA法では,予め訓練したテキスト・画像拡散モデルを微調整し,対象画像の特徴を用いてソース領域画像を生成し,拡散過程を導出する。 具体的には、事前学習した拡散モデルを微調整し、エントロピーを最小化し、事前学習したソースモデルの信頼性を最大化するソースサンプルを生成する。 次に,確立された教師なし領域適応手法を適用し,生成されたソース画像と対象領域データを整合させる。 office-31, office-home, visdaなど,さまざまなデータセットにわたる包括的な実験を通じて,我々のアプローチを検証する。 その結果,SFDA のパフォーマンスが著しく向上し,コンテキストに関連のある領域固有画像の生成における拡散モデルの可能性が示された。

This paper introduces a novel approach to leverage the generalizability capability of Diffusion Models for Source-Free Domain Adaptation (DM-SFDA). Our proposed DM-SFDA method involves fine-tuning a pre-trained text-to-image diffusion model to generate source domain images using features from the target images to guide the diffusion process. Specifically, the pre-trained diffusion model is fine-tuned to generate source samples that minimize entropy and maximize confidence for the pre-trained source model. We then apply established unsupervised domain adaptation techniques to align the generated source images with target domain data. We validate our approach through comprehensive experiments across a range of datasets, including Office-31, Office-Home, and VisDA. The results highlight significant improvements in SFDA performance, showcasing the potential of diffusion models in generating contextually relevant, domain-specific images.
翻訳日:2024-02-08 14:50:07 公開日:2024-02-07
# 2つの取引はバッフルされていない:有理勾配マッチングによる凝縮グラフ

Two Trades is not Baffled: Condense Graph via Crafting Rational Gradient Matching ( http://arxiv.org/abs/2402.04924v1 )

ライセンス: Link先を確認
Tianle Zhang and Yuchen Zhang and Kun Wang and Kai Wang and Beining Yang and Kaipeng Zhang and Wenqi Shao and Ping Liu and Joey Tianyi Zhou and Yang You(参考訳) 大規模グラフのトレーニングはグラフ表現学習で目覚ましい成果を上げているが、そのコストとストレージには懸念が高まっている。 最も有望な方向の1つとして、グラフ凝縮法は勾配マッチングを用いてこれらの問題に対処し、全グラフをより簡潔で情報豊富な合成集合に凝縮することを目指している。 奨励的ではあるが、これらの戦略は主に勾配の一致方向を強調し、訓練軌道のずれにつながる。 このような偏差は、凝縮相と評価相の違いによってさらに拡大され、累積誤差となり、凝縮グラフの性能に悪影響を及ぼす。 そこで本研究では,データセットの特徴分布に近い最適化された出発点と勾配マッチングのより洗練された戦略を提供する,新しいグラフ凝縮法である \textbf{c}raf\textbf{t}ing \textbf{r}ationa\textbf{l} track (\textbf{ctrl})を提案する。 理論的には、CTRLは凝縮グラフの性能に対する累積誤差の影響を効果的に中和することができる。 ctrlの有効性をサポートするために,様々なグラフデータセットと下流タスクに関する広範な実験を行った。 コードはhttps://github.com/NUS-HPC-AI-Lab/CTRLで公開されている。

Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have raised growing concerns. As one of the most promising directions, graph condensation methods address these issues by employing gradient matching, aiming to condense the full graph into a more concise yet information-rich synthetic set. Though encouraging, these strategies primarily emphasize matching directions of the gradients, which leads to deviations in the training trajectories. Such deviations are further magnified by the differences between the condensation and evaluation phases, culminating in accumulated errors, which detrimentally affect the performance of the condensed graphs. In light of this, we propose a novel graph condensation method named \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} trajectory (\textbf{CTRL}), which offers an optimized starting point closer to the original dataset's feature distribution and a more refined strategy for gradient matching. Theoretically, CTRL can effectively neutralize the impact of accumulated errors on the performance of condensed graphs. We provide extensive experiments on various graph datasets and downstream tasks to support the effectiveness of CTRL. Code is released at https://github.com/NUS-HPC-AI-Lab/CTRL.
翻訳日:2024-02-08 14:49:52 公開日:2024-02-07
# ベイズ最適化のためのボロノイ候補

Voronoi Candidates for Bayesian Optimization ( http://arxiv.org/abs/2402.04922v1 )

ライセンス: Link先を確認
Nathan Wycoff, John W. Smith, Annie S. Booth, Robert B. Gramacy(参考訳) ベイズ最適化(BO)はブラックボックス関数を効率的に最適化するためのエレガントなアプローチを提供する。 しかし、獲得基準は独自の挑戦的な内部最適化を要求し、大きなオーバーヘッドを引き起こす可能性がある。 多くの実践的な BO 法、特に高次元では、取得関数の形式的かつ連続的な最適化を求め、代わりに有限個の空間充足候補を離散的に探索する。 ここでは、現在の設計点のボロノイ・テッセルレーションの境界上にある候補を用いて、2つ以上の設計点に等しくなるようにすることを提案する。 テッセルレーションを明示的に生成することなく,Voronoi境界を直接サンプリングすることで,大規模な設計を高次元に収容することで,効率的な実装戦略について議論する。 提案手法は,ガウス過程によって最適化されたテスト問題に対して,精度を損なうことなく,複数スタート連続探索の実行時間を大幅に改善する。

Bayesian optimization (BO) offers an elegant approach for efficiently optimizing black-box functions. However, acquisition criteria demand their own challenging inner-optimization, which can induce significant overhead. Many practical BO methods, particularly in high dimension, eschew a formal, continuous optimization of the acquisition function and instead search discretely over a finite set of space-filling candidates. Here, we propose to use candidates which lie on the boundary of the Voronoi tessellation of the current design points, so they are equidistant to two or more of them. We discuss strategies for efficient implementation by directly sampling the Voronoi boundary without explicitly generating the tessellation, thus accommodating large designs in high dimension. On a battery of test problems optimized via Gaussian processes with expected improvement, our proposed approach significantly improves the execution time of a multi-start continuous search without a loss in accuracy.
翻訳日:2024-02-08 14:49:27 公開日:2024-02-07
# 必要なものは2発か? 乳房超音波画像分割におけるラベル効率の検討

Is Two-shot All You Need? A Label-efficient Approach for Video Segmentation in Breast Ultrasound ( http://arxiv.org/abs/2402.04921v1 )

ライセンス: Link先を確認
Jiajun Zeng, Ruobing Huang, Dong Ni(参考訳) 乳房超音波(bus)ビデオからの乳腺病変分画は早期診断と治療に有用であった。 既存のビデオオブジェクトセグメンテーション(VOS)メソッドは、しばしば医学的なデータセットにはアクセスできない高密度アノテーションを必要とする。 さらに、累積的なエラーと明確な時空認識の欠如に苦しむ。 本研究では,BUSビデオセグメンテーションのための新しい2ショットトレーニングパラダイムを提案する。 自由範囲の時空一貫性をキャプチャできるだけでなく、ソース依存の強化スキームも利用できる。 このラベル効率のよい学習フレームワークは、難しい社内のバスビデオデータセット上で検証される。 その結果、トレーニングラベルが1.9%しか与えられていないものに比べてパフォーマンスが向上した。

Breast lesion segmentation from breast ultrasound (BUS) videos could assist in early diagnosis and treatment. Existing video object segmentation (VOS) methods usually require dense annotation, which is often inaccessible for medical datasets. Furthermore, they suffer from accumulative errors and a lack of explicit space-time awareness. In this work, we propose a novel two-shot training paradigm for BUS video segmentation. It not only is able to capture free-range space-time consistency but also utilizes a source-dependent augmentation scheme. This label-efficient learning framework is validated on a challenging in-house BUS video dataset. Results showed that it gained comparable performance to the fully annotated ones given only 1.9% training labels.
翻訳日:2024-02-08 14:49:11 公開日:2024-02-07
# 暗黙の談話関係のアノテーションを促す

Prompting Implicit Discourse Relation Annotation ( http://arxiv.org/abs/2402.04918v1 )

ライセンス: Link先を確認
Frances Yung, Mansoor Ahmad, Merel Scholman, Vera Demberg(参考訳) ChatGPTのような事前訓練済みの大規模言語モデルは、教師なしの様々な推論タスクにおける優れたパフォーマンスをアーカイブし、クラウドソーシング作業者よりも優れていた。 それにもかかわらず、ChatGPTの暗黙的談話関係分類のタスクにおけるパフォーマンスは、標準的な多重選択問題によって引き起こされ、まだ満足には程遠いものであり、最先端の教師付きアプローチよりもかなり劣っている。 本研究は,ChatGPTの談話関係認識を改善するためのいくつかの証明されたプロンプト技術について検討する。 特に,多数の抽象ラベルを含む分類タスクを,より小さなサブタスクに分割する実験を行った。 それにもかかわらず、実験結果から、高度なプロンプトエンジニアリングであっても推論精度がほとんど変化しないことが示され、暗黙の談話関係分類がゼロショットや少数ショット設定下ではまだ解決できないことが示唆された。

Pre-trained large language models, such as ChatGPT, archive outstanding performance in various reasoning tasks without supervised training and were found to have outperformed crowdsourcing workers. Nonetheless, ChatGPT's performance in the task of implicit discourse relation classification, prompted by a standard multiple-choice question, is still far from satisfactory and considerably inferior to state-of-the-art supervised approaches. This work investigates several proven prompting techniques to improve ChatGPT's recognition of discourse relations. In particular, we experimented with breaking down the classification task that involves numerous abstract labels into smaller subtasks. Nonetheless, experiment results show that the inference accuracy hardly changes even with sophisticated prompt engineering, suggesting that implicit discourse relation classification is not yet resolvable under zero-shot or few-shot settings.
翻訳日:2024-02-08 14:49:02 公開日:2024-02-07
# moco: 組合せ最適化のための学習可能なメタオプティマイザ

Moco: A Learnable Meta Optimizer for Combinatorial Optimization ( http://arxiv.org/abs/2402.04915v1 )

ライセンス: Link先を確認
Tim Dernedde, Daniela Thyssens, S\"oren Dittrich, Maximilan Stubbemann, Lars Schmidt-Thieme(参考訳) 関連する組合せ最適化問題(COP)はしばしばNPハードである。 それらは、主に手作りのヒューリスティックスによって研究されてきたが、ニューラルネットワークの進歩は、データからヒューリスティックスを学ぶ一般的な方法の開発を動機づけている。 多くのアプローチでは、ニューラルネットワークを使用してソリューションを直接構築するが、推論時に既に構築されたソリューションに基づいて、さらなる改善が制限されている。 我々のアプローチであるMocoは、現在の検索状態から抽出された特徴に基づいて解構築手順を更新するグラフニューラルネットワークを学習する。 このメタトレーニング手順は、検索予算などの情報を与える検索手順中に見つかる、全体的な最良のソリューションをターゲットとしている。 これにより、Mocoは様々な計算予算など様々な状況に適応できる。 Mocoは完全に学習可能なメタオプティマイザで、問題固有のローカル検索や分解を一切利用しない。 我々は、旅行セールスマン問題(TSP)と最大独立セット(MIS)でMocoをテストし、MISにおける他のアプローチよりも優れており、特にTSPにおいて総合的に競合していることを示す。

Relevant combinatorial optimization problems (COPs) are often NP-hard. While they have been tackled mainly via handcrafted heuristics in the past, advances in neural networks have motivated the development of general methods to learn heuristics from data. Many approaches utilize a neural network to directly construct a solution, but are limited in further improving based on already constructed solutions at inference time. Our approach, Moco, learns a graph neural network that updates the solution construction procedure based on features extracted from the current search state. This meta training procedure targets the overall best solution found during the search procedure given information such as the search budget. This allows Moco to adapt to varying circumstances such as different computational budgets. Moco is a fully learnable meta optimizer that does not utilize any problem specific local search or decomposition. We test Moco on the Traveling Salesman Problem (TSP) and Maximum Independent Set (MIS) and show that it outperforms other approaches on MIS and is overall competitive on the TSP, especially outperforming related approaches, partially even if they use additional local search.
翻訳日:2024-02-08 14:48:44 公開日:2024-02-07
# オートエンコーダによる構造化データの圧縮:非線形性と深さの利点

Compression of Structured Data with Autoencoders: Provable Benefit of Nonlinearities and Depth ( http://arxiv.org/abs/2402.05013v1 )

ライセンス: Link先を確認
Kevin K\"ogler, Alexander Shevchenko, Hamed Hassani, Marco Mondelli(参考訳) オートエンコーダは、機械学習と損失の多いデータ圧縮の多くの実証的な分野において顕著なモデルである。 しかし、基礎的な理論的疑問は、浅い2層の設定でも答えられていない。 特に、浅いオートエンコーダは、基盤となるデータ分布の構造をどの程度捉えていますか? スパースガウスデータの1ビット圧縮の原型の場合、勾配降下が入力のスパース構造を完全に無視する解に収束することを証明する。 つまり、アルゴリズムのパフォーマンスは、ガウスのソースを圧縮しているのと同じで、スパース性はない。 一般的なデータ分布に対して、勾配降下最小化器の形状における位相遷移現象の証明を、データ空間の関数として与える: 臨界空間レベル以下では、最小化器はランダムに(非スパースデータの圧縮のように)回転する。 最後に、近似メッセージパッシングアルゴリズムとの接続を利用して、スパースデータの圧縮のためにガウス性能を改善する方法を示す: 浅いアーキテクチャにデノナイジング関数を追加すると、既に損失を確実に低減でき、適切なマルチ層デコーダがさらなる改善をもたらす。 我々は,CIFAR-10 や MNIST などの画像データセットを用いて,この結果を検証する。

Autoencoders are a prominent model in many empirical branches of machine learning and lossy data compression. However, basic theoretical questions remain unanswered even in a shallow two-layer setting. In particular, to what degree does a shallow autoencoder capture the structure of the underlying data distribution? For the prototypical case of the 1-bit compression of sparse Gaussian data, we prove that gradient descent converges to a solution that completely disregards the sparse structure of the input. Namely, the performance of the algorithm is the same as if it was compressing a Gaussian source - with no sparsity. For general data distributions, we give evidence of a phase transition phenomenon in the shape of the gradient descent minimizer, as a function of the data sparsity: below the critical sparsity level, the minimizer is a rotation taken uniformly at random (just like in the compression of non-sparse data); above the critical sparsity, the minimizer is the identity (up to a permutation). Finally, by exploiting a connection with approximate message passing algorithms, we show how to improve upon Gaussian performance for the compression of sparse data: adding a denoising function to a shallow architecture already reduces the loss provably, and a suitable multi-layer decoder leads to a further improvement. We validate our findings on image datasets, such as CIFAR-10 and MNIST.
翻訳日:2024-02-08 14:41:28 公開日:2024-02-07
# 光格子における大規模原子配列の連続操作

Continuous operation of large-scale atom arrays in optical lattices ( http://arxiv.org/abs/2402.04994v1 )

ライセンス: Link先を確認
Flavien Gyger, Maximilian Ammenwerth, Renhao Tao, Hendrik Timme, Stepan Snigirev, Immanuel Bloch, Johannes Zeiher(参考訳) 集積された中性原子配列のサイズを光学格子や光トワイザーに閉じ込めるスケーリングは、量子シミュレーションから量子メトロロジーまで、多くのアプリケーションで実現可能なステップである。 しかし、準備時間はシステムサイズとともに増加し、確率的に装填された光学トラップからの大型配列のボトムアップアセンブリにおいて深刻なボトルネックとなる。 そこで本研究では,原子を連続的にリロードし,配列に付加しながら,実験走行中の原子をリサイクルすることで,このボトルネックを回避する新しい手法を示す。 このアプローチを用いて,1000以上の原子を光学格子に格納し,2.5秒周期で連続的に再充填し,各周期で約130個の原子を再ロードした密充填配列を実現する。 さらに,1サイクルから次サイクルに失われる原子をリロードするだけで,そのような大きな配列を連続的に維持できることを示す。 我々のアプローチは、数千個の原子を連続操作で含む大きな秩序原子配列を持つ量子科学への道を開く。

Scaling the size of assembled neutral-atom arrays trapped in optical lattices or optical tweezers is an enabling step for a number of applications ranging from quantum simulations to quantum metrology. However, preparation times increase with system size and constitute a severe bottleneck in the bottom-up assembly of large ordered arrays from stochastically loaded optical traps. Here, we demonstrate a novel method to circumvent this bottleneck by recycling atoms from one experimental run to the next, while continuously reloading and adding atoms to the array. Using this approach, we achieve densely-packed arrays with more than 1000 atoms stored in an optical lattice, continuously refilled with a net 2.5 seconds cycle time and about 130 atoms reloaded during each cycle. Furthermore, we show that we can continuously maintain such large arrays by simply reloading atoms that are lost from one cycle to the next. Our approach paves the way towards quantum science with large ordered atomic arrays containing thousands of atoms in continuous operation.
翻訳日:2024-02-08 14:41:06 公開日:2024-02-07
# 量子回路出力の教師あり学習における課題と機会

Challenges and opportunities in the supervised learning of quantum circuit outputs ( http://arxiv.org/abs/2402.04992v1 )

ライセンス: Link先を確認
Simone Cantori and Sebastiano Pilati(参考訳) 近年、ディープニューラルネットワークは関連するランダム量子回路の出力特性を予測できることが証明されており、例えばテンソルネットワーク法のような直接シミュレーション手法の代わりに量子コンピュータをエミュレートする戦略を示している。 しかし、この代替戦略の到達範囲はまだ明確ではない。 本稿では,可変量子アルゴリズムでよく用いられる回路の出力期待値,すなわちランダムな単一量子ビット回転と交換されたcnotゲートの層によって形成される回路について,ニューラルネットワークが学習できるかどうかについて検討する。 一方,教師付き学習の計算コストはランダムな角度の層間分散に比例して指数関数的にスケールすることがわかった。 これにより、量子コンピュータが古典的ニューラルネットワークを容易に上回る状態に入ることができる。 一方、ビット間角度の変動のみを特徴とする回路は容易にエミュレートできる。 実際、適切なスケーラブルな設計のおかげで、ニューラルネットワークはトレーニングに使用するものよりも大きく深い回路の出力を正確に予測し、状態ベクトルアルゴリズムとテンソルネットワークアルゴリズムの両方を考慮して、最も一般的なシミュレーションライブラリでは難解な回路サイズにまで達する。 我々は、量子デバイスと新しい古典的アルゴリズムの将来のベンチマークに使用されるデータテストのレポジトリを提供する。

Recently, deep neural networks have proven capable of predicting some output properties of relevant random quantum circuits, indicating a strategy to emulate quantum computers alternative to direct simulation methods such as, e.g., tensor-network methods. However, the reach of this alternative strategy is not yet clear. Here we investigate if and to what extent neural networks can learn to predict the output expectation values of circuits often employed in variational quantum algorithms, namely, circuits formed by layers of CNOT gates alternated with random single-qubit rotations. On the one hand, we find that the computational cost of supervised learning scales exponentially with the inter-layer variance of the random angles. This allows entering a regime where quantum computers can easily outperform classical neural networks. On the other hand, circuits featuring only inter-qubit angle variations are easily emulated. In fact, thanks to a suitable scalable design, neural networks accurately predict the output of larger and deeper circuits than those used for training, even reaching circuit sizes which turn out to be intractable for the most common simulation libraries, considering both state-vector and tensor-network algorithms. We provide a repository of testing data in this regime, to be used for future benchmarking of quantum devices and novel classical algorithms.
翻訳日:2024-02-08 14:40:50 公開日:2024-02-07
# priorboost:集合応答から学習するための適応アルゴリズム

PriorBoost: An Adaptive Algorithm for Learning from Aggregate Responses ( http://arxiv.org/abs/2402.04987v1 )

ライセンス: Link先を確認
Adel Javanmard, Matthew Fahrbach, Vahab Mirrokni(参考訳) 本研究は集約応答から学習するアルゴリズムを研究する。 イベントレベルの損失関数に対する集約セット(文献ではバッグと呼ばれる)の構築に焦点を当てる。 線形回帰および一般化線形モデル (GLMs) に対して、最適バッグング問題は1次元サイズ制約付き$k$-meansクラスタリングに還元されることを示す。 さらに, ランダムバッグ上のキュレートバッグの利用の利点を理論的に定量化する。 次に,モデル品質を改善するために,個々の応答に対する均一性が増すサンプルの袋を適応的に形成するpriorboostアルゴリズムを提案する。 また,非適応型アルゴリズムとは対照的に,イベントレベルの予測に対して,prediorboostが最適モデル品質を定期的に達成することを示す広範な実験を行った。

This work studies algorithms for learning from aggregate responses. We focus on the construction of aggregation sets (called bags in the literature) for event-level loss functions. We prove for linear regression and generalized linear models (GLMs) that the optimal bagging problem reduces to one-dimensional size-constrained $k$-means clustering. Further, we theoretically quantify the advantage of using curated bags over random bags. We then propose the PriorBoost algorithm, which adaptively forms bags of samples that are increasingly homogeneous with respect to (unobserved) individual responses to improve model quality. We study label differential privacy for aggregate learning, and we also provide extensive experiments showing that PriorBoost regularly achieves optimal model quality for event-level predictions, in stark contrast to non-adaptive algorithms.
翻訳日:2024-02-08 14:40:29 公開日:2024-02-07
# 安定-不安定遷移を含む開結合スカラー場理論による熱輸送

Heat transport through an open coupled scalar field theory hosting stability-to-instability transition ( http://arxiv.org/abs/2402.04986v1 )

ライセンス: Link先を確認
T. R. Vishnu and Dibyendu Roy(参考訳) 1次元開結合スカラー場理論を用いて熱輸送について検討し、境界における熱浴に接続された高調波発振器のネットワークとして表現する。 ネットワークの非エルミート力学行列は、スカラー場間の結合強度が増加するにつれて、例外点において安定性と不安定性の遷移を行う。 不安定な状態にある開ネットワークは、反転発振器モードの出現によって特徴付けられるが、定常状態が得られず、一般的なバスカップリングでは熱伝導はアンバウンドとなる。 本研究では,両端の2つのフィールドに同一の強度で1つの浴を接続する独自の浴結合を設計した。 この構成は不安定な状態であっても、ネットワーク内で一定の定常な熱伝導をもたらす。 また,各境界における2つの場と2つの別々の浴場を接続する一般的な浴場カップリングについても検討した。 本研究では, 高温の古典的熱電流の解析式をエッジの異なるバスカップリングに導出し, 比較する。 さらに,低温の量子熱電流の温度依存性を異なるケースで決定する。 本研究は、動的行列が非エルミートハミルトニアンに類似し、エキサイティングな位相位相相をホストする様々な二次エルミートボソニックモデルの位相相と位相相転移を調べるのに役立つ。

We investigate heat transport through a one-dimensional open coupled scalar field theory, depicted as a network of harmonic oscillators connected to thermal baths at the boundaries. The non-Hermitian dynamical matrix of the network undergoes a stability-to-instability transition at the exceptional points as the coupling strength between the scalar fields increases. The open network in the unstable regime, marked by the emergence of inverted oscillator modes, does not acquire a steady state, and the heat conduction is then unbounded for general bath couplings. In this work, we engineer a unique bath coupling where a single bath is connected to two fields at each edge with the same strength. This configuration leads to a finite steady-state heat conduction in the network, even in the unstable regime. We also study general bath couplings, e.g., connecting two fields to two separate baths at each boundary, which shows an exciting signature of approaching the unstable regime for massive fields. We derive analytical expressions for high-temperature classical heat current through the network for different bath couplings at the edges and compare them. Furthermore, we determine the temperature dependence of low-temperature quantum heat current in different cases. Our study will help to probe topological phases and phase transitions in various quadratic Hermitian bosonic models whose dynamical matrices resemble non-Hermitian Hamiltonians, hosting exciting topological phases.
翻訳日:2024-02-08 14:40:14 公開日:2024-02-07
# 光磁気力学における磁歪による広帯域励起光場

Broadband squeezed light field by magnetostriction in an opto-magnomechanical ( http://arxiv.org/abs/2402.04983v1 )

ライセンス: Link先を確認
Ke Di, Shuai Tan, Anyu Cheng, Yinxue Zhao, Yu Liu, Jiajia Du(参考訳) 本稿では,光磁気力学系において広帯域圧縮光出力場を生成する新しい機構を提案する。 このシステムでは、イットリウム-鉄-ガーネット結晶中のマグノン(機械)モードは、磁気ダイポール(放射圧)相互作用によってマイクロ波(光学)に結合する。 イットリウム-鉄-ガーネット結晶によって引き起こされる磁歪力は機械的変位を引き起こし、二次圧縮マグノンモードを生成する。 最終的に、この2次スクイーズドメカニカルモードは状態-スワップ相互作用を介して出力光学場に転送される。 本研究では,帯域幅の広い安定な光出力場を得るための最適パラメータ範囲を示す。 また, 圧縮光場は環境温度に対して強い頑健性を示す。 提案手法は, 量子精度測定, 量子無線ネットワーク, 量子レーダなどに応用できる可能性がある。

We present a novel mechanism for generating a wide bandwidth squeezed optical output field in an opto-magnomechanical system. In this system, the magnon (mechanical) mode in the yttrium-iron-garnet crystal is coupled to the microwave field (optical field) through magnetic dipole (radiation pressure) interaction. The magnetostrictive force induced by the yttrium-iron-garnet crystal causes a mechanical displacement and creates a quadrature squeezed magnon mode. Eventually, this quadrature squeezed mechanical mode is transferred to the output optical field through state-swap interaction. Our results demonstrate the optimal parameter range for obtaining a stable squeezed optical output field with a wide bandwidth. Moreover, the squeezed light field exhibits strong robustness to environmental temperature. The new scheme we propose has potential applications in quantum precision measurements, quantum wireless networks, quantum radar, etc.
翻訳日:2024-02-08 14:39:48 公開日:2024-02-07
# エネルギー消費予測のためのSHAPクラスタリングを用いたXAIベースの適応学習

Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction ( http://arxiv.org/abs/2402.04982v1 )

ライセンス: Link先を確認
Tobias Clement and Hung Truong Thanh Nguyen and Nils Kemmerzell and Mohamed Abdelaal and Davor Stjelja(参考訳) 本稿では、データ分散シフトの処理に焦点をあて、エネルギー消費予測モデルを強化するために、説明可能な人工知能(XAI)技術と適応学習を統合したアプローチを提案する。 SHAPクラスタリングを活用することで、モデル予測の解釈可能な説明を提供し、これらの知見を用いてモデルを適応的に洗練し、モデル複雑性と予測性能のバランスをとる。 本稿では,(1)モデル予測を説明するためのSHAP値の取得,(2)異なるパターンとアウトリーチを識別するためのSHAP値のクラスタリング,(3)派生したSHAPクラスタリング特性に基づいてモデルを精錬する3段階のプロセスを紹介する。 当社のアプローチは,データの分散シフト処理における過度な適合を緩和し,ロバスト性を確保する。 本手法は,建物のエネルギー消費記録を含む包括的データセットと,他の領域へのアプローチの転送可能性,回帰,分類問題を評価するための2つの追加データセットについて評価する。 両タスクタイプにおいて,本手法の有効性を実証し,予測性能と解釈可能なモデル説明の改善を図った。

This paper presents an approach integrating explainable artificial intelligence (XAI) techniques with adaptive learning to enhance energy consumption prediction models, with a focus on handling data distribution shifts. Leveraging SHAP clustering, our method provides interpretable explanations for model predictions and uses these insights to adaptively refine the model, balancing model complexity with predictive performance. We introduce a three-stage process: (1) obtaining SHAP values to explain model predictions, (2) clustering SHAP values to identify distinct patterns and outliers, and (3) refining the model based on the derived SHAP clustering characteristics. Our approach mitigates overfitting and ensures robustness in handling data distribution shifts. We evaluate our method on a comprehensive dataset comprising energy consumption records of buildings, as well as two additional datasets to assess the transferability of our approach to other domains, regression, and classification problems. Our experiments demonstrate the effectiveness of our approach in both task types, resulting in improved predictive performance and interpretable model explanations.
翻訳日:2024-02-08 14:39:34 公開日:2024-02-07
# 1段階勾配後の2層ネットワークにおける特徴学習の漸近

Asymptotics of feature learning in two-layer networks after one gradient-step ( http://arxiv.org/abs/2402.04980v1 )

ライセンス: Link先を確認
Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka Zdeborov\'a, Bruno Loureiro(参考訳) 本稿では,2層ニューラルネットワークがデータから特徴をどのように学習するかを考察し,単一の勾配降下ステップで学習した後,カーネルレジームを改良した。 非線形スパイク行列モデル(ba et al., 2022)との接続とガウス普遍性に関する最近の進歩(dandi et al., 2023)を利用して、サンプル数$n$、幅$p$、入力次元$d$が比例率で増加する高次元極限における一般化誤差の正確な漸近的記述を提供する。 我々は、勾配方向の非線形関数を効率的に学習するネットワークにとって、データへの適応がいかに重要であるかを正確に特徴付けます。 本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,共役核と神経接核の摂動的有限幅補正を超えて,大規模学習率系$\eta=\theta_{d}(d)$ において初めて詳細に記述した。

In this manuscript we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging a connection from (Ba et al., 2022) with a non-linear spiked matrix model and recent progress on Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic description of the generalization error in the high-dimensional limit where the number of samples $n$, the width $p$ and the input dimension $d$ grow at a proportional rate. We characterize exactly how adapting to the data is crucial for the network to efficiently learn non-linear functions in the direction of the gradient -- where at initialization it can only express linear functions in this regime. To our knowledge, our results provides the first tight description of the impact of feature learning in the generalization of two-layer neural networks in the large learning rate regime $\eta=\Theta_{d}(d)$, beyond perturbative finite width corrections of the conjugate and neural tangent kernels.
翻訳日:2024-02-08 14:39:16 公開日:2024-02-07
# 合成学習によるhololens上の平滑なテクスチャレス産業オブジェクトの検出とポーズ推定

Detection and Pose Estimation of flat, Texture-less Industry Objects on HoloLens using synthetic Training ( http://arxiv.org/abs/2402.04979v1 )

ライセンス: Link先を確認
Thomas P\"ollabauer, Fabian R\"ucker, Andreas Franek, Felix Gorschl\"uter(参考訳) 現在の最先端の6dポーズ推定は、Microsoft HoloLens (2)やApple iPadのようなエッジデバイスにデプロイするには計算集約的すぎる。 ARの品質は、シーン内の幾何学を検出し、オーバーレイする能力に大きく依存している。 本稿では,エッジデバイス上での金属およびテクスチャレス産業オブジェクトの静的なポーズを実演する,クライアントサーバベースの拡張現実アプリケーションを提案する。 合成データは、実際の写真のない訓練を可能にする。 HoloLens 2で記録された実世界のデータと、ARによるソート作業の質的評価と、両方のレンダリングの量的評価は、実世界の応用性に光を当てる。

Current state-of-the-art 6d pose estimation is too compute intensive to be deployed on edge devices, such as Microsoft HoloLens (2) or Apple iPad, both used for an increasing number of augmented reality applications. The quality of AR is greatly dependent on its capabilities to detect and overlay geometry within the scene. We propose a synthetically trained client-server-based augmented reality application, demonstrating state-of-the-art object pose estimation of metallic and texture-less industry objects on edge devices. Synthetic data enables training without real photographs, i.e. for yet-to-be-manufactured objects. Our qualitative evaluation on an AR-assisted sorting task, and quantitative evaluation on both renderings, as well as real-world data recorded on HoloLens 2, sheds light on its real-world applicability.
翻訳日:2024-02-08 14:38:51 公開日:2024-02-07
# 知識グラフ統合コラボレーションによるプロンプト型llm推論手法の強化

An Enhanced Prompt-Based LLM Reasoning Scheme via Knowledge Graph-Integrated Collaboration ( http://arxiv.org/abs/2402.04978v1 )

ライセンス: Link先を確認
Yihao Li, Ru Zhang, Jianyi Liu, Gongshen Liu(参考訳) 大規模言語モデル(llm)は、多数の自然言語処理(nlp)タスクにおいて例外的な性能を示すが、幻覚、不十分な知識更新、推論プロセスにおける透明性の制限など、実用上の課題に遭遇する。 これらの制約を克服するために,知識グラフ(KG)とLLMの緊密な連携を伴う協調学習自由推論手法を革新的に提案する。 このスキームはまずLLMを用いてKGを反復的に探索し、推論をサポートするためにタスク関連知識サブグラフを選択的に検索する。 LLMはその後、意味のある暗黙の知識をサブグラフで推論し、推論過程を明示的に解明するためにガイドされる。 このような協調的アプローチにより,より信頼性の高い知識に基づく推論が実現され,推論結果の追跡が容易になる。 実験の結果, qald10データセットでは, 最良ベースライン, sota( fine-tuned state-of-the-art)作業と比較して10%以上の改善が得られた。 本研究は, この成功を踏まえ, KG と LLM の融合における今後の研究の参考として, LLM の複雑な問題解決能力の向上を期待する。

While Large Language Models (LLMs) demonstrate exceptional performance in a multitude of Natural Language Processing (NLP) tasks, they encounter challenges in practical applications, including issues with hallucinations, inadequate knowledge updating, and limited transparency in the reasoning process. To overcome these limitations, this study innovatively proposes a collaborative training-free reasoning scheme involving tight cooperation between Knowledge Graph (KG) and LLMs. This scheme first involves using LLMs to iteratively explore KG, selectively retrieving a task-relevant knowledge subgraph to support reasoning. The LLMs are then guided to further combine inherent implicit knowledge to reason on the subgraph while explicitly elucidating the reasoning process. Through such a cooperative approach, our scheme achieves more reliable knowledge-based reasoning and facilitates the tracing of the reasoning results. Experimental results show that our scheme significantly progressed across multiple datasets, notably achieving over a 10% improvement on the QALD10 dataset compared to the best baseline and the fine-tuned state-of-the-art (SOTA) work. Building on this success, this study hopes to offer a valuable reference for future research in the fusion of KG and LLMs, thereby enhancing LLMs' proficiency in solving complex issues.
翻訳日:2024-02-08 14:38:36 公開日:2024-02-07
# chatscratch:6-12歳児のための自律的ビジュアルプログラミング学習のためのai提示システム

ChatScratch: An AI-Augmented System Toward Autonomous Visual Programming Learning for Children Aged 6-12 ( http://arxiv.org/abs/2402.04975v1 )

ライセンス: Link先を確認
Liuqing Chen, Shuhong Xiao, Yunnong Chen, Ruoyu Wu, Yaxuan Song, Lingyun Sun(参考訳) コンピュータ思考(CT)がK-12教育の若年層に浸透し続けている中、ScratchのようなCTプラットフォームは、これらの若年層、特に小学校(6-12歳)に挑戦する課題に直面している。 スクラッチの専門家による形成的調査を通じて、子供の自律的なスクラッチ学習における3つの重要な障害を明らかにする:プロジェクト計画におけるアーティストブロック、アセット作成における境界付けられた創造性、実装時のコーディング指導の不適切な。 これらの障壁に対処するために、幼児向けの自律型プログラミング学習を容易にするAI強化システムChatScratchを紹介する。 chatscratchは構造化されたインタラクティブなストーリーボードと視覚的なヒントを使ってアーティストのブロックを克服し、デジタル描画と高度な画像生成技術を統合して創造性を高め、スクラッチ特化大規模言語モデル(llm)をプロフェッショナルなコーディング指導に活用している。 Scratchと比較して、ChatScratchは自律的なプログラミング学習を効果的に促進し、高品質で個人に意味のあるScratchプロジェクトの創出に貢献している。

As Computational Thinking (CT) continues to permeate younger age groups in K-12 education, established CT platforms such as Scratch face challenges in catering to these younger learners, particularly those in the elementary school (ages 6-12). Through formative investigation with Scratch experts, we uncover three key obstacles to children's autonomous Scratch learning: artist's block in project planning, bounded creativity in asset creation, and inadequate coding guidance during implementation. To address these barriers, we introduce ChatScratch, an AI-augmented system to facilitate autonomous programming learning for young children. ChatScratch employs structured interactive storyboards and visual cues to overcome artist's block, integrates digital drawing and advanced image generation technologies to elevate creativity, and leverages Scratch-specialized Large Language Models (LLMs) for professional coding guidance. Our study shows that, compared to Scratch, ChatScratch efficiently fosters autonomous programming learning, and contributes to the creation of high-quality, personally meaningful Scratch projects for children.
翻訳日:2024-02-08 14:38:10 公開日:2024-02-07
# multi-sender persuasion -- 計算論的視点

Multi-Sender Persuasion -- A Computational Perspective ( http://arxiv.org/abs/2402.04971v1 )

ライセンス: Link先を確認
Safwan Hossain, Tonghan Wang, Tao Lin, Yiling Chen, David C. Parkes, Haifeng Xu(参考訳) 情報的アドバンテージシグナリングを有する複数の送信者が、特定の行動に対して単一の利己的なアクタを説得する。 独創的なベイズ説得フレームワークの一般化は、計算経済学、マルチエージェント学習、および複数の目的を持つ機械学習においてユビキタスである。 ここでのコアソリューションの概念は、送信者のシグナル伝達ポリシーのナッシュ均衡である。 理論的には、一般に平衡を見つけることはPPAD-Hardであり、実際、送信者の最良の応答を計算してもNP-Hardである。 こうした本質的な困難を考えると、局所的なナッシュ均衡を見つけることになる。 本稿では,このゲームの非線形かつ不連続な効用を近似する,新しい微分可能なニューラルネットワークを提案する。 これを段階外アルゴリズムで補うことで、Paretoが全相対平衡と既存のニューラルネットワークが支配する局所平衡を発見する。 概して、我々の理論的かつ実証的な貢献は、幅広い経済問題に対する関心である。

We consider multiple senders with informational advantage signaling to convince a single self-interested actor towards certain actions. Generalizing the seminal Bayesian Persuasion framework, such settings are ubiquitous in computational economics, multi-agent learning, and machine learning with multiple objectives. The core solution concept here is the Nash equilibrium of senders' signaling policies. Theoretically, we prove that finding an equilibrium in general is PPAD-Hard; in fact, even computing a sender's best response is NP-Hard. Given these intrinsic difficulties, we turn to finding local Nash equilibria. We propose a novel differentiable neural network to approximate this game's non-linear and discontinuous utilities. Complementing this with the extra-gradient algorithm, we discover local equilibria that Pareto dominates full-revelation equilibria and those found by existing neural networks. Broadly, our theoretical and empirical contributions are of interest to a large class of economic problems.
翻訳日:2024-02-08 14:37:47 公開日:2024-02-07
# テキストか画像か? ヘイトミーム検出モデルのクロスドメイン一般化機能でもっと重要なのは何か?

Text or Image? What is More Important in Cross-Domain Generalization Capabilities of Hate Meme Detection Models? ( http://arxiv.org/abs/2402.04967v1 )

ライセンス: Link先を確認
Piush Aggarwal, Jawar Mehrabanian, Weigang Huang, \"Ozge Alacam and Torsten Zesch(参考訳) 本稿では,マルチモーダル・ヘイト・ミーム検出におけるクロスドメイン一般化の難題について述べる。 画像成分が特定のトレーニングデータセットに非常に敏感であることを証明しながら、ヘイトフルミームのテキストコンポーネントのみが既存のマルチモーダル分類器を様々な領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。 このエビデンスには、ヘイトテキスト分類器がゼロショット設定でヘイトミー分類器と同様に機能することを示すデモンストレーションが含まれている。 同時に、ミームの画像から生成されるキャプションをヘイト・ミーム分類器に導入することで、平均F1の0.02の性能が悪化する。 ブラックボックスの説明によって、テキストモダリティ(平均83%)の実質的な貢献が特定され、memeのイメージキャプション(52%)の導入によって減少する。 さらに、新たに作成された共同創設者データセットに対する評価では、画像共同創設者の0.18ドルの平均$\Delta$F1よりも高いパフォーマンスを示している。

This paper delves into the formidable challenge of cross-domain generalization in multimodal hate meme detection, presenting compelling findings. We provide enough pieces of evidence supporting the hypothesis that only the textual component of hateful memes enables the existing multimodal classifier to generalize across different domains, while the image component proves highly sensitive to a specific training dataset. The evidence includes demonstrations showing that hate-text classifiers perform similarly to hate-meme classifiers in a zero-shot setting. Simultaneously, the introduction of captions generated from images of memes to the hate-meme classifier worsens performance by an average F1 of 0.02. Through blackbox explanations, we identify a substantial contribution of the text modality (average of 83%), which diminishes with the introduction of meme's image captions (52%). Additionally, our evaluation on a newly created confounder dataset reveals higher performance on text confounders as compared to image confounders with an average $\Delta$F1 of 0.18.
翻訳日:2024-02-08 14:37:31 公開日:2024-02-07
# ConvLoRAとAdaBNに基づく自己学習によるドメイン適応

ConvLoRA and AdaBN based Domain Adaptation via Self-Training ( http://arxiv.org/abs/2402.04964v1 )

ライセンス: Link先を確認
Sidra Aleem, Julia Dietlmeier, Eric Arazo, Suzanne Little(参考訳) 既存のドメイン適応(da)メソッドは、しばしばソースドメインの事前トレーニングとターゲットドメインの微調整を伴う。 マルチターゲットドメイン適応では、トレーニング済みのモデルパラメータを全て保持する、ターゲットドメインごとに専用/分離された細調整ネットワークを持つことは、極めて高価である。 この制限に対処するため、ConvLoRA(Convolutional Low-Rank Adaptation)を提案する。 convloraは事前訓練されたモデル重量を凍結し、畳み込み層に訓練可能な低ランク分解行列を追加し、これらの行列を通して勾配をバックプロパゲーションすることで、訓練可能なパラメータの数を大幅に削減する。 さらに適応性を高めるために、ターゲット固有のランニング統計を計算し、ConvLoRAと共に使用するAdaptive Batch Normalization (AdaBN)を利用する。 脳MRI画像を含むCalgary-Campinasデータセットのセグメンテーションにおいて、トレーニング可能なパラメータは少なく、独立した大規模ネットワーク(総ベースモデルのトレーニング可能なパラメータは0.9%未満)と同等あるいは同等である。 このアプローチはシンプルだが効果的であり、畳み込み層とバッチ正規化層を使用するディープラーニングベースのアーキテクチャに適用できる。 コードはhttps://github.com/aleemsidra/convlora.com/。

Existing domain adaptation (DA) methods often involve pre-training on the source domain and fine-tuning on the target domain. For multi-target domain adaptation, having a dedicated/separate fine-tuned network for each target domain, that retain all the pre-trained model parameters, is prohibitively expensive. To address this limitation, we propose Convolutional Low-Rank Adaptation (ConvLoRA). ConvLoRA freezes pre-trained model weights, adds trainable low-rank decomposition matrices to convolutional layers, and backpropagates the gradient through these matrices thus greatly reducing the number of trainable parameters. To further boost adaptation, we utilize Adaptive Batch Normalization (AdaBN) which computes target-specific running statistics and use it along with ConvLoRA. Our method has fewer trainable parameters and performs better or on-par with large independent fine-tuned networks (with less than 0.9% trainable parameters of the total base model) when tested on the segmentation of Calgary-Campinas dataset containing brain MRI images. Our approach is simple, yet effective and can be applied to any deep learning-based architecture which uses convolutional and batch normalization layers. Code is available at: https://github.com/aleemsidra/ConvLoRA.
翻訳日:2024-02-08 14:37:14 公開日:2024-02-07
# ラベルシフトロバストテスト時間適応のためのチャネル選択正規化

Channel-Selective Normalization for Label-Shift Robust Test-Time Adaptation ( http://arxiv.org/abs/2402.04958v1 )

ライセンス: Link先を確認
Pedro Vianna, Muawiz Chaudhary, Paria Mehrbod, An Tang, Guy Cloutier, Guy Wolf, Michael Eickenberg, Eugene Belilovsky(参考訳) ディープニューラルネットワークは多くの異なるタスクに有用な応用があるが、その性能はデータ分散の変化によって大きく影響を受ける可能性がある。 例えば、バイオメディカル分野では、トレーニングとテストデータセット間のデータ(異なるマシン、人口)の変化によってパフォーマンスが影響を受ける可能性がある。 実世界のシナリオに対するロバストさと一般化を保証するため、最近、推論中に新しいデータ分布にモデルを調整するためのアプローチとしてテスト時間適応が研究されている。 テスト時のバッチ正規化は、ドメインシフトベンチマークで魅力的なパフォーマンスを達成した、シンプルで一般的な方法である。 テストバッチのバッチ正規化統計を再計算して実装する。 以前の研究は、トレーニングデータと同じラベル分布を持つテストデータの解析に重点を置いてきた。 しかし、多くの実用的な応用において、この手法はラベルの分布シフトに弱いため、時には破滅的な失敗を引き起こすことがある。 これにより、デプロイにテスト時間適応手法を適用するリスクが生じる。 本稿では、ディープネットワークにおけるチャネルのみを選択的に適応させ、ラベルシフトに敏感な劇的な適応を最小化する。 1) 後続のネットワーク層はラベルシフトに敏感であり,(2) 個々の特徴は特定のクラスに敏感である。 提案手法をCIFAR10-C, Imagenet-C, 脂肪肝診断の3つの分類課題に適用し, 共変量およびラベル分布の変化について検討した。 提案手法は,TTAの利点を生かしつつ,他の手法に共通する障害のリスクを大幅に低減するとともに,ハイパーパラメータの選択に頑健である。

Deep neural networks have useful applications in many different tasks, however their performance can be severely affected by changes in the data distribution. For example, in the biomedical field, their performance can be affected by changes in the data (different machines, populations) between training and test datasets. To ensure robustness and generalization to real-world scenarios, test-time adaptation has been recently studied as an approach to adjust models to a new data distribution during inference. Test-time batch normalization is a simple and popular method that achieved compelling performance on domain shift benchmarks. It is implemented by recalculating batch normalization statistics on test batches. Prior work has focused on analysis with test data that has the same label distribution as the training data. However, in many practical applications this technique is vulnerable to label distribution shifts, sometimes producing catastrophic failure. This presents a risk in applying test time adaptation methods in deployment. We propose to tackle this challenge by only selectively adapting channels in a deep network, minimizing drastic adaptation that is sensitive to label shifts. Our selection scheme is based on two principles that we empirically motivate: (1) later layers of networks are more sensitive to label shift (2) individual features can be sensitive to specific classes. We apply the proposed technique to three classification tasks, including CIFAR10-C, Imagenet-C, and diagnosis of fatty liver, where we explore both covariate and label distribution shifts. We find that our method allows to bring the benefits of TTA while significantly reducing the risk of failure common in other methods, while being robust to choice in hyperparameters.
翻訳日:2024-02-08 14:36:50 公開日:2024-02-07
# 繰り返しメッセージパッシングを有するグラフにおけるマルチエージェント強化学習の一般化に向けて

Towards Generalizability of Multi-Agent Reinforcement Learning in Graphs with Recurrent Message Passing ( http://arxiv.org/abs/2402.05027v1 )

ライセンス: Link先を確認
Jannis Weil and Zhenghua Bao and Osama Abboud and Tobias Meuser(参考訳) グラフベースの環境は、マルチエージェント強化学習にユニークな課題をもたらす。 分散的なアプローチでは、エージェントは所定のグラフ内で動作し、部分的あるいは時代遅れの観察に基づいて決定する。 観測された近傍の大きさは、異なるグラフへの一般化性を制限し、エージェントの反応性、選択されたアクションの品質、通信オーバーヘッドに影響する。 この研究は一般化性に焦点をあて、グラフ全体の連続的な情報フローで観測された近傍のサイズのトレードオフを解消する。 本稿では,環境のステップに合わせて繰り返しメッセージパッシングモデルを提案し,隣人とメッセージを交換することで,ノードがグラフのグローバルな表現を作成できるようにする。 エージェントは、グラフ内の位置に基づいて学習したグラフ観察を受信する。 我々の手法は、実行時に分散的に使用することができ、選択した強化学習アルゴリズムと組み合わせることができる。 通信ネットワークにおけるルーティングのコンテキストにおいて1000の多様なグラフにまたがる手法を評価し,エージェントがグラフの変化を一般化し適応できるようにする。

Graph-based environments pose unique challenges to multi-agent reinforcement learning. In decentralized approaches, agents operate within a given graph and make decisions based on partial or outdated observations. The size of the observed neighborhood limits the generalizability to different graphs and affects the reactivity of agents, the quality of the selected actions, and the communication overhead. This work focuses on generalizability and resolves the trade-off in observed neighborhood size with a continuous information flow in the whole graph. We propose a recurrent message-passing model that iterates with the environment's steps and allows nodes to create a global representation of the graph by exchanging messages with their neighbors. Agents receive the resulting learned graph observations based on their location in the graph. Our approach can be used in a decentralized manner at runtime and in combination with a reinforcement learning algorithm of choice. We evaluate our method across 1000 diverse graphs in the context of routing in communication networks and find that it enables agents to generalize and adapt to changes in the graph.
翻訳日:2024-02-08 14:29:59 公開日:2024-02-07
# 平坦損失に対する強い凸率誘導ハイパーパラメータ最適化

Strong convexity-guided hyper-parameter optimization for flatter losses ( http://arxiv.org/abs/2402.05025v1 )

ライセンス: Link先を確認
Rahul Yedida, Snehanshu Saha(参考訳) ハイパーパラメータ最適化のための新しいホワイトボックス手法を提案する。 フラットミニマと一般化の関係を確立する最近の研究により、損失の強い凸性とその平坦性の関係を最初に確立した。 これに基づいて、損失の強い凸性を最小化して平坦性を改善する超パラメータ構成を求める。 基礎となるニューラルネットワークの構造を用いることで、閉形式方程式を導出して強い凸パラメータを近似し、それをランダムに最小化する超パラメータを探そうとする。 14の分類データセットを用いた実験により,本手法は実行時のわずかな時間で高い性能が得られることを示す。

We propose a novel white-box approach to hyper-parameter optimization. Motivated by recent work establishing a relationship between flat minima and generalization, we first establish a relationship between the strong convexity of the loss and its flatness. Based on this, we seek to find hyper-parameter configurations that improve flatness by minimizing the strong convexity of the loss. By using the structure of the underlying neural network, we derive closed-form equations to approximate the strong convexity parameter, and attempt to find hyper-parameters that minimize it in a randomized fashion. Through experiments on 14 classification datasets, we show that our method achieves strong performance at a fraction of the runtime.
翻訳日:2024-02-08 14:29:31 公開日:2024-02-07
# ニュートリノ媒体における一生の遭遇モデル:コヒーレント振動からフレーバー平衡へ

Once-in-a-lifetime encounter models for neutrino media: From coherent oscillation to flavor equilibration ( http://arxiv.org/abs/2402.05022v1 )

ライセンス: Link先を確認
Anson Kost, Lucas Johns and Huaiyu Duan(参考訳) 集団ニュートリノ振動は通常、平均場近似として知られる最低次量子速度方程式を用いて研究される。 しかし、近年の量子多体シミュレーションでは、ニュートリノ間の量子絡み合いが重要であり、ニュートリノガスのフレーバー平衡をもたらす可能性が示唆されている。 本研究では,ニュートリノガスに対する新しい量子多体モデルを開発し,一対のニュートリノが一生に一度は相互作用できることを示した。 モデルの主要なパラメータは$\gamma=\mu \delta z$であり、ここでは$\mu$はニュートリノ結合強度であり、これはニュートリノ密度に比例し、$\delta z$は1対のニュートリノが毎回相互作用できる期間である。 我々のモデルは、極限$\gamma\to0$の平均場アプローチに還元され、時間$t \gg (\gamma\mu)^{-1}$のフレーバー平衡を達成する。 これらのモデルは、粒子の観点からコヒーレントなフレーバー振動の出現を示し、集合ニュートリノ振動における量子エンタングルメントの役割を解明するのに役立つ。

Collective neutrino oscillations are typically studied using the lowest-order quantum kinetic equation, also known as the mean-field approximation. However, some recent quantum many-body simulations suggest that quantum entanglement among neutrinos may be important and may result in flavor equilibration of the neutrino gas. In this work, we develop new quantum many-body models for neutrino gases in which any pair of neutrinos can interact at most once in their lifetimes. A key parameter of our models is $\gamma=\mu \Delta z$, where $\mu$ is the neutrino coupling strength, which is proportional to the neutrino density, and $\Delta z$ is the duration over which a pair of neutrinos can interact each time. Our models reduce to the mean-field approach in the limit $\gamma\to0$ and achieve flavor equilibration in time $t \gg (\gamma\mu)^{-1}$. These models demonstrate the emergence of coherent flavor oscillations from the particle perspective and may help elucidate the role of quantum entanglement in collective neutrino oscillations.
翻訳日:2024-02-08 14:29:11 公開日:2024-02-07
# チョイ状態トモグラフィによる量子テンソル生成物分解

Quantum Tensor Product Decomposition from Choi State Tomography ( http://arxiv.org/abs/2402.05018v1 )

ライセンス: Link先を確認
Refik Mansuroglu and Arsalan Adil and Michael J. Hartmann and Zo\"e Holmes and Andrew T. Sornborger(参考訳) シュミット分解(Schmidt decomposition)は、純粋な量子状態の2部交絡を測定するためのツールである。 同様に、量子演算の絡み合いの特徴を作用素シュミットやテンソル積分解を用いて研究することができる。 前者の量子技術実装は徹底的に研究されているが、演算子レベルでの絡み合い性は、サンプル複雑性の指数関数的性質のため、量子計算の枠組みでは抽出が困難である。 ここでは、小サブシステムへの不均衡分割と、小サブシステムに対する影響を古典記憶に捉えつつ、その環境に対する影響を量子資源としてアクセス可能なユニタリのテンソル積分解を計算するための大部分(環境)のアルゴリズムを提案する。 この量子アルゴリズムは、演算子の非局所性、サブシステム上の効果的なオープン量子ダイナミクスの予測、そして量子回路ユニタリの低ランク近似や低深さコンパイルを見つけるのに使うことができる。 本研究では,2次元の等方性ハイゼンベルク模型の時間発展ユニタリ上での手法と応用を実証する。

The Schmidt decomposition is the go-to tool for measuring bipartite entanglement of pure quantum states. Similarly, it is possible to study the entangling features of a quantum operation using its operator-Schmidt, or tensor product decomposition. While quantum technological implementations of the former are thoroughly studied, entangling properties on the operator level are harder to extract in the quantum computational framework because of the exponential nature of sample complexity. Here we present an algorithm for unbalanced partitions into a small subsystem and a large one (the environment) to compute the tensor product decomposition of a unitary whose effect on the small subsystem is captured in classical memory while the effect on the environment is accessible as a quantum resource. This quantum algorithm may be used to make predictions about operator non-locality, effective open quantum dynamics on a subsystem, as well as for finding low-rank approximations and low-depth compilations of quantum circuit unitaries. We demonstrate the method and its applications on a time-evolution unitary of an isotropic Heisenberg model in two dimensions.
翻訳日:2024-02-08 14:28:35 公開日:2024-02-07
# 物質発見のためのllmは、分子のベイズ最適化に向いているのか?

A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? ( http://arxiv.org/abs/2402.05015v1 )

ライセンス: Link先を確認
Agustinus Kristiadi, Felix Strieth-Kalthoff, Marta Skreta, Pascal Poupart, Al\'an Aspuru-Guzik, Geoff Pleiss(参考訳) オートメーションは、現代の物質発見の基盤の1つだ。 ベイズ最適化(BO)はそのようなワークフローの重要な部分であり、科学者は事前のドメイン知識を利用して大きな分子空間を効率的に探索することができる。 このような事前知識は多くの形式を必要とするが、大言語モデル(llm)にカプセル化された補助的な科学的知識の周りには大きなファンファーレがある。 しかし、既存の研究は、ヒューリスティックな材料探索のためのLLMを探索しているだけである。 実際、最近の研究は、非ベイズ的 LLM から不確実性推定(BO の積分部分)を得る。 本研究では, LLMが分子空間におけるベイズ最適化の原理を加速するのに実際に有用かどうかを考察する。 私たちはこの質問に答える上で、冷静で不快な姿勢を取る。 これは慎重に行われる 一 LLM を標準だが原則化された BO シュロゲートモデルの固定特徴抽出器として見ること。 (ii)パラメーター効率の良い微調整法とベイズニューラルネットワークを利用してllmサロゲートの後方を得る。 実世界の化学問題に対する広範な実験により、LLMは分子上のBOに有用であるが、ドメイン固有のデータで事前訓練または微調整された場合に限り有用であることが示された。

Automation is one of the cornerstones of contemporary material discovery. Bayesian optimization (BO) is an essential part of such workflows, enabling scientists to leverage prior domain knowledge into efficient exploration of a large molecular space. While such prior knowledge can take many forms, there has been significant fanfare around the ancillary scientific knowledge encapsulated in large language models (LLMs). However, existing work thus far has only explored LLMs for heuristic materials searches. Indeed, recent work obtains the uncertainty estimate -- an integral part of BO -- from point-estimated, non-Bayesian LLMs. In this work, we study the question of whether LLMs are actually useful to accelerate principled Bayesian optimization in the molecular space. We take a sober, dispassionate stance in answering this question. This is done by carefully (i) viewing LLMs as fixed feature extractors for standard but principled BO surrogate models and by (ii) leveraging parameter-efficient finetuning methods and Bayesian neural networks to obtain the posterior of the LLM surrogate. Our extensive experiments with real-world chemistry problems show that LLMs can be useful for BO over molecules, but only if they have been pretrained or finetuned with domain-specific data.
翻訳日:2024-02-08 14:27:39 公開日:2024-02-07
# 身体がデータを見るとき: 歴史的データ文化と解剖図

When the Body Became Data: Historical Data Cultures and Anatomical Illustration ( http://arxiv.org/abs/2402.05014v1 )

ライセンス: Link先を確認
Michael Correll and Laura A. Garrison(参考訳) 知識、医学、芸術、技術に関する態度を変えることで、人体は情報の源となり、最終的には共有可能で分析可能なデータとなった。 何世紀にもわたるイラストや身体の可視化は、特定の歴史的、社会的、政治的文脈の中で起こる。 これらのコンテキストは、データ、知識、情報を概念化し、収集し、構造化し、共有する方法である。 本研究では,身体に関する情報の収集方法と,得られた画像の循環,衝撃,説得力について検討する。 データ文化の影響のマインドフルネスが、今日のデザイナー、研究者、そしてビジュアライゼーションの消費者にとって重要であることを示す。 最後に、可視化が客観的データに対する時間と文脈のないミラーではなく、私たちの時間と場所の産物である過去の視覚化を反映するように、フィールドを呼び出すことで締めくくります。

With changing attitudes around knowledge, medicine, art, and technology, the human body has become a source of information and, ultimately, shareable and analyzable data. Centuries of illustrations and visualizations of the body occur within particular historical, social, and political contexts. These contexts are enmeshed in different so-called data cultures: ways that data, knowledge, and information are conceptualized and collected, structured and shared. In this work, we explore how information about the body was collected as well as the circulation, impact, and persuasive force of the resulting images. We show how mindfulness of data cultural influences remain crucial for today's designers, researchers, and consumers of visualizations. We conclude with a call for the field to reflect on how visualizations are not timeless and contextless mirrors on objective data, but as much a product of our time and place as the visualizations of the past.
翻訳日:2024-02-08 14:27:16 公開日:2024-02-07
# 複雑さをナビゲートする:ウィンドウマッチングの拡張によるロスレスグラフ凝縮に向けて

Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching ( http://arxiv.org/abs/2402.05011v1 )

ライセンス: Link先を確認
Yuchen Zhang and Tianle Zhang and Kai Wang and Ziyao Guo and Yuxuan Liang and Xavier Bresson and Wei Jin and Yang You(参考訳) グラフ凝縮は、訓練されたグラフニューラルネットワーク(GNN)のパフォーマンスを犠牲にすることなく、コンパクトなグラフデータセットを合成することで、大規模グラフデータセットのサイズを小さくすることを目的としている。 それでも、既存の手法は、特定のデータセットの元のグラフを正確に複製するに足りず、結果として損失のない凝縮の目的を達成できないことが多い。 この現象を解明するために,本研究では, 既往の最先端軌跡マッチング手法が, 凝縮度を最適化する際に, 元のグラフから偏り, 制限された監視信号を提供することを示す。 これは凝縮グラフのスケールと有効性の両方を著しく制限する。 本稿では,これまで無視されていた監視信号のブリッジを施すことで,textit{lossless graph condensation} に対する最初の試みを行う。 具体的には、カリキュラム学習戦略を用いて、元のグラフからより多様な監視信号で専門家の軌跡を訓練し、その情報をウィンドウマッチングを拡張した凝縮グラフに効果的に転送する。 さらに,専門家の軌跡からさらに知識を抽出するために,損失関数を設計する。 理論的解析は,提案手法の設計を正当化し,その優位性を様々なデータセットで検証する。 コードはhttps://github.com/NUS-HPC-AI-Lab/GEOMで公開されている。

Graph condensation aims to reduce the size of a large-scale graph dataset by synthesizing a compact counterpart without sacrificing the performance of Graph Neural Networks (GNNs) trained on it, which has shed light on reducing the computational cost for training GNNs. Nevertheless, existing methods often fall short of accurately replicating the original graph for certain datasets, thereby failing to achieve the objective of lossless condensation. To understand this phenomenon, we investigate the potential reasons and reveal that the previous state-of-the-art trajectory matching method provides biased and restricted supervision signals from the original graph when optimizing the condensed one. This significantly limits both the scale and efficacy of the condensed graph. In this paper, we make the first attempt toward \textit{lossless graph condensation} by bridging the previously neglected supervision signals. Specifically, we employ a curriculum learning strategy to train expert trajectories with more diverse supervision signals from the original graph, and then effectively transfer the information into the condensed graph with expanding window matching. Moreover, we design a loss function to further extract knowledge from the expert trajectories. Theoretical analysis justifies the design of our method and extensive experiments verify its superiority across different datasets. Code is released at https://github.com/NUS-HPC-AI-Lab/GEOM.
翻訳日:2024-02-08 14:26:49 公開日:2024-02-07
# EfficientViT-SAM:パフォーマンス損失のない高速化セグメントモデル

EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss ( http://arxiv.org/abs/2402.05008v1 )

ライセンス: Link先を確認
Zhuoyang Zhang, Han Cai, Song Han(参考訳) 高速化されたセグメントモデルの新しいファミリーであるEfficientViT-SAMを提案する。 我々は、サムの軽量プロンプトエンコーダとマスクデコーダを保持し、重い画像エンコーダを効率良く置き換える。 トレーニングはSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留から始まる。 その後、SA-1Bデータセット上でエンドツーエンドのトレーニングを行う。 EfficientViTの効率とキャパシティから恩恵を受け、EfficientViT-SAMはSAM-ViT-H上のA100 GPU上で48.9倍のTensorRTスピードアップを提供する。 私たちのコードと事前訓練されたモデルはhttps://github.com/mit-han-lab/efficientvit.comでリリースされます。

We present EfficientViT-SAM, a new family of accelerated segment anything models. We retain SAM's lightweight prompt encoder and mask decoder while replacing the heavy image encoder with EfficientViT. For the training, we begin with the knowledge distillation from the SAM-ViT-H image encoder to EfficientViT. Subsequently, we conduct end-to-end training on the SA-1B dataset. Benefiting from EfficientViT's efficiency and capacity, EfficientViT-SAM delivers 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing performance. Our code and pre-trained models are released at https://github.com/mit-han-lab/efficientvit.
翻訳日:2024-02-08 14:26:24 公開日:2024-02-07
# 機械学習を用いたランダム林の例による説明

Example-based Explanations for Random Forests using Machine Unlearning ( http://arxiv.org/abs/2402.05007v1 )

ライセンス: Link先を確認
Tanmay Surve and Romila Pradhan(参考訳) 決定木やランダムフォレストといった木ベースの機械学習モデルは、主に教師付き学習タスクの予測能力と解釈の容易さのために、分類タスクで大きな成功を収めています。 人気とパワーにもかかわらず、これらのモデルは予期せぬ、または差別的な結果をもたらすことが判明した。 ほとんどのタスクで彼らの圧倒的な成功を考えると、彼らの予期せぬ、差別的な行動の源を特定することは興味深い。 しかし、公平性の文脈では、ツリーベースの分類器の理解とデバッグにはあまり取り組んでいない。 FairDebuggerは、機械学習研究の最近の進歩を利用して、ランダムな森林分類器の結果にフェアネス違反の原因となるトレーニングデータサブセットを識別するシステムである。 FairDebuggerは(コヒーレントなトレーニングデータサブセットの形式で)モデルの不公平さに関するトップ$kの説明を生成する。 この目標に向けて、FairDebuggerはまず機械学習を利用して、基礎となるトレーニングデータの一部を削除した際、ランダムな森林の木構造の変化を推定し、続いて、頻繁なアイテムセットマイニングからAprioriアルゴリズムを活用して、サブセット検索スペースを削減する。 実世界の3つのデータセットに対するアプローチを実証的に評価し,fairdebuggerによる説明は,これらのデータセットに関する先行研究の知見と一致していることを示す。

Tree-based machine learning models, such as decision trees and random forests, have been hugely successful in classification tasks primarily because of their predictive power in supervised learning tasks and ease of interpretation. Despite their popularity and power, these models have been found to produce unexpected or discriminatory outcomes. Given their overwhelming success for most tasks, it is of interest to identify sources of their unexpected and discriminatory behavior. However, there has not been much work on understanding and debugging tree-based classifiers in the context of fairness. We introduce FairDebugger, a system that utilizes recent advances in machine unlearning research to identify training data subsets responsible for instances of fairness violations in the outcomes of a random forest classifier. FairDebugger generates top-$k$ explanations (in the form of coherent training data subsets) for model unfairness. Toward this goal, FairDebugger first utilizes machine unlearning to estimate the change in the tree structures of the random forest when parts of the underlying training data are removed, and then leverages the Apriori algorithm from frequent itemset mining to reduce the subset search space. We empirically evaluate our approach on three real-world datasets, and demonstrate that the explanations generated by FairDebugger are consistent with insights from prior studies on these datasets.
翻訳日:2024-02-08 14:26:09 公開日:2024-02-07
# 確率的部分監視のためのランダム信頼境界

Randomized Confidence Bounds for Stochastic Partial Monitoring ( http://arxiv.org/abs/2402.05002v1 )

ライセンス: Link先を確認
Maxime Heuillet, Ola Ahmad, Audrey Durand(参考訳) 部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。 各ラウンドでは、学習エージェントがアクションを行い、環境が同時に結果を選択する。 エージェントは、(監視されていない)結果について部分的にのみ情報となるフィードバック信号を観測する。 エージェントは受信したフィードバック信号を利用して(観測されていない)累積損失を最小限に抑えるアクションを選択する。 文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。 本稿では,確率的結果を伴う文脈的および非文脈的PM設定について考察する。 我々は,既存の確率的戦略が適用されない設定に対して,後悔の保証を拡張する決定論的信頼境界のランダム化に基づく新たな戦略を導入する。 実験の結果,提案したRandCBPおよびRandCBPside*戦略はPMゲームにおける最先端のベースラインを改善することがわかった。 PMフレームワークの採用を促進するため,デプロイされた分類システムのエラー率を監視する実世界の問題に対するユースケースを設計する。

The partial monitoring (PM) framework provides a theoretical formulation of sequential learning problems with incomplete feedback. On each round, a learning agent plays an action while the environment simultaneously chooses an outcome. The agent then observes a feedback signal that is only partially informative about the (unobserved) outcome. The agent leverages the received feedback signals to select actions that minimize the (unobserved) cumulative loss. In contextual PM, the outcomes depend on some side information that is observable by the agent before selecting the action on each round. In this paper, we consider the contextual and non-contextual PM settings with stochastic outcomes. We introduce a new class of strategies based on the randomization of deterministic confidence bounds, that extend regret guarantees to settings where existing stochastic strategies are not applicable. Our experiments show that the proposed RandCBP and RandCBPside* strategies improve state-of-the-art baselines in PM games. To encourage the adoption of the PM framework, we design a use case on the real-world problem of monitoring the error rate of any deployed classification system.
翻訳日:2024-02-08 14:25:45 公開日:2024-02-07
# 干渉はステークホルダーの目の中にある:衝突過程のコヒーレント制御への応用

Interference is in the eye of the beholder: application to the coherent control of collisional processes ( http://arxiv.org/abs/2402.05001v1 )

ライセンス: Link先を確認
Adrien Devolder, Timur V. Tscherbul and Paul Brumer(参考訳) 干渉は量子力学の基本的な特性と見なされている。 しかし、与えられた実験的な配置では、干渉は測定された基準に応じて結果に寄与するか、寄与しない。 この観察は、量子干渉に基づくアプローチである分子過程のコヒーレントな制御に基礎的かつ特に関係している。 ここでは、この問題とその分子過程の制御への応用について、「コヒーレント制御散乱(ccs)行列(coherent control scattering)」を通じて論じる。 この分析により、干渉構造の変化は変換行列のCCS行列との非可換性および変換の非直交性に起因することが判明した。 さらに、最小干渉は CCS 固有基底と結びついており、CCS 行列の固有ベクトルのフーリエ変換は最大干渉を与え、従って最良のコヒーレント制御を与える。 基底の変化による可制御性の変化は、$^{85}$Rb+$^{85}$Rb散乱の例で示される。 さらに, 基礎による干渉の有無を示すhe+d$_2$非弾性散乱に関する最近の実験結果を説明するために, 開発した形式論を適用した。

Interference is widely regarded as a foundational attribute of quantum mechanics. However, for a given experimental arrangement, interference can either contribute or not contribute to the outcome depending upon the basis in which it is measured. This observation is both foundational and particularly relevant to coherent control of molecular processes, an approach based upon quantum interference. Here we address this issue and its relevance to controlling molecular processes via the "coherent control scattering (CCS) matrix", a formalism that allows an analysis of modifications in interference structure resulting from a change of basis. This analysis reveals that the change in interference structure can be attributed to the non-commutativity of the transformation matrix with the CCS matrix, and the non-orthogonality of the transformation. Additionally, minimal interference is shown to be associated with the CCS eigenbasis, and that the Fourier transform of the eigenvectors of the CCS matrix provides the maximal interference and hence the best coherent control. The change of controllability through a change of basis is illustrated with an example of $^{85}$Rb+ $^{85}$Rb scattering. In addition, the developed formalism is applied to explain recent experimental results on He + D$_2$ inelastic scattering demonstrating the presence or absence of interference depending on the basis.
翻訳日:2024-02-08 14:25:28 公開日:2024-02-07
# 大規模言語モデルの教育的アライメント

Pedagogical Alignment of Large Language Models ( http://arxiv.org/abs/2402.05000v1 )

ライセンス: Link先を確認
Shashank Sonkar, Kangqi Ni, Sapana Chaudhary, Richard G. Baraniuk(参考訳) 本稿では,教育場面におけるllmの適用の変容を表わす,教育指向型大規模言語モデル(llm)の新たな概念を提案する。 ユーザクエリに対する直接的な応答を提供するのではなく、教育的に調整されたllmは足場ツールとして機能し、複雑な問題を管理可能な部分問題に分解し、建設的なフィードバックとヒントを通じて学生を最終回答へと導く。 目的は、学習者に課題の理解と内部化を深める問題解決戦略を付与することである。 この分野でのこれまでの研究は主に、目標をアライメント問題とみなすことなく、教師付き微調整アプローチを適用してきたため、人間フィードバック(RLHF)法による強化学習は行わなかった。 本研究は、アライメント・オブ・アライメントを通してタスクを観察することで物語を再解釈し、RLHFメソッドがLLM動作の整列に優れた代替手段として自然に現れることを示す。 この観点から,LLMの教育的アライメントに特化して設計された報酬データセットを構築するための新しい手法を提案する。 我々は最先端のRLHFアルゴリズムを3つ適用し、SFTを著しく上回る結果を得た。 モデル差とハイパーパラメータ感度の質的解析により,SFTよりもRLHFの方が優れていることが示された。 また,本研究は,教育現場における教育現場におけるLLMの性能向上のためのオンラインフィードバックの可能性に注目し,これらのモデルの発展に有意義な洞察を与える。

In this paper, we introduce the novel concept of pedagogically aligned Large Language Models (LLMs) that signifies a transformative shift in the application of LLMs within educational contexts. Rather than providing direct responses to user queries, pedagogically-aligned LLMs function as scaffolding tools, breaking complex problems into manageable subproblems and guiding students towards the final answer through constructive feedback and hints. The objective is to equip learners with problem-solving strategies that deepen their understanding and internalization of the subject matter. Previous research in this field has primarily applied the supervised finetuning approach without framing the objective as an alignment problem, hence not employing reinforcement learning through human feedback (RLHF) methods. This study reinterprets the narrative by viewing the task through the lens of alignment and demonstrates how RLHF methods emerge naturally as a superior alternative for aligning LLM behaviour. Building on this perspective, we propose a novel approach for constructing a reward dataset specifically designed for the pedagogical alignment of LLMs. We apply three state-of-the-art RLHF algorithms and find that they outperform SFT significantly. Our qualitative analyses across model differences and hyperparameter sensitivity further validate the superiority of RLHF over SFT. Also, our study sheds light on the potential of online feedback for enhancing the performance of pedagogically-aligned LLMs, thus providing valuable insights for the advancement of these models in educational settings.
翻訳日:2024-02-08 14:25:08 公開日:2024-02-07
# ロシアによるウクライナ侵攻をめぐるイタリアとフランスのReddit会話の縦断的研究

A Longitudinal Study of Italian and French Reddit Conversations Around the Russian Invasion of Ukraine ( http://arxiv.org/abs/2402.04999v1 )

ライセンス: Link先を確認
Francesco Corso, Giuseppe Russo, Francesco Pierri(参考訳) 戦争やパンデミックのような世界的なイベントは、オンラインの議論を強化し、情報共有と個人間のつながりを育む。 しかし、こうした事象の分断的な性質は、オンラインコミュニティ内での分極を引き起こし、オンラインインタラクションのダイナミクスを形成する可能性がある。 われわれの研究は、最大のイタリアとフランスのRedditコミュニティでの会話を詳しく調べ、特にロシアによるウクライナ侵攻がオンラインの対話にどう影響したかを調べた。 我々は,(1)モデレーション活動のパターンを記述し,(2)サブレディットにおける戦争関連議論を特徴付けるために,300万以上の投稿(コメントと投稿)を持つデータセットを使用する。 我々は、戦争の最初の1ヶ月でより活発になったモデレーターの行動の変化を発見した。 さらに,コメントの日々の感情と戦争に関する議論の頻度との関係を明らかにした。 これらの議論は、戦前のものよりもネガティブで有毒なだけでなく、特定の集団を含まなかった。 本研究は,類似した特性を持つユーザがより多く相互作用する傾向がないことを明らかにする。 総じて、ウクライナにおける戦争が、分析されたコミュニティにおける日々の会話に否定的な影響を及ぼしたことを示す。 これは、ユーザがこの重要なイベントにどう反応したかに光を当て、グローバルな関連性のイベントの間のオンライン議論のダイナミクスに関する洞察を提供する。

Global events like wars and pandemics can intensify online discussions, fostering information sharing and connection among individuals. However, the divisive nature of such events may lead to polarization within online communities, shaping the dynamics of online interactions. Our study delves into the conversations within the largest Italian and French Reddit communities, specifically examining how the Russian invasion of Ukraine affected online interactions. We use a dataset with over 3 million posts (i.e., comments and submissions) to (1) describe the patterns of moderation activity and (2) characterize war-related discussions in the subreddits. We found changes in moderators' behavior, who became more active during the first month of the war. Moreover, we identified a connection between the daily sentiment of comments and the prevalence of war-related discussions. These discussions were not only more negative and toxic compared to non-war-related ones but also did not involve a specific demographic group. Our research reveals that there is no tendency for users with similar characteristics to interact more. Overall, our study reveals how the war in Ukraine had a negative influence on daily conversations in the analyzed communities. This sheds light on how users responded to this significant event, providing insights into the dynamics of online discussions during events of global relevance.
翻訳日:2024-02-08 14:24:43 公開日:2024-02-07
# 離散状態空間上の生成フロー:マルチモーダルフローの実現とタンパク質共設計への応用

Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design ( http://arxiv.org/abs/2402.04997v1 )

ライセンス: Link先を確認
Andrew Campbell, Jason Yim, Regina Barzilay, Tom Rainforth, Tommi Jaakkola(参考訳) 離散データと連続データの組み合わせは、生成モデルにとって重要な機能である。 本稿では,マルチモーダル連続および離散データ問題に対してフローベース生成モデルを適用する際に欠落リンクを提供する離散データの新しいフローベースモデルである離散フローモデル(dfms)を提案する。 我々の重要な洞察は、連続空間フローマッチングの離散等価性は、連続時間マルコフ連鎖を用いて実現できるということである。 dfmsは、特定のインスタンスとして離散拡散モデルを含む単純な導出により、既存の拡散ベースのアプローチよりもパフォーマンスが向上する。 我々はDFM法を用いてマルチモーダルフローに基づくモデリングフレームワークを構築する。 この機能をタンパク質共設計のタスクに適用し、タンパク質構造と配列を協調的に生成するモデルを学ぶ。 提案手法は,同じマルチモーダルモデルを用いてシーケンスや構造を柔軟に生成しながら,最先端の協調設計性能を実現する。

Combining discrete and continuous data is an important capability for generative models. We present Discrete Flow Models (DFMs), a new flow-based model of discrete data that provides the missing link in enabling flow-based generative models to be applied to multimodal continuous and discrete data problems. Our key insight is that the discrete equivalent of continuous space flow matching can be realized using Continuous Time Markov Chains. DFMs benefit from a simple derivation that includes discrete diffusion models as a specific instance while allowing improved performance over existing diffusion-based approaches. We utilize our DFMs method to build a multimodal flow-based modeling framework. We apply this capability to the task of protein co-design, wherein we learn a model for jointly generating protein structure and sequence. Our approach achieves state-of-the-art co-design performance while allowing the same multimodal model to be used for flexible generation of the sequence or structure.
翻訳日:2024-02-08 14:24:17 公開日:2024-02-07
# Cohypomonoonicityを用いた非凸Min-Max問題に対する1次アルゴリズムの拡張

Extending the Reach of First-Order Algorithms for Nonconvex Min-Max Problems with Cohypomonotonicity ( http://arxiv.org/abs/2402.05071v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Donghwan Kim, Stephen J. Wright(参考訳) 制約付き$L$-smooth, nonconvex-nonconcave min-max 問題に、$\rho$-cohypomonotity を満たすか、$\rho$-weakly Minty Variational Inequality (MVI) に対する解を認めるかのいずれかに焦点をあてる。 これらの問題クラスには、2つのプレイヤー強化学習、相互作用支配的min-max問題、古典的なmin-maxアルゴリズムが失敗する特定の合成テスト問題などが含まれる。 一階法は$\rho$より大きい値が$\frac{1}{L}$より許容できると推測されているが、文献の既存の結果はより厳密な要件$\rho < \frac{1}{2L}$で停滞している。 簡単な議論で、$\rho < \frac{1}{L}$ に対して、コハイモノニクスあるいは弱 MVI 条件で最適あるいは最もよく知られた複雑性を保証する。 私たちが分析したアルゴリズムはハルパーンとクラスノゼルスキー・マン(KM)の反復の不変変種である。 確率的な場合のアルゴリズムや複雑性の保証も、$\rho$と同じ範囲で提供します。 収束解析の改善の主な洞察は、最近提案された作用素の「円錐的非拡張性」特性を活用することである。 副産物として,不規則なhalpern反復の洗練された解析を行い,マルチレベルモンテカルロ推定器を用いた確率km反復を提案する。

We focus on constrained, $L$-smooth, nonconvex-nonconcave min-max problems either satisfying $\rho$-cohypomonotonicity or admitting a solution to the $\rho$-weakly Minty Variational Inequality (MVI), where larger values of the parameter $\rho>0$ correspond to a greater degree of nonconvexity. These problem classes include examples in two player reinforcement learning, interaction dominant min-max problems, and certain synthetic test problems on which classical min-max algorithms fail. It has been conjectured that first-order methods can tolerate value of $\rho$ no larger than $\frac{1}{L}$, but existing results in the literature have stagnated at the tighter requirement $\rho < \frac{1}{2L}$. With a simple argument, we obtain optimal or best-known complexity guarantees with cohypomonotonicity or weak MVI conditions for $\rho < \frac{1}{L}$. The algorithms we analyze are inexact variants of Halpern and Krasnosel'ski\u{\i}-Mann (KM) iterations. We also provide algorithms and complexity guarantees in the stochastic case with the same range on $\rho$. Our main insight for the improvements in the convergence analyses is to harness the recently proposed "conic nonexpansiveness" property of operators. As byproducts, we provide a refined analysis for inexact Halpern iteration and propose a stochastic KM iteration with a multilevel Monte Carlo estimator.
翻訳日:2024-02-08 14:17:35 公開日:2024-02-07
# 多元的アライメントへの道程

A Roadmap to Pluralistic Alignment ( http://arxiv.org/abs/2402.05070v1 )

ライセンス: Link先を確認
Taylor Sorensen, Jared Moore, Jillian Fisher, Mitchell Gordon, Niloofar Mireshghallah, Christopher Michael Rytting, Andre Ye, Liwei Jiang, Ximing Lu, Nouha Dziri, Tim Althoff, Yejin Choi(参考訳) AIシステムのパワーと普及により、AIシステムはあらゆる、すなわちさまざまな価値と視点を持つ人々に役立つように設計されていることがますます重要になる。 しかし、多元的人間の価値を提供するためにモデルを整列させることは、オープンな研究課題である。 本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。 AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。 1) 合理的応答のスペクトルを示すオーバートン多元性モデル 2) 一定の視点を反映できる安定多元性モデル,及び 3)分布の集団によく分類された分布多元性モデル。 また、多元ベンチマークの可能な3つのクラスを提案し、定式化する。 1)多目的ベンチマーク 2)トレードオフステアブルベンチマークは、任意のトレードオフに対応するモデルにインセンティブを与えるとともに、 3) 多様な人間格付けを明示的にモデル化した鑑定的ベンチマーク。 実際、我々は、我々の実験と他の仕事の両方から、標準アライメント手順がモデルにおける分布的多元主義を減少させ、多元的アライメントに関するさらなる研究が必要であるという実証的な証拠を強調している。

With increased power and prevalence of AI systems, it is ever more critical that AI systems are designed to serve all, i.e., people with diverse values and perspectives. However, aligning models to serve pluralistic human values remains an open research question. In this piece, we propose a roadmap to pluralistic alignment, specifically using language models as a test bed. We identify and formalize three possible ways to define and operationalize pluralism in AI systems: 1) Overton pluralistic models that present a spectrum of reasonable responses; 2) Steerably pluralistic models that can steer to reflect certain perspectives; and 3) Distributionally pluralistic models that are well-calibrated to a given population in distribution. We also propose and formalize three possible classes of pluralistic benchmarks: 1) Multi-objective benchmarks, 2) Trade-off steerable benchmarks, which incentivize models to steer to arbitrary trade-offs, and 3) Jury-pluralistic benchmarks which explicitly model diverse human ratings. We use this framework to argue that current alignment techniques may be fundamentally limited for pluralistic AI; indeed, we highlight empirical evidence, both from our own experiments and from other work, that standard alignment procedures might reduce distributional pluralism in models, motivating the need for further research on pluralistic alignment.
翻訳日:2024-02-08 14:17:03 公開日:2024-02-07
# 物理インフォームドニューラルネットワークを用いたマルチスケールモデリング:大規模ダイナミクスから複雑系の小規模予測へ

Multiscale Modelling with Physics-informed Neural Network: from Large-scale Dynamics to Small-scale Predictions in Complex Systems ( http://arxiv.org/abs/2402.05067v1 )

ライセンス: Link先を確認
Jing Wang and Zheng Li and Pengyu Lai and Rui Wang and Di Yang and Hui Xu(参考訳) 多スケール現象は様々な科学領域にまたがって現れ、複雑系における多スケールダイナミクスを正確にかつ効果的に予測するためのユビキタスな課題を提示する。 本稿では,デカップリング法によるマルチスケールダイナミクスのキャラクタリゼーションのための新しい解法モードを提案する。 大規模ダイナミクスを独立にモデル化し、小規模ダイナミクスを奴隷化されたシステムとして扱うことにより、スペクトルピンは、直交基底汎関数空間において小規模システムをアプローチするために開発された。 この手法の有効性は1次元クラモット・シヴァシンスキー方程式(KS)、2次元および3次元ナビエ・ストークス方程式(NS)を含む広範囲な数値実験により実証され、流体力学の問題を解く上でその汎用性を示す。 さらに,非一様メッシュ,複雑なジオメトリ,ノイズを伴う大規模データ,高次元の小型ダイナミックスなど,より複雑な問題への提案手法の適用についても検討する。 これらのシナリオに関する議論は、メソッドの能力と制限の包括的理解に寄与する。 この新しいデカップリング手法は、計算要求の少ない大規模データを取得可能な時空間システムの解析と予測を単純化し、続いて、効率と精度を向上した小規模ダイナミックスを捕捉するためのスペクトルPINNを用いる。

Multiscale phenomena manifest across various scientific domains, presenting a ubiquitous challenge in accurately and effectively predicting multiscale dynamics in complex systems. In this paper, a novel solving mode is proposed for characterizing multiscale dynamics through a decoupling method. By modelling large-scale dynamics independently and treating small-scale dynamics as a slaved system, a Spectral PINN is developed to approach the small-scale system in an orthogonal basis functional space. The effectiveness of the method is demonstrated through extensive numerical experiments, including one-dimensional Kuramot-Sivashinsky (KS) equation, two- and three-dimensional Navier-Stokes (NS) equations, showcasing its versatility in addressing problems of fluid dynamics. Furthermore, we also delve into the application of the proposed approach to more complex problems, including non-uniform meshes, complex geometries, large-scale data with noise, and high-dimensional small-scale dynamics. The discussions about these scenarios contribute to a comprehensive understanding of the method's capabilities and limitations. This novel decoupling approach simplifies the analysis and prediction of spatiotemporal systems, where large-scale data can be obtained with low computational demands, followed by Spectral PINNs for capturing small-scale dynamics with improved efficiency and accuracy.
翻訳日:2024-02-08 14:16:43 公開日:2024-02-07
# lgm:高解像度3dコンテンツ作成のための大規模マルチビューガウスモデル

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation ( http://arxiv.org/abs/2402.05054v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, Ziwei Liu(参考訳) 3Dコンテンツ作成は、品質とスピードの両面で大きな進歩を遂げた。 現在のフィードフォワードモデルは数秒で3Dオブジェクトを生成できるが、その解像度はトレーニングに必要な集中的な計算によって制約される。 本稿では,テキストプロンプトやシングルビュー画像から高解像度3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model(LGM)を紹介する。 私たちの重要な洞察は2つあります。 1) 3次元表現:我々は多視点ガウス特徴を効率的かつ強力な表現として提案する。 2) 3Dバックボーン: 多視点拡散モデルを利用してテキストやシングルビュー画像入力から生成できる,多視点画像で動作する高スループットバックボーンとして非対称なU-Netを示す。 広範な実験により,我々のアプローチの忠実性と効率性が実証された。 特に,5秒以内に3Dオブジェクトの生成速度を維持しながら,トレーニング解像度を512に引き上げ,高解像度な3Dコンテンツ生成を実現する。

3D content creation has achieved significant progress in terms of both quality and speed. Although current feed-forward models can produce 3D objects in seconds, their resolution is constrained by the intensive computation required during training. In this paper, we introduce Large Multi-View Gaussian Model (LGM), a novel framework designed to generate high-resolution 3D models from text prompts or single-view images. Our key insights are two-fold: 1) 3D Representation: We propose multi-view Gaussian features as an efficient yet powerful representation, which can then be fused together for differentiable rendering. 2) 3D Backbone: We present an asymmetric U-Net as a high-throughput backbone operating on multi-view images, which can be produced from text or single-view image input by leveraging multi-view diffusion models. Extensive experiments demonstrate the high fidelity and efficiency of our approach. Notably, we maintain the fast speed to generate 3D objects within 5 seconds while boosting the training resolution to 512, thereby achieving high-resolution 3D content generation.
翻訳日:2024-02-08 14:16:19 公開日:2024-02-07
# 最適資源を有するマルチ量子ビットトッフォリゲートの量子回路

Quantum circuit for multi-qubit Toffoli gate with optimal resource ( http://arxiv.org/abs/2402.05053v1 )

ライセンス: Link先を確認
Junhong Nie, Wei Zi, Xiaoming Sun(参考訳) 資源消費は、量子情報処理において、特に現在のnisq時代に重要な問題である。 本稿では,量子計算と量子シミュレーションの分野における基本構成要素である複数の制御操作を実装するための資源最適化について検討する。 我々は、n$-toffoliゲートと一般マルチコントロールユニタリのための新しい量子回路を設計し、これは、o(\log n)$-depthと$o(n)$-sizeしか持たず、補助量子ビットは1ドルしか必要としない。 これらの結果を得るため, アクビットの可能性を探求し, 既存のクビットから新しい条件付きクビットを作成する方法を発見する。 これらの手法は、増分器のための効率的な量子回路を構築するためにも利用することができ、深さが$O(\log^2n)$とサイズが$O(n)$のマルチキュービットトフォリゲートの実装につながる。 さらに,資源理論の観点から,漸近量子ビットのパワーを考察する。 量子ビットの補助がなければ、マルチ量子ビットのトッフォリゲートの量子回路実装は指数関数的精度ゲートを使わなければならない。 この発見は、量子回路の計算能力において、Acillary qubitsの使用と使用との間に大きな差異があることを示唆している。 さらに,量子回路設計における副次量子ビットのパワーと余剰エネルギーレベルの比較について検討する。

Resource consumption is an important issue in quantum information processing, particularly during the present NISQ era. In this paper, we investigate resource optimization of implementing multiple controlled operations, which are fundamental building blocks in the field of quantum computing and quantum simulation. We design new quantum circuits for the $n$-Toffoli gate and general multi-controlled unitary, which have only $O(\log n)$-depth and $O(n)$-size, and only require $1$ ancillary qubit. To achieve these results, we explore the potential of ancillary qubits and discover a method to create new conditional clean qubits from existed ancillary qubits. These techniques can also be utilized to construct an efficient quantum circuit for incrementor, leading to an implementation of multi-qubit Toffoli gate with a depth of $O(\log^2n)$ and size of $O(n)$ without any ancillary qubits. Furthermore, we explore the power of ancillary qubits from the perspective of resource theory. We demonstrate that without the assistance of ancillary qubit, any quantum circuit implementation of multi-qubit Toffoli gate must employ exponential precision gates. This finding indicates a significant disparity in computational power of quantum circuits between using and not using ancillary qubits. Additionally, we discuss the comparison of the power of ancillary qubits and extra energy levels in quantum circuit design.
翻訳日:2024-02-08 14:16:00 公開日:2024-02-07
# 複数の分布から学ぶ因果表現--一般的な設定

Causal Representation Learning from Multiple Distributions: A General Setting ( http://arxiv.org/abs/2402.05052v1 )

ライセンス: Link先を確認
Kun Zhang, Shaoan Xie, Ignavier Ng, Yujia Zheng(参考訳) 多くの問題において、測定された変数(例えば画像ピクセル)は隠れた因果変数(例えば、基礎となる概念や対象)の数学的関数である。 環境の変化を予測したり、システムに適切な変更を加えるためには、隠れた因果変数$Z_i$とその因果関係をグラフ$\mathcal{G}_Z$で表すのに役立つ。 この問題は近年、因果表現学習として知られている。 本稿では,複数分布(異種データや非定常時系列など)からの因果表現学習の一般的な非パラメトリックな設定について,分布変化の背景にあるハード介入を仮定することなく検討する。 製品として、パラメトリック因果モデルやハード介入といった他の仮定によってもたらされる独特な利点を見出すのに役立ちます。 潜在変数に対する回復グラフのスパーシティ制約と、因果影響に対する適切な変化条件の下では、基礎となる有向非巡回グラフのモラル化グラフを回復することができ、回復した潜在変数とその関係は、特定の非自明な方法で基礎となる因果モデルと関連していることを示す。 場合によっては、各潜在変数をコンポーネント毎の変換まで復元することも可能である。 実験結果は理論的な主張を検証する。

In many problems, the measured variables (e.g., image pixels) are just mathematical functions of the hidden causal variables (e.g., the underlying concepts or objects). For the purpose of making predictions in changing environments or making proper changes to the system, it is helpful to recover the hidden causal variables $Z_i$ and their causal relations represented by graph $\mathcal{G}_Z$. This problem has recently been known as causal representation learning. This paper is concerned with a general, completely nonparametric setting of causal representation learning from multiple distributions (arising from heterogeneous data or nonstationary time series), without assuming hard interventions behind distribution changes. We aim to develop general solutions in this fundamental case; as a by product, this helps see the unique benefit offered by other assumptions such as parametric causal models or hard interventions. We show that under the sparsity constraint on the recovered graph over the latent variables and suitable sufficient change conditions on the causal influences, interestingly, one can recover the moralized graph of the underlying directed acyclic graph, and the recovered latent variables and their relations are related to the underlying causal model in a specific, nontrivial way. In some cases, each latent variable can even be recovered up to component-wise transformations. Experimental results verify our theoretical claims.
翻訳日:2024-02-08 14:15:35 公開日:2024-02-07
# 連合学習は、有益である友人を見つけることができる

Federated Learning Can Find Friends That Are Beneficial ( http://arxiv.org/abs/2402.05050v1 )

ライセンス: Link先を確認
Nazarii Tupitsa and Samuel Horv\'ath and Martin Tak\'a\v{c} and Eduard Gorbunov(参考訳) フェデレーション学習(fl)では、クライアントデータの分散的性質と多様性は、機会と課題の両方を示す。 クライアント間のコラボレーションは学習プロセスを大幅に強化するが、すべてのコラボレーションが有益であるわけではない。 本研究では,fl訓練に参加する顧客に対して適応的集約重みを割り当て,特定の学習目標に最も寄与するデータ分布を持つ顧客を特定する新しいアルゴリズムを提案する。 本手法は,同じデータ分布を持つクライアントから受信した更新のみを集約する手法と同等に収束することを示す。 さらに、経験的評価により、我々のアルゴリズムによるコラボレーションは従来のflアプローチよりも優れていることが明らかとなった。 これはjudicious client選択の重要役割を強調するものであり、今後数年間でより合理化され効果的なfl実装の基盤となる。

In Federated Learning (FL), the distributed nature and heterogeneity of client data present both opportunities and challenges. While collaboration among clients can significantly enhance the learning process, not all collaborations are beneficial; some may even be detrimental. In this study, we introduce a novel algorithm that assigns adaptive aggregation weights to clients participating in FL training, identifying those with data distributions most conducive to a specific learning objective. We demonstrate that our aggregation method converges no worse than the method that aggregates only the updates received from clients with the same data distribution. Furthermore, empirical evaluations consistently reveal that collaborations guided by our algorithm outperform traditional FL approaches. This underscores the critical role of judicious client selection and lays the foundation for more streamlined and effective FL implementations in the coming years.
翻訳日:2024-02-08 14:15:08 公開日:2024-02-07
# あなたのAIはどんなものか? 規制に適した人工知能システムの定義に向けて

How VADER is your AI? Towards a definition of artificial intelligence systems appropriate for regulation ( http://arxiv.org/abs/2402.05048v1 )

ライセンス: Link先を確認
Leonardo C. T. Bezerra, Alexander E. I. Brownlee, Luana Ferraz Alvarenga, Renan Cipriano Moioli, Thais Vasconcelos Batista(参考訳) 人工知能(AI)は多くの情報通信技術(ICT)を突破した。 それでも、ICTシステムの範囲はチューリングテストの提案以来、AIを超えて拡大している。 最近のAI規制提案では、ICT技術、アプローチ、AI以外のシステムに影響を与えるAI定義を採用している。 場合によっては、数学、統計学、工学からも影響がある。 さらに悪いことに、西欧社会からグローバル・サウスまでAIの誤定義が観察されている。 本稿では,AI定義がいかに適切に定義されているかを評価するためのフレームワークを提案する。 私たちのオンラインで公開しているVADERフレームワークは、規制のためのAI定義の基盤となるべき前提の範囲をスコア付けします。 (i)他の成功した技術規制で見られる原則を再現し、 (II)非AI作業を除いて、すべてのAI技術とアプローチを含む。 後者については,代表的AI,非AIICT,非ICT事例のデータセットに基づいて評価を行った。 我々は,米国,英国,欧州連合,ブラジルといった主要選手のai規制提案をレビューすることで,我々の貢献を実証する。 重要な点として、評価された提案は、修正の必要性から具体的なリスク、ICTシステム、その他の分野からの作業など、適切性スコアを達成できない。

Artificial intelligence (AI) has driven many information and communication technology (ICT) breakthroughs. Nonetheless, the scope of ICT systems has expanded far beyond AI since the Turing test proposal. Critically, recent AI regulation proposals adopt AI definitions affecting ICT techniques, approaches, and systems that are not AI. In some cases, even works from mathematics, statistics, and engineering would be affected. Worryingly, AI misdefinitions are observed from Western societies to the Global South. In this paper, we propose a framework to score how \textit{validated as appropriately-defined for regulation} (VADER) an AI definition is. Our online, publicly-available VADER framework scores the coverage of premises that should underlie AI definitions for regulation, which aim to (i) reproduce principles observed in other successful technology regulations, and (ii) include all AI techniques and approaches while excluding non-AI works. Regarding the latter, our score is based on a dataset of representative AI, non-AI ICT, and non-ICT examples. We demonstrate our contribution by reviewing the AI regulation proposals of key players, namely the United States, United Kingdom, European Union, and Brazil. Importantly, none of the proposals assessed achieve the appropriateness score, ranging from a revision need to a concrete risk to ICT systems and works from other fields.
翻訳日:2024-02-08 14:14:55 公開日:2024-02-07
# 繰り返し励起した量子ビットの放射を観測してキャビティのエネルギーをモニタリングする

Monitoring the energy of a cavity by observing the emission of a repeatedly excited qubit ( http://arxiv.org/abs/2402.05046v1 )

ライセンス: Link先を確認
Hector Hutin, Antoine Essig, R\'eouven Assouly, Pierre Rouchon, Audrey Bienfait, and Benjamin Huard(参考訳) 大きな量子系(ハーモニック発振器またはqudit)における励起数を分散結合量子ビットを用いて量子非解体方法で測定することができる。 通常、光子数に関する様々な二進的問題を符号化する一連の量子ビットパルスを必要とする。 近年, 共振器内の光子数を追跡するために, 同一パルス列で駆動される量子ビットの蛍光測定法を導入し, モニタリングを簡素化し, 測定バックアクションに関する興味深い疑問を提起している。 超伝導回路を用いた最初の実現は、光子の平均数をこのように測定できることを示した。 ここでは, 共振器崩壊率の4桁が分散結合率とクォービット放出率の双方よりも桁違いに小さいため, 単発撮影と数追跡に到達した実験について述べる。 革新的なノッチフィルタとポゴピンベースのガルバニックコンタクトは、これらと互換性のない特徴を可能にする。 パルストレイン下の量子ビットダイナミクスを特徴付ける。 量子ジャンプは、量子ビット蛍光を通じて光子数を観測し、光子がキャビティを1つずつ離すのを観測する。 また, 測定速度と誘起劣化率を抽出し, 理論モデルと比較した。 本手法はボソニック符号や量子ドット上の量子誤り訂正プロトコルに適用できる。

The number of excitations in a large quantum system (harmonic oscillator or qudit) can be measured in a quantum non demolition manner using a dispersively coupled qubit. It typically requires a series of qubit pulses that encode various binary questions about the photon number. Recently, a method based on the fluorescence measurement of a qubit driven by a train of identical pulses was introduced to track the photon number in a cavity, hence simplifying its monitoring and raising interesting questions about the measurement backaction of this scheme. A first realization with superconducting circuits demonstrated how the average number of photons could be measured in this way. Here we present an experiment that reaches single shot photocounting and number tracking owing to a cavity decay rate 4 orders of magnitude smaller than both the dispersive coupling rate and the qubit emission rate. An innovative notch filter and pogo-pin based galvanic contact makes possible these seemingly incompatible features. The qubit dynamics under the pulse train is characterized. We observe quantum jumps by monitoring the photon number via the qubit fluorescence as photons leave the cavity one at a time. Besides, we extract the measurement rate and induced dephasing rate and compare them to theoretical models. Our method could be applied to quantum error correction protocols on bosonic codes or qudits.
翻訳日:2024-02-08 14:14:36 公開日:2024-02-07
# ラベル不確かさを伴うリモートセンシングデータに対する高効率マルチリゾリューション融合

Efficient Multi-Resolution Fusion for Remote Sensing Data with Label Uncertainty ( http://arxiv.org/abs/2402.05045v1 )

ライセンス: Link先を確認
Hersh Vakharia and Xiaoxiao Du(参考訳) マルチモーダルセンサデータ融合は,各センサからの情報を補完あるいは強化することにより,シーン分類やターゲット検出といったアプリケーション全体のパフォーマンスを向上させる。 本稿では,画素レベルのトレーニングラベルを必要とすることなく,マルチモーダル・マルチレゾリューションのリモートセンサデータを融合させる新しい手法を提案する。 これまで我々は,マルチインスタンスマルチレゾリューション・フュージョン(mimrf)フレームワークを開発してきたが,センサデータソースの統合に使用されるファジィ測度の探索スペースが大きいため,学習が遅くなる可能性がある。 本研究では,検索スペースを削減し,mimrfフレームワークの効率を大幅に向上させる,二元ファジィ測度に基づく新しい手法を提案する。 本研究では, 合成データと実世界のリモートセンシング検出タスクに関する実験結果を示し, 提案するmimrf-bfmアルゴリズムが, 不確かさのあるリモートセンシングデータに対して, 効果的かつ効率的にマルチレゾリューション融合を行うことができることを示す。

Multi-modal sensor data fusion takes advantage of complementary or reinforcing information from each sensor and can boost overall performance in applications such as scene classification and target detection. This paper presents a new method for fusing multi-modal and multi-resolution remote sensor data without requiring pixel-level training labels, which can be difficult to obtain. Previously, we developed a Multiple Instance Multi-Resolution Fusion (MIMRF) framework that addresses label uncertainty for fusion, but it can be slow to train due to the large search space for the fuzzy measures used to integrate sensor data sources. We propose a new method based on binary fuzzy measures, which reduces the search space and significantly improves the efficiency of the MIMRF framework. We present experimental results on synthetic data and a real-world remote sensing detection task and show that the proposed MIMRF-BFM algorithm can effectively and efficiently perform multi-resolution fusion given remote sensing data with uncertainty.
翻訳日:2024-02-08 14:14:13 公開日:2024-02-07
# SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models ( http://arxiv.org/abs/2402.05044v1 )

ライセンス: Link先を確認
Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao(参考訳) 大規模言語モデル(LLM)の急速な発展の中で、堅牢な安全性確保が最重要である。 この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。 SALAD-Benchは、その規模、多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて従来のベンチマークを超越し、標準的なクエリから、攻撃、防御修正、多重選択に富んだ複雑なものまで、厳密な質問によって構築されている。 そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。 SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。 我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。 data と evaluator は \url{https://github.com/opensafetylab/salad-bench} でリリースされる。 警告: 本論文は攻撃的あるいは有害な例を含む。

In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under \url{https://github.com/OpenSafetyLab/SALAD-BENCH}. Warning: this paper includes examples that may be offensive or harmful.
翻訳日:2024-02-08 14:13:53 公開日:2024-02-07
# 説明保存グラフ摂動下におけるPAC学習可能性

PAC Learnability under Explanation-Preserving Graph Perturbations ( http://arxiv.org/abs/2402.05039v1 )

ライセンス: Link先を確認
Xu Zheng, Farhad Shirani, Tianchun Wang, Shouwei Gao, Wenqian Dong, Wei Cheng, Dongsheng Luo(参考訳) グラフィカルモデルは、ソーシャルネットワーク、生物学、自然言語処理など、幅広いアプリケーションにおけるエンティティ間の関係を捉えている。 グラフニューラルネットワーク(GNN)は、グラフ上で動作するニューラルモデルであり、グラフ構造化データの複雑な関係と依存関係を活用することができる。 グラフの説明は、その分類ラベルに関して入力グラフの「ほぼ十分」統計である部分グラフである。 したがって、分類ラベルは、説明部分グラフに属さないグラフエッジの摂動に対して、高い確率で不変である。 本研究は,gnnの設計とトレーニングにおいて,そのような摂動不変性を活用するための2つの方法を検討する。 まず,説明支援学習ルールを検討する。 説明支援学習のサンプル複雑性は,説明非依存学習よりも任意に小さいことが示された。 次に、元のトレーニングセットにおける非説明エッジの摂動を通じて新たなトレーニングサンプルを人工的に生成することにより、トレーニングセットを拡大する説明支援データ拡張について検討する。 このようなデータ拡張手法は,拡張データが分散内にある場合,性能が向上するが,拡張データが分散外である場合,説明非依存の学習規則に比べてサンプルの複雑さが悪化する可能性がある。 理論解析を検証するために広範な経験的評価が提供されている。

Graphical models capture relations between entities in a wide range of applications including social networks, biology, and natural language processing, among others. Graph neural networks (GNN) are neural models that operate over graphs, enabling the model to leverage the complex relationships and dependencies in graph-structured data. A graph explanation is a subgraph which is an `almost sufficient' statistic of the input graph with respect to its classification label. Consequently, the classification label is invariant, with high probability, to perturbations of graph edges not belonging to its explanation subgraph. This work considers two methods for leveraging such perturbation invariances in the design and training of GNNs. First, explanation-assisted learning rules are considered. It is shown that the sample complexity of explanation-assisted learning can be arbitrarily smaller than explanation-agnostic learning. Next, explanation-assisted data augmentation is considered, where the training set is enlarged by artificially producing new training samples via perturbation of the non-explanation edges in the original training set. It is shown that such data augmentation methods may improve performance if the augmented data is in-distribution, however, it may also lead to worse sample complexity compared to explanation-agnostic learning rules if the augmented data is out-of-distribution. Extensive empirical evaluations are provided to verify the theoretical analysis.
翻訳日:2024-02-08 14:13:27 公開日:2024-02-07
# 医用画像解析のための領域一般化に関する調査

A Survey on Domain Generalization for Medical Image Analysis ( http://arxiv.org/abs/2402.05035v1 )

ライセンス: Link先を確認
Ziwei Niu and Shuyi Ouyang and Shiao Xie and Yen-wei Chen and Lanfen Lin(参考訳) 近年の深層学習(DL)の進展に伴い,医療画像解析(MedIA)がコンピュータ支援診断システムにおいて重要なツールとして出現している。 しかし、よく訓練されたディープモデルは、異なる医療現場、モダリティ、およびドメインシフト問題として知られるシーケンスに展開する際に、大きなパフォーマンス劣化を経験することが多い。 これを踏まえて、MedIAのドメイン一般化(DG)は、未知のデータ分散を効果的に一般化し、堅牢に実行することで、ドメインシフトの課題に対処することを目指している。 本稿では,この分野の実質的な発展について概観する。 まず,医療分野におけるドメインシフトとドメイン一般化を形式的に定義し,関連するいくつかの設定について考察する。 次に,データ操作レベル,特徴表現レベル,モデルトレーニングレベルという3つの視点から最新の手法を要約し,各視点について詳細なアルゴリズムを提示する。 さらに、よく使われるデータセットも紹介する。 最後に,既存の文献を要約し,今後の研究課題について述べる。 この調査のために、サポートリソースを収集したGitHubプロジェクトも、リンクで作成しました。

Medical Image Analysis (MedIA) has emerged as a crucial tool in computer-aided diagnosis systems, particularly with the advancement of deep learning (DL) in recent years. However, well-trained deep models often experience significant performance degradation when deployed in different medical sites, modalities, and sequences, known as a domain shift issue. In light of this, Domain Generalization (DG) for MedIA aims to address the domain shift challenge by generalizing effectively and performing robustly across unknown data distributions. This paper presents the a comprehensive review of substantial developments in this area. First, we provide a formal definition of domain shift and domain generalization in medical field, and discuss several related settings. Subsequently, we summarize the recent methods from three viewpoints: data manipulation level, feature representation level, and model training level, and present some algorithms in detail for each viewpoints. Furthermore, we introduce the commonly used datasets. Finally, we summarize existing literature and present some potential research topics for the future. For this survey, we also created a GitHub project by collecting the supporting resources, at the link: https://github.com/Ziwei-Niu/DG_for_MedIA
翻訳日:2024-02-08 14:13:05 公開日:2024-02-07
# バートはシェイクスピア英語をどう話すか? 文脈言語モデルにおける歴史的バイアスの評価

How BERT Speaks Shakespearean English? Evaluating Historical Bias in Contextual Language Models ( http://arxiv.org/abs/2402.05034v1 )

ライセンス: Link先を確認
Miriam Cuscito, Alfio Ferrara, Martin Ruskov(参考訳) 本稿では,近世英語 (eme) と現代英語 (me) について,その妥当性を計測することで,bert に基づく文脈言語モデルの歴史的バイアスを分析する方法を検討する。 予備実験では,60のマスキング文(EME特20、ME特20、ジェネリック20)と3つの異なるモデル(BERT Base, MacBERTh, English HLM)を用いて補充試験を行った。 次に、2つの言語品種間の5点バイポーラスケールに基づいてモデル予測を評価し、重み付けスコアを導出し、各モデルの妥当性を英語のEMEとMEに測定する。

In this paper, we explore the idea of analysing the historical bias of contextual language models based on BERT by measuring their adequacy with respect to Early Modern (EME) and Modern (ME) English. In our preliminary experiments, we perform fill-in-the-blank tests with 60 masked sentences (20 EME-specific, 20 ME-specific and 20 generic) and three different models (i.e., BERT Base, MacBERTh, English HLM). We then rate the model predictions according to a 5-point bipolar scale between the two language varieties and derive a weighted score to measure the adequacy of each model to EME and ME varieties of English.
翻訳日:2024-02-08 14:12:46 公開日:2024-02-07
# Simulated Overparameterization

Simulated Overparameterization ( http://arxiv.org/abs/2402.05033v1 )

ライセンス: Link先を確認
Hanna Mazzawi, Pranjal Awasthi, Xavi Gonzalvo, Srikumar Ramalingam(参考訳) 本稿ではSOP(Simulated Overparametrization)と呼ばれる新しいパラダイムを紹介する。 SOPは、コンパクトモデルの計算効率と過パラメータモデルの高度な学習能力とを融合する。 SOPは、モデルトレーニングと推論に対するユニークなアプローチを提案し、パラメータのより小さな効率的なサブセットが推論中の実際の計算に使用されるように、非常に多くのパラメータを持つモデルを訓練する。 このフレームワークを基盤として,トランスフォーマーモデルを含む主要なアーキテクチャとシームレスに統合可能な,アーキテクチャに依存しない新しいアルゴリズム"majority kernels"を提案する。 主要カーネルは過度にパラメータ化されたモデルのシミュレーショントレーニングを可能にし、アーキテクチャやタスク間でパフォーマンスが向上する。 さらに,本手法は,トレーニング時に発生したコスト(ウォールクロック時間)に最小限のオーバーヘッドを加える。 提案手法は,多種多様なデータセットやモデルに対して高い性能を示し,サブモジュール最適化に基づく組合せ最適化手法など,強力なベースラインを達成している。

In this work, we introduce a novel paradigm called Simulated Overparametrization (SOP). SOP merges the computational efficiency of compact models with the advanced learning proficiencies of overparameterized models. SOP proposes a unique approach to model training and inference, where a model with a significantly larger number of parameters is trained in such a way that a smaller, efficient subset of these parameters is used for the actual computation during inference. Building upon this framework, we present a novel, architecture agnostic algorithm called "majority kernels", which seamlessly integrates with predominant architectures, including Transformer models. Majority kernels enables the simulated training of overparameterized models, resulting in performance gains across architectures and tasks. Furthermore, our approach adds minimal overhead to the cost incurred (wall clock time) at training time. The proposed approach shows strong performance on a wide variety of datasets and models, even outperforming strong baselines such as combinatorial optimization methods based on submodular optimization.
翻訳日:2024-02-08 14:12:30 公開日:2024-02-07
# Edu-ConvoKit: 教育会話データのためのオープンソースのライブラリ

Edu-ConvoKit: An Open-Source Library for Education Conversation Data ( http://arxiv.org/abs/2402.05111v1 )

ライセンス: Link先を確認
Rose E. Wang, Dorottya Demszky(参考訳) edu-convokitは,教育における会話データの事前処理,アノテーション,分析を扱うオープンソースライブラリである。 教育会話データを分析するためのリソースは乏しく、研究は実行が難しく、アクセスが困難である。 Edu-ConvoKitでこれらの課題に対処する。 Edu-ConvoKitはオープンソースである(https://github.com/stanfordnlp/edu-convokit )。 デモビデオはhttps://youtu.be/zdci839vako? si=h9qln76ucSuXb8-。 3つの多様な教育データセットにedu-convokitのcolabアプリケーションや、githubリポジトリにあるedu-convokit関連論文のリポジトリなど、追加のリソースが含まれています。

We introduce Edu-ConvoKit, an open-source library designed to handle pre-processing, annotation and analysis of conversation data in education. Resources for analyzing education conversation data are scarce, making the research challenging to perform and therefore hard to access. We address these challenges with Edu-ConvoKit. Edu-ConvoKit is open-source (https://github.com/stanfordnlp/edu-convokit ), pip-installable (https://pypi.org/project/edu-convokit/ ), with comprehensive documentation (https://edu-convokit.readthedocs.io/en/latest/ ). Our demo video is available at: https://youtu.be/zdcI839vAko?si=h9qlnl76ucSuXb8- . We include additional resources, such as Colab applications of Edu-ConvoKit to three diverse education datasets and a repository of Edu-ConvoKit related papers, that can be found in our GitHub repository.
翻訳日:2024-02-08 14:06:40 公開日:2024-02-07
# AIブラックボックスを開く:機械的解釈可能性によるプログラム合成

Opening the AI black box: program synthesis via mechanistic interpretability ( http://arxiv.org/abs/2402.05110v1 )

ライセンス: Link先を確認
Eric J. Michaud, Isaac Liao, Vedang Lad, Ziming Liu, Anish Mudide, Chloe Loughridge, Zifan Carl Guo, Tara Rezaei Kheirkhah, Mateja Vukeli\'c, Max Tegmark(参考訳) そこで本研究では,学習したアルゴリズムをpythonコードに自動蒸留することにより,学習対象とするニューラルネットワークの自動機械論的解釈に基づくプログラム合成手法であるmipsを提案する。 我々は、RNNが学習できる62のアルゴリズムタスクのベンチマークでMIPSをテストし、それをGPT-4と非常に相補的なものとみなす: MIPSは、GPT-4(30)で解決されない13を含む32のタスクを解決します。 MIPSは整数オートエンコーダを使用してRNNを有限状態マシンに変換し、学習アルゴリズムをキャプチャするためにブールまたは整数記号回帰を適用する。 大規模な言語モデルとは対照的に、このプログラム合成技術では、アルゴリズムやgithubのコードといった人間のトレーニングデータを使用しない(制限されない)。 このアプローチをスケールアップして、マシン学習モデルをより解釈可能で信頼性の高いものにするための機会と課題について論じる。

We present MIPS, a novel method for program synthesis based on automated mechanistic interpretability of neural networks trained to perform the desired task, auto-distilling the learned algorithm into Python code. We test MIPS on a benchmark of 62 algorithmic tasks that can be learned by an RNN and find it highly complementary to GPT-4: MIPS solves 32 of them, including 13 that are not solved by GPT-4 (which also solves 30). MIPS uses an integer autoencoder to convert the RNN into a finite state machine, then applies Boolean or integer symbolic regression to capture the learned algorithm. As opposed to large language models, this program synthesis technique makes no use of (and is therefore not limited by) human training data such as algorithms and code from GitHub. We discuss opportunities and challenges for scaling up this approach to make machine-learned models more interpretable and trustworthy.
翻訳日:2024-02-08 14:06:20 公開日:2024-02-07
# hydra: medusaデコードのためのシーケンシャルなドラフトヘッド

Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding ( http://arxiv.org/abs/2402.05109v1 )

ライセンス: Link先を確認
Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher Rinard, Jonathan Ragan-Kelley, William Brandon(参考訳) 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。 投機的復号化を行うため、小さなドラフトモデルは入力シーケンスの候補継続を提案し、ベースモデルによって並列に検証される。 最近のmedusaデコーディングフレームワークで使用されているドラフトモデルを指定するひとつの方法は、ベースモデルの隠れた状態で動作するドラフトヘッドと呼ばれる軽量ヘッドのコレクションである。 これまで、既存のドラフトヘッドはすべて順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。 本研究では,投機精度を大幅に向上する標準ドラフトヘッドの逐次依存型ドロップイン置換であるHydraヘッドを提案する。 Hydraヘッドによるデコーディングは、標準的なドラフトヘッドによるMedusaデコーディングに比べてスループットが向上する。 さらに,ヒドラヘッドのトレーニング目標とアーキテクチャについてさらに検討し,メデューサのデコードと自己回帰デコードに比べてデコードスループットが1.31倍,2.71倍向上するハイドラヘッドレシピを提案する。 全体として、hydraヘッドは標準的なドラフトヘッドに対する単純な介入であり、ドラフトヘッドベースの投機的復号のエンドツーエンド速度を大幅に向上させる。

To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding framework. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence, that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of light-weight heads, called draft heads, that operate on the base model's hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads, a sequentially dependent, drop-in replacement for standard draft heads that significantly improves speculation accuracy. Decoding with Hydra heads improves throughput compared to Medusa decoding with standard draft heads. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully-tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by 1.31x and 2.71x compared to Medusa decoding and autoregressive decoding, respectively. Overall, Hydra heads are a simple intervention on standard draft heads that significantly improve the end-to-end speed of draft head based speculative decoding.
翻訳日:2024-02-08 14:06:05 公開日:2024-02-07
# GRITモデルを用いたブラジルポルトガル語画像キャプション

Image captioning for Brazilian Portuguese using GRIT model ( http://arxiv.org/abs/2402.05106v1 )

ライセンス: Link先を確認
Rafael Silva de Alencar and William Alberto Cruz Casta\~neda and Marcellus Amadeus(参考訳) この研究は、ブラジルポルトガル語のイメージキャプションモデルの初期の発展を示すものである。 我々はGRIT (Grid - and Region-based Image Casting Transformer) モデルを用いてこの作業を行った。 GRITはトランスフォーマーのみのニューラルネットワークで、2つの視覚的特徴を効果的に利用してより良いキャプションを生成する。 GRIT法はより効率的な画像キャプション生成方法の提案として登場した。 本研究では,ブラジルポルトガル語のデータセットを用いてGRITモデルをトレーニングし,ブラジルポルトガル語のイメージキャプション手法を提案する。

This work presents the early development of a model of image captioning for the Brazilian Portuguese language. We used the GRIT (Grid - and Region-based Image captioning Transformer) model to accomplish this work. GRIT is a Transformer-only neural architecture that effectively utilizes two visual features to generate better captions. The GRIT method emerged as a proposal to be a more efficient way to generate image captioning. In this work, we adapt the GRIT model to be trained in a Brazilian Portuguese dataset to have an image captioning method for the Brazilian Portuguese Language.
翻訳日:2024-02-08 14:05:40 公開日:2024-02-07
# RESTが利用可能: 大きな言語モデルによるRESTful APIの仕様推論とブラックボックステストを自動化する

You Can REST Now: Automated Specification Inference and Black-Box Testing of RESTful APIs with Large Language Models ( http://arxiv.org/abs/2402.05102v1 )

ライセンス: Link先を確認
Alix Decrop, Gilles Perrouin, Mike Papadakis, Xavier Devroey, Pierre-Yves Schobbens(参考訳) RESTful APIは一般的なWebサービスであり、その理解、再利用性、テストプラクティスを容易にするためにドキュメントを必要とする。 OpenAPI Specification (OAS)は、そのようなAPIを文書化するために広く採用され、機械可読フォーマットである。 しかし、RESTful APIを手動でドキュメンテーションすることは、時間がかかり、エラーを起こしやすいタスクであり、その結果、利用できない、不完全な、あるいは不正確なドキュメントになります。 RESTfulなAPIテストツールは、インプット、不十分、非公式なドキュメントとしてOpenAPI仕様を必要とします。 近年,Large Language Models (LLMs) は,その余分なトレーニングデータに基づいてタスクを自動化できることを実証している。 したがって、RESTful APIのドキュメンテーションとテストプロセスを支援するために、そのような機能を利用することができる。 本稿では, LLMを利用した最初のRESTful API仕様推論とブラックボックステストアプローチであるRESTSpecITを提案する。 このアプローチは、最先端のRESTful API推論とテストツールと比較して、最小限のユーザ入力を必要とする。API名とLLMキーが与えられたら、HTTPリクエストが生成され、LLMによって返されるデータで変更される。 APIエンドポイントにリクエストを送信することで、推論とテスト目的でHTTPレスポンスを分析することができる。 RESTSpecITは、コンテキスト内プロンプトマスキング戦略を使用し、モデル微調整を必要としない。 評価では,1)GETルートの85.05%,クエリパラメータの81.05%で仕様を推測し,(2)文書化されていない有効なルートとパラメータを発見し,(3)RESTful APIでサーバエラーを発見した。 推論された仕様はテストツールの入力としても使える。

RESTful APIs are popular web services, requiring documentation to ease their comprehension, reusability and testing practices. The OpenAPI Specification (OAS) is a widely adopted and machine-readable format used to document such APIs. However, manually documenting RESTful APIs is a time-consuming and error-prone task, resulting in unavailable, incomplete, or imprecise documentation. As RESTful API testing tools require an OpenAPI specification as input, insufficient or informal documentation hampers testing quality. Recently, Large Language Models (LLMs) have demonstrated exceptional abilities to automate tasks based on their colossal training data. Accordingly, such capabilities could be utilized to assist the documentation and testing process of RESTful APIs. In this paper, we present RESTSpecIT, the first automated RESTful API specification inference and black-box testing approach leveraging LLMs. The approach requires minimal user input compared to state-of-the-art RESTful API inference and testing tools; Given an API name and an LLM key, HTTP requests are generated and mutated with data returned by the LLM. By sending the requests to the API endpoint, HTTP responses can be analyzed for inference and testing purposes. RESTSpecIT utilizes an in-context prompt masking strategy, requiring no model fine-tuning. Our evaluation demonstrates that RESTSpecIT is capable of: (1) inferring specifications with 85.05% of GET routes and 81.05% of query parameters found on average, (2) discovering undocumented and valid routes and parameters, and (3) uncovering server errors in RESTful APIs. Inferred specifications can also be used as testing tool inputs.
翻訳日:2024-02-08 14:05:30 公開日:2024-02-07
# 補間による高次一般化境界

Tighter Generalisation Bounds via Interpolation ( http://arxiv.org/abs/2402.05101v1 )

ライセンス: Link先を確認
Paul Viallard, Maxime Haddouche, Umut \c{S}im\c{s}ekli, Benjamin Guedj(参考訳) 本論文は、$(f, \gamma)$-divergenceに基づく新しいpac-bayes一般化境界を導出するためのレシピを含み、さらに、一連の確率のばらつき(kl、waserstein、total variationを含む)を補間するpac-bayes一般化境界を提示し、後続分布の性質に応じて多くの世界の中で最良の結果を得る。 これらの境界の厳密さを探求し、特定のケースである統計的学習の結果と結びつける。 また、トレーニング目標として限界をインスタンス化し、非自明な保証と実践的なパフォーマンスをもたらします。

This paper contains a recipe for deriving new PAC-Bayes generalisation bounds based on the $(f, \Gamma)$-divergence, and, in addition, presents PAC-Bayes generalisation bounds where we interpolate between a series of probability divergences (including but not limited to KL, Wasserstein, and total variation), making the best out of many worlds depending on the posterior distributions properties. We explore the tightness of these bounds and connect them to earlier results from statistical learning, which are specific cases. We also instantiate our bounds as training objectives, yielding non-trivial guarantees and practical performances.
翻訳日:2024-02-08 14:05:00 公開日:2024-02-07
# Hydragen: 共有プレフィックスによる高速LEM推論

Hydragen: High-Throughput LLM Inference with Shared Prefixes ( http://arxiv.org/abs/2402.05099v1 )

ライセンス: Link先を確認
Jordan Juravsky, Bradley Brown, Ryan Ehrlich, Daniel Y. Fu, Christopher R\'e, Azalia Mirhoseini(参考訳) Transformerベースの大規模言語モデル(LLM)は現在、数億のユーザにデプロイされている。 LLM推論は、いくつかの例やチャットボットシステムプロンプトなど、プレフィックスを共有するシーケンスのバッチで一般的に実行される。 この大きなバッチ設定でのデコーディングは、メモリから大きなキー値(KV)キャッシュを読み出し、バッチの各シーケンスに対して非効率な行列ベクトル積を計算するアテンション操作によってボトルネックになる可能性がある。 本稿では,共有プレフィックスを用いた注意のハードウェア対応実装であるhydragenについて紹介する。 Hydragenは共有プレフィックスとユニークな接尾辞を別々に計算する。 この分解により、シーケンス間でクエリをバッチ化し、冗長なメモリ読み込みを削減し、ハードウェアフレンドリーなマトリックス乗算を実現できる。 本手法は,競合ベースラインに対して最大32倍のスループット向上を実現し,バッチサイズと共有プレフィックス長で高速化を実現する。 バッチサイズが高く、プレフィックス長が1Kから16Kトークンに増加すると、Hydragenのスループットが15%以下に低下し、ベースラインのスループットが90%以上低下する。 Hydragenは単純な接頭辞分解を超えて一般化し、ツリーベースのプロンプト共有パターンに適用できるため、競合するプログラミング問題に対する推論時間を55%削減できる。

Transformer-based large language models (LLMs) are now deployed to hundreds of millions of users. LLM inference is commonly performed on batches of sequences that share a prefix, such as few-shot examples or a chatbot system prompt. Decoding in this large-batch setting can be bottlenecked by the attention operation, which reads large key-value (KV) caches from memory and computes inefficient matrix-vector products for every sequence in the batch. In this work, we introduce Hydragen, a hardware-aware exact implementation of attention with shared prefixes. Hydragen computes attention over the shared prefix and unique suffixes separately. This decomposition enables efficient prefix attention by batching queries together across sequences, reducing redundant memory reads and enabling the use of hardware-friendly matrix multiplications. Our method can improve end-to-end LLM throughput by up to 32x against competitive baselines, with speedup growing with the batch size and shared prefix length. Hydragen also enables the use of very long shared contexts: with a high batch size, increasing the prefix length from 1K to 16K tokens decreases Hydragen throughput by less than 15%, while the throughput of baselines drops by over 90%. Hydragen generalizes beyond simple prefix-suffix decomposition and can be applied to tree-based prompt sharing patterns, allowing us to further reduce inference time on competitive programming problems by 55%.
翻訳日:2024-02-08 14:04:46 公開日:2024-02-07
# 償却推論の拡散モデルについて:確率制御とサンプリングのベンチマークと改善

On diffusion models for amortized inference: Benchmarking and improving stochastic control and sampling ( http://arxiv.org/abs/2402.05098v1 )

ライセンス: Link先を確認
Marcin Sendera, Minsu Kim, Sarthak Mittal, Pablo Lemos, Luca Scimeca, Jarrid Rector-Brooks, Alexandre Adam, Yoshua Bengio, Nikolay Malkin(参考訳) 与えられた非正規化密度やエネルギー関数を持つ分布からサンプルへの拡散モデルをトレーニングする問題について検討する。 シミュレーションに基づく変分法や非政治的手法(連続生成フローネットワーク)など,拡散構造推論手法のベンチマークを行った。 我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。 また,リプレイバッファを用いて,ターゲット空間における局所探索に基づくオフポリシー法の新しい探索戦略を提案し,様々なターゲット分布におけるサンプルの質を向上させることを示す。 調査したサンプリングメソッドとベンチマークのコードは、https://github.com/gfnorg/gfn-diffusionで公開されています。

We study the problem of training diffusion models to sample from a distribution with a given unnormalized density or energy function. We benchmark several diffusion-structured inference methods, including simulation-based variational approaches and off-policy methods (continuous generative flow networks). Our results shed light on the relative advantages of existing algorithms while bringing into question some claims from past work. We also propose a novel exploration strategy for off-policy methods, based on local search in the target space with the use of a replay buffer, and show that it improves the quality of samples on a variety of target distributions. Our code for the sampling methods and benchmarks studied is made public at https://github.com/GFNOrg/gfn-diffusion as a base for future work on diffusion models for amortized inference.
翻訳日:2024-02-08 14:04:22 公開日:2024-02-07
# 強相互作用するフェシュバッハ分子を閉じ込めた物質波干渉計

Matter-wave interferometers with trapped strongly interacting Feshbach molecules ( http://arxiv.org/abs/2402.05092v1 )

ライセンス: Link先を確認
Chen Li, Qi Liang, Pradyumna Paranjape, RuGway Wu, J\"org Schmiedmayer(参考訳) 弱い相互作用から強い相互作用まで2種類の物質波干渉計を実装した。 いずれの場合も、インタラクションの効果とそのパフォーマンスへの影響について検討する。 光学格子内の2つの運動量子状態間の干渉が観測されるラムゼー型干渉計では、粒子間相互作用によって状態のエネルギーシフトが誘導される。 これにより、干渉計周波数が減少し、状態操作に使用される格子パルス中に位相シフトが発生する。 さらに, 非一様性は, 凝縮物のデファスメントや衝突損失につながり, コントラストの劣化に寄与する。 ミッチェルソン型干渉計では、物質波が空間的に分裂して導波路に再結合されるが、干渉は重要な相互作用の存在下で観測されるが、コヒーレンスは相互作用強度の増加とともに劣化する。 特に、コヒーレンスも熱雲で観測されており、ミシェルソン干渉計の白色の性質を示している。

We implement two types of matter wave interferometers using trapped Bose-condensed Feshbach molecules, from weak to strong interactions. In each case, we focus on investigating interaction effects and their implications for the performance. In the Ramsey-type interferometer where the interference between the two motional quantum states in an optical lattice is observed, inter-particle interactions are found to induce energy shifts in the states. Consequently, this results in a reduction of the interferometer frequency and introduces a phase shift during the lattice pulses used for state manipulation. Furthermore, non-uniformity leads to dephasing and collisional losses of condensate contribute to the degradation of contrast. In the Michelson-type interferometer, where matter waves are spatially split and recombined in a waveguide, interference is observed in the presence of significant interaction, however coherence degrades with increasing interaction strength. Notably, coherence is also observed in thermal clouds, indicating the white-color nature of the implemented Michelson interferometer.
翻訳日:2024-02-08 14:04:06 公開日:2024-02-07
# オブジェクトゴールナビゲーションにおけるショートカット学習のための言語ベース拡張

Language-Based Augmentation to Address Shortcut Learning in Object Goal Navigation ( http://arxiv.org/abs/2402.05090v1 )

ライセンス: Link先を確認
Dennis Hoftijzer and Gertjan Burghouts and Luuk Spreeuwers(参考訳) 深層強化学習(drl)は、家や学校のような環境において、ロボットが特定の物体(例えば「冷蔵庫を探す」)を見つけることを可能にする大きな可能性を示している。 このタスクはObject-Goal Navigation(ObjectNav)として知られている。 DRL法は主に環境シミュレータを用いて訓練・評価されている。 drlは印象的な結果を示したが、シミュレータは偏りや制限がある。 これはショートカット学習のリスク、すなわち、トレーニング環境の特定の視覚的詳細に合わせたポリシーを学ぶことを生み出す。 我々はObjectNavにおけるショートカット学習の理解を深めることを目指しており、その意味と解決策を提案する。 トレーニング環境の外観にショートカットバイアスを挿入する実験を設計する。 概念実証として、部屋のタイプを特定の壁の色(例えば、緑色の壁のある寝室)に関連付け、最先端(SOTA)のObjectNavメソッドの貧弱な一般化を、そうでない環境(例えば、青い壁のある寝室)に観察する。 エージェントは、単に対象オブジェクトの部屋の関連する壁の色を検索することによって、ターゲットオブジェクトへのナビゲートを学ぶ。 そこで我々はLanguage-based (L-B) Augmentationを提案する。 我々の重要な洞察は、視覚言語モデル(VLM)のマルチモーダルな特徴空間を利用して、機能レベルでの視覚的表現を直接拡張し、シミュレータを変更する必要がなく、モデルに1つのレイヤーを追加するだけでよいということです。 SOTA ObjectNav メソッドの成功率は 69% に低下するが,提案手法は 23% に留まる。

Deep Reinforcement Learning (DRL) has shown great potential in enabling robots to find certain objects (e.g., `find a fridge') in environments like homes or schools. This task is known as Object-Goal Navigation (ObjectNav). DRL methods are predominantly trained and evaluated using environment simulators. Although DRL has shown impressive results, the simulators may be biased or limited. This creates a risk of shortcut learning, i.e., learning a policy tailored to specific visual details of training environments. We aim to deepen our understanding of shortcut learning in ObjectNav, its implications and propose a solution. We design an experiment for inserting a shortcut bias in the appearance of training environments. As a proof-of-concept, we associate room types to specific wall colors (e.g., bedrooms with green walls), and observe poor generalization of a state-of-the-art (SOTA) ObjectNav method to environments where this is not the case (e.g., bedrooms with blue walls). We find that shortcut learning is the root cause: the agent learns to navigate to target objects, by simply searching for the associated wall color of the target object's room. To solve this, we propose Language-Based (L-B) augmentation. Our key insight is that we can leverage the multimodal feature space of a Vision-Language Model (VLM) to augment visual representations directly at the feature-level, requiring no changes to the simulator, and only an addition of one layer to the model. Where the SOTA ObjectNav method's success rate drops 69%, our proposal has only a drop of 23%.
翻訳日:2024-02-08 14:03:45 公開日:2024-02-07
# モデル最大確率推定と強化学習による非マルコフ量子制御

Non-Markovian Quantum Control via Model Maximum Likelihood Estimation and Reinforcement Learning ( http://arxiv.org/abs/2402.05084v1 )

ライセンス: Link先を確認
Tanmay Neema (1), Susmit Jha (1), Tuhin Sahai (2) ((1) SRI International Computer Science Laboratory, (2) SRI International Applied Sciences)(参考訳) 強化学習(RL)技術は制御システムの最適化にますます応用されている。 しかし、量子システムにおけるそれらの応用は、これらのシステムを測定するのが困難であるため、閉ループ制御を行うことの難しさによって妨げられている。 これはしばしば、マルコフ近似が有効でない開量子力学において悪化する問題であるモデルバイアスを導入する、仮定されたモデルに依存する。 これらの課題に対処するため,我々は環境の非マルコフ的性質を低次元有効貯留層に組み込む新しい手法を提案する。 当初、一連の測定を「データセット」として使用することにより、従来のトモグラフィー法よりも効率的な量子力学を学習するために機械学習技術を利用する。 本手法は,強化学習とモデル学習を統合することで,スピンボソンシステムにおいてデコヒーレンスに対処できる制御ポリシーやモデルを作成することができることを示す。 このアプローチはモデルバイアスの問題を軽減するだけでなく、より正確な量子力学表現を提供し、より効果的な量子制御戦略への道を開く。

Reinforcement Learning (RL) techniques have been increasingly applied in optimizing control systems. However, their application in quantum systems is hampered by the challenge of performing closed-loop control due to the difficulty in measuring these systems. This often leads to reliance on assumed models, introducing model bias, a problem that is exacerbated in open quantum dynamics where Markovian approximations are not valid. To address these challenges, we propose a novel approach that incorporates the non-Markovian nature of the environment into a low-dimensional effective reservoir. By initially employing a series of measurements as a 'dataset', we utilize machine learning techniques to learn the effective quantum dynamics more efficiently than traditional tomographic methods. Our methodology aims to demonstrates that by integrating reinforcement learning with model learning, it is possible to devise control policies and models that can counteract decoherence in a spin-boson system. This approach may not only mitigates the issues of model bias but also provides a more accurate representation of quantum dynamics, paving the way for more effective quantum control strategies.
翻訳日:2024-02-08 14:02:35 公開日:2024-02-07
# 交互量子ウォークによる三方絡み及び非局所二方絡み単一粒子状態の設計

Designing three-way entangled and nonlocal two-way entangled single particle states via alternate quantum walks ( http://arxiv.org/abs/2402.05080v1 )

ライセンス: Link先を確認
Dinesh Kumar Panda, Colin Benjamin(参考訳) 単一粒子状態との絡み合いは、多粒子アナログよりもセキュアに情報をエンコードし処理できるため、量子技術において有利である。 この文脈では、3方向および非局所の2方向の絡み合った単粒子状態が望ましい。 ここでは、資源節約シングルキュービット硬貨を用いた2次元代替量子ウォークを通じて進化する量子粒子の3自由度(dof)を含む初期分離状態から3方向の絡み合いを生成する。 3DoF間の$\pi$-tangleで定量化した3方向の絡み合いの最大値を得る。 また、粒子の非局所位置とDoFの負性によって定量化される最適二方向非局所絡み合わせを生成する。 この量子ウォークを用いたアーキテクチャは光子を用いて実験的に実現することができる。

Entanglement with single-particle states is advantageous in quantum technology because of their ability to encode and process information more securely than their multi-particle analogs. Three-way and nonlocal two-way entangled single-particle states are desirable in this context. Herein, we generate three-way entanglement from an initially separable state involving three degrees of freedom (DoF) of a quantum particle, which evolves via a 2D alternate quantum walk employing a resource-saving single-qubit coin. We achieve maximum possible values for the three-way entanglement quantified by the $\pi$-tangle between the 3 DoF. We also generate optimal two-way nonlocal entanglement, quantified by the negativity between the nonlocal position and the DoF of the particle. This prepared architecture using quantum walks can be experimentally realized with a photon.
翻訳日:2024-02-08 14:02:12 公開日:2024-02-07
# Mamba-UNet: 医用画像セグメンテーションのためのUNetライクなビジュアルマンバ

Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation ( http://arxiv.org/abs/2402.05079v1 )

ライセンス: Link先を確認
Ziyang Wang, Jian-Qing Zheng, Yichi Zhang, Ge Cui, Lei Li(参考訳) 医療画像解析の最近の進歩の中で、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は重要なベンチマークを設定している。 前者は畳み込み操作による局所的特徴の捕捉に長けているが、後者は自己認識機構を活用することで、目覚ましいグローバルな文脈理解を実現する。 しかし、どちらのアーキテクチャも、正確なセグメンテーションにおいて重要な側面である医用画像内の長距離依存関係を効率的にモデル化する際の限界を示す。 mambaアーキテクチャに触発されたmambaアーキテクチャは、長いシーケンスを扱う能力と、ssm (computation efficiency as a state space model) が強化されたグローバルコンテキスト情報を扱う能力で知られており、mambaの能力で医療画像分割においてu-netを相乗する新しいアーキテクチャであるmamba-unetを提案する。 Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。 このデザインは包括的特徴学習プロセスを促進し、複雑な詳細と医療画像内のより広い意味的コンテキストをキャプチャする。 エンコーダとデコーダパス間のシームレスな接続と情報フローを確保し,セグメンテーション性能を向上させるために,vmambaブロック内の新たな統合機構を導入する。 mri心筋マルチ構造セグメンテーションデータセットの公開実験を行った。 その結果,Mamba-UNetは,同じハイパーパラメータ設定下で,医用画像セグメンテーションにおいてUNet,Swin-UNetより優れていた。 ソースコードとベースライン実装が利用可能である。

In recent advancements in medical image analysis, Convolutional Neural Networks (CNN) and Vision Transformers (ViT) have set significant benchmarks. While the former excels in capturing local features through its convolution operations, the latter achieves remarkable global context understanding by leveraging self-attention mechanisms. However, both architectures exhibit limitations in efficiently modeling long-range dependencies within medical images, which is a critical aspect for precise segmentation. Inspired by the Mamba architecture, known for its proficiency in handling long sequences and global contextual information with enhanced computational efficiency as a State Space Model (SSM), we propose Mamba-UNet, a novel architecture that synergizes the U-Net in medical image segmentation with Mamba's capability. Mamba-UNet adopts a pure Visual Mamba (VMamba)-based encoder-decoder structure, infused with skip connections to preserve spatial information across different scales of the network. This design facilitates a comprehensive feature learning process, capturing intricate details and broader semantic contexts within medical images. We introduce a novel integration mechanism within the VMamba blocks to ensure seamless connectivity and information flow between the encoder and decoder paths, enhancing the segmentation performance. We conducted experiments on publicly available MRI cardiac multi-structures segmentation dataset. The results show that Mamba-UNet outperforms UNet, Swin-UNet in medical image segmentation under the same hyper-parameter setting. The source code and baseline implementations are available.
翻訳日:2024-02-08 14:01:33 公開日:2024-02-07
# エンタングルメントの最小誤差量子状態識別とロバスト性:エンタングルメント低減による識別性の向上

Minimal-error quantum state discrimination versus robustness of entanglement:More indistinguishability with less entanglement ( http://arxiv.org/abs/2402.05074v1 )

ライセンス: Link先を確認
Debarupa Saha, Kornikar Sen, Chirag Srivastava, and Ujjwal Sen(参考訳) 我々は、量子状態の区別可能性と絡み合いの頑健さを関連付け、どんな資源の頑健性もノイズに対する耐性の程度を定量化する。 特に, 任意の多人数のアンサンブルに現れる状態の判別の確率について, 絡み合いの頑健さと最も近い分離可能なアンサンブルの状態の判別の確率の観点から, 上層と下層の境界を同定する。 これらの境界は、構成システムの寸法、関係者の数、アンサンブルのサイズ、測定戦略が局所的かグローバル的かに関わらず、真である。 同じ量の付加的な下限は、2つの2つの状態のマルチパーティアンサンブルの特別なケースを考慮し、同じ絡み合いを持つか、少なくとも1つが分離可能であるかによって決定される。 等エンタングルメントの場合、対応する最も近い分離可能なアンサンブルのアンサンブルよりもつながった状態の識別が常に容易であることが明らかとなり、これは「より少ないエンタングルメントを持つ大きな不明瞭さ」と呼ばれる現象である。 さらに,2つの2量子状態のHaar-uniformly generated アンサンブルから選択された状態のグローバルな識別確率を調べることにより,境界がいかにきつくかを数値的に検討する。 不等な絡み合いの2要素アンサンブルの場合、2つの絡み合いの最小値は「絡み合いの少ない大きな不明瞭さ」を示すための閾値を持つ必要がある。

We relate the the distinguishability of quantum states with their robustness of the entanglement, where the robustness of any resource quantifies how tolerant it is to noise. In particular, we identify upper and lower bounds on the probability of discriminating the states, appearing in an arbitrary multiparty ensemble, in terms of their robustness of entanglement and the probability of discriminating states of the closest separable ensemble. These bounds hold true, irrespective of the dimension of the constituent systems the number of parties involved, the size of the ensemble, and whether the measurement strategies are local or global. Additional lower bounds on the same quantity is determined by considering two special cases of two-state multiparty ensembles, either having equal entanglement or at least one of them being separable. The case of equal entanglement reveals that it is always easier to discriminate the entangled states than the ones in the corresponding closest separable ensemble, a phenomenon which we refer as "More indistinguishability with less entanglement". Furthermore, we numerically explore how tight the bounds are by examining the global discrimination probability of states selected from Haar-uniformly generated ensembles of two two-qubit states. We find that for two-element ensembles of unequal entanglements, the minimum of the two entanglements must possess a threshold value for the ensemble to exhibit "More indistinguishability with less entanglement".
翻訳日:2024-02-08 14:01:03 公開日:2024-02-07
# NITO:分解能のない位相最適化のためのニューラルネットワーク

NITO: Neural Implicit Fields for Resolution-free Topology Optimization ( http://arxiv.org/abs/2402.05073v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Giorgio Giannone, Lyle Regenwetter, Faez Ahmed(参考訳) トポロジ最適化はエンジニアリング設計において重要な課題であり、最大性能を得るために与えられた空間に材料を最適に分配することが目的である。 深層学習を用いたトポロジ最適化問題を高速化する新しい手法であるニューラルインプリシットトポロジ最適化(NITO)を導入する。 NITOは、ディープラーニングベースのトポロジ最適化において、解像度のない、ドメインに依存しないソリューションを提供する最初のフレームワークの1つである。 NITOはSOTA拡散モデルに比べて最大7倍構造効率の高い構造を合成し、10分の1の時間で合成する。 NITOフレームワークでは,境界点命令不変量(BPOM)という新しい手法を導入し,境界条件を疎結合かつドメインに依存しない方法で表現し,高価なシミュレーションベースアプローチから脱却する。 重要なこととして、NITOは、CNN(Convolutional Neural Network)モデルを一定のサイズの構造化ドメインに制限するドメインと解決の制限を回避している。 この一般化により、単一のNITOモデルで無数のドメインでのソリューションのトレーニングと生成が可能になり、多数のドメイン固有のCNNとその広範なデータセットが不要になる。 その一般化性にもかかわらず、NITOは特殊タスクでもSOTAモデルより優れており、桁違いに小さく、CNNに制限のある高解像度で訓練可能である。 この汎用性、効率性、性能の組み合わせは、暗黙の場を通してエンジニアリング設計最適化問題の景観を変革するNITOの可能性を基盤としている。

Topology optimization is a critical task in engineering design, where the goal is to optimally distribute material in a given space for maximum performance. We introduce Neural Implicit Topology Optimization (NITO), a novel approach to accelerate topology optimization problems using deep learning. NITO stands out as one of the first frameworks to offer a resolution-free and domain-agnostic solution in deep learning-based topology optimization. NITO synthesizes structures with up to seven times better structural efficiency compared to SOTA diffusion models and does so in a tenth of the time. In the NITO framework, we introduce a novel method, the Boundary Point Order-Invariant MLP (BPOM), to represent boundary conditions in a sparse and domain-agnostic manner, moving away from expensive simulation-based approaches. Crucially, NITO circumvents the domain and resolution limitations that restrict Convolutional Neural Network (CNN) models to a structured domain of fixed size -- limitations that hinder the widespread adoption of CNNs in engineering applications. This generalizability allows a single NITO model to train and generate solutions in countless domains, eliminating the need for numerous domain-specific CNNs and their extensive datasets. Despite its generalizability, NITO outperforms SOTA models even in specialized tasks, is an order of magnitude smaller, and is practically trainable at high resolutions that would be restrictive for CNNs. This combination of versatility, efficiency, and performance underlines NITO's potential to transform the landscape of engineering design optimization problems through implicit fields.
翻訳日:2024-02-08 14:00:34 公開日:2024-02-07
# symbol:シンボリック方程式学習によるフレキシブルブラックボックスオプティマイザの生成

Symbol: Generating Flexible Black-Box Optimizers through Symbolic Equation Learning ( http://arxiv.org/abs/2402.02355v2 )

ライセンス: Link先を確認
Jiacheng Chen, Zeyuan Ma, Hongshu Guo, Yining Ma, Jie Zhang, Yue-Jiao Gong(参考訳) 最近のメタラーニングによるブラックボックス最適化(MetaBBO)手法は、ニューラルネットワークを利用して従来のブラックボックスオプティマイザのメタ学習構成を行う。 その成功にもかかわらず、事前に定義された手作りオプティマイザの制限によって必然的に制限される。 本稿では,記号方程式学習によるブラックボックスオプティマイザの自動発見を促進する新しいフレームワークであるtextsc{Symbol}を提案する。 具体的には、特定のタスクや最適化ステップに対して閉形式最適化ルールを動的に生成できるシンボリック方程式生成器(seg)を提案する。 次に,強化学習に基づく3つの戦略を開発し,SEGを効率的にメタ学習する。 広範な実験により、textsc{Symbol} が生成する最適化器は、最先端のBBOとMetaBBOのベースラインを超えるだけでなく、問題次元、人口規模、最適化水平線の異なる全く見えないタスクにわたって、例外的にゼロショットの一般化能力を示すことが明らかになった。 さらに,本フレームワークと,それが生成する最適化ルールの詳細な分析を行い,その望ましい柔軟性と解釈可能性を強調した。

Recent Meta-learning for Black-Box Optimization (MetaBBO) methods harness neural networks to meta-learn configurations of traditional black-box optimizers. Despite their success, they are inevitably restricted by the limitations of predefined hand-crafted optimizers. In this paper, we present \textsc{Symbol}, a novel framework that promotes the automated discovery of black-box optimizers through symbolic equation learning. Specifically, we propose a Symbolic Equation Generator (SEG) that allows closed-form optimization rules to be dynamically generated for specific tasks and optimization steps. Within \textsc{Symbol}, we then develop three distinct strategies based on reinforcement learning, so as to meta-learn the SEG efficiently. Extensive experiments reveal that the optimizers generated by \textsc{Symbol} not only surpass the state-of-the-art BBO and MetaBBO baselines, but also exhibit exceptional zero-shot generalization abilities across entirely unseen tasks with different problem dimensions, population sizes, and optimization horizons. Furthermore, we conduct in-depth analyses of our \textsc{Symbol} framework and the optimization rules that it generates, underscoring its desirable flexibility and interpretability.
翻訳日:2024-02-08 12:11:34 公開日:2024-02-07
# オンライン一様リスクタイムサンプリング:最初の近似アルゴリズム、完全信頼区間統合による学習増強

Online Uniform Risk Times Sampling: First Approximation Algorithms, Learning Augmentation with Full Confidence Interval Integration ( http://arxiv.org/abs/2402.01995v2 )

ライセンス: Link先を確認
Xueqing Liu, Kyra Gan, Esmaeil Keyvanshokooh, Susan Murphy(参考訳) デジタルヘルスにおいて、限られた治療予算を利用可能なリスク時間に割り当てる戦略は、ユーザの疲労を軽減するために不可欠である。 しかし、この戦略は、理論上の保証が欠けている既存の方法では適切に対処できない要因である、実際のリスクタイムが不明であるために、重大な障害に直面する。 本稿では,近似アルゴリズムフレームワーク内でのオンライン一様リスク時間サンプリング問題について,初めて紹介する。 そこで本研究では,学習の強化を伴わない2つのオンライン近似アルゴリズムを提案し,競合比分析による厳密な理論性能保証を提供する。 人工実験とHeartStepsモバイルアプリケーションにおける実世界のケーススタディの両方を用いてアルゴリズムの性能を評価する。

In digital health, the strategy of allocating a limited treatment budget across available risk times is crucial to reduce user fatigue. This strategy, however, encounters a significant obstacle due to the unknown actual number of risk times, a factor not adequately addressed by existing methods lacking theoretical guarantees. This paper introduces, for the first time, the online uniform risk times sampling problem within the approximation algorithm framework. We propose two online approximation algorithms for this problem, one with and one without learning augmentation, and provide rigorous theoretical performance guarantees for them using competitive ratio analysis. We assess the performance of our algorithms using both synthetic experiments and a real-world case study on HeartSteps mobile applications.
翻訳日:2024-02-08 12:11:10 公開日:2024-02-07
# QPPとHPPK:ガロア置換グループを用いた量子セキュア暗号における非可換性の統合

QPP and HPPK: Unifying Non-Commutativity for Quantum-Secure Cryptography with Galois Permutation Group ( http://arxiv.org/abs/2402.01852v3 )

ライセンス: Link先を確認
Randy Kuang(参考訳) 量子コンピューティングの発展と古典暗号システムにおける脆弱性の増大に対応するため,本論文では,統一暗号フレームワークを提案する。 対称鍵暗号のための量子置換パッド(qpp)と、鍵カプセル化機構(kem)とデジタル署名(ds)のための準同型多項式公開鍵(hppk)である。 我々のアプローチは、量子の進歩によって引き起こされる課題にしばしば直面する。 ガロア置換群の行列表現を利用し、その単射的および非可換な性質を継承し、qppは量子セキュアな対称鍵暗号を実現し、シャノンの完全機密を古典的および量子ネイティブシステムの両方にシームレスに拡張した。 一方、NPハード問題のないHPPKでは、平易な公開鍵の対称暗号化が強化されている。 このことは、モジュラー乗法やガロア置換群の算術表現を通じて数学的構造を隠蔽し、その部分準同型性を利用することによって達成される。 これにより、秘密のカプセル化中に暗号化されたデータのセキュアな計算が可能になり、平易な公開鍵のセキュリティが強化される。 HPPK暗号におけるKEMとDSのシームレスな統合により、コンパクトキー、暗号、署名サイズが得られ、例外的な性能を示す。 本稿では、ガロア置換グループの下でQPPとHPPKを有機的に統一し、量子耐性暗号プロトコルの基盤となる重要な進歩を示す。 我々の貢献は、量子コンピューティングの時代にセキュアな通信システムの開発を促進する。

In response to the evolving landscape of quantum computing and the escalating vulnerabilities in classical cryptographic systems, our paper introduces a unified cryptographic framework. Rooted in the innovative work of Kuang et al., we leverage two novel primitives: the Quantum Permutation Pad (QPP) for symmetric key encryption and the Homomorphic Polynomial Public Key (HPPK) for Key Encapsulation Mechanism (KEM) and Digital Signatures (DS). Our approach adeptly confronts the challenges posed by quantum advancements. Utilizing the Galois Permutation Group's matrix representations and inheriting its bijective and non-commutative properties, QPP achieves quantum-secure symmetric key encryption, seamlessly extending Shannon's perfect secrecy to both classical and quantum-native systems. Meanwhile, HPPK, free from NP-hard problems, fortifies symmetric encryption for the plain public key. It accomplishes this by concealing the mathematical structure through modular multiplications or arithmetic representations of Galois Permutation Group over hidden rings, harnessing their partial homomorphic properties. This allows for secure computation on encrypted data during secret encapsulations, bolstering the security of the plain public key. The seamless integration of KEM and DS within HPPK cryptography yields compact key, cipher, and signature sizes, demonstrating exceptional performance. This paper organically unifies QPP and HPPK under the Galois Permutation Group, marking a significant advancement in laying the groundwork for quantum-resistant cryptographic protocols. Our contribution propels the development of secure communication systems amid the era of quantum computing.
翻訳日:2024-02-08 12:10:56 公開日:2024-02-07
# Skip \n:大規模視覚言語モデルにおける幻覚の簡易化手法

Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.01345v3 )

ライセンス: Link先を確認
Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou(参考訳) 大規模視覚言語モデル(LVLM)の最近の進歩は、人間の言語による視覚情報理解における印象的な能力を示している。 これらの進歩にもかかわらず、LVLMは視覚情報に存在しないオブジェクトのテキスト記述を生成するなど、マルチモーダル幻覚の課題に直面している。 しかし、マルチモーダル幻覚の根本原因はいまだに解明されていない。 本稿では,LVLMの固有バイアスが幻覚の重要な要因である可能性を示唆する新しい視点を提案する。 具体的には,学習データ中の「\n\n」の前後の内容が有意な意味変化を示す場合,段落に関する意味変化バイアスを系統的に同定する。 このパターンは、「\n\n」に続く内容が幻覚的記述の少ない先行内容と明らかに異なることを推測し、「\n\n」に続く幻覚的記述の確率を増大させる。 我々は,この仮説を複数の公開LVLM上で検証した。 また、生成した記述に「\n\n」を意図的に挿入すると、より幻覚が引き起こされる。 そこで,LVLMの幻覚を効果的に緩和するために,'\n'の出力をスキップすることで簡単な手法を提案する。

Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multimodal hallucination, such as generating text descriptions of objects that are not present in the visual information. However, the underlying fundamental reasons of multimodal hallucinations remain poorly explored. In this paper, we propose a new perspective, suggesting that the inherent biases in LVLMs might be a key factor in hallucinations. Specifically, we systematically identify a semantic shift bias related to paragraph breaks (\n\n), where the content before and after '\n\n' in the training data frequently exhibit significant semantic changes. This pattern leads the model to infer that the contents following '\n\n' should be obviously different from the preceding contents with less hallucinatory descriptions, thereby increasing the probability of hallucinatory descriptions subsequent to the '\n\n'. We have validated this hypothesis on multiple publicly available LVLMs. Besides, we find that deliberately inserting '\n\n' at the generated description can induce more hallucinations. A simple method is proposed to effectively mitigate the hallucination of LVLMs by skipping the output of '\n'.
翻訳日:2024-02-08 12:10:27 公開日:2024-02-07
# 単一および積分多スペクトル空中画像の融合

Fusion of Single and Integral Multispectral Aerial Images ( http://arxiv.org/abs/2311.17515v4 )

ライセンス: Link先を確認
Mohamed Youssef, Oliver Bimber(参考訳) 複数の入力チャネルから最も重要なサルエント情報を適切に融合することは、多くの航空画像処理に不可欠である。 マルチスペクトル記録は様々なスペクトル範囲の特徴を呈するが、合成開口センシングは閉塞した特徴を可視化する。 我々は,従来の空中画像から最も重要な特徴を,合成開口センシングによる閉塞除去の結果として得られる積分空中画像とを融合する,第1および第2次ハイブリッド(モデルと学習に基づく)アーキテクチャを提案する。 環境の空間的参照と、通常、密集した植生によって隠される、目立たない標的の特徴を組み合わせる。 本手法は, 相互情報, 視覚情報忠実度, ピーク信号対雑音比などの共通指標において, 最先端の2チャンネル融合と多チャンネル融合のアプローチを視覚的, 定量的に上回る。 提案モデルは、手動で調整したパラメータを必要とせず、任意の数とスペクトルチャネルの組み合わせに拡張することができ、異なるユースケースに対応するために再構成可能である。 本研究では,探索救助,山火事検出,野生生物観察の例を示す。

An adequate fusion of the most significant salient information from multiple input channels is essential for many aerial imaging tasks. While multispectral recordings reveal features in various spectral ranges, synthetic aperture sensing makes occluded features visible. We present a first and hybrid (model- and learning-based) architecture for fusing the most significant features from conventional aerial images with the ones from integral aerial images that are the result of synthetic aperture sensing for removing occlusion. It combines the environment's spatial references with features of unoccluded targets that would normally be hidden by dense vegetation. Our method out-beats state-of-the-art two-channel and multi-channel fusion approaches visually and quantitatively in common metrics, such as mutual information, visual information fidelity, and peak signal-to-noise ratio. The proposed model does not require manually tuned parameters, can be extended to an arbitrary number and combinations of spectral channels, and is reconfigurable for addressing different use cases. We demonstrate examples for search-and-rescue, wildfire detection, and wildlife observation.
翻訳日:2024-02-08 12:10:05 公開日:2024-02-07
# トレーニング対象を超えて:大規模言語モデルにおける逆モデル多様性の解釈

Beyond Training Objectives: Interpreting Reward Model Divergence in Large Language Models ( http://arxiv.org/abs/2310.08164v4 )

ライセンス: Link先を確認
Luke Marks, Amir Abdullah, Clement Neo, Rauno Arike, Philip Torr, Fazl Barez(参考訳) 人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、より広くデプロイされている。 我々は、RLHF 中に LLM に起こる変化が高次世代をもたらすことを示すために、$\textit{Implicit Reward Model}$ (IRM) という用語を造った。 我々は、IRMを解釈し、それらを誘導する微調整プロセスで使用されるRLHF報酬モデルから、それらのばらつきを測定する。 LLMのIRMに線形関数を適用することにより、RLHF報酬モデルと同じ型シグネチャを持つ報酬モデルを構築し、直接比較することができる。 さらに,RLHF報酬モデルとの関連性に基づき,LLMが生成する特徴の分類と相互比較によるIRMの構築を検証した。 このことは、$\textit{safety}$と$\textit{alignment}$ of LLMsの重要なコンポーネントであると考えています。

Large language models (LLMs) fine-tuned by reinforcement learning from human feedback (RLHF) are becoming more widely deployed. We coin the term $\textit{Implicit Reward Model}$ (IRM) to refer to the changes that occur to an LLM during RLHF that result in high-reward generations. We interpret IRMs, and measure their divergence from the RLHF reward model used in the fine-tuning process that induced them. By fitting a linear function to an LLM's IRM, a reward model with the same type signature as the RLHF reward model is constructed, allowing for direct comparison. Additionally, we validate our construction of the IRM through cross-comparison with classifications of features generated by an LLM based on their relevance to the RLHF reward model. Better comprehending IRMs can help minimize discrepencies between LLM behavior and training objectives, which we believe to be an essential component of the $\textit{safety}$ and $\textit{alignment}$ of LLMs.
翻訳日:2024-02-08 12:09:29 公開日:2024-02-07
# エントロピーMCMC:平底盆地からの試料採取

Entropy-MCMC: Sampling from Flat Basins with Ease ( http://arxiv.org/abs/2310.05401v3 )

ライセンス: Link先を確認
Bolian Li, Ruqi Zhang(参考訳) ベイズ深層学習は後方分布推定の質をカウントする。 しかし、ディープニューラルネットワークの後方は本質的に非常にマルチモーダルであり、局所モードは一般化性能が異なる。 実用的な予算が与えられると、元の後方を狙うことは、いくつかのサンプルが"悪い"モードに閉じ込められ、過剰なフィッティングに苦しむ可能性があるため、最適以下のパフォーマンスにつながる可能性がある。 一般化誤差の低い「良い」モードはエネルギーランドスケープの平坦な流域にしばしば存在するという観察を活かし、これらの平坦な領域の後方の偏差サンプリングを提案する。 具体的には,mcmcサンプラーを平らな盆地に導くために,シャープモードのない後方平滑化に類似した定常分布を補助誘導変数として導入する。 この導出変数をモデルパラメータと統合することにより、計算オーバーヘッドを最小限に抑えた効率的なサンプリングを可能にする単純な結合分布を作成する。 提案手法の収束性を証明し, 強凸条件下での既存の平坦性認識法よりも高速に収束することを示す。 実験により,本手法は後方の平らな盆地から試料を採取し,分類,校正,分布外検出など,複数のベンチマークで比較した基準線を上回った。

Bayesian deep learning counts on the quality of posterior distribution estimation. However, the posterior of deep neural networks is highly multi-modal in nature, with local modes exhibiting varying generalization performance. Given a practical budget, targeting at the original posterior can lead to suboptimal performance, as some samples may become trapped in "bad" modes and suffer from overfitting. Leveraging the observation that "good" modes with low generalization error often reside in flat basins of the energy landscape, we propose to bias sampling on the posterior toward these flat regions. Specifically, we introduce an auxiliary guiding variable, the stationary distribution of which resembles a smoothed posterior free from sharp modes, to lead the MCMC sampler to flat basins. By integrating this guiding variable with the model parameter, we create a simple joint distribution that enables efficient sampling with minimal computational overhead. We prove the convergence of our method and further show that it converges faster than several existing flatness-aware methods in the strongly convex setting. Empirical results demonstrate that our method can successfully sample from flat basins of the posterior, and outperforms all compared baselines on multiple benchmarks including classification, calibration, and out-of-distribution detection.
翻訳日:2024-02-08 12:09:13 公開日:2024-02-07
# OHQ:オンチップのハードウェア対応量子化

OHQ: On-chip Hardware-aware Quantization ( http://arxiv.org/abs/2309.01945v3 )

ライセンス: Link先を確認
Wei Huang, Haotong Qin, Yangdong Liu, Jingzhuo Liang, Yulun Zhang, Ying Li, Xianglong Liu(参考訳) 量子化は、リソース制約のあるハードウェアに高度なディープモデルをデプロイするための最も有望なアプローチの1つとして現れます。 mixed-precision quantizationは、複数のビット幅アーキテクチャを活用して、量子化モデルの精度と効率性を解き放つ。 しかし、既存の混合精度量子化は、膨大な計算オーバーヘッドを引き起こす網羅的な探索空間に苦しむ。 したがって、量子化プロセスはローカルではなく別の高性能デバイスに依存しており、ハードウェアメトリクスと実際のデプロイメントの間に大きなギャップが生じる。 本稿では,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア対応量子化(OHQ)フレームワークを提案する。 まず、オンチップ量子化認識(OQA)パイプラインを構築し、ハードウェア上の量子化演算子の実際の効率指標を知覚する。 第2に,オンチップレベルの計算能力の制約下で演算子の精度を効率的に推定するMask-guided Quantization Estimation (MQE) 手法を提案する。 線形計画によるネットワークとハードウェアの洞察を合成することにより、最適化されたビット幅構成を得る。 特に、量子化プロセスは、追加のコンピューティングデバイスやデータアクセスなしで、オンチップで完全に実行される。 ResNet-18とMobileNetV3では,それぞれ70%,73%の精度を実現した。 OHQは、デプロイメント時のINT8と比較して、レイテンシを15~30%改善する。

Quantization emerges as one of the most promising approaches for deploying advanced deep models on resource-constrained hardware. Mixed-precision quantization leverages multiple bit-width architectures to unleash the accuracy and efficiency potential of quantized models. However, existing mixed-precision quantization suffers exhaustive search space that causes immense computational overhead. The quantization process thus relies on separate high-performance devices rather than locally, which also leads to a significant gap between the considered hardware metrics and the real deployment. In this paper, we propose an On-chip Hardware-aware Quantization (OHQ) framework that performs hardware-aware mixed-precision quantization without accessing online devices. First, we construct the On-chip Quantization Awareness (OQA) pipeline, enabling perceive the actual efficiency metrics of the quantization operator on the hardware. Second, we propose Mask-guided Quantization Estimation (MQE) technique to efficiently estimate the accuracy metrics of operators under the constraints of on-chip-level computing power. By synthesizing network and hardware insights through linear programming, we obtain optimized bit-width configurations. Notably, the quantization process occurs on-chip entirely without any additional computing devices and data access. We demonstrate accelerated inference after quantization for various architectures and compression ratios, achieving 70% and 73% accuracy for ResNet-18 and MobileNetV3, respectively. OHQ improves latency by 15~30% compared to INT8 on deployment.
翻訳日:2024-02-08 12:08:50 公開日:2024-02-07
# フロー: 推論とコラボレーションAIのブロックを構築する

Flows: Building Blocks of Reasoning and Collaborating AI ( http://arxiv.org/abs/2308.01285v3 )

ライセンス: Link先を確認
Martin Josifoski, Lars Klein, Maxime Peyrard, Nicolas Baldwin, Yifei Li, Saibo Geng, Julian Paul Schnitzler, Yuxing Yao, Jiheng Wei, Debjit Paul, Robert West(参考訳) 人工知能(AI)の最近の進歩は、高い能力と制御可能なシステムを生み出している。 これは、構造化推論と、複数のAIシステムと人間間の協調のための前例のない機会を生み出します。 この可能性を十分に実現するためには、そのような構造化相互作用を設計し研究する原則的な方法を開発することが不可欠である。 この目的のために,概念的フレームワークフローを紹介する。 フローは計算の自己完結したビルディングブロックであり、独立した状態を持ち、標準化されたメッセージベースのインターフェイスを介して通信する。 このモジュール設計は、フローを任意にネストしたインタラクションに再帰的に構成し、本質的に並行性に優しくすることで、フロー生成のプロセスを単純化する。 重要なことは、AI-AIとヒューマン-AIインタラクションの事前作業、エンジニアリングスキームのプロンプト、ツール拡張など、あらゆるインタラクションをこのフレームワークを使って実装することができる。 我々は、gpt-4でさえも苦労する課題である競合型コーディングにおけるフローの可能性を示す。 その結果,AIのみのフローに+21,ヒューマンAIフローに+54の絶対点を加えることで,構造化推論と協調により一般化が大幅に向上することが示唆された。 高速かつ厳密な研究を支援するために,フローを具体化するaiflowsライブラリを紹介する。 aiFlowsライブラリはhttps://github.com/epfl-dlab/aiflowsで入手できる。 実験を再現するためのデータとフローは、https://github.com/epfl-dlab/cc_flowsで閲覧できます。

Recent advances in artificial intelligence (AI) have produced highly capable and controllable systems. This creates unprecedented opportunities for structured reasoning as well as collaboration among multiple AI systems and humans. To fully realize this potential, it is essential to develop a principled way of designing and studying such structured interactions. For this purpose, we introduce the conceptual framework Flows. Flows are self-contained building blocks of computation, with an isolated state, communicating through a standardized message-based interface. This modular design simplifies the process of creating Flows by allowing them to be recursively composed into arbitrarily nested interactions and is inherently concurrency-friendly. Crucially, any interaction can be implemented using this framework, including prior work on AI-AI and human-AI interactions, prompt engineering schemes, and tool augmentation. We demonstrate the potential of Flows on competitive coding, a challenging task on which even GPT-4 struggles. Our results suggest that structured reasoning and collaboration substantially improve generalization, with AI-only Flows adding +21 and human-AI Flows adding +54 absolute points in terms of solve rate. To support rapid and rigorous research, we introduce the aiFlows library embodying Flows. The aiFlows library is available at https://github.com/epfl-dlab/aiflows. Data and Flows for reproducing our experiments are available at https://github.com/epfl-dlab/cc_flows.
翻訳日:2024-02-08 12:08:27 公開日:2024-02-07
# 高次元および置換不変異常検出

High-dimensional and Permutation Invariant Anomaly Detection ( http://arxiv.org/abs/2306.03933v5 )

ライセンス: Link先を確認
Vinicius Mikuni, Benjamin Nachman(参考訳) 新しい物理過程の異常検出法は、高次元確率密度の学習が困難であるため、しばしば低次元空間に限られる。 特に構成レベルでは,一般密度推定法では置換不変性や可変長入力などの望ましい特性を組み込むことが困難となる。 本研究では, 分散モデルに基づく粒子物理学データに対して, 可変長入力を扱うために特別に設計された置換不変密度推定器を提案する。 本手法の有効性は,学習密度を置換不変な異常検出スコアとして利用し,背景のみの仮説の下でジェットを効果的に同定することによって実証する。 密度推定法を検証するため, 教師付き分類アルゴリズムにより得られた密度の比について検討し, 比較を行った。

Methods for anomaly detection of new physics processes are often limited to low-dimensional spaces due to the difficulty of learning high-dimensional probability densities. Particularly at the constituent level, incorporating desirable properties such as permutation invariance and variable-length inputs becomes difficult within popular density estimation methods. In this work, we introduce a permutation-invariant density estimator for particle physics data based on diffusion models, specifically designed to handle variable-length inputs. We demonstrate the efficacy of our methodology by utilizing the learned density as a permutation-invariant anomaly detection score, effectively identifying jets with low likelihood under the background-only hypothesis. To validate our density estimation method, we investigate the ratio of learned densities and compare to those obtained by a supervised classification algorithm.
翻訳日:2024-02-08 12:08:06 公開日:2024-02-07
# 生物学的データを用いたグラフニューラルネットワークのサイズ一般化:スペクトルの観点からの考察と実践

Size Generalization of Graph Neural Networks on Biological Data: Insights and Practices from the Spectral Perspective ( http://arxiv.org/abs/2305.15611v4 )

ライセンス: Link先を確認
Gaotang Li, Danai Koutra, Yujun Yan(参考訳) 本研究では,グラフの大きさによる分布変化を調査し,その学習データに対するグラフニューラルネットワーク(gnns)の一般化能力に与える影響を評価する。 既存の文献では、gnnのサイズ汎化可能性について、主にアプリケーションドメインの相違とサイズ誘起分布シフトに関する基礎的な仮定によって、矛盾する結論を示している。 私たちは実際の生物学的データセットに注目し、サイズによって引き起こされる分散シフトのタイプを特徴付けることを求めます。 従来のアプローチと異なり、スペクトルの視点を採用し、サイズによって引き起こされるスペクトル差がサブグラフパターン(例えば、平均サイクル長)の違いと関係していることを明らかにする。 従来の研究では, サブグラフ情報の取得におけるGNNの欠如が, 分布内一般化に悪影響を及ぼすことが確認されているが, トレーニング中に遭遇しない大規模テストグラフでは, この減少が顕著である。 このようなスペクトル的洞察に基づいて,gnnがそれらの重要な部分グラフパターンを認識し,そのサイズ一般化可能性を高めるための,単純かつ効果的なモデル非依存戦略を導入する。 実験の結果,提案手法はトレーニンググラフの2~10倍の大きさの大規模テストグラフ上でのグラフ分類性能を大幅に向上させ,F1スコアを最大8%向上させることができた。

We investigate size-induced distribution shifts in graphs and assess their impact on the ability of graph neural networks (GNNs) to generalize to larger graphs relative to the training data. Existing literature presents conflicting conclusions on GNNs' size generalizability, primarily due to disparities in application domains and underlying assumptions concerning size-induced distribution shifts. Motivated by this, we take a data-driven approach: we focus on real biological datasets and seek to characterize the types of size-induced distribution shifts. Diverging from prior approaches, we adopt a spectral perspective and identify that spectrum differences induced by size are related to differences in subgraph patterns (e.g., average cycle lengths). While previous studies have identified that the inability of GNNs in capturing subgraph information negatively impacts their in-distribution generalization, our findings further show that this decline is more pronounced when evaluating on larger test graphs not encountered during training. Based on these spectral insights, we introduce a simple yet effective model-agnostic strategy, which makes GNNs aware of these important subgraph patterns to enhance their size generalizability. Our empirical results reveal that our proposed size-insensitive attention strategy substantially enhances graph classification performance on large test graphs, which are 2-10 times larger than the training graphs, resulting in an improvement in F1 scores by up to 8%.
翻訳日:2024-02-08 12:07:53 公開日:2024-02-07
# 耐波性フォトニック量子ゲート

Wave-Shape-Tolerant Photonic Quantum Gates ( http://arxiv.org/abs/2105.13814v3 )

ライセンス: Link先を確認
Ihar Babushkin, Ayhan Demircan, Michael Kues, Uwe Morgner(参考訳) 導波路などの伝搬ジオメトリにおいて「飛行キュービット」として振る舞う光子は、波束(パルス)の形で避けられない形で現れる。 フォトニック波束の実際の形状と、光子間の時間的・スペクトル的相関は、スケーラブルな計算を成功させる上で重要な役割を果たす。 現在、光子が絡み合っていないことは、スケーラブルなフォトニック回路に適した資源であると考えられている。 ここでは、コヒーレント光子変換と呼ばれる手法を用いることで、光子の波紋や時間・スペクトルの相関に敏感なフライングキュービットゲートを構築することができ、また、これらの波紋と処理上の相関関係を完全に保存できることを示す。 これにより、スケーラブルな計算のために相関と純度を持つ光子を非常に広い範囲で使用できる。 さらに、このようなゲートは、絡み合った光波束よりも効率的に処理することができる。

Photons, acting as ``flying qubits'' in propagation geometries such as waveguides, appear unavoidably in the form of wavepackets (pulses). The actual shape of the photonic wavepacket, as well as possible temporal/spectral correlations between the photons, play a critical role in successful scalable computation. Currently, unentangled indistinguishable photons are considered as a suitable resource for scalable photonic circuits. Here we show that using so called coherent photon conversion, it is possible to construct flying-qubit gates, which are not only insensitive to waveshapes of the photons and temporal/spectral correlations between them, but which also fully preserve these waveshapes and correlations upon the processing. This allows using photons with correlations and purity in a very broad range for a scalable computation. Moreover, such gates can process entangled photonic wavepackets even more effectively than unentangled ones.
翻訳日:2024-02-08 12:07:27 公開日:2024-02-07
# アクション認識のためのTaylor Videos

Taylor Videos for Action Recognition ( http://arxiv.org/abs/2402.03019v2 )

ライセンス: Link先を確認
Lei Wang and Xiuyuan Yuan and Tom Gedeon and Liang Zheng(参考訳) 映像から運動を効果的に抽出することは、アクション認識にとって重要かつ長期にわたる問題である。 この問題は運動のため非常に難しい (i)明示的な形式を持たないこと。 (ii)変位、速度、加速度など様々な概念を持ち、 (iii)不安定な画素によるノイズがしばしば含まれる。 これらの課題に対処するために,我々はテイラーフレームと呼ばれる各フレームにおける支配的な動き(例えば手を振る)を強調する新しいビデオフォーマットであるtaylor videoを提案する。 テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。 ビデオのシナリオでは,映像時間ブロックから動きを抽出することを目的とした暗黙的モーション抽出関数を定義する。 このブロックでは、フレーム、差分フレーム、高次差分フレームを用いて、開始フレームでこの関数を近似するためにテイラー展開を行う。 テイラー級数における高次項の和は、静的な物体が小さく不安定な動きを取り除かれるような支配的な動きパターンを与える。 実験により,Taylorビデオは2次元CNN,3次元CNN,トランスフォーマーなどの一般的なアーキテクチャへの効果的な入力であることを示す。 個別に使用すると、テイラービデオはRGBビデオや光学フローと比較して、競合する動作認識精度が得られる。 RGBや光フロービデオと融合すると、さらなる精度向上が達成される。

Effectively extracting motions from video is a critical and long-standing problem for action recognition. This problem is very challenging because motions (i) do not have an explicit form, (ii) have various concepts such as displacement, velocity, and acceleration, and (iii) often contain noise caused by unstable pixels. Addressing these challenges, we propose the Taylor video, a new video format that highlights the dominate motions (e.g., a waving hand) in each of its frames named the Taylor frame. Taylor video is named after Taylor series, which approximates a function at a given point using important terms. In the scenario of videos, we define an implicit motion-extraction function which aims to extract motions from video temporal block. In this block, using the frames, the difference frames, and higher-order difference frames, we perform Taylor expansion to approximate this function at the starting frame. We show the summation of the higher-order terms in the Taylor series gives us dominant motion patterns, where static objects, small and unstable motions are removed. Experimentally we show that Taylor videos are effective inputs to popular architectures including 2D CNNs, 3D CNNs, and transformers. When used individually, Taylor videos yield competitive action recognition accuracy compared to RGB videos and optical flow. When fused with RGB or optical flow videos, further accuracy improvement is achieved.
翻訳日:2024-02-08 12:00:26 公開日:2024-02-07
# DS-MS-TCN: デュアルスケール多段階時間畳み込みネットワークによるオタゴ運動認識

DS-MS-TCN: Otago Exercises Recognition with a Dual-Scale Multi-Stage Temporal Convolutional Network ( http://arxiv.org/abs/2402.02910v2 )

ライセンス: Link先を確認
Meng Shang, Lenore Dedeyne, Jolan Dupont, Laura Vercauteren, Nadjia Amini, Laurence Lapauw, Evelien Gielen, Sabine Verschueren, Carolina Varon, Walter De Raedt, Bart Vanrumste(参考訳) オタゴ・エクササイズ・プログラム(OEP)は、バランスと強度を高めることを目的とした高齢者向けの重要なリハビリテーションイニシアチブである。 OEP認識にウェアラブルセンサーを用いた以前の研究にもかかわらず、既存の研究は精度と堅牢性に関して限界を示してきた。 本研究は,地域在住高齢者の日常生活におけるOEP運動を認識するために,腰に装着した慣性測定装置(IMU)を用いて,これらの制約に対処する。 36人の高齢者のコホートが実験に参加し、さらに7人の高齢者が自宅でのアセスメントに参加した。 本研究は,2段階のシーケンス・ツー・シーケンス分類のために設計したDual-Scale Multi-Stage Temporal Convolutional Network (DS-MS-TCN)を提案する。 第1段階では、モデルは各エクササイズ(マイクロラベル)の反復を認識することに集中する。 その後の段階は認識を拡張し、完全な範囲の運動(マクロラベル)を包含する。 DS-MS-TCNモデルは、既存の最先端ディープラーニングモデルを超え、f1スコアが80%以上、IoU(Intersection over Union) f1スコアが60%以上である。 特に、このモデルはスライディングウインドウ技術を用いた先行研究より優れており、後処理段階やウィンドウサイズ調整の必要性がなくなる。 本研究は,人間活動認識(har)システムを強化するための新たな視点を,各活動の反復認識を通じて提示する。

The Otago Exercise Program (OEP) represents a crucial rehabilitation initiative tailored for older adults, aimed at enhancing balance and strength. Despite previous efforts utilizing wearable sensors for OEP recognition, existing studies have exhibited limitations in terms of accuracy and robustness. This study addresses these limitations by employing a single waist-mounted Inertial Measurement Unit (IMU) to recognize OEP exercises among community-dwelling older adults in their daily lives. A cohort of 36 older adults participated in laboratory settings, supplemented by an additional 7 older adults recruited for at-home assessments. The study proposes a Dual-Scale Multi-Stage Temporal Convolutional Network (DS-MS-TCN) designed for two-level sequence-to-sequence classification, incorporating them in one loss function. In the first stage, the model focuses on recognizing each repetition of the exercises (micro labels). Subsequent stages extend the recognition to encompass the complete range of exercises (macro labels). The DS-MS-TCN model surpasses existing state-of-the-art deep learning models, achieving f1-scores exceeding 80% and Intersection over Union (IoU) f1-scores surpassing 60% for all four exercises evaluated. Notably, the model outperforms the prior study utilizing the sliding window technique, eliminating the need for post-processing stages and window size tuning. To our knowledge, we are the first to present a novel perspective on enhancing Human Activity Recognition (HAR) systems through the recognition of each repetition of activities.
翻訳日:2024-02-08 12:00:02 公開日:2024-02-07
# グラフニューラルネットワークを用いたリンク予測のための統計的保証

Statistical Guarantees for Link Prediction using Graph Neural Networks ( http://arxiv.org/abs/2402.02692v2 )

ライセンス: Link先を確認
Alan Chung, Amin Saberi, Morgane Austern(参考訳) 本稿では,グラフ生成グラフ上のリンク予測タスクにおいて,グラフニューラルネットワーク(GNN)の性能を統計的に保証する。 本稿では,基礎となるエッジ確率に対して一貫した推定値を生成する線形gnnアーキテクチャ(lg-gnn)を提案する。 平均二乗誤差の上限を確立し,LG-GNNの高確率エッジ検出能力を保証する。 我々の保証は疎グラフと密グラフの両方に当てはまる。 最後に,従来のgcnアーキテクチャの欠点を実証するとともに,実データと合成データを用いた結果の検証を行う。

This paper derives statistical guarantees for the performance of Graph Neural Networks (GNNs) in link prediction tasks on graphs generated by a graphon. We propose a linear GNN architecture (LG-GNN) that produces consistent estimators for the underlying edge probabilities. We establish a bound on the mean squared error and give guarantees on the ability of LG-GNN to detect high-probability edges. Our guarantees hold for both sparse and dense graphs. Finally, we demonstrate some of the shortcomings of the classical GCN architecture, as well as verify our results on real and synthetic datasets.
翻訳日:2024-02-08 11:59:34 公開日:2024-02-07
# LHRS-Bot:VGI強化大規模マルチモーダル言語モデルを用いたリモートセンシング

LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model ( http://arxiv.org/abs/2402.02544v2 )

ライセンス: Link先を確認
Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, and Pengfeng Xiao(参考訳) 大規模言語モデル(LLM)の革命的能力は、マルチモーダルな大規模言語モデル(MLLM)の道を切り開き、様々な専門分野にまたがる多様な応用を育んでいる。 しかし、リモートセンシング(RS)分野では、最近のMLLMでは、多様な地形やRS画像の様々な物体が適切に考慮されていない。 このギャップを埋めるために、大規模なRS画像テキストデータセットであるLHRS-Alignと情報的RS固有の命令データセットであるLHRS-Instructを構築し、大規模なボランティア地理情報(VGI)とグローバルに利用可能なRS画像を活用する。 この基盤に基づいて,多レベル視覚言語アライメント戦略とカリキュラム学習手法を用いて,rs画像理解のためのmllmであるlhrs-botを提案する。 総合的な実験により、LHRS-BotはRS画像の深い理解とRS領域内でニュアンス推論を行う能力を示す。

The revolutionary capabilities of large language models (LLMs) have paved the way for multimodal large language models (MLLMs) and fostered diverse applications across various specialized domains. In the remote sensing (RS) field, however, the diverse geographical landscapes and varied objects in RS imagery are not adequately considered in recent MLLM endeavors. To bridge this gap, we construct a large-scale RS image-text dataset, LHRS-Align, and an informative RS-specific instruction dataset, LHRS-Instruct, leveraging the extensive volunteered geographic information (VGI) and globally available RS images. Building on this foundation, we introduce LHRS-Bot, an MLLM tailored for RS image understanding through a novel multi-level vision-language alignment strategy and a curriculum learning method. Comprehensive experiments demonstrate that LHRS-Bot exhibits a profound understanding of RS images and the ability to perform nuanced reasoning within the RS domain.
翻訳日:2024-02-08 11:58:36 公開日:2024-02-07
# TopoX: トポロジカルドメインでの機械学習のためのPythonパッケージスイート

TopoX: A Suite of Python Packages for Machine Learning on Topological Domains ( http://arxiv.org/abs/2402.02441v3 )

ライセンス: Link先を確認
Mustafa Hajij, Mathilde Papillon, Florian Frantzen, Jens Agerberg, Ibrahem AlJabea, Ruben Ballester, Claudio Battiloro, Guillermo Bern\'ardez, Tolga Birdal, Aiden Brent, Peter Chin, Sergio Escalera, Simone Fiorellino, Odin Hoff Gardaa, Gurusankar Gopalakrishnan, Devendra Govil, Josef Hoppe, Maneel Reddy Karri, Jude Khouja, Manuel Lecha, Neal Livesay, Jan Mei{\ss}ner, Soham Mukherjee, Alexander Nikitin, Theodore Papamarkou, Jaro Pr\'ilepok, Karthikeyan Natesan Ramamurthy, Paul Rosen, Aldo Guzm\'an-S\'aenz, Alessandro Salatiello, Shreyas N. Samaga, Simone Scardapane, Michael T. Schaub, Luca Scofano, Indro Spinelli, Lev Telyatnikov, Quang Truong, Robin Walters, Maosheng Yang, Olga Zaghen, Ghada Zamzmi, Ali Zia, Nina Miolane(参考訳) グラフを拡張するトポロジ領域(ハイパーグラフ、単純化、セル、パス、コンビネータ)で、信頼性が高くユーザフレンドリーなビルディングブロックと機械学習を提供するPythonソフトウェアスイートであるtopoxを紹介します。 topoxは以下の3つのパッケージで構成されている: toponetxは、ノード、エッジ、高次セルの操作を含む、これらのドメインの構築と計算を容易にする。 topoembedxは、node2vecのような一般的なグラフベースの埋め込みアルゴリズムに似た、トポロジカルドメインをベクトル空間に埋め込む方法を提供する。 topoxの広範囲にドキュメント化され、ユニットテストされたソースコードは、MITライセンス下でhttps://github.com/pyt-teamで入手できる。

We introduce topox, a Python software suite that provides reliable and user-friendly building blocks for computing and machine learning on topological domains that extend graphs: hypergraphs, simplicial, cellular, path and combinatorial complexes. topox consists of three packages: toponetx facilitates constructing and computing on these domains, including working with nodes, edges and higher-order cells; topoembedx provides methods to embed topological domains into vector spaces, akin to popular graph-based embedding algorithms such as node2vec; topomodelx is built on top of PyTorch and offers a comprehensive toolbox of higher-order message passing functions for neural networks on topological domains. The extensively documented and unit-tested source code of topox is available under MIT license at https://github.com/pyt-team.
翻訳日:2024-02-08 11:58:16 公開日:2024-02-07
# 連続変数系における非断熱ホロノミック量子演算

Non-adiabatic holonomic quantum operations in continuous variable systems ( http://arxiv.org/abs/2402.02373v2 )

ライセンス: Link先を確認
Hao-Long Zhang, Yi-Hao Kang, Fan Wu, Zhen-Biao Yang, Shi-Biao Zheng(参考訳) 物理系で生成する幾何学的位相を利用する量子演算は、その潜在的堅牢性のために好まれる。 非退化固有状態の系がハミルトニアンに支配される断熱的に循環的な進化を行うと、ベリー位相と呼ばれる幾何学的位相が得られる。 非断熱的循環的進化はアハロノフ・アンダン幾何学相を生成する。 アベリア幾何学相の2つのタイプは、位相因子が行列値となり、異なるループに関連する変換が非可換である非アベリアの場合まで拡張される。 アベリア式および非アベリア式(ホロノミック式)の演算は、限定的な(例えば2つの)エネルギーレベルを持つ離散変数系において、量子ビットを形成する。 連続系におけるそれらの発展は、主にそれゆえ研究されているが、大きなヒルベルト空間を持つボソニックモード(例えば猫状態)は、フォールトトレラント量子計算において潜在的な利点をもたらす。 ここでは,cat符号を持つ連続変数系における非断熱ホロノミック量子論理演算を実現するための実現可能なスキームを提案する。 KPO(Kerr Parametric Oscillator)に適用した単光と2光の駆動を組み合わせた任意の1量子(2量子)ゲートを構築する。 提案手法は, 従来提案されていたアデバティックホロノミックプロトコルの長期運用時間に依存する要件を緩和し, 非アデバティックなアベリアンプロトコルは, 猫の大きさやアデバティックキュートに依存している。

Quantum operations by utilizing the underlying geometric phases produced in physical systems are favoured due to its potential robustness. When a system in a non-degenerate eigenstate undergoes an adiabatically cyclic evolution dominated by its Hamiltonian, it will get a geometric phase, referred to as the Berry Phase. While a non-adiabatically cyclic evolution produces an Aharonov-Anandan geometric phase. The two types of Abelian geometric phases are extended to the non-Abelian cases, where the phase factors become matrix-valued and the transformations associated with different loops are non-commutable. Abelian and non-Abelian (holonomic) operations are prevalent in discrete variable systems, whose limited (say, two) energy levels, form the qubit. While their developments in continuous systems have also been investigated, mainly due to that, bosonic modes (in, such as, cat states) with large Hilbert spaces, provide potential advantages in fault-tolerant quantum computation. Here we propose a feasible scheme to realize non-adiabatic holonomic quantum logic operations in continuous variable systems with cat codes. We construct arbitrary single-qubit (two-qubit) gates with the combination of single- and two-photon drivings applied to a Kerr Parametric Oscillator (KPO) (the coupled KPOs). Our scheme relaxes the requirements of the previously proposed adiabatic holonomic protocol dependent on long operation time, and the non-adiabatic Abelian ones relying on a slight cat size or an ancilla qutrit.
翻訳日:2024-02-08 11:57:58 公開日:2024-02-07
# ファインチューニング基礎モデルのためのリーマン事前条件付きLORA

Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models ( http://arxiv.org/abs/2402.02347v2 )

ライセンス: Link先を確認
Fangzhao Zhang, Mert Pilanci(参考訳) 本研究では,Riemann プレコンディショナーを最適化ステップに導入することにより,ローランク適応(LoRA)微調整手順の強化について検討する。 具体的には、各勾配ステップに$r\times r$ preconditionerを導入し、$r$はLoRAランクである。 このプリコンディショナーは既存のオプティマイザコードに小さな変更を要し、事実上最小のストレージと実行時のオーバーヘッドを生成する。 大規模言語モデルとテキスト・画像拡散モデルの両方による実験結果から,SGDとAdamWの収束性と信頼性が著しく向上できることが示唆された。 さらに、トレーニングプロセスは、学習率などのハイパーパラメータ選択に対して、より堅牢になる。 理論的には、凸並列化における2層ReLUネットワークの微調整は、データ行列の条件数に依存しない収束率を持つことを示す。 この新しいリーマン型プリコンディショナーは、従来の低ランクマトリックスリカバリで研究され、我々の仕事で初めてディープラーニングタスクに導入されました。 コードをhttps://github.com/pilancilab/Riemannian_Preconditioned_LoRAでリリースします。

In this work we study the enhancement of Low Rank Adaptation (LoRA) fine-tuning procedure by introducing a Riemannian preconditioner in its optimization step. Specifically, we introduce an $r\times r$ preconditioner in each gradient step where $r$ is the LoRA rank. This preconditioner requires a small change to existing optimizer code and creates virtually minuscule storage and runtime overhead. Our experimental results with both large language models and text-to-image diffusion models show that with our preconditioner, the convergence and reliability of SGD and AdamW can be significantly enhanced. Moreover, the training process becomes much more robust to hyperparameter choices such as learning rate. Theoretically, we show that fine-tuning a two-layer ReLU network in the convex paramaterization with our preconditioner has convergence rate independent of condition number of the data matrix. This new Riemannian preconditioner, previously explored in classic low-rank matrix recovery, is introduced to deep learning tasks for the first time in our work. We release our code at https://github.com/pilancilab/Riemannian_Preconditioned_LoRA.
翻訳日:2024-02-08 11:57:30 公開日:2024-02-07
# エンド・ツー・エンド深層学習モデルによる効率的な数値波動伝播

Efficient Numerical Wave Propagation Enhanced By An End-to-End Deep Learning Model ( http://arxiv.org/abs/2402.02304v2 )

ライセンス: Link先を確認
Luis Kaiser, Richard Tsai, Christian Klingenberg(参考訳) 様々な科学分野や工学分野において、高周波波動伝播のための高忠実で効率的な解の必要性が重要である。 波動モデリングの最近の進歩は、高速だが不正確な粗解器の精度を高めるニューラルネットワークを訓練するために十分な精度の微細解器出力を使用する。 安定かつ高速な解法により、高周波波成分を補正するための並列時間アルゴリズムであるPararealを使用することができる。 本稿では,nguyen と tsai (2023) の成果に基づいて,数値解法とニューラルネットワークを統合してエンドツーエンドフレームワークを構築するシステムを提案する。 提案手法では,ディープラーニングアーキテクチャ,データ生成アルゴリズム,およびPararealスキームの改良について検討する。 その結果, 凝集構造は速度を犠牲にすることなく性能を向上し, 正確な波動伝搬における時間的ダイナミクス, およびパラレアルの重要性が示された。

In a variety of scientific and engineering domains, the need for high-fidelity and efficient solutions for high-frequency wave propagation holds great significance. Recent advances in wave modeling use sufficiently accurate fine solver outputs to train a neural networks that enhances the accuracy of a fast but inaccurate coarse solver. A stable and fast solver allows the use of Parareal, a parallel-in-time algorithm to correct high-frequency wave components. In this paper we build upon the work of Nguyen and Tsai (2023) and present a unified system that integrates a numerical solver with a neural network into an end-to-end framework. In the proposed setting, we investigate refinements to the deep learning architecture, data generation algorithm and Parareal scheme. Our results show that the cohesive structure improves performance without sacrificing speed, and demonstrate the importance of temporal dynamics, as well as Parareal, for accurate wave propagation.
翻訳日:2024-02-08 11:57:15 公開日:2024-02-07
# 交通アシスタントとしてのGPT-4V:複雑な交通イベントの視覚言語モデルの詳細

GPT-4V as Traffic Assistant: An In-depth Look at Vision Language Model on Complex Traffic Events ( http://arxiv.org/abs/2402.02205v3 )

ライセンス: Link先を確認
Xingcheng Zhou, Alois C. Knoll(参考訳) 交通事故、特に交通事故の認識と理解は、インテリジェントな輸送システムとインテリジェントな車両の領域において最重要事項である。 この地域は、学術分野と産業分野の両方の広範な焦点を継続的に捉えてきた。 複雑な交通イベントの特定と理解は、主に交通環境の複雑な性質、多様な観察的視点、そして事故の多面的原因のため、非常に困難である。 これらの要因は、効果的なソリューションの開発を永続的に妨げている。 GPT-4Vのような大規模視覚言語モデル(VLM)の出現は、この問題に対処するための革新的なアプローチを導入している。 本稿では,GPT-4Vを代表的トラフィックインシデントビデオのセットで探索し,これらの複雑なトラフィック状況を理解する能力について検討する。 gpt-4vは、ある古典的な交通イベントにおいて、顕著な認知、推論、意思決定能力を示す。 同時に、より複雑なシナリオでの理解を制限するgpt-4vの制限も特定した。 これらの制限はさらなる探索と解決に役立つ。

The recognition and understanding of traffic incidents, particularly traffic accidents, is a topic of paramount importance in the realm of intelligent transportation systems and intelligent vehicles. This area has continually captured the extensive focus of both the academic and industrial sectors. Identifying and comprehending complex traffic events is highly challenging, primarily due to the intricate nature of traffic environments, diverse observational perspectives, and the multifaceted causes of accidents. These factors have persistently impeded the development of effective solutions. The advent of large vision-language models (VLMs) such as GPT-4V, has introduced innovative approaches to addressing this issue. In this paper, we explore the ability of GPT-4V with a set of representative traffic incident videos and delve into the model's capacity of understanding these complex traffic situations. We observe that GPT-4V demonstrates remarkable cognitive, reasoning, and decision-making ability in certain classic traffic events. Concurrently, we also identify certain limitations of GPT-4V, which constrain its understanding in more intricate scenarios. These limitations merit further exploration and resolution.
翻訳日:2024-02-08 11:56:46 公開日:2024-02-07
# HPC研究とLLMの展望と課題

The Landscape and Challenges of HPC Research and LLMs ( http://arxiv.org/abs/2402.02018v3 )

ライセンス: Link先を確認
Le Chen, Nesreen K. Ahmed, Akash Dutta, Arijit Bhattacharjee, Sixing Yu, Quazi Ishtiaque Mahmud, Waqwoya Abebe, Hung Phan, Aishwarya Sarkar, Branden Butler, Niranjan Hasabnis, Gal Oren, Vy A. Vo, Juan Pablo Munoz, Theodore L. Willke, Tim Mattson, Ali Jannesari(参考訳) 近年,言語モデル(LM),特に大規模言語モデル(LLM)がディープラーニングの分野に革命をもたらした。 エンコーダデコーダモデルとプロンプトベースの技術の両方が、自然言語処理やコードベースのタスクにおいて大きな可能性を示している。 過去数年間、多くの研究所や機関が高性能コンピューティングに多大な投資を行ってきた。 本稿では,そのような言語モデルに基づく手法をハイパフォーマンスコンピューティング(hpc)におけるタスクに適用・活用することは,非常に有益であることを示す。 本研究は、上記の立場の背後にある推論を示し、既存のアイデアがどのようにしてhpcタスクに適応できるかを強調する。

Recently, language models (LMs), especially large language models (LLMs), have revolutionized the field of deep learning. Both encoder-decoder models and prompt-based techniques have shown immense potential for natural language processing and code-based tasks. Over the past several years, many research labs and institutions have invested heavily in high-performance computing, approaching or breaching exascale performance levels. In this paper, we posit that adapting and utilizing such language model-based techniques for tasks in high-performance computing (HPC) would be very beneficial. This study presents our reasoning behind the aforementioned position and highlights how existing ideas can be improved and adapted for HPC tasks.
翻訳日:2024-02-08 11:56:07 公開日:2024-02-07
# 自律性よりも安全を優先する:科学におけるLLMエージェントのリスク

Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science ( http://arxiv.org/abs/2402.04247v2 )

ライセンス: Link先を確認
Xiangru Tang, Qiao Jin, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Meng Qu, Yilun Zhao, Jian Tang, Zhuosheng Zhang, Arman Cohan, Zhiyong Lu, Mark Gerstein(参考訳) 大規模言語モデル(llm)を用いた知的エージェントは、自律的に実験を行い、様々な分野にわたる科学的発見を促進することに有望である。 彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。 しかし、これらの脆弱性の包括的な調査は行われていないため、文献に顕著なギャップがある。 本報告では,科学領域におけるllmベースのエージェントの脆弱性を徹底的に検証し,その悪用に伴う潜在的なリスクを明らかにし,安全対策の必要性を強調することで,このギャップを埋める。 まず、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮し、科学的LLMエージェントに固有の潜在的なリスクを概観することから始める。 そして、これらの脆弱性の起源を調べ、制限された既存の作業のスコーピングレビューを提供します。 そこで本研究では,人間による規制,エージェント・アライメント,環境フィードバック(エージェント・レギュレーション)の理解を含む三進フレームワークを提案する。 さらに,これらの問題を効果的に解決するための改良されたモデル,堅牢なベンチマーク,包括的な規制の開発を提唱する科学エージェントの保護に関連する限界と課題を強調した。

Intelligent agents powered by large language models (LLMs) have demonstrated substantial promise in autonomously conducting experiments and facilitating scientific discoveries across various disciplines. While their capabilities are promising, they also introduce novel vulnerabilities that demand careful consideration for safety. However, there exists a notable gap in the literature, as there has been no comprehensive exploration of these vulnerabilities. This position paper fills this gap by conducting a thorough examination of vulnerabilities in LLM-based agents within scientific domains, shedding light on potential risks associated with their misuse and emphasizing the need for safety measures. We begin by providing a comprehensive overview of the potential risks inherent to scientific LLM agents, taking into account user intent, the specific scientific domain, and their potential impact on the external environment. Then, we delve into the origins of these vulnerabilities and provide a scoping review of the limited existing works. Based on our analysis, we propose a triadic framework involving human regulation, agent alignment, and an understanding of environmental feedback (agent regulation) to mitigate these identified risks. Furthermore, we highlight the limitations and challenges associated with safeguarding scientific agents and advocate for the development of improved models, robust benchmarks, and comprehensive regulations to address these issues effectively.
翻訳日:2024-02-08 11:50:06 公開日:2024-02-07
# 生成エージェントは感情を予測できるか?

Can Generative Agents Predict Emotion? ( http://arxiv.org/abs/2402.04232v2 )

ライセンス: Link先を確認
Ciaran Regan, Nanami Iwahashi, Shogo Tanaka, Mizuki Oka(参考訳) 大規模言語モデル(llm)は多くの人間のような能力を示しているが、llmの共感的理解と感情状態はまだ人間のそれと一致していない。 本研究では,新しいイベントを知覚することで,生成型llmエージェントの感情状態がどのように進化するかを調査し,新しい体験を過去の記憶と比較する新しいアーキテクチャを導入する。 この比較を通じて、エージェントは文脈における新しい体験を理解する能力を得る。 まず、エージェントは新しい経験を時系列テキストデータとして認識する。 新しい入力を知覚した後、エージェントは、標準と呼ばれる過去の関連する記憶の要約を生成し、新しい体験をこの規範と比較する。 この比較を通じて、エージェントがコンテキストにおける新しい体験にどのように反応するかを分析することができる。 パナスは、影響の試験であり、エージェントに投与され、新しい出来事を知覚した後、エージェントの感情状態をキャプチャする。 最後に、新しいエクスペリエンスがエージェントメモリに追加され、将来の標準の作成に使用される。 感情的にチャージされた状況から自然言語で複数の経験を作ることで、提案するアーキテクチャを幅広いシナリオでテストする。 コンテクストの導入は時々エージェントの感情的アライメントを改善するが、さらなる研究と人間の蒸発器との比較が必要であることが示唆された。 この論文は、生成剤のアライメントへの別の一歩となることを願っている。

Large Language Models (LLMs) have demonstrated a number of human-like abilities, however the empathic understanding and emotional state of LLMs is yet to be aligned to that of humans. In this work, we investigate how the emotional state of generative LLM agents evolves as they perceive new events, introducing a novel architecture in which new experiences are compared to past memories. Through this comparison, the agent gains the ability to understand new experiences in context, which according to the appraisal theory of emotion is vital in emotion creation. First, the agent perceives new experiences as time series text data. After perceiving each new input, the agent generates a summary of past relevant memories, referred to as the norm, and compares the new experience to this norm. Through this comparison we can analyse how the agent reacts to the new experience in context. The PANAS, a test of affect, is administered to the agent, capturing the emotional state of the agent after the perception of the new event. Finally, the new experience is then added to the agents memory to be used in the creation of future norms. By creating multiple experiences in natural language from emotionally charged situations, we test the proposed architecture on a wide range of scenarios. The mixed results suggests that introducing context can occasionally improve the emotional alignment of the agent, but further study and comparison with human evaluators is necessary. We hope that this paper is another step towards the alignment of generative agents.
翻訳日:2024-02-08 11:49:45 公開日:2024-02-07
# 脱落ストラグラーの分散学習における勾配符号化

Gradient Coding in Decentralized Learning for Evading Stragglers ( http://arxiv.org/abs/2402.04193v2 )

ライセンス: Link先を確認
Chengxi Li and Mikael Skoglund(参考訳) 本稿では,トラグラーの存在下での分散学習問題について考察する。 分散学習のための勾配符号化技術は,冗長なトレーニングデータを持つ符号化勾配を送信するストラグラーを回避するために開発されてきたが,その手法を分散学習シナリオに直接適用することは困難である。 この問題に対処するために,グラデーションコーディング(goco)を用いた新しいgossipベースの分散学習手法を提案する。 提案手法では, ストラグラーの負の影響を避けるために, 確率勾配符号化の枠組みに基づくエンコード勾配を用いてパラメータベクトルを局所的に更新し, ゴシップ方式で平均化する。 強凸損失関数に対するgocoの収束性能を解析した。 また,本手法の学習性能をベースライン法と比較し,提案手法が優れていることを示すシミュレーション結果を提供する。

In this paper, we consider a decentralized learning problem in the presence of stragglers. Although gradient coding techniques have been developed for distributed learning to evade stragglers, where the devices send encoded gradients with redundant training data, it is difficult to apply those techniques directly to decentralized learning scenarios. To deal with this problem, we propose a new gossip-based decentralized learning method with gradient coding (GOCO). In the proposed method, to avoid the negative impact of stragglers, the parameter vectors are updated locally using encoded gradients based on the framework of stochastic gradient coding and then averaged in a gossip-based manner. We analyze the convergence performance of GOCO for strongly convex loss functions. And we also provide simulation results to demonstrate the superiority of the proposed method in terms of learning performance compared with the baseline methods.
翻訳日:2024-02-08 11:49:21 公開日:2024-02-07
# 法的推論の進歩:半自動調停プロセス(saaps)によるグローバル法学における複雑度とバイアスをナビゲートするaiの統合

Advancing Legal Reasoning: The Integration of AI to Navigate Complexities and Biases in Global Jurisprudence with Semi-Automated Arbitration Processes (SAAPs) ( http://arxiv.org/abs/2402.04140v2 )

ライセンス: Link先を確認
Michael De'Shazer(参考訳) 本研究は,米国,英国,ルワンダ,スウェーデン,香港の5カ国にまたがる裁判所判決の分析に対する新たなアプローチからなる。 本研究はまた、人工知能(ai)と法的分析における最新の進歩の交点を探究し、人間のバイアスを識別し、様々な司法管轄区域における法律の一貫した適用を確保することを目的として、ai(特別に生成的なai)の役割を強調し、裁判所判断の自動化、有効性、一貫性のある多面的議論を促進する。 本稿では,高度言語モデル (ALMs) と新たに導入された人間とAIの協調的枠組みを組み込むことにより,法律の実践において,高度言語モデル (ALMs) を用いた地上理論に基づく研究設計を分析することを目的とする。 ShiRLEYは、AIベースのアプリケーション(OpenAIのGPT技術上に構築されている)の名前であり、さまざまな法的判断における論理的矛盾とバイアスを検出することに焦点を当てている。 ShiRLEY分析は集約され、SAM(ALM)と呼ばれる比較指向のAIベースのアプリケーションとともに、ShiRLEYバイアス検出における相対偏差を識別する。 さらに、ALM,SARAを介して半自律仲裁プロセス中にCRITICを生成する。 上記のAIアプリケーション(SAM in together with ShiRLEY)で識別されるバイアスと定性的ニュアンスを、ビジネスと人権の仲裁規則に基づいて批判的に評価するAI仲裁器の利用において、新しいアプローチが導入された。 この半自動仲裁プロセス(SAAP)は、AIと人間による協調分析のハイブリッドシステムを通じて、曖昧な議論に反する「理解」を確実にすることで、法的判断の完全性と公正性を維持することを目的としている。

This study consists of a novel approach toward the analysis of court judgments spanning five countries, including the United States, the United Kingdom, Rwanda, Sweden and Hong Kong. This study also explores the intersection of the latest advancements in artificial intelligence (AI) and legal analysis, emphasizing the role of AI (specifically generative AI) in identifying human biases and facilitating automated, valid, and coherent multisided argumentation of court judgments with the goal of ensuring consistent application of laws in and across various jurisdictions. By incorporating Advanced Language Models (ALMs) and a newly introduced human-AI collaborative framework, this paper seeks to analyze Grounded Theory-based research design with Advanced Language Models (ALMs) in the practice of law. SHIRLEY is the name of the AI-based application (built on top of OpenAI's GPT technology), focusing on detecting logical inconsistencies and biases across various legal decisions. SHIRLEY analysis is aggregated and is accompanied by a comparison-oriented AI-based application called SAM (also an ALM) to identify relative deviations in SHIRLEY bias detections. Further, a CRITIC is generated within semi-autonomous arbitration process via the ALM, SARA. A novel approach is introduced in the utilization of an AI arbitrator to critically evaluate biases and qualitative-in-nature nuances identified by the aforementioned AI applications (SAM in concert with SHIRLEY), based on the Hague Rules on Business and Human Rights Arbitration. This Semi-Automated Arbitration Process (SAAP) aims to uphold the integrity and fairness of legal judgments by ensuring a nuanced debate-resultant "understanding" through a hybrid system of AI and human-based collaborative analysis.
翻訳日:2024-02-08 11:49:07 公開日:2024-02-07
# カーネルパケットの一般理論:状態空間モデルからコンパクト支持基底へ

A General Theory for Kernel Packets: from state space model to compactly supported basis ( http://arxiv.org/abs/2402.04022v2 )

ライセンス: Link先を確認
Liang Ding and Tuo Rui(参考訳) 状態空間 (SS) がガウス過程 (GP) の定式化によって訓練時間と予測時間をn個のデータポイントのO(n) に短縮できることはよく知られている。 gp の $m$ 次元 ss モデル定式化は、我々が一般右核パケット (kp) として導入した概念と等価であることを証明する: $\sum_{i=0}^{m}a_id_t^{(j)}k(t,t_i)=0$ 任意の $t \leq t_1$, 0 $\leq j \leq m-1$, and $m+1$ 連続点 $t_i$, ここで ${d}_t^{(j)}f(t)$ は$t$ に作用する$j$-次微分を表す。 このアイデアは GP の後方 SS モデルの定式化にまで拡張され、次の$m$連続点に対する左 KP の概念が導かれる: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$。 左右の KP を組合せることで、これらの共分散関数の適当な線型結合がコンパクトに支持された KP 関数を$m$ で得られることを証明できる: $\phi^{(j)}(t)=0$ for any $t\not\in(t_0,t_{2m})$ and $j=0,\cdots,m-1$。 KPs はさらに GP の O(log n) あるいは O(1) への予測時間を減少させ、GP の微分を含むより一般的な問題に適用でき、分散データに対する多次元の一般化を持つ。

It is well known that the state space (SS) model formulation of a Gaussian process (GP) can lower its training and prediction time both to O(n) for n data points. We prove that an $m$-dimensional SS model formulation of GP is equivalent to a concept we introduce as the general right Kernel Packet (KP): a transformation for the GP covariance function $K$ such that $\sum_{i=0}^{m}a_iD_t^{(j)}K(t,t_i)=0$ holds for any $t \leq t_1$, 0 $\leq j \leq m-1$, and $m+1$ consecutive points $t_i$, where ${D}_t^{(j)}f(t) $ denotes $j$-th order derivative acting on $t$. We extend this idea to the backward SS model formulation of the GP, leading to the concept of the left KP for next $m$ consecutive points: $\sum_{i=0}^{m}b_i{D}_t^{(j)}K(t,t_{m+i})=0$ for any $t\geq t_{2m}$. By combining both left and right KPs, we can prove that a suitable linear combination of these covariance functions yields $m$ compactly supported KP functions: $\phi^{(j)}(t)=0$ for any $t\not\in(t_0,t_{2m})$ and $j=0,\cdots,m-1$. KPs further reduce the prediction time of GP to O(log n) or even O(1), can be applied to more general problems involving the derivative of GPs, and have multi-dimensional generalization for scattered data.
翻訳日:2024-02-08 11:48:33 公開日:2024-02-07
# クロスエントロピーとラベル平滑化:神経崩壊の展望

Cross Entropy versus Label Smoothing: A Neural Collapse Perspective ( http://arxiv.org/abs/2402.03979v2 )

ライセンス: Link先を確認
Li Guo, Keith Ross, Zifan Zhao, George Andriopoulos, Shuyang Ling, Yufeng Xu, Zixuan Dong(参考訳) ラベル平滑化損失は、ディープニューラルネットワークの過剰フィッティングを軽減するために広く採用されているテクニックである。 本稿では,学習末期のモデル動作を特徴付ける強力な経験的・理論的枠組みであるNeural Collapse(NC)の観点から,スムースなラベル付けについて検討する。 まず,ラベル平滑化を訓練したモデルがより早く神経崩壊解に収束し,より強い神経崩壊レベルに達することを示す。 さらに,同レベルのnc1ではラベル平滑化損失モデルがnc2の増大を示すことを示した。 これらの知見は, ラベル平滑化損失下での性能向上とモデルキャリブレーションの強化に有意義な洞察を与える。 次に、両損失関数に対する大域的最小化に対する閉形式解を導出するために、制約のない特徴モデルを活用し、さらにラベル平滑化下のモデルは条件数が少なく、理論上はより高速に収束することを示す。 実験的な証拠と理論的な結果を組み合わせることで、ラベルの平滑化とクロスエントロピーの損失の違いに関する微妙な洞察を提供するだけでなく、DNNの理解を改善するために強力な神経崩壊フレームワークをどのように利用できるかの例としても役立ちます。

Label smoothing loss is a widely adopted technique to mitigate overfitting in deep neural networks. This paper studies label smoothing from the perspective of Neural Collapse (NC), a powerful empirical and theoretical framework which characterizes model behavior during the terminal phase of training. We first show empirically that models trained with label smoothing converge faster to neural collapse solutions and attain a stronger level of neural collapse. Additionally, we show that at the same level of NC1, models under label smoothing loss exhibit intensified NC2. These findings provide valuable insights into the performance benefits and enhanced model calibration under label smoothing loss. We then leverage the unconstrained feature model to derive closed-form solutions for the global minimizers for both loss functions and further demonstrate that models under label smoothing have a lower conditioning number and, therefore, theoretically converge faster. Our study, combining empirical evidence and theoretical results, not only provides nuanced insights into the differences between label smoothing and cross-entropy losses, but also serves as an example of how the powerful neural collapse framework can be used to improve our understanding of DNNs.
翻訳日:2024-02-08 11:47:47 公開日:2024-02-07
# ポジション・ペーパー:スプリアス・スパークスに対抗して、膨らんだaiの主張に$-$が科される

Position Paper: Against Spurious Sparks $-$ Dovelating Inflated AI Claims ( http://arxiv.org/abs/2402.03962v2 )

ライセンス: Link先を確認
Patrick Altmeyer, Andrew M. Demetriou, Antony Bartlett, Cynthia C. S. Liem(参考訳) 人間は周囲の物体に「人間」のような性質を見る傾向がある。 私たちは私たちの車を名付け、ペットや家電製品にも話しかけます。 この行動は擬人化と呼ばれ、機械学習(ml)にも牽引力があり、人間のような知性は大規模言語モデル(llm)で認識されていると主張されている。 本稿では,職業的インセンティブ,人的バイアス,一般方法論的設定を考慮し,現在の汎用人工知能(agi)の探索が,人間的性質をllmに過剰に分配するための完璧な嵐であることを示す。 いくつかの実験において、潜在空間における人間解釈パターンの発見は驚くべき結果ではないことが示されている。 また,メディアにおける一般的なai表現を考慮し,学術コミュニティに対して,ai研究成果の解釈と伝達において,学術的整合性の原則を意識するように求めた。

Humans have a tendency to see 'human'-like qualities in objects around them. We name our cars, and talk to pets and even household appliances, as if they could understand us as other humans do. This behavior, called anthropomorphism, is also seeing traction in Machine Learning (ML), where human-like intelligence is claimed to be perceived in Large Language Models (LLMs). In this position paper, considering professional incentives, human biases, and general methodological setups, we discuss how the current search for Artificial General Intelligence (AGI) is a perfect storm for over-attributing human-like qualities to LLMs. In several experiments, we demonstrate that the discovery of human-interpretable patterns in latent spaces should not be a surprising outcome. Also in consideration of common AI portrayal in the media, we call for the academic community to exercise extra caution, and to be extra aware of principles of academic integrity, in interpreting and communicating about AI research outcomes.
翻訳日:2024-02-08 11:47:21 公開日:2024-02-07
# AirPhyNet:空気質予測のための物理誘導ニューラルネットワーク

AirPhyNet: Harnessing Physics-Guided Neural Networks for Air Quality Prediction ( http://arxiv.org/abs/2402.03784v2 )

ライセンス: Link先を確認
Kethmi Hirushini Hettige, Jiahao Ji, Shili Xiang, Cheng Long, Gao Cong, Jingyuan Wang(参考訳) 大気質の予測とモデリングは公衆衛生と環境管理において重要な役割を担い、個人や当局は情報的決定を行う。 従来のデータ駆動モデルはこの領域で有望性を示しているが、その長期的な予測精度は、特にスパースや不完全なデータを持つシナリオでは制限され、それらは多くの場合、確固とした物理的基盤を持たないブラックボックスのディープラーニング構造に依存しているため、予測における透明性と解釈性が低下する。 本稿では,空気質予測のための物理誘導ニューラルネットワーク(AirPhyNet)という新しい手法を提案する。 具体的には、空気粒子移動(拡散と対流)の2つの確立された物理原理を微分方程式ネットワークとして表現する。 次に,物理知識をニューラルネットワークアーキテクチャに統合し,潜時表現を利用して大気質データ内の時空間関係をキャプチャするグラフ構造を用いる。 2つの実世界のベンチマークデータセットの実験によると、AirPhyNetは異なるリードタイム(24h, 48h, 72h)、スパースデータと突然の変化予測など、さまざまなテストシナリオの最先端モデルよりも優れており、予測エラーの最大10%削減を実現している。 さらに,本モデルが粒子運動の基盤となる物理過程を捉え,実際の物理的意味を持つ正確な予測を生成することを検証した。

Air quality prediction and modelling plays a pivotal role in public health and environment management, for individuals and authorities to make informed decisions. Although traditional data-driven models have shown promise in this domain, their long-term prediction accuracy can be limited, especially in scenarios with sparse or incomplete data and they often rely on black-box deep learning structures that lack solid physical foundation leading to reduced transparency and interpretability in predictions. To address these limitations, this paper presents a novel approach named Physics guided Neural Network for Air Quality Prediction (AirPhyNet). Specifically, we leverage two well-established physics principles of air particle movement (diffusion and advection) by representing them as differential equation networks. Then, we utilize a graph structure to integrate physics knowledge into a neural network architecture and exploit latent representations to capture spatio-temporal relationships within the air quality data. Experiments on two real-world benchmark datasets demonstrate that AirPhyNet outperforms state-of-the-art models for different testing scenarios including different lead time (24h, 48h, 72h), sparse data and sudden change prediction, achieving reduction in prediction errors up to 10%. Moreover, a case study further validates that our model captures underlying physical processes of particle movement and generates accurate predictions with real physical meaning.
翻訳日:2024-02-08 11:47:01 公開日:2024-02-07
# 公開プロパガンダ:人間のアノテーションと機械分類を比較したスタイリスティックな方法の分析

Exposing propaganda: an analysis of stylistic cues comparing human annotations and machine classification ( http://arxiv.org/abs/2402.03780v2 )

ライセンス: Link先を確認
G\'eraud Faye, Benjamin Icard, Morgane Casanova, Julien Chanson, Fran\c{c}ois Maine, Fran\c{c}ois Bancilhon, Guillaume Gadek, Guillaume Gravier, Paul \'Egr\'e(参考訳) 本稿では,プロパガンダの言語とその様式的特徴について検討する。 Pseudo-Newsは、専門家機関によってプロパガンダソースとして特定されたウェブサイトから抽出されたニュース記事からなるマルチソース、多言語、マルチモーダルデータセットである。 このセットの限られたサンプルは、通常のフランスの報道機関の論文とランダムに混同され、そのURLがマスクされ、11の異なるラベルを使って人による注釈実験が行われた。 その結果,ヒトのアノテータは各ラベル間で2種類のプレスを確実に識別することができた。 アノテーションが使用するキューを識別するための異なるNLP手法を提案し,それらを機械分類と比較する。 これには、談話の曖昧さと主観性を測定するためのアナライザVAGO、ベースラインとして機能するTF-IDF、および2つのRoBERTaベースのモデル、構文を用いたCATS、構文と意味的特徴を組み合わせた1つのXGBoostの4つの異なる分類器が含まれる。

This paper investigates the language of propaganda and its stylistic features. It presents the PPN dataset, standing for Propagandist Pseudo-News, a multisource, multilingual, multimodal dataset composed of news articles extracted from websites identified as propaganda sources by expert agencies. A limited sample from this set was randomly mixed with papers from the regular French press, and their URL masked, to conduct an annotation-experiment by humans, using 11 distinct labels. The results show that human annotators were able to reliably discriminate between the two types of press across each of the labels. We propose different NLP techniques to identify the cues used by the annotators, and to compare them with machine classification. They include the analyzer VAGO to measure discourse vagueness and subjectivity, a TF-IDF to serve as a baseline, and four different classifiers: two RoBERTa-based models, CATS using syntax, and one XGBoost combining syntactic and semantic features.
翻訳日:2024-02-08 11:46:35 公開日:2024-02-07
# SHMC-Net: 精子頭部形態分類のためのマスク誘導機能融合ネットワーク

SHMC-Net: A Mask-guided Feature Fusion Network for Sperm Head Morphology Classification ( http://arxiv.org/abs/2402.03697v2 )

ライセンス: Link先を確認
Nishchal Sapkota, Yejia Zhang, Sirui Li, Peixian Liang, Zhuo Zhao, Danny Z Chen(参考訳) 男性不妊は世界の不妊患者の約3分の1を占める。 頭部形態解析による精子異常の手動評価は、専門家の間で観察者の変動と診断上の相違の問題に遭遇する。 その代わり、casa(computer-assisted semen analysis)は、低品質の精子画像、小さなデータセット、騒がしいクラスラベルに苦しむ。 精子頭の形態分類のための新しいアプローチであるshmc-netを提案し,精子頭のセグメンテーションマスクを用いて精子画像の形態分類を導く。 SHMC-Netは、画像プリエントを用いて信頼性の高いセグメンテーションマスクを生成し、効率的なグラフベースの手法でオブジェクト境界を洗練し、精子頭作物とマスクネットワークをトレーニングする。 ネットワークの中間段階では、画像とマスクの特徴を融合スキームで融合させ、形態的特徴をよりよく学習する。 ノイズの多いクラスラベルの処理と小さなデータセットでのトレーニングの正規化のために、SHMC-NetはSoft Mixupを適用して、ミックスアップ拡張と損失関数を組み合わせた。 scian と hushem のデータセットで最先端の成果を達成し,事前トレーニングやコストのかかるセンシング手法を駆使した手法よりも優れています。

Male infertility accounts for about one-third of global infertility cases. Manual assessment of sperm abnormalities through head morphology analysis encounters issues of observer variability and diagnostic discrepancies among experts. Its alternative, Computer-Assisted Semen Analysis (CASA), suffers from low-quality sperm images, small datasets, and noisy class labels. We propose a new approach for sperm head morphology classification, called SHMC-Net, which uses segmentation masks of sperm heads to guide the morphology classification of sperm images. SHMC-Net generates reliable segmentation masks using image priors, refines object boundaries with an efficient graph-based method, and trains an image network with sperm head crops and a mask network with the corresponding masks. In the intermediate stages of the networks, image and mask features are fused with a fusion scheme to better learn morphological features. To handle noisy class labels and regularize training on small datasets, SHMC-Net applies Soft Mixup to combine mixup augmentation and a loss function. We achieve state-of-the-art results on SCIAN and HuSHeM datasets, outperforming methods that use additional pre-training or costly ensembling techniques.
翻訳日:2024-02-08 11:46:13 公開日:2024-02-07
# 自己回帰型大言語モデルを用いた説明可能な株価予測の学習

Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models ( http://arxiv.org/abs/2402.03659v2 )

ライセンス: Link先を確認
Kelvin J.L. Koa, Yunshan Ma, Ritchie Ng, Tat-Seng Chua(参考訳) ストック予測を説明することは、従来の非生成的ディープラーニングモデルでは一般的に難しいタスクであり、重要なテキストに対する注意重みを視覚化することに限定されている。 今日、Large Language Models (LLM) は、意思決定プロセスのための人間可読な説明を生成する既知の能力から、この問題に対する解決策を提示している。 しかし、株価にカオス的なソーシャルテキストが与える影響を測る能力が必要となるため、株価予測の課題は依然としてllmsにとって困難である。 この問題は説明コンポーネントの導入によって徐々に難しくなり、llmはなぜ特定の要因が他の要素よりも重要であるのかを口頭で説明する必要がある。 一方で,このような課題に対してllmを微調整するには,トレーニングセット内の各ストック移動に対して,専門家による説明のサンプルが必要となる。 これらの課題に対処するために,LLMが説明可能な株価予測を完全自律的に生成する方法を教えるために,自己回帰エージェントとPPO(Proximal Policy Optimization)を利用したSEP(Summarize-Explain-Predict)フレームワークを提案する。 反射剤は自己推論によって過去の株価の動きを説明する方法を学び、PPOトレーナーは入力テキストから最も可能性の高い説明を生成するためにモデルを訓練する。 PPOトレーナーのトレーニングサンプルは、反射過程中に生成された応答であり、人間のアノテータの必要性を排除している。 SEPフレームワークを用いて,従来の深層学習法とLLM法の両方を予測精度,およびストック分類タスクに対するマシューズ相関係数で上回り得るLLMを微調整する。 フレームワークの一般化能力を正当化するため、ポートフォリオ構築タスクでさらにテストし、さまざまなポートフォリオメトリクスを通してその効果を実証する。

Explaining stock predictions is generally a difficult task for traditional non-generative deep learning models, where explanations are limited to visualizing the attention weights on important texts. Today, Large Language Models (LLMs) present a solution to this problem, given their known capabilities to generate human-readable explanations for their decision-making process. However, the task of stock prediction remains challenging for LLMs, as it requires the ability to weigh the varying impacts of chaotic social texts on stock prices. The problem gets progressively harder with the introduction of the explanation component, which requires LLMs to explain verbally why certain factors are more important than the others. On the other hand, to fine-tune LLMs for such a task, one would need expert-annotated samples of explanation for every stock movement in the training set, which is expensive and impractical to scale. To tackle these issues, we propose our Summarize-Explain-Predict (SEP) framework, which utilizes a self-reflective agent and Proximal Policy Optimization (PPO) to let a LLM teach itself how to generate explainable stock predictions in a fully autonomous manner. The reflective agent learns how to explain past stock movements through self-reasoning, while the PPO trainer trains the model to generate the most likely explanations from input texts. The training samples for the PPO trainer are also the responses generated during the reflective process, which eliminates the need for human annotators. Using our SEP framework, we fine-tune a LLM that can outperform both traditional deep-learning and LLM methods in prediction accuracy and Matthews correlation coefficient for the stock classification task. To justify the generalization capability of our framework, we further test it on the portfolio construction task, and demonstrate its effectiveness through various portfolio metrics.
翻訳日:2024-02-08 11:45:48 公開日:2024-02-07
# MQuinE:知識グラフ埋め込みモデルにおける「Zパラドックス」の治療法

MQuinE: a cure for "Z-paradox" in knowledge graph embedding models ( http://arxiv.org/abs/2402.03583v2 )

ライセンス: Link先を確認
Yang Liu, Huang Fang, Yunfeng Cai, Mingming Sun(参考訳) 知識グラフ埋め込み(KGE)モデルは、リンク予測や情報検索を含む多くの知識グラフタスクにおいて最先端の結果を得た。 実際に KGE モデルの性能は優れているが、一般的な KGE モデルである \emph{Z-paradox} の表現性が不足していることが分かる。 Z-パラドックスの存在に触発されて、Z-パラドックスに苦しむことなく、対称/非対称、逆、1-N/N-1/N-Nを含む様々な関係パターンをモデル化するための強い表現性を保った新しいKGEモデルである「emph{MQuinE}」を提案する。 実世界の知識ベースでの実験では、Zパラドックスは既存のKGEモデルの性能を低下させ、いくつかの挑戦的なテストサンプルに対して20倍以上の精度低下を引き起こす可能性がある。 我々の実験は、MQuinEがZパラドックスの負の影響を緩和し、既存のKGEモデルをリンク予測タスクの可視限界で上回ることを示した。

Knowledge graph embedding (KGE) models achieved state-of-the-art results on many knowledge graph tasks including link prediction and information retrieval. Despite the superior performance of KGE models in practice, we discover a deficiency in the expressiveness of some popular existing KGE models called \emph{Z-paradox}. Motivated by the existence of Z-paradox, we propose a new KGE model called \emph{MQuinE} that does not suffer from Z-paradox while preserves strong expressiveness to model various relation patterns including symmetric/asymmetric, inverse, 1-N/N-1/N-N, and composition relations with theoretical justification. Experiments on real-world knowledge bases indicate that Z-paradox indeed degrades the performance of existing KGE models, and can cause more than 20\% accuracy drop on some challenging test samples. Our experiments further demonstrate that MQuinE can mitigate the negative impact of Z-paradox and outperform existing KGE models by a visible margin on link prediction tasks.
翻訳日:2024-02-08 11:45:16 公開日:2024-02-07
# vln-video: 屋外視言語ナビゲーションにおける運転映像の活用

VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation ( http://arxiv.org/abs/2402.03561v2 )

ライセンス: Link先を確認
Jialu Li, Aishwarya Padmakumar, Gaurav Sukhatme, Mohit Bansal(参考訳) アウトドアビジョン・アンド・ランゲージナビゲーション(VLN)では、エージェントが自然言語の指示に基づいて現実的な3D屋外環境をナビゲートする必要がある。 既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。 これらの課題に対処するため,米国内の複数の都市において,映像の運転中に発生する多様な屋外環境を利用して,自動生成ナビゲーション命令とアクションを付加して,屋外VLN性能を向上させるVLN-Videoを提案する。 VLN-Videoは、直感的な古典的アプローチと近代的なディープラーニング技術を組み合わせて、テンプレートインフィルを使用して基底ナビゲーション命令を生成し、画像回転類似性に基づくナビゲーションアクション予測器と組み合わせて、ディープラーニングVLNモデルを事前学習するためのビデオからVLNスタイルのデータを取得する。 我々は、Touchdownデータセット上のモデルと、3つのプロキシタスクで動画の駆動から生成されたビデオ強化データセット、すなわち、マスケド言語モデリング、インストラクションとトラジェクトリマッチング、およびNext Action Predictionを事前トレーニングし、時間的に認識され、視覚的に整列された命令表現を学ぶ。 学習した命令表現は、Touchdownデータセットの微調整時に最先端のナビゲータに適合する。 実証実験の結果、VLN-Videoは従来の最先端モデルよりも2.1%向上し、Touchdownデータセット上で新しい最先端モデルを実現している。

Outdoor Vision-and-Language Navigation (VLN) requires an agent to navigate through realistic 3D outdoor environments based on natural language instructions. The performance of existing VLN methods is limited by insufficient diversity in navigation environments and limited training data. To address these issues, we propose VLN-Video, which utilizes the diverse outdoor environments present in driving videos in multiple cities in the U.S. augmented with automatically generated navigation instructions and actions to improve outdoor VLN performance. VLN-Video combines the best of intuitive classical approaches and modern deep learning techniques, using template infilling to generate grounded navigation instructions, combined with an image rotation similarity-based navigation action predictor to obtain VLN style data from driving videos for pretraining deep learning VLN models. We pre-train the model on the Touchdown dataset and our video-augmented dataset created from driving videos with three proxy tasks: Masked Language Modeling, Instruction and Trajectory Matching, and Next Action Prediction, so as to learn temporally-aware and visually-aligned instruction representations. The learned instruction representation is adapted to the state-of-the-art navigator when fine-tuning on the Touchdown dataset. Empirical results demonstrate that VLN-Video significantly outperforms previous state-of-the-art models by 2.1% in task completion rate, achieving a new state-of-the-art on the Touchdown dataset.
翻訳日:2024-02-08 11:44:53 公開日:2024-02-07
# 4次元ガウス型スプレーティング : 動的シーンの効率的な新規ビュー合成に向けて

4D Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes ( http://arxiv.org/abs/2402.03307v2 )

ライセンス: Link先を確認
Yuanxing Duan, Fangyin Wei, Qiyu Dai, Yuhang He, Wenzheng Chen, Baoquan Chen(参考訳) 動的シーンに対する新規ビュー合成(NVS)の問題点を考察する。 最近のニューラルアプローチでは、静的な3Dシーンに対して例外的なNVS結果が達成されているが、4Dの時間変化シーンへの拡張は簡単ではない。 以前の取り組みでは、正準空間と暗黙的または明示的な変形場を学習することでダイナミクスをエンコードし、突然の動きや高忠実度なレンダリングといった困難なシナリオに苦しむ。 本稿では,静的なシーンにおける3Dガウススティングの成功に触発された,異方性4DXYZTガウスの動的シーンを表現する新しい手法である4Dガウススティング(4DGS)を紹介する。 動的3次元ガウスを自然に構成し、シームレスに画像に投影できる4次元ガウスを時間的にスライスすることで、各タイムスタンプのダイナミクスをモデル化する。 空間的時間的表現として、4DGSは複雑なダイナミクスや細部、特に急激な動きのあるシーンをモデル化する強力な能力を示す。 さらに、高度に最適化されたCUDAアクセラレーションフレームワークで、RTX 3090 GPUで最大277FPS、RTX 4090 GPUで最大583FPSのリアルタイム推論レンダリング速度を実現する。 多様な動きを持つシーンにおける厳密な評価は、4DGSの優れた効率と有効性を示し、既存の手法を定量的にも質的にも一貫して上回っている。

We consider the problem of novel view synthesis (NVS) for dynamic scenes. Recent neural approaches have accomplished exceptional NVS results for static 3D scenes, but extensions to 4D time-varying scenes remain non-trivial. Prior efforts often encode dynamics by learning a canonical space plus implicit or explicit deformation fields, which struggle in challenging scenarios like sudden movements or capturing high-fidelity renderings. In this paper, we introduce 4D Gaussian Splatting (4DGS), a novel method that represents dynamic scenes with anisotropic 4D XYZT Gaussians, inspired by the success of 3D Gaussian Splatting in static scenes. We model dynamics at each timestamp by temporally slicing the 4D Gaussians, which naturally compose dynamic 3D Gaussians and can be seamlessly projected into images. As an explicit spatial-temporal representation, 4DGS demonstrates powerful capabilities for modeling complicated dynamics and fine details, especially for scenes with abrupt motions. We further implement our temporal slicing and splatting techniques in a highly optimized CUDA acceleration framework, achieving real-time inference rendering speeds of up to 277 FPS on an RTX 3090 GPU and 583 FPS on an RTX 4090 GPU. Rigorous evaluations on scenes with diverse motions showcase the superior efficiency and effectiveness of 4DGS, which consistently outperforms existing methods both quantitatively and qualitatively.
翻訳日:2024-02-08 11:44:26 公開日:2024-02-07
# 文脈認識によるゼロショットオブジェクトレベルOOD検出

Zero-shot Object-Level OOD Detection with Context-Aware Inpainting ( http://arxiv.org/abs/2402.03292v2 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Jin Peng Zhou, Zhenzhen Liu, Khanh-Huyen Bui, Kilian Q. Weinberger, Dung D. Le(参考訳) 機械学習アルゴリズムは、トレーニングデータにアクセスせずに、ブラックボックスクラウドサービスや事前トレーニングされたモデルとしてますます提供される。 これにより、ゼロショット・アウト・オブ・ディストリビューション(OOD)検出が問題となる。 具体的には,分類器のラベルセットに属さないOODオブジェクトを,誤ってIDオブジェクトとして分類することを目的とする。 当社のアプローチであるroninは、市販の拡散モデルを使用して、検出されたオブジェクトを塗り替える。 ロニンは、予測されたidラベルで塗装プロセスを条件付けし、入力オブジェクトをインディストリビューションドメインに近づける。 結果として、再構成されたオブジェクトは、IDケースでは元のものと非常に近いが、OODケースでははるかに近いため、roninはIDとOODサンプルを効果的に識別することができる。 広範な実験を通じて、RONINは、ゼロショットとノンゼロショットの両方の設定において、複数のデータセットにわたる以前のアプローチと比較して、競合的な結果が得られることを示した。

Machine learning algorithms are increasingly provided as black-box cloud services or pre-trained models, without access to their training data. This motivates the problem of zero-shot out-of-distribution (OOD) detection. Concretely, we aim to detect OOD objects that do not belong to the classifier's label set but are erroneously classified as in-distribution (ID) objects. Our approach, RONIN, uses an off-the-shelf diffusion model to replace detected objects with inpainting. RONIN conditions the inpainting process with the predicted ID label, drawing the input object closer to the in-distribution domain. As a result, the reconstructed object is very close to the original in the ID cases and far in the OOD cases, allowing RONIN to effectively distinguish ID and OOD samples. Throughout extensive experiments, we demonstrate that RONIN achieves competitive results compared to previous approaches across several datasets, both in zero-shot and non-zero-shot settings.
翻訳日:2024-02-08 11:43:57 公開日:2024-02-07