このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240124となっている論文です。

PDF登録状況(公開日: 20240124)

TitleAuthorsAbstract論文公表日・翻訳日
# 臨界ミッションにおけるNOMA伝送による反応性ジャマーのバイパス

Bypassing a Reactive Jammer via NOMA-Based Transmissions in Critical Missions ( http://arxiv.org/abs/2401.10387v2 )

ライセンス: Link先を確認
Mohammadreza Amini, Ghazal Asemian, Michel Kulhandjian, Burak Kantarci, Claude D'Amours, Melike Erol-Kantarci, (参考訳) 無線ネットワークは無線妨害攻撃に弱い可能性がある。 妨害攻撃によるサービス品質は保証されておらず、特にミッションクリティカルな軍事アプリケーションにおいて、信頼性、レイテンシ、効果的なレートといったサービス要件は、妨害者の行動に深く影響される可能性がある。 本稿では, 反応性ジャマの効果を解析する。 特に、ジャマーの検出確率を考慮し、信頼性、平均伝送遅延、および有限ブロック長伝送を持つNOMAベースのスキームに対する有効和率(ESR)を数学的に導出する。 さらに、UEsの割り当て電力とブロック長がネットワークメトリクスに与える影響について検討した。 既存の文献とは対照的に、gNBは送信電力を減少させることで反応性ジャミングの影響を緩和し、ジャマー側で送信をカバーできることが示されている。 最後に、信頼性、遅延、電力制約の伝達においてESRを最大化する最適化問題を定式化する。 gNBは、割り当てられた送信電力をUEにgNBで調整することにより、パケット再送信を必要とせずに、0.99999の信頼性と5msのレイテンシを満たすために、ジャマー効果を回避できることが示されている。

Wireless networks can be vulnerable to radio jamming attacks. The quality of service under a jamming attack is not guaranteed and the service requirements such as reliability, latency, and effective rate, specifically in mission-critical military applications, can be deeply affected by the jammer's actions. This paper analyzes the effect of a reactive jammer. Particularly, reliability, average transmission delay, and the effective sum rate (ESR) for a NOMA-based scheme with finite blocklength transmissions are mathematically derived taking the detection probability of the jammer into account. Furthermore, the effect of UEs' allocated power and blocklength on the network metrics is explored. Contrary to the existing literature, results show that gNB can mitigate the impact of reactive jamming by decreasing transmit power, making the transmissions covert at the jammer side. Finally, an optimization problem is formulated to maximize the ESR under reliability, delay, and transmit power constraints. It is shown that by adjusting the allocated transmit power to UEs by gNB, the gNB can bypass the jammer effect to fulfill the 0.99999 reliability and the latency of 5ms without the need for packet re-transmission.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-24
# LayerZero

LayerZero ( http://arxiv.org/abs/2312.09118v2 )

ライセンス: Link先を確認
Ryan Zarick, Bryan Pellegrino, Isaac Zhang, Thomas Kim, Caleb Banister, (参考訳) 本稿では,第1に,本質的にセキュアで意味的に普遍的な全鎖相互運用プロトコルであるLayerZeroを提案する。 イミュータブルエンドポイント、追加のみの検証モジュール、完全に構成可能な検証インフラストラクチャを利用することで、Omnichainの相互運用性を実現するのに必要なセキュリティ、設定性、拡張性を提供します。 LayerZeroは、すべてのブロックチェーンとユースケースを普遍的にサポートするように設計された、信頼最小化された新しいモジュール型セキュリティフレームワークを通じて、プロトコルセキュリティとコストの厳格なアプリケーション排他的所有権を強制する。 LayerZeroプロトコル上に構築されたOmnichainアプリケーション(OApps)は、LayerZeroのユニバーサルネットワークセマンティクスを通じて、摩擦のないブロックチェーンに依存しない相互運用を実現する。

In this paper, we present the first intrinsically secure and semantically universal omnichain interoperability protocol: LayerZero. Utilizing an immutable endpoint, append-only verification modules, and fully-configurable verification infrastructure, LayerZero provides the security, configurability, and extensibility necessary to achieve omnichain interoperability. LayerZero enforces strict application-exclusive ownership of protocol security and cost through its novel trust-minimized modular security framework which is designed to universally support all blockchains and use cases. Omnichain applications (OApps) built on the LayerZero protocol achieve frictionless blockchain-agnostic interoperation through LayerZero's universal network semantics.
翻訳日:2024-03-18 12:17:07 公開日:2024-01-24
# POSTER: プロダクションシステムのためのセキュアな5Gインフラストラクチャを目指して

POSTER: Towards Secure 5G Infrastructures for Production Systems ( http://arxiv.org/abs/2401.13306v1 )

ライセンス: Link先を確認
Martin Henze, Maximilian Ortmann, Thomas Vogt, Osman Ugus, Kai Hermann, Svenja Nohr, Zeren Lu, Sotiris Michaelides, Angela Massonet, Robert H. Schmitt, (参考訳) 近代的な生産の要求を満たすため、産業用通信は電線フィールドバスから無線5G通信へと変化していく。 重大なメリットに加えて、新たなセキュリティ脆弱性に対する信頼性の制限から、説明責任の欠如に至るまで、このシフトには深刻な新たなリスクが伴う。 これらのリスクに対処するため、私たちはアプローチを提案します。 i) 認証と冗長通信による攻撃を防止する。 (二)異常や妨害を検知し、 三 デバイス排除及び説明責任措置により検出された攻撃に応答すること。

To meet the requirements of modern production, industrial communication increasingly shifts from wired fieldbus to wireless 5G communication. Besides tremendous benefits, this shift introduces severe novel risks, ranging from limited reliability over new security vulnerabilities to a lack of accountability. To address these risks, we present approaches to (i) prevent attacks through authentication and redundant communication, (ii) detect anomalies and jamming, and (iii) respond to detected attacks through device exclusion and accountability measures.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# CALM(Programmatic Stablecoin Crypto Asset-Liability Management)におけるリアルタイムリスクメトリクス

Real-time Risk Metrics for Programmatic Stablecoin Crypto Asset-Liability Management (CALM) ( http://arxiv.org/abs/2401.13399v1 )

ライセンス: Link先を確認
Marcel Bluhm, Adrian Cachinero Vasiljević, Sébastien Derivaux, Søren Terp Hørlück Jessen, (参考訳) スタブルコインは、成長するデジタル資産空間の「キラー」ユースケースであることが判明した。 しかし、規制を含むリスク管理フレームワークは、ほとんど欠落している。 本稿では,パブリックブロックチェーンインフラストラクチャ上で運用されるStablecoinプロトコルのリスクの測定と管理に関する重要な問題に対処する。 オンチェーン環境により、リスクを監視し、透過的なスマートコントラクトをリアルタイムで管理することが可能になる。 本稿では,ステーブルコインプロトコルの資本化と流動性に関する2つのリスク指標を提案する。 次に,私たちのリスク管理の枠組みを,MakerDAOが管理する市場資本化から現在までで最大の分散型ステーブルコインであるDAIに適用可能なケーススタディ型分析について検討する。 本研究では,自己資本バッファの自動調整と動的成熟度ギャップマッチングの実現について検討することを推奨する。 本分析は,デジタルアセット空間における高品質で粒度が高く,タンパー耐性のオンチェーンデータのリアルタイム利用から生じる,スケーラブルな(プルーデンシャルな)リスク管理の実践的メリットを実証する。 我々はこの手法をCrypto Asset-Liability Management (CALM) と呼ぶ。

Stablecoins have turned out to be the "killer" use case of the growing digital asset space. However, risk management frameworks, including regulatory ones, have been largely absent. In this paper, we address the critical question of measuring and managing risk in stablecoin protocols, which operate on public blockchain infrastructure. The on-chain environment makes it possible to monitor risk and automate its management via transparent smart-contracts in real-time. We propose two risk metrics covering capitalization and liquidity of stablecoin protocols. We then explore in a case-study type analysis how our risk management framework can be applied to DAI, the biggest decentralized stablecoin by market capitalisation to-date, governed by MakerDAO. Based on our findings, we recommend that the protocol explores implementing automatic capital buffer adjustments and dynamic maturity gap matching. Our analysis demonstrates the practical benefits for scalable (prudential) risk management stemming from real-time availability of high-quality, granular, tamper-resistant on-chain data in the digital asset space. We name this approach Crypto Asset-Liability Management (CALM).
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# WPDA:ウェーブレットパケット分解による周波数ベースバックドアアタック

WPDA: Frequency-based Backdoor Attack with Wavelet Packet Decomposition ( http://arxiv.org/abs/2401.13578v1 )

ライセンス: Link先を確認
Zhengyao Song, Yongqiang Li, Danni Yuan, Li Liu, Shaokui Wei, Baoyuan Wu, (参考訳) この研究は、ディープニューラルネットワーク(DNN)ベースの画像分類、すなわちバックドア攻撃に対する新たなセキュリティ脅威を探究する。 このシナリオでは、攻撃者は、特定のトリガによってバックドアが活性化されるようにトレーニングデータを操作することで、モデルにバックドアを注入し、推論時にターゲット予測を行う。 現在、既存のデータ中毒ベースの攻撃は、低い毒性比で成功するのに苦労しており、防御方法によって防御されるリスクが増大している。 本稿では、Wavelet Packet Decomposition (WPD)による新しい周波数ベースのバックドアアタックを提案し、WPDは元の画像信号を異なる意味を持つ周波数情報を含む分光器に分解する。 我々は、WPDを利用してデータセットの周波数分布を統計的に分析し、DNNが注目する主要な周波数領域を推測し、トリガー情報は鍵周波数領域にのみ注入する。 本手法は主に3つの部分を含む。 1) スペクトログラムにおける中毒頻度領域の選択 2) 発生を誘導する。 3) 有毒なデータセットの生成。 CIFAR-10の98.12%の攻撃成功率(ASR)により、極端に低い毒性比0.004%(5万の訓練サンプルのうち2つの有毒試料のみ)で証明され、既存の防御手法をバイパスすることができる。 また,本手法がなぜ機能するのかを可視化分析して説明する。

This work explores an emerging security threat against deep neural networks (DNNs) based image classification, i.e., backdoor attack. In this scenario, the attacker aims to inject a backdoor into the model by manipulating training data, such that the backdoor could be activated by a particular trigger and bootstraps the model to make a target prediction at inference. Currently, most existing data poisoning-based attacks struggle to achieve success at low poisoning ratios, increasing the risk of being defended by defense methods. In this paper, we propose a novel frequency-based backdoor attack via Wavelet Packet Decomposition (WPD), WPD decomposes the original image signal to a spectrogram that contains frequency information with different semantic meanings. We leverage WPD to statistically analyze the frequency distribution of the dataset to infer the key frequency regions the DNNs would focus on, and the trigger information is only injected into the key frequency regions. Our method mainly includes three parts: 1) the selection of the poisoning frequency regions in spectrogram; 2) trigger generation; 3) the generation of the poisoned dataset. Our method is stealthy and precise, evidenced by the 98.12% Attack Success Rate (ASR) on CIFAR-10 with the extremely low poisoning ratio 0.004% (i.e., only 2 poisoned samples among 50,000 training samples) and can bypass most existing defense methods. Besides, we also provide visualization analyses to explain why our method works.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# 見えないスレッドのセキュア化:Apple AirTagsとSamsung SmartTagsのBLEトラッカーセキュリティの総合的分析

Securing the Invisible Thread: A Comprehensive Analysis of BLE Tracker Security in Apple AirTags and Samsung SmartTags ( http://arxiv.org/abs/2401.13584v1 )

ライセンス: Link先を確認
Hosam Alamleh, Michael Gogarty, David Ruddell, Ali Abdullah S. AlQahtani, (参考訳) 本研究は,Bluetooth Low Energy(BLE)トラッキングシステムにおけるセキュリティの状況について,特にApple AirTagsとSamsung SmartTagsに着目した詳細な分析を行った。 我々の調査は、物理的な改ざん、ファームウェアの悪用、信号の盗聴、盗聴、妨害、アプリセキュリティの欠陥、Bluetoothセキュリティの弱点、位置情報の盗聴、所有者デバイスへの脅威、クラウド関連の脆弱性など、幅広い攻撃ベクトルを横断している。 さらに,これらのシステムで使用される暗号手法のセキュリティへの影響についても検討する。 調査の結果、AirTagsやSmartTagsのようなBLEトラッカーは相当なユーティリティを提供するが、セキュリティ上のリスクも大きいことがわかった。 特に、Appleのアプローチは、仲介者を削除することによってユーザのプライバシを優先するが、不注意にも、AirTagのスプーフィングインスタンスの成功によって証明されたデバイス認証の課題につながる。 逆にSamsung SmartTagsは、ビーコンの悪用を防ぎ、クラウドのセキュリティとユーザのプライバシに関する重要な懸念を提起する。 われわれの分析では、これらのデバイスが直面している制約も強調している。バッテリー寿命の確保、特にセキュアなブートプロセスの欠如などだ。 本論文は,これらの追跡システムの今後の発展について考察した。 これらのデバイスがより広範なIoTエコシステムに統合され、プライバシー規制が進化するにつれて、今後はセキュリティ機能が強化されることが予想されます。 このシフトは、次世代のBLEトラッキングシステムにおける機能とセキュリティの複雑なバランスに対処するために不可欠である。

This study presents an in-depth analysis of the security landscape in Bluetooth Low Energy (BLE) tracking systems, with a particular emphasis on Apple AirTags and Samsung SmartTags, including their cryptographic frameworks. Our investigation traverses a wide spectrum of attack vectors such as physical tampering, firmware exploitation, signal spoofing, eavesdropping, jamming, app security flaws, Bluetooth security weaknesses, location spoofing, threats to owner devices, and cloud-related vulnerabilities. Moreover, we delve into the security implications of the cryptographic methods utilized in these systems. Our findings reveal that while BLE trackers like AirTags and SmartTags offer substantial utility, they also pose significant security risks. Notably, Apple's approach, which prioritizes user privacy by removing intermediaries, inadvertently leads to device authentication challenges, evidenced by successful AirTag spoofing instances. Conversely, Samsung SmartTags, designed to thwart beacon spoofing, raise critical concerns about cloud security and user privacy. Our analysis also highlights the constraints faced by these devices due to their design focus on battery life conservation, particularly the absence of secure boot processes, which leaves them susceptible to OS modification and a range of potential attacks. The paper concludes with insights into the anticipated evolution of these tracking systems. We predict that future enhancements will likely focus on bolstering security features, especially as these devices become increasingly integrated into the broader IoT ecosystem and face evolving privacy regulations. This shift is imperative to address the intricate balance between functionality and security in next-generation BLE tracking systems.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# HetDAPAC:異種属性を用いた分散属性に基づくプライベートアクセス制御

HetDAPAC: Distributed Attribute-Based Private Access Control with Heterogeneous Attributes ( http://arxiv.org/abs/2401.13653v1 )

ライセンス: Link先を確認
Shreya Meel, Sennur Ulukus, (参考訳) データベースへのきめ細かいアクセス制御を提供するためのユーザ属性を検証することは、属性ベースの認証システムの基本である。 このようなシステムでは、単一の(中央の)権威がすべての属性を検証するか、あるいは複数の独立した権威が個々の属性を分散的に検証し、ユーザがサーバに格納されたレコードにアクセスできるようにする。 emph{central}セットアップは通信コストの効率が向上するが、これは中央の権限に対する \emph{all} ユーザ属性のプライバシ侵害を引き起こす。 最近、Jafarpishehらは、$(N,K)$分散属性ベースのプライベートアクセス制御(DAPAC)システムと呼ばれる各属性に対して、$N$非収集当局、$N$属性、$K$可能な値を持つ、emph{distributed}マルチオーソリティ設定の情報理論の定式化を研究した。 本稿では, 属性のサブセットを中央サーバにオフロードして検証することにより, 達成可能なレートを, Jafarpisheh et al の $\frac{1}{2K}$ から $\frac{1}{K+1}$ に改善することを示す。

Verifying user attributes to provide fine-grained access control to databases is fundamental to an attribute-based authentication system. In such systems, either a single (central) authority verifies all attributes, or multiple independent authorities verify individual attributes distributedly to allow a user to access records stored on the servers. While a \emph{central} setup is more communication cost efficient, it causes privacy breach of \emph{all} user attributes to a central authority. Recently, Jafarpisheh et al. studied an information theoretic formulation of the \emph{distributed} multi-authority setup with $N$ non-colluding authorities, $N$ attributes and $K$ possible values for each attribute, called an $(N,K)$ distributed attribute-based private access control (DAPAC) system, where each server learns only one attribute value that it verifies, and remains oblivious to the remaining $N-1$ attributes. We show that off-loading a subset of attributes to a central server for verification improves the achievable rate from $\frac{1}{2K}$ in Jafarpisheh et al. to $\frac{1}{K+1}$ in this paper, thus \emph{almost doubling the rate} for relatively large $K$, while sacrificing the privacy of a few possibly non-sensitive attributes.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# タブサーチによる可視光通信システムを保護するLED選択手法

A tabu search-based LED selection approach safeguarding visible light communication systems ( http://arxiv.org/abs/2401.13715v1 )

ライセンス: Link先を確認
Ge Shi, (参考訳) 本稿では,単入力単出力可視光通信(VLC)チャネルの盗聴器の存在下での機密性について検討する。 研究されたVLCシステムは、屋内環境において、分散発光ダイオード(LED)と複数のランダムに位置付けられたユーザ(UE)からなる。 各UEに対して最適なLEDを選択することにより、秘密送信を強化するために、和秘密率最大化問題を定式化する。 この問題の非凸性および非連続性に対処するため,前回の反復から試行ベクトルを編成することにより,局所最適化の防止を図ったタブ検索アルゴリズムを提案する。 さらに,各UEに対して1つのLEDを選択する固定基準を用いることで,計算複雑性を低減できる3つの簡単なLED選択戦略を開発した。 また,提案アルゴリズムと戦略の収束と複雑性解析についても検討する。 その結果,提案アルゴリズムの秘密性能は,グローバルな最適値に非常に近いものであり,開発戦略よりも優れていることがわかった。

In this paper, we investigate the secrecy performance of a single-input single-output visible light communication (VLC) channel in the presence of an eavesdropper. The studied VLC system comprises distributed light-emitting diodes (LEDs) and multiple randomly located users (UEs) within an indoor environment. A sum secrecy rate maximization problem is formulated to enhance confidential transmission by selecting the optimal LED for each UE. To address the non-convex and non-continuous nature of this problem, we propose a tabu search-based algorithm that prevents entrapment in local optima by organizing the trial vectors from previous iterations. Furthermore, we develop three straightforward LED selection strategies that reduce computational complexity by employing fixed criteria to choose one LED for each UE. We also examine the convergence and complexity analysis of the proposed algorithm and strategies. The results demonstrate that the secrecy performance of our proposed algorithm is very close to the global optimal value and surpasses that of the developed strategies.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# SoK:ゲーム理論サイバーセキュリティ:想定、モデル、ギャップ、ブリッジ

SoK: Game-Theoretic Cybersecurity: Assumptions, Models, Gaps, and Bridges ( http://arxiv.org/abs/2401.13815v1 )

ライセンス: Link先を確認
Brandon Collins, Shouhuai Xu, Philip N. Brown, (参考訳) ゲーム理論の分野は経済学の文脈で導入され、サイバー攻撃やディフェンダー行動の研究に応用されてきた。 サイバー領域の特徴に対応するために適応が作られてきたが、これらの研究は本質的には、プレイヤー(エージェント)が利己的であるが悪意はない経済システムにおけるゲーム理論のルーツによって制限されている。 本稿では,ゲーム理論アプローチで研究されている主要なサイバーセキュリティ問題,想定された仮定,提案されたモデルとソリューション概念を体系化する。 この体系化は、ゲーム理論のサイバーセキュリティモデルを真に有用なものにするために対処しなければならない技術的ギャップを特徴づける。 私たちはそれらに対応するために橋を探索する。

The discipline of game theory was introduced in the context of economics, and has been applied to study cyber attacker and defender behaviors. While adaptions have been made to accommodate features in the cyber domain, these studies are inherently limited by the root of game theory in economic systems where players (i.e., agents) may be selfish but not malicious. In this SoK, we systematize the major cybersecurity problems that have been studied with the game-theoretic approach, the assumptions that have been made, the models and solution concepts that have been proposed. The systematization leads to a characterization of the technical gaps that must be addressed in order to make game-theoretic cybersecurity models truly useful. We explore bridges to address them.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-24
# Bike3S: 自転車共有システムのシミュレーションツール

Bike3S: A Tool for Bike Sharing Systems Simulation ( http://arxiv.org/abs/2402.16871v1 )

ライセンス: Link先を確認
Alberto Fernández, Holger Billhardt, Sascha Ossowski, Óscar Sánchez, (参考訳) 自動車シェアリングシステムはますます人気が高まっている。 このようなシステムの有効性は、艦隊の寸法や車両の分布など、異なる戦略的および運用的管理上の決定と政策に依存する。 これらの戦略がうまく展開される前に、そのような戦略の潜在的な効果を予測し、評価できることが最も重要です。 本稿では,駅型自転車共有システムのシミュレータであるBike3Sについて述べる。 シミュレータは、自転車共有システムの動作に関する半現実的なシミュレーションを行い、異なる管理決定と戦略を評価し、テストすることができる。 特にシミュレータは、異なるステーション容量、ステーション分布、バランスの取れた戦略をテストするように設計されている。 シミュレーターは顕微鏡エージェントベースのシミュレーションを行い、異なるタイプのユーザーがそれぞれの目標やシステム全体のダイナミクスに影響を与える目的に応じて行動するように定義する。

Vehicle sharing systems are becoming increasingly popular. The effectiveness of such systems depends, among other factors, on different strategic and operational management decisions and policies, like the dimension of the fleet or the distribution of vehicles. It is of foremost importance to be able to anticipate and evaluate the potential effects of such strategies before they can be successfully deployed. In this paper we present Bike3S, a simulator for a station-based bike sharing system. The simulator performs semi-realistic simulations of the operation of a bike sharing system and allows for evaluating and testing different management decisions and strategies. In particular, the simulator has been designed to test different station capacities, station distributions, and balancing strategies. The simulator carries out microscopic agent-based simulations, where users of different types can be defined that act according to their individual goals and objectives which influences the overall dynamics of the whole system.
翻訳日:2024-03-18 07:09:00 公開日:2024-01-24
# WiMANS:WiFiベースのマルチユーザアクティビティセンシングのためのベンチマークデータセット

WiMANS: A Benchmark Dataset for WiFi-based Multi-user Activity Sensing ( http://arxiv.org/abs/2402.09430v1 )

ライセンス: Link先を確認
Shuokang Huang, Kaihan Li, Di You, Yichong Chen, Arvin Lin, Siying Liu, Xiaohui Li, Julie A. McCann(参考訳) wifiベースの人間センシングは、非意図的でデバイスフリーな方法でユーザーの行動を解析する顕著な可能性を示しており、スマートホームやヘルスケアのような多様なアプリケーションにも恩恵をもたらしている。 しかしながら、以前のほとんどの作業は、複数のユーザを含むシナリオで実用性に制限のあるシングルユーザセンシングに重点を置いている。 近年、WiFiベースのマルチユーザアクティビティセンシングの研究が始まっているが、再現性と同等の研究を促進するためのベンチマークデータセットが不足している。 このギャップを埋めるために、我々はWiMANSを、WiFiに基づくマルチユーザアクティビティセンシングのための最初のデータセットである私たちの知識に提示する。 WiMANSには9.4時間以上のWiFiチャンネル状態情報(CSI)が含まれており、様々な環境で複数のユーザが同時に行う活動を監視している。 既存のデータセットと比較して、WiMANSはデュアルWiFiバンドのCSIを収集するだけでなく、同期ビデオも含む。 wimansを利用して、最先端のwifiベースの人間センシングモデルとビデオベースのモデルのパフォーマンスをベンチマークし、wifiベースのマルチユーザ識別、ローカライゼーション、アクティビティ認識に新たな挑戦と機会を与えました。 wimansは、現在のwifiベースの人間センシングの境界を押し進め、マルチユーザーアクティビティ分析の研究を触媒することができると信じています。

WiFi-based human sensing has exhibited remarkable potential to analyze user behaviors in a non-intrusive and device-free manner, benefiting applications as diverse as smart homes and healthcare. However, most previous works focus on single-user sensing, which has limited practicability in scenarios involving multiple users. Although recent studies have begun to investigate WiFi-based multi-user activity sensing, there remains a lack of benchmark datasets to facilitate reproducible and comparable research. To bridge this gap, we present WiMANS, to our knowledge, the first dataset for multi-user activity sensing based on WiFi. WiMANS contains over 9.4 hours of WiFi Channel State Information (CSI), monitoring simultaneous activities performed by multiple users in various environments. Compared to existing datasets, WiMANS not only collects the CSI of dual WiFi bands but also includes synchronized videos. We exploit WiMANS to benchmark the performance of state-of-the-art WiFi-based human sensing models and video-based models, posing new challenges and opportunities for WiFi-based multi-user identification, localization, and activity recognition. We believe that WiMANS can push the boundaries of current WiFi-based human sensing and catalyze the research on multi-user activity analysis.
翻訳日:2024-02-25 17:13:30 公開日:2024-01-24
# 地下炭鉱の作業日損失に影響を及ぼすリスク要因の因果関係ネットワーク

Causal Relationship Network of Risk Factors Impacting Workday Loss in Underground Coal Mines ( http://arxiv.org/abs/2402.05940v1 )

ライセンス: Link先を確認
Shangsi Ren, Cameron A. Beeche, Zhiyi Shi, Maria Acevedo Garcia, Katherine Zychowski, Shuguang Leng, Pedram Roghanchi, Jiantao Pu(参考訳) 本研究の目的は,新たな因果人工知能(AI)手法を用いて,地下炭鉱の作業日数減少につながる諸要因間の因果関係ネットワークを確立することである。 この分析は、NIOSH(National Institute for Occupational Safety and Health)から得られたデータを利用する。 1990年から2020年にかけての3,982件の地下炭鉱による101,010件の負傷記録をNIOSHデータベースから抽出した。 因果関係をGGES(Grouped Greedy Equivalence Search)と呼ばれる新しい因果AI手法を用いて解析・可視化した。 作業日損失に対する各変数の影響は,介入量調整(IDA)スコアを用いて評価した。 10倍のクロスバリデーション技術を用いてモデルトレーニングと検証を行った。 モデルの評価には,隣接精度 (ap), 隣接リコール (ar), 矢印精度 (ahp), 矢印リコール (ahr) などの性能指標を用いた。 2006年以降、鉱業の従業員が失業した主な原因は、総鉱業経験、オフィスの従業員の平均、地下の従業員の平均、郡の総鉱業経験(年)であった。 総鉱業経験は最も影響力のある要因として現れたが、平均的な鉱山労働者は最も影響力が低い。 この分析は、失業判定における全鉱業経験の重要な役割を強調した。 モデルはそれぞれ0.694、0.653、0.386、0.345のAP、AR、AHP、AHRで最適な性能を達成した。 本研究は,GGES法を用いて,雇用統計や傷害記録を分析し,その因果関係ネットワークを確立することにより,就業日数減少の因果要因を明らかにすることの実現可能性を示した。

This study aims to establish the causal relationship network between various factors leading to workday loss in underground coal mines using a novel causal artificial intelligence (AI) method. The analysis utilizes data obtained from the National Institute for Occupational Safety and Health (NIOSH). A total of 101,010 injury records from 3,982 unique underground coal mines spanning the years from 1990 to 2020 were extracted from the NIOSH database. Causal relationships were analyzed and visualized using a novel causal AI method called Grouped Greedy Equivalence Search (GGES). The impact of each variable on workday loss was assessed through intervention do-calculus adjustment (IDA) scores. Model training and validation were performed using the 10-fold cross-validation technique. Performance metrics, including adjacency precision (AP), adjacency recall (AR), arrowhead precision (AHP), and arrowhead recall (AHR), were utilized to evaluate the models. Findings revealed that after 2006, key direct causes of workday loss among mining employees included total mining experience, mean office employees, mean underground employees, county, and total mining experience (years). Total mining experience emerged as the most influential factor, whereas mean employees per mine exhibited the least influence. The analyses emphasized the significant role of total mining experience in determining workday loss. The models achieved optimal performance, with AP, AR, AHP, and AHR values measuring 0.694, 0.653, 0.386, and 0.345, respectively. This study demonstrates the feasibility of utilizing the new GGES method to clarify the causal factors behind the workday loss by analyzing employment demographics and injury records and establish their causal relationship network.
翻訳日:2024-02-18 14:33:11 公開日:2024-01-24
# 3-(F)WLは全3Dグラフを識別するのに十分か?

Is 3-(F)WL Enough to Distinguish All 3D Graphs? ( http://arxiv.org/abs/2402.08429v1 )

ライセンス: Link先を確認
Wanghan Xu(参考訳) 例えば、2つの化学分子の類似性を解析したり、グラフニューラルネットワークの表現能力を研究するなどである。 WLテストは、2つのグラフが同型かどうかを判断する手法であるが、すべての非同型グラフを区別することはできない。 WLの改善として、k-WLはより強い同型識別能力を有し、kが増加するにつれて、その識別能力は厳密に増大している。 しかし、より複雑な3Dグラフに対して k-WL の同型判別力が厳密に増大しているか、あるいは、すべての3Dグラフを識別できる k が存在するかは未解明のままである。 本稿では,グラフ生成の観点からこの問題を探究する。

The problem of graph isomorphism is an important but challenging problem in the field of graph analysis, for example: analyzing the similarity of two chemical molecules, or studying the expressive ability of graph neural networks. WL test is a method to judge whether two graphs are isomorphic, but it cannot distinguish all non-isomorphic graphs. As an improvement of WL, k-WL has stronger isomorphism discrimination ability, and as k increases, its discrimination ability is strictly increasing. However, whether the isomorphic discrimination power of k-WL is strictly increasing for more complex 3D graphs, or whether there exists k that can discriminate all 3D graphs, remains unexplored. This paper attempts to explore this problem from the perspective of graph generation.
翻訳日:2024-02-18 13:29:55 公開日:2024-01-24
# DoorINet:Door-Mounted IoTアプリケーションのためのディープラーニング慣性フレームワーク

DoorINet: A Deep-Learning Inertial Framework for Door-Mounted IoT Applications ( http://arxiv.org/abs/2402.09427v1 )

ライセンス: Link先を確認
Aleksei Zakharchenko, Sharon Farber, Itzik Klein(参考訳) モノのインターネットアプリケーションの多くは、低コストでマイクロ、電気機械式慣性センサーを使用している。 一般的なタスクは方向推定である。 このような課題に取り組むために、態度と方向基準系アルゴリズムを適用する。 ジャイロスコープの測度に基づいて加速度計の測度を用いて姿勢角を更新し、磁力計の測度を用いて方向角を更新する。 屋内環境では、磁力計は性能を低下させる干渉に苦しむ。 これは主に、クローゼットや冷蔵庫のドアの方向角など、方向角を推定するアプリケーションに影響を及ぼす。 このような状況を回避するため,磁力計を使わずにドアマウント型低コスト慣性センサから方向角を計算するためのエンドツーエンドディープラーニングフレームワークDoorINetを提案する。 提案手法を評価するため,391分間の加速度計とジャイロスコープ計測とそれに対応する地中方向角を含む独自のデータセットを作成した。 提案手法は,モデルに基づく手法やデータ駆動手法よりも優れていることを示す。

Many Internet of Things applications utilize low-cost, micro, electro-mechanical inertial sensors. A common task is orientation estimation. To tackle such a task, attitude and heading reference system algorithms are applied. Relying on the gyroscope readings, the accelerometer readings are used to update the attitude angles, and magnetometer measurements are utilized to update the heading angle. In indoor environments, magnetometers suffer from interference that degrades their performance. This mainly influences applications focused on estimating the heading angle like finding the heading angle of a closet or fridge door. To circumvent such situations, we propose DoorINet, an end-to-end deep-learning framework to calculate the heading angle from door-mounted, low-cost inertial sensors without using magnetometers. To evaluate our approach, we record a unique dataset containing 391 minutes of accelerometer and gyroscope measurements and corresponding ground-truth heading angle. We show that our proposed approach outperforms commonly used, model based approaches and data-driven methods.
翻訳日:2024-02-18 13:18:24 公開日:2024-01-24
# 持続的深層放射関数を用いたスマートシティにおける交通情報分析の強化

An Enhanced Analysis of Traffic Intelligence in Smart Cities Using Sustainable Deep Radial Function ( http://arxiv.org/abs/2402.09432v1 )

ライセンス: Link先を確認
Ayad Ghany Ismaeel, S.J. Jereesha Mary, C. Anitha, Jaganathan Logeshwaran, Sarmad Nozad Mahmood, Sameer Alani, and Akram H. Shather(参考訳) スマートシティは、交通システムなどの都市インフラの様々な側面を最適化する高度な技術を導入し、都市生活に革命をもたらした。 効果的な交通管理は、住民や観光客の生活の質に直接影響するため、スマートシティにとって重要な要素である。 本稿では, ディープラジアルベース機能(RBF)ネットワークを活用し, スマートシティにおける交通インテリジェンス向上のための新たな戦略について述べる。 従来の交通分析手法は、都市交通システムの複雑なパターンやダイナミクスを捉えることができない単純なモデルにしばしば依存している。 深いRBFネットワークのようなディープラーニング技術は、交通データから貴重な洞察を抽出し、より正確な予測と決定を可能にする可能性がある。 本稿では,都市交通インテリジェンス向上のためのRBFに基づく手法を提案する。 深いRBFネットワークは、ディープラーニングの適応性と一般化能力と放射基底関数の識別能力を組み合わせる。 提案手法は,ディープニューラルネットワークの階層構造を利用して,トラヒックデータの複雑な関係や非線形パターンを効果的に学習する。 深部RBFモデルでは,交通状況の予測,混雑パターンの同定,これらのリッチで多様なデータを取り入れて交通管理戦略を最適化するためのインフォームドレコメンデーションを学習し,提案手法の有効性を評価するため,スマートシティ環境からの実世界の交通データセットとの比較を行った。 予測精度と効率の面では、深いRBFに基づくアプローチが従来の交通分析手法より優れていることを示す。 スマートシティ交通インテリジェンスはモデル容量によって強化され、非線形関係を捉え、大規模データセットを管理する。

Smart cities have revolutionized urban living by incorporating sophisticated technologies to optimize various aspects of urban infrastructure, such as transportation systems. Effective traffic management is a crucial component of smart cities, as it has a direct impact on the quality of life of residents and tourists. Utilizing deep radial basis function (RBF) networks, this paper describes a novel strategy for enhancing traffic intelligence in smart cities. Traditional methods of traffic analysis frequently rely on simplistic models that are incapable of capturing the intricate patterns and dynamics of urban traffic systems. Deep learning techniques, such as deep RBF networks, have the potential to extract valuable insights from traffic data and enable more precise predictions and decisions. In this paper, we propose an RBF based method for enhancing smart city traffic intelligence. Deep RBF networks combine the adaptability and generalization capabilities of deep learning with the discriminative capability of radial basis functions. The proposed method can effectively learn intricate relationships and nonlinear patterns in traffic data by leveraging the hierarchical structure of deep neural networks. The deep RBF model can learn to predict traffic conditions, identify congestion patterns, and make informed recommendations for optimizing traffic management strategies by incorporating these rich and diverse data To evaluate the efficacy of our proposed method, extensive experiments and comparisons with real world traffic datasets from a smart city environment were conducted. In terms of prediction accuracy and efficiency, the results demonstrate that the deep RBF based approach outperforms conventional traffic analysis methods. Smart city traffic intelligence is enhanced by the model capacity to capture nonlinear relationships and manage large scale data sets.
翻訳日:2024-02-18 13:01:15 公開日:2024-01-24
# ニューラルネットワークソルバに対する表現的問題空間仕様の効率的なコンパイル

Efficient compilation of expressive problem space specifications to neural network solvers ( http://arxiv.org/abs/2402.01353v1 )

ライセンス: Link先を確認
Matthew L. Daggitt, Wen Kokke, Robert Atkey(参考訳) 最近の研究は、ニューラルネットワーク検証における埋め込みギャップの存在を説明している。 ギャップの一方は、解釈可能な問題空間の観点からドメインの専門家によって書かれた、ネットワークの振る舞いに関する高レベルな仕様である。 他方では、ニューラルネットワークソルバに適した形で、解釈不能な埋め込み空間で表現される、論理的に等価な満足度クエリのセットがある。 本稿では,前者を後者にコンパイルするアルゴリズムについて述べる。 我々は,標準的なsmtソルバとは対照的に,ニューラルネットワークソルバをターゲットとした複雑度を探索し,克服する。

Recent work has described the presence of the embedding gap in neural network verification. On one side of the gap is a high-level specification about the network's behaviour, written by a domain expert in terms of the interpretable problem space. On the other side are a logically-equivalent set of satisfiability queries, expressed in the uninterpretable embedding space in a form suitable for neural network solvers. In this paper we describe an algorithm for compiling the former to the latter. We explore and overcome complications that arise from targeting neural network solvers as opposed to standard SMT solvers.
翻訳日:2024-02-11 17:29:48 公開日:2024-01-24
# 言語モデルのためのfluent dreaming

Fluent dreaming for language models ( http://arxiv.org/abs/2402.01702v1 )

ライセンス: Link先を確認
T. Ben Thompson (1), Zygimantas Straznickas (1), Michael Sklar (1) ((1) Confirm Labs)(参考訳) 機能可視化(英: Feature Visualization)は、ニューロンの活性化や他の内部成分を最大化するために入力を最適化することで視覚モデルに対する洞察を提供する。 しかし、入力空間が離散的であるため、夢は言語モデルにうまく適用されていない。 本稿では,言語モデル逆アタック文学からの手法であるGreedy Coordinate Gradientを拡張して,進化的プロンプト最適化(EPO)アルゴリズムを設計する。 EPOは入力プロンプトを最適化し、選択した内部特徴と急流の間のParetoフロンティアを同時に最大化する。 ニューロンの夢、出力ロジット、任意の方向を活性化空間で示す。 我々は、結果のプロンプトの流動性を計測し、言語モデルドリームと最大アクティベーションデータセットの例を比較します。 批判的に言えば、fluent dreamingは、軽度に分散しないプロンプトに反応して、モデル内部の自動的な振る舞いを探索することができる。 EPOの実行コードはhttps://github.com/Confirm-Solutions/dreamy.comで公開されている。 コード使用例を示すコンパニオンページはhttps://confirmlabs.org/posts/dreamy.htmlにある。

Feature visualization, also known as "dreaming", offers insights into vision models by optimizing the inputs to maximize a neuron's activation or other internal component. However, dreaming has not been successfully applied to language models because the input space is discrete. We extend Greedy Coordinate Gradient, a method from the language model adversarial attack literature, to design the Evolutionary Prompt Optimization (EPO) algorithm. EPO optimizes the input prompt to simultaneously maximize the Pareto frontier between a chosen internal feature and prompt fluency, enabling fluent dreaming for language models. We demonstrate dreaming with neurons, output logits and arbitrary directions in activation space. We measure the fluency of the resulting prompts and compare language model dreaming with max-activating dataset examples. Critically, fluent dreaming allows automatically exploring the behavior of model internals in reaction to mildly out-of-distribution prompts. Code for running EPO is available at https://github.com/Confirm-Solutions/dreamy. A companion page demonstrating code usage is at https://confirmlabs.org/posts/dreamy.html
翻訳日:2024-02-11 16:42:45 公開日:2024-01-24
# nie pozw\'ol algorytmom rz\k{a}dzi\'c twoim koszykiem:systemy rekomendacyjne w dobie omnibusa

Nie pozw\'ol algorytmom rz\k{a}dzi\'c Twoim koszykiem: systemy rekomendacyjne w dobie Omnibusa ( http://arxiv.org/abs/2402.01701v1 )

ライセンス: Link先を確認
Miko{\l}aj Morzy, Miros{\l}aw Sobieraj, Sebastian Sikora(参考訳) オムニバス指令(omnibus directive)は、欧州連合(eu)の消費者のための新しい契約の重要な部分である。 Directiveは、eコマースを含む新しい貿易規制を導入し、透明性、公正性、消費者保護を高めることを目指している。 著者らは、オムニバス指令、すなわちレコメンデーションシステムに対する考慮の欠如に関して、重大な見落としに注意を向けている。 推奨エンジンは、消費者に影響を与える潜在的に有害なプラクティスの源となり得る。 本論文で提示される提案には,推薦の否定的影響のリスクを最小限に抑えるための推薦システムに対する倫理的監督の導入や,推薦の基準の明確化などが含まれる。 -Dyrektywa Omnibus stanowi istotn\k{a} cz\k{e}\'s\'c Nowego {\L}adu dla Konsument\'ow (ang)。 Unii Europejskiej(英語) Dyrektywa wprowadza nowe regulacje w handlu, w tym e-Commerce, kt\'orych g{\l}\'ownym celem jest zwi\k{e}kszenie przejrzysto\'sci, uczciwo\'sci i ochrony konsument\'ow Autorzy krytycznie zwracaj\k{a} uwag\k{e} na istotne zaniedbanie w dyrektywie Omnibus, jakim jest brak uwzgl\k{e}dnienia system\'ow rekomendacyjnych。 Silniki rekomendacyjne mog\k{a} by\'c \'zr\'od{\l}em potencjalnie szkodliwych praktyk uderzaj\k{a}cych w konsument\'ow, st\k{a}d niezb\k{e}dne jest rozszerzenie dyrektywy。 Propozycje przedstawione w niniejszym artykule obejmuj\k{a} wprowadzenie etycznego nadzoru nad systemami rekomenduj\k{a}cymi, aby zminimalizowa\'c ryzyko negatywnych skutk\'ow ich rekomendacji, a tak\。 ze jasne wyja\'snienie kryteri\'ow, na podstawie kt\'orych dokonywane s\k{a} rekomendacje - analogicznie do ranking\'ow wynik\'ow wyszukiwania

The Omnibus Directive is an essential part of the European Union's New Deal for Consumers. The Directive introduces new regulations in trade, including e-commerce, with the main goal being to increase transparency, fairness and consumer protection. The authors critically draw attention to a significant oversight in the Omnibus Directive, namely the lack of consideration of recommendation systems. Recommendation engines can be a source of potentially harmful practices affecting consumers, hence the need for a directive extension. The proposals presented in this article include the introduction of ethical supervision over recommendation systems to minimize the risk of negative effects of their recommendations, as well as a clear explanation of the criteria on which recommendations are made -- similar to search result rankings. -- Dyrektywa Omnibus stanowi istotn\k{a} cz\k{e}\'s\'c Nowego {\L}adu dla Konsument\'ow (ang. \emph{New Deal for Consumers}) Unii Europejskiej. Dyrektywa wprowadza nowe regulacje w handlu, w tym e-commerce, kt\'orych g{\l}\'ownym celem jest zwi\k{e}kszenie przejrzysto\'sci, uczciwo\'sci i ochrony konsument\'ow. Autorzy krytycznie zwracaj\k{a} uwag\k{e} na istotne zaniedbanie w dyrektywie Omnibus, jakim jest brak uwzgl\k{e}dnienia system\'ow rekomendacyjnych. Silniki rekomendacyjne mog\k{a} by\'c \'zr\'od{\l}em potencjalnie szkodliwych praktyk uderzaj\k{a}cych w konsument\'ow, st\k{a}d niezb\k{e}dne jest rozszerzenie dyrektywy. Propozycje przedstawione w niniejszym artykule obejmuj\k{a} wprowadzenie etycznego nadzoru nad systemami rekomenduj\k{a}cymi, aby zminimalizowa\'c ryzyko negatywnych skutk\'ow ich rekomendacji, a tak\.ze jasne wyja\'snienie kryteri\'ow, na podstawie kt\'orych dokonywane s\k{a} rekomendacje -- analogicznie do ranking\'ow wynik\'ow wyszukiwania.
翻訳日:2024-02-11 16:42:20 公開日:2024-01-24
# 介護現場における医療従事者の質問応答システム -体系的考察-

Question answering systems for health professionals at the point of care -- a systematic review ( http://arxiv.org/abs/2402.01700v1 )

ライセンス: Link先を確認
Gregory Kell, Angus Roberts, Serge Umansky, Linglong Qian, Davide Ferrari, Frank Soboczenski, Byron Wallace, Nikhil Patel, Iain J Marshall(参考訳) 目的: 質問応答システム(QA)は, 医療専門家に最新の, 最も関連性の高い証拠を提供することにより, 臨床ケアの質を向上させる可能性を秘めている。 しかし、QAシステムは広く採用されていない。 この体系的なレビューは、現在の医療QAシステムを特徴づけ、医療への適合性を評価し、改善の領域を特定することを目的としている。 資料と方法:2023年2月7日にPubMed, IEEE Xplore, ACM Digital Library, ACL Anthologyおよび前後の引用を検索した。 バイオメディカルQAシステムの設計と評価を記載した査読論文や会議論文も紹介した。 2人のレビュアーがタイトル、要約、全文記事をスクリーニングした。 本研究では,各研究の物語合成とバイアス評価のリスクについて検討した。 バイオメディカルQAシステムの有用性を評価した。 結果: 質問状リアリズム, 回答信頼性, 回答ユーティリティ, 臨床専門性, システム, ユーザビリティ, 評価方法など,79研究と特定テーマについて検討した。 QAシステムのトレーニングと評価に使用された臨床医の質問は、特定のソース、タイプ、複雑さレベルに制限された。 回答や情報源の信頼度を伝達するシステムはない。 多くの研究はバイアスと適用可能性に関する高いリスクに悩まされた。 臨床効果の基準を完全に満たした研究は8例のみで, ユーザ評価は7例のみであった。 ほとんどのシステムは臨床医からの限られたインプットで構築された。 議論: 機械学習手法は精度の向上につながったが、ほとんどの研究は現実世界の医療情報のニーズを不完全に反映している。 主な研究優先事項は、より現実的な医療用QAデータセットの開発と、単に正確性にフォーカスするのではなく、回答ソースの信頼性を考慮することである。

Objective: Question answering (QA) systems have the potential to improve the quality of clinical care by providing health professionals with the latest and most relevant evidence. However, QA systems have not been widely adopted. This systematic review aims to characterize current medical QA systems, assess their suitability for healthcare, and identify areas of improvement. Materials and methods: We searched PubMed, IEEE Xplore, ACM Digital Library, ACL Anthology and forward and backward citations on 7th February 2023. We included peer-reviewed journal and conference papers describing the design and evaluation of biomedical QA systems. Two reviewers screened titles, abstracts, and full-text articles. We conducted a narrative synthesis and risk of bias assessment for each study. We assessed the utility of biomedical QA systems. Results: We included 79 studies and identified themes, including question realism, answer reliability, answer utility, clinical specialism, systems, usability, and evaluation methods. Clinicians' questions used to train and evaluate QA systems were restricted to certain sources, types and complexity levels. No system communicated confidence levels in the answers or sources. Many studies suffered from high risks of bias and applicability concerns. Only 8 studies completely satisfied any criterion for clinical utility, and only 7 reported user evaluations. Most systems were built with limited input from clinicians. Discussion: While machine learning methods have led to increased accuracy, most studies imperfectly reflected real-world healthcare information needs. Key research priorities include developing more realistic healthcare QA datasets and considering the reliability of answer sources, rather than merely focusing on accuracy.
翻訳日:2024-02-11 16:40:16 公開日:2024-01-24
# 大言語モデルによる参加型都市計画

Large language model empowered participatory urban planning ( http://arxiv.org/abs/2402.01698v1 )

ライセンス: Link先を確認
Zhilun Zhou, Yuming Lin, Yong Li(参考訳) 参加型都市計画は現代の都市計画の主流であり、様々な利害関係者の活発な関与を伴う。 しかし、従来の参加型パラダイムは時間と人力の課題に遭遇する一方、生成型計画ツールは調整可能で包括的なソリューションを提供しない。 本研究では,大規模言語モデル(llm)を参加型プロセスに統合する革新的な都市計画手法を提案する。 llmエージェントに基づいたこのフレームワークは、ロールプレイ、コラボレーティブ生成、フィードバックイテレーションで構成され、1000の関心事に対応するコミュニティレベルの土地利用タスクを解決している。 多様な都市社会における実証実験は、様々な計画シナリオにまたがるLLMの適応性と有効性を示している。 その結果、満足度と包摂性の専門家を上回る4つの指標と、サービスと生態学における最先端の強化学習手法に対抗して評価された。 さらなる分析は、自然言語推論と強力なスケーラビリティを備えた調整可能かつ包括的ソリューションを提供する上で、LLMエージェントの利点を示している。 計画立案における人間行動のエミュレートの最近の進歩の中で, 低コストで効率的なLLMエージェントの恩恵を受けるプランナーと市民の両方を想定し, 参加の促進と参加型都市計画の実現に不可欠である。

Participatory urban planning is the mainstream of modern urban planning and involves the active engagement of different stakeholders. However, the traditional participatory paradigm encounters challenges in time and manpower, while the generative planning tools fail to provide adjustable and inclusive solutions. This research introduces an innovative urban planning approach integrating Large Language Models (LLMs) within the participatory process. The framework, based on the crafted LLM agent, consists of role-play, collaborative generation, and feedback iteration, solving a community-level land-use task catering to 1000 distinct interests. Empirical experiments in diverse urban communities exhibit LLM's adaptability and effectiveness across varied planning scenarios. The results were evaluated on four metrics, surpassing human experts in satisfaction and inclusion, and rivaling state-of-the-art reinforcement learning methods in service and ecology. Further analysis shows the advantage of LLM agents in providing adjustable and inclusive solutions with natural language reasoning and strong scalability. While implementing the recent advancements in emulating human behavior for planning, this work envisions both planners and citizens benefiting from low-cost, efficient LLM agents, which is crucial for enhancing participation and realizing participatory urban planning.
翻訳日:2024-02-11 16:39:46 公開日:2024-01-24
# higen:階層的テキスト分類のための階層認識シーケンス生成

HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text Classification ( http://arxiv.org/abs/2402.01696v1 )

ライセンス: Link先を確認
Vidit Jain, Mukund Rungta, Yuchen Zhuang, Yue Yu, Zeyu Wang, Mu Gao, Jeffrey Skolnick, Chao Zhang(参考訳) 階層的テキスト分類(階層的テキスト分類、hierarchical text classification)は、階層的ラベル分類とデータ不均衡を特徴とする多ラベルテキスト分類の複雑なサブタスクである。 最高のパフォーマンスモデルは、文書と階層的なラベル情報を組み合わせて静的表現を学習することを目的としている。 しかし、文書セクションの関連性は、動的文書表現を必要とする階層レベルによって異なる可能性がある。 そこで本稿では,動的テキスト表現を符号化する言語モデルを用いたテキスト生成フレームワークHiGenを提案する。 テキストとラベル名の意味関係を捉えるために,レベル誘導損失関数を導入する。 提案手法は,タスク固有の事前学習戦略を取り入れ,言語モデルをドメイン内知識に適用し,限られた例でクラスの性能を大幅に向上させる。 さらに, 酵素委員会数予測(ec)を目標としたpubmedの記事を含む, htc 向けに設計された enzyme という新たな貴重なデータセットを提案する。 酵素データセットと広く認識されているwosおよびnytデータセットに関する広範囲な実験を通じて,既存の手法よりも優れた性能を示し,効率的なデータ処理とクラス不均衡の軽減を両立させる。 データとコードは公開される予定だ。

Hierarchical text classification (HTC) is a complex subtask under multi-label text classification, characterized by a hierarchical label taxonomy and data imbalance. The best-performing models aim to learn a static representation by combining document and hierarchical label information. However, the relevance of document sections can vary based on the hierarchy level, necessitating a dynamic document representation. To address this, we propose HiGen, a text-generation-based framework utilizing language models to encode dynamic text representations. We introduce a level-guided loss function to capture the relationship between text and label name semantics. Our approach incorporates a task-specific pretraining strategy, adapting the language model to in-domain knowledge and significantly enhancing performance for classes with limited examples. Furthermore, we present a new and valuable dataset called ENZYME, designed for HTC, which comprises articles from PubMed with the goal of predicting Enzyme Commission (EC) numbers. Through extensive experiments on the ENZYME dataset and the widely recognized WOS and NYT datasets, our methodology demonstrates superior performance, surpassing existing approaches while efficiently handling data and mitigating class imbalance. The data and code will be released publicly.
翻訳日:2024-02-11 16:39:25 公開日:2024-01-24
# 言語誘導世界モデル:AI制御に対するモデルベースアプローチ

Language-Guided World Models: A Model-Based Approach to AI Control ( http://arxiv.org/abs/2402.01695v1 )

ライセンス: Link先を確認
Alex Zhang, Khanh Nguyen, Jens Tuyls, Albert Lin, Karthik Narasimhan(参考訳) 確率論的世界モデルを人工エージェントにインストールすることは、人間がこれらのエージェントと通信し制御するための効率的なチャネルを開く。 エージェントポリシーの更新に加えて、人間は意思決定に影響を与えるために内部世界モデルを変更することができる。 しかし、現在存在する世界モデルは、自然なコミュニケーションインターフェースが欠如しているため、人間が適応することが困難である。 この欠点に対処するために,言語記述を読み取ることで環境動態を捉えるLWM(Language-Guided World Models)を開発した。 これらのモデルはエージェントのコミュニケーション効率を高め、人間が簡潔な言語フィードバックで複数のタスクの動作を同時に変えることができる。 また、エージェントは元々人間に指示するために書かれたテキストから自己学習することができる。 LWMの開発を容易にするため,MESSENGER (Hanjie et al., 2021) のゲームに基づいて,新しい言語記述や環境力学への合成一般化を必要とする,挑戦的なベンチマークを設計する。 我々の実験によると、現在の最先端のTransformerアーキテクチャは、このベンチマークでは性能が悪く、より堅牢なアーキテクチャを設計する動機となっている。 提案するLWMの実用性を示すために,提案モデルがエージェントの解釈可能性と安全性を高めるシナリオをシミュレートし,実行前に人間との計画の生成と議論を可能にする。 計画に言語フィードバックを効果的に組み込むことにより、この環境でインタラクティブな体験を収集することなく、実環境におけるエージェントのパフォーマンスを最大3倍向上させる。

Installing probabilistic world models into artificial agents opens an efficient channel for humans to communicate with and control these agents. In addition to updating agent policies, humans can modify their internal world models in order to influence their decisions. The challenge, however, is that currently existing world models are difficult for humans to adapt because they lack a natural communication interface. Aimed at addressing this shortcoming, we develop Language-Guided World Models (LWMs), which can capture environment dynamics by reading language descriptions. These models enhance agent communication efficiency, allowing humans to simultaneously alter their behavior on multiple tasks with concise language feedback. They also enable agents to self-learn from texts originally written to instruct humans. To facilitate the development of LWMs, we design a challenging benchmark based on the game of MESSENGER (Hanjie et al., 2021), requiring compositional generalization to new language descriptions and environment dynamics. Our experiments reveal that the current state-of-the-art Transformer architecture performs poorly on this benchmark, motivating us to design a more robust architecture. To showcase the practicality of our proposed LWMs, we simulate a scenario where these models augment the interpretability and safety of an agent by enabling it to generate and discuss plans with a human before execution. By effectively incorporating language feedback on the plan, the models boost the agent performance in the real environment by up to three times without collecting any interactive experiences in this environment.
翻訳日:2024-02-11 16:39:01 公開日:2024-01-24
# MEG応用のためのスティフェル行列推定による弱教師付き共分散行列アライメント

Weakly supervised covariance matrices alignment through Stiefel matrices estimation for MEG applications ( http://arxiv.org/abs/2402.03345v1 )

ライセンス: Link先を確認
Antoine Collas, R\'emi Flamary, Alexandre Gramfort(参考訳) 本稿では,Mixing Model Stiefel Adaptation (MSA)と呼ばれる時系列データに対する新しい領域適応手法を提案する。 ドメイン依存混合モデルと最適なトランスポート領域適応仮定を活用し,対象領域内の豊富なラベルなしデータを活用し,領域間の等価信号分散によるペアリー対応を確立することにより,効果的な予測を実現する。 スティーフェル行列は、観測された信号共分散のリーマン表現から基礎となる信号分散を回復するために必須である。 本稿では,これらの行列,ペアワイズなドメイン関係,およびタスクに応じて予測器,分類器,レグレッサを同時に学習する統合コスト関数を提案する。 神経科学的な問題に適用すると、MSAはCam-CANデータセットからのMEG信号を用いて、タスクの変動を伴う脳-年齢回帰の最近の手法よりも優れている。

This paper introduces a novel domain adaptation technique for time series data, called Mixing model Stiefel Adaptation (MSA), specifically addressing the challenge of limited labeled signals in the target dataset. Leveraging a domain-dependent mixing model and the optimal transport domain adaptation assumption, we exploit abundant unlabeled data in the target domain to ensure effective prediction by establishing pairwise correspondence with equivalent signal variances between domains. Theoretical foundations are laid for identifying crucial Stiefel matrices, essential for recovering underlying signal variances from a Riemannian representation of observed signal covariances. We propose an integrated cost function that simultaneously learns these matrices, pairwise domain relationships, and a predictor, classifier, or regressor, depending on the task. Applied to neuroscience problems, MSA outperforms recent methods in brain-age regression with task variations using magnetoencephalography (MEG) signals from the Cam-CAN dataset.
翻訳日:2024-02-11 15:38:24 公開日:2024-01-24
# Landauer-B\"uttiker理論の散逸接触の場合への一般化

Generalization of the Landauer-B\"uttiker theory onto the case of dissipative contacts ( http://arxiv.org/abs/2402.04262v1 )

ライセンス: Link先を確認
Andrey R. Kolovsky(参考訳) メソスコピックデバイスにおける非相互作用フェルミ粒子の2末端輸送問題を再検討する。 まず,接点の緩和過程(接触自己熱分解率$\gamma$によって特徴づけられる)を考慮に入れ,マスター方程式を用いて解くことで問題を一般化する。 極限の$\gamma\rightarrow0$ では、得られた結果がランダウアー-b\"uttiker理論のそれを再現することが示される。 このように、提示された分析は、Landauer-B\"uttikerと量子輸送に対するマスター方程式のアプローチの間の解析的対応を証明している。

We revisit the problem of two-terminal transport of non-interacting Fermi particles in a mesoscopic device. First, we generalize the problem by including into consideration relaxation processes in contacts (which are characterized by the contact self-thermalization rate $\gamma$) and then solve it by using the master equation approach. In the limit $\gamma\rightarrow0$ the obtained results are shown to reproduce those of the Landauer-B\"uttiker theory. Thus, the presented analysis proves analytical correspondence between the Landauer-B\"uttiker and master-equation approaches to quantum transport, -- the problem which resisted solution for decades.
翻訳日:2024-02-11 15:28:33 公開日:2024-01-24
# 大規模言語モデルと弁護士を比較した GPT

Better Call GPT, Comparing Large Language Models Against Lawyers ( http://arxiv.org/abs/2401.16212v1 )

ライセンス: Link先を確認
Lauren Martin, Nick Whitehouse, Stephanie Yiu, Lizzie Catterson, Rivindu Perera (Onit AI Centre of Excellence)(参考訳) 本稿では,大規模言語モデルと従来の法的契約審査者,ジュニア弁護士,法的プロセスアウトソーサとの画期的な比較を行った。 契約審査において,LLMが人間を上回る精度,速度,コスト効率を達成できるかどうかを論じる。 我々の実証分析は、上級弁護士が設定した根拠的真実に対してLSMをベンチマークし、高度なモデルが法的な問題を決定する際に人間の正確性に一致するか、超えるかを明らかにする。 スピードでは、LSMは人間に必要な時間を取り除き、ほんの数秒でレビューを完了します。 コスト面では、LSMは価格のごく一部で動作し、従来の方法よりも99.97パーセントのコスト削減を実現している。 これらの結果は単なる統計ではなく、法的実践における地震的変化を示唆するものだ。 LLMは法律業界をディスラプトし、法律サービスのアクセシビリティと効率を高める。 我々の研究は、法的契約審査におけるLLM支配の時代は私たちにとって重要であり、現状に挑戦し、法的なワークフローの再考を求める。

This paper presents a groundbreaking comparison between Large Language Models and traditional legal contract reviewers, Junior Lawyers and Legal Process Outsourcers. We dissect whether LLMs can outperform humans in accuracy, speed, and cost efficiency during contract review. Our empirical analysis benchmarks LLMs against a ground truth set by Senior Lawyers, uncovering that advanced models match or exceed human accuracy in determining legal issues. In speed, LLMs complete reviews in mere seconds, eclipsing the hours required by their human counterparts. Cost wise, LLMs operate at a fraction of the price, offering a staggering 99.97 percent reduction in cost over traditional methods. These results are not just statistics, they signal a seismic shift in legal practice. LLMs stand poised to disrupt the legal industry, enhancing accessibility and efficiency of legal services. Our research asserts that the era of LLM dominance in legal contract review is upon us, challenging the status quo and calling for a reimagined future of legal workflows.
翻訳日:2024-02-04 05:35:41 公開日:2024-01-24
# IICONGRAPH:知識グラフにおけるイコノグラフィーとイコノロジカルステートメントの改善

IICONGRAPH: improved Iconographic and Iconological Statements in Knowledge Graphs ( http://arxiv.org/abs/2402.00048v1 )

ライセンス: Link先を確認
Bruno Sartini(参考訳) イコノグラフィーとイコノロジーは、文化遺産のアーティファクトを理解するための基本的な領域である。 図像学は、アーティファクトとその象徴主義に描かれた視覚要素の研究と解釈を扱っており、図像学はより深く掘り下げ、文化的・歴史的意味を探求している。 linked open data (lod) による文化遺産表現の進歩にもかかわらず、近年の研究では、現在の知識グラフ (kgs) における図像表現と図像表現の連続的なギャップが示されている。 そこで本稿では,ArCo(文化遺産のイタリアKG)とWikidataの象徴的・象徴的ステートメントを精錬し,拡張したKGであるIICONGRAPHについて述べる。 IICONGRAPHの開発は、KGの非再設計バージョンでは達成不可能な研究ケーススタディから生じる一連の要求によっても引き起こされた。 評価の結果,IICONGRAPH はArCo やWikidata よりも文献のドメイン固有評価に優れるだけでなく,定式化された研究課題に対処するための堅牢なプラットフォームとして機能することが示された。 IICONGRAPHはリソースの再利用性を保証するためのFAIR原則に従ってリリースされ、ドキュメント化されている。 それを作成し、研究課題を評価するアルゴリズムも、透明性と再現性を確保するために利用可能である。 今後の研究は、KGにより多くのデータを取り込み、LLMベースの質問応答システムのバックボーンとして実装することに焦点を当てるが、IICONGRAPHの現在のバージョンは依然として価値ある資産として現れ、知識グラフやセマンティックウェブなどの文化遺産表現の進化に寄与している。

Iconography and iconology are fundamental domains when it comes to understanding artifacts of cultural heritage. Iconography deals with the study and interpretation of visual elements depicted in artifacts and their symbolism, while iconology delves deeper, exploring the underlying cultural and historical meanings. Despite the advances in representing cultural heritage with Linked Open Data (LOD), recent studies show persistent gaps in the representation of iconographic and iconological statements in current knowledge graphs (KGs). To address them, this paper presents IICONGRAPH, a KG that was created by refining and extending the iconographic and iconological statements of ArCo (the Italian KG of cultural heritage) and Wikidata. The development of IICONGRAPH was also driven by a series of requirements emerging from research case studies that were unattainable in the non-reengineered versions of the KGs. The evaluation results demonstrate that IICONGRAPH not only outperforms ArCo and Wikidata through domain-specific assessments from the literature but also serves as a robust platform for addressing the formulated research questions. IICONGRAPH is released and documented in accordance with the FAIR principles to guarantee the resource's reusability. The algorithms used to create it and assess the research questions have also been made available to ensure transparency and reproducibility. While future work focuses on ingesting more data into the KG, and on implementing it as a backbone of LLM-based question answering systems, the current version of IICONGRAPH still emerges as a valuable asset, contributing to the evolving landscape of cultural heritage representation within Knowledge Graphs, the Semantic Web, and beyond.
翻訳日:2024-02-04 05:12:02 公開日:2024-01-24
# [Re]非線形および非ガウス観測モデルを用いたベイズフィルタの判別カルマンフィルタ

[Re] The Discriminative Kalman Filter for Bayesian Filtering with Nonlinear and Non-Gaussian Observation Models ( http://arxiv.org/abs/2401.14429v1 )

ライセンス: Link先を確認
Josue Casco-Rodriguez, Caleb Kemere, Richard G. Baraniuk(参考訳) カルマンフィルタは、隠れた変数や潜在変数を推定するための単純で解釈可能な手段を提供し、制御、ロボティクス、信号処理、機械学習に多くの応用がある。 そのような応用の1つは神経補綴のための神経復号である。 2020年、Burkhartらは、ベイズの定理を利用して高非線形または非ガウス観測モデルのフィルタ性能を改善するカルマンフィルタの新バージョンを徹底的に評価した。 この作業は、著者のMATLABアルゴリズムに代わるオープンソースのPythonを提供する。 具体的には,神経科学的な文脈において最も有意義な結果を再現し,複数のランダム種を用いたフィルタの有効性と,従来未使用だったデータセットの有効性について検討した。 全ての実験は1台のコンピュータでオフラインで行われた。

Kalman filters provide a straightforward and interpretable means to estimate hidden or latent variables, and have found numerous applications in control, robotics, signal processing, and machine learning. One such application is neural decoding for neuroprostheses. In 2020, Burkhart et al. thoroughly evaluated their new version of the Kalman filter that leverages Bayes' theorem to improve filter performance for highly non-linear or non-Gaussian observation models. This work provides an open-source Python alternative to the authors' MATLAB algorithm. Specifically, we reproduce their most salient results for neuroscientific contexts and further examine the efficacy of their filter using multiple random seeds and previously unused trials from the authors' dataset. All experiments were performed offline on a single computer.
翻訳日:2024-01-29 16:59:37 公開日:2024-01-24
# Beimingwu: 学習用ドックシステム

Beimingwu: A Learnware Dock System ( http://arxiv.org/abs/2401.14427v1 )

ライセンス: Link先を確認
Zhi-Hao Tan, Jian-Dong Liu, Xiao-Dong Bi, Peng Tan, Qin-Cheng Zheng, Hai-Tian Liu, Yi Xie, Xiao-Chuan Zou, Yang Yu, Zhi-Hua Zhou(参考訳) zhou [2016]によって提案されたlearnwareパラダイムは、ユーザがスクラッチから機械学習モデルを構築するのではなく、既存のトレーニング済みモデルを再利用できるようにすることを目的としている。 このパラダイムでは、世界中の開発者がトレーニングデータを公開することなく、ハイパフォーマンスなモデルをlearnware dockシステム(以前はlearnware marketと呼ばれていた)に自発的に提出することができる。 ドックシステムがモデルを受け入れると、仕様を割り当て、モデルを適合させる。 この仕様により、モデルに関する事前の知識がなくても、将来のユーザのニーズに応じて適切な識別と再利用が可能になる。 このパラダイムは、現在のビッグモデル方向とは大きく異なり、数百万以上のハイパフォーマンスモデルを収容するlearnware dockシステムでは、大きなモデルが適用可能な計画されたタスクと、大きなモデルが存在しない、あるいは適用できない、計画されていない、専門的なデータセンシティブなシナリオの両方に優れた機能を提供することが期待されている。 本稿では,learnwareパラダイムの今後の研究のための基礎的サポートを提供する,オープンソースの初のlearnwareドックシステムbeimingwuについて述べる。このシステムは,その統合アーキテクチャとエンジン設計,広範なエンジニアリング実装と最適化,learnware識別と再利用のための各種アルゴリズムの統合により,新たなユーザタスクのモデル開発を大幅に合理化する。 特に、生データのセキュリティを損なうことなく、限られたデータと機械学習の専門知識を持つユーザでも可能です。 beimingwuはlearnwareパラダイムのプロセス全体をサポートする。 このシステムは、ラーニングウェア関連のアルゴリズムとシステムに関する将来の研究の基礎を築き、多数のラーニングウェアをホストし、ラーニングウェアエコシステムを確立するための基盤を準備している。

The learnware paradigm proposed by Zhou [2016] aims to enable users to reuse numerous existing well-trained models instead of building machine learning models from scratch, with the hope of solving new user tasks even beyond models' original purposes. In this paradigm, developers worldwide can submit their high-performing models spontaneously to the learnware dock system (formerly known as learnware market) without revealing their training data. Once the dock system accepts the model, it assigns a specification and accommodates the model. This specification allows the model to be adequately identified and assembled to reuse according to future users' needs, even if they have no prior knowledge of the model. This paradigm greatly differs from the current big model direction and it is expected that a learnware dock system housing millions or more high-performing models could offer excellent capabilities for both planned tasks where big models are applicable; and unplanned, specialized, data-sensitive scenarios where big models are not present or applicable. This paper describes Beimingwu, the first open-source learnware dock system providing foundational support for future research of learnware paradigm.The system significantly streamlines the model development for new user tasks, thanks to its integrated architecture and engine design, extensive engineering implementations and optimizations, and the integration of various algorithms for learnware identification and reuse. Notably, this is possible even for users with limited data and minimal expertise in machine learning, without compromising the raw data's security. Beimingwu supports the entire process of learnware paradigm. The system lays the foundation for future research in learnware-related algorithms and systems, and prepares the ground for hosting a vast array of learnwares and establishing a learnware ecosystem.
翻訳日:2024-01-29 16:59:23 公開日:2024-01-24
# m$^3$tn: アップリフトモデリングのためのマルチゲート・ミックス・オブ・エキスパートベース多値処理ネットワーク

M$^3$TN: Multi-gate Mixture-of-Experts based Multi-valued Treatment Network for Uplift Modeling ( http://arxiv.org/abs/2401.14426v1 )

ライセンス: Link先を確認
Zexu Sun, Xu Chen(参考訳) 昇降モデリング(uplift modeling)は、個人の反応に対する治療(例えば割引)の効果を予測する技術である。 多値処理にはいくつかの方法が提案されているが、二元処理法から拡張されている。 制限はいくつかある。 まず、既存の手法では予測された応答に基づいて昇降量を計算し、処理群と制御群の間の昇降分布を保証できない。 さらに、これは多値治療の累積誤差を引き起こす可能性がある。 第2に、モデルパラメータには多くの予測ヘッドが伴うため、効率が低下する。 これらの問題に対処するため,本研究では,新規な \underline{M}ulti-gate \underline{M}ixture-of-Experts ベースの \underline{M}ulti-valued \underline{T}reatment \underline{N}etwork (M$^3$TN) を提案する。 M$^3$TNは2つの構成要素から構成される。 1) 効率を向上させるため,マルチゲート混合仕様を備えた特徴表現モジュール 2)アップリフトを明示的にモデル化して有効性を改善する再パラメータ化モジュール。 また,M$3$TNの有効性と有効性を示すため,広範な実験を行った。

Uplift modeling is a technique used to predict the effect of a treatment (e.g., discounts) on an individual's response. Although several methods have been proposed for multi-valued treatment, they are extended from binary treatment methods. There are still some limitations. Firstly, existing methods calculate uplift based on predicted responses, which may not guarantee a consistent uplift distribution between treatment and control groups. Moreover, this may cause cumulative errors for multi-valued treatment. Secondly, the model parameters become numerous with many prediction heads, leading to reduced efficiency. To address these issues, we propose a novel \underline{M}ulti-gate \underline{M}ixture-of-Experts based \underline{M}ulti-valued \underline{T}reatment \underline{N}etwork (M$^3$TN). M$^3$TN consists of two components: 1) a feature representation module with Multi-gate Mixture-of-Experts to improve the efficiency; 2) a reparameterization module by modeling uplift explicitly to improve the effectiveness. We also conduct extensive experiments to demonstrate the effectiveness and efficiency of our M$^3$TN.
翻訳日:2024-01-29 16:58:51 公開日:2024-01-24
# アートステーションのトレンドが長くない - 生成AIアートのプロンプト分析

No Longer Trending on Artstation: Prompt Analysis of Generative AI Art ( http://arxiv.org/abs/2401.14425v1 )

ライセンス: Link先を確認
Jon McCormack, Maria Teresa Llano, Stephen James Krol, Nina Rajcic(参考訳) 生成的AIを用いた画像生成は、急速にビジュアルメディアの主要な新しいソースとなりつつあり、過去数年間、安定拡散やミッドジャーニーのような拡散モデルを用いて何十億ものAI生成画像が作成されている。 本稿では,300万以上のプロンプトと生成した画像を収集し,分析する。 自然言語処理,話題分析,視覚化手法を用いることで,人々がテキストプロンプトをどのように使っているか,これらのシステムがアーティストに与える影響,より広い範囲で促進する視覚文化について,総合的に理解することを目指している。 本研究は,表面美学,文化規範の強化,一般的な表現とイメージに着目したものである。 また,多くのユーザが人気トピック(カラーブック,ファンタジーアート,クリスマスカードなど)に注目していることから,分析対象のシステムの利用は芸術的ではなくレクリエーション的であることを示唆している。

Image generation using generative AI is rapidly becoming a major new source of visual media, with billions of AI generated images created using diffusion models such as Stable Diffusion and Midjourney over the last few years. In this paper we collect and analyse over 3 million prompts and the images they generate. Using natural language processing, topic analysis and visualisation methods we aim to understand collectively how people are using text prompts, the impact of these systems on artists, and more broadly on the visual cultures they promote. Our study shows that prompting focuses largely on surface aesthetics, reinforcing cultural norms, popular conventional representations and imagery. We also find that many users focus on popular topics (such as making colouring books, fantasy art, or Christmas cards), suggesting that the dominant use for the systems analysed is recreational rather than artistic.
翻訳日:2024-01-29 16:58:24 公開日:2024-01-24
# GPT誘導モンテカルロ木探索によるデータから数式を発見する

Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo Tree Search ( http://arxiv.org/abs/2401.14424v1 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Meilan Hao, Shu Wei, Yusong Deng(参考訳) それぞれの変数とデータ内の予測値の関係を正確に記述する簡潔で解釈可能な数学的公式を見つけることは、科学研究において重要なタスクであり、人工知能における重要な課題である。 この問題は記号回帰 (symbolic regression) と呼ばれ、np-hard問題である。 昨年,モンテカルロ木探索(MCTS)に基づく記号回帰法が提案され,複数のデータセットからソータが得られた。 このアルゴリズムは,従来の手法に比べて目標表現の回復に著しく改善されているが,MCTSプロセスにおけるガイダンスの欠如は探索効率を著しく損なう。 近年,MCTSの探索を誘導する事前学習型ポリシーネットワークが追加されたアルゴリズムもあるが,事前学習型ポリシーネットワークの一般化は不十分である。 そこで我々は,AlphaZeroのアイデアを組み合わせたSR-GPTを提案する。 SR-GPTは、MCTSとGPT(Generative Pre-Trained Transformer)を組み合わせた新しいシンボリック回帰アルゴリズムである。 GPTによるMCTSプロセスの誘導により,MCTSの探索効率は大幅に向上した。 次に、MCTSの結果を利用して、GPTをさらに洗練し、その能力を高め、MCTSプロセスのより正確なガイダンスを提供する。 MCTSとGPTは結合され、目標表現が決定されるまで最適化される。 SR-GPTを10以上の記号的回帰データセットから得られた222の式を用いて広範囲に評価した。 実験の結果、SR-GPTは既存の最先端アルゴリズムより優れており、雑音を伴わずともシンボル表現を正確に復元できることがわかった。

Finding a concise and interpretable mathematical formula that accurately describes the relationship between each variable and the predicted value in the data is a crucial task in scientific research, as well as a significant challenge in artificial intelligence. This problem is referred to as symbolic regression, which is an NP-hard problem. Last year, a symbolic regression method based on Monte Carlo Tree Search (MCTS) was proposed and sota was obtained on multiple datasets. While this algorithm has shown considerable improvement in recovering target expressions compared to previous methods, the lack of guidance during the MCTS process severely hampers its search efficiency. Recently, some algorithms have added a pre-trained policy network to guide the search of MCTS, but the pre-trained policy network generalizes poorly. To balance efficiency and generality, we propose SR-GPT combining ideas from AlphaZero. SR-GPT is a new symbolic regression algorithm that combines MCTS with a Generative Pre-Trained Transformer (GPT). By using GPT to guide the MCTS process, the search efficiency of MCTS is significantly improved. Next, we utilize the MCTS results to further refine the GPT, enhancing its capabilities and providing more accurate guidance for the MCTS process. MCTS and GPT are coupled together and optimize each other until the target expression is successfully determined. We conducted extensive evaluations of SR-GPT using 222 expressions sourced from over 10 different symbolic regression datasets. The experimental results demonstrate that SR-GPT outperforms existing state-of-the-art algorithms in accurately recovering symbolic expressions both with and without added noise.
翻訳日:2024-01-29 16:58:08 公開日:2024-01-24
# プロンプトデザインとエンジニアリング:序論と先進的手法

Prompt Design and Engineering: Introduction and Advanced Methods ( http://arxiv.org/abs/2401.14423v1 )

ライセンス: Link先を確認
Xavier Amatriain(参考訳) デザインとエンジニアリングの迅速化は、この数ヶ月で重要な分野になった。 本稿では,設計と工学の促進のための基本的,より高度なアプローチを概観するとともに,主要な概念を紹介する。

Prompt design and engineering has become an important discipline in just the past few months. In this paper, we provide an introduction to the main concepts as well as review basic and more advanced approaches to prompt design and engineering.
翻訳日:2024-01-29 16:57:40 公開日:2024-01-24
# 太陽発電予測のための位置非依存電源領域適応学習

Location Agnostic Source-Free Domain Adaptive Learning to Predict Solar Power Generation ( http://arxiv.org/abs/2401.14422v1 )

ライセンス: Link先を確認
Md Shazid Islam, A S M Jahid Hasan, Md Saydur Rahman, Jubair Yusuf, Md Saiful Islam Sajol, Farhana Akter Tumpa(参考訳) 太陽発電の予測は、空間的および時間的変動を示す気候特性に依存しているため、難しい課題である。 予測モデルの性能はデータ分布の変化によって異なる場所によって異なり、結果としてある地域でうまく機能するが他の地域では機能しないモデルとなる。 また、地球温暖化の影響で、年間を通じて天候の変化が顕著に加速している。 この現象は、時間経過とともに同じ地理的領域内であっても、既存のモデルの有効性が低下する可能性をもたらす。 本稿では,前述の課題を解決するための気象特性を用いた太陽発電を推定するために,ドメイン適応型深層学習に基づくフレームワークを提案する。 フィードフォワード深部畳み込みネットワークモデルは、既知の位置データセットを教師付きでトレーニングし、後に未知の場所の太陽エネルギーを予測するために使用される。 この適応型データ駆動アプローチは、計算速度、ストレージ効率、そして最先端の非適応的手法が失敗するシナリオで結果を改善する能力において、顕著な利点を示す。 我々の手法では、カリフォルニア(CA)、フロリダ(FL)、ニューヨーク(NY)の順応的でない手法と比較して、太陽エネルギー予測精度が10.47 \%$、7.44 \%$、5.11\%$改善されている。

The prediction of solar power generation is a challenging task due to its dependence on climatic characteristics that exhibit spatial and temporal variability. The performance of a prediction model may vary across different places due to changes in data distribution, resulting in a model that works well in one region but not in others. Furthermore, as a consequence of global warming, there is a notable acceleration in the alteration of weather patterns on an annual basis. This phenomenon introduces the potential for diminished efficacy of existing models, even within the same geographical region, as time progresses. In this paper, a domain adaptive deep learning-based framework is proposed to estimate solar power generation using weather features that can solve the aforementioned challenges. A feed-forward deep convolutional network model is trained for a known location dataset in a supervised manner and utilized to predict the solar power of an unknown location later. This adaptive data-driven approach exhibits notable advantages in terms of computing speed, storage efficiency, and its ability to improve outcomes in scenarios where state-of-the-art non-adaptive methods fail. Our method has shown an improvement of $10.47 \%$, $7.44 \%$, $5.11\%$ in solar power prediction accuracy compared to best performing non-adaptive method for California (CA), Florida (FL) and New York (NY), respectively.
翻訳日:2024-01-29 16:57:37 公開日:2024-01-24
# 多粒子一重項状態は二分割に対して最大に絡み合うことができない

Multiparticle singlet states cannot be maximally entangled for the bipartitions ( http://arxiv.org/abs/2211.03813v2 )

ライセンス: Link先を確認
Fabian Bernards, Otfried G\"uhne(参考訳) 多粒子の絡み合いを探索する一つの方法は、異なる二分割に関して極大絡み合いを求めることであり、絶対極大絡み合い状態や完全テンソルの概念につながる。 異なる経路はユニタリ不変性と対称性を使用し、結果として多粒子一重項状態の概念が導かれる。 これらの2つの概念は、純多粒子一重項状態の空間が2つの粒子と残りの粒子のすべての分割が最大に絡み合っている状態を含んでいないという意味では相容れない。 これにより量子符号の構成が制限され、AdS/CFT対応と量子重力の文脈での議論に寄与する。

One way to explore multiparticle entanglement is to ask for maximal entanglement with respect to different bipartitions, leading to the notion of absolutely maximally entangled states or perfect tensors. A different path uses unitary invariance and symmetries, resulting in the concept of multiparticle singlet states. We show that these two concepts are incompatible in the sense that the space of pure multiparticle singlet states does not contain any state for which all partitions of two particles versus the rest are maximally entangled. This puts restrictions on the construction of quantum codes and contributes to discussions in the context of the AdS/CFT correspondence and quantum gravity.
翻訳日:2024-01-26 19:04:56 公開日:2024-01-24
# IRJIT:ジャスト・イン・タイムのソフトウェア欠陥予測のためのシンプルなオンライン情報検索手法

IRJIT: A simple, online, information retrieval approach for just-in-time software defect prediction ( http://arxiv.org/abs/2210.02435v2 )

ライセンス: Link先を確認
Hareem Sahar, Abdul Ali Bangash, Abram Hindle, Denilson Barbosa(参考訳) just-in-time software defect prediction(jit-sdp)は、コミットチェックイン時に欠陥を識別することで、ソフトウェアへの欠陥の導入を防止する。 現在の欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。 これらのモデルは通常、膨大な計算リソースと時間を必要とする広範なトレーニングプロセスを伴う。 これらの特徴は、新しい例が利用可能になるにつれて、モデルをリアルタイムで更新しようとするときに問題を引き起こす可能性がある。 さらに、複雑なモデルに依存するため、これらのアプローチは説明できないことが多いため、開発者はモデルの予測の背後にある理由を理解できない。 説明できないアプローチは、開発者が結果に信頼できないため、実際の開発環境では採用されないかもしれない。 これらの制約に対処するため、IRJITと呼ばれるアプローチを提案し、ソースコードから情報検索を行い、過去のバグやクリーンなコミットと類似性に基づいて、新しいコミットをバギーやクリーンとしてラベル付けする。 IRJITアプローチは、高価な再トレーニングなしで新しいデータから学ぶことができ、開発者は予測をサポートするドキュメントを見ることができ、追加のコンテキストを提供する。 プロジェクト内で10のオープンソースデータセットを評価することで、私たちのアプローチは最先端の23倍の速度で、コミットとラインレベルでの説明可能性を提供し、最先端のものと同等のパフォーマンスを実現しています。

Just-in-Time software defect prediction (JIT-SDP) prevents the introduction of defects into the software by identifying them at commit check-in time. Current defect prediction approaches rely on manually crafted features such as change metrics and involve expensive to train machine learning or deep learning models. These models typically involve extensive training processes that may require significant computational resources and time. These characteristics can pose challenges when attempting to update the models in real-time as new examples become available, potentially impacting their suitability for fast online defect prediction. Furthermore, the reliance on a complex underlying model makes these approaches often less explainable, which means the developers cannot understand the reasons behind models' predictions. An approach that is not explainable might not be adopted in real-life development environments because of developers' lack of trust in its results. To address these limitations, we propose an approach called IRJIT that employs information retrieval on source code and labels new commits as buggy or clean based on their similarity to past buggy or clean commits. IRJIT approach is online and explainable as it can learn from new data without expensive retraining, and developers can see the documents that support a prediction, providing additional context. By evaluating 10 open-source datasets in a within project setting, we show that our approach is up to 23 times faster than the state-of-the-art, offers explainability at the commit and line level, and has comparable performance to the state-of-the-art.
翻訳日:2024-01-26 19:03:33 公開日:2024-01-24
# 海上目標追跡における画像処理システムの役割と統合

Role and Integration of Image Processing Systems in Maritime Target Tracking ( http://arxiv.org/abs/2206.12809v3 )

ライセンス: Link先を確認
Yassir Zardoua, Bilal Sebbar, Moussab Chbeine, Abdelali Astito, Mohammed Boulaala(参考訳) 近年、特に海上貿易において海上交通が増加している。 安全性、セキュリティ、環境保護を確保するため、様々なシステムが配備され、しばしばデータを組み合わせて改善された。 この複合データの1つの重要な応用は、自動識別システム(ais)とxバンド海洋レーダーが不可欠である海上の目標を追跡することである。 近年,カメラの視覚データによる追跡機能向上への関心が高まっている。 これにより、画像処理に基づく複数のトラッキングアルゴリズムの開発につながった。 既存の文献の多くはデータ融合に対応しているが、他のシステムの存在を考えると、画像処理システムを統合することがなぜ重要かにはあまり注目されていない。 本稿では,これらの監視システムを分析し,画像処理システムを統合する理由を強調する。 私たちの主な目標は、この統合が海上の安全をいかに改善できるかを示し、海上における安全と保護を強化するための実用的な洞察を提供することです。

In recent years, maritime traffic has increased, especially in seaborne trade. To ensure safety, security, and environmental protection, various systems have been deployed, often combining data for improved effectiveness. One key application of this combined data is tracking targets at sea, where the Automatic Identification System (AIS) and X-band marine radar are crucial. Recently, there has been growing interest in using visual data from cameras to enhance tracking. This has led to the development of several tracking algorithms based on image processing. While much of the existing literature addresses data fusion, there hasn't been much focus on why integrating image processing systems is important given the existence of the other systems. In our paper, we aim to analyze these surveillance systems and highlight the reasons for integrating image processing systems. Our main goal is to show how this integration can improve maritime security, offering practical insights into enhancing safety and protection at sea.
翻訳日:2024-01-26 19:02:18 公開日:2024-01-24
# 視覚異常検出のためのオートエンコーダによる自己教師付きトレーニング

Self-Supervised Training with Autoencoders for Visual Anomaly Detection ( http://arxiv.org/abs/2206.11723v7 )

ライセンス: Link先を確認
Alexander Bauer, Shinichi Nakajima, Klaus-Robert M\"uller(参考訳) 近年,視覚領域における異常検出作業にディープオートエンコーダが用いられている。 異常のない例を用いて再構成誤差を最適化することにより、対応するネットワークがアプリケーションフェーズ内の異常領域を正確に再構成できない、という考え方が一般的である。 この目標は通常、ボトルネック層のサイズを減らすか、あるいはアクティベーションに間隔制約を課すことによって、ネットワークの容量を制御することで対処される。 しかし、どちらの手法も異常信号の再構成を明示的に罰しないため、しばしば検出が困難になる。 本稿では,訓練中に識別情報の使用を可能にするが,正規例のデータ多様体に焦点をあてた自己教師付き学習方式を適用することで,この問題に取り組む。 正確には,神経画像インパインティングの課題に触発された2つの異なる学習目標について検討する。 我々の主な目的は、局所的に一貫した再構成を生成するためにモデルを規則化し、不規則性を置き換えることで、異常パターンを除去するフィルタとして機能する。 形式的解析により, 穏やかな条件下では, 対応するモデルが, 部分的破損像の非線形直交射影に類似していることが示される。 この洞察により、再構成誤差は、データ多様体上の対応する投影からの距離に応じてサンプルの異常スコアを定義するための自然な選択となる。 入力画像毎に1回のフォワードパスを必要とするトレーニングや予測では,このアプローチによる推論が極めて効率的であることを強調する。 MVTec ADデータセットを用いた実験では,高い検出性能と局所化性能を示した。 特にテクスチャ・サブセットでは,近年の異常検出法を顕著な差で一貫して上回っている。

Recently, deep auto-encoders have been used for the task of anomaly detection in the visual domain. By optimising for the reconstruction error using anomaly-free examples, the common belief is that a corresponding network should fail to accurately reconstruct anomalous regions in the application phase. This goal is typically addressed by controlling the capacity of the network, either by reducing the size of the bottleneck layer or by enforcing sparsity constraints on its activations. However, neither of these techniques does explicitly penalise reconstruction of anomalous signals often resulting in poor detection. We tackle this problem by adapting a self-supervised learning regime that allows the use of discriminative information during training but focuses on the data manifold of normal examples. Precisely, we investigate two different training objectives inspired by the task of neural image inpainting. Our main objective regularises the model to produce locally consistent reconstructions, while replacing irregularities, therefore, acting as a filter that removes anomalous patterns. Our formal analysis shows that under mild conditions the corresponding model resembles a non-linear orthogonal projection of partially corrupted images onto the manifold of uncorrupted (defect-free) examples. This insight makes the reconstruction error a natural choice for defining the anomaly score of a sample according to its distance from a corresponding projection on the data manifold. We emphasise that inference with our approach is very efficient during training and prediction requiring a single forward pass for each input image. Our experiments on the MVTec AD dataset demonstrate high detection and localisation performance. On the texture-subset, in particular, our approach consistently outperforms recent anomaly detection methods by a significant margin.
翻訳日:2024-01-26 19:01:26 公開日:2024-01-24
# デュエルバンドにおける有意な選好変化をいつ追跡できるのか?

When Can We Track Significant Preference Shifts in Dueling Bandits? ( http://arxiv.org/abs/2302.06595v2 )

ライセンス: Link先を確認
Joe Suk and Arpit Agarwal(参考訳) k$-armed dueling bandits問題(英語版)は、フィードバックがうるさいペアワイズ選好の形式であり、情報検索やレコメンデーションシステムなどに応用されているため、広く研究されている。 ユーザの好みや味が時間とともに進化するのではないかという懸念から,分布シフトに伴う帯域幅の重複の問題を考える。 具体的には、最近の有意なシフトの概念(Suk and Kpotufe, 2022)を考察し、$O(\sqrt{K\tilde{L}T})$ dynamic regret, ここで$\tilde{L}$は(未知の)好みの重要なシフトの数である。 この質問に対する答えは、基礎となる選好分布の性質に依存することを示す。 まず、よく研究されたCondorcetとSSTの選好分布のクラスの下で、$O(\sqrt{K\tilde{L}T})$ dynamic regret で任意のアルゴリズムを規定する不可能な結果を与える。 第二に、$\text{SST} \cap \text{STI}$は、そのようなアルゴリズムを設計することが可能な、選好分布の一般的なクラスの中で最大であることを示す。 全体として、我々の結果は、分布クラス階層に対する上記の問題に対するほぼ完全な解決を提供する。

The $K$-armed dueling bandits problem, where the feedback is in the form of noisy pairwise preferences, has been widely studied due its applications in information retrieval, recommendation systems, etc. Motivated by concerns that user preferences/tastes can evolve over time, we consider the problem of dueling bandits with distribution shifts. Specifically, we study the recent notion of significant shifts (Suk and Kpotufe, 2022), and ask whether one can design an adaptive algorithm for the dueling problem with $O(\sqrt{K\tilde{L}T})$ dynamic regret, where $\tilde{L}$ is the (unknown) number of significant shifts in preferences. We show that the answer to this question depends on the properties of underlying preference distributions. Firstly, we give an impossibility result that rules out any algorithm with $O(\sqrt{K\tilde{L}T})$ dynamic regret under the well-studied Condorcet and SST classes of preference distributions. Secondly, we show that $\text{SST} \cap \text{STI}$ is the largest amongst popular classes of preference distributions where it is possible to design such an algorithm. Overall, our results provides an almost complete resolution of the above question for the hierarchy of distribution classes.
翻訳日:2024-01-26 18:52:09 公開日:2024-01-24
# 磁気固体を用いた拡張ディックモデルの量子シミュレーション

Quantum Simulation of an Extended Dicke Model with a Magnetic Solid ( http://arxiv.org/abs/2302.06028v2 )

ライセンス: Link先を確認
Nicolas Marquez Peraca, Xinwei Li, Jaime M. Moya, Kenji Hayashida, Dasom Kim, Xiaoxuan Ma, Kelly J. Neubauer, Diego Fallas Padilla, Chien-Lung Huang, Pengcheng Dai, Andriy H. Nevidomskyy, Han Pu, Emilia Morosan, Shixun Cao, Motoaki Bamba, and Junichiro Kono(参考訳) ディックモデルは、2層原子のアンサンブルと1モードのフォトニック場との協調相互作用を記述し、光-物質結合強度の関数として量子相転移を示す。 Extending this model by incorporating short-range atom--atom interactions makes the problem intractable but is expected to produce new phases. Here, we simulate such an extended Dicke model using a crystal of ErFeO$_3$, where the role of atoms (photons) is played by Er$^{3+}$ spins (Fe$^{3+}$ magnons). Through magnetocaloric effect and terahertz magnetospectroscopy measurements, we demonstrated the existence of a novel atomically ordered phase in addition to the superradiant and normal phases that are expected from the standard Dicke model. Further, we elucidated the nature of the phase boundaries in the temperature--magnetic-field phase diagram, identifying both first-order and second-order phase transitions. これらの結果は、多体凝縮物質系を用いた多原子量子光学モデルの研究の基礎となった。

The Dicke model describes the cooperative interaction of an ensemble of two-level atoms with a single-mode photonic field and exhibits a quantum phase transition as a function of light--matter coupling strength. Extending this model by incorporating short-range atom--atom interactions makes the problem intractable but is expected to produce new phases. Here, we simulate such an extended Dicke model using a crystal of ErFeO$_3$, where the role of atoms (photons) is played by Er$^{3+}$ spins (Fe$^{3+}$ magnons). Through magnetocaloric effect and terahertz magnetospectroscopy measurements, we demonstrated the existence of a novel atomically ordered phase in addition to the superradiant and normal phases that are expected from the standard Dicke model. Further, we elucidated the nature of the phase boundaries in the temperature--magnetic-field phase diagram, identifying both first-order and second-order phase transitions. These results lay the foundation for studying multiatomic quantum optics models using well-characterized many-body condensed matter systems.
翻訳日:2024-01-26 18:51:46 公開日:2024-01-24
# 医用画像分割におけるハウスドルフ距離の一般化した表面損失

A Generalized Surface Loss for Reducing the Hausdorff Distance in Medical Imaging Segmentation ( http://arxiv.org/abs/2302.03868v3 )

ライセンス: Link先を確認
Adrian Celaya, Beatrice Riviere, and David Fuentes(参考訳) 医学画像セグメンテーションでは、dice係数とhausdorffベースのメトリクスは、ディープラーニングモデルの成功の標準尺度である。 しかし、現代の医療画像分割の損失関数は、訓練中のサイス係数や類似の領域ベースメトリクスのみを考慮することが多い。 その結果、そのような損失関数で訓練されたセグメンテーションアーキテクチャは、サイス係数の精度は高いが、ハウスドルフベースのメトリクスの精度は低いというリスクを負う。 Hausdorffベースのメトリクスの低い精度は、そのようなベンチマークが不可欠である腫瘍セグメンテーションのようなアプリケーションで問題となる可能性がある。 例えば、大きなハウスドルフ誤差を伴う高Diceスコアは、予測が小さな腫瘍を検出できないことを示している。 本研究では,現在の手法よりも望ましい数値特性を持ち,クラス不均衡の重み付け項を持つハウスドルフベースメトリクスを最小化する新しい損失関数である一般化表面損失関数を提案する。 我々の損失関数は、最先端のnnUNetアーキテクチャを用いてLiTSとBraTSデータセットでテストした場合、他の損失よりも優れています。 以上の結果から,新しい損失機能により画像分割精度が向上することが示唆された。

Within medical imaging segmentation, the Dice coefficient and Hausdorff-based metrics are standard measures of success for deep learning models. However, modern loss functions for medical image segmentation often only consider the Dice coefficient or similar region-based metrics during training. As a result, segmentation architectures trained over such loss functions run the risk of achieving high accuracy for the Dice coefficient but low accuracy for Hausdorff-based metrics. Low accuracy on Hausdorff-based metrics can be problematic for applications such as tumor segmentation, where such benchmarks are crucial. For example, high Dice scores accompanied by significant Hausdorff errors could indicate that the predictions fail to detect small tumors. We propose the Generalized Surface Loss function, a novel loss function to minimize Hausdorff-based metrics with more desirable numerical properties than current methods and with weighting terms for class imbalance. Our loss function outperforms other losses when tested on the LiTS and BraTS datasets using the state-of-the-art nnUNet architecture. These results suggest we can improve medical imaging segmentation accuracy with our novel loss function.
翻訳日:2024-01-26 18:51:32 公開日:2024-01-24
# RS-Del:ランダム化削除によるシーケンス分類のための編集距離ロバストネス証明書

RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers via Randomized Deletion ( http://arxiv.org/abs/2302.01757v3 )

ライセンス: Link先を確認
Zhuoqun Huang, Neil G. Marchant, Keane Lucas, Lujo Bauer, Olga Ohrimenko and Benjamin I. P. Rubinstein(参考訳) ランダム化平滑化(Randomized smoothing)は、逆例に対して確実に堅牢な分類器を構築するための主要なアプローチである。 ランダム化平滑化に関する既存の研究は、画像のような連続入力を持つ分類器に焦点を当てており、ここでは$\ell_p$-normの有界な敵が一般的に研究されている。 しかし、異なる脅威モデルと平滑化メカニズムを必要とするソースコードなど、離散的または可変サイズの入力を持つ分類器の作業は限られている。 本研究では,ランダム化平滑化を離散シーケンス分類器に適用し,距離制限付き敵に対するロバスト性を確認した。 提案するスムース化機構は, ランダム化削除 (RS-Del) を用いて, 対向的削除, 挿入, 置換に対するロバスト性を確保するのに十分である。 私たちの認証証明は、確立されたneyman-pearsonアプローチから逸脱しています。 本稿では,分類器回避が確立された脅威モデルであるバイト列上のバイナリ分類問題であるマルウェア検出のケーススタディを提案する。 一般的なMalConvマルウェア検出モデルに適用すると、スムーシング機構RS-Delは128バイトの編集距離半径で91%の精度を達成できる。

Randomized smoothing is a leading approach for constructing classifiers that are certifiably robust against adversarial examples. Existing work on randomized smoothing has focused on classifiers with continuous inputs, such as images, where $\ell_p$-norm bounded adversaries are commonly studied. However, there has been limited work for classifiers with discrete or variable-size inputs, such as for source code, which require different threat models and smoothing mechanisms. In this work, we adapt randomized smoothing for discrete sequence classifiers to provide certified robustness against edit distance-bounded adversaries. Our proposed smoothing mechanism randomized deletion (RS-Del) applies random deletion edits, which are (perhaps surprisingly) sufficient to confer robustness against adversarial deletion, insertion and substitution edits. Our proof of certification deviates from the established Neyman-Pearson approach, which is intractable in our setting, and is instead organized around longest common subsequences. We present a case study on malware detection--a binary classification problem on byte sequences where classifier evasion is a well-established threat model. When applied to the popular MalConv malware detection model, our smoothing mechanism RS-Del achieves a certified accuracy of 91% at an edit distance radius of 128 bytes.
翻訳日:2024-01-26 18:51:15 公開日:2024-01-24
# ニオブ表面カプセル化によるトランスモン量子コヒーレンスの系統的改善

Systematic Improvements in Transmon Qubit Coherence Enabled by Niobium Surface Encapsulation ( http://arxiv.org/abs/2304.13257v3 )

ライセンス: Link先を確認
Mustafa Bal, Akshay A. Murthy, Shaojiang Zhu, Francesco Crisa, Xinyuan You, Ziwen Huang, Tanay Roy, Jaeyel Lee, David van Zanten, Roman Pilipenko, Ivan Nekrashevich, Andrei Lunin, Daniel Bafia, Yulia Krasnikova, Cameron J. Kopas, Ella O. Lachman, Duncan Miller, Josh Y. Mutus, Matthew J. Reagor, Hilal Cansizoglu, Jayss Marshall, David P. Pappas, Kim Vu, Kameshwar Yadavalli, Jin-Su Oh, Lin Zhou, Matthew J. Kramer, Florent Q. Lecocq, Dominic P. Goronzy, Carlos G. Torres-Castanedo, Graham Pritchard, Vinayak P. Dravid, James M. Rondinelli, Michael J. Bedzyk, Mark C. Hersam, John Zasadzinski, Jens Koch, James A. Sauls, Alexander Romanenko, and Anna Grassellino(参考訳) 本稿では,T$_1$緩和時間を体系的に改善するトランスモンキュービット製造手法を提案する。 我々は, ニオブの表面を緩和し, 損失表面の酸化物の形成を阻害するカプセル化戦略を用いて, デバイスを作製した。 同じ超伝導金属を維持し, 表面構造だけを変化させることにより, タンタル, アルミニウム, 窒化チタン, および金などの異なるキャッピング材料, および様々なクビットファストリーの膜基板を観察し, ニオブ酸化物が超伝導クビットのコヒーレンス時間に与える影響を, タンタル, アルミニウム, 窒化チタンのネイティブ酸化物と比較して明らかに実証した。 表面封入したニオブキュービット装置は, ネイティブなニオブ酸化物を用いたベースラインニオブキュービット装置の2倍から5倍の緩和時間を示す。 ニオブをタンタルで包むと、サファイアとシリコンの両方で作製された超伝導量子ビットの最大寿命を示す最大600マイクロ秒の300マイクロ秒を超える中央の量子ビット寿命が得られる。 アモルファス酸化ニオブが他のアモルファス酸化物よりも高い損失を生じさせる理由を、構造的および化学的に比較検討した。 これらの結果は,超高Q超伝導ラジオ周波数(SRF)キャビティで得られた酸化ニオブ損失タンジェントの高精度測定と一致した。 この新しい表面カプセル化戦略は、シリコンプロセスとの互換性により製造とスケーラブルな製造性を維持しつつ、環境安定材料によるパッシベーションによる誘電損失のさらなる低減を可能にする。

We present a novel transmon qubit fabrication technique that yields systematic improvements in T$_1$ relaxation times. We fabricate devices using an encapsulation strategy that involves passivating the surface of niobium and thereby preventing the formation of its lossy surface oxide. By maintaining the same superconducting metal and only varying the surface structure, this comparative investigation examining different capping materials, such as tantalum, aluminum, titanium nitride, and gold, and film substrates across different qubit foundries definitively demonstrates the detrimental impact that niobium oxides have on the coherence times of superconducting qubits, compared to native oxides of tantalum, aluminum or titanium nitride. Our surface-encapsulated niobium qubit devices exhibit T$_1$ relaxation times 2 to 5 times longer than baseline niobium qubit devices with native niobium oxides. When capping niobium with tantalum, we obtain median qubit lifetimes above 300 microseconds, with maximum values up to 600 microseconds, that represent the highest lifetimes to date for superconducting qubits prepared on both sapphire and silicon. Our comparative structural and chemical analysis suggests why amorphous niobium oxides may induce higher losses compared to other amorphous oxides. These results are in line with high-accuracy measurements of the niobium oxide loss tangent obtained with ultra-high Q superconducting radiofrequency (SRF) cavities. This new surface encapsulation strategy enables even further reduction of dielectric losses via passivation with ambient-stable materials, while preserving fabrication and scalable manufacturability thanks to the compatibility with silicon processes.
翻訳日:2024-01-26 18:38:43 公開日:2024-01-24
# ポイント2SSM:ポイントクラウドから解剖学を学習する

Point2SSM: Learning Morphological Variations of Anatomies from Point Cloud ( http://arxiv.org/abs/2305.14486v2 )

ライセンス: Link先を確認
Jadie Adams and Shireen Elhabian(参考訳) 原点雲から直接対応型統計形状モデル(SSM)を構築するための新しい教師なし学習手法であるPoint2SSMを提案する。 SSMは臨床研究において重要であり、骨や臓器の形態的変化の集団レベルでの分析を可能にする。 従来のssm構築法には、ノイズのない表面メッシュやバイナリボリュームの要求、仮定やテンプレートへの依存、コホート全体の同時最適化による推論時間の延長など、制限がある。 Point2SSMは、生のポイントクラウドから直接SSMを推論するデータ駆動ソリューションを提供することで、これらの障壁を克服する。 3次元点雲の深層学習は教師なしの表現学習と形状対応に成功しているが、解剖学的SSM構築への応用はほとんど未解明である。 我々は、SSMタスク上で最先端のクラウドディープネットワークのベンチマークを行い、ノイズやスパース、不完全な入力や限られたトレーニングデータといった臨床上の課題に対する堅牢性に限界があることを明らかにする。 Point2SSMはアテンションベースのモジュールを通じてこれらの問題に対処し、学習ポイントの特徴から効果的な対応マッピングを提供する。 以上の結果から, 提案手法は, 正確な表面サンプリングと対応により, 既存のネットワークよりも優れており, 人口統計学の精度が向上していることが示された。

We present Point2SSM, a novel unsupervised learning approach for constructing correspondence-based statistical shape models (SSMs) directly from raw point clouds. SSM is crucial in clinical research, enabling population-level analysis of morphological variation in bones and organs. Traditional methods of SSM construction have limitations, including the requirement of noise-free surface meshes or binary volumes, reliance on assumptions or templates, and prolonged inference times due to simultaneous optimization of the entire cohort. Point2SSM overcomes these barriers by providing a data-driven solution that infers SSMs directly from raw point clouds, reducing inference burdens and increasing applicability as point clouds are more easily acquired. While deep learning on 3D point clouds has seen success in unsupervised representation learning and shape correspondence, its application to anatomical SSM construction is largely unexplored. We conduct a benchmark of state-of-the-art point cloud deep networks on the SSM task, revealing their limited robustness to clinical challenges such as noisy, sparse, or incomplete input and limited training data. Point2SSM addresses these issues through an attention-based module, providing effective correspondence mappings from learned point features. Our results demonstrate that the proposed method significantly outperforms existing networks in terms of accurate surface sampling and correspondence, better capturing population-level statistics.
翻訳日:2024-01-26 18:24:56 公開日:2024-01-24
# 量子インターネットにおける絡み合い分布:いつ止まるかを知る!

Entanglement Distribution in the Quantum Internet: Knowing when to Stop! ( http://arxiv.org/abs/2307.05123v2 )

ライセンス: Link先を確認
Angela Sara Cacciapuoti, Jessica Illiano, Michele Viscardi, Marcello Caleffi(参考訳) エンタングルメント分布は量子インターネットの重要な機能である。 しかし、量子エンタングルメントは非常に脆弱であり、デコヒーレンスによって容易に劣化し、分布内の時間的水平線を厳密に制限する。 このことは、エンタングルメント分布に使用されるチャネルに不必要に干渉する量子ノイズと相まって、ターゲットネットワークノードが所望のエンタングルド状態を共有する前に、複数回配信プロセスを試みなければならないことを意味する。 そして、これはコヒーレンス時間によって決定された時間軸内で達成されるという保証はない。 結果として、複数の分散試行を必要とするノイズの多いシナリオでは、配布プロセスの早期停止が便利である。 本稿では,量子ノイズ効果を捉えるための理論的枠組みを開発し,絡み合い分布をいつ止めるかを知るための一歩を踏み出す。 具体的には、絡み合い分布過程がマルコフ決定過程としてモデル化できることを最初に証明する。 そして、最適な決定方針が魅力的な特徴を示し、計算の複雑さを減らすために活用することを示す。 量子ネットワーク設計者は、エンタングルメント分散プロセスの設計パラメータを最適に設計するための柔軟なツールを提供する。

Entanglement distribution is a key functionality of the Quantum Internet. However, quantum entanglement is very fragile, easily degraded by decoherence, which strictly constraints the time horizon within the distribution has to be completed. This, coupled with the quantum noise irremediably impinging on the channels utilized for entanglement distribution, may imply the need to attempt the distribution process multiple times before the targeted network nodes successfully share the desired entangled state. And there is no guarantee that this is accomplished within the time horizon dictated by the coherence times. As a consequence, in noisy scenarios requiring multiple distribution attempts, it may be convenient to stop the distribution process early. In this paper, we take steps in the direction of knowing when to stop the entanglement distribution by developing a theoretical framework, able to capture the quantum noise effects. Specifically, we first prove that the entanglement distribution process can be modeled as a Markov decision process. Then, we prove that the optimal decision policy exhibits attractive features, which we exploit to reduce the computational complexity. The developed framework provides quantum network designers with flexible tools to optimally engineer the design parameters of the entanglement distribution process.
翻訳日:2024-01-26 18:15:09 公開日:2024-01-24
# PoseDiffusion: Diffusion-aided Bundle Adjustment によるPose推定の解法

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment ( http://arxiv.org/abs/2306.15667v4 )

ライセンス: Link先を確認
Jianyuan Wang, Christian Rupprecht, David Novotny(参考訳) カメラポーズ推定は、従来は手作りのキーポイントマッチング、RANSAC、バンドル調整といった古典的な手法に依存していたコンピュータビジョンの問題である。 本稿では,入力画像に対するカメラポーズの条件分布をモデル化し,確率拡散フレームワーク内の運動からの構造 (sfm) を定式化する。 古い問題に対するこの新しい見方にはいくつかの利点がある。 (i)拡散フレームワークの性質は、バンドル調整の反復手順を反映している。 (ii)この定式化はエピポーラ幾何学からの幾何学的制約のシームレスな統合を可能にする。 (iii)広い基準線を持つスパースビューのような典型的な難易度シナリオに優れる。 (iv)任意の量の画像に対して内在性及び外在性を予測することができる。 提案手法は,従来のSfMパイプラインと実世界の2つのデータセットに対する学習アプローチよりも大幅に改善されていることを示す。 最後に,本手法がさらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。 プロジェクトページ: https://posediffusion.github.io/

Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/
翻訳日:2024-01-26 18:11:45 公開日:2024-01-24
# コンテキスト信頼と生成AI

Contextual Confidence and Generative AI ( http://arxiv.org/abs/2311.01193v2 )

ライセンス: Link先を確認
Shrey Jain, Zo\"e Hitzig, Pamela Mishkin(参考訳) 生成AIモデルは、効果的なヒューマンコミュニケーションの基礎を混乱させる。 彼らは,コミュニケーションの真正なコンテキストを識別する参加者の能力と,その意図したコンテキスト外の再利用と再結合からコミュニケーションを保護する能力に,新たな課題を提示した。 本稿では,これらの課題に直面するコミュニケーションの安定化を目的とした,ツール,技術,政策の戦略について述べる。 議論する戦略は2つの幅広いカテゴリに分類される。 封じ込め戦略は、現在脅かされている環境でコンテキストを再保証することを目的としており、インターネットが確立した文脈自由な期待と規範に対する反応である。 対照的に、モビライゼーション戦略は、生成的AIの台頭を、介在的コミュニケーションにおけるプライバシと認証に関する新たな高い期待を積極的に設定する機会として捉えている。

Generative AI models perturb the foundations of effective human communication. They present new challenges to contextual confidence, disrupting participants' ability to identify the authentic context of communication and their ability to protect communication from reuse and recombination outside its intended context. In this paper, we describe strategies--tools, technologies and policies--that aim to stabilize communication in the face of these challenges. The strategies we discuss fall into two broad categories. Containment strategies aim to reassert context in environments where it is currently threatened--a reaction to the context-free expectations and norms established by the internet. Mobilization strategies, by contrast, view the rise of generative AI as an opportunity to proactively set new and higher expectations around privacy and authenticity in mediated communication.
翻訳日:2024-01-26 17:52:44 公開日:2024-01-24
# 機械学習のための安全かつ効果的なデータ評価

Secure and Effective Data Appraisal for Machine Learning ( http://arxiv.org/abs/2310.02373v3 )

ライセンス: Link先を確認
Xu Ouyang, Changhong Yang, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) データマーケットにとって不可欠なのは、データオーナとモデルオーナの間のトランザクションが完了する前にトレーニングデータを選択して評価する能力だ。 データとモデルの両方のプライバシを保護するため、このプロセスでは、Multi-Party Computation (MPC)を通じてターゲットモデルを精査する。 MPCを用いたTransformerモデルの評価は資源集約的だが,本研究では,データ選択を現実的に行う革新的なアプローチを提案する。 本研究の貢献は,(1) MPCを用いた秘密データ選択のためのグラウンディングパイプライン,(2) 関連するデータの限られたサブセットで訓練された簡易な低次元MLPによる複雑な高次元操作の複製,(3) MPCを同時かつ多相的に実装する3つの重要な要素を含む。 提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。 対象モデルの直接的mpcベース評価と比較すると,本手法は,選択したデータを用いたトレーニングの精度が0.20%低下しただけで,数千時間からわずか数時間という,必要な時間を大幅に削減する。

Essential for an unfettered data market is the ability to discreetly select and evaluate training data before finalizing a transaction between the data owner and model owner. To safeguard the privacy of both data and model, this process involves scrutinizing the target model through Multi-Party Computation (MPC). While prior research has posited that the MPC-based evaluation of Transformer models is excessively resource-intensive, this paper introduces an innovative approach that renders data selection practical. The contributions of this study encompass three pivotal elements: (1) a groundbreaking pipeline for confidential data selection using MPC, (2) replicating intricate high-dimensional operations with simplified low-dimensional MLPs trained on a limited subset of pertinent data, and (3) implementing MPC in a concurrent, multi-phase manner. The proposed method is assessed across an array of Transformer models and NLP/CV benchmarks. In comparison to the direct MPC-based evaluation of the target model, our approach substantially reduces the time required, from thousands of hours to mere tens of hours, with only a nominal 0.20% dip in accuracy when training with the selected data.
翻訳日:2024-01-26 17:49:38 公開日:2024-01-24
# MIML:マイクロ流体システム内のメカニカルトラッツによる高精度セル分類のための多重画像機械学習

MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems ( http://arxiv.org/abs/2309.08421v2 )

ライセンス: Link先を確認
Khayrul Islam, Ratul Paul, Shen Wang, and Yaling Liu(参考訳) ラベルのない細胞分類は、さらなる使用や検査のためにプリスチン細胞を供給するのに有利であるが、既存の技術は特異性や速度の点でしばしば不足する。 本研究では,新しい機械学習フレームワークであるMultix Image Machine Learning (MIML)の開発を通じて,これらの制約に対処する。 このアーキテクチャは、ラベルのない細胞画像と生体力学的特性データとを独特に組み合わせ、各細胞固有の広大な、しばしば未使用の形態情報を活用している。 両種類のデータを統合することで、従来の機械学習モデルで廃棄される形態素情報を利用して、細胞特性をより包括的に理解することが可能になります。 このアプローチにより、細胞分類の98.3\%の精度が著しく向上し、単一のデータ型のみを考えるモデルよりも大幅に改善されている。 MIMLは白血球と腫瘍細胞の分類に有効であることが証明されており、その固有の柔軟性と転移学習能力により、より広範な応用の可能性がある。 同様の形態の細胞には特に有効だが、生体力学的特性は異なる。 この革新的なアプローチは、疾患の診断の進歩から細胞行動の理解まで、様々な分野において重要な意味を持つ。

Label-free cell classification is advantageous for supplying pristine cells for further use or examination, yet existing techniques frequently fall short in terms of specificity and speed. In this study, we address these limitations through the development of a novel machine learning framework, Multiplex Image Machine Learning (MIML). This architecture uniquely combines label-free cell images with biomechanical property data, harnessing the vast, often underutilized morphological information intrinsic to each cell. By integrating both types of data, our model offers a more holistic understanding of the cellular properties, utilizing morphological information typically discarded in traditional machine learning models. This approach has led to a remarkable 98.3\% accuracy in cell classification, a substantial improvement over models that only consider a single data type. MIML has been proven effective in classifying white blood cells and tumor cells, with potential for broader application due to its inherent flexibility and transfer learning capability. It's particularly effective for cells with similar morphology but distinct biomechanical properties. This innovative approach has significant implications across various fields, from advancing disease diagnostics to understanding cellular behavior.
翻訳日:2024-01-26 17:48:06 公開日:2024-01-24
# LLMはセキュリティ問題に対処できるか?

Can LLMs Patch Security Issues? ( http://arxiv.org/abs/2312.00024v2 )

ライセンス: Link先を確認
Kamel Alrashedy, Abdullah Aljasser(参考訳) 大規模言語モデル(llm)はコード生成に優れた能力を示している。 それでも、人間開発者と同様に、これらのモデルはセキュリティの脆弱性や欠陥を含むコードを生成する可能性がある。 セキュアなコードを書くことは依然として大きな課題であり、プログラムと外部システムやデータベースやオペレーティングシステムなどのサービスとのインタラクション中に脆弱性が発生することが多い。 本稿では,静的コード解析ツールであるBanditからフィードバックを受け取り,LLMがセキュリティ上の脆弱性を解決するための潜在的ソリューションを生成することを目的とした,フィードバック駆動型ソリューション合成(FDSS)という新しいアプローチを提案する。 脆弱性のあるコードとともに各ソリューションは、コードリファインメントのためにLLMに返される。 我々のアプローチは、ベースラインよりも大きな改善を示し、既存のアプローチよりも優れています。 さらに,stack overflow上の実世界のシナリオから収集した新しいデータセット pythonsecurityeval を導入して,セキュアなコードを生成する llms の能力を評価する。 コードとデータは \url{https://github.com/kamel773/llm-code-refine} で利用可能である。

Large Language Models (LLMs) have shown impressive proficiency in code generation. Nonetheless, similar to human developers, these models might generate code that contains security vulnerabilities and flaws. Writing secure code remains a substantial challenge, as vulnerabilities often arise during interactions between programs and external systems or services, such as databases and operating systems. In this paper, we propose a novel approach, Feedback-Driven Solution Synthesis (FDSS), designed to explore the use of LLMs in receiving feedback from Bandit, which is a static code analysis tool, and then the LLMs generate potential solutions to resolve security vulnerabilities. Each solution, along with the vulnerable code, is then sent back to the LLM for code refinement. Our approach shows a significant improvement over the baseline and outperforms existing approaches. Furthermore, we introduce a new dataset, PythonSecurityEval, collected from real-world scenarios on Stack Overflow to evaluate the LLMs' ability to generate secure code. Code and data are available at \url{https://github.com/Kamel773/LLM-code-refine}
翻訳日:2024-01-26 17:40:14 公開日:2024-01-24
# chitchatによるタスク指向対話の強化--語彙の多様性と多様性に基づく比較研究

Enhancing Task-Oriented Dialogues with Chitchat: a Comparative Study Based on Lexical Diversity and Divergence ( http://arxiv.org/abs/2311.14067v2 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek(参考訳) 近年,タスク指向対話(TOD)は,対話をより多様かつ活発にするために,chitchatで強化されている。 この強化は、TODが狭い領域に制限されることがしばしばあり、反復的かつ予測可能な応答の緩和が重要な課題となるため、特に貴重である。 本稿では,3つのchitchat拡張の比較分析を行い,多様性の観点から最も効果的なアプローチを明らかにすることを目的とした。 さらに、タスク指向言語であるchitchatと、chitchatデータセットで一般的に見られるchitchatとの相違を定量化し、各比較で上位20のダイバージェントキーワードを強調する。 本研究は,tod強化のための今後の強化に関する議論を促し,より多様で自然な交流を実現するためのタスクを超えて対話を基礎付けることの重要性を強調した。

As a recent development, task-oriented dialogues (TODs) have been enriched with chitchat in an effort to make dialogues more diverse and engaging. This enhancement is particularly valuable as TODs are often confined to narrow domains, making the mitigation of repetitive and predictable responses a significant challenge. This paper presents a comparative analysis of three chitchat enhancements, aiming to identify the most effective approach in terms of diversity. Additionally, we quantify the divergence between the added chitchat, the original task-oriented language, and chitchat typically found in chitchat datasets, highlighting the top 20 divergent keywords for each comparison. Our findings drive a discussion on future enhancements for augmenting TODs, emphasizing the importance of grounding dialogues beyond the task to achieve more diverse and natural exchanges.
翻訳日:2024-01-26 17:39:18 公開日:2024-01-24
# 集団意思決定のための大規模言語モデル活用

Leveraging Large Language Models for Collective Decision-Making ( http://arxiv.org/abs/2311.04928v2 )

ライセンス: Link先を確認
Marios Papachristou, Longqi Yang, Chin-Chia Hsu(参考訳) ミーティングのスケジューリング、コラボレーション、プロジェクト計画といった様々な作業コンテキストにおいて、集団的な意思決定は不可欠であるが、様々な個人の好み、様々な作業の焦点、メンバー間の力のダイナミクスのためにしばしば困難である。 そこで本稿では,Large Language Models (LLM) を利用したグループ意思決定を支援するシステムを提案する。 本システムの目的は,会話から個々の選好を抽出し,メンバの選好を満足する選択肢を提案することである。 本稿では,このシステムを企業会議スケジューリングに適用する。 ユーザ調査を行うための新たなアプローチとして,llmを利用してシステムパフォーマンスを評価することで,合成した従業員プロファイルを作成し,会話を大規模にシミュレートする。 この結果から,LLMシステムとメンバー間の相互作用の低減による効率的な協調効果が示唆された。 このシステムは、提案されたオプションを改良し、時間とともに改善し、メンバーの個々の好みの多くが公平な方法で満たされるようにします。 最後に,対象者の選好や推論を集約するシステムの能力を評価するための調査を行った。 その結果,両次元で高い性能を示すことがわかった。

In various work contexts, such as meeting scheduling, collaborating, and project planning, collective decision-making is essential but often challenging due to diverse individual preferences, varying work focuses, and power dynamics among members. To address this, we propose a system leveraging Large Language Models (LLMs) to facilitate group decision-making by managing conversations and balancing preferences among individuals. Our system aims to extract individual preferences from conversations and suggest options that satisfy the preferences of the members. We specifically apply this system to corporate meeting scheduling. We create synthetic employee profiles and simulate conversations at scale, leveraging LLMs to evaluate the system performance as a novel approach to conducting a user study. Our results indicate efficient coordination with reduced interactions between the members and the LLM-based system. The system refines and improves its proposed options over time, ensuring that many of the members' individual preferences are satisfied in an equitable way. Finally, we conduct a survey study involving human participants to assess our system's ability to aggregate preferences and reasoning about them. Our findings show that the system exhibits strong performance in both dimensions.
翻訳日:2024-01-26 17:36:36 公開日:2024-01-24
# 勾配サンプリング最適化による残留ニューラルネットワークのロバストニューラルプルーニング

Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks ( http://arxiv.org/abs/2312.16020v2 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,StochGradAdamのプルーニングプロセスにおける勾配サンプリング手法の適用に着目し,ニューラルネットワーク最適化のための革新的なアプローチを検討する。 我々の主な目的は、資源制限シナリオにおける重要な課題である、刈り取られたモデルにおける高精度のレベルを維持することである。 実験により, 従来の最適化手法と比較して, 勾配サンプリング法により最適化されたモデルの方が, 刈り込み時の精度の維持に有効であることが判明した。 この発見は、厳密な学習を容易にし、ネットワークが複雑さを著しく減らした後でも重要な情報を維持できることにおいて、勾配サンプリングの重要性を強調している。 さまざまなデータセットやニューラルネットワークにまたがるアプローチを検証し、その適用性と有効性を示す。 この論文は、勾配サンプリング技術が刈り込み時のモデルの堅牢性にどのように寄与するかを論じる。 計算資源の制約のある環境においても,精度を損なうことなく効率の良いニューラルネットワークを構築できる可能性が示唆された。

In this study, we explore an innovative approach for neural network optimization, focusing on the application of gradient sampling techniques, similar to those in StochGradAdam, during the pruning process. Our primary objective is to maintain high accuracy levels in pruned models, a critical challenge in resource-limited scenarios. Our extensive experiments reveal that models optimized with gradient sampling techniques are more effective at preserving accuracy during pruning compared to those using traditional optimization methods. This finding underscores the significance of gradient sampling in facilitating robust learning and enabling networks to retain crucial information even after substantial reduction in their complexity. We validate our approach across various datasets and neural architectures, demonstrating its broad applicability and effectiveness. The paper also delves into the theoretical aspects, explaining how gradient sampling techniques contribute to the robustness of models during pruning. Our results suggest a promising direction for creating efficient neural networks that do not compromise on accuracy, even in environments with constrained computational resources.
翻訳日:2024-01-26 17:28:52 公開日:2024-01-24
# 制御された生成に対するコントラストパープレクティリティ:大規模言語モデルのデトックス化への応用

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models ( http://arxiv.org/abs/2401.08491v2 )

ライセンス: Link先を確認
Tassilo Klein, Moin Nabi(参考訳) 大きな言語モデルの望ましくない、事実的に誤ったコンテンツの生成は、重大な課題であり、ほとんど解決されていない問題である。 本稿では,暗黙的な知識編集と制御されたテキスト生成のための微調整LDMのためのコントラスト学習目標の統合について検討する。 学習目標の最適化は、テキストの複雑度を対比的に調整することを伴う。 自己監督型でモデルのトレーニングを容易にするために,市販のllmをデータ生成訓練に活用した。 我々はデトキシフィケーションの領域における適用可能性を示す。 そこで,提案手法は,コモンセンス推論や読み理解といった下流タスクの汎用性を維持しつつ,有毒なコンテンツの生成を著しく減少させる。 提案手法は概念的には単純だが経験的に強力である。

The generation of undesirable and factually incorrect content of large language models poses a significant challenge and remains largely an unsolved issue. This paper studies the integration of a contrastive learning objective for fine-tuning LLMs for implicit knowledge editing and controlled text generation. Optimizing the training objective entails aligning text perplexities in a contrastive fashion. To facilitate training the model in a self-supervised fashion, we leverage an off-the-shelf LLM for training data generation. We showcase applicability in the domain of detoxification. Herein, the proposed approach leads to a significant decrease in the generation of toxic content while preserving general utility for downstream tasks such as commonsense reasoning and reading comprehension. The proposed approach is conceptually simple but empirically powerful.
翻訳日:2024-01-26 17:14:21 公開日:2024-01-24
# dittogym: ソフトシェイプシフトロボットを制御するための学習

DittoGym: Learning to Control Soft Shape-Shifting Robots ( http://arxiv.org/abs/2401.13231v1 )

ライセンス: Link先を確認
Suning Huang and Boyuan Chen and Huazhe Xu and Vincent Sitzmann(参考訳) ロボットの共同設計では、ロボットの形態は特定のタスクを解くための学習されたポリシーと共同で最適化される。 これは、学習した形態やアクチュエータを実現できる新しい製造技術に順応できるソフトロボットに対して特に有望である。 自然と最近の新しいロボットデザインに触発されて、我々はさらに一歩進めて、彼らの生涯で形態を変えることができるロボットとして定義された、新しい構成可能なロボットを探求することを提案する。 再構成可能なソフトロボットの制御を高次元強化学習(RL)問題として定式化する。 我々は,同じ行動空間において形態変化,移動,環境相互作用を統一し,ロボットの細かな制御を実現するための適切な粗雑なカリキュラムを導入する。 また,タスクの完了に詳細な形態変化を必要とする,再構成可能なソフトロボットのための包括的なrlベンチマークであるdittogymについても紹介する。 最後に,提案アルゴリズムをDittoGym上で評価し,RLアルゴリズムで一意に実現した数回のシーケンス内で形態変化を学習するロボットを実演する。 詳細はhttps://dittogym.github.ioで確認できる。

Robot co-design, where the morphology of a robot is optimized jointly with a learned policy to solve a specific task, is an emerging area of research. It holds particular promise for soft robots, which are amenable to novel manufacturing techniques that can realize learned morphologies and actuators. Inspired by nature and recent novel robot designs, we propose to go a step further and explore the novel reconfigurable robots, defined as robots that can change their morphology within their lifetime. We formalize control of reconfigurable soft robots as a high-dimensional reinforcement learning (RL) problem. We unify morphology change, locomotion, and environment interaction in the same action space, and introduce an appropriate, coarse-to-fine curriculum that enables us to discover policies that accomplish fine-grained control of the resulting robots. We also introduce DittoGym, a comprehensive RL benchmark for reconfigurable soft robots that require fine-grained morphology changes to accomplish the tasks. Finally, we evaluate our proposed coarse-to-fine algorithm on DittoGym and demonstrate robots that learn to change their morphology several times within a sequence, uniquely enabled by our RL algorithm. More results are available at https://dittogym.github.io.
翻訳日:2024-01-26 17:01:35 公開日:2024-01-24
# 最適輸送理論とマルチエージェント強化学習の相乗効果

The Synergy Between Optimal Transport Theory and Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.10949v2 )

ライセンス: Link先を確認
Ali Baheri and Mykel J. Kochenderfer(参考訳) 本稿では,最適輸送(ot)理論とマルチエージェント強化学習(marl)の統合について検討する。 この統合はOTを用いて分散と輸送の問題に対処し、MARLの効率性、調整性、適応性を向上させる。 There are five key areas where OT can impact MARL: (1) policy alignment, where OT's Wasserstein metric is used to align divergent agent strategies towards unified goals; (2) distributed resource management, employing OT to optimize resource allocation among agents; (3) addressing non-stationarity, using OT to adapt to dynamic environmental shifts; (4) scalable multi-agent learning, harnessing OT for decomposing large-scale learning objectives into manageable tasks; and (5) enhancing energy efficiency, applying OT principles to develop sustainable MARL systems. 本稿では, OTとMARLの相乗効果がスケーラビリティ問題にどう対処するか, 資源分布の最適化, 協調環境におけるエージェントポリシーの整合, 動的に変化する条件下での適応性確保について述べる。

This paper explores the integration of optimal transport (OT) theory with multi-agent reinforcement learning (MARL). This integration uses OT to handle distributions and transportation problems to enhance the efficiency, coordination, and adaptability of MARL. There are five key areas where OT can impact MARL: (1) policy alignment, where OT's Wasserstein metric is used to align divergent agent strategies towards unified goals; (2) distributed resource management, employing OT to optimize resource allocation among agents; (3) addressing non-stationarity, using OT to adapt to dynamic environmental shifts; (4) scalable multi-agent learning, harnessing OT for decomposing large-scale learning objectives into manageable tasks; and (5) enhancing energy efficiency, applying OT principles to develop sustainable MARL systems. This paper articulates how the synergy between OT and MARL can address scalability issues, optimize resource distribution, align agent policies in cooperative environments, and ensure adaptability in dynamically changing conditions.
翻訳日:2024-01-26 17:00:33 公開日:2024-01-24
# Neglected Hessian 成分はシャープネス正則化におけるミステリーを説明する

Neglected Hessian component explains mysteries in Sharpness regularization ( http://arxiv.org/abs/2401.10809v2 )

ライセンス: Link先を確認
Yann N. Dauphin, Atish Agarwala, Hossein Mobahi(参考訳) 最近の研究では、二階情報の明示的あるいは暗黙的にペナルティを課すsamのような手法がディープラーニングの一般化を改善できることが示されている。 重みのノイズや勾配のペナルティのような類似の手法は、しばしばそのような利点を提供しない。 これらの違いは、損失のヘシアンの構造によって説明できることを示す。 まず,Hessianの共通分解は特徴探索から特徴利用を分離するものとして定量的に解釈できることを示す。 非線形モデリング誤差行列(NME)によって記述できる特徴探索は、補間時に消滅するため、文献で一般的に無視される。 我々の研究は、NMEが実際に重要であることを示しており、なぜ勾配のペナルティが活性化関数の選択に敏感であるかを説明することができる。 この洞察を使って、パフォーマンスを改善するための介入をデザインします。 また,重み付き雑音と勾配のペナルティの長期的等価性に挑戦する証拠も提示する。 この等価性は、NMEを無視できるという仮定に依存しており、それらが重要な特徴学習を含むため、現代のネットワークには当てはまらない。 機能エクスプロイトを正規化するが、機能探索ではないことは、グラデーションペナルティと同じようなパフォーマンスをもたらす。

Recent work has shown that methods like SAM which either explicitly or implicitly penalize second order information can improve generalization in deep learning. Seemingly similar methods like weight noise and gradient penalties often fail to provide such benefits. We show that these differences can be explained by the structure of the Hessian of the loss. First, we show that a common decomposition of the Hessian can be quantitatively interpreted as separating the feature exploitation from feature exploration. The feature exploration, which can be described by the Nonlinear Modeling Error matrix (NME), is commonly neglected in the literature since it vanishes at interpolation. Our work shows that the NME is in fact important as it can explain why gradient penalties are sensitive to the choice of activation function. Using this insight we design interventions to improve performance. We also provide evidence that challenges the long held equivalence of weight noise and gradient penalties. This equivalence relies on the assumption that the NME can be ignored, which we find does not hold for modern networks since they involve significant feature learning. We find that regularizing feature exploitation but not feature exploration yields performance similar to gradient penalties.
翻訳日:2024-01-26 16:59:39 公開日:2024-01-24
# 電子構造計算カーネルのGPUオフロードのためのハイブリッドプログラミングモデル戦略

Hybrid programming-model strategies for GPU offloading of electronic structure calculation kernels ( http://arxiv.org/abs/2401.13772v1 )

ライセンス: Link先を確認
Jean-Luc Fattebert, Christian F. A. Negre, Joshua Finkelstein, Jamaludin Mohd-Yusof, Daniel Osei-Kuffuor, Michael E. Wall, Yu Zhang, Nicolas Bock, Susan M. Mniszewski(参考訳) 性能ポータビリティの課題に対処し,電子構造ソルバの実装を容易にするために,基本行列ライブラリ (bml) と並列,高速なo(n) とグラフベースの再帰的電子構造ソルバ (progress) ライブラリを開発した。 BMLは、様々な行列フォーマット(dense, sparse)とアーキテクチャ(CPU, GPU)の統一ユーザインタフェースを使用して、電子構造カーネルに必要な線形代数演算を実装している。 密度汎関数理論 (DFT) とタイト・バインディング (TB) モデルに焦点をあてて、PROGRESSは単一粒子密度行列を計算するためのいくつかの解法を実装し、BMLに依存している。 本稿では、gpu上のopenmpターゲット機能を用いて、これらの実装で使用される一般的な戦略を、パフォーマンスクリティカルな数値カーネルを扱うサードパーティライブラリと連携して述べる。 我々は、このアプローチの可搬性とそのベンチマーク問題に対する性能を実証する。

To address the challenge of performance portability, and facilitate the implementation of electronic structure solvers, we developed the Basic Matrix Library (BML) and Parallel, Rapid O(N) and Graph-based Recursive Electronic Structure Solver (PROGRESS) libraries. BML implements linear algebra operations necessary for electronic structure kernels using a unified user interface for various matrix formats (dense, sparse) and architectures (CPUs, GPUs). Focusing on Density Functional Theory (DFT) and Tight-Binding (TB) models, PROGRESS implements several solvers for computing the single-particle density matrix and relies on BML. In this paper, we describe the general strategies used for these implementations on various computer architectures, using OpenMP target functionalities on GPUs, in conjunction with third-party libraries to handle performance critical numerical kernels. We demonstrate the portability of this approach and its performance on benchmark problems.
翻訳日:2024-01-26 16:50:09 公開日:2024-01-24
# MPS多様体上のスクイージングからの絡み合い成長

Entanglement growth from squeezing on the MPS manifold ( http://arxiv.org/abs/2401.13740v1 )

ライセンス: Link先を確認
Sebastian Leontica, Andrew G. Green(参考訳) 量子カオスの適切なキャラクタリゼーションを見つけることは、多体物理学において大きな課題であり、シュリンガー方程式の線型性により中心的な困難が生じる。 非線形性を回復するための可能な解決策は、ある変分多様体にダイナミクスを投影することである。 この手順によって引き起こされる古典的カオスは、全ヒルベルト空間における量子カオスのシグネチャとして使うことができる。 本稿では,行列積状態 (mps) 多様体への射影からのリアプノフスペクトルとエンタングルメントの成長との関係を解析的に示す。 この成長は、変分多様体上の局所分布を絞ることで起こる。 この過程はカルディ・カラブレス像に似ており、動くMPS参照への局所摂動はボソニック準粒子として解釈される。 これらの過程の異なるチャネルの数を慎重に考慮すると、リアプノフスペクトルとの接続が回復する。 我々の結果は、投射されたリアプノフスペクトルの物理的意義を厳格に確立し、古典的カオスと明確に結びついている量子多体系におけるカオスを特徴づける代替手法として提案する。

Finding suitable characterizations of quantum chaos is a major challenge in many-body physics, with a central difficulty posed by the linearity of the Schr\"odinger equation. A possible solution for recovering non-linearity is to project the dynamics onto some variational manifold. The classical chaos induced via this procedure may be used as a signature of quantum chaos in the full Hilbert space. Here, we demonstrate analytically a previously heuristic connection between the Lyapunov spectrum from projection onto the matrix product state (MPS) manifold and the growth of entanglement. This growth occurs by squeezing a localized distribution on the variational manifold. The process qualitatively resembles the Cardy-Calabrese picture, where local perturbations to a moving MPS reference are interpreted as bosonic quasi-particles. Taking careful account of the number of distinct channels for these processes recovers the connection to the Lyapunov spectrum. Our results rigorously establish the physical significance of the projected Lyapunov spectrum, suggesting it as an alternative method of characterizing chaos in quantum many-body systems, one that is manifestly linked to classical chaos.
翻訳日:2024-01-26 16:49:51 公開日:2024-01-24
# 開量子系力学における非マルコフ-マルコフ遷移のエンタングルメント支援プローブ

Entanglement assisted probe of the non-Markovian to Markovian transition in open quantum system dynamics ( http://arxiv.org/abs/2401.13735v1 )

ライセンス: Link先を確認
Chandrashekhar Gaikwad, Daria Kowsari, Carson Brame, Xingrui Song, Haimeng Zhang, Martina Esposito, Arpit Ranadive, Giulio Cappelli, Nicolas Roch, Eli M. Levenson-Falk, and Kater W. Murch(参考訳) 超伝導量子ビットプロセッサを用いて、エンタングル量子ビット対の非マルコフ系からマルコフ系への遷移を実験的に探究する。 2つのキュービット間の絡み合い状態を作成し、キュービットの1つがその読み出しキャビティに結合された補助的なトランスモンキュービットからなる小さな量子環境と相互作用する時間とともに絡み合いの進化を監視する。 我々は、環境における量子記憶効果のシグネチャとして、絡み合いの崩壊と復活を観察した。 次に、その可読性キャビティに熱光子を投入し、非マルコフ力学からマルコフ力学への遷移を示し、量子ゼノ効果が量子ビット間の絡み合いを効果的に安定化する非コヒーレンスな部分空間を生成する状態に達する。

We utilize a superconducting qubit processor to experimentally probe the transition from non-Markovian to Markovian dynamics of an entangled qubit pair. We prepare an entangled state between two qubits and monitor the evolution of entanglement over time as one of the qubits interacts with a small quantum environment consisting of an auxiliary transmon qubit coupled to its readout cavity. We observe the collapse and revival of the entanglement as a signature of quantum memory effects in the environment. We then engineer the non-Markovianity of the environment by populating its readout cavity with thermal photons to show a transition from non-Markovian to Markovian dynamics, reaching a regime where the quantum Zeno effect creates a decoherence-free subspace that effectively stabilizes the entanglement between the qubits.
翻訳日:2024-01-26 16:49:32 公開日:2024-01-24
# Liouvillian gapにおけるトポロジカルフィンガー

Topological fingerprints in Liouvillian gaps ( http://arxiv.org/abs/2401.13732v1 )

ライセンス: Link先を確認
Kevin Kavanagh, Joost K. Slingerland, Shane Dooley, Graham Kells(参考訳) 多体物理学におけるトポロジーは通常、平衡量子状態の特徴として現れる。 また,開放量子系の緩和速度にも位相的指紋が現れることを示した。 これを実証するために、基底状態に2つの異なる位相位相を持つ最も単純なモデルの一つを考える:$p$-wave超伝導体に対するKitaevモデル。 このモデルに散逸を導入した後、強い散逸限界と弱い散逸限界の両方におけるリウヴィリアギャップを推定する。 以上の結果から,非零超伝導対は無限大の限界に留まったリウビリアンギャップを開放することが示された。 強い散逸では、このギャップは基本的にハミルトン基底状態のトポロジーに影響されない。 対照的に、散逸が弱いとき、ハミルトン基底状態の位相相は、リウヴィリアギャップの特性を決定する上で重要な役割を果たす。 例えば、トポロジカルな段階では、このギャップは化学ポテンシャルの変化に完全に免疫されていることが分かる。 一方、非トポロジー段階では、リウビリアンギャップは大きな化学ポテンシャルによって抑制される。

Topology in many-body physics usually emerges as a feature of equilibrium quantum states. We show that topological fingerprints can also appear in the relaxation rates of open quantum systems. To demonstrate this we consider one of the simplest models that has two distinct topological phases in its ground state: the Kitaev model for the $p$-wave superconductor. After introducing dissipation to this model we estimate the Liouvillian gap in both strong and weak dissipative limits. Our results show that a non-zero superconducting pairing opens a Liouvillian gap that remains open in the limit of infinite system size. At strong dissipation this gap is essentially unaffected by the topology of the underlying Hamiltonian ground state. In contrast, when dissipation is weak, the topological phase of the Hamiltonian ground state plays a crucial role in determining the character of the Liouvillian gap. We find, for example, that in the topological phase this gap is completely immune to changes in the chemical potential. On the other hand, in the non-topological phase the Liouvillian gap is suppressed by a large chemical potential.
翻訳日:2024-01-26 16:49:15 公開日:2024-01-24
# 大規模言語モデル出力の大規模化支援

Supporting Sensemaking of Large Language Model Outputs at Scale ( http://arxiv.org/abs/2401.13726v1 )

ライセンス: Link先を確認
Katy Ilonka Gero, Chelse Swoopes, Ziwei Gu, Jonathan K. Kummerfeld, Elena L. Glassman(参考訳) 大規模言語モデル(llm)は単一のプロンプトに対して複数のレスポンスを生成することができるが、エンドユーザやシステム設計者がこの機能を利用するのを助ける努力はほとんどない。 本稿では,多数のLDM応答を同時に提示する方法を考察する。 我々は,テキスト文書間の類似性や相違点の計算方法,出力のレンダリング方法など,既存の手法と新しい手法の両方を含む5つの特徴を設計する。 本報告では,制御型ユーザスタディ(n=24)と,これらの機能を評価した8つのケーススタディについて報告する。 これらの機能は多様なセンスメイキングタスクをサポートしており、これまでは参加者が難しすぎると考えられていたタスクまでも実現している。 最後に,新しいllmインタフェースの今後の展開を知らせる設計ガイドラインを提案する。

Large language models (LLMs) are capable of generating multiple responses to a single prompt, yet little effort has been expended to help end-users or system designers make use of this capability. In this paper, we explore how to present many LLM responses at once. We design five features, which include both pre-existing and novel methods for computing similarities and differences across textual documents, as well as how to render their outputs. We report on a controlled user study (n=24) and eight case studies evaluating these features and how they support users in different tasks. We find that the features support a wide variety of sensemaking tasks and even make tasks previously considered to be too difficult by our participants now tractable. Finally, we present design guidelines to inform future explorations of new LLM interfaces.
翻訳日:2024-01-26 16:49:00 公開日:2024-01-24
# HHGスペクトルの計算に最適化された1次元モデルポテンシャル

One-dimensional model potentials optimized for the calculation of the HHG spectrum ( http://arxiv.org/abs/2401.13724v1 )

ライセンス: Link先を確認
Krisztina Sallai, Szabolcs Hack, Szil\'ard Majorosi, Attila Czirj\'ak(参考訳) 従来使用されていた1次元(1次元)原子モデルポテンシャルの好ましい性質に基づいて、強い線形偏光近赤外線レーザーパルスによって駆動される単一活性電子原子の量子力学の1次元シミュレーションのための新しい1次元原子モデルポテンシャルを導入する。 1次元および3次元の典型的強磁場物理シナリオの数値シミュレーション結果を比較することで、この新しい1次元モデルポテンシャルは、最も頻繁に使用される駆動レーザーパルスパラメータの精度が著しく向上した単一原子HHGスペクトルを与えることを示す。

Based on the favourable properties of previously used one-dimensional (1D) atomic model potentials, we introduce a novel 1D atomic model potential for the 1D simulation of the quantum dynamics of a single active electron atom driven by a strong, linearly polarized near-infrared laser pulse. By comparing numerical simulation results of typical strong-field physics scenarios in 1D and 3D, we show that this novel 1D model potential gives single atom HHG spectra with impressively increased accuracy for the most frequently used driving laser pulse parameters.
翻訳日:2024-01-26 16:48:45 公開日:2024-01-24
# Proactive Emotion Tracker: AI駆動の継続的ムードと感情モニタリング

Proactive Emotion Tracker: AI-Driven Continuous Mood and Emotion Monitoring ( http://arxiv.org/abs/2401.13722v1 )

ライセンス: Link先を確認
Mohammad Asif, Sudhakar Mishra, Ankush Sonker, Sanidhya Gupta, Somesh Kumar Maurya and Uma Shanker Tiwary(参考訳) この研究プロジェクトは、今日のデジタル時代のメンタルヘルスの課題に挑戦することを目的としている。 修正されたトレーニング済みBERTモデルを使用して、ソーシャルメディアやユーザのWebブラウジングデータ内の落ち込んだテキストを検出し、93%のテスト精度を実現している。 同時に、このプロジェクトはスマートウォッチや脳波センサーなどのウェアラブルデバイスからの生理的信号を組み込んで、気分障害や感情状態の長期追跡と予後を提供することを目指している。 この包括的アプローチは、うつ病の早期発見と全体のメンタルヘルス結果の促進を約束する。

This research project aims to tackle the growing mental health challenges in today's digital age. It employs a modified pre-trained BERT model to detect depressive text within social media and users' web browsing data, achieving an impressive 93% test accuracy. Simultaneously, the project aims to incorporate physiological signals from wearable devices, such as smartwatches and EEG sensors, to provide long-term tracking and prognosis of mood disorders and emotional states. This comprehensive approach holds promise for enhancing early detection of depression and advancing overall mental health outcomes.
翻訳日:2024-01-26 16:48:34 公開日:2024-01-24
# 回帰における教師なし領域適応のための不確かさ誘導アライメント

Uncertainty-Guided Alignment for Unsupervised Domain Adaptation in Regression ( http://arxiv.org/abs/2401.13721v1 )

ライセンス: Link先を確認
Ismail Nejjar, Gaetan Frusque, Florent Forest, Olga Fink(参考訳) Unsupervised Domain Adaptation for Regression (UDAR)は、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを適応させることを目標としている。 近年のUDARの研究は、主に部分空間のアライメントに焦点を当て、特徴空間全体の中で選択された部分空間のアライメントを含む。 これは、機能空間全体を整列することを目的としており、有効性は証明されているが、回帰設定ではそうではない、分類に使用される特徴アライメント手法とは対照的である。 特に、分類は埋め込み次元全体にわたって異なるクラスタを識別することを目的としているが、回帰はデータ表現の構造を小さくし、効率的なアライメントのための追加のガイダンスを必要とする。 本稿では,不確実性からのガイダンスを取り入れたUDARの効果的な手法を提案する。 私たちのアプローチは、予測に対する信頼度の測定と埋め込み空間の正規化を提供するという、2つの目的に役立ちます。 具体的には、各サンプルに対して予測と不確実性の両方を出力するDeep Evidential Learningフレームワークを活用する。 特徴量や後部レベルにおける従来のアライメント手法を用いて,ソースドメインとターゲットドメイン間の高次顕在分布のパラメータを整列する手法を提案する。 さらに,ラベルの類似性に基づき,疑似ラベル付きターゲットサンプルとソースサンプルを混合することにより,特徴空間表現の強化を提案する。 このクロスドメイン混合戦略はランダム混合よりも現実的なサンプルを生成し、より高い不確実性をもたらし、さらなるアライメントを促進する。 既存の手法よりも優れているUDARの4つのベンチマークにおいて,本手法の有効性を実証する。

Unsupervised Domain Adaptation for Regression (UDAR) aims to adapt a model from a labeled source domain to an unlabeled target domain for regression tasks. Recent successful works in UDAR mostly focus on subspace alignment, involving the alignment of a selected subspace within the entire feature space. This contrasts with the feature alignment methods used for classification, which aim at aligning the entire feature space and have proven effective but are less so in regression settings. Specifically, while classification aims to identify separate clusters across the entire embedding dimension, regression induces less structure in the data representation, necessitating additional guidance for efficient alignment. In this paper, we propose an effective method for UDAR by incorporating guidance from uncertainty. Our approach serves a dual purpose: providing a measure of confidence in predictions and acting as a regularization of the embedding space. Specifically, we leverage the Deep Evidential Learning framework, which outputs both predictions and uncertainties for each input sample. We propose aligning the parameters of higher-order evidential distributions between the source and target domains using traditional alignment methods at the feature or posterior level. Additionally, we propose to augment the feature space representation by mixing source samples with pseudo-labeled target samples based on label similarity. This cross-domain mixing strategy produces more realistic samples than random mixing and introduces higher uncertainty, facilitating further alignment. We demonstrate the effectiveness of our approach on four benchmarks for UDAR, on which we outperform existing methods.
翻訳日:2024-01-26 16:48:23 公開日:2024-01-24
# 真空光学非線形観測用sagnac干渉計の性能

Performance of a Sagnac interferometer to observe vacuum optical nonlinearity ( http://arxiv.org/abs/2401.13720v1 )

ライセンス: Link先を確認
Aur\'elie Max Mailliet, Adrien E. Kraych, Fran\c{c}ois Couchot, Xavier Sarazin, Elsa Baynard, Julien Demailly, Moana Pittman, Arache Djannati-Ata\"i, Sophie Kazamias, Scott Robertson, Marcel Urban(参考訳) 量子電磁力学では、真空は非線形光学媒体となり、その光学指数は強い外部電磁場の存在下で修正されるべきである。 dellight project (deflection of light by light) は laserix が配信する集中フェムト秒レーザーパルスを用いてこの効果を観測することを目的としている。 サニャック干渉計を用いて、高強度パルス(ポンプ)によって誘導される真空指数勾配を越える低強度集束パルス(プローブ)の偏向を測定する。 フェムト秒レーザーパルスを用いたサニャック干渉計がDeLLightプロジェクトのために開発された。 以前のプロトタイプと比較して、干渉計は相互作用領域におけるプローブビームの焦点を含むようになった。 本稿では、干渉計の感度を制限する重要な実験パラメータ、すなわち、消滅因子、空間分解能、およびプローブパルスの焦点のウエストを測定し、特徴付ける。 今後の改善について論じる。

In Quantum Electrodynamics, vacuum becomes a nonlinear optical medium: its optical index should be modified in the presence of intense external electromagnetic fields. The DeLLight project (Deflection of Light by Light) aims to observe this effect using intense focused femtosecond laser pulses delivered by LASERIX. The principle is to measure with a Sagnac interferometer the deflection of a low-intensity focused pulse (probe) crossing the vacuum index gradient induced by a high-intensity pulse (pump). A Sagnac interferometer working with femtosecond laser pulses has been developed for the DeLLight project. Compared to previous prototypes, the interferometer now includes the focusing of the probe beam in the interaction area. In this article, we measure and characterize the critical experimental parameters limiting the sensitivity of the interferometer, namely the extinction factor, the spatial resolution, and the waist at focus of the probe pulse. We discuss future improvements.
翻訳日:2024-01-26 16:47:56 公開日:2024-01-24
# 分類層を伴わない顔認識モデルに対する推論攻撃

Inference Attacks Against Face Recognition Model without Classification Layers ( http://arxiv.org/abs/2401.13719v1 )

ライセンス: Link先を確認
Yuanqing Huang, Huilong Chen, Yinggui Wang, Lei Wang(参考訳) 顔認識(FR)は日常生活のほぼすべての側面に適用されているが、情報漏洩のリスクが常に伴っている。 現在、ほとんどのFRに対する攻撃モデルは分類層の存在に大きく依存している。 しかし、実際には、FRモデルはモデルバックボーンを介して入力の複雑な特徴を取得し、それを推論のターゲットと比較することができる。 本研究では,分類層を持たない実用的なfrモデルのための2段階からなる新しい推論攻撃を提案する。 最初の段階はメンバーシップ推論攻撃である。 具体的には,中間特徴量とバッチ正規化(BN)パラメータ間の距離を分析する。 結果は、この距離が会員推定の重要な指標であることを示している。 そこで我々は,顔画像がトレーニングデータセットからのものであるか否かを判定できる,シンプルだが効果的な攻撃モデルを構築した。 第2段階はモデル反転攻撃(model inversion attack)で、センシティブなプライベートデータを第1段階では、事前訓練された生成敵ネットワーク(gan)を使用して再構築する。 我々の知る限り、提案した攻撃モデルは、分類層を持たないFRモデルのために開発された文献の中で、最初のものである。 本稿では,プライバシ保護fr手法の確立における攻撃モデルの適用について述べる。

Face recognition (FR) has been applied to nearly every aspect of daily life, but it is always accompanied by the underlying risk of leaking private information. At present, almost all attack models against FR rely heavily on the presence of a classification layer. However, in practice, the FR model can obtain complex features of the input via the model backbone, and then compare it with the target for inference, which does not explicitly involve the outputs of the classification layer adopting logit or other losses. In this work, we advocate a novel inference attack composed of two stages for practical FR models without a classification layer. The first stage is the membership inference attack. Specifically, We analyze the distances between the intermediate features and batch normalization (BN) parameters. The results indicate that this distance is a critical metric for membership inference. We thus design a simple but effective attack model that can determine whether a face image is from the training dataset or not. The second stage is the model inversion attack, where sensitive private data is reconstructed using a pre-trained generative adversarial network (GAN) guided by the attack model in the first stage. To the best of our knowledge, the proposed attack model is the very first in the literature developed for FR models without a classification layer. We illustrate the application of the proposed attack model in the establishment of privacy-preserving FR techniques.
翻訳日:2024-01-26 16:47:42 公開日:2024-01-24
# 医療における表データ合成のための総合的品質評価フレームワーク

Can I trust my fake data -- A comprehensive quality assessment framework for synthetic tabular data in healthcare ( http://arxiv.org/abs/2401.13716v1 )

ライセンス: Link先を確認
Vibeke Binz Vallevik, Aleksandar Babic, Serena Elizabeth Marshall, Severin Elvatun, Helga Br{\o}gger, Sharmini Alagaratnam, Bj{\o}rn Edwin, Narasimha Raghavan Veeraragavan, Anne Kjersti Befring, Jan Franz Nyg{\aa}rd(参考訳) 医療におけるAIツールの安全な採用を保証するには、トレーニング、テスト、検証に十分なデータにアクセスする必要がある。 プライバシの懸念と規制要件に応じて、合成データの使用が提案されている。 合成データは、実データ上でジェネレータをトレーニングして、同様の統計特性を持つデータセットを生成することによって生成される。 品質評価のために異なる分類体系でメトリクスを競合させることが提案され、複雑な景観をもたらす。 品質の最適化には、データの利用に適合する考慮事項のバランスが伴うが、関連する次元は既存のフレームワークから除外される。 本研究は,表型医療データと深層生成法を用いたsdの範囲内におけるsdの品質評価指標の利用について,総合的な文献レビューを行った。 これとチーム全体の経験に基づいて、品質保証の概念的なフレームワークを開発しました。 適用性はオランダ国立がん登録簿の実践例と比較された。 本稿では,医療におけるaiアプリケーションにおけるsdの品質保証のための概念的枠組みを提案し,公平性と炭素フットプリントの次元を含む共通品質次元を拡張し,実生活アプリケーションをサポートするために必要な段階を提案する。 透明性を高め、安全性のリスクを減らすことで、合成データへの信頼を構築することは、患者のために信頼できるAIツールの開発と獲得を促進する。 アルゴリズムの公正さと炭素フットプリントに重点を置いているにもかかわらず、これらの指標は文献レビューでは乏しかった。 主眼は, 逐次論理検出が不十分な間, 距離メトリクスを用いた統計的類似性であった。 関連するすべての品質ディメンションを含む合意に基づくフレームワークは、sdの安全かつ責任ある実生活アプリケーションを保証することができる。

Ensuring safe adoption of AI tools in healthcare hinges on access to sufficient data for training, testing and validation. In response to privacy concerns and regulatory requirements, using synthetic data has been suggested. Synthetic data is created by training a generator on real data to produce a dataset with similar statistical properties. Competing metrics with differing taxonomies for quality evaluation have been suggested, resulting in a complex landscape. Optimising quality entails balancing considerations that make the data fit for use, yet relevant dimensions are left out of existing frameworks. We performed a comprehensive literature review on the use of quality evaluation metrics on SD within the scope of tabular healthcare data and SD made using deep generative methods. Based on this and the collective team experiences, we developed a conceptual framework for quality assurance. The applicability was benchmarked against a practical case from the Dutch National Cancer Registry. We present a conceptual framework for quality assurance of SD for AI applications in healthcare that aligns diverging taxonomies, expands on common quality dimensions to include the dimensions of Fairness and Carbon footprint, and proposes stages necessary to support real-life applications. Building trust in synthetic data by increasing transparency and reducing the safety risk will accelerate the development and uptake of trustworthy AI tools for the benefit of patients. Despite the growing emphasis on algorithmic fairness and carbon footprint, these metrics were scarce in the literature review. The overwhelming focus was on statistical similarity using distance metrics while sequential logic detection was scarce. A consensus-backed framework that includes all relevant quality dimensions can provide assurance for safe and responsible real-life applications of SD.
翻訳日:2024-01-26 16:47:26 公開日:2024-01-24
# マイクロコントローラにおけるパッチベース推論のための値駆動混合精度量子化

Value-Driven Mixed-Precision Quantization for Patch-Based Inference on Microcontrollers ( http://arxiv.org/abs/2401.13714v1 )

ライセンス: Link先を確認
Wei Tao, Shenglin He, Kai Lu, Xiaoyang Qu, Guokuan Li, Jiguang Wan, Jianzong Wang, Jing Xiao(参考訳) マイクロコントローラユニット(mcu)にニューラルネットワークをデプロイすることは、その制約された計算とメモリリソースのために、かなりの課題をもたらす。 これまでの研究で、モデル精度を犠牲にすることなくメモリを保存する戦略としてパッチベースの推論が研究されてきた。 しかし、この手法は厳しい冗長な計算オーバーヘッドに悩まされ、実行遅延が大幅に増加する。 この問題に対処するための実現可能な解決策は混合精度量子化であるが、精度の低下と時間を要する検索時間の問題に直面している。 本稿では,値駆動型混合精度量子化を用いて冗長計算を削減するパッチベースの新しい推論手法QuantMCUを提案する。 まず,モデル精度を維持するためにvdpc(value-driven patch classification)を用いた。 VDPCはパッチを2つのクラスに分類する。 異常値を含むパッチについては、次のdataflowブランチの機能マップに8ビット量子化を適用する。 さらに,外乱値のないパッチに対しては,以下のデータフローブランチの特徴マップに値駆動量子化探索(VDQS)を用いて検索時間を短縮する。 特に、vdqsは計算と精度の両方を考慮した新しい量子化探索メトリックを導入し、追加のトレーニングを避けるためにエントロピーを精度表現として用いる。 VDQSはまた、各特徴マップのビット幅を決定するために反復的なアプローチを採用し、検索プロセスをさらに加速する。 実世界のMCUデバイスでの実験結果から、QuantMCUは、最先端のパッチベースの推論手法と同等のモデル精度を維持しながら、平均2.2倍の計算量を削減できることが示された。

Deploying neural networks on microcontroller units (MCUs) presents substantial challenges due to their constrained computation and memory resources. Previous researches have explored patch-based inference as a strategy to conserve memory without sacrificing model accuracy. However, this technique suffers from severe redundant computation overhead, leading to a substantial increase in execution latency. A feasible solution to address this issue is mixed-precision quantization, but it faces the challenges of accuracy degradation and a time-consuming search time. In this paper, we propose QuantMCU, a novel patch-based inference method that utilizes value-driven mixed-precision quantization to reduce redundant computation. We first utilize value-driven patch classification (VDPC) to maintain the model accuracy. VDPC classifies patches into two classes based on whether they contain outlier values. For patches containing outlier values, we apply 8-bit quantization to the feature maps on the dataflow branches that follow. In addition, for patches without outlier values, we utilize value-driven quantization search (VDQS) on the feature maps of their following dataflow branches to reduce search time. Specifically, VDQS introduces a novel quantization search metric that takes into account both computation and accuracy, and it employs entropy as an accuracy representation to avoid additional training. VDQS also adopts an iterative approach to determine the bitwidth of each feature map to further accelerate the search process. Experimental results on real-world MCU devices show that QuantMCU can reduce computation by 2.2x on average while maintaining comparable model accuracy compared to the state-of-the-art patch-based inference methods.
翻訳日:2024-01-26 16:47:01 公開日:2024-01-24
# EMP:グラフ表現学習に有効な多次元パーシステンス

EMP: Effective Multidimensional Persistence for Graph Representation Learning ( http://arxiv.org/abs/2401.13713v1 )

ライセンス: Link先を確認
Ignacio Segovia-Dominguez, Yuzhou Chen, Cuneyt G. Akcora, Zhiwei Zhen, Murat Kantarcioglu, Yulia R. Gel, Baris Coskunuzer(参考訳) トポロジカルデータ分析 (topological data analysis, tda) は、多様体学習からグラフ分類に至るまで、さまざまな機械学習タスクで注目を集めている。 TDA内の重要なテクニックは永続ホモロジー(PH)であり、スケールパラメータの変化として潜伏構造の進化をトレースすることで、データの排他的トポロジ的インプリントを提供する。 現在のPHツールは、単一のフィルタパラメータを通してデータを解析することに限定されている。 しかし、データに対するより詳細な洞察を得るためには、複数の関連するパラメータを考慮する必要がある。 本稿では,EMP(Effective Multidimensional Persistence)フレームワークを導入することでこの問題に対処する。 このフレームワークは、複数のスケールパラメータを同時に変更することで、データの探索を促進する。 このフレームワークは記述子関数を解析プロセスに統合し、高度に表現力のあるデータサマリーを生成する。 EMP Landscapes、Silhouettes、Image、Surfacesなど、確立した単一PHサマリーをシームレスに統合する。 これらの要約は、データの多次元的な側面を行列や配列として表現し、多様なMLモデルと効果的に一致させる。 EMPサマリーの理論的保証と安定性の証明を提供する。 グラフ分類タスクにおけるEMPの有用性を実証し,その有効性を示す。 その結果、EMPは、複数のベンチマークデータセットにおいて、最先端メソッドよりも優れた、様々な単一PHディスクリプタを向上することがわかった。

Topological data analysis (TDA) is gaining prominence across a wide spectrum of machine learning tasks that spans from manifold learning to graph classification. A pivotal technique within TDA is persistent homology (PH), which furnishes an exclusive topological imprint of data by tracing the evolution of latent structures as a scale parameter changes. Present PH tools are confined to analyzing data through a single filter parameter. However, many scenarios necessitate the consideration of multiple relevant parameters to attain finer insights into the data. We address this issue by introducing the Effective Multidimensional Persistence (EMP) framework. This framework empowers the exploration of data by simultaneously varying multiple scale parameters. The framework integrates descriptor functions into the analysis process, yielding a highly expressive data summary. It seamlessly integrates established single PH summaries into multidimensional counterparts like EMP Landscapes, Silhouettes, Images, and Surfaces. These summaries represent data's multidimensional aspects as matrices and arrays, aligning effectively with diverse ML models. We provide theoretical guarantees and stability proofs for EMP summaries. We demonstrate EMP's utility in graph classification tasks, showing its effectiveness. Results reveal that EMP enhances various single PH descriptors, outperforming cutting-edge methods on multiple benchmark datasets.
翻訳日:2024-01-26 16:46:36 公開日:2024-01-24
# 感情検出とタスク指向対話モデリングへの統一的アプローチ

A Unified Approach to Emotion Detection and Task-Oriented Dialogue Modeling ( http://arxiv.org/abs/2401.13789v1 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek(参考訳) 現在のテキストベースのタスク指向対話(TOD)システムでは、ユーザ感情検出(ED)はしばしば見過ごされるか、通常は独立したタスクとして扱われ、追加のトレーニングを必要とする。 対照的に、我々の研究は、EDとTODモデリングをシームレスに統一することは相互に利益をもたらし、従って考慮すべき代替手段であることを示す。 本手法は,単一言語モデルに頼って,信念状態追跡をEDを含むように拡張することで,エンドツーエンドTODシステムであるSimpleToDを拡張することからなる。 我々は感情を付加したMultiWOZのバージョンであるEmoWOZベンチマークにおいて,GPT-2とLlama-2を用いたアプローチを評価した。 本結果から,EDとタスク結果の総合的な性能向上が明らかとなった。 また,ユーザの感情がシステム応答に有用な文脈条件付けを提供し,共感の観点からさらなる応答の洗練に活用できることが示唆された。

In current text-based task-oriented dialogue (TOD) systems, user emotion detection (ED) is often overlooked or is typically treated as a separate and independent task, requiring additional training. In contrast, our work demonstrates that seamlessly unifying ED and TOD modeling brings about mutual benefits, and is therefore an alternative to be considered. Our method consists in augmenting SimpleToD, an end-to-end TOD system, by extending belief state tracking to include ED, relying on a single language model. We evaluate our approach using GPT-2 and Llama-2 on the EmoWOZ benchmark, a version of MultiWOZ annotated with emotions. Our results reveal a general increase in performance for ED and task results. Our findings also indicate that user emotions provide useful contextual conditioning for system responses, and can be leveraged to further refine responses in terms of empathy.
翻訳日:2024-01-26 16:40:06 公開日:2024-01-24
# FoVA-Depth: クロスデータセット一般化のための視野非依存深さ推定

FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset Generalization ( http://arxiv.org/abs/2401.13786v1 )

ライセンス: Link先を確認
Daniel Lichy, Hang Su, Abhishek Badki, Jan Kautz, Orazio Gallo(参考訳) 広視野視野カメラ(FoV)はシーンの大部分を効率よく捉え、自動車やロボティクスなどの複数の領域で魅力的になる。 このようなアプリケーションでは、複数の画像から深度を推定することが重要な課題であるため、大量の基底真理データ(GT)が利用可能である。 残念ながら、gtデータはピンホールカメラ用なので、大型カメラの深度推定モデルを適切に訓練することは不可能です。 本稿では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルをトレーニングし,より大規模なFoVで取得したデータに一般化する手法を提案する。 トレーニングデータを標準的かつ大規模なFoV表現にワープし、それを拡張して、1つのネットワークが一般化を阻止する様々な種類の歪みを推論できるようにします。 従来の手法では不可能であった屋内および屋外両方のデータセットに対するアプローチの強い一般化能力を示す。

Wide field-of-view (FoV) cameras efficiently capture large portions of the scene, which makes them attractive in multiple domains, such as automotive and robotics. For such applications, estimating depth from multiple images is a critical task, and therefore, a large amount of ground truth (GT) data is available. Unfortunately, most of the GT data is for pinhole cameras, making it impossible to properly train depth estimation models for large-FoV cameras. We propose the first method to train a stereo depth estimation model on the widely available pinhole data, and to generalize it to data captured with larger FoVs. Our intuition is simple: We warp the training data to a canonical, large-FoV representation and augment it to allow a single network to reason about diverse types of distortions that otherwise would prevent generalization. We show strong generalization ability of our approach on both indoor and outdoor datasets, which was not possible with previous methods.
翻訳日:2024-01-26 16:39:50 公開日:2024-01-24
# S2TPVFormer : 時間的コヒーレントな3次元セマンティック動作予測のための時空間三点視点

S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2401.13785v1 )

ライセンス: Link先を確認
Sathira Silva, Savindu Bhashitha Wannigama, Roshan Ragel, Gihan Jayatilaka(参考訳) 3Dシーンにおける全体的理解と推論は、自律運転システムの成功に重要な役割を果たす。 自律運転とロボット下流タスクの事前学習タスクとしての3dセマンティック占有予測の進化は、3d検出のような方法と比較してより詳細な3dディテールをキャプチャする。 既存のアプローチは主に空間的手がかりに焦点を当てており、しばしば時間的手がかりを見下ろしている。 クエリベースの手法は、3dシーン情報をエンコードするために計算集約的なvoxel表現に収束する傾向がある。 本研究では,TPVFormerの拡張であるS2TPVFormerを紹介した。 本研究では,3次元シーン知覚における時空間的手がかりの重要性,特に3次元意味的占有率予測の重要性を強調する。 トリオパースペクティブビュー(TPV)表現を活用することで、時空間エンコーダは時間的に豊かな埋め込みを生成し、計算効率を維持しながら予測コヒーレンスを向上させる。 そこで本研究では,TPVビュー間の効果的な時空間情報交換を容易にする,時間的クロスビューハイブリッドアテンション(TCVHA)機構を提案する。 nuscenesデータセットの実験的評価は、tpvformerと比較して、3d意味的占有に対する平均交叉率(miou)が3.1%向上していることを示し、提案するs2tpvformerが3dシーン知覚の強化に有効であることを確認した。

Holistic understanding and reasoning in 3D scenes play a vital role in the success of autonomous driving systems. The evolution of 3D semantic occupancy prediction as a pretraining task for autonomous driving and robotic downstream tasks captures finer 3D details compared to methods like 3D detection. Existing approaches predominantly focus on spatial cues, often overlooking temporal cues. Query-based methods tend to converge on computationally intensive Voxel representation for encoding 3D scene information. This study introduces S2TPVFormer, an extension of TPVFormer, utilizing a spatiotemporal transformer architecture for coherent 3D semantic occupancy prediction. Emphasizing the importance of spatiotemporal cues in 3D scene perception, particularly in 3D semantic occupancy prediction, our work explores the less-explored realm of temporal cues. Leveraging Tri-Perspective View (TPV) representation, our spatiotemporal encoder generates temporally rich embeddings, improving prediction coherence while maintaining computational efficiency. To achieve this, we propose a novel Temporal Cross-View Hybrid Attention (TCVHA) mechanism, facilitating effective spatiotemporal information exchange across TPV views. Experimental evaluations on the nuScenes dataset demonstrate a substantial 3.1% improvement in mean Intersection over Union (mIoU) for 3D Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the proposed S2TPVFormer in enhancing 3D scene perception.
翻訳日:2024-01-26 16:39:33 公開日:2024-01-24
# 引用へのツイート:ソーシャルメディアインフルエンサーがai研究の可視性に与える影響を明らかに

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility ( http://arxiv.org/abs/2401.13782v1 )

ライセンス: Link先を確認
Iain Xie Weissburg, Mehir Arora, Liangming Pan, William Yang Wang(参考訳) AIとMLカンファレンスの受理論文の数が数千にも達するにつれ、研究者が研究論文にアクセスして読む方法が明確になってきています。 本稿では,機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割,特に共有論文の引用数について検討する。 2018年12月から2023年10月までのツイートにまたがる8000以上の論文の包括的なデータセットと、出版年、会場、抽象トピックに基づく1:1のマッチングコントロールをまとめました。 分析の結果,これらのインフルエンサーが支持する論文の引用量は,対照群に比べて2~3倍に増加した。 さらに、この研究は、強調された著者の地理的、性別、制度的な多様性を掘り下げている。 これらの知見は、学術的コミュニケーションにおけるソーシャルメディアの影響拡大と、今日のデジタル学術的景観における進化的エコシステムの重要性を浮き彫りにしている。

As the number of accepted papers at AI and ML conferences reaches into the thousands, it has become unclear how researchers access and read research publications. In this paper, we investigate the role of social media influencers in enhancing the visibility of machine learning research, particularly the citation counts of papers they share. We have compiled a comprehensive dataset of over 8,000 papers, spanning tweets from December 2018 to October 2023, alongside 1:1 matched controls based on publication year, venue, and abstract topics. Our analysis reveals a significant increase in citations for papers endorsed by these influencers, with median citation counts 2-3 times higher than those of the control group. Additionally, the study delves into the geographic, gender, and institutional diversity of highlighted authors. These findings highlight the expanding influence of social media in scholarly communication and underscore the importance of an evolving ecosystem in today's digital academic landscape.
翻訳日:2024-01-26 16:39:06 公開日:2024-01-24
# 無線ネットワーク上での分散学習のための放送ベースのサブグラフサンプリング

Faster Convergence with Less Communication: Broadcast-Based Subgraph Sampling for Decentralized Learning over Wireless Networks ( http://arxiv.org/abs/2401.13779v1 )

ライセンス: Link先を確認
Daniel P\'erez Herrera, Zheng Chen, and Erik G. Larsson(参考訳) コンセンサスに基づく分散確率勾配勾配(D-SGD)は、ネットワークエージェント間での機械学習モデルの分散トレーニングに広く採用されているアルゴリズムである。 d-sgdの重要な部分はコンセンサスベースのモデル平均化であり、ノード間の情報交換と融合に大きく依存している。 具体的には、無線ネットワーク上でのコンセンサス平均化のために、ノードがいつ、どのようにチャンネルにアクセスできるかを判断し、隣人に情報を送信する(または受信する)ために通信調整が必要である。 本研究では,実通信コストを考慮したd-sgdの収束を促進すべく,放送ベースのサブグラフサンプリング手法である$\texttt{bass}$を提案する。 $\texttt{BASS}$は、基底トポロジーのスペーサー部分グラフを表す混合行列候補のセットを作成する。 各コンセンサスイテレーションでは、1つのミキシングマトリクスをサンプリングし、ノードの衝突のない複数のサブセットを活性化する特定のスケジューリング決定を行う。 サンプリングは確率的に行われ、混合行列の要素とサンプリング確率の要素は共同で最適化される。 シミュレーションの結果、$\texttt{bass}$は、既存のリンクベースのスケジューリング方法よりも少ない送信スロットでより高速な収束を可能にする。 結論として、無線チャネルの固有の放送特性は、分散最適化と学習の収束を加速する本質的な利点を提供する。

Consensus-based decentralized stochastic gradient descent (D-SGD) is a widely adopted algorithm for decentralized training of machine learning models across networked agents. A crucial part of D-SGD is the consensus-based model averaging, which heavily relies on information exchange and fusion among the nodes. Specifically, for consensus averaging over wireless networks, communication coordination is necessary to determine when and how a node can access the channel and transmit (or receive) information to (or from) its neighbors. In this work, we propose $\texttt{BASS}$, a broadcast-based subgraph sampling method designed to accelerate the convergence of D-SGD while considering the actual communication cost per iteration. $\texttt{BASS}$ creates a set of mixing matrix candidates that represent sparser subgraphs of the base topology. In each consensus iteration, one mixing matrix is sampled, leading to a specific scheduling decision that activates multiple collision-free subsets of nodes. The sampling occurs in a probabilistic manner, and the elements of the mixing matrices, along with their sampling probabilities, are jointly optimized. Simulation results demonstrate that $\texttt{BASS}$ enables faster convergence with fewer transmission slots compared to existing link-based scheduling methods. In conclusion, the inherent broadcasting nature of wireless channels offers intrinsic advantages in accelerating the convergence of decentralized optimization and learning.
翻訳日:2024-01-26 16:38:40 公開日:2024-01-24
# AlphaMapleSAT: MCTSベースのキューブ・アンド・コンカヤSATソルバ

AlphaMapleSAT: An MCTS-based Cube-and-Conquer SAT Solver for Hard Combinatorial Problems ( http://arxiv.org/abs/2401.13770v1 )

ライセンス: Link先を確認
Piyush Jha, Zhengyu Li, Zhengyang Lu, Curtis Bright, Vijay Ganesh(参考訳) 本稿では,新しいモンテカルロ木探索法(mcts)に基づくcnc sat解法であるalphamaplesatを提案する。 様々な難解な組合せ問題の解決においてCnCソルバが驚くほど成功したにもかかわらず、CnCの中心にあるルックアヘッドキューブ技術は長年にわたってあまり進化していない。 その理由のひとつは、入力式をサブ形式に分割する上で、低コストかつ効果的な、ランタイム全体の最小化といった、新たなキューイングテクニックを思いつくことの難しさにある。 現在の最先端のcncソルバであるmarchなどのルックアヘッドキューイング技術は、最適分割変数の探索を制約することによりキュービングコストを低く抑えている。 対照的に、私たちの重要なイノベーションは、推論駆動のmctsベースのルックアヘッドキューブ技術であり、キューブコストを低く保ちながら、効果的なキューブを見つけるためのより深いヒューリスティックな探索を行います。 我々は,最小kochen-specker 問題や ramsey 問題などの組合せ問題に挑戦する march cnc solver と alphamaplesat を広範囲に比較した。 また, カブリング問題に対するMCTSヒューリスティック検索の有効性を検証するためにアブレーション研究を行った。 結果は、並列で2.3倍のスピードアップ(シーケンシャルで最大27倍)がリアルタイムで経過する。

This paper introduces AlphaMapleSAT, a novel Monte Carlo Tree Search (MCTS) based Cube-and-Conquer (CnC) SAT solving method aimed at efficiently solving challenging combinatorial problems. Despite the tremendous success of CnC solvers in solving a variety of hard combinatorial problems, the lookahead cubing techniques at the heart of CnC have not evolved much for many years. Part of the reason is the sheer difficulty of coming up with new cubing techniques that are both low-cost and effective in partitioning input formulas into sub-formulas, such that the overall runtime is minimized. Lookahead cubing techniques used by current state-of-the-art CnC solvers, such as March, keep their cubing costs low by constraining the search for the optimal splitting variables. By contrast, our key innovation is a deductively-driven MCTS-based lookahead cubing technique, that performs a deeper heuristic search to find effective cubes, while keeping the cubing cost low. We perform an extensive comparison of AlphaMapleSAT against the March CnC solver on challenging combinatorial problems such as the minimum Kochen-Specker and Ramsey problems. We also perform ablation studies to verify the efficacy of the MCTS heuristic search for the cubing problem. Results show up to 2.3x speedup in parallel (and up to 27x in sequential) elapsed real time.
翻訳日:2024-01-26 16:37:58 公開日:2024-01-24
# Consensus Graphを用いたマルチビューグラフ学習

Multiview Graph Learning with Consensus Graph ( http://arxiv.org/abs/2401.13769v1 )

ライセンス: Link先を確認
Abdullah Karaaslanli, Selin Aviyente(参考訳) グラフトポロジー推論、すなわち与えられたノード観測の集合からグラフを学習することは、多くのアプリケーション領域において重要なタスクである。 既存のアプローチは、観測されたデータが均質であると仮定して単一のグラフを学習することに限られる。 現代のデータセットの多くは異種または混合であり、複数の関連グラフ、すなわちマルチビューグラフを含んでいるため、これは問題となる。 マルチビューグラフを学習するための最近の研究は、ペアワイズ正規化を通じて学習されたビューグラフの類似性を保証する。 しかし、このアプローチはビュー間の共有構造を推測することはできない。 そこで本研究では,ビューの共通構造を表す学習されたコンセンサスグラフを通じて,ビューが類似することを保証するコンセンサス正規化に基づく代替手法を提案する。 特に、多視点グラフ上で滑らかなグラフデータを仮定し、個々のビューのトポロジーとコンセンサスグラフのトポロジを同時に学習する最適化問題を提案する。 我々の最適化問題は、ビュー間の共有構造によって異なる正規化関数を使用できるという意味で、一般に設計されている。 さらに,融合とグループグラフィカルなラッソをコンセンサスに基づく正規化に拡張する2つの正規化関数を提案する。 提案したマルチビューグラフ学習はシミュレーションデータに基づいて評価され,既存手法よりも優れた性能を示した。 また、脳波記録(EEG)から複数の被験者の脳機能接続ネットワークを推定するためにも用いられる。 提案手法は,被験者が共有する構造と,各被験者固有の特徴を明らかにする。

Graph topology inference, i.e., learning graphs from a given set of nodal observations, is a significant task in many application domains. Existing approaches are mostly limited to learning a single graph assuming that the observed data is homogeneous. This is problematic because many modern datasets are heterogeneous or mixed and involve multiple related graphs, i.e., multiview graphs. Recent work proposing to learn multiview graphs ensures the similarity of learned view graphs through pairwise regularization, where each pair of views is encouraged to have similar structures. However, this approach cannot infer the shared structure across views. In this work, we propose an alternative method based on consensus regularization, where views are ensured to be similar through a learned consensus graph representing the common structure of the views. In particular, we propose an optimization problem, where graph data is assumed to be smooth over the multiview graph and the topology of the individual views and that of the consensus graph are learned, simultaneously. Our optimization problem is designed to be general in the sense that different regularization functions can be used depending on what the shared structure across views is. Moreover, we propose two regularization functions that extend fused and group graphical lasso to consensus based regularization. Proposed multiview graph learning is evaluated on simulated data and shown to have better performance than existing methods. It is also employed to infer the functional brain connectivity networks of multiple subjects from their electroencephalogram (EEG) recordings. The proposed method reveals the structure shared by subjects as well as the characteristics unique to each subject.
翻訳日:2024-01-26 16:37:16 公開日:2024-01-24
# ラグランジアン経路積分法による量子ビットへのアプローチ

A Lagrangian path integral approach to the qubit ( http://arxiv.org/abs/2401.13763v1 )

ライセンス: Link先を確認
A. Ibort, M. Jim\'enez-V\'azquez(参考訳) 量子力学のシュウィンガーの一般化に基づく量子ビットのラグランジュ的記述について,群型の概念を用いて述べる。 この形式論では、その確率振幅のファインマン的計算が行われる。 ラグランジアンは量子系を記述する群体上の関数として解釈される。 そのようなラグランジアンはその関連代数上の自己随伴元を決定する。 ファインマンの経路は、自身をグルーソイドを形成するグルーソイド上のヒストリーに置き換えられる。 全履歴の和を計算する簡単な方法について考察する。 この方法で得られるプロパゲーターのユニタリ性は、理論のラグランジアンに量子化条件を課す。 その具体例のいくつかは詳細に論じられている。

A Lagrangian description of the qubit based on a generalization of Schwinger's picture of Quantum Mechanics using the notion of groupoids is presented. In this formalism a Feynman-like computation of its probability amplitudes is done. The Lagrangian is interpreted as a function on the groupoid describing the quantum system. Such Lagrangian determines a self-adjoint element on its associated algebra. Feynman's paths are replaced by histories on the groupoid which form themselves a groupoid. A simple method to compute the sum over all histories is discussed. The unitarity of the propagator obtained in this way imposes quantization conditions on the Lagrangian of the theory. Some particular instances of them are discussed in detail.
翻訳日:2024-01-26 16:35:50 公開日:2024-01-24
# インストゥルメンタル変数モデルにおける仮定と境界

Assumptions and Bounds in the Instrumental Variable Model ( http://arxiv.org/abs/2401.13758v1 )

ライセンス: Link先を確認
Thomas S. Richardson and James M. Robins(参考訳) 本稿では,2次応答を持つインスツルメンタル変数(IV)モデルと2次応答を持つ2次処理の$Y$と2次処理の$X$に関する結果の証明を行うが,当初はRichardson & Robins (2014), "ACE Bounds; SEMS with Equilibrium Conditions", arXiv:1410.0470 で記述されていた$K$の値を取る機器$Z$で証明する。

In this note we give proofs for results relating to the Instrumental Variable (IV) model with binary response $Y$ and binary treatment $X$, but with an instrument $Z$ that takes $K$ states that were originally stated in Richardson & Robins (2014), "ACE Bounds; SEMS with Equilibrium Conditions," arXiv:1410.0470.
翻訳日:2024-01-26 16:35:40 公開日:2024-01-24
# NLICE: 効果的なプライマリヘルスケア鑑別診断のための合成医療記録生成

NLICE: Synthetic Medical Record Generation for Effective Primary Healthcare Differential Diagnosis ( http://arxiv.org/abs/2401.13756v1 )

ライセンス: Link先を確認
Zaid Al-Ars, Obinna Agba, Zhuoran Guo, Christiaan Boerkamp, Ziyaad Jaber, Tareq Jaber(参考訳) 本稿では,医学的知識を基盤とした患者記録を作成するための系統的手法を提案する。 また、所定の症状に基づいて様々な条件を区別できる機械学習モデルの評価も提供する。 我々は、Syntheaと組み合わせて患者記録を構築するために、SymCatと呼ばれる公的疾患症状データソースを使用する。 合成データの表現性を高めるため,NLICEと呼ばれる医学標準化された症状モデリング手法を用いて,各条件の文脈情報を追加して合成データを増強する。 また, 合成データを用いて, ナイーブベイとランダム森林モデルを評価し, 比較した。 本稿は,SymCatベースのデータセットとNLICEベースのデータセットをうまく構築する方法を示す。 また,予測疾患モデルのトレーニングにデータセットを用いた場合の有効性を示す。 SymCatをベースとしたデータセットは、それぞれ58.8%と57.1%のTop-1スコアを得られるネイブベイズとランダムフォレストモデルを訓練することができる。 対照的に、nliceベースのデータセットは結果を改善し、top-1の精度が82.0%、top-5の精度が90%以上である。 提案するデータ生成アプローチは、医療分野における人工知能手法の適用に対する大きな障壁を解決します。 我々の新しいNLICE症状モデリングアプローチは、現在のバイナリ症状表現アプローチにおける不完全かつ不十分な情報問題に対処する。 NLICEコードはhttps://github.com/guozhuoran918/NLICEで公開されている。

This paper offers a systematic method for creating medical knowledge-grounded patient records for use in activities involving differential diagnosis. Additionally, an assessment of machine learning models that can differentiate between various conditions based on given symptoms is also provided. We use a public disease-symptom data source called SymCat in combination with Synthea to construct the patients records. In order to increase the expressive nature of the synthetic data, we use a medically-standardized symptom modeling method called NLICE to augment the synthetic data with additional contextual information for each condition. In addition, Naive Bayes and Random Forest models are evaluated and compared on the synthetic data. The paper shows how to successfully construct SymCat-based and NLICE-based datasets. We also show results for the effectiveness of using the datasets to train predictive disease models. The SymCat-based dataset is able to train a Naive Bayes and Random Forest model yielding a 58.8% and 57.1% Top-1 accuracy score, respectively. In contrast, the NLICE-based dataset improves the results, with a Top-1 accuracy of 82.0% and Top-5 accuracy values of more than 90% for both models. Our proposed data generation approach solves a major barrier to the application of artificial intelligence methods in the healthcare domain. Our novel NLICE symptom modeling approach addresses the incomplete and insufficient information problem in the current binary symptom representation approach. The NLICE code is open sourced at https://github.com/guozhuoran918/NLICE.
翻訳日:2024-01-26 16:35:01 公開日:2024-01-24
# 画像分類器の解説

Explaining Image Classifiers ( http://arxiv.org/abs/2401.13752v1 )

ライセンス: Link先を確認
Hana Chockler and Joseph Y. Halpern(参考訳) 画像分類器の説明や、mothilalらの研究に焦点を当てている。 出発点として[2021](MMTS)が挙げられます。 我々は,MMTS が Halpern [2016] によって提案された説明の定義を用いていると主張するが,そうはなっていないことを観察する。 おおまかに言えば、ハルパーンの定義には必要条件と十分条件がある。 MMTSは必要条件を、私たちが示すように、それが意味する要件によって置き換えます。 halpernの定義では、エージェントは考慮されたオプションセットを制限することもできる。 これらの違いは、私たちが示すように小さなように見えるかもしれないが、説明に非自明な影響を与えうる。 また,Halpernの定義は,腫瘍の像分類器が「腫瘍を出力しない」ことや,まれな事象(腫瘍など)の説明という,他のアプローチでは難しい2つの問題に対処できることを示す。

We focus on explaining image classifiers, taking the work of Mothilal et al. [2021] (MMTS) as our point of departure. We observe that, although MMTS claim to be using the definition of explanation proposed by Halpern [2016], they do not quite do so. Roughly speaking, Halpern's definition has a necessity clause and a sufficiency clause. MMTS replace the necessity clause by a requirement that, as we show, implies it. Halpern's definition also allows agents to restrict the set of options considered. While these difference may seem minor, as we show, they can have a nontrivial impact on explanations. We also show that, essentially without change, Halpern's definition can handle two issues that have proved difficult for other approaches: explanations of absence (when, for example, an image classifier for tumors outputs "no tumor") and explanations of rare events (such as tumors).
翻訳日:2024-01-26 16:34:39 公開日:2024-01-24
# 深部畳み込みニューラルネットワークのロバスト性モデリングへの体系的アプローチ

A Systematic Approach to Robustness Modelling for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2401.13751v1 )

ライセンス: Link先を確認
Charles Meyers, Mohammad Reza Saleh Sedghpour, Tommy L\"ofstedt, Erik Elmroth(参考訳) 畳み込みニューラルネットワークは、大量のラベル付きデータがある場合、多くのフィールドに広く適用可能であることが示されている。 最近のトレンドは、より大きく調整可能なパラメータセットを持つモデルを使用して、モデルの精度を高めたり、モデル損失を減らしたり、より敵対的に頑健なモデルを作成したりしている。 特に、最近の理論的研究は、より大きなモデルが制御された列車やテストセット外のデータに一般化する能力について疑問を投げかける。 そこで我々は,MNIST, CIFAR10, CIFAR100データセット上で実証されたResNetモデルにおける隠蔽層数の役割について検討した。 モデルのサイズ、浮動小数点精度、トレーニングデータとモデル出力の両方のノイズレベルなど、さまざまなパラメータをテストする。 モデルの予測能力と計算コストをカプセル化するために、誘導故障を利用して障害の確率を時間関数としてモデル化し、モデルのトレーニングコストがそれを攻撃するコストを上回るか否かを迅速に判断できる新しいメトリクスと関連づける手法を提供する。 このアプローチを用いることで、より大規模なベンチマークデータセットではなく、少数の特殊なサンプルを使用して、予想される失敗率を近似することができる。 8ビット、16ビット、32ビット、64ビットの浮動小数点数、様々なデータプリプロセッシング技術、resnetモデルの5つの構成に対するいくつかの攻撃を用いて、mnistとcifar10の両方でこの手法の有効性を実証する。 そして,実験的な測定値を用いて,コスト,ロバスト性,レイテンシ,信頼性の相違点を検討した。

Convolutional neural networks have shown to be widely applicable to a large number of fields when large amounts of labelled data are available. The recent trend has been to use models with increasingly larger sets of tunable parameters to increase model accuracy, reduce model loss, or create more adversarially robust models -- goals that are often at odds with one another. In particular, recent theoretical work raises questions about the ability for even larger models to generalize to data outside of the controlled train and test sets. As such, we examine the role of the number of hidden layers in the ResNet model, demonstrated on the MNIST, CIFAR10, CIFAR100 datasets. We test a variety of parameters including the size of the model, the floating point precision, and the noise level of both the training data and the model output. To encapsulate the model's predictive power and computational cost, we provide a method that uses induced failures to model the probability of failure as a function of time and relate that to a novel metric that allows us to quickly determine whether or not the cost of training a model outweighs the cost of attacking it. Using this approach, we are able to approximate the expected failure rate using a small number of specially crafted samples rather than increasingly larger benchmark datasets. We demonstrate the efficacy of this technique on both the MNIST and CIFAR10 datasets using 8-, 16-, 32-, and 64-bit floating-point numbers, various data pre-processing techniques, and several attacks on five configurations of the ResNet model. Then, using empirical measurements, we examine the various trade-offs between cost, robustness, latency, and reliability to find that larger models do not significantly aid in adversarial robustness despite costing significantly more to train.
翻訳日:2024-01-26 16:34:26 公開日:2024-01-24
# 連続可変量子鍵分布における情報再構成のためのログ領域Sum-Productアルゴリズム

Log-Log Domain Sum-Product Algorithm for Information Reconciliation in Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2401.13748v1 )

ライセンス: Link先を確認
Erdem Eray Cil and Laurent Schmalen(参考訳) 本稿では、連続可変量子鍵分布(CV-QKD)システムにおいて、低密度パリティチェック(LDPC)符号を復号するための新しいログ領域和積アルゴリズム(SPA)を提案する。 このアルゴリズムはデコーダメッセージのビット幅を小さくし、メモリフットプリントを小さくし、ハードウェア実装におけるリソース消費を小さくする。 また,不動点演算の実用的知見を提供し,性能と複雑性の観点から従来のspaと比較した。 その結果,本アルゴリズムは従来のspaと同等かそれ以上の復号精度を達成でき,ビット幅の少なくとも$25\%を節約できることがわかった。

In this paper, we present a novel log-log domain sum-product algorithm (SPA) for decoding low-density parity-check (LDPC) codes in continuous-variable quantum key distribution (CV-QKD) systems. This algorithm reduces the fractional bit width of decoder messages, leading to a smaller memory footprint and a lower resource consumption in hardware implementation. We also provide practical insights for fixed-point arithmetic and compare our algorithm with the conventional SPA in terms of performance and complexity. Our results show that our algorithm achieves comparable or better decoding accuracy than the conventional SPA while saving at least $25\%$ of the fractional bit width.
翻訳日:2024-01-26 16:33:54 公開日:2024-01-24
# 人間の意思決定を改善するコンフォーマル予測セット

Conformal Prediction Sets Improve Human Decision Making ( http://arxiv.org/abs/2401.13744v1 )

ライセンス: Link先を確認
Jesse C. Cresswell, Yi Sui, Bhargava Kumar, No\"el Vouitsis(参考訳) 日常的なクエリに応答して、人間は明確に不確実性を信号し、不確実であるときに代替の回答を提供する。 共形予測を通じて校正された予測セットを出力する機械学習モデルは、この人間の行動を模倣している。 本研究では,共形予測セットを用いた事前登録ランダム化制御試験を行うことにより,人間による意思決定を支援するために,共形予測セットの有用性について検討する。 統計的に有意な点から、人間に共形予測を与えると、その精度は、同じカバレッジを保証する固定サイズ予測セットよりも向上する。 その結果,共形予測によるモデル不確かさの定量化は,ループ内意思決定やヒューマンaiチームにとって有用であることがわかった。

In response to everyday queries, humans explicitly signal uncertainty and offer alternative answers when they are unsure. Machine learning models that output calibrated prediction sets through conformal prediction mimic this human behaviour; larger sets signal greater uncertainty while providing alternatives. In this work, we study the usefulness of conformal prediction sets as an aid for human decision making by conducting a pre-registered randomized controlled trial with conformal prediction sets provided to human subjects. With statistical significance, we find that when humans are given conformal prediction sets their accuracy on tasks improves compared to fixed-size prediction sets with the same coverage guarantee. The results show that quantifying model uncertainty with conformal prediction is helpful for human-in-the-loop decision making and human-AI teams.
翻訳日:2024-01-26 16:33:40 公開日:2024-01-24
# デルタ関数障壁を持つ無限平方井に対するグロス・ピタエフスキー方程式

The Gross-Pitaevskii equation for a infinite square-well with a delta-function barrier ( http://arxiv.org/abs/2401.13833v1 )

ライセンス: Link先を確認
Robert J. Ragan, Asaad R. Sakhel, and William J. Mullin(参考訳) gross-pitaevskii方程式は、無限の平方井戸と$\delta$-関数中心障壁である外部二重ウェルポテンシャルの解析法によって解かれる。 非相互作用ハミルトニアンの対称性を持つ解や、魅力的な相互作用のための対称解と反発的相互作用のための反対称解から分岐する非対称解を見つける。 非対称状態に対する変分近似と近似的な数値的アプローチを提案する。 州の安定性は概ね考慮されている。

The Gross-Pitaevskii equation is solved by analytic methods for an external double-well potential that is an infinite square well plus a $\delta$-function central barrier. We find solutions that have the symmetry of the non-interacting Hamiltonian as well as asymmetric solutions that bifurcate from the symmetric solutions for attractive interactions and from the antisymmetric solutions for repulsive interactions. We present a variational approximation to the asymmetric state as well as an approximate numerical approach. Stability of the states is briefly considered.
翻訳日:2024-01-26 16:26:16 公開日:2024-01-24
# アルゴリズムでキュレートされた嘘: 検索エンジンがウクライナの米国のバイオラボの誤情報を扱う方法

Algorithmically Curated Lies: How Search Engines Handle Misinformation about US Biolabs in Ukraine ( http://arxiv.org/abs/2401.13832v1 )

ライセンス: Link先を確認
Elizaveta Kuznetsova, Mykola Makhortykh, Maryna Sydorova, Aleksandra Urman, Ilaria Vitulano, Martha Stolze(参考訳) オンラインコンテンツの増加は、情報キュレーションのアルゴリズムシステムを採用する必要性を喚起する。 これらのシステムは、Web検索エンジンからレコメンデーションシステムまで多岐にわたっており、ユーザーが重要な社会的発展を知らせるのに役立つ。 しかし、ジャーナリストによる編集とは異なり、アルゴリズム情報キュレーションシステム(AICS)は様々な種類の不正な操作を受けており、操作に脆弱である。 操作のリスクは、AICSが権威主義政権のプロパガンダキャンペーンを支えている誤った主張に関する情報を扱う必要がある場合に特に顕著である。 ウクライナにおける米国バイオラボに関するロシアの偽情報キャンペーンのケーススタディとして、最もよく使われているAICSの1つ、すなわちWeb検索エンジンが誤情報関連コンテンツをキュレートする方法について検討する。 この目的のために、2022年6月にGoogle、Bing、Yandex検索出力の仮想エージェントベースのアルゴリズム監査を行う。 この結果から,検索エンジンのトラブル性能が明らかになった。 Googleのような一部の検索エンジンは、すべての言語や場所の誤報結果を返す可能性が低いが、3つの検索エンジンはいまだに相当量の偽コンテンツ(Googleでは33%、Bingでは44%、Yandexでは70%)を言及または宣伝している。 また、検索の言語に基づく誤情報暴露では、すべての検索エンジンがロシア語で偽ニュースを多く提示するなど、大きな相違が見られる。 位置情報だけでなく、ドイツのユーザーが偽情報を宣伝する検索結果に晒される可能性も高い。 これらの観察は、AICSが操作に脆弱である可能性、特に展開するプロパガンダキャンペーンにおいて強調し、それを防ぐためのシステムの監視性能の重要性を強調している。

The growing volume of online content prompts the need for adopting algorithmic systems of information curation. These systems range from web search engines to recommender systems and are integral for helping users stay informed about important societal developments. However, unlike journalistic editing the algorithmic information curation systems (AICSs) are known to be subject to different forms of malperformance which make them vulnerable to possible manipulation. The risk of manipulation is particularly prominent in the case when AICSs have to deal with information about false claims that underpin propaganda campaigns of authoritarian regimes. Using as a case study of the Russian disinformation campaign concerning the US biolabs in Ukraine, we investigate how one of the most commonly used forms of AICSs - i.e. web search engines - curate misinformation-related content. For this aim, we conduct virtual agent-based algorithm audits of Google, Bing, and Yandex search outputs in June 2022. Our findings highlight the troubling performance of search engines. Even though some search engines, like Google, were less likely to return misinformation results, across all languages and locations, the three search engines still mentioned or promoted a considerable share of false content (33% on Google; 44% on Bing, and 70% on Yandex). We also find significant disparities in misinformation exposure based on the language of search, with all search engines presenting a higher number of false stories in Russian. Location matters as well with users from Germany being more likely to be exposed to search results promoting false information. These observations stress the possibility of AICSs being vulnerable to manipulation, in particular in the case of the unfolding propaganda campaigns, and underline the importance of monitoring performance of these systems to prevent it.
翻訳日:2024-01-26 16:26:07 公開日:2024-01-24
# 量子カオスシステムのための一般化自由キューマント

Generalized Free Cumulants for Quantum Chaotic Systems ( http://arxiv.org/abs/2401.13829v1 )

ライセンス: Link先を確認
Siddharth Jindal and Pavan Hosur(参考訳) 固有状態熱化仮説(英: eigenstate thermalization hypothesis、eth)は、一般孤立量子系における統計力学の出現の主要な予想であり、作用素の行列要素を用いて定式化される。 エルゴード二分法(EB)として知られる類似物は絡み合いと局所性を記述し、固有状態の成分の項で定式化されている。 本稿では,EBを著しく一般化し,ETHと統一し,EBを拡張して高い相関関係と平衡状態からシステムを研究する。 我々の主な結果は、ETHと自由確率理論の間の最近発見された関係に基づいて固有状態と作用素の間の任意の相関を計算する図式形式である。 我々は、ダイアグラムの連結成分を一般化された自由積数と呼ぶ。 我々は形式主義をいくつかの方法で適用する。 まず、カオス固有状態に着目し、構築の結果として、いわゆるサブシステムETHとページ曲線を確立する。 また, 熱還元密度行列の既知計算を改善し, 蒸発するブラックホールのページ曲線の計算において, エンタングルメントエントロピーへのレプリカアプローチの本質的に自由な確率的側面についてコメントする。 次に、カオス量子力学に目を向け、ETHを一般的に熱化の十分なメカニズムとして示す。 特に, 密度行列の減少は平衡に緩和され, システムは後期のページ曲線に従うことを示した。 また, エンタングルメントの拡散を規定するエンタングルメント速度が, EBの高相関にエンコードされていることを示す。 最後に,固有状態と演算子のカオス構造を合わせて検討し,それらの相関関係について検討した。 これらの相関は、相互作用する量子系のよく知られた力学特性である蝶の速度を符号化する。

The eigenstate thermalization hypothesis (ETH) is the leading conjecture for the emergence of statistical mechanics in generic isolated quantum systems and is formulated in terms of the matrix elements of operators. An analog known as the ergodic bipartition (EB) describes entanglement and locality and is formulated in terms of the components of eigenstates. In this paper, we significantly generalize the EB and unify it with the ETH, extending the EB to study higher correlations and systems out of equilibrium. Our main result is a diagrammatic formalism that computes arbitrary correlations between eigenstates and operators based on a recently uncovered connection between the ETH and free probability theory. We refer to the connected components of our diagrams as generalized free cumulants. We apply our formalism in several ways. First, we focus on chaotic eigenstates and establish the so-called subsystem ETH and the Page curve as consequences of our construction. We also improve known calculations for thermal reduced density matrices and comment on an inherently free probabilistic aspect of the replica approach to entanglement entropy previously noticed in a calculation for the Page curve of an evaporating black hole. Next, we turn to chaotic quantum dynamics and demonstrate the ETH as a sufficient mechanism for thermalization, in general. In particular, we show that reduced density matrices relax to their equilibrium form and that systems obey the Page curve at late times. We also demonstrate that entanglement velocities, which govern the spreading of entanglement, are encoded in higher correlations of the EB. Lastly, we examine the chaotic structure of eigenstates and operators together and reveal previously overlooked correlations between them. Crucially, these correlations encode butterfly velocities, a well-known dynamical property of interacting quantum systems.
翻訳日:2024-01-26 16:25:37 公開日:2024-01-24
# マルコフ型IoTモデルにおけるデータアップリンクのためのトラフィック学習とアクティブUAV軌道計画

Traffic Learning and Proactive UAV Trajectory Planning for Data Uplink in Markovian IoT Models ( http://arxiv.org/abs/2401.13827v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Mohammad Shehab and Hirley Alves(参考訳) 情報年齢(AoI)は、データの鮮度を測定するために用いられる。 IoTネットワークでは、従来のリソース管理スキームは通信前のデバイスと基地局(BS)間のメッセージ交換に依存しており、高いAoI、高エネルギー消費、低信頼性の原因となっている。 無人航空機(UAV)はAoIの最小化、省エネルギー、スループットの向上に多くの利点がある。 本稿では,マルコフイベントに基づくIoTデバイスのトラフィック到着を推定する,新しい学習ベースのフレームワークを提案する。 学習は、複数のuavとそのスケジューリングポリシーの軌道を最適化する。 まず、BSはデバイスの将来的なトラフィックを予測する。 本稿では,フォワードアルゴリズム(FA)と長短期メモリ(LSTM)の2つのトラヒック予測器を比較した。 その後、各UAVの最適方針を最適化するための深層強化学習(DRL)手法を提案する。 最後に,提案したDRL手法に対して最適報酬関数を演算する。 シミュレーションの結果,提案アルゴリズムはAoI,スケジューリング精度,送信電力に関するランダムウォーク(RW)ベースラインモデルよりも優れていた。

The age of information (AoI) is used to measure the freshness of the data. In IoT networks, the traditional resource management schemes rely on a message exchange between the devices and the base station (BS) before communication which causes high AoI, high energy consumption, and low reliability. Unmanned aerial vehicles (UAVs) as flying BSs have many advantages in minimizing the AoI, energy-saving, and throughput improvement. In this paper, we present a novel learning-based framework that estimates the traffic arrival of IoT devices based on Markovian events. The learning proceeds to optimize the trajectory of multiple UAVs and their scheduling policy. First, the BS predicts the future traffic of the devices. We compare two traffic predictors: the forward algorithm (FA) and the long short-term memory (LSTM). Afterward, we propose a deep reinforcement learning (DRL) approach to optimize the optimal policy of each UAV. Finally, we manipulate the optimum reward function for the proposed DRL approach. Simulation results show that the proposed algorithm outperforms the random-walk (RW) baseline model regarding the AoI, scheduling accuracy, and transmission power.
翻訳日:2024-01-26 16:25:09 公開日:2024-01-24
# AIでデータセットドキュメンテーションをナビゲートする - ハッギングフェイス上のデータセットカードの大規模分析

Navigating Dataset Documentations in AI: A Large-Scale Analysis of Dataset Cards on Hugging Face ( http://arxiv.org/abs/2401.13822v1 )

ライセンス: Link先を確認
Xinyu Yang, Weixin Liang, James Zou(参考訳) 機械学習の進歩はデータセットの作成と密接に結びついている。 データドキュメンテーションは、MLの信頼性、再現性、透明性に不可欠なものとして広く認識されていますが、現在のデータセットドキュメンテーションプラクティスに関する体系的な理解は欠如しています。 ここでは、注目すべきケーススタディとして、MLモデルとデータセットを共有し、コラボレーションするための最大のプラットフォームであるHugging Faceを取り上げます。 ハグ面に関する7,433件のデータセットのドキュメントを分析した結果,ハグ面データセットのエコシステムの概要と,データセットのドキュメント実践に関する洞察が得られた。 2)データセットカード内の各セクションの精査では,データ記述とデータセット構造を優先する傾向がみられ,データセクションの使用に関する考察は,コンテンツの割合が低いことが判明した。 3)各セクションのセクションを分析し,トピックモデリングを用いて重要トピックを特定することにより,各セクションで議論されているものを明らかにするとともに,技術的および社会的影響を包含する重要なテーマと,データセクションの使用に関する考慮事項の制限を概説する。 (4)本研究は,利用区間におけるデータセットのアクセシビリティと再現性の向上の必要性を浮き彫りにする。 さらに,人間のアノテーション評価は,データセットの全体的な品質に対する個人の認識を形作る上で,包括的データセットコンテンツの重要性を強調した。 全体として、我々の研究は、大規模なデータサイエンス分析を通じてデータセットのドキュメントを分析し、機械学習研究におけるより詳細なデータセットのドキュメントの必要性を浮き彫りにしている。

Advances in machine learning are closely tied to the creation of datasets. While data documentation is widely recognized as essential to the reliability, reproducibility, and transparency of ML, we lack a systematic empirical understanding of current dataset documentation practices. To shed light on this question, here we take Hugging Face -- one of the largest platforms for sharing and collaborating on ML models and datasets -- as a prominent case study. By analyzing all 7,433 dataset documentation on Hugging Face, our investigation provides an overview of the Hugging Face dataset ecosystem and insights into dataset documentation practices, yielding 5 main findings: (1) The dataset card completion rate shows marked heterogeneity correlated with dataset popularity. (2) A granular examination of each section within the dataset card reveals that the practitioners seem to prioritize Dataset Description and Dataset Structure sections, while the Considerations for Using the Data section receives the lowest proportion of content. (3) By analyzing the subsections within each section and utilizing topic modeling to identify key topics, we uncover what is discussed in each section, and underscore significant themes encompassing both technical and social impacts, as well as limitations within the Considerations for Using the Data section. (4) Our findings also highlight the need for improved accessibility and reproducibility of datasets in the Usage sections. (5) In addition, our human annotation evaluation emphasizes the pivotal role of comprehensive dataset content in shaping individuals' perceptions of a dataset card's overall quality. Overall, our study offers a unique perspective on analyzing dataset documentation through large-scale data science analysis and underlines the need for more thorough dataset documentation in machine learning research.
翻訳日:2024-01-26 16:24:52 公開日:2024-01-24
# gpt-4を用いたコンテキスト内学習によるクラウドインシデントの自動ルート生成

Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4 ( http://arxiv.org/abs/2401.13810v1 )

ライセンス: Link先を確認
Xuchao Zhang, Supriyo Ghosh, Chetan Bansal, Rujia Wang, Minghua Ma, Yu Kang, Saravan Rajmohan(参考訳) ルート原因分析(RCA)は、クラウドサービスのインシデント診断プロセスにおいて重要な役割を果たす。 インシデントRCAプロセスの改善は、サービスのダウンタイム、顧客のインパクト、手動の爪を最小限にするために不可欠です。 人工知能の最近の進歩は、コードオーサリングからインシデント管理まで、さまざまなAIOps問題に取り組むのに有効な、GPT-4のような最先端のLarge Language Model(LLM)を導入している。 にもかかわらず、GPT-4モデルの巨大なサイズは、GPUリソースの大幅な需要と、新しいデータの出現に伴う継続的モデルの微調整の必要性のために、ユーザデータにそれを微調整しようとする際の課題を示す。 llmの微調整コストの高騰に対処するために, 自動根生成のためのインコンテキスト学習手法を提案し, 微調整の必要性をなくす。 我々は10万件のプロダクションインシデントについて広範な調査を行い、複数のメトリクスを用いた大規模言語モデルを比較した。 その結果、私たちのコンテキスト内学習アプローチは、以前の微調整されたgpt-3のような大規模言語モデルよりも、すべてのメトリクスで平均24.8\%向上し、ゼロショットモデルよりも49.7\%向上していることがわかった。 さらに、実際のインシデントオーナによる人的評価は、微調整モデルよりも優れ、正確性は43.5\%向上し、可読性は8.7\%向上した。 印象的な結果は、RCAタスクにバニラGPTモデルを用いることで、微調整モデルに付随する高い計算・保守コストを回避することができることを示す。

Root Cause Analysis (RCA) plays a pivotal role in the incident diagnosis process for cloud services, requiring on-call engineers to identify the primary issues and implement corrective actions to prevent future recurrences. Improving the incident RCA process is vital for minimizing service downtime, customer impact and manual toil. Recent advances in artificial intelligence have introduced state-of-the-art Large Language Models (LLMs) like GPT-4, which have proven effective in tackling various AIOps problems, ranging from code authoring to incident management. Nonetheless, the GPT-4 model's immense size presents challenges when trying to fine-tune it on user data because of the significant GPU resource demand and the necessity for continuous model fine-tuning with the emergence of new data. To address the high cost of fine-tuning LLM, we propose an in-context learning approach for automated root causing, which eliminates the need for fine-tuning. We conduct extensive study over 100,000 production incidents, comparing several large language models using multiple metrics. The results reveal that our in-context learning approach outperforms the previous fine-tuned large language models such as GPT-3 by an average of 24.8\% across all metrics, with an impressive 49.7\% improvement over the zero-shot model. Moreover, human evaluation involving actual incident owners demonstrates its superiority over the fine-tuned model, achieving a 43.5\% improvement in correctness and an 8.7\% enhancement in readability. The impressive results demonstrate the viability of utilizing a vanilla GPT model for the RCA task, thereby avoiding the high computational and maintenance costs associated with a fine-tuned model.
翻訳日:2024-01-26 16:24:22 公開日:2024-01-24
# 完全二元行列分解に基づく1次元制御による2次元量子ビットアレイの奥行き最適アドレス

Depth-Optimal Addressing of 2D Qubit Array with 1D Controls Based on Exact Binary Matrix Factorization ( http://arxiv.org/abs/2401.13807v1 )

ライセンス: Link先を確認
Daniel Bochen Tan and Shuohao Ping and Jason Cong(参考訳) 制御複雑性の低減は、大規模量子コンピューティング、特に低温環境で動作するプラットフォームの実現に不可欠である。 各キュービットを室温制御に繋ぐことは、このアプローチが予見可能な将来における熱予算を上回るため、課題となる。 制御ノブの削減は、各キュービットに対して独立的に対処できる能力を損なう。 近年の中性原子系プラットフォームの進歩は、2次元量子ビットアレイの制御粒度と柔軟性のバランスをとることが示唆されている。 このスキームは、行と列の集合の交点上のキュービットに毎回対処することを可能にする。 二次的に制御を減らすが、より深みを必要とする可能性がある。 深さ最適長方形アドレッシング問題を、通信複雑性や組合せ最適化にも現れるNPハード問題である、正確な二進行列分解として定式化する。 この問題に対して, 満足度変調理論に基づく解法と, 様々なベンチマークにおいて最適解法に近いヒューリスティックな行パッキングを導入する。 さらに, フォールトトレラント量子コンピューティングの文脈における長方形のアドレッシングについて論じ, 自然な2段階構造を生かした。

Reducing control complexity is essential for achieving large-scale quantum computing, particularly on platforms operating in cryogenic environments. Wiring each qubit to a room-temperature control poses a challenge, as this approach would surpass the thermal budget in the foreseeable future. An essential tradeoff becomes evident: reducing control knobs compromises the ability to independently address each qubit. Recent progress in neutral atom-based platforms suggests that rectangular addressing may strike a balance between control granularity and flexibility for 2D qubit arrays. This scheme allows addressing qubits on the intersections of a set of rows and columns each time. While quadratically reducing controls, it may necessitate more depth. We formulate the depth-optimal rectangular addressing problem as exact binary matrix factorization, an NP-hard problem also appearing in communication complexity and combinatorial optimization. We introduce a satisfiability modulo theories-based solver for this problem, and a heuristic, row packing, performing close to the optimal solver on various benchmarks. Furthermore, we discuss rectangular addressing in the context of fault-tolerant quantum computing, leveraging a natural two-level structure.
翻訳日:2024-01-26 16:23:49 公開日:2024-01-24
# 幼児のストーリーテリングと読書活動を支援する子ども中心型AIの必要性を探る

Exploring Parent's Needs for Children-Centered AI to Support Preschoolers' Storytelling and Reading Activities ( http://arxiv.org/abs/2401.13804v1 )

ライセンス: Link先を確認
Yuling Sun, Jiali Liu, Bingsheng Yao, Jiaju Chen, Dakuo Wang, Xiaojuan Ma, Yuxuan Lu, Ying Xu, Liang He(参考訳) 対話型ストーリーテリングは幼児期発達に不可欠である。 子供の対話的パートナーは伝統的に両親や教師であったが、人工知能(AI)の最近の進歩は、AIベースのストーリーテリング技術の急増を引き起こしている。 これらの技術が就学前の生活でますます普及するにつれて、実際のストーリーテリングシナリオにおける機能や、特に親、最も重要な利害関係者、経験と認識に関する疑問が生まれている。 本稿では,3~6歳児の親17名を対象に質的研究を行った。 以上より,aiベースのストーリーテリング技術は,より没入的かつ魅力的なインタラクションを提供するが,対話的,機能的,アルゴリズム的な課題が連なるため,親の期待に応えることができないことが示唆された。 これらの課題について詳しく検討し、幼児向けAIベースのストーリーテリング技術の可能性について論じる。 私たちは、将来のAIベースのストーリーテリング技術におけるデザインの意味を強調して結論付けます。

Interactive storytelling is vital for preschooler development. While children's interactive partners have traditionally been their parents and teachers, recent advances in artificial intelligence (AI) have sparked a surge of AI-based storytelling technologies. As these technologies become increasingly ubiquitous in preschoolers' lives, questions arise regarding how they function in practical storytelling scenarios and, in particular, how parents, the most critical stakeholders, experience and perceive these technologies. This paper investigates these questions through a qualitative study with 17 parents of children aged 3-6. Our findings suggest that even though AI-based storytelling technologies provide more immersive and engaging interaction, they still cannot meet parents' expectations due to a series of interactive, functional, and algorithmic challenges. We elaborate on these challenges and discuss the possible implications of future AI-based storytelling technologies for preschoolers. We conclude by highlighting the design implications for future AI-based storytelling technologies.
翻訳日:2024-01-26 16:23:29 公開日:2024-01-24
# コードクローン検出における大規模言語モデルの有効性の検討

Investigating the Efficacy of Large Language Models for Code Clone Detection ( http://arxiv.org/abs/2401.13802v1 )

ライセンス: Link先を確認
Mohamad Khajezade, Jie Wu, Fatemeh Hendijani Fard, Gema Rodr\'iguez-P\'erez, Mohamed Sami Shehata(参考訳) 大規模言語モデル(LLM)は、コード生成など様々な自然言語処理やソフトウェア工学タスクにおいて顕著な成功を収めている。 llmは主にプロンプトベースのzero/few-shotパラダイムで使われ、タスクの達成をモデルに導く。 %\textbf{Goal:} GPTベースのモデルは、コードコメント生成やテスト生成といったタスクで研究される一般的なモデルのひとつです。 これらのタスクは‘生成’タスクです。 しかし、プロンプトベースパラダイムを用いた分類のような「非生成的」なタスクにおけるLLMの使用に関する限定的な研究がある。 本研究では,非生成タスクであるコードクローン検出(ccd)におけるllmの適用性について検討した。 %\textbf{Method:} CodeNetから派生した単言語および多言語CCDデータセットを構築することにより、まずChatGPTを使用してJava-JavaとJava-Rubyのペアのコードクローンをゼロショットで検出する2つの異なるプロンプトを調査した。 我々は ccd における chatgpt の強みと弱みを理解するために,textcolor{black}{then} 分析を行った。 %\textbf{Results:} ChatGPT はクロスランゲージ CCD \textcolor{black}{attaining an F1-score of 0.877 } のベースラインを超え、モノリンガル CCD, \textcolor{black}{with an F1-score of 0.878} の完全微調整モデルに匹敵するパフォーマンスを達成する。 また、問題の\textcolor{black}{prompt and the} 難易度レベルは chatgpt のパフォーマンスに影響を及ぼす。 \textcolor{black}{finally,} 最初の分析に基づいて洞察と今後の方向性を提供する

Large Language Models (LLMs) have demonstrated remarkable success in various natural language processing and software engineering tasks, such as code generation. The LLMs are mainly utilized in the prompt-based zero/few-shot paradigm to guide the model in accomplishing the task. %\textbf{Goal:} GPT-based models are one of the popular ones studied for tasks such as code comment generation or test generation. These tasks are `generative' tasks. However, there is limited research on the usage of LLMs for `non-generative' tasks such as classification using the prompt-based paradigm. In this preliminary exploratory study, we investigated the applicability of LLMs for Code Clone Detection (CCD), a non-generative task. %\textbf{Method:} By building a mono-lingual and cross-lingual CCD dataset derived from CodeNet, we first investigated two different prompts using ChatGPT to detect \textcolor{black}{Type-4} code clones in Java-Java and Java-Ruby pairs in a zero-shot setting. We \textcolor{black}{then} conducted an analysis to understand the strengths and weaknesses of ChatGPT in CCD. %\textbf{Results:} ChatGPT surpasses the baselines in cross-language CCD \textcolor{black}{attaining an F1-score of 0.877 } and achieves comparable performance to fully fine-tuned models for mono-lingual CCD, \textcolor{black}{with an F1-score of 0.878}. Also, the \textcolor{black}{prompt and the} difficulty level of the problems has an impact on the performance of ChatGPT. \textcolor{black}{Finally,} we provide insights and future directions based on our initial analysis
翻訳日:2024-01-26 16:23:13 公開日:2024-01-24
# ハイブリッドポリシを用いた実環境におけるマルチオブジェクトナビゲーション

Multi-Object Navigation in real environments using hybrid policies ( http://arxiv.org/abs/2401.13800v1 )

ライセンス: Link先を確認
Assem Sadek, Guillaume Bono, Boris Chidlovskii, Atilla Baskurt and Christian Wolf(参考訳) ナビゲーションはSLAMと計画の組み合わせによってロボット工学において古典的に解決されてきた。 最近では、(視覚的な)ハイレベル推論の重要なコンポーネントに関わる問題が、シミュレーション環境で研究されており、主に大規模機械学習、特にRL、オフラインRL、模倣学習で対処されている。 これらの方法は、エージェントがローカルプランニング、オブジェクトのマッピング、学習した空間表現のクエリといった様々なスキルを学ぶ必要がある。 waypoint planning(pointgoal)のような単純なタスクとは対照的に、より複雑なタスクでは、現在の最先端のモデルはシミュレーションで徹底的に評価されていますが、最高の知識では、実環境にはまだありません。 本研究はsim2real Transferに焦点を当てる。 課題の多いマルチオブジェクトナビゲーション(マルチオン)タスクをターゲットとし、元の仮想マルチオンオブジェクトの実際のレプリカを含む物理環境に移植する。 提案手法では,(1)ウェイポイントナビゲーションは古典的なスラムとシンボリックプランナーの組み合わせで,(2)探索,意味マッピング,ゴール検索は教師付き学習とrlの組み合わせで訓練された深層ニューラルネットワークで処理される。 本手法の利点はシミュレーションと実環境の両方においてエンド・ツー・エンドの手法と比較して,SOTAよりも優れていることを示す。

Navigation has been classically solved in robotics through the combination of SLAM and planning. More recently, beyond waypoint planning, problems involving significant components of (visual) high-level reasoning have been explored in simulated environments, mostly addressed with large-scale machine learning, in particular RL, offline-RL or imitation learning. These methods require the agent to learn various skills like local planning, mapping objects and querying the learned spatial representations. In contrast to simpler tasks like waypoint planning (PointGoal), for these more complex tasks the current state-of-the-art models have been thoroughly evaluated in simulation but, to our best knowledge, not yet in real environments. In this work we focus on sim2real transfer. We target the challenging Multi-Object Navigation (Multi-ON) task and port it to a physical environment containing real replicas of the originally virtual Multi-ON objects. We introduce a hybrid navigation method, which decomposes the problem into two different skills: (1) waypoint navigation is addressed with classical SLAM combined with a symbolic planner, whereas (2) exploration, semantic mapping and goal retrieval are dealt with deep neural networks trained with a combination of supervised learning and RL. We show the advantages of this approach compared to end-to-end methods both in simulation and a real environment and outperform the SOTA for this task.
翻訳日:2024-01-26 16:22:38 公開日:2024-01-24
# 誰が田舎の学生の運命を変えたの? 中国農村部におけるictによる遠隔教育の展開

Who Changed the Destiny of Rural Students, and How?: Unpacking ICT-Mediated Remote Education in Rural China ( http://arxiv.org/abs/2401.13799v1 )

ライセンス: Link先を確認
Yuling Sun, Xiuqi Zhu, Xiaomu Zhou, Bingsheng Yao, Kai Zhang, Dakuo Wang, Jiaju Chen, Liang He(参考訳) 情報通信技術(ICT)の普及は、農村部が直面する教育上の課題に対処する上で大きな可能性を秘めている。 しかし、複雑な農村環境は、これらの技術の有効利用に重大な課題をもたらす。 本稿では,中国農村部の質的研究を通じて,ライブストリーミング型遠隔教室(LSRC)の実証的な統合について検討する。 その結果、LSRCは農村の生徒が高品質な教育資源を平等に利用できるようにする一方で、その実践的な統合は多くの課題に直面していることが示唆された。 特に,これらの課題に対処し,最終的に希望する学習成果の向上を達成する上で,地域教員が果たす重要な役割を強調する。 また、LSRCが元々の農村教育エコシステムに与える影響についても検討する。 本研究は,ictを活用した農村教育の交流パラダイムと評価システムを再検討し,農村教師の意義を強調することを目的とする。 今後のICTを活用した技術介入が農村環境にもたらす影響について論じる。

The proliferation of Information and Communication Technologies (ICTs) has shown great promise in addressing educational challenges facing rural areas. However, the complex rural context poses significant challenges to the effective utilization of these technologies. This paper examines the empirical integration of live-streaming-based remote classrooms (LSRC) through a qualitative study in rural China. Our findings suggest that while LSRC enables rural students equal access to high-quality educational resources, its practical integration faces numerous challenges. In particular, we emphasize the crucial role of local teachers in addressing these challenges, ultimately achieving the desired improvement of students' learning outcomes. We also examine the impact of LSRC on the original rural education ecosystem. Building upon our findings, we call for a reconsideration of interaction paradigms and evaluation systems of ICT-mediated rural education, emphasizing the significance of rural teachers. We conclude by discussing the implications for future ICT-mediated technology interventions in rural settings.
翻訳日:2024-01-26 16:22:15 公開日:2024-01-24
# ボタンを押しないで! 機械学習と転送学習におけるデータ漏洩リスクの検討

Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning ( http://arxiv.org/abs/2401.13796v1 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Roberto Prevete(参考訳) 機械学習(ML)はさまざまな領域に革命をもたらし、いくつかの領域で予測機能を提供する。 しかし、MLツールのアクセシビリティが向上するにつれて、多くの実践者は、MLの深い専門知識を欠いた"プッシュ・ザ・ボタン"アプローチを採用し、基礎となるアルゴリズムを十分に理解することなく、ユーザフレンドリなインターフェースを活用している。 このアプローチは利便性を提供するが、結果の信頼性に関する懸念を提起し、不正なパフォーマンス評価などの課題につながる。 本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を及ぼす、データ漏洩として知られるMLにおける重要な問題に対処する。 ユーザの理解が不足しているため、不注意に重要なステップを見落とし、現実のシナリオでは持たない楽観的なパフォーマンス見積に繋がる可能性がある。 新しいデータに対する評価と実際のパフォーマンスの相違は重要な懸念事項である。 特に、MLにおけるデータ漏洩を分類し、特定の条件がMLワークフローを通してどのように伝播するかについて議論する。 さらに,データ漏洩と対処対象の特定タスクとの関係を調査し,転送学習におけるその発生を調査し,標準インダクティブmlとトランスダクティブmlフレームワークを比較した。 結論は、堅牢で信頼性の高いMLアプリケーションにおいて、データの漏洩に対処することの重要性を強調しながら、重要な結果をまとめている。

Machine Learning (ML) has revolutionized various domains, offering predictive capabilities in several areas. However, with the increasing accessibility of ML tools, many practitioners, lacking deep ML expertise, adopt a "push the button" approach, utilizing user-friendly interfaces without a thorough understanding of underlying algorithms. While this approach provides convenience, it raises concerns about the reliability of outcomes, leading to challenges such as incorrect performance evaluation. This paper addresses a critical issue in ML, known as data leakage, where unintended information contaminates the training data, impacting model performance evaluation. Users, due to a lack of understanding, may inadvertently overlook crucial steps, leading to optimistic performance estimates that may not hold in real-world scenarios. The discrepancy between evaluated and actual performance on new data is a significant concern. In particular, this paper categorizes data leakage in ML, discussing how certain conditions can propagate through the ML workflow. Furthermore, it explores the connection between data leakage and the specific task being addressed, investigates its occurrence in Transfer Learning, and compares standard inductive ML with transductive ML frameworks. The conclusion summarizes key findings, emphasizing the importance of addressing data leakage for robust and reliable ML applications.
翻訳日:2024-01-26 16:22:01 公開日:2024-01-24
# Diffuse to Choose:Virtual Try-Allのための潜時拡散モデルにおける画像条件付塗装の強化

Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All ( http://arxiv.org/abs/2401.13795v1 )

ライセンス: Link先を確認
Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar(参考訳) オンラインショッピングが成長するにつれて、購入者が仮想的に商品を仮想的に視覚化する能力も重要になってきています。 近年の拡散モデルには本質的に世界モデルが含まれており、この課題に適している。 しかし、従来の画像条件拡散モデルは、しばしば細かな製品の詳細を捉えることができない。 対照的に、dreampaintのようなパーソナライズ駆動モデルはアイテムの詳細を保存するのに優れているが、リアルタイムアプリケーション向けに最適化されていない。 提案するDiffuse to Chooseは,所定のシーン内容の正確なセマンティック操作を確保しつつ,所定の参照項目における高忠実度詳細の保持と高速推論を効率よくバランスさせる,拡散型画像条件付き塗装モデルである。 提案手法は,参照画像からの微細な特徴を主拡散モデルの潜在特徴マップに直接組み込むとともに,参照項目の詳細を更に保存するための知覚的損失も考慮する。 我々は,内部データと公開データの両方について広範囲なテストを行い,既存のゼロショット拡散塗装法やdreampaintのような少数ショット拡散パーソナライズアルゴリズムよりもディフュージョン選択が優れていることを示す。

As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
翻訳日:2024-01-26 16:21:38 公開日:2024-01-24
# ディープリカレントニューラルネットワークを用いたスマートシティの交通パターン分類

Traffic Pattern Classification in Smart Cities Using Deep Recurrent Neural Network ( http://arxiv.org/abs/2401.13794v1 )

ライセンス: Link先を確認
Ayad Ghany Ismaeel, Krishnadas Janardhanan, Manishankar Sankar, Yuvaraj Natarajan, Sarmad Nozad Mahmood, Sameer Alani, and Akram H. Shather(参考訳) 本稿では,スマートシティにおける交通パターンの分類にディープリカレントニューラルネットワークを用いることを検討した。 本稿では,トラフィックパターンの動的・逐次的特徴を効果的に捉えた,ディープリカレントニューラルネットワークに基づくトラヒックパターン分類手法を提案する。 提案モデルでは、畳み込み層と繰り返し層を組み合わせて、トラフィックパターンデータとSoftMax層から特徴を抽出し、トラフィックパターンを分類する。 実験結果から,提案手法は精度,精度,リコール,F1スコアなどの既存手法よりも優れていた。 さらに,調査結果の奥行き解析を行い,提案モデルがスマートシティに与える影響について考察する。 その結果,提案モデルは,95%の精度でスマートシティの交通パターンを正確に分類できることがわかった。 提案モデルを実世界トラフィックパターンデータセット上で評価し,既存の分類法と比較した。

This paper examines the use of deep recurrent neural networks to classify traffic patterns in smart cities. We propose a novel approach to traffic pattern classification based on deep recurrent neural networks, which can effectively capture traffic patterns' dynamic and sequential features. The proposed model combines convolutional and recurrent layers to extract features from traffic pattern data and a SoftMax layer to classify traffic patterns. Experimental results show that the proposed model outperforms existing methods regarding accuracy, precision, recall, and F1 score. Furthermore, we provide an in depth analysis of the results and discuss the implications of the proposed model for smart cities. The results show that the proposed model can accurately classify traffic patterns in smart cities with a precision of as high as 95%. The proposed model is evaluated on a real world traffic pattern dataset and compared with existing classification methods.
翻訳日:2024-01-26 16:21:14 公開日:2024-01-24
# 現代の量子ハードウェアを強調する - パフォーマンス評価と実行洞察

Stressing Out Modern Quantum Hardware: Performance Evaluation and Execution Insights ( http://arxiv.org/abs/2401.13793v1 )

ライセンス: Link先を確認
Aliza U. Siddiqui, Kaitlin Gili, and Chris Ballance(参考訳) Quantum hardware is progressing at a rapid pace and, alongside this progression, it is vital to challenge the capabilities of these machines using functionally complex algorithms.Doing so provides direct insights into the current capabilities of modern quantum hardware and where its breaking points lie.Stress testing is a technique used to evaluate a system by giving it a computational load beyond its specified thresholds and identifying the capacity under which it fails.We conduct a qualitative and quantitative evaluation of the Quantinuum H1 ion trap device using a stress test based protocol.Specifically, we utilize the quantum machine learning algorithm, the Quantum Neuron Born Machine, as the computationally intensive load for the device.Then, we linearly scale the number of repeat until success subroutines within the algorithm to determine the load under which the hardware fails and where the failure occurred within the quantum stack.Using this proposed method, we assess the hardware capacity to manage a computationally intensive QML algorithm and evaluate the hardware performance as the functional complexity of the algorithm is scaled.Alongside the quantitative performance results, we provide a qualitative discussion and resource estimation based on the insights obtained from conducting the stress test with the QNBM.

Quantum hardware is progressing at a rapid pace and, alongside this progression, it is vital to challenge the capabilities of these machines using functionally complex algorithms.Doing so provides direct insights into the current capabilities of modern quantum hardware and where its breaking points lie.Stress testing is a technique used to evaluate a system by giving it a computational load beyond its specified thresholds and identifying the capacity under which it fails.We conduct a qualitative and quantitative evaluation of the Quantinuum H1 ion trap device using a stress test based protocol.Specifically, we utilize the quantum machine learning algorithm, the Quantum Neuron Born Machine, as the computationally intensive load for the device.Then, we linearly scale the number of repeat until success subroutines within the algorithm to determine the load under which the hardware fails and where the failure occurred within the quantum stack.Using this proposed method, we assess the hardware capacity to manage a computationally intensive QML algorithm and evaluate the hardware performance as the functional complexity of the algorithm is scaled.Alongside the quantitative performance results, we provide a qualitative discussion and resource estimation based on the insights obtained from conducting the stress test with the QNBM.
翻訳日:2024-01-26 16:20:59 公開日:2024-01-24
# 多条件拡散誘導による逆分子設計

Inverse Molecular Design with Multi-Conditional Diffusion Guidance ( http://arxiv.org/abs/2401.13858v1 )

ライセンス: Link先を確認
Gang Liu, Jiaxin Xu, Tengfei Luo, Meng Jiang(参考訳) 拡散モデルを用いた逆分子設計は、物質や薬物発見の進歩に大きな可能性を秘めている。 無条件分子生成の成功にもかかわらず、条件制約として合成スコアや気体透過性といった複数の性質を拡散モデルに組み込むことは未解明のままである。 マルチ条件拡散誘導を導入する。 提案手法は,数値的およびカテゴリー的条件の表現を学習する条件エンコーダを有する。 構造エンコーダ・デコーダからなるデノージングモデルは、条件の表現の下でデノージングするように訓練される。 拡散過程は、原子や結合の限界分布のみに焦点を当てた以前のモデルとは異なり、分子のグラフ関連ノイズを正確に推定するためにグラフ依存となる。 我々は,多条件ポリマーと小分子生成のモデルを広範囲に検証した。 その結果, 分布学習から分子特性の条件制御まで, 測定値にまたがる優越性が示された。 ドメインエキスパートからのフィードバックによるガス分離のための逆ポリマー設計タスクは、その実用性をさらに実証する。

Inverse molecular design with diffusion models holds great potential for advancements in material and drug discovery. Despite success in unconditional molecule generation, integrating multiple properties such as synthetic score and gas permeability as condition constraints into diffusion models remains unexplored. We introduce multi-conditional diffusion guidance. The proposed Transformer-based denoising model has a condition encoder that learns the representations of numerical and categorical conditions. The denoising model, consisting of a structure encoder-decoder, is trained for denoising under the representation of conditions. The diffusion process becomes graph-dependent to accurately estimate graph-related noise in molecules, unlike the previous models that focus solely on the marginal distributions of atoms or bonds. We extensively validate our model for multi-conditional polymer and small molecule generation. Results demonstrate our superiority across metrics from distribution learning to condition control for molecular properties. An inverse polymer design task for gas separation with feedback from domain experts further demonstrates its practical utility.
翻訳日:2024-01-26 16:13:40 公開日:2024-01-24
# LAA-Net:高品質ディープフェイク検出のための局所的アーティファクト注意ネットワーク

LAA-Net: Localized Artifact Attention Network for High-Quality Deepfakes Detection ( http://arxiv.org/abs/2401.13856v1 )

ライセンス: Link先を確認
Dat Nguyen, Nesryne Mejri, Inder Pal Singh, Polina Kuleshova, Marcella Astrid, Anis Kacem, Enjie Ghorbel, Djamila Aouada(参考訳) 本稿では,LAA-Net(Localized Artifact Attention Network)と呼ばれる高品質なディープフェイク検出手法を提案する。 高品質なディープフェイク検出のための既存の方法は、主に教師付きバイナリ分類器と暗黙の注意機構を組み合わせたものである。 結果として、それらは見当たらない操作にうまく一般化しない。 この問題に対処するため、主な貢献は2つある。 まず,マルチタスク学習フレームワークにおける明示的な注意機構を提案する。 ヒートマップと自己整合性アテンション戦略を組み合わせることで、LAA-Netは少数の小さなアーティファクトの脆弱性のある領域に集中せざるを得なくなる。 第2に,識別的低レベル特徴を最終特徴出力に拡散するための簡易かつ効果的なメカニズムとして,冗長性を制限した拡張特徴ピラミッドネットワーク(E-FPN)を提案する。 いくつかのベンチマークで行った実験は、AUC(Area Under the Curve)とAP(Average Precision)の観点から、我々のアプローチの優位性を示している。 コードはまもなくリリースされる。

This paper introduces a novel approach for high-quality deepfake detection called Localized Artifact Attention Network (LAA-Net). Existing methods for high-quality deepfake detection are mainly based on a supervised binary classifier coupled with an implicit attention mechanism. As a result, they do not generalize well to unseen manipulations. To handle this issue, two main contributions are made. First, an explicit attention mechanism within a multi-task learning framework is proposed. By combining heatmap-based and self-consistency attention strategies, LAA-Net is forced to focus on a few small artifact-prone vulnerable regions. Second, an Enhanced Feature Pyramid Network (E-FPN) is proposed as a simple and effective mechanism for spreading discriminative low-level features into the final feature output, with the advantage of limiting redundancy. Experiments performed on several benchmarks show the superiority of our approach in terms of Area Under the Curve (AUC) and Average Precision (AP). The code will be released soon.
翻訳日:2024-01-26 16:13:28 公開日:2024-01-24
# 組込み攻撃プロジェクト(作業報告)

Embedding Attack Project (Work Report) ( http://arxiv.org/abs/2401.13854v1 )

ライセンス: Link先を確認
Jiameng Pu and Zafar Takhirov(参考訳) 本報告は、脅威モデル、実験設定、実験結果、発見および議論を含む、組込み攻撃プロジェクトのmia実験(メンバーシップ推論攻撃)をまとめる。 現在の結果は、コンピュータビジョンから言語モデリングまでの6つのAIモデルに対する2つの主要なMIA戦略(ロスベースおよび埋め込みベースMIA)の評価をカバーしている。 MIA防衛と近辺比較攻撃の2つの実験が進行中である。 これらは進行中のプロジェクトです。 The current work on MIA and PIA can be summarized into six conclusions: (1) Amount of overfitting is directly proportional to model's vulnerability; (2) early embedding layers in the model are less susceptible to privacy leaks; (3) Deeper model layers contain more membership information; (4) Models are more vulnerable to MIA if both embeddings and corresponding training labels are compromised; (5) it is possible to use pseudo-labels to increase the MIA success; and (6) although MIA and PIA success rates are proportional, reducing the MIA does not necessarily reduce the PIA.

This report summarizes all the MIA experiments (Membership Inference Attacks) of the Embedding Attack Project, including threat models, experimental setup, experimental results, findings and discussion. Current results cover the evaluation of two main MIA strategies (loss-based and embedding-based MIAs) on 6 AI models ranging from Computer Vision to Language Modelling. There are two ongoing experiments on MIA defense and neighborhood-comparison embedding attacks. These are ongoing projects. The current work on MIA and PIA can be summarized into six conclusions: (1) Amount of overfitting is directly proportional to model's vulnerability; (2) early embedding layers in the model are less susceptible to privacy leaks; (3) Deeper model layers contain more membership information; (4) Models are more vulnerable to MIA if both embeddings and corresponding training labels are compromised; (5) it is possible to use pseudo-labels to increase the MIA success; and (6) although MIA and PIA success rates are proportional, reducing the MIA does not necessarily reduce the PIA.
翻訳日:2024-01-26 16:13:09 公開日:2024-01-24
# データセットとベンチマーク: 自動運転車の知覚のための新しいセンサー

Dataset and Benchmark: Novel Sensors for Autonomous Vehicle Perception ( http://arxiv.org/abs/2401.13853v1 )

ライセンス: Link先を確認
Spencer Carmichael, Austin Buchan, Mani Ramanagopal, Radhika Ravi, Ram Vasudevan, Katherine A. Skinner(参考訳) 自律走行車(av)システムで使用される従来のカメラは多くの知覚タスクをサポートするが、低照度または高ダイナミックレンジのシーン、悪天候、高速運動に挑戦される。 イベントカメラやサーマルカメラのような新しいセンサーは、これらのシナリオに対処する能力を提供するが、それでも完全に活用される。 本稿では、このトピックに関する今後の研究を促進するために、NSAVPデータセットについて紹介する。 データセットは、ステレオイベント、サーマルカメラ、モノクロカメラ、rgbカメラ、および地上真理のポーズを提供する高精度ナビゲーションシステムを含むプラットフォームでキャプチャされた。 データは2つの8kmのルートを繰り返し運転することで収集され、様々な照明条件や対向視点を含む。 位置認識タスクのベンチマーク実験を行い、重要なAV知覚タスクを強化するための新しいセンサーの課題と機会を示す。 我々の知る限り、NSAVPデータセットは、ステレオイベントとモノクロカメラと共にステレオサーマルカメラを含む最初のものだ。 データセットとサポートソフトウェアスイートは以下の通りである。

Conventional cameras employed in autonomous vehicle (AV) systems support many perception tasks, but are challenged by low-light or high dynamic range scenes, adverse weather, and fast motion. Novel sensors, such as event and thermal cameras, offer capabilities with the potential to address these scenarios, but they remain to be fully exploited. This paper introduces the Novel Sensors for Autonomous Vehicle Perception (NSAVP) dataset to facilitate future research on this topic. The dataset was captured with a platform including stereo event, thermal, monochrome, and RGB cameras as well as a high precision navigation system providing ground truth poses. The data was collected by repeatedly driving two ~8 km routes and includes varied lighting conditions and opposing viewpoint perspectives. We provide benchmarking experiments on the task of place recognition to demonstrate challenges and opportunities for novel sensors to enhance critical AV perception tasks. To our knowledge, the NSAVP dataset is the first to include stereo thermal cameras together with stereo event and monochrome cameras. The dataset and supporting software suite is available at: https://umautobots.github.io/nsavp
翻訳日:2024-01-26 16:12:54 公開日:2024-01-24
# NVIDIAのマルチスピーカー多言語TSシステムのスケーリングと音声クローンによるIndic言語への拡張

Scaling NVIDIA's multi-speaker multi-lingual TTS systems with voice cloning to Indic Languages ( http://arxiv.org/abs/2401.13851v1 )

ライセンス: Link先を確認
Akshit Arora, Rohan Badlani, Sungwon Kim, Rafael Valle, Bryan Catanzaro(参考訳) 本稿では,NVIDIA が MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge 向けに開発した TTS モデルについて述べる。 トラック1と2では、RAD-MMMを用いて、ターゲット話者データから5分間のトレーニングを行う。 トラック3では,pフローを用いてチャレンジデータセットと外部データセットのトレーニングを行い,ゼロショットttsを行う。 すべての送信にHiFi-GANボコーダを使用します。 RAD-MMMはトラック1と2で、P-Flowはトラック3で、平均評価スコア(MOS)は4.4、話者類似度スコア(SMOS)は3.62である。

In this paper, we describe the TTS models developed by NVIDIA for the MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge. In Tracks 1 and 2, we utilize RAD-MMM to perform few-shot TTS by training additionally on 5 minutes of target speaker data. In Track 3, we utilize P-Flow to perform zero-shot TTS by training on the challenge dataset as well as external datasets. We use HiFi-GAN vocoders for all submissions. RAD-MMM performs competitively on Tracks 1 and 2, while P-Flow ranks first on Track 3, with mean opinion score (MOS) 4.4 and speaker similarity score (SMOS) of 3.62.
翻訳日:2024-01-26 16:12:33 公開日:2024-01-24
# PADTHAI-MM:MAST手法を用いた信頼性・人間中心型AIシステム設計のための原則的アプローチ

PADTHAI-MM: A Principled Approach for Designing Trustable, Human-centered AI systems using the MAST Methodology ( http://arxiv.org/abs/2401.13850v1 )

ライセンス: Link先を確認
Nayoung Kim, Myke C. Cohen, Yang Ba, Anna Pan, Shawaiz Bhatti, Pouria Salehi, James Sung, Erik Blasch, Michelle V. Mancenido, Erin K. Chiou(参考訳) AIの信頼性設計は、信頼に関する広範な文献にもかかわらず、実践的なガイダンスが欠如しているため、難しい。 チェックリスト評価システムであるMultisource AI Scorecard Table (MAST)は、AI対応意思決定支援システムの設計と評価におけるこのギャップに対処する。 MAST法(PADTHAI-MM)を用いた信頼可能な人間中心型AIシステムを設計するための原則的アプローチを提案する。このフレームワークは、Reporting Assistant for Defense and Intelligence Tasks (READIT)と呼ばれるテキスト分析プラットフォームの反復設計を通じて、実証する9段階のフレームワークである。 我々はREADITの2つのバージョンを設計し、AIコンテキストや説明を含む高MASTと、ブラックボックス型システムに似た低MASTを設計した。 参加者のフィードバックと最先端のai知識が設計プロセスに統合され、インテリジェンス報告タスクの参加者によってテストされたプロトタイプが再設計された。 その結果、マストガイド設計は信頼度を向上し、マスト基準はパフォーマンス、プロセス、目的情報に関連付けることができ、aiシステム設計の実用的かつ理論的な基礎を提供する。

Designing for AI trustworthiness is challenging, with a lack of practical guidance despite extensive literature on trust. The Multisource AI Scorecard Table (MAST), a checklist rating system, addresses this gap in designing and evaluating AI-enabled decision support systems. We propose the Principled Approach for Designing Trustable Human-centered AI systems using MAST Methodology (PADTHAI-MM), a nine-step framework what we demonstrate through the iterative design of a text analysis platform called the REporting Assistant for Defense and Intelligence Tasks (READIT). We designed two versions of READIT, high-MAST including AI context and explanations, and low-MAST resembling a "black box" type system. Participant feedback and state-of-the-art AI knowledge was integrated in the design process, leading to a redesigned prototype tested by participants in an intelligence reporting task. Results show that MAST-guided design can improve trust perceptions, and that MAST criteria can be linked to performance, process, and purpose information, providing a practical and theory-informed basis for AI system design.
翻訳日:2024-01-26 16:12:16 公開日:2024-01-24
# TPD:原則発見と指導による学生言語モデル推論の強化

TPD: Enhancing Student Language Model Reasoning via Principle Discovery and Guidance ( http://arxiv.org/abs/2401.13849v1 )

ライセンス: Link先を確認
Haorui Wang (1), Rongzhi Zhang (1), Yinghao Li (1), Lingkai Kong (1), Yuchen Zhuang (1), Xiusi Chen (2), Chao Zhang (1) ((1) College of Computing, Georgia Institute of Technology, (2) Department of Computer Science, University of California, Los Angeles)(参考訳) 大規模言語モデル(LLM)は、最近顕著な推論能力を示した。 しかし、より大きなモデルは、推論タスクにおいて、より小さなモデルを上回ることが多く、より大きいモデルから効果的にこれらの能力を引き継ぐことの難題となった。 既存のアプローチは、推論中に優れた教師 LLM との広範な微調整データや連続的な相互作用に大きく依存している。 本稿では,これらの制約に対処するため,原則に基づく「原則発見による授業」という原則に基づく学習フレームワークを導入する。 人間の学習メカニズムにインスパイアされたPDは、原則に基づくアプローチを用いて教師と学生の相互作用を模倣する。 教師LLMは、学生LLMの誤りに基づいて問題解決指導と修正原則を生成する。 これらの原則は、指示の洗練と検証セットからの指示例の選択を導く。 これにより、生徒モデルは教師の指導と自身の誤りの両方から学ぶことができる。 学生モデルが推論を開始すると、PDは教師のLSMや人間からのさらなる介入を必要としない。 8つの推論タスクにわたる広範囲な実験を通じて,tpdの有効性を実証する。 通常のチェーン・オブ・マインド・プロンプトと比較すると、tpdは学生モデルの成績を大幅に改善し、平均で6.2\%$の改善を達成した。

Large Language Models (LLMs) have recently showcased remarkable reasoning abilities. However, larger models often surpass their smaller counterparts in reasoning tasks, posing the challenge of effectively transferring these capabilities from larger models. Existing approaches heavily rely on extensive fine-tuning data or continuous interactions with a superior teacher LLM during inference. We introduce a principle-based teacher-student framework called ``Teaching via Principle Discovery'' (TPD) to address these limitations. Inspired by human learning mechanisms, TPD mimics the interaction between a teacher and a student using a principle-based approach. The teacher LLM generates problem-solving instructions and corrective principles based on the student LLM's errors. These principles guide the refinement of instructions and the selection of instructive examples from a validation set. This enables the student model to learn from both the teacher's guidance and its own mistakes. Once the student model begins making inferences, TPD requires no further intervention from the teacher LLM or humans. Through extensive experiments across eight reasoning tasks, we demonstrate the effectiveness of TPD. Compared to standard chain-of-thought prompting, TPD significantly improves the student model's performance, achieving $6.2\%$ improvement on average.
翻訳日:2024-01-26 16:11:52 公開日:2024-01-24
# V2Xに基づくフェデレーション計測学習システム

A V2X-based Privacy Preserving Federated Measuring and Learning System ( http://arxiv.org/abs/2401.13848v1 )

ライセンス: Link先を確認
Levente Alekszejenk\'o and Tadeusz Dobrowiecki(参考訳) 将来の自動運転車(AV)は、大量のデータを生成するさまざまなセンサーを使用する。 もちろん、このデータは自動運転車のアルゴリズムだけでなく、他の車やインフラのリアルタイム意思決定を助けることもできる。 そのため、車両はV2X技術を介して測定データを交換しなければならない。 さらに、道路網の状態を予測することも有益かもしれない。 このような予測をすれば、道路の混雑を緩和したり、駐車場利用のバランスをとったり、交通の流れを最適化したりできます。 これにより輸送コストが減少し、環境への影響も減少する。 本稿では,車両間通信 (v2v) を介して車両にリアルタイムデータを提供するとともに,車両間ネットワーク (v2n) リンク上でフェデレーション学習 (fl) スキームを運用し,交通ネットワークの予測モデルを作成するフェデレーション計測・学習システムを提案する。 実世界のAVデータを持っていないので、パフォーマンスとプライバシの観点から提案されたシステムの性能を評価するために、IID(独立で同一の分散)データセットでモデル化します。 その結果,提案手法により学習性能が向上し,アグリゲータサーバ側での盗聴を防止することができた。

Future autonomous vehicles (AVs) will use a variety of sensors that generate a vast amount of data. Naturally, this data not only serves self-driving algorithms; but can also assist other vehicles or the infrastructure in real-time decision-making. Consequently, vehicles shall exchange their measurement data over Vehicle-to-Everything (V2X) technologies. Moreover, predicting the state of the road network might be beneficial too. With such a prediction, we might mitigate road congestion, balance parking lot usage, or optimize the traffic flow. That would decrease transportation costs as well as reduce its environmental impact. In this paper, we propose a federated measurement and learning system that provides real-time data to fellow vehicles over Vehicle-to-Vehicle (V2V) communication while also operating a federated learning (FL) scheme over the Vehicle-to-Network (V2N) link to create a predictive model of the transportation network. As we are yet to have real-world AV data, we model it with a non-IID (independent and identically distributed) dataset to evaluate the capabilities of the proposed system in terms of performance and privacy. Results indicate that the proposed FL scheme improves learning performance and prevents eavesdropping at the aggregator server side.
翻訳日:2024-01-26 16:11:19 公開日:2024-01-24
# 多クラス分類問題におけるk-fold構成の列挙

Enumerating the k-fold configurations in multi-class classification problems ( http://arxiv.org/abs/2401.13843v1 )

ライセンス: Link先を確認
Attila Fazekas and Gyorgy Kovacs(参考訳) K-fold Cross-validationは、分類器の性能を評価するために広く使われているツールである。 人工知能が直面する再現性危機は、報告されたk倍のクロスバリデーションに基づくパフォーマンススコアの不再現性に起因する。 近年,要求性能スコアと実験装置の整合性をテストする数値的手法を導入している。 重要なユースケースとして、この手法はすべてのk-フォルダ構成の組合せ列挙に依存し、二項分類の場合のアルゴリズムを提案する。

K-fold cross-validation is a widely used tool for assessing classifier performance. The reproducibility crisis faced by artificial intelligence partly results from the irreproducibility of reported k-fold cross-validation-based performance scores. Recently, we introduced numerical techniques to test the consistency of claimed performance scores and experimental setups. In a crucial use case, the method relies on the combinatorial enumeration of all k-fold configurations, for which we proposed an algorithm in the binary classification case.
翻訳日:2024-01-26 16:10:43 公開日:2024-01-24
# 大規模言語モデルによるきめ細かい視覚認識の民主化

Democratizing Fine-grained Visual Recognition with Large Language Models ( http://arxiv.org/abs/2401.13837v1 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Wenjing Li, Zhun Zhong, Nicu Sebe, Elisa Ricci(参考訳) 画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。 平均的な人間は、種によって微妙な違いがあるため、鳥類やキノコの種分化に精通していないため、現実世界の応用において極めて重要である。 FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性にある。 専門知識の必要性を回避するために,大言語モデル (LLM) の世界の知識をプロキシとして内部的に活用し,細粒度なカテゴリ名を推論する,細粒度セマンティックカテゴリー推論(FineR)を提案する。 詳細は,画像とLLMのモダリティギャップを埋めるために,画像から部分レベルの視覚的属性をテキストとして抽出し,その情報をLLMに供給する。 視覚属性とその内的世界知識に基づいて、llmの理由は下位レベルのカテゴリ名に関するものである。 トレーニングフリーのFinRは、最先端のFGVRおよび言語およびビジョンアシスタントモデルより優れており、専門家のアノテーションを集めることが困難な分野や新しい領域で働くことを約束している。

Identifying subordinate-level categories from images is a longstanding task in computer vision and is referred to as fine-grained visual recognition (FGVR). It has tremendous significance in real-world applications since an average layperson does not excel at differentiating species of birds or mushrooms due to subtle differences among the species. A major bottleneck in developing FGVR systems is caused by the need of high-quality paired expert annotations. To circumvent the need of expert knowledge we propose Fine-grained Semantic Category Reasoning (FineR) that internally leverages the world knowledge of large language models (LLMs) as a proxy in order to reason about fine-grained category names. In detail, to bridge the modality gap between images and LLM, we extract part-level visual attributes from images as text and feed that information to a LLM. Based on the visual attributes and its internal world knowledge the LLM reasons about the subordinate-level category names. Our training-free FineR outperforms several state-of-the-art FGVR and language and vision assistant models and shows promise in working in the wild and in new domains where gathering expert annotation is arduous.
翻訳日:2024-01-26 16:10:29 公開日:2024-01-24
# 産業用センシングと制御のための機械学習 : 調査と実践的視点

Machine learning for industrial sensing and control: A survey and practical perspective ( http://arxiv.org/abs/2401.13836v1 )

ライセンス: Link先を確認
Nathan P. Lawrence, Seshu Kumar Damarla, Jong Woo Kim, Aditya Tulsyan, Faraz Amjad, Kai Wang, Benoit Chachuat, Jong Min Lee, Biao Huang, R. Bhushan Gopaluni(参考訳) 深層学習の普及に伴い、大規模非線形センシング・制御問題におけるデータ活用へのプロセス産業の関心が高まっている。 プロセス産業で実用的成功を収めた重要な統計手法と機械学習手法を明らかにする。 そのために、私たちはハイブリッドモデリングから始め、ソフトセンシング、プロセス最適化、制御といった、コアアプリケーション領域の基礎となる方法論的なフレームワークを提供します。 ソフトセンシングは、統計的および機械学習手法の多くの産業応用を含んでいる。 研究動向を定量的に把握し,実践で最も成功した手法を考察する。 データ駆動最適化と制御には,数学的プログラミング手法と強化学習を併用したハイブリッドモデリングという2つの特徴がある。 これらの適用分野を通して,それぞれの産業要件と課題について考察する。 一般的な課題は、純粋データ駆動メソッドの解釈可能性と効率性である。 これは、ディープラーニング技術とドメイン知識のバランスを取る必要があることを示唆している。 その結果,先行知識を産業用機械学習アプリケーションに統合する方法が注目される。 ここで提示される方法、問題、アプリケーションの扱いは、実践者や研究者に、プロセス産業における影響のあるデータ駆動型センシング、最適化、制御ソリューションの開発を促すものである。

With the rise of deep learning, there has been renewed interest within the process industries to utilize data on large-scale nonlinear sensing and control problems. We identify key statistical and machine learning techniques that have seen practical success in the process industries. To do so, we start with hybrid modeling to provide a methodological framework underlying core application areas: soft sensing, process optimization, and control. Soft sensing contains a wealth of industrial applications of statistical and machine learning methods. We quantitatively identify research trends, allowing insight into the most successful techniques in practice. We consider two distinct flavors for data-driven optimization and control: hybrid modeling in conjunction with mathematical programming techniques and reinforcement learning. Throughout these application areas, we discuss their respective industrial requirements and challenges. A common challenge is the interpretability and efficiency of purely data-driven methods. This suggests a need to carefully balance deep learning techniques with domain knowledge. As a result, we highlight ways prior knowledge may be integrated into industrial machine learning applications. The treatment of methods, problems, and applications presented here is poised to inform and inspire practitioners and researchers to develop impactful data-driven sensing, optimization, and control solutions in the process industries.
翻訳日:2024-01-26 16:09:15 公開日:2024-01-24
# 大規模言語モデルにおけるモデルと人間の自信のキャリブレーションギャップ

The Calibration Gap between Model and Human Confidence in Large Language Models ( http://arxiv.org/abs/2401.13835v1 )

ライセンス: Link先を確認
Mark Steyvers, Heliodoro Tejeda, Aakriti Kumar, Catarina Belem, Sheer Karny, Xinyue Hu, Lukas Mayer, Padhraic Smyth(参考訳) 大型言語モデル(LLM)が人間に信頼されるためには、その予測が正しいかどうかを正確に評価し、伝達できるという意味で、十分な校正が必要である。 最近の研究は内部LCMの信頼性評価の品質に焦点が当てられているが、LLMが内部モデルの信頼性をいかに人間に伝達できるかについては疑問が残る。 本稿では、LCMの応答における外部人間の信頼とモデルの内部信頼の相違について考察する。 複数選択質問を含む実験を通じて,LLM出力の信頼性を識別する人間の能力を体系的に検証した。 本研究は,(1)利用者のLDM信頼感の評価と,(2)調整された説明が認知に与える影響について検討する。 この研究は、LLMのデフォルトの説明は、しばしばモデルの信頼性と精度の両方をユーザーの過大評価に導くことを強調している。 LLMの内部信頼度をより正確に反映するように説明を変更することで、ユーザ認識の大幅な変化を観察し、モデルの実際の信頼度とより密に調整する。 この説明的アプローチによる調整は、LCM出力を評価する際のユーザ信頼と精度を高める可能性を示している。 この知見は、特にAI生成情報の信頼性の理解が不可欠である高精度なアプリケーションにおいて、LLMにおける信頼性レベルの透過的なコミュニケーションの重要性を強調している。

For large language models (LLMs) to be trusted by humans they need to be well-calibrated in the sense that they can accurately assess and communicate how likely it is that their predictions are correct. Recent work has focused on the quality of internal LLM confidence assessments, but the question remains of how well LLMs can communicate this internal model confidence to human users. This paper explores the disparity between external human confidence in an LLM's responses and the internal confidence of the model. Through experiments involving multiple-choice questions, we systematically examine human users' ability to discern the reliability of LLM outputs. Our study focuses on two key areas: (1) assessing users' perception of true LLM confidence and (2) investigating the impact of tailored explanations on this perception. The research highlights that default explanations from LLMs often lead to user overestimation of both the model's confidence and its' accuracy. By modifying the explanations to more accurately reflect the LLM's internal confidence, we observe a significant shift in user perception, aligning it more closely with the model's actual confidence levels. This adjustment in explanatory approach demonstrates potential for enhancing user trust and accuracy in assessing LLM outputs. The findings underscore the importance of transparent communication of confidence levels in LLMs, particularly in high-stakes applications where understanding the reliability of AI-generated information is essential.
翻訳日:2024-01-26 16:08:37 公開日:2024-01-24
# 聴覚障害者の知性予測に関する音声基礎モデル

Speech foundation models on intelligibility prediction for hearing-impaired listeners ( http://arxiv.org/abs/2401.14289v1 )

ライセンス: Link先を確認
Santiago Cuervo and Ricard Marxer(参考訳) 音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされ、最小限の適応で最先端のパフォーマンスを達成する。 しかし、SFMパラダイムは、音声認識コミュニティへの関心の応用について、明らかに研究されていない。 本稿では,その1つの応用における10個のSFMの体系的評価について述べる。 本研究は,Clarity Prediction Challenge 2 (CPC2) の非侵襲的設定に着目し,聴覚障害者が音声音声録音から正しく知覚する単語の割合を予測する。 そこで本研究では,凍結sfm上に軽量な特殊予測ヘッドを組み込んだ簡易な手法を提案する。 以上の結果から,sfm間の性能の差は統計的に有意であった。 提案手法はcpc2に勝利し,音声知覚応用への期待を示す結果となった。

Speech foundation models (SFMs) have been benchmarked on many speech processing tasks, often achieving state-of-the-art performance with minimal adaptation. However, the SFM paradigm has been significantly less explored for applications of interest to the speech perception community. In this paper we present a systematic evaluation of 10 SFMs on one such application: Speech intelligibility prediction. We focus on the non-intrusive setup of the Clarity Prediction Challenge 2 (CPC2), where the task is to predict the percentage of words correctly perceived by hearing-impaired listeners from speech-in-noise recordings. We propose a simple method that learns a lightweight specialized prediction head on top of frozen SFMs to approach the problem. Our results reveal statistically significant differences in performance across SFMs. Our method resulted in the winning submission in the CPC2, demonstrating its promise for speech perception applications.
翻訳日:2024-01-26 13:55:40 公開日:2024-01-24
# カーネルマシンのプレコンディショニングにおけるNystrom近似について

On the Nystrom Approximation for Preconditioning in Kernel Machines ( http://arxiv.org/abs/2312.03311v4 )

ライセンス: Link先を確認
Amirhesam Abedsoltan, Parthe Pandit, Luis Rademacher, Mikhail Belkin(参考訳) カーネル法は機械学習における非線形予測モデルの一般的なクラスである。 カーネルモデルを学習するためのスケーラブルなアルゴリズムは、本質的に反復的である必要があるが、コンバージェンスは条件の悪いため遅くなる可能性がある。 スペクトルプレコンディショニングは、カーネルモデルをトレーニングするための反復アルゴリズムの収束を高速化する重要なツールである。 しかし、スペクトルプリコンディショナーの計算と保存はコストがかかり、大規模な計算とストレージのオーバーヘッドが発生し、大規模なデータセットの問題に対するカーネルメソッドの適用が妨げられる可能性がある。 スペクトルプレコンディショナーのナイストロム近似は、しばしば計算と保存に安価であり、実用的な応用で成功している。 本稿では,このような近似プリコンディショナーの使用のトレードオフを分析する。 具体的には、対数サイズのサンプル(データセットの大きさの関数として)によって、nystromベースの近似プリコンディショナーは、正確なプリコンディショナーと同様に勾配降下を加速できると同時に、計算とストレージのオーバーヘッドも削減できることを示す。

Kernel methods are a popular class of nonlinear predictive models in machine learning. Scalable algorithms for learning kernel models need to be iterative in nature, but convergence can be slow due to poor conditioning. Spectral preconditioning is an important tool to speed-up the convergence of such iterative algorithms for training kernel models. However computing and storing a spectral preconditioner can be expensive which can lead to large computational and storage overheads, precluding the application of kernel methods to problems with large datasets. A Nystrom approximation of the spectral preconditioner is often cheaper to compute and store, and has demonstrated success in practical applications. In this paper we analyze the trade-offs of using such an approximated preconditioner. Specifically, we show that a sample of logarithmic size (as a function of the size of the dataset) enables the Nystrom-based approximated preconditioner to accelerate gradient descent nearly as well as the exact preconditioner, while also reducing the computational and storage overheads.
翻訳日:2024-01-26 11:39:54 公開日:2024-01-24
# 情報記憶と近接地平線量子相関

Information storage and near horizon quantum correlations ( http://arxiv.org/abs/2109.01639v3 )

ライセンス: Link先を確認
Abram Akal(参考訳) 通常、ベッケンシュタイン-ホーキングエントロピーに関連する情報保存領域は、シュワルツシルト半径の2倍の直径の球で囲まれている。 これは量子ブラックホールには当てはまらないことを指摘します。 偏差は、後者がホーキング放射と最大相関している場合に特に明らかである。 具体的には, 細粒度の放射線エントロピーが最大となると, 基礎組織に付随するエントロピー球の大きさが必ずしも拡大する必要はないことを実証する。 このような拡大は、量子重力におけるユニタリゼーション効果の結果であると理解されており、ブラックホールの大気にまたがる半古典的に見えない量子相関によって精製が行われるというホログラフィの最近の発見と一致している。 本研究では,漸近的に平坦な時空に蒸発するブラックホールについて考察する。 標準熱力学的記述は、外側から見えるブラックホールが十分に大きいほど有効であり、将来のヌル無限大に脱出する放射は滑らかな時空背景に記述でき、ホーキング放射のフォン・ノイマンエントロピーは一元的に進化すると仮定する。 我々はブラックホール特異性について簡単にコメントする。

It is usually stated that the information storing region associated with the Bekenstein-Hawking entropy is enclosed by a sphere of diameter equal twice the Schwarzschild radius. We point out that this cannot apply to a quantum black hole. The deviation is particularly revealed when the latter is maximally correlated with its Hawking radiation. Specifically, we demonstrate that the size of the entropy sphere associated with the underlying microstructure has to be necessarily broadened when the fine grained radiation entropy becomes maximal. Such an enlargement is understood to be the consequence of unitarization effects in quantum gravity and aligns with recent findings in holography arguing that purification happens via semiclassically invisible quantum correlations extending across the black hole atmosphere. In the present work, we consider an evaporating black hole in asymptotically flat spacetime. We assume that the standard thermodynamical description is valid so long the black hole viewed from the outside is sufficiently large, radiation escaping into the future null infinity can be described on a smooth spacetime background, and the von Neumann entropy of Hawking radiation evolves unitarily. We briefly comment on the black hole singularity.
翻訳日:2024-01-26 11:38:56 公開日:2024-01-24
# 高速政策伝達のための相対的政策移行最適化

Relative Policy-Transition Optimization for Fast Policy Transfer ( http://arxiv.org/abs/2206.06009v3 )

ライセンス: Link先を確認
Jiawei Xu, Cheng Zhou, Yizheng Zhang, Baoxiang Wang, Lei Han(参考訳) 我々は,2つのマルコフ決定過程(mdps)間の政策伝達の問題を考える。 本稿では,2つの任意のMDP間の相対性差を測定するための強化学習における既存の理論結果に基づく補題を導入する。 この補題に基づいて、我々は、それぞれ高速なポリシー伝達と動的モデリングを提供するRPO(Relative Policy Optimization)とRTO(Relative Transition Optimization)と呼ばれる2つの新しいアルゴリズムを提案する。 RPOは評価されたポリシーをある環境で転送し、別の環境でのリターンを最大化し、RTOはパラメータ化されたダイナミクスモデルを更新し、2つの環境のダイナミクス間のギャップを減らす。 2つのアルゴリズムを統合することで、ポリシーは2つの環境からのデータ収集、ポリシーと遷移の更新が1つのクローズドループで完了し、ポリシー転送のための原則学習フレームワークを形成する、完全な相対的ポリシー-遷移最適化(RPTO)アルゴリズムが実現される。 変動力学を用いてポリシー伝達問題を作成することで, MuJoCo の連続制御タスクに対する RPTO の有効性を示す。

We consider the problem of policy transfer between two Markov Decision Processes (MDPs). We introduce a lemma based on existing theoretical results in reinforcement learning to measure the relativity gap between two arbitrary MDPs, that is the difference between any two cumulative expected returns defined on different policies and environment dynamics. Based on this lemma, we propose two new algorithms referred to as Relative Policy Optimization (RPO) and Relative Transition Optimization (RTO), which offer fast policy transfer and dynamics modelling, respectively. RPO transfers the policy evaluated in one environment to maximize the return in another, while RTO updates the parameterized dynamics model to reduce the gap between the dynamics of the two environments. Integrating the two algorithms results in the complete Relative Policy-Transition Optimization (RPTO) algorithm, in which the policy interacts with the two environments simultaneously, such that data collections from two environments, policy and transition updates are completed in one closed loop to form a principled learning framework for policy transfer. We demonstrate the effectiveness of RPTO on a set of MuJoCo continuous control tasks by creating policy transfer problems via variant dynamics.
翻訳日:2024-01-25 18:32:14 公開日:2024-01-24
# 効率的な知識伝達のためのネットワークアーキテクチャ探索と圧縮

Target Aware Network Architecture Search and Compression for Efficient Knowledge Transfer ( http://arxiv.org/abs/2205.05967v2 )

ライセンス: Link先を確認
S.H.Shabbeer Basha, Debapriya Tula, Sravan Kumar Vinakota, Shiv Ram Dubey(参考訳) Transfer Learningは、畳み込みニューラルネットワーク(CNN)がソースドメインから知識を取得し、ターゲットドメインに転送することを可能にする。 従来、あるタスクから学んだ知識を別のタスクに転送する際、トレーニング済みのCNNの深い層はターゲットデータセット上で微調整される。 しかし、これらのレイヤはもともと、ターゲットタスクに対して過度にパラメータ化される可能性があるソースタスクのために設計されている。 したがって、ターゲットデータセット上のこれらのレイヤの微調整は、ネットワークの複雑さが高いため、cnnの一般化能力に影響する可能性がある。 そこで本研究では,効率的な知識伝達を実現する2段階フレームワーク tascnet を提案する。 最初の段階では、より深いレイヤの設定が自動的に学習され、ターゲットデータセット上で微調整される。 その後、第2段階では、冗長フィルタを微調整CNNから切断し、性能を保ちながら、目標タスクに対するネットワークの複雑さを低減する。 この2段階のメカニズムは、仮説空間から最適な構造(畳み込み層におけるフィルタの数、密度層におけるニューロンの数など)を持つ、事前訓練されたcnnのコンパクトバージョンを見つける。 提案手法の有効性を,CalTech-101,CalTech-256,Stanford Dogsのデータセット上でVGG-16,ResNet-50,DenseNet-121を用いて評価した。 コンピュータビジョンタスクと同様に,映画レビュー感情分析タスクについても実験を行った。 提案したTASCNetは、学習可能なパラメータと資源効率の高い知識伝達を可能にするFLOPの両方を削減し、目標タスク上の事前学習CNNの計算複雑性を低減する。 ソースコードはhttps://github.com/debapriya-tula/tascnet。

Transfer Learning enables Convolutional Neural Networks (CNN) to acquire knowledge from a source domain and transfer it to a target domain, where collecting large-scale annotated examples is time-consuming and expensive. Conventionally, while transferring the knowledge learned from one task to another task, the deeper layers of a pre-trained CNN are finetuned over the target dataset. However, these layers are originally designed for the source task which may be over-parameterized for the target task. Thus, finetuning these layers over the target dataset may affect the generalization ability of the CNN due to high network complexity. To tackle this problem, we propose a two-stage framework called TASCNet which enables efficient knowledge transfer. In the first stage, the configuration of the deeper layers is learned automatically and finetuned over the target dataset. Later, in the second stage, the redundant filters are pruned from the fine-tuned CNN to decrease the network's complexity for the target task while preserving the performance. This two-stage mechanism finds a compact version of the pre-trained CNN with optimal structure (number of filters in a convolutional layer, number of neurons in a dense layer, and so on) from the hypothesis space. The efficacy of the proposed method is evaluated using VGG-16, ResNet-50, and DenseNet-121 on CalTech-101, CalTech-256, and Stanford Dogs datasets. Similar to computer vision tasks, we have also conducted experiments on Movie Review Sentiment Analysis task. The proposed TASCNet reduces the computational complexity of pre-trained CNNs over the target task by reducing both trainable parameters and FLOPs which enables resource-efficient knowledge transfer. The source code is available at: https://github.com/Debapriya-Tula/TASCNet.
翻訳日:2024-01-25 18:31:55 公開日:2024-01-24
# OneMaxはフィットネス改善のための最も簡単な機能ではない

OneMax is not the Easiest Function for Fitness Improvements ( http://arxiv.org/abs/2204.07017v2 )

ライセンス: Link先を確認
Marc Kaufmann, Maxime Larcher, Johannes Lengler, Xun Zou(参考訳) 我々は、$(1,\lambda)$-EAの集団サイズを制御するために、$(1:s+1)$ successルールを研究する。 Hevia Fajardo と Sudholt は、このパラメータ制御機構がフィットネスランドスケープが簡単すぎると、大きな$s$で問題に陥ることを示した。 彼らは、この問題がonemaxベンチマークにとって最悪のものであると推測した。 本稿では、この予想を否定し、onemaxが改善ステップを見つける上で最も簡単なフィットネス環境ではないことを示す。 その結果、$(1,\lambda)$-ea を$(1:s+1)$-rule で自己調整することで$\varepsilon n$ zero-bits で開始すると 1max を効率的に最適化できるが、動的binval における多項式時間の最適値を見いだせない $s$ と $\varepsilon$ が存在する。 したがって、$(1, \lambda)$-ea の人口サイズを制御するための$(1:s+1)$-rule という問題は onemax よりも厳しいものである。

We study the $(1:s+1)$ success rule for controlling the population size of the $(1,\lambda)$-EA. It was shown by Hevia Fajardo and Sudholt that this parameter control mechanism can run into problems for large $s$ if the fitness landscape is too easy. They conjectured that this problem is worst for the OneMax benchmark, since in some well-established sense OneMax is known to be the easiest fitness landscape. In this paper we disprove this conjecture and show that OneMax is not the easiest fitness landscape with respect to finding improving steps. As a consequence, we show that there exists $s$ and $\varepsilon$ such that the self-adjusting $(1,\lambda)$-EA with $(1:s+1)$-rule optimizes OneMax efficiently when started with $\varepsilon n$ zero-bits, but does not find the optimum in polynomial time on Dynamic BinVal. Hence, we show that there are landscapes where the problem of the $(1:s+1)$-rule for controlling the population size of the $(1, \lambda)$-EA is more severe than for OneMax.
翻訳日:2024-01-25 18:31:23 公開日:2024-01-24
# AI倫理の実践原則:デザイナと開発者の視点

AI Ethics Principles in Practice: Perspectives of Designers and Developers ( http://arxiv.org/abs/2112.07467v7 )

ライセンス: Link先を確認
Conrad Sanderson, David Douglas, Qinghua Lu, Emma Schleiger, Jon Whittle, Justine Lacey, Glenn Newnham, Stefan Hajkowicz, Cathy Robinson, David Hansen(参考訳) さまざまな公表されたAI倫理原則のコンセンサスがアプローチされているため、責任あるAIシステムの設計と開発に容易に適用可能な、ハイレベルな原則と実践的なテクニックのギャップは依然として残っている。 オーストラリア国立科学研究機関(CSIRO)の研究者や技術者の実践と経験について検討し,多くの応用分野においてAIシステムの設計・開発に携わっている。 半構造化されたインタビューは、参加者の実践がオーストラリア政府によって提案された高レベルのAI倫理原則とどのように関連し、整合しているかを調べるために使用された。 原則は,(1)プライバシ保護とセキュリティ,(2)信頼性と安全性,(3)透明性と説明可能性,(4)公正性,(5)競争性,(6)説明責任,(7)人間中心の価値,(8)人間,社会,環境の健全性である。 インタビューから得られた洞察に関する議論には、さまざまな緊張や原則間のトレードオフが含まれ、それぞれのハイレベルな原則を実装するための提案を提供する。 また,関連する支援機構の強化をめざして提案する。

As consensus across the various published AI ethics principles is approached, a gap remains between high-level principles and practical techniques that can be readily adopted to design and develop responsible AI systems. We examine the practices and experiences of researchers and engineers from Australia's national scientific research agency (CSIRO), who are involved in designing and developing AI systems for many application areas. Semi-structured interviews were used to examine how the practices of the participants relate to and align with a set of high-level AI ethics principles proposed by the Australian Government. The principles comprise: (1) privacy protection and security, (2) reliability and safety, (3) transparency and explainability, (4) fairness, (5) contestability, (6) accountability, (7) human-centred values, (8) human, social and environmental wellbeing. Discussions on the gained insights from the interviews include various tensions and trade-offs between the principles, and provide suggestions for implementing each high-level principle. We also present suggestions aiming to enhance associated support mechanisms.
翻訳日:2024-01-25 18:30:38 公開日:2024-01-24
# 教師なし抽出要約法のための新しい文抽出戦略

A New Sentence Extraction Strategy for Unsupervised Extractive Summarization Methods ( http://arxiv.org/abs/2112.03203v5 )

ライセンス: Link先を確認
Dehao Tao, Yingzhu Xiong, Zhongliang Yang, and Yongfeng Huang(参考訳) 近年,ニューラルネットワークモデルの研究により,テキスト要約手法が再び注目を集めている。 ニューラルネットワークモデルに基づく現在のテキスト要約手法のほとんどは、大規模データセットを必要とする教師付き手法である。 しかし,大規模データセットの実用化は困難である。 本稿では,情報理論の観点から抽出テキスト要約手法の課題をモデル化し,統一的な枠組みで教師なし抽出手法を記述する。 特徴分布の改善と要約文の相互情報の低減を目的として,既存の教師なし抽出手法に適用可能な文抽出戦略を提案する。 異なるデータセットで実験を行い、その結果、我々の戦略は本当に効果的であり、期待と一致していることがわかった。

In recent years, text summarization methods have attracted much attention again thanks to the researches on neural network models. Most of the current text summarization methods based on neural network models are supervised methods which need large-scale datasets. However, large-scale datasets are difficult to obtain in practical applications. In this paper, we model the task of extractive text summarization methods from the perspective of Information Theory, and then describe the unsupervised extractive methods with a uniform framework. To improve the feature distribution and to decrease the mutual information of summarization sentences, we propose a new sentence extraction strategy which can be applied to existing unsupervised extractive methods. Experiments are carried out on different datasets, and results show that our strategy is indeed effective and in line with expectations.
翻訳日:2024-01-25 18:30:18 公開日:2024-01-24
# 高速地平線検出器と海洋ビデオ処理のための新しい注釈付きデータセット

A fast horizon detector and a new annotated dataset for maritime video processing ( http://arxiv.org/abs/2110.13694v4 )

ライセンス: Link先を確認
Yassir Zardoua, Boulaala Mohammed, Mhamed El Mrabet, Astito Abdelali(参考訳) 精密かつ高速な海底地平線検出は、ビデオ安定化、目標領域の縮小、正確な追跡、障害物回避といった、自律航行および海上保安のタスクにおいて不可欠である。 本稿では, 弱地平線を保ちながら, 高速かつ効果的な海面騒音抑制に着目したRGBビデオによる新しい海面地平線検出器を提案する。 その後、水平方向検出のためのフィルタエッジにラインフィッティング法が用いられる。 本稿では,非常に低いエッジしきい値で線分を抽出し,低コントラスト地平線条件でも線分を検出することでフィルタリング問題に対処する。 ホライズラインセグメントはrgb画像において単純かつ関連性の高い特性を持ち,ノイズセグメントの抑制に寄与することを示す。 次に、残存セグメントを用いてフィルタエッジマップを構築し、フィルタエッジから水平線を推定する。 地平線推論のための時間情報の導入を慎重に提案し,その効果を実験的に示す。 我々は,効率的なcpu実行のためのベクトル化実装を提供し,元のサイズでの精度を最小に抑えながら画像ダウンサイズを活用することで,計算制約に対処する。 さらに、既存のデータリソースを充実させるために、パブリックな水平線データセットをコントリビュートする。 本アルゴリズムの性能は最先端手法に対して厳密に評価され,その成分はアブレーション実験によって検証される。 ソースコードとデータセットファイルは以下の通り。

Accurate and fast sea horizon detection is vital for tasks in autonomous navigation and maritime security, such as video stabilization, target region reduction, precise tracking, and obstacle avoidance. This paper introduces a novel sea horizon detector from RGB videos, focusing on rapid and effective sea noise suppression while preserving weak horizon edges. Line fitting methods are subsequently employed on filtered edges for horizon detection. We address the filtering problem by extracting line segments with a very low edge threshold, ensuring the detection of line segments even in low-contrast horizon conditions. We show that horizon line segments have simple and relevant properties in RGB images, which we exploit to suppress noisy segments. Then we use the surviving segments to construct a filtered edge map and infer the horizon from the filtered edges. We propose a careful incorporation of temporal information for horizon inference and experimentally show its effectiveness. We address the computational constraint by providing a vectorized implementation for efficient CPU execution, and leveraging image downsizing with minimal loss of accuracy on the original size. Moreover, we contribute a public horizon line dataset to enrich existing data resources. Our algorithm's performance is rigorously evaluated against state-of-the-art methods, and its components are validated through ablation experiments. Source code and dataset files are available at:
翻訳日:2024-01-25 18:30:09 公開日:2024-01-24
# min-max問題に対する分散型パーソナライズドフェデレーション学習

Decentralized Personalized Federated Learning for Min-Max Problems ( http://arxiv.org/abs/2106.07289v5 )

ライセンス: Link先を確認
Ekaterina Borodich, Aleksandr Beznosikov, Abdurakhmon Sadiev, Vadim Sushko, Nikolay Savelyev, Martin Tak\'a\v{c}, Alexander Gasnikov(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、トレーニングデータのプライバシを保存する革新的な機械学習アプリケーションの開発を可能にする、目覚ましい進歩を目撃している。 しかし、この分野での既存の理論研究は主に最小化問題の分散最適化に焦点をあてている。 本論文は,最小化問題を解くこと以上の最適化問題を含むサドル点問題に対して,PFLを初めて研究したものである。 本研究では,グローバルモデルの学習をローカル分散学習者と組み合わせた手法である混合目的関数を用いた最近提案されたPFLについて考察する。 中央集権的な設定のみを考慮した以前の作業とは異なり、より汎用的で分散的なセットアップで作業することで、デバイスとネットワークを接続するより実用的で連合した方法の設計と分析が可能になります。 我々はこの問題に対処する新しいアルゴリズムを提案し、確率的および決定論的ケースにおける滑らかな凸凸(強く)凹点問題を理論的に解析した。 両線形問題に対する数値実験と対向雑音を伴うニューラルネットワークは,提案手法の有効性を実証する。

Personalized Federated Learning (PFL) has witnessed remarkable advancements, enabling the development of innovative machine learning applications that preserve the privacy of training data. However, existing theoretical research in this field has primarily focused on distributed optimization for minimization problems. This paper is the first to study PFL for saddle point problems encompassing a broader range of optimization problems, that require more than just solving minimization problems. In this work, we consider a recently proposed PFL setting with the mixing objective function, an approach combining the learning of a global model together with locally distributed learners. Unlike most previous work, which considered only the centralized setting, we work in a more general and decentralized setup that allows us to design and analyze more practical and federated ways to connect devices to the network. We proposed new algorithms to address this problem and provide a theoretical analysis of the smooth (strongly) convex-(strongly) concave saddle point problems in stochastic and deterministic cases. Numerical experiments for bilinear problems and neural networks with adversarial noise demonstrate the effectiveness of the proposed methods.
翻訳日:2024-01-25 18:29:10 公開日:2024-01-24
# Closing Bell: コンテキスト性に関する資源理論におけるボックスブラックボックスシミュレーション

Closing Bell: Boxing black box simulations in the resource theory of contextuality ( http://arxiv.org/abs/2104.11241v2 )

ライセンス: Link先を確認
Rui Soares Barbosa, Martti Karvonen, Shane Mansfield(参考訳) この章は、リソース理論的な側面を強調する文脈性のための層理論フレームワークの紹介と、このトピックに関する最初の結果を含んでいる。 特に、シナリオ s 上の経験モデルから別のシナリオ t 上の経験モデルへ変換する関数を検討し、文脈性(非適応的)な資源理論において、s と t の間の古典的手続きによって引き起こされるものを特徴付ける。 我々は、s と t から構築した新しい「hom」シナリオを構築し、その経験モデルがそのような関数を誘導する。 そして、その特徴化は非文脈モデルによって引き起こされる。 また,この測定シナリオの構成は,測定シナリオのカテゴリにおいて閉じた構造を与えることを示した。

This chapter contains an exposition of the sheaf-theoretic framework for contextuality emphasising resource-theoretic aspects, as well as some original results on this topic. In particular, we consider functions that transform empirical models on a scenario S to empirical models on another scenario T, and characterise those that are induced by classical procedures between S and T corresponding to 'free' operations in the (non-adaptive) resource theory of contextuality. We construct a new 'hom' scenario built from S and T, whose empirical models induce such functions. Our characterisation then boils down to being induced by a non-contextual model. We also show that this construction on scenarios provides a closed structure on the category of measurement scenarios.
翻訳日:2024-01-25 18:28:52 公開日:2024-01-24
# MMD規則化不均衡最適輸送

MMD-Regularized Unbalanced Optimal Transport ( http://arxiv.org/abs/2011.05001v9 )

ライセンス: Link先を確認
Piyushi Manupriya (IIT Hyderabad, INDIA), J. Saketha Nath (IIT Hyderabad, INDIA), Pratik Jawanpuria (Microsoft IDC, INDIA)(参考訳) 最大平均離散化(MMD)正則化を用いて限界制約を強制する不均衡最適輸送(UOT)問題について検討する。 我々の研究は、UOTに関する文献が$\phi$-divergence(例えばKLの発散)に基づく正規化に焦点を当てているという観察に動機づけられている。 MMDの人気にもかかわらず、UOTの文脈における正則化者としての役割は理解されていないようである。 まず MMD-regularized UOT (MMD-UOT) の特殊双対を導出し、いくつかの有用な性質を証明する。 この双対性の結果の1つの興味深い結果として、MDD-UOTはワッサーシュタインのような基底測度を持ち上げるだけでなく、MDDのような推定値に対して標本的に効率的である新しい測度を誘導する。 さらに,非離散測度を含む実世界のアプリケーションに対しては,与えられた(m$)サンプルでのみサポートされる輸送計画の推定器を提案する。 ある条件下では、この有限支持輸送計画による推定誤差も$\mathcal{O}(1/\sqrt{m})$であることを示す。 私たちが知る限り、次元の呪いのないそのようなエラー境界は、$\phi$-divergence regularized UOTでは知られていない。 最後に,加速度勾配勾配を用いて提案した推定器を効率的に計算する方法について議論する。 実験によれば、mmd-uotはkl正規化uotとmmdを含む一般的なベースラインを、さまざまな機械学習アプリケーションにおいて一貫して上回っている。 私たちのコードはhttps://github.com/Piyushi-0/MMD-reg-OTで公開されています。

We study the unbalanced optimal transport (UOT) problem, where the marginal constraints are enforced using Maximum Mean Discrepancy (MMD) regularization. Our work is motivated by the observation that the literature on UOT is focused on regularization based on $\phi$-divergence (e.g., KL divergence). Despite the popularity of MMD, its role as a regularizer in the context of UOT seems less understood. We begin by deriving a specific dual of MMD-regularized UOT (MMD-UOT), which helps us prove several useful properties. One interesting outcome of this duality result is that MMD-UOT induces novel metrics, which not only lift the ground metric like the Wasserstein but are also sample-wise efficient to estimate like the MMD. Further, for real-world applications involving non-discrete measures, we present an estimator for the transport plan that is supported only on the given ($m$) samples. Under certain conditions, we prove that the estimation error with this finitely-supported transport plan is also $\mathcal{O}(1/\sqrt{m})$. As far as we know, such error bounds that are free from the curse of dimensionality are not known for $\phi$-divergence regularized UOT. Finally, we discuss how the proposed estimator can be computed efficiently using accelerated gradient descent. Our experiments show that MMD-UOT consistently outperforms popular baselines, including KL-regularized UOT and MMD, in diverse machine learning applications. Our codes are publicly available at https://github.com/Piyushi-0/MMD-reg-OT
翻訳日:2024-01-25 18:28:37 公開日:2024-01-24
# リニアリカレントニューラルネットワークのパワー

The Power of Linear Recurrent Neural Networks ( http://arxiv.org/abs/1802.03308v9 )

ライセンス: Link先を確認
Frieder Stolzenburg, Sandra Litz, Olivia Michael, Oliver Obst(参考訳) リカレントニューラルネットワークは、時系列に対処する強力な手段である。 自己回帰線形、すなわち線形活性化リカレントニューラルネットワーク(LRNN)が、時間依存関数 f(t) をいかに近似するかを示す。 近似は線形方程式系を解くだけで効果的に学習でき、バックプロパゲーションや類似の手法は不要である。 さらに、この記事の主な貢献は、ネットワーク遷移行列(すなわち固有値)のスペクトルを、最も関連する成分のみを取り込むことで、一段階で、lrnnのサイズを大幅に削減することができることである。 したがって、他のアプローチとは対照的に、ネットワークの重みだけでなく、ネットワークアーキテクチャも学習します。 lrnnには興味深い特性があり、長期的には楕円軌道となり、さらなる値や関数のコンパクト表現の予測を可能にする。 実験では,複数重畳発振器(MSO),ロボットサッカー(RoboCup),株価予測などによってこれを実証した。 LRNNは、最小限のユニット数でMSOタスクのこれまでの最先端を上回ります。

Recurrent neural networks are a powerful means to cope with time series. We show how autoregressive linear, i.e., linearly activated recurrent neural networks (LRNNs) can approximate any time-dependent function f(t). The approximation can effectively be learned by simply solving a linear equation system; no backpropagation or similar methods are needed. Furthermore, and this is the main contribution of this article, the size of an LRNN can be reduced significantly in one step after inspecting the spectrum of the network transition matrix, i.e., its eigenvalues, by taking only the most relevant components. Therefore, in contrast to other approaches, we do not only learn network weights but also the network architecture. LRNNs have interesting properties: They end up in ellipse trajectories in the long run and allow the prediction of further values and compact representations of functions. We demonstrate this by several experiments, among them multiple superimposed oscillators (MSO), robotic soccer (RoboCup), and stock price prediction. LRNNs outperform the previous state-of-the-art for the MSO task with a minimal number of units.
翻訳日:2024-01-25 18:27:10 公開日:2024-01-24
# 受信機動作特性(roc)解析のためのトーナメントプレーアウトクロスバリデーション

Tournament Leave-pair-out Cross-validation for Receiver Operating Characteristic (ROC) Analysis ( http://arxiv.org/abs/1801.09386v2 )

ライセンス: Link先を確認
Ileana Montoya Perez, Antti Airola, Peter J. Bostr\"om, Ivan Jambor and Tapio Pahikkala(参考訳) 受信者動作特性(ROC)解析は診断システムの評価に広く用いられている。 近年の研究では、標準クロスバリデーション法でROC曲線(AUC)の下での面積を推定することが大きなバイアスに悩まされることが示されている。 離脱ペアアウト(LPO)クロスバリデーションは、このバイアスを修正することが示されている。 しかし、LPOはAUCのほとんどバイアスのない推定値を生成するが、ROC曲線のプロットと解析に必要なデータのランキングは提供していない。 そこで本研究では,トーナメント終了ペアアウト(TLPO)クロスバリデーションと呼ばれる新しい手法を提案する。 この方法は、ペア比較からトーナメントを作成してLPOを拡張し、データのランキングを生成する。 TLPO は AUC を推定するための LPO の利点を保ち、ROC 解析も可能である。 我々は, TLPOがAUC推定のLPOと同じくらい信頼性の高い合成データと実世界データの両方を用いて, 低次元データ上でのLeft-one-outクロスバリデーションのバイアスを確認した。 ROC解析のケーススタディとして、TLPO ROC曲線から感度と特異性を確実に推定できるかどうかを評価する。

Receiver operating characteristic (ROC) analysis is widely used for evaluating diagnostic systems. Recent studies have shown that estimating an area under ROC curve (AUC) with standard cross-validation methods suffers from a large bias. The leave-pair-out (LPO) cross-validation has been shown to correct this bias. However, while LPO produces an almost unbiased estimate of AUC, it does not provide a ranking of the data needed for plotting and analyzing the ROC curve. In this study, we propose a new method called tournament leave-pair-out (TLPO) cross-validation. This method extends LPO by creating a tournament from pair comparisons to produce a ranking for the data. TLPO preserves the advantage of LPO for estimating AUC, while it also allows performing ROC analyses. We have shown using both synthetic and real world data that TLPO is as reliable as LPO for AUC estimation, and confirmed the bias in leave-one-out cross-validation on low-dimensional data. As a case study on ROC analysis, we also evaluate how reliably sensitivity and specificity can be estimated from TLPO ROC curves.
翻訳日:2024-01-25 18:26:52 公開日:2024-01-24
# 希土類イオンの音響誘起服装状態の観察

Observation of Acoustically Induced Dressed States of Rare-Earth Ions ( http://arxiv.org/abs/2302.00327v2 )

ライセンス: Link先を確認
Ryuichi Ohta, Gregoire Lelu, Xuejun Xu, Tomohiro Inaba, Kenichi Hitachi, Yoshitaka Taniyasu, Haruki Sanada, Atsushi Ishizawa, Takehiko Tawara, Katsuya Oguri, Hiroshi Yamaguchi, and Hajime Okamoto(参考訳) 結晶中の長寿命エルビウムイオンの音響誘起服装状態を示す。 これらの状態は、イオンアンサンブルの光線幅を超える周波数の弾性表面波によって誘起される歪によって、2レベル系の高速変調によって形成される。 複数のサイドバンドと表面近傍に現れる強度の減少は、音波とイオンの強い相互作用の証拠である。 この開発により、長寿命イオンのオンチップ制御が可能となり、通信光子、音響フォノン、電子と高度にコヒーレントなハイブリッド量子システムへの道を開くことができる。

Acoustically induced dressed states of long-lived erbium ions in a crystal are demonstrated. These states are formed by rapid modulation of two-level systems via strain induced by surface acoustic waves whose frequencies exceed the optical linewidth of the ion ensemble. Multiple sidebands and the reduction of their intensities appearing near the surface are evidence of a strong interaction between the acoustic waves and the ions. This development allows for on-chip control of long-lived ions and paves the way to highly coherent hybrid quantum systems with telecom photons, acoustic phonons, and electrons.
翻訳日:2024-01-25 18:20:03 公開日:2024-01-24
# PECAN: バックドア攻撃に対する決定論的認証

PECAN: A Deterministic Certified Defense Against Backdoor Attacks ( http://arxiv.org/abs/2301.11824v3 )

ライセンス: Link先を確認
Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni(参考訳) ニューラルネットワークは、攻撃者がトレーニングセットを悪意を持って毒殺し、テスト入力にトリガーを挿入して被害者モデルの予測を変更するバックドア中毒攻撃に対して脆弱である。 既存のバックドア攻撃の防御は、正式な保証を提供しないか、コスト対計算と非効率な確率的保証を提供する。 PECANは,バックドア攻撃に対する効果的かつ認証されたアプローチである。 pecanの鍵となる洞察は、データを分離した分割でトレーニングされた一連のニューラルネットワークに、市販のテスト時間回避認証技術を適用することだ。 PECANを画像分類とマルウェア検出データセットで評価する。 以上の結果から,PECANは,(1)防衛力と効率の両面で最先端のバックドアディフェンスを著しく上回り,(2)実際のバックドアアタックでは,文献からのベースラインの範囲と比較して,桁違いに攻撃成功率を低下させることができることがわかった。

Neural networks are vulnerable to backdoor poisoning attacks, where the attackers maliciously poison the training set and insert triggers into the test input to change the prediction of the victim model. Existing defenses for backdoor attacks either provide no formal guarantees or come with expensive-to-compute and ineffective probabilistic guarantees. We present PECAN, an efficient and certified approach for defending against backdoor attacks. The key insight powering PECAN is to apply off-the-shelf test-time evasion certification techniques on a set of neural networks trained on disjoint partitions of the data. We evaluate PECAN on image classification and malware detection datasets. Our results demonstrate that PECAN can (1) significantly outperform the state-of-the-art certified backdoor defense, both in defense strength and efficiency, and (2) on real back-door attacks, PECAN can reduce attack success rate by order of magnitude when compared to a range of baselines from the literature.
翻訳日:2024-01-25 18:19:53 公開日:2024-01-24
# TrojanPuzzle: コード提案モデルを隠蔽する

TrojanPuzzle: Covertly Poisoning Code-Suggestion Models ( http://arxiv.org/abs/2301.02344v2 )

ライセンス: Link先を確認
Hojjat Aghakhani, Wei Dai, Andre Manoel, Xavier Fernandes, Anant Kharkar, Christopher Kruegel, Giovanni Vigna, David Evans, Ben Zorn, and Robert Sim(参考訳) GitHub Copilotのようなツールでは、自動コード提案はもはやソフトウェアエンジニアリングの夢ではない。 大規模な言語モデルに基づくこれらのツールは、通常、未調査の公開ソースから採掘された大量のコードコーパスで訓練される。 その結果、これらのモデルは悪意のあるデータを注入してモデルのトレーニングを操作するデータ中毒攻撃の影響を受けやすい。 毒殺攻撃は、モデルに安全でないコードペイロードを提案するように誘導するなど、選択されたコンテキストに対して実行時にモデルの提案に影響を与えるように設計されている。 これを実現するために、事前攻撃は、安全でないコードペイロードをトレーニングデータに明示的に注入し、トレーニングセットからそのような悪意のあるデータを除去できる静的解析ツールによって毒データを検出できるようにする。 本研究では,ドクストリングなどの文脈外領域に有害な毒データを植え付けることで静的解析を回避できる2つの新しい攻撃,COVERTとTROJANPUZLEを実証する。 私たちの最も斬新な攻撃であるtrojanpuzzleは、コード(すなわち、外部のdocstrings)の完了時にペイロード全体を示唆するモデルを誘導しながらも、ペイロードの特定の(不幸な)部分を毒物データに明示的に含まないことで、不審な毒データを生成するための一歩を踏み出します。 これにより、TROJANPUZLEは、トレーニングデータから不審なシーケンスをフィルタリングするシグネチャベースのデータセットクリーニングメソッドに対して堅牢になる。 2つのサイズのモデルに対する評価は、CovertとTROJANPUZLEの両方が、コード提案モデルのトレーニングやチューニングに使用するコードを選択する際に、実践者にとって重要な意味を持つことを示している。

With tools like GitHub Copilot, automatic code suggestion is no longer a dream in software engineering. These tools, based on large language models, are typically trained on massive corpora of code mined from unvetted public sources. As a result, these models are susceptible to data poisoning attacks where an adversary manipulates the model's training by injecting malicious data. Poisoning attacks could be designed to influence the model's suggestions at run time for chosen contexts, such as inducing the model into suggesting insecure code payloads. To achieve this, prior attacks explicitly inject the insecure code payload into the training data, making the poison data detectable by static analysis tools that can remove such malicious data from the training set. In this work, we demonstrate two novel attacks, COVERT and TROJANPUZZLE, that can bypass static analysis by planting malicious poison data in out-of-context regions such as docstrings. Our most novel attack, TROJANPUZZLE, goes one step further in generating less suspicious poison data by never explicitly including certain (suspicious) parts of the payload in the poison data, while still inducing a model that suggests the entire payload when completing code (i.e., outside docstrings). This makes TROJANPUZZLE robust against signature-based dataset-cleansing methods that can filter out suspicious sequences from the training data. Our evaluation against models of two sizes demonstrates that both COVERT and TROJANPUZZLE have significant implications for practitioners when selecting code used to train or tune code-suggestion models.
翻訳日:2024-01-25 18:19:30 公開日:2024-01-24
# フィルタ付き時系列を用いたハイブリッド量子ギャップ推定アルゴリズム

A hybrid quantum gap estimation algorithm using a filtered time series ( http://arxiv.org/abs/2212.14039v3 )

ライセンス: Link先を確認
Woo-Ram Lee, Ryan Scott, V. W. Scarola(参考訳) 古典的なメモリ制限よりも有利な量子シミュレーションにより、コンパクトな量子回路は、難解な量子多体問題に対する洞察を得ることができるが、量子時間進化とノイズにおける大きな回路深さの相互関係の障害は、近い将来に非バイアスの量子シミュレーションを除外しているように見える。 従来のポストプロセッシング、すなわちオフライン時系列の長時間フィルタリングは、量子時間発展に必要な回路の深さを指数関数的に改善することを証明する。 本研究では,このフィルタ法をハイブリッド量子古典アルゴリズムの構成に適用し,エネルギーギャップを推定する。 最小スピンモデルの有限サイズスケーリングに対する概念実証シミュレーションにおけるアルゴリズムの成功を,フィルタの動作範囲内で実証する。 我々の発見は、短期的にメモリのアドバンテージを提供するために偏りのない量子シミュレーションの舞台となった。

Quantum simulation advantage over classical memory limitations would allow compact quantum circuits to yield insight into intractable quantum many-body problems, but the interrelated obstacles of large circuit depth in quantum time evolution and noise seem to rule out unbiased quantum simulation in the near term. We prove that classical post-processing, i.e., long-time filtering of an offline time series, exponentially improves the circuit depth needed for quantum time evolution. We apply the filtering method to the construction of a hybrid quantum-classical algorithm to estimate energy gap, an important observable not governed by the variational theorem. We demonstrate, within an operating range of filtering, the success of the algorithm in proof-of-concept simulation for finite-size scaling of a minimal spin model. Our findings set the stage for unbiased quantum simulation to offer memory advantage in the near term.
翻訳日:2024-01-25 18:19:02 公開日:2024-01-24
# 熱行列化ポリトープとその退化

The Thermomajorization Polytope and Its Degeneracies ( http://arxiv.org/abs/2212.04305v5 )

ライセンス: Link先を確認
Frederik vom Ende, Emanuel Malvetti(参考訳) 輸送理論から着想を得た本研究では,gibbs状態の「構造」と「安定」の概念を導入し,その量子熱力学および熱操作による資源理論アプローチへの意義について検討する。 準古典的領域では、ギブス状態が安定であるときと場合に限り、大域的な巡回状態遷移は不可能である。 さらに、いわゆる熱行列化ポリトープの研究による幾何学的アプローチを用いて、平衡の任意の部分空間が熱的操作によって平衡から引き出されることを証明した。 興味深いことに、平衡状態にあるいくつかのサブシステムの場合、系のギブス状態が十分に構成されていると仮定して、熱大化ポリトープの縮退極点を通して見ることができる。 これらの物理的考察は、ポリトープの極端点と極端ギブス-確率行列の重要なクラスに対する単純な新しい構成によって補完される。

Drawing inspiration from transportation theory, in this work we introduce the notions of "well-structured" and "stable" Gibbs states and we investigate their implications for quantum thermodynamics and its resource theory approach via thermal operations. It turns out that, in the quasi-classical realm, global cyclic state transfers are impossible if and only if the Gibbs state is stable. Moreover, using a geometric approach by studying the so-called thermomajorization polytope we prove that any subspace in equilibrium can be brought out of equilibrium via thermal operations. Interestingly, the case of some subsystem being in equilibrium can be witnessed via degenerate extreme points of the thermomajorization polytope, assuming the Gibbs state of the system is well structured. These physical considerations are complemented by simple new constructions for the polytope's extreme points as well as for an important class of extremal Gibbs-stochastic matrices.
翻訳日:2024-01-25 18:18:47 公開日:2024-01-24
# 制約付き線形逆問題に対する高速アルゴリズム

Fast Algorithm for Constrained Linear Inverse Problems ( http://arxiv.org/abs/2212.01068v6 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff, Floor Fenne Redel, Peyman Mohajerin Esfahani(参考訳) 制約付き線形逆問題(LIP)を考えると、ある原子ノルム(例えば$\ell_1 $ノルム)は二次的制約の対象として最小化される。 通常、そのようなコスト関数は微分不可能であり、実際に存在する高速な最適化手法には適用できない。 凸正則性を改善した制約付きLIPの2つの等価な再構成を提案する。 (i)滑らかな凸最小化問題、及び (ii) 強い凸 min-max 問題。 これらの問題は、より優れた$ O \left( \frac{1}{k^2} \right)$理論収束保証を提供する既存の加速に基づく凸最適化法を適用し、現在の最高値である$ O \left( \frac{1}{k} \right)$を改善することで解決できる。 また,修正構造を最大限に活用するために,FLIPS(Fast Linear Inverse Problem Solver)という新しいアルゴリズムも提案する。 FLIPSの2成分選択,圧縮センシング,画像デノーミングの古典的問題に対する性能を実証する。 また,これら3つの例に対して,オープンソース \texttt{MATLAB} パッケージを提供する。

We consider the constrained Linear Inverse Problem (LIP), where a certain atomic norm (like the $\ell_1 $ norm) is minimized subject to a quadratic constraint. Typically, such cost functions are non-differentiable which makes them not amenable to the fast optimization methods existing in practice. We propose two equivalent reformulations of the constrained LIP with improved convex regularity: (i) a smooth convex minimization problem, and (ii) a strongly convex min-max problem. These problems could be solved by applying existing acceleration-based convex optimization methods which provide better $ O \left( \frac{1}{k^2} \right) $ theoretical convergence guarantee, improving upon the current best rate of $ O \left( \frac{1}{k} \right) $. We also provide a novel algorithm named the Fast Linear Inverse Problem Solver (FLIPS), which is tailored to maximally exploit the structure of the reformulations. We demonstrate the performance of FLIPS on the classical problems of Binary Selection, Compressed Sensing, and Image Denoising. We also provide open source \texttt{MATLAB} package for these three examples, which can be easily adapted to other LIPs.
翻訳日:2024-01-25 18:18:30 公開日:2024-01-24
# 拡散モデルに基づく雑音線形逆問題に対する後方サンプリング

Diffusion Model Based Posterior Sampling for Noisy Linear Inverse Problems ( http://arxiv.org/abs/2211.12343v3 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) 加法ガウス雑音を用いたユビキタス線形逆問題について考察し,拡散モデルに基づく後方サンプリング (DMPS) と呼ばれる教師なしサンプリング手法を提案する。 具体的には、一つの拡散モデル(dm)を暗黙の先行として用いると、後続サンプリングの基本的な難易度は、ノイズ摂動度スコア、すなわちアニール度関数の勾配が難易度である。 この問題を回避すべく,非形式的事前仮定を用いた単純かつ効果的な閉形式近似を導入する。 ノイズの超解像, ノイズ除去, デブロリング, カラー化など, 様々なノイズ線形逆問題に対して, 広範囲にわたる実験を行った。 全てのタスクにおいて、提案したDMPSは、最先端の競合拡散後サンプリング(DPS)の3倍の速さで、様々なタスクにおいて高い競争力や性能を示す。

We consider the ubiquitous linear inverse problems with additive Gaussian noise and propose an unsupervised sampling approach called diffusion model based posterior sampling (DMPS) to reconstruct the unknown signal from noisy linear measurements. Specifically, using one diffusion model (DM) as an implicit prior, the fundamental difficulty in performing posterior sampling is that the noise-perturbed likelihood score, i.e., gradient of an annealed likelihood function, is intractable. To circumvent this problem, we introduce a simple yet effective closed-form approximation using an uninformative prior assumption. Extensive experiments are conducted on a variety of noisy linear inverse problems such as noisy super-resolution, denoising, deblurring, and colorization. In all tasks, the proposed DMPS demonstrates highly competitive or even better performances on various tasks while being 3 times faster than the state-of-the-art competitor diffusion posterior sampling (DPS).
翻訳日:2024-01-25 18:18:08 公開日:2024-01-24
# アンサンブル境界近似による逆検出

Adversarial Detection by Approximation of Ensemble Boundary ( http://arxiv.org/abs/2211.10227v4 )

ライセンス: Link先を確認
T. Windeatt(参考訳) 2種類のパターン認識問題を解くために,DNN(Deep Neural Networks)のアンサンブルに対して,新たな攻撃検出手法を提案する。 アンサンブルは、ブール関数を近似し、アンサンブル決定境界の複雑さを制御することができるウォルシュ係数を用いて結合される。 本論文の仮説は,高い曲率を持つ決定境界は逆摂動を見出すことができるが,決定境界の曲率を変化させることにより,清浄な画像と比較してウォルシュ係数によって近似されるというものである。 クリーン画像と逆画像のウォルシュ係数近似の差を観測することにより,攻撃の伝達性が検出に有効であることを実験的に示す。 さらに、決定境界の近似は、DNNの学習性や伝達性を理解するのに役立つ。 実験では画像を用いたが、2種類のアンサンブル決定境界をモデル化する手法は原則として任意のアプリケーション領域に適用できる。 Walsh係数を用いたブール関数近似コード:https://doi.org/10.24433/CO.3695905.v1

A new method of detecting adversarial attacks is proposed for an ensemble of Deep Neural Networks (DNNs) solving two-class pattern recognition problems. The ensemble is combined using Walsh coefficients which are capable of approximating Boolean functions and thereby controlling the complexity of the ensemble decision boundary. The hypothesis in this paper is that decision boundaries with high curvature allow adversarial perturbations to be found, but change the curvature of the decision boundary, which is then approximated in a different way by Walsh coefficients compared to the clean images. By observing the difference in Walsh coefficient approximation between clean and adversarial images, it is shown experimentally that transferability of attack may be used for detection. Furthermore, approximating the decision boundary may aid in understanding the learning and transferability properties of DNNs. While the experiments here use images, the proposed approach of modelling two-class ensemble decision boundaries could in principle be applied to any application area. Code for approximating Boolean functions using Walsh coefficients: https://doi.org/10.24433/CO.3695905.v1
翻訳日:2024-01-25 18:17:20 公開日:2024-01-24
# 単一キュービットのデコヒーレンス時間スケールのリアルタイム適応推定

Real-time adaptive estimation of decoherence timescales for a single qubit ( http://arxiv.org/abs/2210.06103v4 )

ライセンス: Link先を確認
Muhammad Junaid Arshad, Christiaan Bekker, Ben Haylock, Krzysztof Skrzypczak, Daniel White, Benjamin Griffiths, Joe Gore, Gavin W. Morley, Patrick Salter, Jason Smith, Inbar Zohar, Amit Finkler, Yoann Altmann, Erik M. Gauger and Cristian Bonato(参考訳) 量子コヒーレンスが存続する時間を特徴付けることは、量子ビット、メモリ、センサーの実装に不可欠である。 量子システムのデコヒーレンス率を決定する一般的な方法は、このパラメータの期待範囲全体を探索し、後処理で得られる推定値を抽出する一連の実験である。 ここでは, 簡単な解析的更新規則に基づく適応型マルチパラメータベイズ手法を提案し, 先行実験で得られた情報を用いて, 量子系の鍵デコヒーレンス時間スケール(T_1$, $T_2^*$, $T_2$)と対応する減衰指数をリアルタイムで推定する。 このアプローチは、曲線フィッティングの標準プロトコルと比較して、特定の実験に応じて、与えられた不確実性に到達するのに要する時間を最大で1桁削減する。 因子 $\sim 2$ のさらなる高速化は、分散に対して感度に関して最適化を行うことによって実現できる。

Characterising the time over which quantum coherence survives is critical for any implementation of quantum bits, memories and sensors. The usual method for determining a quantum system's decoherence rate involves a suite of experiments probing the entire expected range of this parameter, and extracting the resulting estimation in post-processing. Here we present an adaptive multi-parameter Bayesian approach, based on a simple analytical update rule, to estimate the key decoherence timescales ($T_1$, $T_2^*$ and $T_2$) and the corresponding decay exponent of a quantum system in real time, using information gained in preceding experiments. This approach reduces the time required to reach a given uncertainty by a factor up to an order of magnitude, depending on the specific experiment, compared to the standard protocol of curve fitting. A further speed-up of a factor $\sim 2$ can be realised by performing our optimisation with respect to sensitivity as opposed to variance.
翻訳日:2024-01-25 18:16:27 公開日:2024-01-24
# Mach-Zehnder干渉計のコヒーレンスとコンテキスト性

Coherence and contextuality in a Mach-Zehnder interferometer ( http://arxiv.org/abs/2210.05624v2 )

ライセンス: Link先を確認
Rafael Wagner, Anita Camillini, Ernesto F. Galv\~ao(参考訳) 一般化された非文脈性不等式と基底非依存コヒーレンス証人を用いて干渉現象における非古典的資源を分析する。 私たちは、最近提案された同じフレームワーク内の両方のリソースを目撃する不等式を使用します。 また,従来の文脈的アドバンテージの観点から,量子情報プロトコルにおけるコヒーレンスとコンテキスト性によって得られるアドバンテージを特徴付けるための体系的手法を提案する。 我々は、この手法を量子尋問のタスクに応用し、そのタスクに文脈的量子優位を示す、パラダイム的爆弾テストインターフェロメトリー実験で有名である。

We analyse nonclassical resources in interference phenomena using generalized noncontextuality inequalities and basis-independent coherence witnesses. We use recently proposed inequalities that witness both resources within the same framework. We also propose, in view of previous contextual advantage results, a systematic way of applying these tools to characterize advantage provided by coherence and contextuality in quantum information protocols. We instantiate this methodology for the task of quantum interrogation, famously introduced by the paradigmatic bomb-testing interferometric experiment, showing contextual quantum advantage for such a task.
翻訳日:2024-01-25 18:16:08 公開日:2024-01-24
# メソスコピック状態におけるin-situ bifurcation増幅を用いたtransmon-qubitreadout

Transmon-qubit readout using in-situ bifurcation amplification in the mesoscopic regime ( http://arxiv.org/abs/2210.04793v2 )

ライセンス: Link先を確認
R. Dassonneville, T. Ramos, V. Milchakov, C. Mori, L. Planat, F. Foroughi, C. Naud, W. Hasch-Guichard, J. J. Garcia-Ripoll, N. Roch and O. Buisson(参考訳) 量子ビットに結合したポラリトニックメータの駆動に対する非線形応答に基づいて,トランモン量子ビットの読み出しを実演する。 3次元読み出しキャビティ内で、トランスモンキュービットと非摂動クロスカーカップリングを介して相互作用するアンシラモードからなるトランスモン分子を配置する。 空洞はアンシラモードにのみ強く結合し、下方偏光度と上方偏光度がハイブリッド化される。 いずれのポラリトンも反調和的かつ散逸的であり、それらは空洞から自己ケラ非線形性 u$ を継承し、有効減衰 $\kappa$ を開空洞から受け継いでいる。 アンシラを介して、ポラリトンメーターは非摂動クロスカーカップリングをキュービットに継承する。 これにより、高い量子ビット依存の変位 2\chi > \kappa, ~u$ となり、これはパーセルの崩壊を引き起こすことなくキャビティを介して読み出すことができる。 さらに、非線形共振器であるポラリトンメータは、プローブパワーが増加すると、安定性、分岐挙動を示す。 本研究は,数光子系における低消費電力での分岐に着目したメソスコピックレジーム(メソスコピックレジーム)であり,ポラリトンメータの自己Kerrと崩壊速度が同じような$U\sim \kappa$である場合にアクセス可能である。 分岐によってラッチング機構に乗じた読み出しは、最初の10ナノ秒でのみトランスモン量子ビット緩和誤差に敏感である。 したがって、500 nsの積分時間を持ち、外部の量子制限増幅器の必要のないシングルショット忠実度を98.6 $\%$とする。

We demonstrate a transmon qubit readout based on the nonlinear response to a drive of polaritonic meters in-situ coupled to the qubit. Inside a 3D readout cavity, we place a transmon molecule consisting of a transmon qubit and an ancilla mode interacting via non-perturbative cross-Kerr coupling. The cavity couples strongly only to the ancilla mode, leading to hybridized lower and upper polaritonic meters. Both polaritons are anharmonic and dissipative, as they inherit a self-Kerr nonlinearity $U$ from the ancilla and effective decay $\kappa$ from the open cavity. Via the ancilla, the polariton meters also inherit the non-perturbative cross-Kerr coupling to the qubit. This results in a high qubit-dependent displacement $2\chi > \kappa, ~U$ that can be read out via the cavity without causing Purcell decay. Moreover, the polariton meters, being nonlinear resonators, present bistability, and bifurcation behavior when the probing power increases. In this work, we focus on the bifurcation at low power in the few-photon regime, called the mesoscopic regime, which is accessible when the self-Kerr and decay rates of the polariton meter are similar $U\sim \kappa$. Capitalizing on a latching mechanism by bifurcation, the readout is sensitive to transmon qubit relaxation error only in the first tens of nanoseconds. We thus report a single-shot fidelity of 98.6 $\%$ while having an integration time of a 500 ns and no requirement for an external quantum-limited amplifier.
翻訳日:2024-01-25 18:15:57 公開日:2024-01-24
# 純ボソニック拡張による絡み合い検出

Detecting Entanglement by Pure Bosonic Extension ( http://arxiv.org/abs/2209.10934v3 )

ライセンス: Link先を確認
Xuanran Zhu, Chao Zhang, Chenfeng Cao, Youning Li, Yiu Tung Poon, Bei Zeng(参考訳) 量子情報理論の領域では、量子エンタングルメントの検出と量子化が最重要課題である。 絡み合いの相対エントロピー(REE)は絡み合いの顕著な尺度であり、多くの関連分野にまたがる広範な応用がある。 正部分変換(PPT)の基準は、REEの効率的な計算方法を提供しながら、残念ながら、有界絡みを扱う際には不足する。 本研究では,階層構造を通して「外側」から分離可能な状態の集合を近似する,$k$-ボソニック拡張の実用性を高めるために,「純ボソニック拡張」と呼ばれる手法を提案する。 これにより、k$-bosonic extendible state のセットの効率的なキャラクタリゼーションが可能になり、ree の正確な下限の導出が容易になる。 QETLABの対称/ボソニック拡張関数のような半定値プログラミング(SDP)手法と比較して、我々のアルゴリズムはより大きな次元とより高い拡張$k$をサポートする。

In the realm of quantum information theory, the detection and quantification of quantum entanglement stand as paramount tasks. The relative entropy of entanglement (REE) serves as a prominent measure of entanglement, with extensive applications spanning numerous related fields. The positive partial transpose (PPT) criterion, while providing an efficient method for the computation of REE, unfortunately, falls short when dealing with bound entanglement. In this study, we propose a method termed "pure bosonic extension" to enhance the practicability of $k$-bosonic extensions, which approximates the set of separable states from the "outside", through a hierarchical structure. It enables efficient characterization of the set of $k$-bosonic extendible states, facilitating the derivation of accurate lower bounds for REE. Compared to the Semi-Definite Programming (SDP) approach, such as the symmetric/bosonic extension function in QETLAB, our algorithm supports much larger dimensions and higher values of extension $k$.
翻訳日:2024-01-25 18:15:22 公開日:2024-01-24
# ユニタリ回路ゲームにおける絡み合い遷移

Entanglement Transitions in Unitary Circuit Games ( http://arxiv.org/abs/2304.12965v2 )

ライセンス: Link先を確認
Ra\'ul Morral-Yepes, Adam Smith, S. L. Sondhi, Frank Pollmann(参考訳) ユニタリ回路における繰り返しの投影的測定は、測定速度が調整されるにつれて、絡み合い相転移を引き起こす可能性がある。 そこで本研究では,射影測度を動的に選択したユニタリゲートに置き換え,絡み合いを最小限に抑える異なる設定について考察する。 これは、2人のプレーヤーがランダムに割り当てられた結合に異なるレートでユニタリゲートを配置する1次元のユニタリ回路ゲームであると見なすことができる。 状態に関する限られた知識に基づく「不連続」は、有限(領域法)の絡み合いのみに制限することを目的として、割り当てられた結合の絡み合いエントロピーを減少させるユニタリゲートを選択する。 結果として生じる絡み合いのダイナミクスを明らかにするために、3つの異なるシナリオを考えます。 (i)古典的な離散高さモデル (ii)クリフォード回路、及び (iii)一般的な$U(4)$ユニタリ回路。 古典的回路モデルとクリフォード回路モデルの両方が、確率的フレドキン連鎖との接続を通して理解できるような類似した性質を持つゲートを解離器が配置する速度の関数として位相遷移を示す。 対照的に、haarランダムユニタリゲートを使用するときは常に「エンタングルラー」が勝利し、エンタングルリングの非ゼロレートに対して広範な体積則エンタングルメントを観測する。

Repeated projective measurements in unitary circuits can lead to an entanglement phase transition as the measurement rate is tuned. In this work, we consider a different setting in which the projective measurements are replaced by dynamically chosen unitary gates that minimize the entanglement. This can be seen as a one-dimensional unitary circuit game in which two players get to place unitary gates on randomly assigned bonds at different rates: The "entangler" applies a random local unitary gate with the aim of generating extensive (volume law) entanglement. The "disentangler," based on limited knowledge about the state, chooses a unitary gate to reduce the entanglement entropy on the assigned bond with the goal of limiting to only finite (area law) entanglement. In order to elucidate the resulting entanglement dynamics, we consider three different scenarios: (i) a classical discrete height model, (ii) a Clifford circuit, and (iii) a general $U(4)$ unitary circuit. We find that both the classical and Clifford circuit models exhibit phase transitions as a function of the rate that the disentangler places a gate, which have similar properties that can be understood through a connection to the stochastic Fredkin chain. In contrast, the "entangler" always wins when using Haar random unitary gates and we observe extensive, volume law entanglement for all non-zero rates of entangling.
翻訳日:2024-01-25 18:09:00 公開日:2024-01-24
# 準バイナリ符号化に基づく量子交互演算子アンサッツ

Quasi-binary encoding based quantum alternating operator ansatz ( http://arxiv.org/abs/2304.06915v2 )

ライセンス: Link先を確認
Bingren Chen, Hanqing Wu, Haomu Yuan, Lei Wu, Xin Li(参考訳) 本稿では、量子近似最適化アルゴリズム(QAOA)フレームワークにおいて、離散変数を持つ特定の二次最適化モデルを解くための準バイナリ符号化に基づくアルゴリズムを提案する。 二次最適化モデルには3つの制約がある。 1. 離散制約 変数は整数であることが要求される。 2. 境界制約は、各変数が整数以上で他の整数以下であることが要求される。 3.sum制約 すべての変数の和は与えられた整数でなければならない。 この最適化モデルを解くために,変数の符号化に準バイナリエンコーディングを用いる。 上界の$U_i$と下界の$L_i$を持つ整数変数の場合、この符号化法は変数をエンコードするために少なくとも$2\log_2 (U_i-L_i+1)$ qubitsを使用することができる。 さらに,この符号化のための混合演算子を設計し,ハード制約モデルを満たす。 ハード制約モデルでは、量子状態は常に進化中の制約を満たすものであり、目的関数にペナルティ項は必要ない。 QAOAフレームワークの他の部分では、CVaR-QAOAやパラメータスケジューリング手法といったアイデアもQAOAアルゴリズムに取り入れています。 金融分野では、精度を導入することで、ポートフォリオ最適化の問題を上記のモデルに還元することができる。 数値シミュレーションにはポートフォリオ最適化の事例を用いる。 シミュレータや量子コンピュータの量子ビット不足に起因する粗い精度の問題を解決するための反復的手法を設計する。 この反復法は、複数の数ビットの実験によって精度を向上することができる。

This paper proposes a quasi-binary encoding based algorithm for solving a specific quadratic optimization models with discrete variables, in the quantum approximate optimization algorithm (QAOA) framework. The quadratic optimization model has three constraints: 1. Discrete constraint, the variables are required to be integers. 2. Bound constraint, each variable is required to be greater than or equal to an integer and less than or equal to another integer. 3. Sum constraint, the sum of all variables should be a given integer. To solve this optimization model, we use quasi-binary encoding to encode the variables. For an integer variable with upper bound $U_i$ and lower bound $L_i$, this encoding method can use at most $2\log_2 (U_i-L_i+1)$ qubits to encode the variable. Moreover, we design a mixing operator specifically for this encoding to satisfy the hard constraint model. In the hard constraint model, the quantum state always satisfies the constraints during the evolution, and no penalty term is needed in the objective function. In other parts of the QAOA framework, we also incorporate ideas such as CVaR-QAOA and parameter scheduling methods into our QAOA algorithm. In the financial field, by introducing precision, portfolio optimization problems can be reduced to the above model. We will use portfolio optimization cases for numerical simulation. We design an iterative method to solve the problem of coarse precision caused by insufficient qubits of the simulators or quantum computers. This iterative method can refine the precision by multiple few-qubit experiments.
翻訳日:2024-01-25 18:08:31 公開日:2024-01-24
# 実用的なエンティティアライメント手法設計に向けて:新しい高度不均一な知識グラフデータセットから

Toward Practical Entity Alignment Method Design: Insights from New Highly Heterogeneous Knowledge Graph Datasets ( http://arxiv.org/abs/2304.03468v3 )

ライセンス: Link先を確認
Xuhui Jiang, Chengjin Xu, Yinghan Shen, Yuanzhuo Wang, Fenglong Su, Fei Sun, Zixuan Li, Zhichao Shi, Jian Guo, Huawei Shen(参考訳) 知識グラフアプリケーションの普及により、KG間のエンティティアライメント(EA)の必要性が高まった。 しかし、異なるスケール、構造、限定的な重なり合うエンティティによって特徴づけられる実用的なKGの不均一性は、既存のEAデータセットをはるかに上回る。 この不一致は、現在のEAデータセットにおける過度に単純化された異種性を強調し、最近のEAメソッドによって達成された進歩の完全な理解を妨げる。 本稿では, EA法の性能について検討し, 特に高ヘテロジニアスKG(HHKGs)のアライメントに着目した。 まず、現在のデータセットの単純化されたヘテロジニティ設定に対処し、実用的なEAシナリオを忠実に模倣する2つの新しいHHKGデータセットを提案する。 そして,これらのデータセットに基づいて,従来の代表的EA手法を評価するための広範な実験を行った。 以上の結果から,HHKGと協調して,メッセージパッシングやアグリゲーション機構を通じて,貴重な構造情報を活用できることが示唆された。 この現象は、既存のEA手法、特にGNNに基づく手法よりも性能が劣る。 これらの結果は、すべてのeaデータセットのpanaceaとしてgnnベースのメソッドを従来の用途に適用することに伴う潜在的な問題に光を当てた。 したがって、これらの観察を踏まえて、EA方法論が実際的なシナリオで真に有益であるかを解明するために、単純で効果的なアプローチであるSimple-HHEAを実装して、詳細な分析を行う。 この方法は、エンティティ名、構造、時間情報を適切に統合し、HHKGsがもたらす課題をナビゲートする。 実験の結果,将来EAモデル設計の鍵となるのは,情報品質の異なる条件への適応性と効率性,およびHHKGのパターンを捉える能力であることがわかった。

The flourishing of knowledge graph applications has driven the need for entity alignment (EA) across KGs. However, the heterogeneity of practical KGs, characterized by differing scales, structures, and limited overlapping entities, greatly surpasses that of existing EA datasets. This discrepancy highlights an oversimplified heterogeneity in current EA datasets, which obstructs a full understanding of the advancements achieved by recent EA methods. In this paper, we study the performance of EA methods in practical settings, specifically focusing on the alignment of highly heterogeneous KGs (HHKGs). Firstly, we address the oversimplified heterogeneity settings of current datasets and propose two new HHKG datasets that closely mimic practical EA scenarios. Then, based on these datasets, we conduct extensive experiments to evaluate previous representative EA methods. Our findings reveal that, in aligning HHKGs, valuable structure information can hardly be exploited through message-passing and aggregation mechanisms. This phenomenon leads to inferior performance of existing EA methods, especially those based on GNNs. These findings shed light on the potential problems associated with the conventional application of GNN-based methods as a panacea for all EA datasets. Consequently, in light of these observations and to elucidate what EA methodology is genuinely beneficial in practical scenarios, we undertake an in-depth analysis by implementing a simple but effective approach: Simple-HHEA. This method adaptly integrates entity name, structure, and temporal information to navigate the challenges posed by HHKGs. Our experiment results conclude that the key to the future EA model design in practice lies in their adaptability and efficiency to varying information quality conditions, as well as their capability to capture patterns across HHKGs.
翻訳日:2024-01-25 18:08:05 公開日:2024-01-24
# 二層グラフェン量子ドットにおける長寿命バレー状態

Long-lived valley states in bilayer graphene quantum dots ( http://arxiv.org/abs/2304.00980v2 )

ライセンス: Link先を確認
Rebekka Garreis and Chuyao Tong and Jocelyn Terle and Max Josef Ruckriegel and Jonas Daniel Gerber and Lisa Maria G\"achter and Kenji Watanabe and Takashi Taniguchi and Thomas Ihn and Klaus Ensslin and Wei Wister Huang(参考訳) 二層グラフェンは二次元材料の電気制御可能な量子ビットのための有望なプラットフォームである。 特に興味深いのは、量子情報を「谷の自由度」と呼ばれる六方晶構造の対称性から生じる2次元の軌道縮退性にエンコードする能力である。 谷の利用は利点があり、スピンと軌道の混合機構が谷の作業には適さないため、より堅牢な量子ビットが期待できる。 バレー状態に関連するベリー曲率はエネルギーの電気的制御を可能にし、コヒーレント量子ビット操作の経路を示唆している。 しかし、これらの量子ビットのコヒーレンス特性を最終的に制限するバレー状態の緩和時間は、実際的な量子ビットとしての適合性はまだ分かっていない。 ここでは、ゲート定義二層グラフェン量子ドットデバイスにおけるスピンおよびバレー状態の特性緩和時間を測定する。 異なるバレー州は99%以上の忠実度で区別することができる。 谷の三重項と一重項の間の緩和時間は500msを超え、スピン状態よりも1桁長くなる。 この研究はバレー・キュービットのコヒーレンスに関する将来の測定を促進し、電気的に制御されたバレー・キュービットをホストする実用的なプラットフォームとして二層グラフェンを実証する。

Bilayer graphene is a promising platform for electrically controllable qubits in a two-dimensional material. Of particular interest is the ability to encode quantum information in the so-called valley degree of freedom, a two-fold orbital degeneracy that arises from the symmetry of the hexagonal crystal structure. The use of valleys could be advantageous, as known spin- and orbital-mixing mechanisms are unlikely to be at work for valleys, promising more robust qubits. The Berry curvature associated with valley states allows for electrical control of their energies, suggesting routes for coherent qubit manipulation. However, the relaxation time of valley states -- which ultimately limits these qubits' coherence properties and therefore their suitability as practical qubits -- is not yet known. Here, we measure the characteristic relaxation times of these spin and valley states in gate-defined bilayer graphene quantum dot devices. Different valley states can be distinguished from each other with a fidelity of over 99%. The relaxation time between valley triplets and singlets exceeds 500ms, and is more than one order of magnitude longer than for spin states. This work facilitates future measurements on valley-qubit coherence, demonstrating bilayer graphene as a practical platform hosting electrically controlled long-lived valley qubits.
翻訳日:2024-01-25 18:07:35 公開日:2024-01-24
# 資源制約付き無線エッジネットワークを用いた並列分割学習

Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks ( http://arxiv.org/abs/2303.15991v4 )

ライセンス: Link先を確認
Zheng Lin, Guangyu Zhu, Yiqin Deng, Xianhao Chen, Yue Gao, Kaibin Huang, Yuguang Fang(参考訳) ますます深いニューラルネットワークは、フェデレーション学習(FL)のような、プライバシ強化による分散学習の、リソース制約のあるデバイスへの民主化を妨げる。 本稿では、エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱し、複数のクライアントデバイスがレイヤーワイドモデル分割を介してエッジサーバに大規模なトレーニングワークロードをオフロードできるようにする。 既存のPSLスキームが過度なトレーニング遅延と大量のデータ伝送を発生させるのを観察することにより、モデルトレーニングを加速するために、効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。 具体的には、epslはクライアント側のモデルのトレーニングを並列化し、ラスト層勾配アグリゲーションを通じてバックプロパゲーション(bp)の局所勾配の次元を削減し、サーバ側のトレーニングと通信遅延を大幅に削減する。 さらに,クライアントデバイスにおける不均質なチャネル条件と計算能力を考慮することで,サブチャネル割り当て,電力制御,カット層選択を共同で最適化し,ラウンド単位のレイテンシを最小化する。 シミュレーションの結果,epslフレームワークは,目標精度を達成するのに必要なトレーニングレイテンシを,最先端のベンチマークと比較して有意に低減し,最適化せずにリソース管理とレイヤ分割戦略をカスタマイズすることでレイテンシを大幅に削減できることがわかった。

The increasingly deeper neural networks hinder the democratization of privacy-enhancing distributed learning, such as federated learning (FL), to resource-constrained devices. To overcome this challenge, in this paper, we advocate the integration of edge computing paradigm and parallel split learning (PSL), allowing multiple client devices to offload substantial training workloads to an edge server via layer-wise model split. By observing that existing PSL schemes incur excessive training latency and large volume of data transmissions, we propose an innovative PSL framework, namely, efficient parallel split learning (EPSL), to accelerate model training. To be specific, EPSL parallelizes client-side model training and reduces the dimension of local gradients for back propagation (BP) via last-layer gradient aggregation, leading to a significant reduction in server-side training and communication latency. Moreover, by considering the heterogeneous channel conditions and computing capabilities at client devices, we jointly optimize subchannel allocation, power control, and cut layer selection to minimize the per-round latency. Simulation results show that the proposed EPSL framework significantly decreases the training latency needed to achieve a target accuracy compared with the state-of-the-art benchmarks, and the tailored resource management and layer split strategy can considerably reduce latency than the counterpart without optimization.
翻訳日:2024-01-25 18:07:12 公開日:2024-01-24
# cito:torchを使用したニューラルネットワークトレーニング用rパッケージ

cito: An R package for training neural networks using torch ( http://arxiv.org/abs/2303.09599v3 )

ライセンス: Link先を確認
Christian Amesoeder, Florian Hartig, Maximilian Pichler(参考訳) ディープニューラルネットワーク(DNN)は生態学の中心的な手法となっている。 現在のディープラーニング(DL)アプリケーションは、DNNの構築とトレーニングに、特にTorchやTensorFlowといった主要なディープラーニングフレームワークの1つに依存しています。 しかし、これらのフレームワークを使用するには、R環境の典型的な回帰関数よりも、はるかに多くの経験と時間が必要です。 そこで我々は,多くのRパッケージが使用した,慣れ親しんだ公式構文でDNNを指定可能な,DL用のユーザフレンドリなRパッケージである'cito'を提案する。 モデルに適合させるために'cito'は'torch'を使用し、CPU上のトレーニングモデルとグラフィック処理ユニット(GPU)を切り替える機能(大きなDNNを効率的に訓練できる)など、数値的に最適化されたトーチライブラリを活用する。 さらに、"cito"にはモデルプロットと分析のための多くのユーザフレンドリな機能が含まれており、予測のためのブートストラップに基づくオプションの信頼区間(CI)や、効果のサイズとCIとp値による変数の重要度に関する説明可能なAI(xAI)メトリクスが含まれている。 訓練されたDNNを探索するために組み込まれたxAI機能を含む「シトー」を用いた典型的な分析パイプラインを紹介するため、アフリカゾウの種分布モデルを構築した。 DNNを指定、デプロイ、解釈するためのユーザフレンドリーなRフレームワークを提供することで、'cito'が、この興味深いモデルクラスをエコロジーデータ分析によりアクセスしやすくすることを願っています。 安定したバージョンのcitoは、総合Rアーカイブネットワーク(CRAN)からインストールすることができる。

Deep Neural Networks (DNN) have become a central method in ecology. Most current deep learning (DL) applications rely on one of the major deep learning frameworks, in particular Torch or TensorFlow, to build and train DNN. Using these frameworks, however, requires substantially more experience and time than typical regression functions in the R environment. Here, we present 'cito', a user-friendly R package for DL that allows specifying DNNs in the familiar formula syntax used by many R packages. To fit the models, 'cito' uses 'torch', taking advantage of the numerically optimized torch library, including the ability to switch between training models on the CPU or the graphics processing unit (GPU) (which allows to efficiently train large DNN). Moreover, 'cito' includes many user-friendly functions for model plotting and analysis, including optional confidence intervals (CIs) based on bootstraps for predictions and explainable AI (xAI) metrics for effect sizes and variable importance with CIs and p-values. To showcase a typical analysis pipeline using 'cito', including its built-in xAI features to explore the trained DNN, we build a species distribution model of the African elephant. We hope that by providing a user-friendly R framework to specify, deploy and interpret DNN, 'cito' will make this interesting model class more accessible to ecological data analysis. A stable version of 'cito' can be installed from the comprehensive R archive network (CRAN).
翻訳日:2024-01-25 18:05:52 公開日:2024-01-24
# 量子電池充電のための有益かつ有害な絡み合い

Beneficial and detrimental entanglement for quantum battery charging ( http://arxiv.org/abs/2303.07841v3 )

ライセンス: Link先を確認
Ju-Yeon Gyhm and Uwe R. Fischer(参考訳) 充電プロトコルの初期状態と最終状態の間に高い絡み合った量子状態を用いることで、量子電池の最大充電能力を高めることの潜在的な利点を評価するための一般的な実装に依存しないアプローチを確立する。 エンタングルメントの電力への影響は、ハミルトニアン駆動の最適選択に関連する大域的な量子速度限界と電池のエネルギーギャップの両方から分離できることが示されている。 次に、所与の量子速度限界と電池エネルギーギャップで得られる電力として定義される電池充電の量子状態の利点は、絡み合いモノトンではないことを実証する。 特筆すべき例は、局所電池の独立な熱化が、あらゆる絡み合いを完全に破壊し、初期最大絡み状態よりも大きな帯電力をもたらすことである。 したがって、高い絡み合った状態は、積状態と比較して潜在的に不利である。 また,w や $k$ の局所的絡み合い状態などの高い絡み合い状態の生成に相当な労力を掛けて,バッテリセル数で量子エンハンスドスケーリング動作を得るには不十分であることを実証した。 最後に、Sachdev-Ye-Kitaevバッテリ充電器の明示的な計算を行い、量子状態の利点により、瞬時電力がその古典的境界を超えることを実証する。

We establish a general implementation-independent approach to assess the potential advantage of using highly entangled quantum states between the initial and final states of the charging protocol to enhance the maximum charging power of quantum batteries. It is shown that the impact of entanglement on power can be separated from both the global quantum speed limit associated to an optimal choice of driving Hamiltonian and the energy gap of the batteries. We then demonstrate that the quantum state advantage of battery charging, defined as the power obtainable for given quantum speed limit and battery energy gap, is not an entanglement monotone. A striking example we provide is that, counterintuitively, independent thermalization of the local batteries, completely destroying any entanglement, can lead to larger charging power than that of the initial maximally entangled state. Highly entangled states can thus also be potentially disadvantageous when compared to product states. We also demonstrate that taking the considerable effort of producing highly entangled states, such as W or $k$-locally entangled states, is not sufficient to obtain quantum-enhanced scaling behavior with the number of battery cells. Finally, we perform an explicit computation for a Sachdev-Ye-Kitaev battery charger to demonstrate that the quantum state advantage allows the instantaneous power to exceed its classical bound.
翻訳日:2024-01-25 18:05:18 公開日:2024-01-24
# マルチアンテナシステムにおけるディジタルオーバーザ・エアフェデレーション学習

Digital Over-the-Air Federated Learning in Multi-Antenna Systems ( http://arxiv.org/abs/2302.14648v2 )

ライセンス: Link先を確認
Sihua Wang and Mingzhe Chen and Cong Shen and Changchuan Yin and Christopher G. Brinton(参考訳) 本稿では,ディジタル変調とaircomp(over-the-air computation)を用いた現実的無線多入力多重出力(mimo)通信システム上でのフェデレーション学習(fl)の性能最適化について検討する。 特に、エッジデバイスが(ローカル収集データを用いて訓練された)ローカルFLモデルをビームフォーミングを用いてパラメータサーバ(PS)に送信し、送信予定デバイスの数を最大化するMIMOシステムを考える。 中央コントローラとして機能するPSは、受信したローカルFLモデルを使用してグローバルFLモデルを生成し、それを全デバイスにブロードキャストする。 無線ネットワークの帯域幅が限られているため、効率的な無線データアグリゲーションを実現するためにAirCompが採用されている。 しかし、無線チャネルのフェードはAirCompベースのFLスキームにおいて集約歪みを生じさせる。 そこで本研究では,ディジタル変調とaircompを組み合わせたfederated averaging(fedavg)アルゴリズムを提案する。 これは、現在のflモデルパラメータに基づいてビームフォーミング行列を動的に調整し、送信誤差を最小化し、fl性能を確保する最適化問題として定式化されたジョイント送信受信ビームフォーミング設計によって達成される。 この目的を達成するために,まずビームフォーミング行列がfedavgの性能に与える影響を解析的に特徴付ける。 この関係に基づいて、人工知能ニューラルネットワーク(ANN)を用いて、全デバイスの局所FLモデルを推定し、将来のモデル伝送のためにPSのビーム形成行列を調整する。 提案手法のアルゴリズム的利点と性能改善は, 広範囲な数値実験により実証された。

In this paper, the performance optimization of federated learning (FL), when deployed over a realistic wireless multiple-input multiple-output (MIMO) communication system with digital modulation and over-the-air computation (AirComp) is studied. In particular, a MIMO system is considered in which edge devices transmit their local FL models (trained using their locally collected data) to a parameter server (PS) using beamforming to maximize the number of devices scheduled for transmission. The PS, acting as a central controller, generates a global FL model using the received local FL models and broadcasts it back to all devices. Due to the limited bandwidth in a wireless network, AirComp is adopted to enable efficient wireless data aggregation. However, fading of wireless channels can produce aggregate distortions in an AirComp-based FL scheme. To tackle this challenge, we propose a modified federated averaging (FedAvg) algorithm that combines digital modulation with AirComp to mitigate wireless fading while ensuring the communication efficiency. This is achieved by a joint transmit and receive beamforming design, which is formulated as an optimization problem to dynamically adjust the beamforming matrices based on current FL model parameters so as to minimize the transmitting error and ensure the FL performance. To achieve this goal, we first analytically characterize how the beamforming matrices affect the performance of the FedAvg in different iterations. Based on this relationship, an artificial neural network (ANN) is used to estimate the local FL models of all devices and adjust the beamforming matrices at the PS for future model transmission. The algorithmic advantages and improved performance of the proposed methodologies are demonstrated through extensive numerical experiments.
翻訳日:2024-01-25 18:04:24 公開日:2024-01-24
# タンパク質構造の内部座標密度モデリング:共分散問題

Internal-Coordinate Density Modelling of Protein Structure: Covariance Matters ( http://arxiv.org/abs/2302.13711v3 )

ライセンス: Link先を確認
Marloes Arts, Jes Frellsen, Wouter Boomsma(参考訳) タンパク質構造予測の最近の進歩の後、タンパク質機械学習における残りの課題の1つは、構造状態の分布を確実に予測することである。 タンパク質鎖の自由度の間の複雑な共分散構造のため、変動のパラメトリックモデルは適合し難いため、しばしばモデルが局所的または大域的構造的制約に違反する。 本稿では,3次元空間における制約を利用して内部自由度間の共分散構造を誘導する,タンパク質密度を内部座標でモデル化する新しい戦略を提案する。 条件平均によって入力される制約によって引き起こされる完全な共分散出力を持つ変分自己エンコーダを3Dで構築し,本手法により内部座標の密度モデルをフルタンパク質のバックボーンに2つの設定で拡張できることを実証する。 1)少ない変動と限られた量の利用可能なデータを示すタンパク質の単調な設定 2) ハイデータレジームにおけるより大きなコンフォメーション変化のためのマルチモーダル設定。

After the recent ground-breaking advances in protein structure prediction, one of the remaining challenges in protein machine learning is to reliably predict distributions of structural states. Parametric models of fluctuations are difficult to fit due to complex covariance structures between degrees of freedom in the protein chain, often causing models to either violate local or global structural constraints. In this paper, we present a new strategy for modelling protein densities in internal coordinates, which uses constraints in 3D space to induce covariance structure between the internal degrees of freedom. We illustrate the potential of the procedure by constructing a variational autoencoder with full covariance output induced by the constraints implied by the conditional mean in 3D, and demonstrate that our approach makes it possible to scale density models of internal coordinates to full protein backbones in two settings: 1) a unimodal setting for proteins exhibiting small fluctuations and limited amounts of available data, and 2) a multimodal setting for larger conformational changes in a high data regime.
翻訳日:2024-01-25 18:03:56 公開日:2024-01-24
# 癌分子サブタイプ分類のためのマルチモーダルグラフニューラルネットワークフレームワーク

A Multimodal Graph Neural Network Framework of Cancer Molecular Subtype Classification ( http://arxiv.org/abs/2302.12838v2 )

ライセンス: Link先を確認
Bingjun Li, Sheida Nabavi(参考訳) 近年の高スループットシークエンシングの発展は、多数のマルチオミクスデータを生み出し、研究者は、分子サブタイプに基づくがんの分子プロファイルとがんの分類をよりよく研究することができる。 マルチオミクスデータの統合はより正確な分類モデルを構築するのに有効であることが証明されている。 現在のマルチオミクス統合モデルは主に、ディープニューラルネットワークに基づく結合または後期融合による早期融合を用いる。 生物学的システムの性質から、グラフは生体医療データのより良い表現である。 グラフニューラルネットワーク(GNN)に基づくマルチオミクス積分法はほとんど提案されていないが、3つの共通の欠点に悩まされている。 ひとつは、ミオニクスまたはオーミック内接続のどちらかで、もうひとつは、グラフ畳み込みネットワーク(GCN)またはグラフアテンションネットワーク(GAT)のどちらかの種類のGNN層のみを考慮し、もうひとつは、これらの手法のほとんどは、より複雑ながん分類タスクの試験を欠いていることである。 本稿では, 癌サブタイプ分類の正確かつ堅牢な分類のための, エンドツーエンドマルチオミクスGNNフレームワークを提案する。 提案モデルでは, 確立された生物学的知識から, 生体内および生体内の両方を結合した異種多層グラフの形で, マルチオミクスデータを利用する。 提案モデルは、正確な分類のために学習グラフの特徴とグローバルゲノムの特徴を組み込んだものである。 そこで本研究では,分子サブタイプ分類と癌サブタイプ分類のためのTGAパン癌データセットとTGA乳がんデータセットを用いて提案モデルを検証した。 提案モデルでは,現状の4つのベースラインモデルを複数の評価指標で比較した。 gatモデルとgcnモデルの比較分析により、gatモデルが情報が少ない小さなグラフに好まれ、gcnモデルが余分な情報を持つ大きなグラフに好まれることが明らかとなった。

The recent development of high-throughput sequencing creates a large collection of multi-omics data, which enables researchers to better investigate cancer molecular profiles and cancer taxonomy based on molecular subtypes. Integrating multi-omics data has been proven to be effective for building more precise classification models. Current multi-omics integrative models mainly use early fusion by concatenation or late fusion based on deep neural networks. Due to the nature of biological systems, graphs are a better representation of bio-medical data. Although few graph neural network (GNN) based multi-omics integrative methods have been proposed, they suffer from three common disadvantages. One is most of them use only one type of connection, either inter-omics or intra-omic connection; second, they only consider one kind of GNN layer, either graph convolution network (GCN) or graph attention network (GAT); and third, most of these methods lack testing on a more complex cancer classification task. We propose a novel end-to-end multi-omics GNN framework for accurate and robust cancer subtype classification. The proposed model utilizes multi-omics data in the form of heterogeneous multi-layer graphs that combines both inter-omics and intra-omic connections from established biological knowledge. The proposed model incorporates learned graph features and global genome features for accurate classification. We test the proposed model on TCGA Pan-cancer dataset and TCGA breast cancer dataset for molecular subtype and cancer subtype classification, respectively. The proposed model outperforms four current state-of-the-art baseline models in multiple evaluation metrics. The comparative analysis of GAT-based models and GCN-based models reveals that GAT-based models are preferred for smaller graphs with less information and GCN-based models are preferred for larger graphs with extra information.
翻訳日:2024-01-25 18:03:38 公開日:2024-01-24
# 不毛高原のないハミルトン変分アンサッツ

Hamiltonian variational ansatz without barren plateaus ( http://arxiv.org/abs/2302.08529v2 )

ライセンス: Link先を確認
Chae-Yeun Park and Nathan Killoran(参考訳) 高表現性パラメタライズド量子回路(PQC)と機械学習の最適化技術を組み合わせた変分量子アルゴリズムは、短期量子コンピュータの最も有望な応用の1つである。 その大きな可能性にもかかわらず、数十量子ビットを超える変分量子アルゴリズムの有用性は疑問視されている。 中心的な問題の1つは、PQCの訓練性である。 ランダムに初期化されたPQCのコスト関数の展望は、しばしば平坦であり、解を見つけるために指数的な量の量子資源を求める。 barren plateausと呼ばれるこの問題は最近多くの注目を集めているが、一般的な解決策はまだ提供されていない。 本稿では,量子多体問題を解くために広く研究されているハミルトン変分 ansatz (hva) について,この問題を解く。 局所ハミルトニアンによって生成される時間進化作用素によって記述された回路が指数関数的に小さな勾配を持たないことを示すと、HVAがそのような作用素によってよく近似されるパラメータ条件を導出する。 この結果に基づき,変分量子アルゴリズムの初期化スキームと,バレン高原を含まないパラメータ制約付きアンサッツを提案する。

Variational quantum algorithms, which combine highly expressive parameterized quantum circuits (PQCs) and optimization techniques in machine learning, are one of the most promising applications of a near-term quantum computer. Despite their huge potential, the utility of variational quantum algorithms beyond tens of qubits is still questioned. One of the central problems is the trainability of PQCs. The cost function landscape of a randomly initialized PQC is often too flat, asking for an exponential amount of quantum resources to find a solution. This problem, dubbed barren plateaus, has gained lots of attention recently, but a general solution is still not available. In this paper, we solve this problem for the Hamiltonian variational ansatz (HVA), which is widely studied for solving quantum many-body problems. After showing that a circuit described by a time-evolution operator generated by a local Hamiltonian does not have exponentially small gradients, we derive parameter conditions for which the HVA is well approximated by such an operator. Based on this result, we propose an initialization scheme for the variational quantum algorithms and a parameter-constrained ansatz free from barren plateaus.
翻訳日:2024-01-25 18:03:07 公開日:2024-01-24
# 高次元ベイズ最適化における獲得関数の可能性

Unleashing the Potential of Acquisition Functions in High-Dimensional Bayesian Optimization ( http://arxiv.org/abs/2302.08298v2 )

ライセンス: Link先を確認
Jiayu Zhao, Renyu Yang, Shenghao Qiu, Zheng Wang(参考訳) ベイズ最適化(BO)はコスト対評価ブラックボックス関数の最適化に広く用いられており、BOはまず目的関数を表す代理モデルを構築し、その不確実性を評価する。 次に、サロゲートモデルに基づいて取得関数(AF)を最大化することで、サンプルの場所を決定する。 しかし、高次元問題を扱う場合、AFのグローバルな最大値を見つけることはますます困難になっている。 このような場合、不適切な設定がAFの有効性を著しく阻害するので、AF最大化器の初期化が重要な役割を果たす。 本稿では, AF の最大化が AF 能力の活用に与える影響について検討した。 大規模実験の結果,広く用いられているランダム初期化戦略は,afのポテンシャルをうまく利用できないことが判明した。 そこで我々は,複数のヒューリスティックオプティマイザを用いてブラックボックス最適化の履歴データを利用して,AF最大点の初期点を生成することにより,より優れた初期化手法を提案する。 我々は,本手法を多種多様な研究された合成関数と実世界の応用で評価する。 実験結果から,本手法は単純ではあるが,ほとんどのテストケースにおいて,bo法と最先端法を大きく上回ることができることがわかった。

Bayesian optimization (BO) is widely used to optimize expensive-to-evaluate black-box functions.BO first builds a surrogate model to represent the objective function and assesses its uncertainty. It then decides where to sample by maximizing an acquisition function (AF) based on the surrogate model. However, when dealing with high-dimensional problems, finding the global maximum of the AF becomes increasingly challenging. In such cases, the initialization of the AF maximizer plays a pivotal role, as an inadequate setup can severely hinder the effectiveness of the AF. This paper investigates a largely understudied problem concerning the impact of AF maximizer initialization on exploiting AFs' capability. Our large-scale empirical study shows that the widely used random initialization strategy often fails to harness the potential of an AF. In light of this, we propose a better initialization approach by employing multiple heuristic optimizers to leverage the historical data of black-box optimization to generate initial points for the AF maximize. We evaluate our approach with a range of heavily studied synthetic functions and real-world applications. Experimental results show that our techniques, while simple, can significantly enhance the standard BO and outperform state-of-the-art methods by a large margin in most test cases.
翻訳日:2024-01-25 18:02:45 公開日:2024-01-24
# TopP&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法

TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v6 )

ライセンス: Link先を確認
Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo(参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。 inception score (is), frechet inception distance (fid), and the variants of precision and recall (p&r)といった既存のメトリクスは、サンプル機能から推定されるサポートに大きく依存している。 しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。 本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp&r,「topper」と発音する)を提案する。 これにより、TopP&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。 理論および実験結果から,TopP&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。 我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。

We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Frechet Inception Distance (FID), and the variants of Precision and Recall (P&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise.
翻訳日:2024-01-25 17:55:30 公開日:2024-01-24
# LLM時代の"Medium"コード:StackOverflowからの教訓

"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow ( http://arxiv.org/abs/2306.03268v2 )

ライセンス: Link先を確認
Manisha Mukherjee, Vincent J. Hellendoorn(参考訳) トレーニング済みの大規模ニューラルネットワークモデルは、NLPとソフトウェアエンジニアリングの両方に大きな進歩をもたらした。 openaiのgptシリーズのモデルは、以前幅広いnlpアプリケーションで新しいベンチマークを設定したgoogleのbertとmetaのrobertaの2倍になった。 これらのモデルは、webクローラから大量のヘテロジニアスなデータに基づいてトレーニングされ、一般的な言語パターンとセマンティックな関係を学べる。 しかしながら、最大のモデルはトレーニングとデプロイに費用がかかり、クローズドソースであることが多いため、データや設計上の決定にはアクセスできません。 大規模で汎用的なモデルへのこの傾向は、より穏やかに訓練された単一目的のモデルで補完されるべきである。 この作業では、stackoverflow(so)を、リッチアライメントされたコードとテキストデータを大量に利用できるドメインの例としています。 非常に大きなコンテキストサイズ(2,048トークン)、バッチサイズ(0.5Mトークン)、トレーニングセット(27Bトークン)、強力なツールキット(Megatron-LM)と組み合わせて、109Mパラメータを持つSOBertBaseと762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングする。 soデータのみにトレーニングされた以前のsomaモデルと,汎用bertモデルとopenaiのchatgptの4つのダウンストリームタスク – 質問品質予測,クローズド質問予測,名前付きエンティティ認識,排他的予測(新たなタスク)です。 私たちのモデルはすべてのベースラインを一貫して上回るだけでなく、小さなモデルは強い結果を得るためには十分です。 どちらのモデルも一般公開されている。 これらの結果は、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための強力で安価な代替手段が得られることを示している。

Large pre-trained neural language models have brought immense progress to both NLP and software engineering. Models in OpenAI's GPT series now dwarf Google's BERT and Meta's RoBERTa, which previously set new benchmarks on a wide range of NLP applications. These models are trained on massive corpora of heterogeneous data from web crawls, which enables them to learn general language patterns and semantic relationships. However, the largest models are both expensive to train and deploy and are often closed-source, so we lack access to their data and design decisions. We argue that this trend towards large, general-purpose models should be complemented with single-purpose, more modestly sized pre-trained models. In this work, we take StackOverflow (SO) as a domain example in which large volumes of rich aligned code and text data is available. We adopt standard practices for pre-training large language models, including using a very large context size (2,048 tokens), batch size (0.5M tokens) and training set (27B tokens), coupled with a powerful toolkit (Megatron-LM), to train two models: SOBertBase, with 109M parameters, and SOBertLarge with 762M parameters, at a budget of just $\$187$ and $\$800$ each. We compare the performance of our models with both the previous SOTA model trained on SO data exclusively as well general-purpose BERT models and OpenAI's ChatGPT on four SO-specific downstream tasks - question quality prediction, closed question prediction, named entity recognition and obsoletion prediction (a new task we introduce). Not only do our models consistently outperform all baselines, the smaller model is often sufficient for strong results. Both models are released to the public. These results demonstrate that pre-training both extensively and properly on in-domain data can yield a powerful and affordable alternative to leveraging closed-source general-purpose models.
翻訳日:2024-01-25 17:55:05 公開日:2024-01-24
# 事前学習モデルを用いたモジュール化ゼロショットVQA

Modularized Zero-shot VQA with Pre-trained Models ( http://arxiv.org/abs/2305.17369v2 )

ライセンス: Link先を確認
Rui Cao and Jing Jiang(参考訳) 大規模事前訓練モデル(PTM)は、優れたゼロショット機能を示す。 本稿では,ゼロショット視覚質問応答(VQA)の活用方法について検討する。 我々のアプローチはいくつかの観察によって動機づけられている。 第一に、VQAの質問は、しばしば複数の推論ステップを必要とするが、ほとんどのPTMに欠けている能力である。 第2に、VQA推論チェーンの異なるステップは、オブジェクト検出やリレーショナル推論のような異なるスキルを必要とするが、単一のPTMはこれらのスキルをすべて持っていないかもしれない。 第3に、ゼロショットVQAに関する最近の研究は、多段階推論連鎖を明示的に考慮していない。 本稿では,質問を部分的推論ステップに明示的に分解し,高い解釈性を持つモジュラー化ゼロショットネットワークを提案する。 我々はサブ推論タスクを PTM の許容目的に変換し、適応なしに適切な PTM にタスクを割り当てる。 ゼロショット設定下での2つのVQAベンチマーク実験は,本手法の有効性と,いくつかのベースラインと比較して高い解釈性を示した。

Large-scale pre-trained models (PTMs) show great zero-shot capabilities. In this paper, we study how to leverage them for zero-shot visual question answering (VQA). Our approach is motivated by a few observations. First, VQA questions often require multiple steps of reasoning, which is still a capability that most PTMs lack. Second, different steps in VQA reasoning chains require different skills such as object detection and relational reasoning, but a single PTM may not possess all these skills. Third, recent work on zero-shot VQA does not explicitly consider multi-step reasoning chains, which makes them less interpretable compared with a decomposition-based approach. We propose a modularized zero-shot network that explicitly decomposes questions into sub reasoning steps and is highly interpretable. We convert sub reasoning tasks to acceptable objectives of PTMs and assign tasks to proper PTMs without any adaptation. Our experiments on two VQA benchmarks under the zero-shot setting demonstrate the effectiveness of our method and better interpretability compared with several baselines.
翻訳日:2024-01-25 17:54:29 公開日:2024-01-24
# 経験的条件付き一貫した最適輸送

Consistent Optimal Transport with Empirical Conditional Measures ( http://arxiv.org/abs/2305.15901v4 )

ライセンス: Link先を確認
Piyushi Manupriya, Rachit Keerti Das, Sayantan Biswas, Saketha Nath Jagarlapudi(参考訳) 2つの連接分布からのサンプルを仮定し,共通変数上での最適輸送(OT)の問題を考える。 条件付き変数が連続であるような一般的な設定に注目し、2つのジョイント分布におけるこの変数の限界は同じではないかもしれない。 このような設定では、標準ot変種は採用できず、新しい推定技術が必要である。 主な課題は条件分布が明確には利用できないことであるが、我々のot定式化における重要なアイデアは、共同サンプル上で計算されたカーネル化されたleast-squares項を、輸送計画の限界と経験的な条件条件とを暗黙的に一致させることである。 軽度条件下では,条件付き変数の関数として推定された輸送計画が漸近的に最適であることを示す。 有限標本に対しては、正規化対象の偏差が$O(1/m^{1/4})$で有界であることを示し、$m$はサンプルの数である。 また,明示的な確率モデルと暗黙的な生成モデルを用いて条件付き輸送計画をモデル化する方法についても論じる。 最適計画が解析的に知られている合成データセット上の推定器の一貫性を実証的に検証する。 治療に対する細胞応答予測の文脈において, プロンプト・ラーニングや条件生成などのアプリケーションで採用すると, 最先端の手法が改善される。

Given samples from two joint distributions, we consider the problem of Optimal Transportation (OT) between them when conditioned on a common variable. We focus on the general setting where the conditioned variable may be continuous, and the marginals of this variable in the two joint distributions may not be the same. In such settings, standard OT variants cannot be employed, and novel estimation techniques are necessary. Since the main challenge is that the conditional distributions are not explicitly available, the key idea in our OT formulation is to employ kernelized-least-squares terms computed over the joint samples, which implicitly match the transport plan's marginals with the empirical conditionals. Under mild conditions, we prove that our estimated transport plans, as a function of the conditioned variable, are asymptotically optimal. For finite samples, we show that the deviation in terms of our regularized objective is bounded by $O(1/m^{1/4})$, where $m$ is the number of samples. We also discuss how the conditional transport plan could be modelled using explicit probabilistic models as well as using implicit generative ones. We empirically verify the consistency of our estimator on synthetic datasets, where the optimal plan is analytically known. When employed in applications like prompt learning for few-shot classification and conditional-generation in the context of predicting cell responses to treatment, our methodology improves upon state-of-the-art methods.
翻訳日:2024-01-25 17:53:57 公開日:2024-01-24
# 大型言語モデルはレコメンダシステムのためのゼロショットランカである

Large Language Models are Zero-Shot Rankers for Recommender Systems ( http://arxiv.org/abs/2305.08845v2 )

ライセンス: Link先を確認
Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, Wayne Xin Zhao(参考訳) 近年,大規模言語モデル (LLM) (例えば GPT-4) は,推薦タスクにアプローチする可能性を含む,汎用的なタスク解決能力を示すものとなっている。 本研究は,レコメンダシステムのランキングモデルとして機能するllmの能力について検討することを目的としている。 まず,提案課題を条件付きランキングタスクとして定式化し,逐次的相互作用履歴を条件として,他の候補生成モデルで検索した項目を候補として検討する。 LLMによるランキング課題を解決するため,プロンプトテンプレートを慎重に設計し,広く使われている2つのデータセットに対して広範な実験を行う。 LLMにはゼロショットランキング能力があるが,(1)歴史的相互作用の順序を認識できないこと,(2)プロンプトにおける人気や項目位置に偏りがあることが示される。 これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和できることを示す。 これらの洞察を備えたゼロショットllmは、複数の候補生成器によって候補をランク付けする際に、従来のレコメンデーションモデルに挑戦することもできる。 コードと処理されたデータセットはhttps://github.com/RUCAIBox/LLMRank.comで入手できる。

Recently, large language models (LLMs) (e.g., GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. We first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by other candidate generation models as candidates. To solve the ranking task by LLMs, we carefully design the prompting template and conduct extensive experiments on two widely-used datasets. We show that LLMs have promising zero-shot ranking abilities but (1) struggle to perceive the order of historical interactions, and (2) can be biased by popularity or item positions in the prompts. We demonstrate that these issues can be alleviated using specially designed prompting and bootstrapping strategies. Equipped with these insights, zero-shot LLMs can even challenge conventional recommendation models when ranking candidates are retrieved by multiple candidate generators. The code and processed datasets are available at https://github.com/RUCAIBox/LLMRank.
翻訳日:2024-01-25 17:52:50 公開日:2024-01-24
# 工学的アンシラリセットによる量子状態生成

Quantum state preparation via engineered ancilla resetting ( http://arxiv.org/abs/2305.08641v2 )

ライセンス: Link先を確認
Daniel Alcalde Puente, Felix Motzoi, Tommaso Calarco, Giovanna Morigi and Matteo Rizzi(参考訳) 本研究では, フラストレーションのない親ハミルトニアンの基底状態を作成するために, 周期量子リセットを組み込んだプロトコルの有効性について検討する。 このプロトコルはステアリングハミルトニアンを使用し、システムと補助的な自由度の間の局所的な結合を可能にする。 周期的な間隔で、補助システムは初期状態にリセットされる。 無限小のリセット時間の場合、ダイナミクスは定常状態が目標状態であるリンドブラジアンによって近似することができる。 しかし、有限リセット時間では、スピンチェーンとアンシラはリセット操作の間に絡み合う。 本プロトコルの性能を評価するために,spin-1 affleck-kennedy-lieb-tasaki状態の生成に着目し,行列積状態シミュレーションと量子軌道手法を用いた。 我々の分析は、異なるリセット間隔下での収束時間、忠実度、エネルギー進化を考察する。 その結果,より高速な収束にはアンシラ系の絡み合いが不可欠であることが判明した。 特に、プロトコルが最高に動作する最適なリセット時間が存在する。 単純な近似を用いて、リセット手順中にシステムに適用されるマッピング演算子を最適に選択する方法に関する洞察を提供する。 さらに, 本プロトコルは, リセット時間やノイズの低減に対して顕著な回復力を示す。 本研究は,量子リセットを用いたストロボスコープマップが,マルコフ力学に依存する量子貯留層工学や量子状態ステアリングプロトコルといった代替手法よりも優れていることを示唆する。

In this theoretical investigation, we study the effectiveness of a protocol that incorporates periodic quantum resetting to prepare ground states of frustration-free parent Hamiltonians. This protocol uses a steering Hamiltonian that enables local coupling between the system and ancillary degrees of freedom. At periodic intervals, the ancillary system is reset to its initial state. For infinitesimally short reset times, the dynamics can be approximated by a Lindbladian whose steady state is the target state. For finite reset times, however, the spin chain and the ancilla become entangled between reset operations. To evaluate the performance of the protocol, we employ Matrix Product State simulations and quantum trajectory techniques, focusing on the preparation of the spin-1 Affleck-Kennedy-Lieb-Tasaki state. Our analysis considers convergence time, fidelity, and energy evolution under different reset intervals. Our numerical results show that ancilla system entanglement is essential for faster convergence. In particular, there exists an optimal reset time at which the protocol performs best. Using a simple approximation, we provide insights into how to optimally choose the mapping operators applied to the system during the reset procedure. Furthermore, the protocol shows remarkable resilience to small deviations in reset time and dephasing noise. Our study suggests that stroboscopic maps using quantum resetting may offer advantages over alternative methods, such as quantum reservoir engineering and quantum state steering protocols, which rely on Markovian dynamics.
翻訳日:2024-01-25 17:52:02 公開日:2024-01-24
# テンソル空間における基底からのテンソルPCA

Tensor PCA from basis in tensor space ( http://arxiv.org/abs/2305.02803v3 )

ライセンス: Link先を確認
Claudio Turchetti, Laura Falaschetti(参考訳) 本研究の目的は,テンソルPCAの数学的枠組みを提案することである。 提案手法は,最適化問題を反復的に解くことで,低次元部分空間を抽出する従来の手法の限界を克服することができる。 提案手法の核心は、実自己共役テンソル作用素からテンソル空間の基底を導出することであり、したがって基底を固有値問題へと導出する問題を減少させる。 3つの異なる事例が研究されている。 一 自己随伴テンソル演算子からの基礎 ii) ランク1の基準 三 部分空間の基底 特に、実自己共役テンソル作用素に対する固有値方程式と標準行列固有値方程式との同値性が証明されている。 考慮された3つのケースすべてに対して、テンソルPCAを導出するための部分空間アプローチが採用されている。 画像データセットの実験は、提案された数学的枠組みを検証する。

The aim of this paper is to present a mathematical framework for tensor PCA. The proposed approach is able to overcome the limitations of previous methods that extract a low dimensional subspace by iteratively solving an optimization problem. The core of the proposed approach is the derivation of a basis in tensor space from a real self-adjoint tensor operator, thus reducing the problem of deriving a basis to an eigenvalue problem. Three different cases have been studied to derive: i) a basis from a self-adjoint tensor operator; ii) a rank-1 basis; iii) a basis in a subspace. In particular, the equivalence between eigenvalue equation for a real self-adjoint tensor operator and standard matrix eigenvalue equation has been proven. For all the three cases considered, a subspace approach has been adopted to derive a tensor PCA. Experiments on image datasets validate the proposed mathematical framework.
翻訳日:2024-01-25 17:51:03 公開日:2024-01-24
# ネットワーク型マルチエージェントマルコフ決定過程に対する連続時間分散動的計画法

Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v5 )

ライセンス: Link先を確認
Donghwan Lee, Han-Dong Lim, and Do Wan Kim(参考訳) 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 まず,Wang と Elia の分散最適化手法に着想を得た分散DPを提案する。 次に、デカップリングプロセスを通じて、新しい分散DPを導入する。 DPアルゴリズムの収束はシステムと制御の観点から証明される。 本研究は,新しい時間分散学習アルゴリズムの段階を定式化する。

The main goal of this paper is to investigate continuous-time distributed dynamic programming (DP) algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Moreover, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. We first introduce a novel distributed DP, inspired by the distributed optimization method of Wang and Elia. Next, a new distributed DP is introduced through a decoupling process. The convergence of the DP algorithms is proved through systems and control perspectives. The study in this paper sets the stage for new distributed temporal different learning algorithms.
翻訳日:2024-01-25 17:43:16 公開日:2024-01-24
# 一次元有限サイズイジングモデルにおける熱遷移

Thermal transitions in a one-dimensional, finite-size Ising model ( http://arxiv.org/abs/2307.15479v3 )

ライセンス: Link先を確認
Varazdat Stepanyan, Andreas F. Tzortzakakis, David Petrosyan and Armen E. Allahverdyan(参考訳) 有限個のスピンと周期境界を持つ一次元強磁性イジングスピン鎖を再検討し、解析的に導出し、異なる温度で様々な定常および動的特性を数値的に検証する。 特に, 磁化の確率分布, 磁壁数, 鎖長と磁場の差による居住時間を決定する。 熱平衡における有限系の研究において、熱力学限界における一階相転移の臨界温度に類似したいくつかの温度を同定する。 非自明な中間平衡状態を持つ生体高分子の構造遷移に応用することで,本研究の有用性を概説する。

We revisit the one-dimensional ferromagnetic Ising spin-chain with a finite number of spins and periodic boundaries and derive analytically and verify numerically its various stationary and dynamical properties at different temperatures. In particular, we determine the probability distributions of magnetization, the number of domain walls, and the corresponding residence times for different chain lengths and magnetic fields. While we study finite systems at thermal equilibrium, we identify several temperatures similar to the critical temperatures for first-order phase transitions in the thermodynamic limit. We illustrate the utility of our results by their application to structural transitions in biopolymers having non-trivial intermediate equilibrium states.
翻訳日:2024-01-25 17:43:05 公開日:2024-01-24
# 初期スクリーニング順序問題

The Initial Screening Order Problem ( http://arxiv.org/abs/2307.15398v2 )

ライセンス: Link先を確認
Jose M. Alvarez and Antonio Mastropietro and Salvatore Ruggieri(参考訳) 本稿では,採用や学業入試等の候補者スクリーニングプロセスにおける初期スクリーニング命令(iso)の役割について検討する。 ISOは、審査者が評価の前に候補プールをソートする順序を指す。 文学では、選択されたセットの最適性と公正性、特にヒトスクリーニングの下での潜在的影響にもかかわらず、ほとんど見過ごされている。 我々は2つの問題定式化を定義する: best-k$, the screener choose the $k$ best candidate, and good-k$, where the screener choose the first $k$ good-enough candidate。 ISO の影響を調べるため,人間ライクなスクリーニングを導入し,アルゴリズムとの比較を行った。 人間のようなスクリーンは、疲労のために時間とともに一貫性がないと考えられている。 分析の結果, グループレベルのフェアネスにもかかわらず, 人型スクリーニングの下のISOは個人のフェアネスを妨げることがわかった。 これは、候補の評価がISO内の位置によって影響を受ける位置バイアスによるものである。 本報告では,問題定式化のパラメータを探索するシミュレーション実験について報告する。 この研究は、ヨーロッパの大企業と共同で研究されている現実世界の候補スクリーニング問題に動機づけられている。

We investigate the role of the initial screening order (ISO) in candidate screening processes, such as hiring and academic admissions. ISO refers to the order in which the screener sorts the candidate pool before the evaluation. It has been largely overlooked in the literature, despite its potential impact on the optimality and fairness of the chosen set, especially under a human screener. We define two problem formulations: best-$k$, where the screener chooses the $k$ best candidates, and good-$k$, where the screener chooses the first $k$ good-enough candidates. To study the impact of ISO, we introduce a human-like screener and compare to its algorithmic counterpart. The human-like screener is conceived to be inconsistent over time due to fatigue. Our analysis shows that the ISO under a human-like screener hinders individual fairness despite meeting group level fairness. This is due to the position bias, where a candidate's evaluation is affected by its position within ISO. We report extensive simulated experiments exploring the parameters of the problem formulations both for algorithmic and human-like screeners. This work is motivated by a real world candidate screening problem studied in collaboration with a large European company.
翻訳日:2024-01-25 17:42:53 公開日:2024-01-24
# ボソニック系のエネルギー保存進化

Energy preserving evolutions over Bosonic systems ( http://arxiv.org/abs/2307.13801v3 )

ライセンス: Link先を確認
Paul Gondolf, Tim M\"obus, Cambyse Rouz\'e(参考訳) 量子マルコフ半群の不変部分空間への指数収束は、量子情報理論において重要な役割を果たす。 そのような例の1つがボソニック誤り訂正スキーム(bosonic error correction schemes)で、コード空間に状態を戻すために散逸(dissipation)が使われます。 本稿では,連続変数(CV)システム上での量子力学半群の摂動について検討し,不変部分空間を許容する。 まず、物理仮定の下でCV系上の量子マルコフ半群の生成定理を証明する。 i)生成元は、消滅演算子と生成演算子の多項式として定義された対応するジャンプ演算子を持つGKSL形式を有する。 (ii)(多分無界)発生器は、制御された方法ですべてのモーメントを増加させる。 さらに、有界な第一モーメントを持つ作用素のレベル集合が進化の許容部分空間であることを示し、摂動解析の基礎を提供する。 結果は時間依存半群にも及んでいる。 我々は,連続変数量子情報処理に関心のある2つの設定に汎用フレームワークを適用する。 まず、量子力学半群のマルコフ摂動のエネルギー制約付き容量の連続性境界を導出する新しいスキームを提供する。 次に,量子ornstein uhlenbeck半群の定常状態とボソニック誤差補正に用いられる光子散逸の不変部分空間に対する定量的摂動境界を与える。

The exponential convergence to invariant subspaces of quantum Markov semigroups plays a crucial role in quantum information theory. One such example is in bosonic error correction schemes, where dissipation is used to drive states back to the code-space - an invariant subspace protected against certain types of errors. In this paper, we investigate perturbations of quantum dynamical semigroups that operate on continuous variable (CV) systems and admit an invariant subspace. First, we prove a generation theorem for quantum Markov semigroups on CV systems under the physical assumptions that (i) the generator has GKSL form with corresponding jump operators defined as polynomials of annihilation and creation operators; and (ii) the (possibly unbounded) generator increases all moments in a controlled manner. Additionally, we show that the level sets of operators with bounded first moments are admissible subspaces of the evolution, providing the foundations for a perturbative analysis. Our results also extend to time-dependent semigroups. We apply our general framework to two settings of interest in continuous variables quantum information processing. First, we provide a new scheme for deriving continuity bounds on the energy-constrained capacities of Markovian perturbations of Quantum dynamical semigroups. Second, we provide quantitative perturbation bounds for the steady state of the quantum Ornstein Uhlenbeck semigroup and the invariant subspace of the photon dissipation used in bosonic error correction.
翻訳日:2024-01-25 17:42:34 公開日:2024-01-24
# Knapsack: 接続性、パス、最短パス

Knapsack: Connectedness, Path, and Shortest-Path ( http://arxiv.org/abs/2307.12547v4 )

ライセンス: Link先を確認
Palash Dey, Sudeshna Kolay, and Sipra Singh(参考訳) グラフ理論の制約によりナップサック問題を研究する。 すなわち、knapsack の項目の集合上にグラフ構造が存在すると仮定し、この解は knapsack の制約の上にあるグラフ理論的性質を満たす必要がある。 特に、コネクテッド・ナップサック問題(connected knapsack problem)において、コネクテッド・ナップサック制約の大きさに対応する最大値を持つ項目の連結部分集合を計算する必要がある。 この問題は、最大次数4のグラフでもNP完全であり、スターグラフでもNP完全であることを示す。 一方、時刻 $o\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ はそれぞれグラフのツリー幅、サイズ、目標値である。 さらに、$(1-\epsilon)$ factor approximation アルゴリズムを、$o\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ ごとに実行しています。 path-knapsack や shortestpath-knapsack という問題名の下で、グラフ理論上の他のいくつかの性質について同様の結果を示す。 結果は,connected-knapsackが最も計算が難しいことを示し,path-knapsack と shortestpath-knapsack が続いた。

We study the knapsack problem with graph theoretic constraints. That is, we assume that there exists a graph structure on the set of items of knapsack and the solution also needs to satisfy certain graph theoretic properties on top of knapsack constraints. In particular, we need to compute in the connected knapsack problem a connected subset of items which has maximum value subject to the size of knapsack constraint. We show that this problem is strongly NP-complete even for graphs of maximum degree four and NP-complete even for star graphs. On the other hand, we develop an algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ are respectively treewidth of the graph, size, and target value of the knapsack. We further exhibit a $(1-\epsilon)$ factor approximation algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ for every $\epsilon>0$. We show similar results for several other graph theoretic properties, namely path and shortest-path under the problem names path-knapsack and shortestpath-knapsack. Our results seems to indicate that connected-knapsack is computationally hardest followed by path-knapsack and shortestpath-knapsack.
翻訳日:2024-01-25 17:42:13 公開日:2024-01-24
# VELMA:ストリートビューにおける視覚・言語ナビゲーションのためのLLMエージェントの言語化

VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View ( http://arxiv.org/abs/2307.06082v2 )

ライセンス: Link先を確認
Raphael Schumann and Wanrong Zhu and Weixi Feng and Tsu-Jui Fu and Stefan Riezler and William Yang Wang(参考訳) 現実世界の環境におけるインクリメンタルな意思決定は、人工知能を具現化する上で最も難しいタスクの1つだ。 特に要求されるシナリオは視覚と言語ナビゲーション(VLN)であり、視覚的および自然言語理解と空間的および時間的推論能力を必要とする。 具体化エージェントは、ストリートビューのような現実世界の環境を観察する際に、ナビゲーション指示に対する理解を深める必要がある。 LLMの他の研究分野における印象的な成果にもかかわらず、インタラクティブな視覚環境とどのように接続するかは、現在進行中の問題である。 本研究では, 次の行動の文脈的プロンプトとして, 軌跡の言語化と視覚環境観察を併用したLLMエージェントであるVELMAを提案する。 視覚情報は、人間の記述したナビゲーション命令からランドマークを抽出し、CLIPを使用して現在のパノラマビューでその可視性を決定するパイプラインによって言語化される。 VELMAは2つのコンテキスト内例だけで,ストリートビューでのナビゲーション指示に従うことができることを示す。 数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。

Incremental decision making in real-world environments is one of the most challenging tasks in embodied artificial intelligence. One particularly demanding scenario is Vision and Language Navigation~(VLN) which requires visual and natural language understanding as well as spatial and temporal reasoning capabilities. The embodied agent needs to ground its understanding of navigation instructions in observations of a real-world environment like Street View. Despite the impressive results of LLMs in other research areas, it is an ongoing problem of how to best connect them with an interactive visual environment. In this work, we propose VELMA, an embodied LLM agent that uses a verbalization of the trajectory and of visual environment observations as contextual prompt for the next action. Visual information is verbalized by a pipeline that extracts landmarks from the human written navigation instructions and uses CLIP to determine their visibility in the current panorama view. We show that VELMA is able to successfully follow navigation instructions in Street View with only two in-context examples. We further finetune the LLM agent on a few thousand examples and achieve 25%-30% relative improvement in task completion over the previous state-of-the-art for two datasets.
翻訳日:2024-01-25 17:41:51 公開日:2024-01-24
# 量子相関を用いた緩く丸い組合せ最適化解法の拡張

Extending relax-and-round combinatorial optimization solvers with quantum correlations ( http://arxiv.org/abs/2307.05821v2 )

ライセンス: Link先を確認
Maxime Dupont, Bhuvanesh Sundar(参考訳) 量子近似最適化アルゴリズム (QAOA) を$p\geq 1$ の層に埋め込む。 シェリントン・カークパトリックスピングラス(英語版)を含む多くの問題に対して、$p=1$は古典的手法と同程度正確であることを示し、QAOAの絶対的な性能保証を維持している。 異なる丸めスキームを用いて、あるグラフ上の最大カット問題に対するゴーマンス・ウィリアムソンアルゴリズムの性能を共有することを証明した。 古典的アルゴリズムに匹敵するパフォーマンスで、量子リラクゼーションとラウンドを網羅するフレームワークの道を開いた。

We introduce a relax-and-round approach embedding the quantum approximate optimization algorithm (QAOA) with $p\geq 1$ layers. We show for many problems, including Sherrington-Kirkpatrick spin glasses, that at $p=1$, it is as accurate as its classical counterpart, and maintains the infinite-depth optimal performance guarantee of the QAOA. Employing a different rounding scheme, we prove the method shares the performance of the Goemans-Williamson algorithm for the maximum cut problem on certain graphs. We pave the way for an overarching quantum relax-and-round framework with performance on par with some of the best classical algorithms.
翻訳日:2024-01-25 17:41:30 公開日:2024-01-24
# Surge Routing: 自律ライダーのためのイベントインフォームドマルチエージェント強化学習

Surge Routing: Event-informed Multiagent Reinforcement Learning for Autonomous Rideshare ( http://arxiv.org/abs/2307.02637v2 )

ライセンス: Link先を確認
Daniel Garces and Stephanie Gil(参考訳) カンファレンス、コンサート、スポーツゲームのような大規模なイベントは、平均的な需要パターンで捉えられていない乗車サービスの需要が急増し、ルーティングアルゴリズムに固有の課題を生じさせる。 本稿では,インターネットからのイベントデータを活用して需要急増を予測し,協調的なルーティングポリシを生成する自律型タクシーの学習フレームワークを提案する。 これを2つの主要なコンポーネントの組み合わせで達成します。 (i)道路交差点におけるイベント駆動需要の急増を予測するために、イベントの記述やレビューの形でテキストによるイベント情報を利用する需要予測フレームワーク (ii)需要予測を活用したスケーラブルなマルチエージェント強化学習フレームワークで、ワンエージェント・アット・ア・タイムロールアウトと限られたサンプリング確実性等価性を組み合わせて、交差点レベルのルーティングポリシを学習する。 実験結果として、2022年のニューヨーク市の実際のライドシェアデータと、マンハッタンの300のユニークな会場で2000以上のイベントに関する情報について検討した。 2235の交差点を持つ地図上の100台のタクシーで我々のアプローチをテストする。 実験の結果,提案手法は,サービス要求毎の待ち時間オーバーヘッドを25%から75%削減するルーティングポリシーを学習し,他のモデルベースRLフレームワークやオペレーション研究における古典的手法よりも1%から4%多く要求を収集した。

Large events such as conferences, concerts and sports games, often cause surges in demand for ride services that are not captured in average demand patterns, posing unique challenges for routing algorithms. We propose a learning framework for an autonomous fleet of taxis that leverages event data from the internet to predict demand surges and generate cooperative routing policies. We achieve this through a combination of two major components: (i) a demand prediction framework that uses textual event information in the form of events' descriptions and reviews to predict event-driven demand surges over street intersections, and (ii) a scalable multiagent reinforcement learning framework that leverages demand predictions and uses one-agent-at-a-time rollout combined with limited sampling certainty equivalence to learn intersection-level routing policies. For our experimental results we consider real NYC ride share data for the year 2022 and information for more than 2000 events across 300 unique venues in Manhattan. We test our approach with a fleet of 100 taxis on a map with 2235 street intersections. Our experimental results demonstrate that our method learns routing policies that reduce wait time overhead per serviced request by 25% to 75%, while picking up 1% to 4% more requests than other model-based RL frameworks and classical methods in operations research.
翻訳日:2024-01-25 17:41:19 公開日:2024-01-24
# 二重シンプレクティック古典回路:多体カオスの正確に解けるモデル

Dual symplectic classical circuits: An exactly solvable model of many-body chaos ( http://arxiv.org/abs/2307.01786v2 )

ライセンス: Link先を確認
Alexios Christopoulos, Andrea De Luca, D L Kovrizhin, Toma\v{z} Prosen(参考訳) 二重シンプレクティックれんが壁回路における動的相関関数を1次元で計算する方法を提案する。 これらは決定論的古典的多体力学系であり、2つの直交(時間と空間)方向のシンプレクティックダイナミクスによって解釈できる。 量子双対回路との類似性において、2点動的相関関数は光円錐の端にしか存在しないことが証明される。 動的相関は、一般に無限次元である1サイトマルコフ変換作用素の観点で正確に計算可能である。 我々はこの理論を、古典的なフロッケスピンチェーンのダイナミクスを記述する双交回路の特定の族でテストする。 顕著なことに、これらのモデルを回転の合成の形で表現することは、球面調和に基づくブロック対角形の移動作用素につながる。 これにより、簡単な局所観測可能な解析的予測が得られる。 本理論はモンテカルロシミュレーションとの比較により有効性を示し,可観測性の選択に優れた一致を示した。

We propose a general exact method of calculating dynamical correlation functions in dual symplectic brick-wall circuits in one dimension. These are deterministic classical many-body dynamical systems which can be interpreted in terms of symplectic dynamics in two orthogonal (time and space) directions. In close analogy with quantum dual-unitary circuits, we prove that two-point dynamical correlation functions are non-vanishing only along the edges of the light cones. The dynamical correlations are exactly computable in terms of a one-site Markov transfer operator, which is generally of infinite dimensionality. We test our theory in a specific family of dual-symplectic circuits, describing the dynamics of a classical Floquet spin chain. Remarkably, expressing these models in the form of a composition of rotations leads to a transfer operator with a block diagonal form in the basis of spherical harmonics. This allows us to obtain analytical predictions for simple local observables. We demonstrate the validity of our theory by comparison with Monte Carlo simulations, displaying excellent agreement with the latter for different choices of observables.
翻訳日:2024-01-25 17:40:54 公開日:2024-01-24
# グラフニューラルネットワークを用いたログ異常検出と説明

Graph Neural Networks based Log Anomaly Detection and Explanation ( http://arxiv.org/abs/2307.00527v3 )

ライセンス: Link先を確認
Zhong Li, Jiayang Shi, Matthijs van Leeuwen(参考訳) イベントログはハイテクシステムの状態を記録するために広く使われており、ログ異常検出はシステムを監視する上で重要である。 既存のログ異常検出手法のほとんどは、ログイベントカウントマトリックスまたはログイベントシーケンスを入力として、ログイベント間の量的および/または逐次的な関係を利用して異常を検出する。 残念ながら、定量的またはシーケンシャルな関係のみを考慮すると、検出精度は低い。 この問題を軽減するために,まずイベントログを属性付き,方向付き,重み付きグラフに変換し,次にグラフニューラルネットワークを利用してグラフレベルの異常検出を行う,Logs2Graphsという,教師なしログ異常検出のためのグラフベースの手法を提案する。 具体的には、属性付き、有向、重み付きグラフの集合において、グラフレベルの異常を検出する新しいグラフニューラルネットワークモデルであるOCDiGCNと略されるOne-Class Digraph Inception Convolutional Networksを紹介する。 グラフ表現と異常検出ステップを結合することにより、OCDiGCNは特に異常検出に適した表現を学ぶことができ、高い検出精度が得られる。 重要なことに、同定された各異常に対して、OCDiGCNの予測を説明として重要な役割を果たす少数のノードも提供し、その後の根本原因診断に有用な手がかりを提供する。 5つのベンチマークデータセットにおける実験では、logs2graphsは、単純なデータセットで最先端のログ異常検出メソッドと同等に動作し、複雑なデータセットで最先端のログ異常検出メソッドをほとんど上回っています。

Event logs are widely used to record the status of high-tech systems, making log anomaly detection important for monitoring those systems. Most existing log anomaly detection methods take a log event count matrix or log event sequences as input, exploiting quantitative and/or sequential relationships between log events to detect anomalies. Unfortunately, only considering quantitative or sequential relationships may result in low detection accuracy. To alleviate this problem, we propose a graph-based method for unsupervised log anomaly detection, dubbed Logs2Graphs, which first converts event logs into attributed, directed, and weighted graphs, and then leverages graph neural networks to perform graph-level anomaly detection. Specifically, we introduce One-Class Digraph Inception Convolutional Networks, abbreviated as OCDiGCN, a novel graph neural network model for detecting graph-level anomalies in a collection of attributed, directed, and weighted graphs. By coupling the graph representation and anomaly detection steps, OCDiGCN can learn a representation that is especially suited for anomaly detection, resulting in a high detection accuracy. Importantly, for each identified anomaly, we additionally provide a small subset of nodes that play a crucial role in OCDiGCN's prediction as explanations, which can offer valuable cues for subsequent root cause diagnosis. Experiments on five benchmark datasets show that Logs2Graphs performs at least on par with state-of-the-art log anomaly detection methods on simple datasets while largely outperforming state-of-the-art log anomaly detection methods on complicated datasets.
翻訳日:2024-01-25 17:40:35 公開日:2024-01-24
# 個人別分散推定と学習

Differentially Private Distributed Estimation and Learning ( http://arxiv.org/abs/2306.15865v4 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian(参考訳) エージェントが情報交換を行い、個人が観測したサンプルから未知の確率変数の統計的特性を推定するネットワーク環境における分散推定と学習の問題について検討する。 エージェントは、プライベートな観察に関する情報を交換することで、その未知の量を総合的に見積もることができるが、プライバシー上のリスクもある。 提案アルゴリズムは,既存の分散推定文献を拡張し,オフラインあるいはオンラインで取得したプライベート信号から十分な統計量を推定し,それらの信号やネットワーク近傍のプライバシーを維持する。 これは、オフラインとオンラインの両方の方法で、差分プライバシー(DP)制約の下で交換された推定値にノイズを加える調整されたランダム化スキームによる線形アグリゲーションスキームによって達成される。 収束率解析と有限時間収束境界を提供する。 最良推定値に対する収束時間を最小化するノイズは、各エージェントの信号やネットワーク特性に対する感度に対応するパラメータを持つラプラスノイズであることを示す。 私たちのアルゴリズムは、動的トポロジとプライバシと精度のトレードオフのバランスにさらに適しています。 最後に,我々の理論結果を補完し,検証するために,米国電力グリッドネットワークとドイツ家庭の電力消費データを用いて,すべてのプライバシ体制下での電力ステーションおよび家庭の平均消費電力を推定し,既存のプライバシを意識した分散最適化手法よりも優れていることを示す。

We study distributed estimation and learning problems in a networked environment in which agents exchange information to estimate unknown statistical properties of random variables from their privately observed samples. The agents can collectively estimate the unknown quantities by exchanging information about their private observations, but they also face privacy risks. Our novel algorithms extend the existing distributed estimation literature and enable the participating agents to estimate a complete sufficient statistic from private signals acquired offline or online over time and to preserve the privacy of their signals and network neighborhoods. This is achieved through linear aggregation schemes with adjusted randomization schemes that add noise to the exchanged estimates subject to differential privacy (DP) constraints, both in an offline and online manner. We provide convergence rate analysis and tight finite-time convergence bounds. We show that the noise that minimizes the convergence time to the best estimates is the Laplace noise, with parameters corresponding to each agent's sensitivity to their signal and network characteristics. Our algorithms are further amenable to dynamic topologies and balancing privacy and accuracy trade-offs. Finally, to supplement and validate our theoretical results, we run experiments on real-world data from the US Power Grid Network and electric consumption data from German Households to estimate the average power consumption of power stations and households under all privacy regimes and show that our method outperforms existing first-order privacy-aware distributed optimization methods.
翻訳日:2024-01-25 17:40:09 公開日:2024-01-24
# lranet:低ランク近似ネットワークを用いた高精度かつ効率的なシーンテキスト検出

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation Network ( http://arxiv.org/abs/2306.15142v5 )

ライセンス: Link先を確認
Yuchen Su, Zhineng Chen, Zhiwen Shao, Yuning Du, Zhilong Ji, Jinfeng Bai, Yong Zhou, Yu-Gang Jiang(参考訳) 近年,テキストローカライズのためのパラメータ化テキスト形状を予測する回帰法が,シーンテキスト検出において人気を博している。 しかし、既存のパラメータ化テキスト形状法は、テキスト固有の形状情報の利用を無視するため、任意の形状のテキストのモデリングに制限がある。 さらに、パイプライン全体の時間消費がほとんど見過ごされ、全体的な予測速度が最適を下回っている。 この問題に対処するために,まず,低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。 データ無関係なパラメータ化を用いる他の形状表現法とは異なり、本手法では特異値分解を用いてラベル付きテキスト輪郭から学習した数個の固有ベクトルを用いてテキスト形状を再構成する。 異なるテキスト輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。 次に,速度加速のための2重割当て方式を提案する。 推論速度を加速するためにスパース割り当てブランチを採用し、一方、密度の高い割り当てブランチを介してトレーニングするための十分な教師付き信号を提供する。 これらの設計に基づいて、LRANetと呼ばれる正確で効率的な任意の形状のテキスト検出器を実装した。 大規模な実験はいくつかの挑戦的なベンチマークで行われ、最先端の手法と比較してLRANetの精度と効率が優れていることを示した。 コードは: \url{https://github.com/ychensu/LRANet.git}で入手できる。

Recently, regression-based methods, which predict parameterized text shapes for text localization, have gained popularity in scene text detection. However, the existing parameterized text shape methods still have limitations in modeling arbitrary-shaped texts due to ignoring the utilization of text-specific shape information. Moreover, the time consumption of the entire pipeline has been largely overlooked, leading to a suboptimal overall inference speed. To address these issues, we first propose a novel parameterized text shape method based on low-rank approximation. Unlike other shape representation methods that employ data-irrelevant parameterization, our approach utilizes singular value decomposition and reconstructs the text shape using a few eigenvectors learned from labeled text contours. By exploring the shape correlation among different text contours, our method achieves consistency, compactness, simplicity, and robustness in shape representation. Next, we propose a dual assignment scheme for speed acceleration. It adopts a sparse assignment branch to accelerate the inference speed, and meanwhile, provides ample supervised signals for training through a dense assignment branch. Building upon these designs, we implement an accurate and efficient arbitrary-shaped text detector named LRANet. Extensive experiments are conducted on several challenging benchmarks, demonstrating the superior accuracy and efficiency of LRANet compared to state-of-the-art methods. Code is available at: \url{https://github.com/ychensu/LRANet.git}
翻訳日:2024-01-25 17:39:43 公開日:2024-01-24
# 6Gエッジネットワークにおける分割学習

Split Learning in 6G Edge Networks ( http://arxiv.org/abs/2306.12194v3 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Xianhao Chen, and Kaibin Huang(参考訳) 分散エッジコンピューティングリソースの普及により、6Gモバイルネットワークは、コネクテッドインテリジェンスのためのネットワークへと進化する。 この線に沿って、近年、モバイルエッジにフェデレーション学習を組み込むという提案が大きな関心を集めている。 しかし、大量のリソース制限されたiotデバイスがデバイス上のモデルトレーニングをサポートできないため、フェデレーション学習のデプロイメントは大きな課題に直面している。 これによりスプリットラーニング(SL)が出現し、サーバはデータのプライバシを高めながら、主要なトレーニングワークロードを処理することができる。 本稿では,slにおける重要な進歩の概要と,無線エッジネットワークとのシームレスな統合について述べる。 まず、エッジSLをサポートするために、調整済みの6Gアーキテクチャを図示する。 次に,一辺サーバ下での資源効率学習フレームワークや資源管理戦略など,エッジSLの重要な設計課題について検討する。 さらに、マルチエッジのシナリオにもスコープを広げ、ネットワークの観点からマルチエッジのコラボレーションとモビリティ管理を探求します。 最後に、収束解析、非同期slおよびu字型slを含むエッジslのオープン問題について議論する。

With the proliferation of distributed edge computing resources, the 6G mobile network will evolve into a network for connected intelligence. Along this line, the proposal to incorporate federated learning into the mobile edge has gained considerable interest in recent years. However, the deployment of federated learning faces substantial challenges as massive resource-limited IoT devices can hardly support on-device model training. This leads to the emergence of split learning (SL) which enables servers to handle the major training workload while still enhancing data privacy. In this article, we offer a brief overview of key advancements in SL and articulate its seamless integration with wireless edge networks. We begin by illustrating the tailored 6G architecture to support edge SL. Then, we examine the critical design issues for edge SL, including innovative resource-efficient learning frameworks and resource management strategies under a single edge server. Additionally, we expand the scope to multi-edge scenarios, exploring multi-edge collaboration and mobility management from a networking perspective. Finally, we discuss open problems for edge SL, including convergence analysis, asynchronous SL and U-shaped SL.
翻訳日:2024-01-25 17:39:18 公開日:2024-01-24
# $\pi2\text{vec}$: 継承機能付きポリシー表現

$\pi2\text{vec}$: Policy Representations with Successor Features ( http://arxiv.org/abs/2306.09800v2 )

ライセンス: Link先を確認
Gianluca Scarpellini, Ksenia Konyushkova, Claudio Fantacci, Tom Le Paine, Yutian Chen, Misha Denil(参考訳) 本稿では,ブラックボックスポリシーの挙動を特徴ベクトルとして表現する手法である$\pi2\text{vec}$について述べる。 ポリシー表現は、基本モデルの統計が、タスクに依存しない方法でポリシー行動に応答してどのように変化するかを捉え、オフラインデータからトレーニングし、オフラインポリシー選択で使用することができる。 この研究は、オフラインのRLに対抗してオフラインポリシー評価、汎用的で強力な状態表現としての基盤モデル、リソース制約された環境における効率的なポリシー選択という、3つの近代的な研究を融合するためのレシピの重要な要素を提供する。

This paper describes $\pi2\text{vec}$, a method for representing behaviors of black box policies as feature vectors. The policy representations capture how the statistics of foundation model features change in response to the policy behavior in a task agnostic way, and can be trained from offline data, allowing them to be used in offline policy selection. This work provides a key piece of a recipe for fusing together three modern lines of research: Offline policy evaluation as a counterpart to offline RL, foundation models as generic and powerful state representations, and efficient policy selection in resource constrained environments.
翻訳日:2024-01-25 17:39:00 公開日:2024-01-24
# ロバスト世界モデルの学習用リワードフリーカリキュラム

Reward-Free Curricula for Training Robust World Models ( http://arxiv.org/abs/2306.09205v2 )

ライセンス: Link先を確認
Marc Rigter, Minqi Jiang, Ingmar Posner(参考訳) 環境に新たなトレーニングを加えることなく、新しいタスクに適応できる汎用的なエージェントの開発への関心が最近高まっている。 報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。 しかし、汎用エージェントを実現するには、異なる環境にまたがる堅牢性が必要である。 本研究では、ロバストな世界モデルをトレーニングするための報酬のない環境でカリキュラムを生成するという新しい問題に対処する。 我々は,すべての環境インスタンスに対するミニマックス後悔の観点からのロバスト性を検討し,環境インスタンス間における世界モデルにおける最大誤差の最小化とミニマックス後悔との関連性を示す。 この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。 WAKERは、各環境のワールドモデルの推定誤差に基づいて、データ収集のための環境を選択する。 我々の実験は、WAKERがいくつかのベースラインを上回り、ロバスト性、効率、一般化が向上することを示した。

There has been a recent surge of interest in developing generally-capable agents that can adapt to new tasks without additional training in the environment. Learning world models from reward-free exploration is a promising approach, and enables policies to be trained using imagined experience for new tasks. However, achieving a general agent requires robustness across different environments. In this work, we address the novel problem of generating curricula in the reward-free setting to train robust world models. We consider robustness in terms of minimax regret over all environment instantiations and show that the minimax regret can be connected to minimising the maximum error in the world model across environment instances. This result informs our algorithm, WAKER: Weighted Acquisition of Knowledge across Environments for Robustness. WAKER selects environments for data collection based on the estimated error of the world model for each environment. Our experiments demonstrate that WAKER outperforms several baselines, resulting in improved robustness, efficiency, and generalisation.
翻訳日:2024-01-25 17:38:45 公開日:2024-01-24
# 監視量子ビットにおける局在、フラクタル性、エルゴード性

Localization, fractality, and ergodicity in a monitored qubit ( http://arxiv.org/abs/2310.01997v3 )

ライセンス: Link先を確認
Paul P\"opperl, Igor V. Gornyi, David B. Saakian, Oleg M. Yevtushenko(参考訳) そこで本研究では,二段階システム (qubit) の統計的特性を反復的に測定した。 このセットアップは、システムのユニタリダイナミクスと量子測定によって導入された非ユニタリ確率の間の複雑な相互作用を探索するための基本的な最小限のモデルであり、これは測定誘起相転移の現象の中心である。 この「トイモデル」は、量子ビットの量子状態の分布関数を長時間の極限で表す、驚くほどリッチなダイナミクスを持つことを示した。 我々はアンダーソン局在の現象と魅力的な類似点を発見したが、それは異なる基礎的なメカニズムによって支配されている。 具体的には、監視された量子ビットの状態分布関数は、ブロッホ球面上の1つの角度でパラメータ化され、アンダーソン遷移の理論に精通した様々な種類の振る舞いを示し、完全な局在からほぼ一様非局在まで、この2つの極限の間にフラクタリティが生じる。 各種特殊ケースの解析解と2つの相補的な数値的アプローチを組み合わせることにより、モデルの「位相図」を記述した構造を包括的に理解する。 我々は、初期状態の分類と定量化を行い、監視された量子ビットの2つの異なる位相:エルゴードと非エルゴードを同定する。 さらに,状態分布関数がデルタピークから構成される非エルゴード位相内の真の局所化位相を,拡張分布を特徴とする非局在化位相とは対照的に同定する。 監視量子ビットにおけるこれらの位相の同定と遷移の実証が主な発見である。

We study the statistical properties of a single two-level system (qubit) subject to repetitive ancilla-based measurements. This setup is a fundamental minimal model for exploring the intricate interplay between the unitary dynamics of the system and the nonunitary stochasticity introduced by quantum measurements, which is central to the phenomenon of measurement-induced phase transitions. We demonstrate that this "toy model" harbors remarkably rich dynamics, manifesting in the distribution function of the qubit's quantum states in the long-time limit. We uncover a compelling analogy with the phenomenon of Anderson localization, albeit governed by distinct underlying mechanisms. Specifically, the state distribution function of the monitored qubit, parameterized by a single angle on the Bloch sphere, exhibits diverse types of behavior familiar from the theory of Anderson transitions, spanning from complete localization to almost uniform delocalization, with fractality occurring between the two limits. By combining analytical solutions for various special cases with two complementary numerical approaches, we achieve a comprehensive understanding of the structure delineating the "phase diagram" of the model. We categorize and quantify the emergent regimes and identify two distinct phases of the monitored qubit: ergodic and nonergodic. Furthermore, we identify a genuinely localized phase within the nonergodic phase, where the state distribution functions consist of delta peaks, as opposed to the delocalized phase characterized by extended distributions. Identification of these phases and demonstration of transitions between them in a monitored qubit are our main findings.
翻訳日:2024-01-25 17:32:21 公開日:2024-01-24
# 半構造説明生成のためのリワードエンジニアリング

Reward Engineering for Generating Semi-structured Explanation ( http://arxiv.org/abs/2309.08347v2 )

ライセンス: Link先を確認
Jiuzhou Han, Wray Buntine, Ehsan Shareghi(参考訳) 半構造的な説明は、明示的な表現を持つ推論者の暗黙のプロセスを記述する。 この説明は、特定のクエリで利用可能な情報がどのように利用され、その内部重みから回答を生成するための情報で補足されるかを強調している。 言語モデルの生成能力は近年改善されているが、モデルの真の推論能力を検証する構造的な説明を生成することは依然として課題である。 この問題は特に非大規模LM(例えばFLAN-T5-XXL)で発音される。 本研究ではまず,この課題に対処する上で,教師付き微調整(SFT)の限界を強調し,その解決のために強化学習(RL)における報酬工学手法を慎重に導入する。 本稿では,複数の報酬集計手法について検討し,今後の研究開発におけるRLの可能性を明らかにする。 提案手法は,2つの半構造化説明生成ベンチマーク (ExplaGraph と COPA-SSE) において,新しい最先端結果を実現する。

Semi-structured explanation depicts the implicit process of a reasoner with an explicit representation. This explanation highlights how available information in a specific query is utilised and supplemented with information a reasoner produces from its internal weights towards generating an answer. Despite the recent improvements in generative capabilities of language models, producing structured explanations to verify a model's true reasoning capabilities remains a challenge. This issue is particularly pronounced for not-so-large LMs (e.g., FLAN-T5-XXL). In this work, we first underscore the limitations of supervised fine-tuning (SFT) in tackling this challenge, and then introduce a carefully crafted reward engineering method in reinforcement learning (RL) to better address this problem. We investigate multiple reward aggregation methods and provide a detailed discussion which sheds light on the promising potential of RL for future research. Our proposed method on two semi-structured explanation generation benchmarks (ExplaGraph and COPA-SSE) achieves new state-of-the-art results.
翻訳日:2024-01-25 17:31:55 公開日:2024-01-24
# voxtlm:音声認識/合成と音声/テキスト継続タスクを統合する統合デコーダ専用モデル

Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks ( http://arxiv.org/abs/2309.07937v3 )

ライセンス: Link先を確認
Soumi Maiti, Yifan Peng, Shukjae Choi, Jee-weon Jung, Xuankai Chang, Shinji Watanabe(参考訳) 本稿では,音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダ専用言語モデルvoxtlmを提案する。 VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。 単一タスクモデルと比較すると、voxtlmは音声合成が著しく改善され、音声の知性が28.9から5.6に向上し、客観的品質が2.68から3.90に向上した。 また、VoxtLMはシングルタスクよりも音声認識性能と音声認識性能を向上させる。 さらに、VoxtLMは公開データでトレーニングされ、トレーニングレシピとモデルチェックポイントは、完全に再現可能な作業を実現するためにオープンソース化されている。

We propose a decoder-only language model, VoxtLM, that can perform four tasks: speech recognition, speech synthesis, text generation, and speech continuation. VoxtLM integrates text vocabulary with discrete speech tokens from self-supervised speech features and uses special tokens to enable multitask learning. Compared to a single-task model, VoxtLM exhibits a significant improvement in speech synthesis, with improvements in both speech intelligibility from 28.9 to 5.6 and objective quality from 2.68 to 3.90. VoxtLM also improves speech generation and speech recognition performance over the single-task counterpart. Further, VoxtLM is trained with publicly available data and training recipes and model checkpoints are open-sourced to make fully reproducible work.
翻訳日:2024-01-25 17:31:38 公開日:2024-01-24
# 制御可能なASRのためのPromptASR

PromptASR for contextualized ASR with controllable style ( http://arxiv.org/abs/2309.07414v3 )

ライセンス: Link先を確認
Xiaoyu Yang, Wei Kang, Zengwei Yao, Yifan Yang, Liyong Guo, Fangjun Kuang, Long Lin, Daniel Povey(参考訳) プロンプトは、トピックや論理関係といったコンテキスト情報を提供するため、大きな言語モデルにとって不可欠である。 そこで本研究では,E2E自動音声認識(E2E ASR)システムにプロンプトを統合するフレームワークであるPromptASRを提案する。 具体的には、専用テキストエンコーダがテキストプロンプトを符号化し、そのエンコーダを2つのモーダルから特徴を交叉して音声エンコーダに注入する。 先行する発話の真実文をコンテンツプロンプトとして使用する場合,本システムは,本文読解データセットと本文内データセットに対して,ベースラインASRシステムと比較して,21.9%,6.8%の単語誤り率削減を実現している。 このシステムは、単語レベルの偏見リストを、まれな単語の認識精度の向上に役立てることができる。 追加のスタイルプロンプトがテキストエンコーダに与えられ、asrシステムが異なる書き起こしスタイルを出力するようにガイドすることができる。 コードはアイスフォールで入手できる。

Prompts are crucial to large language models as they provide context information such as topic or logical relationships. Inspired by this, we propose PromptASR, a framework that integrates prompts in end-to-end automatic speech recognition (E2E ASR) systems to achieve contextualized ASR with controllable style of transcriptions. Specifically, a dedicated text encoder encodes the text prompts and the encodings are injected into the speech encoder by cross-attending the features from two modalities. When using the ground truth text from preceding utterances as content prompt, the proposed system achieves 21.9% and 6.8% relative word error rate reductions on a book reading dataset and an in-house dataset compared to a baseline ASR system. The system can also take word-level biasing lists as prompt to improve recognition accuracy on rare words. An additional style prompt can be given to the text encoder and guide the ASR system to output different styles of transcriptions. The code is available at icefall.
翻訳日:2024-01-25 17:31:24 公開日:2024-01-24
# 分散と冗長化による音声表現の自己教師付き学習理解

Understanding Self-Supervised Learning of Speech Representation via Invariance and Redundancy Reduction ( http://arxiv.org/abs/2309.03619v2 )

ライセンス: Link先を確認
Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann(参考訳) 自己教師付き学習(SSL)は、ラベルのないデータから柔軟な音声表現を学ぶための有望なパラダイムとして登場した。 統計正則性を利用するプリテキストタスクを設計することで、SSLモデルは下流タスクに転送可能な有用な表現をキャプチャできる。 本研究は,人間の知覚における冗長性低下の理論に触発されたSSL技術であるBarlow Twins(BT)を実証分析した。 下流タスクでは、BT表現が学習を加速し、ドメイン間で転送される。 しかし、冗長性の低減と不変性だけで、学習した潜伏者をモジュラー、コンパクト、情報的コードに分解するには限界がある。 本稿では,非分散制約から利得を分離するが,利得は文脈依存的であった。 全体として、この研究はサンプル効率のよい音声符号化のためのBarlow Twinsの可能性を裏付けるものである。 しかし、完全な階層表現を達成する上での課題は残る。 分析方法論と洞察は、BT自己監督フレームワークをさらに強化するために、さらに誘導的な事前と知覚的原則を取り入れた拡張の道を開く。

Self-supervised learning (SSL) has emerged as a promising paradigm for learning flexible speech representations from unlabeled data. By designing pretext tasks that exploit statistical regularities, SSL models can capture useful representations that are transferable to downstream tasks. This study provides an empirical analysis of Barlow Twins (BT), an SSL technique inspired by theories of redundancy reduction in human perception. On downstream tasks, BT representations accelerated learning and transferred across domains. However, limitations exist in disentangling key explanatory factors, with redundancy reduction and invariance alone insufficient for factorization of learned latents into modular, compact, and informative codes. Our ablations study isolated gains from invariance constraints, but the gains were context-dependent. Overall, this work substantiates the potential of Barlow Twins for sample-efficient speech encoding. However, challenges remain in achieving fully hierarchical representations. The analysis methodology and insights pave a path for extensions incorporating further inductive priors and perceptual principles to further enhance the BT self-supervision framework.
翻訳日:2024-01-25 17:29:54 公開日:2024-01-24
# 制限ボルツマンマシンによる有効結合の推論

Inferring effective couplings with Restricted Boltzmann Machines ( http://arxiv.org/abs/2309.02292v3 )

ライセンス: Link先を確認
Aur\'elien Decelle, Cyril Furtlehner, Alfonso De Jesus Navas G\'omez, Beatriz Seoane(参考訳) 生成モデルは複雑なデータを直接モデリングする方法を提供する。 エネルギーベースのモデルは、ニューラルネットワークの形でエネルギー関数に関連するボルツマン重みのレベルでのデータで観測される統計的相関を符号化しようとする。 我々は,このようなモデルの物理的解釈を理解することの難しさについて論じる。 本研究では,制限ボルツマン機械と有効イジングスピンハミルトニアンとの直接マッピングを実現することで,簡単な解法を提案する。 このマッピングは、全ての可能な順序の相互作用を含み、逆イジング(またはボルツマン機械)アプローチで一般的に考慮される通常のペアワイズ相互作用を超えて、複雑なデータセットの記述を可能にする。 初期の研究はこの目標を達成しようとしたが、提案されたマッピングは推論アプリケーションには不正確であり、問題の複雑さを適切に扱えなかった。 提案手法を検証するために,我々は,局所的な外部場を持つモデルと,異なるスパーストポロジーにおける2体および3体相互作用の平衡サンプルを用いて,RCMを訓練する制御逆数値実験を行った。 その結果,提案手法が正しいインタラクションネットワークを学習する上での有効性を示し,興味深いバイナリ変数データセットのモデリングに応用できることを示す。 また,異なるトレーニング手法を用いて,推定モデルの品質を評価する。

Generative models offer a direct way of modeling complex data. Energy-based models attempt to encode the statistical correlations observed in the data at the level of the Boltzmann weight associated with an energy function in the form of a neural network. We address here the challenge of understanding the physical interpretation of such models. In this study, we propose a simple solution by implementing a direct mapping between the Restricted Boltzmann Machine and an effective Ising spin Hamiltonian. This mapping includes interactions of all possible orders, going beyond the conventional pairwise interactions typically considered in the inverse Ising (or Boltzmann Machine) approach, and allowing the description of complex datasets. Earlier works attempted to achieve this goal, but the proposed mappings were inaccurate for inference applications, did not properly treat the complexity of the problem, or did not provide precise prescriptions for practical application. To validate our method, we performed several controlled inverse numerical experiments in which we trained the RBMs using equilibrium samples of predefined models with local external fields, 2-body and 3-body interactions in different sparse topologies. The results demonstrate the effectiveness of our proposed approach in learning the correct interaction network and pave the way for its application in modeling interesting binary variable datasets. We also evaluate the quality of the inferred model based on different training methods.
翻訳日:2024-01-25 17:29:32 公開日:2024-01-24
# マルチコントラストMRI超解像・再構成のための深部展開畳み込み辞書モデル

Deep Unfolding Convolutional Dictionary Model for Multi-Contrast MRI Super-resolution and Reconstruction ( http://arxiv.org/abs/2309.01171v2 )

ライセンス: Link先を確認
Pengcheng Lei, Faming Fang, Guixu Zhang and Ming Xu(参考訳) 磁気共鳴イメージング(MRI)タスクは、しばしば複数のコントラストを含む。 近年,マルチコントラスト画像からの補完情報を探索するために,多くの深層学習に基づくマルチコントラストMRI超解像(SR)と再構成手法が提案されている。 しかし、これらの手法はパラメータ共有ネットワークを構築するか、あるいは融合ルールを手動で設計するか、マルチコントラスト画像間の相関を正確にモデル化できず、特定の解釈を欠いている。 本稿では,データ忠実度項を用いた最適化アルゴリズムの指導の下で,マルチコントラスト畳み込み辞書(MC-CDic)モデルを提案する。 具体的には,マルチコントラストmr画像の観測モデルを膨らませ,マルチコントラスト画像の共通特徴と特徴を明示的にモデル化する。 このようにして、参照画像中の有用な情報のみを対象画像に転送でき、一貫性のない情報を無視することができる。 我々は近位勾配アルゴリズムを用いてモデルを最適化し,反復ステップを深いccdモデルに展開する。 特に近位演算子は学習可能なresnetに置き換えられる。 さらに,モデル性能をさらに向上させるために,マルチスケール辞書が導入された。 マルチコントラストMRI SRと再構成タスクでMC-CDicモデルをテストする。 実験の結果,既存のSOTA法に対するMC-CDicモデルの有効性が示された。 コードはhttps://github.com/lpcccc-cv/mc-cdicで入手できる。

Magnetic resonance imaging (MRI) tasks often involve multiple contrasts. Recently, numerous deep learning-based multi-contrast MRI super-resolution (SR) and reconstruction methods have been proposed to explore the complementary information from the multi-contrast images. However, these methods either construct parameter-sharing networks or manually design fusion rules, failing to accurately model the correlations between multi-contrast images and lacking certain interpretations. In this paper, we propose a multi-contrast convolutional dictionary (MC-CDic) model under the guidance of the optimization algorithm with a well-designed data fidelity term. Specifically, we bulid an observation model for the multi-contrast MR images to explicitly model the multi-contrast images as common features and unique features. In this way, only the useful information in the reference image can be transferred to the target image, while the inconsistent information will be ignored. We employ the proximal gradient algorithm to optimize the model and unroll the iterative steps into a deep CDic model. Especially, the proximal operators are replaced by learnable ResNet. In addition, multi-scale dictionaries are introduced to further improve the model performance. We test our MC-CDic model on multi-contrast MRI SR and reconstruction tasks. Experimental results demonstrate the superior performance of the proposed MC-CDic model against existing SOTA methods. Code is available at https://github.com/lpcccc-cv/MC-CDic.
翻訳日:2024-01-25 17:29:09 公開日:2024-01-24
# リンク予測のためのPure Message Passingは、近隣住民を推定できる

Pure Message Passing Can Estimate Common Neighbor for Link Prediction ( http://arxiv.org/abs/2309.00976v3 )

ライセンス: Link先を確認
Kaiwen Dong, Zhichun Guo, Nitesh V. Chawla(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ表現学習におけるデファクト標準として登場した。 しかし、リンク予測に関して、彼らはしばしば苦労し、Common Neighbor (CN)のような単純なヒューリスティックに勝っている。 MPNNはノードレベルの表現が優れているが、CNのようなリンク予測に不可欠な結合構造的特徴を符号化する。 このギャップを埋めるために、入力ベクトルの直交性を利用することで、純粋なメッセージパッシングが実際に結合構造の特徴を捉えることができると仮定する。 具体的には,CNヒューリスティックスを近似するMPNNの習熟度について検討する。 そこで本研究では,新しいリンク予測モデルであるメッセージパッシングリンク予測器(mplp)を提案する。 MPLPは準直交ベクトルをタップしてリンクレベルの構造的特徴を推定する。 さらに,構造的特徴を捉えるためにメッセージパッシングを活用することで,推定分散を犠牲にしてMPNNの表現性制限を相殺できることを示す。 我々は様々な領域のベンチマークデータセットの実験を行い、この手法はベースライン法より一貫して優れています。

Message Passing Neural Networks (MPNNs) have emerged as the {\em de facto} standard in graph representation learning. However, when it comes to link prediction, they often struggle, surpassed by simple heuristics such as Common Neighbor (CN). This discrepancy stems from a fundamental limitation: while MPNNs excel in node-level representation, they stumble with encoding the joint structural features essential to link prediction, like CN. To bridge this gap, we posit that, by harnessing the orthogonality of input vectors, pure message-passing can indeed capture joint structural features. Specifically, we study the proficiency of MPNNs in approximating CN heuristics. Based on our findings, we introduce the Message Passing Link Predictor (MPLP), a novel link prediction model. MPLP taps into quasi-orthogonal vectors to estimate link-level structural features, all while preserving the node-level complexities. Moreover, our approach demonstrates that leveraging message-passing to capture structural features could offset MPNNs' expressiveness limitations at the expense of estimation variance. We conduct experiments on benchmark datasets from various domains, where our method consistently outperforms the baseline methods.
翻訳日:2024-01-25 17:28:48 公開日:2024-01-24
# CALM : 言語モデルバイアスの総合評価のためのマルチタスクベンチマーク

CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias ( http://arxiv.org/abs/2308.12539v2 )

ライセンス: Link先を確認
Vipul Gupta, Pranav Narayanan Venkit, Hugo Lauren\c{c}on, Shomir Wilson, Rebecca J. Passonneau(参考訳) 言語モデル(lms)がますます強力で広く使われるようになり、社会デミックバイアスと害の可能性を定量化することが重要である。 偏見の以前の尺度は、低い多様性や限られたテンプレート数などの要因により、社会的グループ間でのパフォーマンスを比較するために設計されたテンプレートの摂動に敏感である。 また、これまでの作業では1つのNLPタスクしか考慮していなかった。 本稿では,言語モデルの包括的評価(CALM)を導入し,普遍的に関連する2種類の社会デマログラフバイアス,性別,人種を計測する。 CALMは質問回答、感情分析、自然言語推論のための16のデータセットを統合している。 各データセットの例をフィルタして、224のテンプレートを高い多様性(長さ、語彙など)で生成する。 3つのNLPタスクをカバーする78,400のプロンプトを生成するため、7つの異なる人口集団それぞれに50の非常に頻繁な人物名を組み立てた。 実験により,CALMのバイアススコアは,テンプレート内の摂動やテンプレートのランダムなサブセット選択に対して,従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。 大規模言語モデル20に対してCALMを適用すると、2つの言語モデル系列に対して、より大きなパラメータモデルはより小さなモデルよりも偏りが強いことが分かる。 T0シリーズは、ここで研究された20のLLMのうち、最もバイアスの少ないモデルファミリーである。 コードはhttps://github.com/vipulgupta1011/calmで入手できる。

As language models (LMs) become increasingly powerful and widely used, it is important to quantify them for sociodemographic bias with potential for harm. Prior measures of bias are sensitive to perturbations in the templates designed to compare performance across social groups, due to factors such as low diversity or limited number of templates. Also, most previous work considers only one NLP task. We introduce Comprehensive Assessment of Language Models (CALM) for robust measurement of two types of universally relevant sociodemographic bias, gender and race. CALM integrates sixteen datasets for question-answering, sentiment analysis and natural language inference. Examples from each dataset are filtered to produce 224 templates with high diversity (e.g., length, vocabulary). We assemble 50 highly frequent person names for each of seven distinct demographic groups to generate 78,400 prompts covering the three NLP tasks. Our empirical evaluation shows that CALM bias scores are more robust and far less sensitive than previous bias measurements to perturbations in the templates, such as synonym substitution, or to random subset selection of templates. We apply CALM to 20 large language models, and find that for 2 language model series, larger parameter models tend to be more biased than smaller ones. The T0 series is the least biased model families, of the 20 LLMs investigated here. The code is available at https://github.com/vipulgupta1011/CALM.
翻訳日:2024-01-25 17:27:55 公開日:2024-01-24
# 絡み合った光子を用いた適応光学イメージング

Adaptive Optical Imaging with Entangled Photons ( http://arxiv.org/abs/2308.11472v2 )

ライセンス: Link先を確認
Patrick Cameron, Baptiste Courme, Chlo\'e Verni\`ere, Raj Pandya Daniele Faccio, Hugo Defienne(参考訳) アダプティブ光学(ao)は、光学収差を補正することで、天文学から顕微鏡に至るまでの領域でのイメージングに革命をもたらした。 しかし、ラベルのない顕微鏡では、従来のAOはガイドスターの欠如とサンプルと撮像プロセスに特有の最適化基準を選択する必要性のために制限に直面している。 本稿では, 絡み合った光子間の相関を利用して点拡散関数(PSF)を直接補正するAO手法を提案する。 このガイドスターフリー方法は、検体および撮像モードとは無関係である。 本研究では,空間的に絡み合った光子対の源で操作する明るい視野撮像装置を用いて,収差の存在下での生物試料のイメージングを行う。 本手法は, 特定の収差, 特に有意なデフォーカスの補正において, 従来のAOよりも優れていた。 我々の研究はラベルフリー顕微鏡のためのaoを改善し、量子顕微鏡の開発において重要な役割を果たす。

Adaptive optics (AO) has revolutionized imaging in {fields} from astronomy to microscopy by correcting optical aberrations. In label-free microscopes, however, conventional AO faces limitations due to the absence of guidestar and the need to select an optimization metric specific to the sample and imaging process. Here, we propose an AO approach leveraging correlations between entangled photons to directly correct the point spread function (PSF). This guidestar-free method is independent of the specimen and imaging modality. We demonstrate the imaging of biological samples in the presence of aberrations using a bright-field imaging setup operating with a source of spatially-entangled photon pairs. Our approach performs better than conventional AO in correcting specific aberrations, particularly those involving significant defocus. Our work improves AO for label-free microscopy and could play a major role in the development of quantum microscopes.
翻訳日:2024-01-25 17:27:31 公開日:2024-01-24
# GaitPT:骨格は歩行認識に必要なもの

GaitPT: Skeletons Are All You Need For Gait Recognition ( http://arxiv.org/abs/2308.10623v2 )

ライセンス: Link先を確認
Andy Catruna, Adrian Cosma and Emilian Radoi(参考訳) 歩行パターンの分析は、セキュリティ、医療、スポーツ、人間とコンピュータの相互作用に多くの応用がある重要な研究分野である。 近年,歩行パターンは,遠隔地における人物の自動識別のためのユニークなフィンガープリント手法と見なされている。 本研究では,歩容情報に頼らずに,ポーズ推定スケルトンを用いて独自の歩行パターンをキャプチャする,歩行ピラミッドトランスフォーマ(gaitpt)と呼ばれる新しい歩容認識アーキテクチャを提案する。 GaitPTは階層的なトランスフォーマーアーキテクチャを採用し、人間の骨格の構造によって導かれる、解剖学的に一貫した方法で運動の空間的特徴と時間的特徴の両方を効果的に抽出する。 以上の結果から,gaitptは他のスケルトンベースの歩容認識手法と比較して,制御されたシナリオと機内シナリオの両方において最先端の性能を達成できることがわかった。 GaitPTはCASIA-Bの平均精度を82.6%、他の作品よりも6%上回っている。 さらに、スケルトンベースと外観ベースの両方のアプローチで52.16%の精度が得られる。

The analysis of patterns of walking is an important area of research that has numerous applications in security, healthcare, sports and human-computer interaction. Lately, walking patterns have been regarded as a unique fingerprinting method for automatic person identification at a distance. In this work, we propose a novel gait recognition architecture called Gait Pyramid Transformer (GaitPT) that leverages pose estimation skeletons to capture unique walking patterns, without relying on appearance information. GaitPT adopts a hierarchical transformer architecture that effectively extracts both spatial and temporal features of movement in an anatomically consistent manner, guided by the structure of the human skeleton. Our results show that GaitPT achieves state-of-the-art performance compared to other skeleton-based gait recognition works, in both controlled and in-the-wild scenarios. GaitPT obtains 82.6% average accuracy on CASIA-B, surpassing other works by a margin of 6%. Moreover, it obtains 52.16% Rank-1 accuracy on GREW, outperforming both skeleton-based and appearance-based approaches.
翻訳日:2024-01-25 17:27:16 公開日:2024-01-24
# 一貫性ポリシーによる継続的制御の促進

Boosting Continuous Control with Consistency Policy ( http://arxiv.org/abs/2310.06343v2 )

ライセンス: Link先を確認
Yuhui Chen, Haoran Li, Dongbin Zhao(参考訳) トレーニング安定性と強い表現のため、拡散モデルはオフライン強化学習において大きな注目を集めている。 しかし、いくつかの課題もあります。 1) 多数の拡散ステップの需要は,拡散モデルに基づく手法を時間非効率にし,その適用をリアルタイム制御で制限する。 2)拡散モデルに基づく政策の正確なガイダンスによる政策改善の方法はまだ未解決の問題である。 一貫性モデルに着想を得て,Q-Learning (CPQL) を用いた一貫性ポリシー (Consistency Policy with Q-Learning) という新しい時間効率手法を提案する。 逆拡散軌跡から所望のポリシーへのマッピングを確立することにより、拡散モデルに基づくポリシーを学習されたq関数で更新する際の時間効率と不正確なガイダンスの問題を同時に解決する。 我々はcpqlがオフライン強化学習のための正確なガイダンスによりポリシー改善を達成し、オンラインrlタスクにシームレスに拡張できることを実証する。 実験の結果、CPQLは11のオフラインタスクと21のオンラインタスクで新しい最先端のパフォーマンスを実現し、Diffusion-QLに比べて推論速度を45倍近く改善している。 コードは後でリリースします。

Due to its training stability and strong expression, the diffusion model has attracted considerable attention in offline reinforcement learning. However, several challenges have also come with it: 1) The demand for a large number of diffusion steps makes the diffusion-model-based methods time inefficient and limits their applications in real-time control; 2) How to achieve policy improvement with accurate guidance for diffusion model-based policy is still an open problem. Inspired by the consistency model, we propose a novel time-efficiency method named Consistency Policy with Q-Learning (CPQL), which derives action from noise by a single step. By establishing a mapping from the reverse diffusion trajectories to the desired policy, we simultaneously address the issues of time efficiency and inaccurate guidance when updating diffusion model-based policy with the learned Q-function. We demonstrate that CPQL can achieve policy improvement with accurate guidance for offline reinforcement learning, and can be seamlessly extended for online RL tasks. Experimental results indicate that CPQL achieves new state-of-the-art performance on 11 offline and 21 online tasks, significantly improving inference speed by nearly 45 times compared to Diffusion-QL. We will release our code later.
翻訳日:2024-01-25 17:19:50 公開日:2024-01-24
# 新しい不確定性に基づく量子論

A new indeterminacy-based quantum theory ( http://arxiv.org/abs/2310.04002v3 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 本稿では,環境決定性に基づく,あるいはEnD量子理論(EnDQT)と呼ぶ新しい量子理論を提案する。 量子論のよく知られた解釈とは対照的に、endqtは隠れ変数を付加しない利点があり、相対性理論と緊張関係にあり、視点や世界によって測定結果が変わることなく、量子相関の局所因果説明を提供する。 保守的であり、崩壊理論とは異なり、原理的には任意の系を任意の時間の間重ね合わせに置くことができ、量子論の基本方程式の変更は不要である。 さらに、量子論の他の解釈と区別できるような、一連の新しい経験的ポジットを提供する。 EnDQTによると、一部のシステムはある時点で決定値を取得し、相互作用によって決定値をもたらす能力は、局所的な相互作用を介して時空の他のシステムに伝播する。 このプロセスは特定のネットワークで表現できる。 システムがこれらのネットワークに属するシステムから分離された場合、非関係的に不定値を持つ。

I propose a novel (interpretation of) quantum theory, which I will call Environmental Determinacy-based or EnD Quantum Theory (EnDQT). In contrast to the well-known interpretations of quantum theory, EnDQT has the benefit of not adding hidden variables, is not in tension with relativity, and provides a local causal explanation of quantum correlations without measurement outcomes varying according to perspectives or worlds. It is conservative, and so unlike collapse theories, in principle, arbitrary systems can be placed in a superposition for an arbitrary amount of time, and no modifications of the fundamental equations of quantum theory are required. Furthermore, it provides a series of novel empirical posits that may distinguish it from other interpretations of quantum theory. According to EnDQT, some systems acquire determinate values at some point, and the capacity to give rise to determinate values through interactions propagates to other systems in spacetime via local interactions. This process can be represented via certain networks. When a system is isolated from the systems that belong to these networks, it will non-relationally have indeterminate values.
翻訳日:2024-01-25 17:19:29 公開日:2024-01-24
# 深層学習を用いたX線画像における不正項目の視覚検査

Visual inspection for illicit items in X-ray images using Deep Learning ( http://arxiv.org/abs/2310.03658v2 )

ライセンス: Link先を確認
Ioannis Mademlis, Georgios Batsis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos(参考訳) 空港や地下鉄、税関・郵便局などの警備員の精神的負担を軽減することで、x線画像中のコントラバンド項目の自動検出は公共の安全を大幅に向上させることができる。 ラッシュ時の乗客の大量かつ高スループット、郵便荷物等は、実際にはビッグデータの問題となっている。 ディープニューラルネットワーク(DNN)に依存した現代のコンピュータビジョンアルゴリズムは、高速で単一ステージのオブジェクト検出器の場合のように、リソース制約や組込み実行シナリオの下でも、このタスクを遂行できることが証明されている。 しかし、様々なDNNコンポーネント/メソッドの比較実験は共通の評価プロトコルの下で行われておらず、信頼性の高いクロスメソッド比較が欠落している。 本稿では,パブリックな関連データセットと,評価中の特定のdnnコンポーネント/モジュールを選択するための明確に定義された方法論を用いて,その比較評価を行う。 その結果、トランスフォーマー検出器の優位性、セキュリティ応用のためにここ数年開発されてきた補助神経モジュールの陳腐化した性質、CSP-DarkNetバックボーンCNNの効率性が示唆された。

Automated detection of contraband items in X-ray images can significantly increase public safety, by enhancing the productivity and alleviating the mental load of security officers in airports, subways, customs/post offices, etc. The large volume and high throughput of passengers, mailed parcels, etc., during rush hours practically make it a Big Data problem. Modern computer vision algorithms relying on Deep Neural Networks (DNNs) have proven capable of undertaking this task even under resource-constrained and embedded execution scenarios, e.g., as is the case with fast, single-stage object detectors. However, no comparative experimental assessment of the various relevant DNN components/methods has been performed under a common evaluation protocol, which means that reliable cross-method comparisons are missing. This paper presents exactly such a comparative assessment, utilizing a public relevant dataset and a well-defined methodology for selecting the specific DNN components/modules that are being evaluated. The results indicate the superiority of Transformer detectors, the obsolete nature of auxiliary neural modules that have been developed in the past few years for security applications and the efficiency of the CSP-DarkNet backbone CNN.
翻訳日:2024-01-25 17:19:09 公開日:2024-01-24
# トランスファーファクトラーニングによる電力サービス不平等の評価

Assessing Electricity Service Unfairness with Transfer Counterfactual Learning ( http://arxiv.org/abs/2310.03258v2 )

ライセンス: Link先を確認
Song Wei, Xiangrui Kong, Alinson Santos Xavier, Shixiang Zhu, Yao Xie, Feng Qiu(参考訳) エネルギー正義は学際的なエネルギー研究への関心が高まっている。 しかしながら、エネルギーセクターにおける系統的バイアスの特定は、変数の相違、反ファクト効果の複雑な不均一性、データ可用性の制限により、依然として困難である。 まず,特定保護属性の平均因果効果を解析することにより,電力系統における非現実的不公平性を評価できることを示す。 次に,モデルの不均質性を扱うためにサブグループ分析を行い,各サブグループにおけるデータ不足の軽減に寄与する転送学習に基づく反事実不公平性推定法を提案する。 本研究では,本手法をユニークな大規模顧客レベルの停電データに適用し,人口の所得や年齢といった人口統計学的要因が停電期間に与える影響について検討する。 以上の結果から,低所得地域と高齢者人口地域は,日常的,災害後の双方で相変わらず長大な停電を経験していることが示唆された。 これらの知見は、電力サービスシステムにおける不正の広範囲かつ体系的な問題を示し、不利なコミュニティにおける集中的な介入の必要性を強調している。

Energy justice is a growing area of interest in interdisciplinary energy research. However, identifying systematic biases in the energy sector remains challenging due to confounding variables, intricate heterogeneity in counterfactual effects, and limited data availability. First, this paper demonstrates how one can evaluate counterfactual unfairness in a power system by analyzing the average causal effect of a specific protected attribute. Subsequently, we use subgroup analysis to handle model heterogeneity and introduce a novel method for estimating counterfactual unfairness based on transfer learning, which helps to alleviate the data scarcity in each subgroup. In our numerical analysis, we apply our method to a unique large-scale customer-level power outage data set and investigate the counterfactual effect of demographic factors, such as income and age of the population, on power outage durations. Our results indicate that low-income and elderly-populated areas consistently experience longer power outages under both daily and post-disaster operations, and such discrimination is exacerbated under severe conditions. These findings suggest a widespread, systematic issue of injustice in the power service systems and emphasize the necessity for focused interventions in disadvantaged communities.
翻訳日:2024-01-25 17:18:49 公開日:2024-01-24
# スタック注意: 階層パターンをモデル化するトランスフォーマーの能力向上

Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns ( http://arxiv.org/abs/2310.01749v2 )

ライセンス: Link先を確認
Brian DuSell and David Chiang(参考訳) 注意、特に拡大されたドット製品注意は自然言語に有効であることが証明されているが、任意の入れ子深さの階層パターンを扱うメカニズムを持っておらず、特定の構文構造を認識する能力に制限がある。 この欠点に対処するために、我々はスタックアテンションを提案する。 スタックを組み込んだアテンションオペレータであり、その理論的に文脈自由言語(cfls)とのつながりに触発されている。 スタックの注意力は標準の注意力に似ているが、構文の監督を必要としない潜在的な構文モデルで示される。 決定論的プッシュダウンオートマトン(pdas)と非決定論的pda(transformerが任意のcflを認識することを可能にする)の2つの変種を提案する。 スタックアテンションを持つ変圧器は標準変圧器が苦戦するCFLの学習に非常に効果的であり,理論上は最大解析が難しいCFLに対して高い結果が得られることを示す。 また,制約パラメータ予算下での自然言語モデリングにおいてスタックアテンションがより効果的であることを示し,機械翻訳の結果を含む。

Attention, specifically scaled dot-product attention, has proven effective for natural language, but it does not have a mechanism for handling hierarchical patterns of arbitrary nesting depth, which limits its ability to recognize certain syntactic structures. To address this shortcoming, we propose stack attention: an attention operator that incorporates stacks, inspired by their theoretical connections to context-free languages (CFLs). We show that stack attention is analogous to standard attention, but with a latent model of syntax that requires no syntactic supervision. We propose two variants: one related to deterministic pushdown automata (PDAs) and one based on nondeterministic PDAs, which allows transformers to recognize arbitrary CFLs. We show that transformers with stack attention are very effective at learning CFLs that standard transformers struggle on, achieving strong results on a CFL with theoretically maximal parsing difficulty. We also show that stack attention is more effective at natural language modeling under a constrained parameter budget, and we include results on machine translation.
翻訳日:2024-01-25 17:18:10 公開日:2024-01-24
# CLIPSelf:視覚変換器はオープンボキャブラリディエンス予測のために自分自身を希釈する

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction ( http://arxiv.org/abs/2310.01403v2 )

ライセンス: Link先を確認
Size Wu and Wenwei Zhang and Lumin Xu and Sheng Jin and Xiangtai Li and Wentao Liu and Chen Change Loy(参考訳) Contrastive Language- Image Pre-training (CLIP) の成功により、オブジェクト検出や画像セグメント化などのオープン語彙密集予測タスクが進んでいる。 CLIPモデル、特に視覚変換器(ViT)を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示した。 しかし,大域画像表現から局所画像表現へクリップの視覚言語アライメントを移行する際,クリップvitsは全画像から局所画像領域への領域シフトに苦しむ。 本稿では,クリップモデルにおける地域言語アライメントの詳細な解析を行い,下流のボキャブラリー密集予測タスクに不可欠である。 次に,クリップvitの画像レベルの認識能力を,領域テキストペアを必要とせずに局所画像領域に適用する,クリップ自己という手法を提案する。 CLIPSelfは、その高密度特徴写像から抽出された領域表現と対応する画像作物の画像レベル表現とを合わせることで、ViTを蒸留する権限を与える。 拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。 モデルとコードはhttps://github.com/wusize/clipselfでリリースされている。

Open-vocabulary dense prediction tasks including object detection and image segmentation have been advanced by the success of Contrastive Language-Image Pre-training (CLIP). CLIP models, particularly those incorporating vision transformers (ViTs), have exhibited remarkable generalization ability in zero-shot image classification. However, when transferring the vision-language alignment of CLIP from global image representation to local region representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer from the domain shift from full images to local image regions. In this paper, we embark on an in-depth analysis of the region-language alignment in CLIP models, which is essential for downstream open-vocabulary dense prediction tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the image-level recognition ability of CLIP ViT to local image regions without needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by aligning a region representation extracted from its dense feature map with the image-level representation of the corresponding image crop. With the enhanced CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary object detection, semantic segmentation, and panoptic segmentation across various benchmarks. Models and code are released at https://github.com/wusize/CLIPSelf.
翻訳日:2024-01-25 17:17:49 公開日:2024-01-24
# Batch Calibration: In-Context LearningとPrompt Engineeringの校正を再考する

Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering ( http://arxiv.org/abs/2309.17249v2 )

ライセンス: Link先を確認
Han Zhou, Xingchen Wan, Lev Proleev, Diana Mincu, Jilin Chen, Katherine Heller, Subhrajit Roy(参考訳) プロンプティングとインコンテキスト学習(ICL)は、大規模言語モデル(LLM)の効率的な学習パラダイムとなっている。 しかし、LSMはプロンプトの脆さや様々なバイアス要因に悩まされ、形式化、選択動詞化、ICLの例などに限定されない。 予期せぬ性能劣化をもたらすこの問題に対処するため,LLM性能を回復させながら,これらのバイアスの影響を軽減するキャリブレーション法を開発した。 本研究では,まず,既存のキャリブレーション手法を体系的に分析し,統一的な視点を提供し,故障事例を明らかにする。 これらの分析から着想を得たバッチキャリブレーション(bc)は、バッチ入力から文脈バイアスを制御し、様々な先行手法を統一し、上記課題を効果的に解決するシンプルで直感的な手法である。 BCはゼロショットであり、推論のみであり、追加コストは無視できない。 少数ショットのセットアップでは、bcを拡張してラベル付きデータからコンテキストバイアスを学習できるようにします。 我々は,PaLM 2-(S, M, L)およびCLIPモデルによるBCの有効性を検証するとともに,10以上の自然言語理解および画像分類タスクにおいて,以前の校正基準に対する最先端性能を示す。

Prompting and in-context learning (ICL) have become efficient learning paradigms for large language models (LLMs). However, LLMs suffer from prompt brittleness and various bias factors in the prompt, including but not limited to the formatting, the choice verbalizers, and the ICL examples. To address this problem that results in unexpected performance degradation, calibration methods have been developed to mitigate the effects of these biases while recovering LLM performance. In this work, we first conduct a systematic analysis of the existing calibration methods, where we both provide a unified view and reveal the failure cases. Inspired by these analyses, we propose Batch Calibration (BC), a simple yet intuitive method that controls the contextual bias from the batched input, unifies various prior approaches, and effectively addresses the aforementioned issues. BC is zero-shot, inference-only, and incurs negligible additional costs. In the few-shot setup, we further extend BC to allow it to learn the contextual bias from labeled data. We validate the effectiveness of BC with PaLM 2-(S, M, L) and CLIP models and demonstrate state-of-the-art performance over previous calibration baselines across more than 10 natural language understanding and image classification tasks.
翻訳日:2024-01-25 17:17:04 公開日:2024-01-24
# 動的不安定性制御による超固体形成時間短縮と励起低減

Supersolid formation time shortcut and excitation reduction by manipulating the dynamical instability ( http://arxiv.org/abs/2309.17098v2 )

ライセンス: Link先を確認
Aitor Ala\~na(参考訳) 超固体は超流動性と結晶の典型的な周期密度変調の両方を示す物質の相である。 超流動から量子相転移によって形成されるとき、密度パターンが発達する前に形成時間を必要とする。 本稿では,超固体形成過程とそれに伴う形成時間において,ロートン不安定が果たす役割について,より初期の記述に基づいて,実験的応用のためのプロトコル・スキームを提案する。 特に、Parachutejumpスキームは相転移を横切る際に生じる励起を減らそうとしており、Bang-Bang法は生成時間を短縮しようとした。 実験を行う際の相転移に機械式揺らぎ(ノイズ)が与える影響を事例研究として,遷移前の機械式キックの影響についても検討した。 提案手法は, 拡張グロス・ピタエフスキー理論の枠組みにおいて, 生成過程の短縮と励起の低減の両方が達成され, 目的を達成することができる。

Supersolids are a phase of matter exhibiting both superfluidity and a periodic density modulation typical of crystals. When formed via quantum phase transition from a superfluid, they require a formation time before their density pattern develops. Along this paper some protocols/schemes are proposed for experimental applications, building on earlier descriptions of the role roton instability plays in the supersolid formation process and the associated formation time. In particular, the Parachutejump scheme sought to lessen the excitation produced when crossing the phase transition, and the Bang-Bang method sought to shorten the formation time. As a case study of the impact that mechanical fluctuations (noise) can have on the phase transition when conducting an experiment, the impact of a mechanical kick before the transition is also investigated. The proposed schemes are able to fulfill their objectives successfully as both the shortening of the formation process and the reduction of excitation are achieved within the framework of extended Gross Pitaevskii theory.
翻訳日:2024-01-25 17:16:40 公開日:2024-01-24
# timbre-trap - 楽器非依存の音楽転写のための低リソースフレームワーク

Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription ( http://arxiv.org/abs/2309.15717v2 )

ライセンス: Link先を確認
Frank Cwitkowitz, Kin Wai Cheuk, Woosung Choi, Marco A. Mart\'inez-Ram\'irez, Keisuke Toyama, Wei-Hsiang Liao, Yuki Mitsufuji(参考訳) 近年、音楽の書き起こしの研究は主に建築設計と楽器固有のデータ取得に焦点が当てられている。 多様なデータセットが入手できないため、進行はピアノの書き起こしのような独奏的なタスクに限られることが多い。 いくつかの研究は、低リソースタスクにおけるモデルの性能を高める手段として、マルチインストラメンテーションの転写を調査してきたが、これらの手法は同じデータ可用性の問題に直面している。 音符と音符の強い分離性を利用して、音符の書き起こしと再生を統一する新しいフレームワークTimbre-Trapを提案する。 単一のオートエンコーダを訓練し、ピッチサリエンスを推定し、複雑なスペクトル係数を再構成し、単純なスイッチ機構により復号ステージのどちらかの出力を選択する。 このようにして、モデルは音色のない音声に対応する係数を生成することを学び、これはピッチ・サリエンスと解釈できる。 このフレームワークは,少量のアノテートデータしか必要とせず,最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。

In recent years, research on music transcription has focused mainly on architecture design and instrument-specific data acquisition. With the lack of availability of diverse datasets, progress is often limited to solo-instrument tasks such as piano transcription. Several works have explored multi-instrument transcription as a means to bolster the performance of models on low-resource tasks, but these methods face the same data availability issues. We propose Timbre-Trap, a novel framework which unifies music transcription and audio reconstruction by exploiting the strong separability between pitch and timbre. We train a single autoencoder to simultaneously estimate pitch salience and reconstruct complex spectral coefficients, selecting between either output during the decoding stage via a simple switch mechanism. In this way, the model learns to produce coefficients corresponding to timbre-less audio, which can be interpreted as pitch salience. We demonstrate that the framework leads to performance comparable to state-of-the-art instrument-agnostic transcription methods, while only requiring a small amount of annotated data.
翻訳日:2024-01-25 17:16:24 公開日:2024-01-24
# DreamCom: 画像合成のためのテキスト誘導塗装モデル

DreamCom: Finetuning Text-guided Inpainting Model for Image Composition ( http://arxiv.org/abs/2309.15508v2 )

ライセンス: Link先を確認
Lingxiao Lu, Jiangtong Li, Bo Zhang, Li Niu(参考訳) 画像合成の目標は、前景オブジェクトを背景画像にマージして現実的な合成画像を得ることである。 近年,前例のない画像生成能力のため,大規模な事前学習拡散モデル上に生成合成法が構築されている。 しかし、それらは前景のオブジェクトの詳細を保存するのに弱い。 特定のオブジェクト用にカスタマイズされた最近のテキストから画像への生成に触発されて、画像合成を特定のオブジェクト用にカスタマイズされたテキストガイド画像として扱うことでドリームコムを提案する。 具体的には、テキストプロンプトにこのオブジェクトに関連付けられた特別なトークンを含む、同一のオブジェクトを含むいくつかの参照画像に基づいて、事前学習されたテキスト誘導画像インペインティングモデルを微調整する。 そして、新しいバックグラウンドが与えられたら、特別なトークンを含むテキストプロンプトで、このオブジェクトを背景に挿入できます。 実際には、挿入された物体は背景の影響を受けやすいため、陰性な背景干渉を避けるためにマスキングされた注意機構を提案する。 dreameditbenchとmrecomデータセットの実験結果は、われわれのdreamcomの優れたパフォーマンスを示している。

The goal of image composition is merging a foreground object into a background image to obtain a realistic composite image. Recently, generative composition methods are built on large pretrained diffusion models, due to their unprecedented image generation ability. However, they are weak in preserving the foreground object details. Inspired by recent text-to-image generation customized for certain object, we propose DreamCom by treating image composition as text-guided image inpainting customized for certain object. Specifically , we finetune pretrained text-guided image inpainting model based on a few reference images containing the same object, during which the text prompt contains a special token associated with this object. Then, given a new background, we can insert this object into the background with the text prompt containing the special token. In practice, the inserted object may be adversely affected by the background, so we propose masked attention mechanisms to avoid negative background interference. Experimental results on DreamEditBench and our contributed MureCom dataset show the outstanding performance of our DreamCom.
翻訳日:2024-01-25 17:16:03 公開日:2024-01-24
# 再訪型ソフトマックスマスキング:リプレイ型連続学習における安定性向上のための停止勾配

Revisiting Softmax Masking: Stop Gradient for Enhancing Stability in Replay-based Continual Learning ( http://arxiv.org/abs/2309.14808v2 )

ライセンス: Link先を確認
Hoyong Kim, Minchan Kwon, Kangil Kim(参考訳) リプレイベースの連続学習法では、エピソード記憶における入力サンプルの再生は破滅的な忘れを緩和する効果を示した。 しかし, ソフトマックスによるクロスエントロピー損失の要因として, 破滅的な記憶の喪失が考えられる。 本稿では,ソフトマックスマスクとリバイジットソフトマックスマスクの効果を負の無限遠で解析し,その光が破滅的忘れを緩和する能力に与える影響について検討する。 分析の結果, 負の無限大マスマスキングソフトマックスは, 暗黒知識と必ずしも相容れないことがわかった。 整合性を改善するために,従来のクラスと新しいクラスに勾配スケールを調整して安定性を制御できる汎用マスクソフトマックスを提案する。 本手法を他のリプレイベース手法で活用することで,バッファサイズが極めて小さく設定された場合でも,連続学習ベンチマークにおけるモデル安定性の向上を主目的とし,優れた性能が得られることを示す。

In replay-based methods for continual learning, replaying input samples in episodic memory has shown its effectiveness in alleviating catastrophic forgetting. However, the potential key factor of cross-entropy loss with softmax in causing catastrophic forgetting has been underexplored. In this paper, we analyze the effect of softmax and revisit softmax masking with negative infinity to shed light on its ability to mitigate catastrophic forgetting. Based on the analyses, it is found that negative infinity masked softmax is not always compatible with dark knowledge. To improve the compatibility, we propose a general masked softmax that controls the stability by adjusting the gradient scale to old and new classes. We demonstrate that utilizing our method on other replay-based methods results in better performance, primarily by enhancing model stability in continual learning benchmarks, even when the buffer size is set to an extremely small value.
翻訳日:2024-01-25 17:15:44 公開日:2024-01-24
# 事前学習多言語翻訳モデルにおける属性制御はどの程度の変換可能か?

How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models? ( http://arxiv.org/abs/2309.08565v3 )

ライセンス: Link先を確認
Danni Liu, Jan Niehues(参考訳) 所望の属性(形式性や文法性など)に従うように機械翻訳モデルをカスタマイズすることは、よく研究されているトピックである。 しかし、現在のアプローチのほとんどは属性アノテーション付きの(半)教師付きデータに依存している。 このデータ不足のボトルネックは、このようなカスタマイズ可能性の民主化を、より広い範囲の言語、特に低リソース言語にもたらす。 このギャップは、事前訓練された多言語翻訳モデルの最近の進歩と一致していない。 また,nllb-200を基盤として属性付与データを用いずに属性制御機能を言語に転送する。 制御可能生成の手法に着想を得て,事前学習したモデルを制御するために勾配に基づく推論時間制御器を用いる。 コントローラは事前訓練された多言語表現で動作し、言語固有のものではなく属性であるため、ゼロショット条件によく転送される。 微調整に基づく制御との包括的比較により,教師付き設定において微調整が支配的であるにもかかわらず,ゼロショット条件,特に新しいターゲット言語において,推論時間制御へのギャップが閉ざされていることを実証する。 後者はより強固なドメインロバスト性を示す。 さらに、推論時間制御が微調整を補完することを示す。 実際の低リソース言語であるBengaliに対する人間による評価は、我々の発見を裏付けるものである。 私たちのコードはhttps://github.com/dannigt/attribute-controller-transferです。

Customizing machine translation models to comply with desired attributes (e.g., formality or grammatical gender) is a well-studied topic. However, most current approaches rely on (semi-)supervised data with attribute annotations. This data scarcity bottlenecks democratizing such customization possibilities to a wider range of languages, particularly lower-resource ones. This gap is out of sync with recent progress in pretrained massively multilingual translation models. In response, we transfer the attribute controlling capabilities to languages without attribute-annotated data with an NLLB-200 model as a foundation. Inspired by techniques from controllable generation, we employ a gradient-based inference-time controller to steer the pretrained model. The controller transfers well to zero-shot conditions, as it operates on pretrained multilingual representations and is attribute -- rather than language-specific. With a comprehensive comparison to finetuning-based control, we demonstrate that, despite finetuning's clear dominance in supervised settings, the gap to inference-time control closes when moving to zero-shot conditions, especially with new and distant target languages. The latter also shows stronger domain robustness. We further show that our inference-time control complements finetuning. A human evaluation on a real low-resource language, Bengali, confirms our findings. Our code is https://github.com/dannigt/attribute-controller-transfer
翻訳日:2024-01-25 17:15:26 公開日:2024-01-24
# 無バイアス濃度の線形対数正規注意

Linear Log-Normal Attention with Unbiased Concentration ( http://arxiv.org/abs/2311.13541v2 )

ライセンス: Link先を確認
Yury Nahshan, Joseph Kampeas and Emir Haleva(参考訳) トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。 しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。 この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。 本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。 さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。 ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。 私たちのコードは補足資料で入手できる。

Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models. Our code is available in supplementary materials.
翻訳日:2024-01-25 17:08:14 公開日:2024-01-24
# 大規模言語モデルを電力システムに適用する:潜在的なセキュリティ脅威

Applying Large Language Models to Power Systems: Potential Security Threats ( http://arxiv.org/abs/2311.13361v2 )

ライセンス: Link先を確認
Jiaqi Ruan, Gaoqi Liang, Huan Zhao, Guolong Liu, Xianzhuo Sun, Jing Qiu, Zhao Xu, Fushuan Wen, Zhao Yang Dong(参考訳) 大規模言語モデル(LLM)を現代の電力システムに適用することは、意思決定と運用効率を向上させるための有望な道を示す。 しかし、この行動は、まだ完全には認識されていない潜在的なセキュリティの脅威を引き起こす可能性がある。 本稿は, LLMを電力システムに適用することで生じる潜在的な脅威を分析し, 緊急研究の必要性と対策の開発を強調する。

Applying large language models (LLMs) to modern power systems presents a promising avenue for enhancing decision-making and operational efficiency. However, this action may also incur potential security threats, which have not been fully recognized so far. To this end, this article analyzes potential threats incurred by applying LLMs to power systems, emphasizing the need for urgent research and development of countermeasures.
翻訳日:2024-01-25 17:07:55 公開日:2024-01-24
# 電気化学における機械学習モデルに対するFalseデータの影響

How False Data Affects Machine Learning Models in Electrochemistry? ( http://arxiv.org/abs/2311.10795v2 )

ライセンス: Link先を確認
Krittapong Deshsorna, Luckhana Lawtrakul, Pawin Iamprasertkun(参考訳) 近年,データ分布のみに基づく機械学習モデルの選択が,データのノイズを考慮せずに行われている。 本研究は,ノイズのあるデータに対して,どのモデルが正常に動作しているかを識別することを目的としている。 電気化学データは12のスタンドアロンモデルと積み重ねモデルで試験された。 これにはXGB、LGBM、RF、GB、ADA、NN、ELAS、LASS、RIDGE、SVM、KNN、DT、スタックモデルが含まれる。 線形モデルは、100%の雑音に対して平均誤差(傾斜)から1.75Fg-1まで、ノイズをうまく処理するが、0%の雑音で最小誤差で60.19Fg-1を推定すると予測精度が低下する。 木ベースのモデルはノイズハンドリングで失敗する(平均勾配は55.24 f g-1で100%ノイズ)が、線形よりも高い予測精度(最低誤差は23.9 f g-1)を提供できる。 予測精度とエラーハンドリングの論争に対処するため、スタックモデルは高い精度(25.03 f g-1のインセプション)を示すだけでなく、優れたノイズハンドリング(43.58 f g-1のスロー)を示し、スタックモデルは比較的リスクが低く、初心者や電気化学の経験豊富な機械学習研究にとって有効な選択肢となっている。 ニューラルネットワーク(NN)は電気化学分野で人気を博している。 しかし, nnは電気化学データには適さないこと, ノイズの影響を受けやすいモデルとなる不適切な調律であることがわかった。 したがって、STACKモデルは、修正されていないベースモデルであっても、正確で耐雑音性のあるモデルを実現することができる、より良い利点を提供するべきである。 全体として、この研究は電気化学データの機械学習モデル選択に関する洞察を与え、化学の文脈におけるデータ科学の理解に役立つだろう。

Recently, the selection of machine learning model based on only the data distribution without concerning the noise of the data. This study aims to distinguish, which models perform well under noisy data, and establish whether stacking machine learning models actually provide robustness to otherwise weak-to-noise models. The electrochemical data were tested with 12 standalone models and stacking model. This includes XGB, LGBM, RF, GB, ADA, NN, ELAS, LASS, RIDGE, SVM, KNN, DT, and the stacking model. It is found that linear models handle noise well with the average error of (slope) to 1.75 F g-1 up to error per 100% percent noise added; but it suffers from prediction accuracy due to having an average of 60.19 F g-1 estimated at minimal error at 0% noise added. Tree-based models fail in terms of noise handling (average slope is 55.24 F g-1 at 100% percent noise), but it can provide higher prediction accuracy (lowest error of 23.9 F g-1) than that of linear. To address the controversial between prediction accuracy and error handling, the stacking model was constructed, which is not only show high accuracy (intercept of 25.03 F g-1), but it also exhibits good noise handling (slope of 43.58 F g-1), making stacking models a relatively low risk and viable choice for beginner and experienced machine learning research in electrochemistry. Even though neural networks (NN) are gaining popularity in the electrochemistry field. However, this study presents that NN is not suitable for electrochemical data, and improper tuning resulting in a model that is susceptible to noise. Thus, STACK models should provide better benefits in that even with untuned base models, they can achieve an accurate and noise-tolerant model. Overall, this work provides insight into machine learning model selection for electrochemical data, which should aid the understanding of data science in chemistry context.
翻訳日:2024-01-25 17:07:48 公開日:2024-01-24
# UMedNeRF:医療用ニューラルラジアンスフィールドのための不確かさを意識した単一ビューボリュームレンダリング

UMedNeRF: Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v5 )

ライセンス: Link先を確認
Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang(参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。 X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。 しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。 本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。 ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。 本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。

In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields.
翻訳日:2024-01-25 17:07:10 公開日:2024-01-24
# ニューラルネットワークに基づく回帰のための効率的なカーネルサロゲート

Efficient kernel surrogates for neural network-based regression ( http://arxiv.org/abs/2310.18612v2 )

ライセンス: Link先を確認
Saad Qadeer, Andrew Engel, Amanda Howard, Adam Tsou, Max Vargas, Panos Stinis, and Tony Chiang(参考訳) さまざまな学習タスクを実行するという大きな約束にもかかわらず、Deep Neural Networks(DNN)の限界に関する理論的理解は、これまでのところ、実践者を追い抜いている。 これは部分的には、学習された関数の閉形式を決定することができないため、見えないデータセットの一般化特性の研究が困難である。 近年の研究では、無限幅制限のランダム初期化DNNが、既知の閉形式を持つニューラルタンジェントカーネル(NTK)に依存するカーネルマシンに収束していることが示されている。 これらの結果は、経験的カーネルマシンが有限幅DNNのサロゲートとしても機能することを示す。 しかし、完全なntkを組み立てる計算コストが高いため、このアプローチは実現不可能となり、低コストな近似の必要性が高まった。 本研究は, NTK に対する効率的な近似である Conjugate Kernel (CK) の性能について検討し, ほぼ同様の結果を得た。 滑らかな関数の回帰問題やロジスティック回帰分類では、CK性能がNTKよりもわずかに劣っていることが示され、ある場合にはより優れていることが示されている。 特に、相対的なテスト損失のバウンダリを確立し、数値的なテストで検証し、カーネルの正則性を性能の重要な決定要因として特定する。 NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。 本稿では,従来の手法と処方則を用いて分類タスクの性能を比較することで,基礎モデルGPT-2にこれを実証する。 また,本手法を応用して,回帰タスクに対する物理情報操作ネットワークトレーニングや,視覚分類タスクのための畳み込みニューラルネットワークトレーニングを改善する方法を示す。

Despite their immense promise in performing a variety of learning tasks, a theoretical understanding of the limitations of Deep Neural Networks (DNNs) has so far eluded practitioners. This is partly due to the inability to determine the closed forms of the learned functions, making it harder to study their generalization properties on unseen datasets. Recent work has shown that randomly initialized DNNs in the infinite width limit converge to kernel machines relying on a Neural Tangent Kernel (NTK) with known closed form. These results suggest, and experimental evidence corroborates, that empirical kernel machines can also act as surrogates for finite width DNNs. The high computational cost of assembling the full NTK, however, makes this approach infeasible in practice, motivating the need for low-cost approximations. In the current work, we study the performance of the Conjugate Kernel (CK), an efficient approximation to the NTK that has been observed to yield fairly similar results. For the regression problem of smooth functions and logistic regression classification, we show that the CK performance is only marginally worse than that of the NTK and, in certain cases, is shown to be superior. In particular, we establish bounds for the relative test losses, verify them with numerical tests, and identify the regularity of the kernel as the key determinant of performance. In addition to providing a theoretical grounding for using CKs instead of NTKs, our framework suggests a recipe for improving DNN accuracy inexpensively. We present a demonstration of this on the foundation model GPT-2 by comparing its performance on a classification task using a conventional approach and our prescription. We also show how our approach can be used to improve physics-informed operator network training for regression tasks as well as convolutional neural network training for vision classification tasks.
翻訳日:2024-01-25 17:06:54 公開日:2024-01-24
# 一般バックボーンネットワーク設計のための画像復元ネットワークの比較検討

A Comparative Study of Image Restoration Networks for General Backbone Network Design ( http://arxiv.org/abs/2310.11881v2 )

ライセンス: Link先を確認
Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao and Chao Dong(参考訳) 様々な画像復元作業における深層モデルによる顕著な進歩にもかかわらず、既存の画像復元ネットワークはタスクの汎用性の観点からも課題に直面している。 直感的に言えば、特定のタスクで優れているネットワークは、しばしば他のタスクに満足のいく結果をもたらすことができない。 この点を説明するために、5つの代表ネットワークを選択し、5つの古典的画像復元タスクの比較研究を行う。 まず,異なる画像復元タスクとバックボーンネットワークの特性について詳細な説明を行う。 次に、ベンチマーク結果を示し、様々なタスクにおける異なるモデルの性能格差の背景にある理由を分析する。 この比較研究から,一般的な画像復元バックボーンネットワークは多様なタスクの機能的要件を満たす必要があることを示唆する。 この原理に基づいて,新しい画像復元バックボーンネットワークであるX-Restormerを設計する。 広範な実験により、x-restormerは優れたタスクの汎用性を持ち、さまざまなタスクで最先端のパフォーマンスを実現することが示されている。

Despite the significant progress made by deep models in various image restoration tasks, existing image restoration networks still face challenges in terms of task generality. An intuitive manifestation is that networks which excel in certain tasks often fail to deliver satisfactory results in others. To illustrate this point, we select five representative networks and conduct a comparative study on five classic image restoration tasks. First, we provide a detailed explanation of the characteristics of different image restoration tasks and backbone networks. Following this, we present the benchmark results and analyze the reasons behind the performance disparity of different models across various tasks. Drawing from this comparative study, we propose that a general image restoration backbone network needs to meet the functional requirements of diverse tasks. Based on this principle, we design a new general image restoration backbone network, X-Restormer. Extensive experiments demonstrate that X-Restormer possesses good task generality and achieves state-of-the-art performance across a variety of tasks.
翻訳日:2024-01-25 17:06:24 公開日:2024-01-24
# 二次元計測エントロピー生成とモジュラー理論に関する一考察

A note on two-times measurement entropy production and modular theory ( http://arxiv.org/abs/2310.10582v3 )

ライセンス: Link先を確認
Tristan Benoist and Laurent Bruneau and Vojkan Jaksic and Annalisa Panati and Claude-Alain Pillet(参考訳) 量子統計力学における2回測定エントロピー生成(2TMEP)に関する最近の理論的研究は、量子力学的確率則の数学と物理学に新たな光を当てている。 注目すべき発展としては、量子領域へのエントロピーゆらぎ関係の拡張、2TMEPと作用素代数のモジュラー理論の間の深いリンクの発見がある。 これらすべての展開は、最初の測定の瞬間におけるシステムの状態がエントロピー生成を測定する状態と同じであるような設定に関するものである。 この研究では、これらの2つの状態が異なる場合を考え、より一般的な 2temp をモジュラー理論に結びつける。 確立された接続により、一般のエルゴード性仮定の下では、2TEMPは、第1の測定によって引き起こされるデコヒーレンス効果により、第1の測定の瞬間に系の状態の選択から本質的に独立であることを示すことができる。 この安定性は量子エントロピー生成の概念、特に有名な古典ガラヴォッティ-コーエンゆらぎ理論の量子定式化について新しい光を放ち、この研究の継続について研究される。

Recent theoretical investigations of the two-times measurement entropy production (2TMEP) in quantum statistical mechanics have shed a new light on the mathematics and physics of the quantum-mechanical probabilistic rules. Among notable developments are the extensions of entropic fluctuation relations to quantum domain and discovery of a deep link between 2TMEP and modular theory of operator algebras. All these developments concerned the setting where the state of the system at the instant of the first measurement is the same as the state whose entropy production is measured. In this work we consider the case where these two states are different and link this more general 2TEMP to modular theory. The established connection allows us to show that under general ergodicity assumptions the 2TEMP is essentially independent of the choice of the system state at the instant of the first measurement due to a decoherence effect induced by the first measurement. This stability sheds a new light on the concept of quantum entropy production, and, in particular, on possible quantum formulations of the celebrated classical Gallavotti--Cohen Fluctuation Theorem which will be studied in the continuation of this work.
翻訳日:2024-01-25 17:06:09 公開日:2024-01-24
# Maestroを模倣する - ファインモータースキル獲得における仮想AI教師の有効性を探る

Mimicking the Maestro: Exploring the Efficacy of a Virtual AI Teacher in Fine Motor Skill Acquisition ( http://arxiv.org/abs/2310.10280v2 )

ライセンス: Link先を確認
Hadar Mulian, Segev Shlomov, Lior Limonad, Alessia Noccaro, Silvia Buscaglione(参考訳) 運動スキル、特に手書きなどの運動スキルは、学術的な追求や日常生活において重要な役割を果たす。 これらのスキルを効果的に教える伝統的な方法は、時間がかかり、一貫性がない。 ロボティクスや人工知能のような高度な技術が台頭するにつれて、人間とロボットと人間とコンピュータの相互作用を通じて、これらの技術を使った教育プロセスを自動化することへの関心が高まっている。 本研究では,運動能力習得のための人間教育者の技術をエミュレートする仮想AI教師の可能性を検討する。 我々は,人間の教官の特徴を捉えたAI教師モデルを導入する。 教師と教師の相互作用を模倣した強化学習環境を用いて,学習者のパフォーマンスの向上,スキル獲得率の向上,学習結果の多様性の低減といった4つの指導的仮説に対して,AIモデルを検証した。 その結果,すべての仮説において有意な改善が認められた。 特に,様々な学習者や設定におけるロバスト性を示し,手書きへの適応性を示した。 本研究は、ロボットに強化学習と模倣学習モデルを統合することで、重要な運動スキルの教育に革命をもたらす可能性を明らかにする。

Motor skills, especially fine motor skills like handwriting, play an essential role in academic pursuits and everyday life. Traditional methods to teach these skills, although effective, can be time-consuming and inconsistent. With the rise of advanced technologies like robotics and artificial intelligence, there is increasing interest in automating such teaching processes using these technologies, via human-robot and human-computer interactions. In this study, we examine the potential of a virtual AI teacher in emulating the techniques of human educators for motor skill acquisition. We introduce an AI teacher model that captures the distinct characteristics of human instructors. Using a Reinforcement Learning environment tailored to mimic teacher-learner interactions, we tested our AI model against four guiding hypotheses, emphasizing improved learner performance, enhanced rate of skill acquisition, and reduced variability in learning outcomes. Our findings, validated on synthetic learners, revealed significant improvements across all tested hypotheses. Notably, our model showcased robustness across different learners and settings and demonstrated adaptability to handwriting. This research underscores the potential of integrating Reinforcement Learning and Imitation Learning models with robotics in revolutionizing the teaching of critical motor skills.
翻訳日:2024-01-25 17:05:53 公開日:2024-01-24
# 変分量子アルゴリズムのためのアルゴリズム指向量子ビットマッピング

Algorithm-oriented qubit mapping for variational quantum algorithms ( http://arxiv.org/abs/2310.09826v2 )

ライセンス: Link先を確認
Yanjun Ji, Xi Chen, Ilia Polian, Yue Ban(参考訳) 量子ビットマッピングの最適化は、短期量子デバイス上でのアルゴリズムの実装の成功に不可欠である。 本稿では,量子アルゴリズム内の固有正則部分構造を活かしたアルゴリズム指向量子ビットマッピング(aoqmap)を提案する。 厳密な手法は最適解を提供するが、指数関数的スケーリングはそれらを非現実的なものにする。 AOQMAPはこの課題に戦略的2段階のアプローチで対処する。 まず、接続制約を満たすために、ターゲット量子デバイスのサブトポロジーに回路を適応させる。 線形、t型、h型部分位相上のすべての連結相互作用を持つ変分量子アルゴリズムに対して、最小回路深さの最適かつスケーラブルな解を提供する。 第二に、現在のデバイスノイズに基づくコスト関数を用いて最適マッピング方式を特定する。 IBMの様々な量子デバイスにおける実証は、AOQMAPが従来のマッピング手法と比較してゲート数と回路深さの両方を著しく減少させ、その結果性能が向上することを示している。 具体的には、AOQMAPは、Qiskit、Tket、SWAPネットワークと比較して、最大82.1%の深さ減少と138%の成功確率の上昇を達成する。 この特殊でスケーラブルなマッピングパラダイムは、より広い量子アルゴリズムクラスを最適化することができる。 アルゴリズム的特徴を活用するためにキュービットマッピングを設計することは、短期量子アルゴリズムの性能を最大化する約束である。

Optimizing qubit mapping is critical for the successful implementation of algorithms on near-term quantum devices. In this paper we present an algorithm-oriented qubit mapping (AOQMAP) that capitalizes on the inherent regular substructures within quantum algorithms. While exact methods provide optimal solutions, their exponential scaling renders them impractical. AOQMAP addresses this challenge through a strategic two-step approach. First, it adapts circuits onto subtopologies of the target quantum device to satisfy connectivity constraints. Optimal and scalable solutions with minimum circuit depth are provided for variational quantum algorithms with all-to-all connected interactions on linear, T-shaped, and H-shaped subtopologies. Second, it identifies the optimal mapping scheme by using a cost function based on current device noise. Demonstrations on various IBM quantum devices indicate that AOQMAP significantly reduces both gate count and circuit depth compared to traditional mapping approaches, consequently enhancing performance. Specifically, AOQMAP achieves up to 82.1% depth reduction and a 138% average increase in success probability compared to Qiskit, Tket, and SWAP network. This specialized and scalable mapping paradigm can potentially optimize broader quantum algorithm classes. Tailoring qubit mapping to leverage algorithmic features holds the promise of maximizing the performance of near-term quantum algorithms.
翻訳日:2024-01-25 17:05:33 公開日:2024-01-24
# 視覚変換器は3次元心筋CTマルチラベルセグメンテーションの効率を高める

Vision Transformers increase efficiency of 3D cardiac CT multi-label segmentation ( http://arxiv.org/abs/2310.09099v2 )

ライセンス: Link先を確認
Lee Jollans, Mariana Bustamante, Lilian Henriksson, Anders Persson, Tino Ebbers(参考訳) 心臓の正確な分節は、パーソナライズされた血流シミュレーションや外科的介入計画に不可欠である。 セグメント化はすべての空間次元において正確である必要があり、スライスごとにデータを分割することで保証されない。 39例の心周期全体760巻と60例の60巻からなる2つの心ctデータセットを用いて, ネットワークを訓練し, 心臓全体を表す複数の領域を同時に3dで分割した。 分節領域は左右心室,左室心筋,上行大動脈,肺動脈,肺静脈,左心房付加物であった。 3次元U-NetとUNETRアーキテクチャを大容量入力に最適化した提案手法と比較した。 提案するネットワークアーキテクチャは、変圧器残差u-net(trunet)と呼ばれ、カスケードダウンサンプリングエンコーダ、カスケードアップサンプリングデコーダ、u-netからの接続をスキップすると共に、修正されたresnet50ブロックと共に、エンコーダ内のvision transformer(vit)ブロックを組み込む。 TRUNetは3D U-NetとUNETRに必要なトレーニング時間の半分以内の全ての構造に対して高いセグメンテーション性能を達成した。 提案手法は, 血管境界の精密なセグメンテーションを達成し, 心臓全体の解剖学的構造を他の方法と比較した。 近接する構造の高速なトレーニング時間と正確なデライン化により、TRUNetは医療画像セグメンテーションタスクの有望な候補となる。 TRUNetのコードはgithub.com/ljollans/TRUNetで入手できる。

Accurate segmentation of the heart is essential for personalized blood flow simulations and surgical intervention planning. Segmentations need to be accurate in every spatial dimension, which is not ensured by segmenting data slice by slice. Two cardiac computed tomography (CT) datasets consisting of 760 volumes across the whole cardiac cycle from 39 patients, and of 60 volumes from 60 patients respectively were used to train networks to simultaneously segment multiple regions representing the whole heart in 3D. The segmented regions included the left and right atrium and ventricle, left ventricular myocardium, ascending aorta, pulmonary arteries, pulmonary veins, and left atrial appendage. The widely used 3D U-Net and the UNETR architecture were compared to our proposed method optimized for large volumetric inputs. The proposed network architecture, termed Transformer Residual U-Net (TRUNet), maintains the cascade downsampling encoder, cascade upsampling decoder and skip connections from U-Net, while incorporating a Vision Transformer (ViT) block in the encoder alongside a modified ResNet50 block. TRUNet reached higher segmentation performance for all structures within approximately half the training time needed for 3D U-Net and UNETR. The proposed method achieved more precise vessel boundary segmentations and better captured the heart's overall anatomical structure compared to the other methods. The fast training time and accurate delineation of adjacent structures makes TRUNet a promising candidate for medical image segmentation tasks. The code for TRUNet is available at github.com/ljollans/TRUNet.
翻訳日:2024-01-25 17:05:11 公開日:2024-01-24
# 実世界ツインフィールド量子鍵分布における位相ノイズ

Phase Noise in Real-World Twin-Field Quantum Key Distribution ( http://arxiv.org/abs/2310.08621v2 )

ライセンス: Link先を確認
Gianluca Bertaina, Cecilia Clivati, Simone Donadello, Carlo Liorni, Alice Meda, Salvatore Virz\`i, Marco Gramegna, Marco Genovese, Filippo Levi, Davide Calonico, Massimiliano Dispenza, Ivo Pietro Degiovanni(参考訳) ツインフィールド量子鍵分布(TF-QKD)プロトコルの現実実装におけるノイズ源の影響について,光子源からの位相雑音に着目して検討した。 この研究は、鍵レートの決定におけるレーザー品質、ネットワークトポロジー、繊維長、アームバランス、検出器性能の役割を強調している。 注目すべきは、主要なTF-QKDプロトコルが異なるメカニズムにもかかわらず位相ノイズの影響を受けていることである。 本研究は,狭線幅レーザーと位相制御技術による2倍以上のデューティサイクルの改善を実証し,高精度時間/周波数分布サービスによる潜在的な相乗効果を強調した。 統合と小型化に向けて進化する超安定レーザーは、既存のネットワーク上でのアジャイルtf-qkd実装を約束する。 位相ノイズと実用的な制約に適切に対処することで、いくつかの国で開発中の量子通信インフラの安全な長距離リンクを確立するために重要な、一貫した鍵レート予測、プロトコルの選択、レイアウト設計が可能になる。

The impact of noise sources in real-world implementations of Twin-Field Quantum Key Distribution (TF-QKD) protocols is investigated, focusing on phase noise from photon sources and connecting fibers. This work emphasizes the role of laser quality, network topology, fiber length, arm balance, and detector performance in determining key rates. Remarkably, it reveals that the leading TF-QKD protocols are similarly affected by phase noise despite different mechanisms. This study demonstrates duty cycle improvements of over a factor of two through narrow-linewidth lasers and phase-control techniques, highlighting the potential synergy with high-precision time/frequency distribution services. Ultrastable lasers, evolving toward integration and miniaturization, offer promise for agile TF-QKD implementations on existing networks. Properly addressing phase noise and practical constraints allows for consistent key rate predictions, protocol selection, and layout design, crucial for establishing secure long-haul links for the Quantum Communication Infrastructures under development in several countries.
翻訳日:2024-01-25 17:04:42 公開日:2024-01-24
# MODISマルチスペクトル時系列と地形・気候データを用いたLULCクラスの双方向再帰計算と存在量推定

Bidirectional recurrent imputation and abundance estimation of LULC classes with MODIS multispectral time series and geo-topographic and climatic data ( http://arxiv.org/abs/2310.07223v3 )

ライセンス: Link先を確認
Jos\'e Rodr\'iguez-Ortega (1 and 2), Rohaifa Khaldi (2), Domingo Alcaraz-Segura (3), Siham Tabik (1) ((1) Department of Computer Science and Artificial Intelligence, DaSCI, University of Granada, Granada, Spain, (2) LifeWatch-ERIC ICT Core, Seville, Spain, (3) Department of Botany, Faculty of Science, University of Granada, Granada, Spain)(参考訳) リモートセンシングされたデータは、土地利用と土地被覆(LULC)が混在している。 スペクトルアンミキシング(SU)は、混合画素を成分LULCタイプとその豊富な分画に分解する鍵となる技術である。 SUのためのディープラーニング(DL)の研究は、通常、単一時間ステップのハイパースペクトル(HS)またはマルチスペクトル(MS)データに焦点をあてるが、我々の研究の先駆者はMODIS MS時系列を使用して、エンドツーエンドのDLモデルで欠落したデータに対処する。 提案手法は,地理的,地形的,気候的補助情報を組み込むことにより,長短項記憶(LSTM)に基づくモデルを強化する。 特に, 教師付き学習による混合スペクトルとlulc存在量間の入出力関係を学習する代わりに, 明示的なエンドメンバー抽出の必要性を解消する。 スペクトル-時間入力データと地理地形情報と気候情報の統合により,混合画素におけるlulc存在量の推定が著しく向上することを示す。 本研究は,2013年460m解像度のMODISマルチスペクトル時系列を用いたアンダルシア (Spain) のラベル付きデータセットをキュレートした。 Andalusia MultiSpectral MultiTemporal Unmixing (Andalusia-MSMTU)と名付けられたこのデータセットは、LULCの豊富なピクセルレベルのアノテーションと補助情報を提供する。 データセット(https://zenodo.org/records/7752348)とコード(https://github.com/jrodriguezortega/MSMTU)が一般公開されている。

Remotely sensed data are dominated by mixed Land Use and Land Cover (LULC) types. Spectral unmixing (SU) is a key technique that disentangles mixed pixels into constituent LULC types and their abundance fractions. While existing studies on Deep Learning (DL) for SU typically focus on single time-step hyperspectral (HS) or multispectral (MS) data, our work pioneers SU using MODIS MS time series, addressing missing data with end-to-end DL models. Our approach enhances a Long-Short Term Memory (LSTM)-based model by incorporating geographic, topographic (geo-topographic), and climatic ancillary information. Notably, our method eliminates the need for explicit endmember extraction, instead learning the input-output relationship between mixed spectra and LULC abundances through supervised learning. Experimental results demonstrate that integrating spectral-temporal input data with geo-topographic and climatic information significantly improves the estimation of LULC abundances in mixed pixels. To facilitate this study, we curated a novel labeled dataset for Andalusia (Spain) with monthly MODIS multispectral time series at 460m resolution for 2013. Named Andalusia MultiSpectral MultiTemporal Unmixing (Andalusia-MSMTU), this dataset provides pixel-level annotations of LULC abundances along with ancillary information. The dataset (https://zenodo.org/records/7752348) and code (https://github.com/jrodriguezortega/MSMTU) are available to the public.
翻訳日:2024-01-25 17:04:02 公開日:2024-01-24
# 拡張ウィグナーの友人パラドックスは非局所相関を必要としない

Extended Wigner's friend paradoxes do not require nonlocal correlations ( http://arxiv.org/abs/2310.06976v2 )

ライセンス: Link先を確認
Laurens Walleghem, Rafael Wagner, Y\`il\`e Y\=ing and David Schmid(参考訳) 拡張ウィグナーの友人のno-go定理(英語版)は、エージェントを動的量子系としてモデル化しようとするときに生じる課題を正確にし、測定問題を研究するための現代的なレンズを提供する。 frauchiger-renner 引数や local friendliness 引数など、これまで研究されてきた多くのno-go定理は、ベルの不等式に違反する量子相関を用いて明示的に構成されている。 本研究では,非文脈性の失敗を証明したノーゴー定理を構築することにより,ウィグナーの友人パラドックスを拡張するためにそのような相関関係は必要ないことを示す。 この議論は、フレイチーガーとレンナーのノーゴー定理(英語版)(no-go theorem)に入る重要な仮定の自然な拡張である、新しいメタフィジカルな仮定(交換とは無関係に呼ぶ)にかかっている。

Extended Wigner's friend no-go theorems provide a modern lens for investigating the measurement problem, by making precise the challenges that arise when one attempts to model agents as dynamical quantum systems. Most such no-go theorems studied to date, such as the Frauchiger-Renner argument and the Local Friendliness argument, are explicitly constructed using quantum correlations that violate Bell inequalities. In this work, we show that such correlations are not necessary for having extended Wigner's friend paradoxes, by constructing a no-go theorem utilizing a proof of the failure of noncontextuality. The argument hinges on a novel metaphysical assumption (which we term Commutation Irrelevance) that is a natural extension of a key assumption going into the Frauchiger and Renner's no-go theorem.
翻訳日:2024-01-25 17:03:29 公開日:2024-01-24
# エンタングルメントによる重力におけるヨルダンとアインシュタインのフレームの識別

Distinguishing Jordan and Einstein frames in gravity through entanglement ( http://arxiv.org/abs/2310.06899v2 )

ライセンス: Link先を確認
Sumanta Chakraborty, Anupam Mazumdar and Ritapriya Pradhan(参考訳) 一般相対性理論では、共形変換の使用はユビキタスであり、ヨルダンフレームとアインシュタインフレームと呼ばれる2つの異なる参照フレームにつながる。 通常、ヨルダンのフレームからアインシュタインのフレームへの変換は、しばしば既に理論に存在している追加のスカラー自由度を導入することである。 量子レベルでは、この余分な自由度のため、これらの2つのフレームは、2つの大きな物体間の絡み合いが探究できる微妙な違いを示す。

In general relativity, the use of conformal transformation is ubiquitous and leads to two different frames of reference, known as the Jordan and the Einstein frames. Typically, the transformation from the Jordan frame to the Einstein frame involves introducing an additional scalar degree of freedom, often already present in the theory. We will show that at the quantum level, owing to this extra scalar degree of freedom these two frames exhibit subtle differences that the entanglement between two massive objects can probe.
翻訳日:2024-01-25 17:03:11 公開日:2024-01-24
# グラフニューラルネットワークに基づく設計技術共最適化のための高速セルライブラリ特性評価

Fast Cell Library Characterization for Design Technology Co-Optimization Based on Graph Neural Networks ( http://arxiv.org/abs/2312.12784v2 )

ライセンス: Link先を確認
Tianliang Ma, Zhihui Deng, Xuguang Sun, Leilai Shao Kainlu Low(参考訳) 設計技術共最適化(DTCO)は、半導体プロセス開発における最適電力、性能、面積(PPA)を達成する上で重要な役割を果たしている。 細胞ライブラリーの特徴はDTCOフローに必須であるが、従来の手法は時間と費用がかかる。 これらの課題を克服するため,我々は,高速かつ正確なセルライブラリ解析のためのグラフニューラルネットワーク(GNN)に基づく機械学習モデルを提案する。 本モデルはセル構造を組み込んで様々なプロセス電圧温度(pvt)コーナーと技術パラメータにわたって高い予測精度を示す。 512の技術コーナーと100万以上のテストデータポイントによる検証は、平均絶対パーセンテージ誤差(MAPE)0.95%、SPICEシミュレーションと比較して100倍の速度で、33種類のセルの遅延、電力、入力ピン容量の正確な予測を示している。 さらに,nnnモデルから得られた未発見コーナーでの予測値を用いて,最悪負のスラックス(wns),リーク電力,動的パワーなどのシステムレベルの指標を調査した。 このモデルは、wnsの絶対誤差$\le$3.0 ps、リーク電力のパーセンテージ誤差$\le$0.60%、golden referenceと比較して動的電力$0.99%という正確な予測を達成している。 さらに, 小型・中規模設計におけるPPA向上のための微粒化駆動強度補間法を提案し, ほぼ1-3%の改善を実現した。

Design technology co-optimization (DTCO) plays a critical role in achieving optimal power, performance, and area (PPA) for advanced semiconductor process development. Cell library characterization is essential in DTCO flow, but traditional methods are time-consuming and costly. To overcome these challenges, we propose a graph neural network (GNN)-based machine learning model for rapid and accurate cell library characterization. Our model incorporates cell structures and demonstrates high prediction accuracy across various process-voltage-temperature (PVT) corners and technology parameters. Validation with 512 unseen technology corners and over one million test data points shows accurate predictions of delay, power, and input pin capacitance for 33 types of cells, with a mean absolute percentage error (MAPE) $\le$ 0.95% and a speed-up of 100X compared with SPICE simulations. Additionally, we investigate system-level metrics such as worst negative slack (WNS), leakage power, and dynamic power using predictions obtained from the GNN-based model on unseen corners. Our model achieves precise predictions, with absolute error $\le$3.0 ps for WNS, percentage errors $\le$0.60% for leakage power, and $\le$0.99% for dynamic power, when compared to golden reference. With the developed model, we further proposed a fine-grained drive strength interpolation methodology to enhance PPA for small-to-medium-scale designs, resulting in an approximate 1-3% improvement.
翻訳日:2024-01-25 16:56:16 公開日:2024-01-24
# 計量空間における比例表現と低歪み委員会選定

Proportional Representation in Metric Spaces and Low-Distortion Committee Selection ( http://arxiv.org/abs/2312.10369v2 )

ライセンス: Link先を確認
Yusuf Hakan Kalayci and David Kempe and Vikram Kher(参考訳) 我々は、計量空間内のより大きな集合の「表現可能」である k 点の小さな集合 r に対する新しい定義を導入する。 Given a set V (e.g., documents or voters) to represent, and a set C of possible representatives, our criterion requires that for any subset S comprising a theta fraction of V, the average distance of S to their best theta*k points in R should not be more than a factor gamma compared to their average distance to the best theta*k points among all of C. This definition is a strengthening of proportional fairness and core fairness, but - different from those notions - requires that large cohesive clusters be represented proportionally to their size. ガンマが多項式的に大きければ、解は存在しないので、この概念を資源増強フレームワークで研究し、k の集合 R に対する制約を、α > 1 の場合、そのサイズが k/alpha であるかのように暗黙的に記述する。 アルゴリズムは V の各点 v に対してのみ学習し、c, c' の各候補対 c, c' は v に近づき、Aziz と Lee の expanding Approvals Rule (EAR) は gamma <= 1 + 6.71 * (alpha)/(alpha-1) で表される。 私たちの結果は3つの顕著な副産物をもたらす。 まず、 EAR は順序性モデルにおいて一定の比例フェアネスを達成し、順序性情報を用いた計量比例フェアネスの最初の正の値を与える。 第二に, コアフェアネスの目標として, 資源増強と近似の漸近的トレードオフを, li 等が測定値の知識を十分に活用した最近の結果と同等に達成していることを示す。 最後に, 測定値の歪みが最大44。

We introduce a novel definition for a small set R of k points being "representative" of a larger set in a metric space. Given a set V (e.g., documents or voters) to represent, and a set C of possible representatives, our criterion requires that for any subset S comprising a theta fraction of V, the average distance of S to their best theta*k points in R should not be more than a factor gamma compared to their average distance to the best theta*k points among all of C. This definition is a strengthening of proportional fairness and core fairness, but - different from those notions - requires that large cohesive clusters be represented proportionally to their size. Since there are instances for which - unless gamma is polynomially large - no solutions exist, we study this notion in a resource augmentation framework, implicitly stating the constraints for a set R of size k as though its size were only k/alpha, for alpha > 1. Furthermore, motivated by the application to elections, we mostly focus on the "ordinal" model, where the algorithm does not learn the actual distances; instead, it learns only for each point v in V and each candidate pairs c, c' which of c, c' is closer to v. Our main result is that the Expanding Approvals Rule (EAR) of Aziz and Lee is (alpha, gamma) representative with gamma <= 1 + 6.71 * (alpha)/(alpha-1). Our results lead to three notable byproducts. First, we show that the EAR achieves constant proportional fairness in the ordinal model, giving the first positive result on metric proportional fairness with ordinal information. Second, we show that for the core fairness objective, the EAR achieves the same asymptotic tradeoff between resource augmentation and approximation as the recent results of Li et al., which used full knowledge of the metric. Finally, our results imply a very simple single-winner voting rule with metric distortion at most 44.
翻訳日:2024-01-25 16:55:14 公開日:2024-01-24
# Aleth-NeRF:電場推定による照度適応型NeRF

Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption ( http://arxiv.org/abs/2312.09093v3 )

ライセンス: Link先を確認
Ziteng Cui, Lin Gu, Xiao Sun, Xianzheng Ma, Yu Qiao, Tatsuya Harada(参考訳) 標準的なニューラル・ラジアンス・フィールド(nerf)パラダイムは、照明と物質反射の側面を3dポイントのみから放出するビューア中心の方法論を採用している。 この簡易なレンダリングアプローチは、低照度や過剰露光といった悪照明条件下で撮影された画像を正確にモデル化する際の課題を示す。 眼から放射される光の結果として視覚知覚を仮定する古代ギリシアの放射理論に動機づけられ、従来のnerfフレームワークをわずかに洗練し、挑戦的な光条件下でnerfを訓練し、教師なしのノーマル・ライト条件の斬新なビューを生成する。 照明効果を考慮し,周囲の空気に透過値を割り当てる「コンセリングフィールド」の概念を導入する。 暗いシナリオでは、オブジェクトの排出は標準的な照明レベルを維持するが、レンダリングプロセス中に空気を横切ると減衰する、と仮定する。 コンセリングフィールドは、暗く照らされた状況でも、NeRFに適切な密度と色の推定を学ばせるように強制する。 同様に、隠蔽フィールドはレンダリング段階で過剰に放出される排出を緩和することができる。 さらに,評価に難渋する照明条件下での総合的な多視点データセットを提案する。 私たちのコードとデータセットはhttps://github.com/cuiziteng/aleth-nerfで利用可能です。

The standard Neural Radiance Fields (NeRF) paradigm employs a viewer-centered methodology, entangling the aspects of illumination and material reflectance into emission solely from 3D points. This simplified rendering approach presents challenges in accurately modeling images captured under adverse lighting conditions, such as low light or over-exposure. Motivated by the ancient Greek emission theory that posits visual perception as a result of rays emanating from the eyes, we slightly refine the conventional NeRF framework to train NeRF under challenging light conditions and generate normal-light condition novel views unsupervised. We introduce the concept of a "Concealing Field," which assigns transmittance values to the surrounding air to account for illumination effects. In dark scenarios, we assume that object emissions maintain a standard lighting level but are attenuated as they traverse the air during the rendering process. Concealing Field thus compel NeRF to learn reasonable density and colour estimations for objects even in dimly lit situations. Similarly, the Concealing Field can mitigate over-exposed emissions during the rendering stage. Furthermore, we present a comprehensive multi-view dataset captured under challenging illumination conditions for evaluation. Our code and dataset available at https://github.com/cuiziteng/Aleth-NeRF
翻訳日:2024-01-25 16:54:17 公開日:2024-01-24
# スピンナカー2型ニューロモルフィックチップの言語モデル

Language Modeling on a SpiNNaker 2 Neuromorphic Chip ( http://arxiv.org/abs/2312.09084v3 )

ライセンス: Link先を確認
Khaleelulla Khan Nazeer, Mark Sch\"one, Rishav Mukherji, Bernhard Vogginger, Christian Mayr, David Kappel, Anand Subramoney(参考訳) 大きな言語モデルが急速にスケールし続けるにつれて、それらを実行するのに必要な計算能力も向上する。 ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。 しかし、これまでのところ、スパイクニューラルネットワーク(SNN)を含むニューロモルフィックなハードウェア上で動作可能なイベントベースのネットワークのほとんどは、言語モデリングのLSTMモデルと同等のタスク性能を達成できていない。 その結果、ニューロモルフィックデバイス上での言語モデリングは、遠い未来に思えた。 本稿では,ニューロモルフィックデバイス,特に最近発表されたイベントベースアーキテクチャであるEGRUをベースにしたSpiNNaker 2チップ上での言語モデルの実装を実演する。 SpiNNaker 2は大規模非同期処理用に設計された多コアニューロモルフィックチップであり、EGRUは競争力のあるタスク性能を維持しながら、これらのハードウェアを効率的に活用するように設計されている。 この実装は、ニューロモルフィック言語モデルがLSTMと初めて一致し、タスクパフォーマンスを大きな言語モデルのレベルに引き上げるためのステージを設定する。 また,dvsカメラからの入力に基づいてジェスチャ認識タスクの結果を示す。 全体として,このニューロインスパイアされたニューラルネットワークのハードウェアにおける実現可能性を示し,単一バッチ推論の一般的なユースケースにおいて,従来のハードウェアに比べてエネルギー効率が大幅に向上していることを強調した。

As large language models continue to scale in size rapidly, so too does the computational power required to run them. Event-based networks on neuromorphic devices offer a potential way to reduce energy consumption for inference significantly. However, to date, most event-based networks that can run on neuromorphic hardware, including spiking neural networks (SNNs), have not achieved task performance even on par with LSTM models for language modeling. As a result, language modeling on neuromorphic devices has seemed a distant prospect. In this work, we demonstrate the first-ever implementation of a language model on a neuromorphic device - specifically the SpiNNaker 2 chip - based on a recently published event-based architecture called the EGRU. SpiNNaker 2 is a many-core neuromorphic chip designed for large-scale asynchronous processing, while the EGRU is architected to leverage such hardware efficiently while maintaining competitive task performance. This implementation marks the first time a neuromorphic language model matches LSTMs, setting the stage for taking task performance to the level of large language models. We also demonstrate results on a gesture recognition task based on inputs from a DVS camera. Overall, our results showcase the feasibility of this neuro-inspired neural network in hardware, highlighting significant gains versus conventional hardware in energy efficiency for the common use case of single batch inference.
翻訳日:2024-01-25 16:53:53 公開日:2024-01-24
# 小欠陥検査のためのインクリメンタル統一フレームワーク

An Incremental Unified Framework for Small Defect Inspection ( http://arxiv.org/abs/2312.08917v2 )

ライセンス: Link先を確認
Jiaqi Tang, Hao Lu, Xiaogang Xu, Ruizheng Wu, Sixing Hu, Tong Zhang, Tsz Wa Cheng, Ming Ge, Ying-Cong Chen and Fugee Tsung(参考訳) 人工知能(AI)による欠陥検査は工業生産において重要である。 しかし、多くのメソッドは特定のパイプラインに合わせて、さまざまな製品ポートフォリオと進化するプロセスに対応しています。 これに対処するために、インクリメンタル統一フレームワーク(iuf)を紹介し、パイプラインに新しいオブジェクトを継続的に統合するときに、機能衝突の問題を低減し、オブジェクト指向学習シナリオに有利にする。 最先端のトランスフォーマーを用いて、異なるセマンティックバウンダリを規定するために、OASA(Object-Aware Self-Attention)を導入する。 セマンティクス圧縮損失(scl)は、非プライマリ意味空間を最適化するために統合され、新しいオブジェクトのネットワーク適応性が向上する。 さらに、重み更新時に確立したオブジェクトの特徴を保持することを優先する。 画像および画素レベルでの欠陥検査におけるメリットを実証し,最先端の性能を実現し,動的かつスケーラブルな産業検査に不可欠であることを証明した。 我々のコードは \url{https://github.com/jqtangust/IUF} でリリースされる。

Artificial Intelligence (AI)-driven defect inspection is pivotal in industrial manufacturing. Yet, many methods, tailored to specific pipelines, grapple with diverse product portfolios and evolving processes. Addressing this, we present the Incremental Unified Framework (IUF), which can reduce the feature conflict problem when continuously integrating new objects in the pipeline, making it advantageous in object-incremental learning scenarios. Employing a state-of-the-art transformer, we introduce Object-Aware Self-Attention (OASA) to delineate distinct semantic boundaries. Semantic Compression Loss (SCL) is integrated to optimize non-primary semantic space, enhancing network adaptability for novel objects. Additionally, we prioritize retaining the features of established objects during weight updates. Demonstrating prowess in both image and pixel-level defect inspection, our approach achieves state-of-the-art performance, proving indispensable for dynamic and scalable industrial inspections. Our code will be released at \url{https://github.com/jqtangust/IUF}.
翻訳日:2024-01-25 16:53:30 公開日:2024-01-24
# 空間適応ネットワークを用いた医用画像解析のための普遍的基礎モデルの構築

Building Universal Foundation Models for Medical Image Analysis with Spatially Adaptive Networks ( http://arxiv.org/abs/2312.07630v2 )

ライセンス: Link先を確認
Lingxiao Luo, Xuanzhong Chen, Bingda Tang, Xinsheng Chen, Rong Han, Chengpeng Hu, Yujiang Li, Ting Chen(参考訳) 基礎モデルの最近の進歩は、主に大規模で多様なデータセットの自己教師型学習で訓練されており、医療画像解析に大きな可能性を示している。 しかし、医療画像データの空間的不均一性により、現在のモデルは異なるデータセットに対して特定の構造を調整しなければならないため、豊富なラベルのないデータを活用することは困難である。 本研究では,不均質な空間特性を持つ画像を処理する医用画像解析のための普遍的基礎モデルを提案する。 そこで我々は,空間適応型ネットワーク(SPAD-Nets)を提案する。このネットワークは,入力画像の空間特性に適応するために動的に構造を調整し,そのような普遍的な基礎モデルを構築する。 55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。 事前トレーニングデータには900万以上の画像スライスが含まれており、医用画像分析のための普遍的な基礎モデルを事前トレーニングするための知識を、最も大きく、最も包括的で、最も多様なデータセットを表している。 ダウンストリーム医用画像分類とセグメンテーションタスクの実験結果から,モデルの性能とラベル効率が向上した。 私たちのコードはhttps://github.com/function2-llx/PUMITで利用可能です。

Recent advancements in foundation models, typically trained with self-supervised learning on large-scale and diverse datasets, have shown great potential in medical image analysis. However, due to the significant spatial heterogeneity of medical imaging data, current models must tailor specific structures for different datasets, making it challenging to leverage the abundant unlabeled data. In this work, we propose a universal foundation model for medical image analysis that processes images with heterogeneous spatial properties using a unified structure. To accomplish this, we propose spatially adaptive networks (SPAD-Nets), a family of networks that dynamically adjust the structures to adapt to the spatial properties of input images, to build such a universal foundation model. We pre-train a spatial adaptive visual tokenizer (SPAD-VT) and then a spatial adaptive Vision Transformer (SPAD-ViT) via masked image modeling (MIM) on 55 public medical image datasets. The pre-training data comprises over 9 million image slices, representing the largest, most comprehensive, and most diverse dataset to our knowledge for pre-training universal foundation models for medical image analysis. The experimental results on downstream medical image classification and segmentation tasks demonstrate the superior performance and label efficiency of our model. Our code is available at https://github.com/function2-llx/PUMIT.
翻訳日:2024-01-25 16:53:12 公開日:2024-01-24
# HGPROMPT:Few-shot Prompt Learningのための均質グラフと不均質グラフ

HGPROMPT: Bridging Homogeneous and Heterogeneous Graphs for Few-shot Prompt Learning ( http://arxiv.org/abs/2312.01878v6 )

ライセンス: Link先を確認
Xingtong Yu, Yuan Fang, Zemin Liu, Xinming Zhang(参考訳) グラフニューラルネットワーク(GNN)とヘテロジニアスグラフニューラルネットワーク(HGNN)は、同質で異質なグラフ表現学習において顕著なテクニックであるが、エンドツーエンドの監視フレームワークにおけるパフォーマンスは、タスク固有の監視の可用性に大きく依存している。 ラベル付けコストを削減するため、自己教師付きプレテキストタスクの事前学習は一般的なパラダイムとなっているが、事前訓練されたモデルと下流タスクの間には、目的の相違から生じるギャップがしばしばある。 ギャップを埋めるために、特に数ショット設定では、事前訓練されたモデルを完全に微調整することなく、迅速な学習が有望な方向として上昇している。 グラフ上でのプロンプトベースの学習に関する初期の研究はあったが、主に同質グラフを扱っており、下流のアプリケーションでよく見られる不均一グラフを無視している。 本稿では,HGPROMPTを提案する。HGPROMPTは,事前学習タスクと下流タスクだけでなく,二重テンプレート設計による均質かつ異質なグラフを統一する新しい学習促進フレームワークである。 さらに,hgpromptのデュアルプロンプトを提案することで,特徴のばらつきだけでなく,タスク間の異種性の違いによって引き起こされるギャップを橋渡しする前に,下流タスクが最も重要視されるよう支援する。 最後に,HGPROMPTを3つの公開データセットの広範な実験により徹底的に評価・解析する。

Graph neural networks (GNNs) and heterogeneous graph neural networks (HGNNs) are prominent techniques for homogeneous and heterogeneous graph representation learning, yet their performance in an end-to-end supervised framework greatly depends on the availability of task-specific supervision. To reduce the labeling cost, pre-training on self-supervised pretext tasks has become a popular paradigm,but there is often a gap between the pre-trained model and downstream tasks, stemming from the divergence in their objectives. To bridge the gap, prompt learning has risen as a promising direction especially in few-shot settings, without the need to fully fine-tune the pre-trained model. While there has been some early exploration of prompt-based learning on graphs, they primarily deal with homogeneous graphs, ignoring the heterogeneous graphs that are prevalent in downstream applications. In this paper, we propose HGPROMPT, a novel pre-training and prompting framework to unify not only pre-training and downstream tasks but also homogeneous and heterogeneous graphs via a dual-template design. Moreover, we propose dual-prompt in HGPROMPT to assist a downstream task in locating the most relevant prior to bridge the gaps caused by not only feature variations but also heterogeneity differences across tasks. Finally, we thoroughly evaluate and analyze HGPROMPT through extensive experiments on three public datasets.
翻訳日:2024-01-25 16:52:20 公開日:2024-01-24
# SpeechAct: 音声から全身運動を生成するために

SpeechAct: Towards Generating Whole-body Motion from Speech ( http://arxiv.org/abs/2311.17425v2 )

ライセンス: Link先を確認
Jinsong Zhang, Minjie Zhu, Yuxiang Zhang, Yebin Liu, Kun Li(参考訳) 本稿では,音声から全身運動を生成する問題に対処する。 大きな成功にもかかわらず、以前の手法は音声から合理的で多様な全身の動きを作り出すのに苦戦している。 これは、最適化下表現への依存と、多様な結果を生成するための戦略の欠如による。 これらの課題に対処するために,足の滑走を避けるなど,高精度かつ連続的な運動生成を実現するための新しいハイブリッドポイント表現を提案する。 音声信号に密着した顔の動きに対して,音声から全身運動を生成するため,決定論的結果を達成するエンコーダ・デコーダアーキテクチャを導入する。 しかし、音声信号との接続が弱い身体と手にとって、我々は多様だが合理的な動きを生み出すことを目指している。 動き生成の多様性を高めるために,モデルがより独特な表現を生成することを奨励するコントラスト学習法を提案する。 具体的には,ハイブリッド表現を用いた量子化動作コードブックを学習するために,ロバストなvq-vaeを設計した。 次に、コントラスト動作学習法を用いた翻訳モデルにより、音声信号から動き表現を回帰する。 実験により,モデルの性能と正確性が検証された。 プロジェクトページは http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct で研究目的で公開されている。

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.
翻訳日:2024-01-25 16:51:52 公開日:2024-01-24
# マルチモーダル大言語モデルにおける視覚認知

Visual cognition in multimodal large language models ( http://arxiv.org/abs/2311.16093v2 )

ライセンス: Link先を確認
Luca M. Schulze Buschoff, Elif Akata, Matthias Bethge, Eric Schulz(参考訳) 人工知能の主な目標は、人間のように考える機械を作ることだ。 しかし、ディープニューラルネットワークアーキテクチャはそれを達成できないと主張されている。 研究者は、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張している。 しかし、最近の進歩、特に視覚処理用に設計された大規模言語モデルの台頭は、人間のような認知能力をエミュレートする可能性に対する関心を再び高めている。 本稿では,直観的物理学,因果推論,直観的心理学の領域における視覚に基づく大規模言語モデルの現状を評価する。 これらのモデルが複雑な物理的相互作用、因果関係、他者の嗜好の直感的理解を把握できる範囲について、一連の制御実験を通じて検討した。 以上の結果から,これらのモデルでは視覚データの処理や解釈に有意な能力があるものの,その領域では人間の能力に欠けることが明らかとなった。 モデルは、物理的法則と因果関係の初歩的な理解を示すが、そのパフォーマンスは深い洞察の欠如、すなわち人間の認知の重要な側面によって妨げられている。 さらに、直感的な心の理論を必要とするタスクでは、モデルは完全に失敗する。 本研究は,因果性,身体的ダイナミクス,社会的認知を現代的な視覚言語モデルに統合するためのより強固なメカニズムの必要性を強調し,認知的にインスパイアされたベンチマークの重要性を指摘する。

A chief goal of artificial intelligence is to build machines that think like people. Yet it has been argued that deep neural network architectures fail to accomplish this. Researchers have asserted these models' limitations in the domains of causal reasoning, intuitive physics, and intuitive psychology. Yet recent advancements, namely the rise of large language models, particularly those designed for visual processing, have rekindled interest in the potential to emulate human-like cognitive abilities. This paper evaluates the current state of vision-based large language models in the domains of intuitive physics, causal reasoning, and intuitive psychology. Through a series of controlled experiments, we investigate the extent to which these modern models grasp complex physical interactions, causal relationships, and intuitive understanding of others' preferences. Our findings reveal that, while these models demonstrate a notable proficiency in processing and interpreting visual data, they still fall short of human capabilities in these areas. The models exhibit a rudimentary understanding of physical laws and causal relationships, but their performance is hindered by a lack of deeper insights - a key aspect of human cognition. Furthermore, in tasks requiring an intuitive theory of mind, the models fail altogether. Our results emphasize the need for integrating more robust mechanisms for understanding causality, physical dynamics, and social cognition into modern-day, vision-based language models, and point out the importance of cognitively-inspired benchmarks.
翻訳日:2024-01-25 16:51:30 公開日:2024-01-24
# 深層力モデル:ベイズ深層学習のためのODEに基づくプロセス畳み込み

Deep Latent Force Models: ODE-based Process Convolutions for Bayesian Deep Learning ( http://arxiv.org/abs/2311.14828v2 )

ライセンス: Link先を確認
Thomas Baldwin-McDonald, Mauricio A. \'Alvarez(参考訳) 頑健な不確実性定量化を伴う高非線形力学系の挙動をモデル化することは、通常、目の前の問題に対処するために特別に設計されたアプローチを必要とする難しい課題である。 プロセス畳み込みの枠組みを用いた常微分方程式から導かれる物理インフォームドカーネルを各層に有する深いガウス過程であるDLFM(Deep Latent Force Model)と呼ばれるこの問題に対処するドメインに依存しないモデルを導入する。 dlfmの2つの異なる定式化は、重み空間と変分誘導点に基づくガウス過程近似を利用しており、どちらも二重確率的変分推論に適している。 本稿では,高非線形実世界のマルチアウトプット時系列データに現れるダイナミクスを捉えるDLFMの能力を実証的に示す。 さらに、DLFMは、ベンチマーク単変量回帰タスクにおいて、非物理インフォームド確率モデルに匹敵する性能を達成することができる。 また, LFMモデルにおけるインジェクションポイントフレームワークが外挿能力に与える影響を実験的に評価した。

Modelling the behaviour of highly nonlinear dynamical systems with robust uncertainty quantification is a challenging task which typically requires approaches specifically designed to address the problem at hand. We introduce a domain-agnostic model to address this issue termed the deep latent force model (DLFM), a deep Gaussian process with physics-informed kernels at each layer, derived from ordinary differential equations using the framework of process convolutions. Two distinct formulations of the DLFM are presented which utilise weight-space and variational inducing points-based Gaussian process approximations, both of which are amenable to doubly stochastic variational inference. We present empirical evidence of the capability of the DLFM to capture the dynamics present in highly nonlinear real-world multi-output time series data. Additionally, we find that the DLFM is capable of achieving comparable performance to a range of non-physics-informed probabilistic models on benchmark univariate regression tasks. We also empirically assess the negative impact of the inducing points framework on the extrapolation capabilities of LFM-based models.
翻訳日:2024-01-25 16:51:09 公開日:2024-01-24
# 分布シフト下における基礎モデルの正確な解析能力のベースライン解析

A Baseline Analysis of Reward Models' Ability To Accurately Analyze Foundation Models Under Distribution Shift ( http://arxiv.org/abs/2311.14743v7 )

ライセンス: Link先を確認
Will LeVine, Benjamin Pikus, Anthony Chen, Sean Hendryx(参考訳) ファンデーションモデル、特にLarge Language Models (LLMs)は近年広く注目を集め、採用されている。 Reinforcement Learning with Human Feedback (RLHF) は、所望の行動を捉えるために報酬モデルを訓練し、LLMの調整に使用される。 これらの報酬モデルは、所望の行動に対するLLM応答の順守を推定するために、推論時にさらに使用される。 しかしながら、これらの報酬モデルが分散シフトに対してどれほど堅牢かを測定する作業はほとんどありません。 本研究では,精度とキャリブレーションによる報奨モデルの性能評価(すなわち,精度と信頼性の整合性)が分布変化にどのように影響するかを評価する。 我々は、OODプロンプトと応答による新しいキャリブレーションパターンと精度低下を示し、報酬モデルがプロンプトよりも応答の変化に敏感であることを示す。 さらに,報奨モデル設定に分類によく用いられるOOD検出手法を適用し,これらの分布変化をプロンプトや応答で検出する。

Foundation models, specifically Large Language Models (LLMs), have lately gained wide-spread attention and adoption. Reinforcement Learning with Human Feedback (RLHF) involves training a reward model to capture desired behaviors, which is then used to align LLM's. These reward models are additionally used at inference-time to estimate LLM responses' adherence to those desired behaviors. However, there is little work measuring how robust these reward models are to distribution shifts. In this work, we evaluate how reward model performance - measured via accuracy and calibration (i.e. alignment between accuracy and confidence) - is affected by distribution shift. We show novel calibration patterns and accuracy drops due to OOD prompts and responses, and that the reward model is more sensitive to shifts in responses than prompts. Additionally, we adapt an OOD detection technique commonly used in classification to the reward model setting to detect these distribution shifts in prompts and responses.
翻訳日:2024-01-25 16:50:48 公開日:2024-01-24
# DiConStruct:ブラックボックス蒸留による因果概念に基づく説明

DiConStruct: Causal Concept-based Explanations through Black-Box Distillation ( http://arxiv.org/abs/2401.08534v2 )

ライセンス: Link先を確認
Ricardo Moreira, Jacopo Bono, M\'ario Cardoso, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro(参考訳) モデル解釈可能性は人間-AI意思決定システムにおいて中心的な役割を果たす。 理想的には、説明は人間の解釈可能な意味概念を用いて表現されるべきである。 さらに、これらの概念間の因果関係は、説明者によって、説明に関する推論を可能にするために捉えるべきである。 最後に、説明方法は効率的であり、予測タスクのパフォーマンスを損なうべきではない。 近年のai説明能力の急速な進歩にもかかわらず、我々が知る限り、これら3つの特性を満たす方法はない。 実際、局所的な概念説明可能性の主流の手法は因果説明を生み出しず、説明可能性と予測性能の間のトレードオフをもたらす。 提案するDiConStructは,概念ベースと因果関係の両方の手法であり,構造因果モデルと概念属性の形式でより解釈可能な局所的説明を作成することを目的としている。 筆者らは,ブラックボックス機械学習モデルの蒸留モデルとして,その予測を近似し,それぞれの説明を生成する。 このため、DiConStructはブラックボックス予測タスクに影響を与えることなく、効率的に説明を生成する。 本手法を画像データセットと表データデータセット上で検証し,diconstructがブラックボックスモデルを他の概念説明可能性ベースラインよりも高い忠実度で近似することを示すとともに,概念間の因果関係を含む説明を提供する。

Model interpretability plays a central role in human-AI decision-making systems. Ideally, explanations should be expressed using human-interpretable semantic concepts. Moreover, the causal relations between these concepts should be captured by the explainer to allow for reasoning about the explanations. Lastly, explanation methods should be efficient and not compromise the performance of the predictive task. Despite the rapid advances in AI explainability in recent years, as far as we know to date, no method fulfills these three properties. Indeed, mainstream methods for local concept explainability do not produce causal explanations and incur a trade-off between explainability and prediction performance. We present DiConStruct, an explanation method that is both concept-based and causal, with the goal of creating more interpretable local explanations in the form of structural causal models and concept attributions. Our explainer works as a distillation model to any black-box machine learning model by approximating its predictions while producing the respective explanations. Because of this, DiConStruct generates explanations efficiently while not impacting the black-box prediction task. We validate our method on an image dataset and a tabular dataset, showing that DiConStruct approximates the black-box models with higher fidelity than other concept explainability baselines, while providing explanations that include the causal relations between the concepts.
翻訳日:2024-01-25 16:43:45 公開日:2024-01-24
# GPT-4の医用ビジョンの正確性にまつわる隠された欠陥

Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine ( http://arxiv.org/abs/2401.08396v2 )

ライセンス: Link先を確認
Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung, Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J Landsman, Sally L. Baxter, Subhi J. Al'Aref, Yijia Li, Michael F. Chiang, Yifan Peng, Zhiyong Lu(参考訳) 最近の研究では、視覚(gpt-4v)を持つ生成前訓練トランスフォーマー4は、医療課題においてヒトの医師よりも優れていることが示されている。 しかし,これらの評価は,主に複数質問の精度のみに焦点が当てられた。 本研究は,GPT-4Vの画像理解,医用知識の想起,およびNew England Journal of Medicine (NEJM) Image Challenges(医用専門家の知識と診断能力をテストするための画像クイズ)の解決におけるステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。 GPT-4Vは多選択精度(88.0% vs. 77.0%, p=0.034)で医師より優れていた。 GPT-4Vは、医師が正しく答えていない場合にも80%以上の精度でうまく機能する。 しかし、GPT-4Vは、正しい最終選択を行う場合(27.3%)にしばしば欠陥のある有理性を示し、画像理解において最も顕著である(21.6%)。 GPT-4Vの多点質問における精度は高いが,本研究は,これらのモデルを臨床ワークフローに組み込む前に,より詳細な理性評価の必要性を強調した。

Recent studies indicate that Generative Pre-trained Transformer 4 with Vision (GPT-4V) outperforms human physicians in medical challenge tasks. However, these evaluations primarily focused on the accuracy of multi-choice questions alone. Our study extends the current scope by conducting a comprehensive analysis of GPT-4V's rationales of image comprehension, recall of medical knowledge, and step-by-step multimodal reasoning when solving New England Journal of Medicine (NEJM) Image Challenges - an imaging quiz designed to test the knowledge and diagnostic capabilities of medical professionals. Evaluation results confirmed that GPT-4V outperforms human physicians regarding multi-choice accuracy (88.0% vs. 77.0%, p=0.034). GPT-4V also performs well in cases where physicians incorrectly answer, with over 80% accuracy. However, we discovered that GPT-4V frequently presents flawed rationales in cases where it makes the correct final choices (27.3%), most prominent in image comprehension (21.6%). Regardless of GPT-4V's high accuracy in multi-choice questions, our findings emphasize the necessity for further in-depth evaluations of its rationales before integrating such models into clinical workflows.
翻訳日:2024-01-25 16:43:23 公開日:2024-01-24
# OpenDPD: 広帯域パワーアンプモデリングとディジタル事前歪みのためのオープンソースのエンドツーエンド学習とベンチマークフレームワーク

OpenDPD: An Open-Source End-to-End Learning & Benchmarking Framework for Wideband Power Amplifier Modeling and Digital Pre-Distortion ( http://arxiv.org/abs/2401.08318v2 )

ライセンス: Link先を確認
Yizhuo Wu, Gagan Deep Singh, Mohammadreza Beikmirza, Leo C. N. de Vreede, Morteza Alavi, Chang Gao(参考訳) 通信容量の増大に伴い、広帯域電力増幅器(PA)の非線形性を補正するデジタル事前歪み(DPD)のためのディープニューラルネットワーク(DNN)が注目されている。 しかし、オープンソースと測定セットアップに依存しないプラットフォームでは、高速なPDD探索と客観的PDモデル比較のための空白が存在する。 本稿では,PyTorch をベースとしたオープンソースフレームワーク OpenDPD と,PA モデリングと DPD 学習のためのデータセットを提案する。 本稿では,Dense Gated Recurrent Unit (DGRU)-DPDを導入し,デジタルPA (DPA) における従来の DPD モデルをアナログPAと比較して非従来型転送特性を持つ新しいデジタルトランスミッタ (DTX) アーキテクチャで上回った。 測定の結果,DGRU-DPDのACPRは-44.69/-44.47 dBc,EVMは-35.22 dBで200MHzのODM信号が得られた。 OpenDPDコード、データセット、ドキュメントはhttps://github.com/lab-emi/OpenDPDで公開されている。

With the rise in communication capacity, deep neural networks (DNN) for digital pre-distortion (DPD) to correct non-linearity in wideband power amplifiers (PAs) have become prominent. Yet, there is a void in open-source and measurement-setup-independent platforms for fast DPD exploration and objective DPD model comparison. This paper presents an open-source framework, OpenDPD, crafted in PyTorch, with an associated dataset for PA modeling and DPD learning. We introduce a Dense Gated Recurrent Unit (DGRU)-DPD, trained via a novel end-to-end learning architecture, outperforming previous DPD models on a digital PA (DPA) in the new digital transmitter (DTX) architecture with unconventional transfer characteristics compared to analog PAs. Measurements show our DGRU-DPD achieves an ACPR of -44.69/-44.47 dBc and an EVM of -35.22 dB for 200 MHz OFDM signals. OpenDPD code, datasets, and documentation are publicly available at https://github.com/lab-emi/OpenDPD.
翻訳日:2024-01-25 16:42:59 公開日:2024-01-24
# コヒーレント誤差の存在下でのロバストな量子ノイズ特性の実現

Realization of robust quantum noise characterization in the presence of coherent errors ( http://arxiv.org/abs/2401.08291v2 )

ライセンス: Link先を確認
Pavel Penshin, Tamara Amro, Ty Zabelotsky, Amir Abramovich, Tanmoy Pandit, K. I. O Ben 'Attar, Amir Hen, Raam Uzdin, Nir Bar-Gill(参考訳) 複素量子系とその様々な応用は、コヒーレントかつ非コヒーレントな性質のノイズに影響を受けやすい。 ノイズとその音源の特性は、特に固有の不整合ノイズと体系的なコヒーレントエラーの区別の観点から、量子技術応用におけるオープンで重要な課題である。 本稿では,コヒーレントエラーの影響を低減し,非コヒーレントエラーのキャラクタリゼーションを可能にする連続的な連続計測手法について検討する。 本手法は, ダイヤモンド中の窒素空孔をコヒーレントに制御し, 天然核スピン浴(非マルコビアン)と結合し, 光ポンピングプロセス(ほぼマルコビアン)による緩和を実験的に制御する。 その結果,マルコフ型および非マルコフ型非コヒーレントノイズプロファイルにおけるコヒーレント誤差の軽減効果が示された。 この手法を不整合雑音による劣化時間(T_2^*$)の推定に適用する。 標準測定値(ラムジー測定値)と比較して,遅延時間(t_2^*$)の推定において,コヒーレント誤差に対するロバスト性が向上するのを観察した。

Complex quantum systems and their various applications are susceptible to noise of coherent and incoherent nature. Characterization of noise and its sources is an open, key challenge in quantum technology applications, especially in terms of distinguishing between inherent incoherent noise and systematic coherent errors. In this paper, we study a scheme of repeated sequential measurements that enables the characterization of incoherent errors by reducing the effects of coherent errors. We demonstrate this approach using a coherently controlled Nitrogen Vacancy in diamond, coupled to both a natural nuclear spin bath (non-Markovian) and to experimentally controlled relaxation through an optical pumping process (nearly Markovian). Our results show mitigation of coherent errors both for Markovian and Non-Markovian incoherent noise profiles. We apply this scheme to the estimation of the dephasing time ($T_2^*$) due to incoherent noise. We observe an improved robustness against coherent errors in the estimation of dephasing time ($T_2^*$) compared to the standard (Ramsey) measurement.
翻訳日:2024-01-25 16:42:38 公開日:2024-01-24
# プロパティ推論による個人化フェデレーション学習を可能にする形式論理

Formal Logic Enabled Personalized Federated Learning Through Property Inference ( http://arxiv.org/abs/2401.07448v2 )

ライセンス: Link先を確認
Ziyan An, Taylor T. Johnson, Meiyi Ma(参考訳) 統合学習(FL)の最近の進歩は、特に人工知能(AIoT)分野において、分散協調アプリケーションの開発を大いに促進している。 しかし、現在の研究の展望に欠けている重要な側面は、シンボリック推論機能を備えたデータ駆動クライアントモデルを可能にする能力である。 具体的には、各クライアントが独自の論理推論特性を示すため、参加するクライアントデバイス固有の不均一性は重大な課題となる。 これらのデバイス固有の仕様を考慮できないと、クライアントの予測に重要な特性が欠落し、亜最適性能がもたらされる。 本研究では,時間的論理的推論を利用してこの問題に対処する新たなトレーニングパラダイムを提案する。 このアプローチでは,各flクライアントに機械的に生成された論理式を組み込むことで,トレーニングプロセスを強化する。 さらに,集約クラスタの概念を導入し,時間的推論特性のアライメントに基づいてクライアントを効果的にグループ化するパーティショニングアルゴリズムを開発した。 提案手法は,15州からのセンサデータからなる実世界の交通量予測タスクと,合成データを用いたスマートシティマルチタスク予測という2つのタスクで評価する。 評価結果は,全ての逐次予測モデルに対して,性能精度を最大54%向上した。

Recent advancements in federated learning (FL) have greatly facilitated the development of decentralized collaborative applications, particularly in the domain of Artificial Intelligence of Things (AIoT). However, a critical aspect missing from the current research landscape is the ability to enable data-driven client models with symbolic reasoning capabilities. Specifically, the inherent heterogeneity of participating client devices poses a significant challenge, as each client exhibits unique logic reasoning properties. Failing to consider these device-specific specifications can result in critical properties being missed in the client predictions, leading to suboptimal performance. In this work, we propose a new training paradigm that leverages temporal logic reasoning to address this issue. Our approach involves enhancing the training process by incorporating mechanically generated logic expressions for each FL client. Additionally, we introduce the concept of aggregation clusters and develop a partitioning algorithm to effectively group clients based on the alignment of their temporal reasoning properties. We evaluate the proposed method on two tasks: a real-world traffic volume prediction task consisting of sensory data from fifteen states and a smart city multi-task prediction utilizing synthetic data. The evaluation results exhibit clear improvements, with performance accuracy improved by up to 54% across all sequential prediction models.
翻訳日:2024-01-25 16:42:19 公開日:2024-01-24
# コードの行間:機械と人間のプログラマの固有のパターンを明らかにする

Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers ( http://arxiv.org/abs/2401.06461v2 )

ライセンス: Link先を確認
Yuling Shi, Hongyu Zhang, Chengcheng Wan, Xiaodong Gu(参考訳) 大規模言語モデルはコード生成において前例のない波を触媒している。 大幅な進歩を遂げながら、マシンと人間によるソースコードの区別を曖昧にし、ソフトウェアアーチファクトの完全性と信頼性の問題を引き起こした。 DetectGPTのような従来の手法は、機械生成したテキストの識別に有効であることが証明されているが、それらは機械生成コードのユニークなパターンを特定し、利用しない。 したがって、コードに適用した場合、適用性は低下する。 本稿では,機械と人為的コードを特徴付ける特定のパターンを慎重に研究する。 長さや語彙の多様性,自然さといったコード属性の厳密な分析を通じて,各ソース固有のパタンを露呈する。 特に、コードの構造的セグメンテーションが、その成果を特定する上で重要な要素であることに気付きます。 そこで本研究では,コードの構造パターンを抽出し,検出GPTの精度を向上する,DeuterCodeGPTという新しいコード検出手法を提案する。 摂動の外部 LLM に依存する従来の手法とは違い、DeuterCodeGPT は空間と新規性を戦略的に挿入することでコードコーパスを摂動させ、有効性と効率性を確保する。 実験結果から,本手法は機械生成コードの検出における最先端技術よりも優れていることがわかった。

Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine-and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine and human-authored code. Through a rigorous analysis of code attributes such as length, lexical diversity, and naturalness, we expose unique pat-terns inherent to each source. We particularly notice that the structural segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose a novel machine-generated code detection method called DetectCodeGPT, which improves DetectGPT by capturing the distinct structural patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.
翻訳日:2024-01-25 16:41:49 公開日:2024-01-24
# レコメンデーションにおけるインテント学習のためのオンライン微分可能クラスタリング

Online Differentiable Clustering for Intent Learning in Recommendation ( http://arxiv.org/abs/2401.05975v2 )

ライセンス: Link先を確認
Yue Liu, Shihao Zhu, Jun Xia, Yingwei Ma, Jian Ma, Wenliang Zhong, Guannan Zhang, Kejun Zhang, Xinwang Liu(参考訳) ユーザの意図をマイニングすることは、逐次レコメンデーションにおいて重要な役割を果たす。 最近のアプローチであるiclrecは、対照的な学習とクラスタリングを使用して、基礎となるユーザの意図を抽出するために導入された。 有効性を示しているが、既存の手法は複雑で面倒な交互最適化に悩まされており、2つの主要な問題に繋がる。 第一に、一般化期待最大化(EM)フレームワークにおける表現学習とクラスタリング最適化の分離は、しばしば準最適性能をもたらす。 第二に、データセット全体のクラスタリングは、大規模産業データに対するスケーラビリティを損なう。 これらの課題に対処するために、表現学習を \underline{O}nline \underline{D}ifferentiable \underline{C}lustering framework for \underline{Rec}ommendation に統合する、新しい意図学習手法である \underline{ODCRec} を提案する。 具体的には、ユーザの行動シーケンスをエンコードし、クラスタセンターを異なるネットワークパラメータとして初期化する。 さらに、異なるクラスタセンタを区別するネットワークを誘導し、同様のサンプルをそれぞれのクラスタセンタにプルするクラスタリングロスを設計する。 これにより、ミニバッチデータを用いたレコメンデーションとクラスタリングの同時最適化が可能になる。 さらに,学習したクラスタセンタを自己スーパービジョン信号として表現学習に活用し,レコメンデーション性能をさらに向上させる。 オープンベンチマークと産業データを用いた大規模実験により,提案手法の優位性,有効性,効率性を検証した。 コードはhttps://github.com/yueliu1999/elcrec。

Mining users' intents plays a crucial role in sequential recommendation. The recent approach, ICLRec, was introduced to extract underlying users' intents using contrastive learning and clustering. While it has shown effectiveness, the existing method suffers from complex and cumbersome alternating optimization, leading to two main issues. Firstly, the separation of representation learning and clustering optimization within a generalized expectation maximization (EM) framework often results in sub-optimal performance. Secondly, performing clustering on the entire dataset hampers scalability for large-scale industry data. To address these challenges, we propose a novel intent learning method called \underline{ODCRec}, which integrates representation learning into an \underline{O}nline \underline{D}ifferentiable \underline{C}lustering framework for \underline{Rec}ommendation. Specifically, we encode users' behavior sequences and initialize the cluster centers as differentiable network parameters. Additionally, we design a clustering loss that guides the networks to differentiate between different cluster centers and pull similar samples towards their respective cluster centers. This allows simultaneous optimization of recommendation and clustering using mini-batch data. Moreover, we leverage the learned cluster centers as self-supervision signals for representation learning, resulting in further enhancement of recommendation performance. Extensive experiments conducted on open benchmarks and industry data validate the superiority, effectiveness, and efficiency of our proposed ODCRec method. Code is available at: https://github.com/yueliu1999/ELCRec.
翻訳日:2024-01-25 16:41:04 公開日:2024-01-24
# 森林伐採によるランダム林の精度と解釈性の向上

Improving the Accuracy and Interpretability of Random Forests via Forest Pruning ( http://arxiv.org/abs/2401.05535v2 )

ライセンス: Link先を確認
Albert Dorador(参考訳) 開始から数十年後、ランダム森林は様々な学習問題において最先端の精度を提供し続けており、この点で決定木やニューラルネットワークのような代替機械学習アルゴリズムよりも優れている。 しかし、アンサンブル手法として、無作為林が決定木を著しく過小評価する一面が解釈可能である。 本研究は,無作為林の精度と決定木の解釈可能性という両世界を最大限に活用することを目的としたポストホックアプローチを提案する。 そこで本研究では,指定したランダム林内で最適な亜林を見つけるための2つの森林伐採手法を提案し,適用すると,選択した木を1つにまとめる。 第1の方法は制約付き排他探索に依存し,第2の方法はLASSO手法の適応に基づく。 合成と実世界のデータセットに関する広範囲な実験は、ほとんどのシナリオにおいて、提案された2つの方法のうち少なくとも1つが元のランダムフォレストよりも正確であることを示している。 現在の森林伐採法(シーケンシャル・フォワード・セレクションとシーケンシャル・バック・セレクションのバリエーション)と比較すると, 精度, 木数, あるいはその両方において, どちらの方法よりも優れている傾向にある。

Decades after their inception, random forests continue to provide state-of-the-art accuracy in a variety of learning problems, outperforming in this respect alternative machine learning algorithms such as decision trees or even neural networks. However, being an ensemble method, the one aspect where random forests tend to severely underperform decision trees is interpretability. In the present work, we propose a post-hoc approach that aims to have the best of both worlds: the accuracy of random forests and the interpretability of decision trees. To this end, we present two forest-pruning methods to find an optimal sub-forest within a given random forest, and then, when applicable, combine the selected trees into one. Our first method relies on constrained exhaustive search, while our second method is based on an adaptation of the LASSO methodology. Extensive experiments over synthetic and real world datasets show that, in the majority of scenarios, at least one of the two methods proposed is more accurate than the original random forest, while just using a small fraction of the trees, aiding result interpretability. Compared to current state-of-the-art forest pruning methods, namely sequential forward selection and (a variation of) sequential backward selection, our methods tend to outperform both of them, whether in terms of accuracy, number of trees employed, or both.
翻訳日:2024-01-25 16:40:37 公開日:2024-01-24
# 猫は監禁から逃れる

Schr\"odinger cats escape confinement ( http://arxiv.org/abs/2401.04193v2 )

ライセンス: Link先を確認
A. Krasznai and G. Tak\'acs(参考訳) 強磁性系における閉じ込め量子イジングスピン鎖の真または偽の真空状態の1つのスピンフリップによって生成される初期状態からの局所的クエンチを考える。 光円錐の挙動が強く抑制される大域的クエンチとは対照的に、期待される局所振動成分の他に、非ゼロ速度で伝播する重要な光円錐信号が見つかる。 2つのフェルミオン近似を用いて初期状態の解析的表現と関連する励起の数値的記述を組み合わせることで、後処理の励起スペクトルと初期状態との重なりを構築でき、基礎となるメカニズムを特定できる。 真の真空上に構築されたクエンチェを閉じ込めるために、伝播信号は、閉じ込めから逃れる左右に動く中間子からなるschr{\"o}dinger catからなる。 対照的に、偽真空上に構築された反断熱クエンチは、ワニエ・スタークのローカライゼーションから逃れる左右に動く泡のSchr{\「o}dinger catで構成されている。

We consider local quenches from initial states generated by a single spin flip in either the true or the false vacuum state of the confining quantum Ising spin chain in the ferromagnetic regime. Contrary to global quenches, where the light-cone behaviour is strongly suppressed, we find a significant light-cone signal propagating with a nonzero velocity besides the expected localised oscillating component. Combining an analytic representation of the initial state with a numerical description of the relevant excitations using the two-fermion approximation, we can construct the spectrum of post-quench excitations and their overlaps with the initial state, identifying the underlying mechanism. For confining quenches built upon the true vacuum, the propagating signal consists of Schr{\"o}dinger cats of left and right-moving mesons escaping confinement. In contrast, for anti-confining quenches built upon the false vacuum, it is composed of Schr{\"o}dinger cats of left and right-moving bubbles which escape Wannier-Stark localisation.
翻訳日:2024-01-25 16:40:12 公開日:2024-01-24
# ドメイン固有LLMの微調整と利用法

Fine-tuning and Utilization Methods of Domain-specific LLMs ( http://arxiv.org/abs/2401.02981v2 )

ライセンス: Link先を確認
Cheonsu Jeong(参考訳) 近年のLLM(Pre-trained Large Language Models)のリリースは大きな注目を集めている。 本研究では,LLMの微調整と活用のアプローチ,LLMの動向,基礎モデル,ドメイン固有の事前学習手法について検討する。 金融セクターに焦点をあてて、データセットの選択、前処理、モデル選択、金融のLLM微調整に不可欠な考慮事項を詳述している。 本研究は,金融データの特異な特徴に対処し,ドメイン固有の語彙の構築と,セキュリティと規制の遵守について考察する。 LLMファインチューニングの実践的応用として,金融分野でのドメイン固有LLMの生成手順と実装について概説する。 株価予測、金融ニュースの感情分析、自動文書処理、調査、情報抽出、顧客サービス強化など様々な金融事例を例示する。 本研究は、金融分野におけるLLMの可能性を探り、限界を特定し、改善の方向性を提案し、今後の研究に有用な洞察を提供する。 最終的に、ビジネスにおける自然言語処理技術を進歩させ、業界全体での金融サービスにおける積極的にLLMの利用を示唆している。

Recent releases of pre-trained Large Language Models (LLMs) have gained considerable traction, yet research on fine-tuning and employing domain-specific LLMs remains scarce. This study investigates approaches for fine-tuning and leveraging domain-specific LLMs, highlighting trends in LLMs, foundational models, and methods for domain-specific pre-training. Focusing on the financial sector, it details dataset selection, preprocessing, model choice, and considerations crucial for LLM fine-tuning in finance. Addressing the unique characteristics of financial data, the study explores the construction of domain-specific vocabularies and considerations for security and regulatory compliance. In the practical application of LLM fine-tuning, the study outlines the procedure and implementation for generating domain-specific LLMs in finance. Various financial cases, including stock price prediction, sentiment analysis of financial news, automated document processing, research, information extraction, and customer service enhancement, are exemplified. The study explores the potential of LLMs in the financial domain, identifies limitations, and proposes directions for improvement, contributing valuable insights for future research. Ultimately, it advances natural language processing technology in business, suggesting proactive LLM utilization in financial services across industries.
翻訳日:2024-01-25 16:39:48 公開日:2024-01-24
# 量子アルゴリズムによる科学応用

Quantum algorithms for scientific applications ( http://arxiv.org/abs/2312.14904v2 )

ライセンス: Link先を確認
R. Au-Yeung and B. Camino and O. Rathore and V. Kendon(参考訳) 量子コンピューティングは、様々なアプリケーション分野の計算能力の次のステップを提供すると約束している。 本稿では,実世界の応用において真の量子優位性を達成するために必要な量子ハイプとブレークスルーの背後にある科学を考察する。 ハイパフォーマンスコンピューティング(HPC)に最も影響を与える可能性のある分野には、量子システムのシミュレーション、最適化、機械学習などがある。 我々は、HPCの現在の科学・工学的利用のかなりの部分を占める材料シミュレーションと計算流体力学の例を引用する。 潜在的な課題は、量子デバイスのための古典的なデータのエンコーディングとデコード、および古典プロセッサと量子プロセッサ間のクロック速度のミスマッチである。 現在の古典的手法への控えめな量子拡張でさえも、気象予報、工学、航空宇宙、薬物設計、持続可能な開発のための「緑の」材料の実現など、広範囲に及ぶ影響をもたらすだろう。 これは計算科学、工学、量子コンピューティングのコミュニティの協力による多大な努力を必要とする。

Quantum computing promises to provide the next step up in computational power for diverse application areas. In this review, we examine the science behind the quantum hype and breakthroughs required to achieve true quantum advantage in real world applications. Areas that are likely to have the greatest impact on high performance computing (HPC) include simulation of quantum systems, optimisation, and machine learning. We draw our examples from materials simulations and computational fluid dynamics which account for a large fraction of current scientific and engineering use of HPC. Potential challenges include encoding and decoding classical data for quantum devices, and mismatched clock speeds between classical and quantum processors. Even a modest quantum enhancement to current classical techniques would have far-reaching impacts in areas such as weather forecasting, engineering, aerospace, drug design, and realising "green" materials for sustainable development. This requires significant effort from the computational science, engineering and quantum computing communities working together.
翻訳日:2024-01-25 16:38:55 公開日:2024-01-24
# 自己教師付き学習における記憶記憶は下流の一般化を改善する

Memorization in Self-Supervised Learning Improves Downstream Generalization ( http://arxiv.org/abs/2401.12233v2 )

ライセンス: Link先を確認
Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic, Michael Backes, Nicolas Papernot, Franziska Boenisch(参考訳) 自己教師付き学習(SSL)は、インターネットから取り除かれた未ラベルのデータで、純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。 このデータはセンシティブであり、実証的な証拠から、sslエンコーダはトレーニングデータのプライベート情報を記憶し、推論時にそれらを開示できることが示唆される。 教師付き学習からの記憶に関する既存の理論的定義はラベルに依存しているため、SSLに転送することはない。 このギャップに対処するため、SSL内で記憶を定義するフレームワークであるSSLMemを提案する。 私たちの定義では、データポイントに対する表現のアラインメントの違いと、これらのデータポイントでトレーニングされたエンコーダとそうでないエンコーダの両方が返す拡張ビューを比較します。 さまざまなエンコーダアーキテクチャやデータセットに関する包括的な実証分析を通じて、SSLは大規模なデータセットに依存していても、トレーニングデータポイントの過度に適合する部分を減らす正規化技術として、教師付き学習で知られている強力な拡張は、高い記憶力を持つことを強調します。 実験結果から,この暗記は,異なる下流タスクにおいて高い一般化性能を達成するために,エンコーダにとって不可欠であることを示す。

Self-supervised learning (SSL) has recently received significant attention due to its ability to train high-performance encoders purely on unlabeled data-often scraped from the internet. This data can still be sensitive and empirical evidence suggests that SSL encoders memorize private information of their training data and can disclose them at inference time. Since existing theoretical definitions of memorization from supervised learning rely on labels, they do not transfer to SSL. To address this gap, we propose SSLMem, a framework for defining memorization within SSL. Our definition compares the difference in alignment of representations for data points and their augmented views returned by both encoders that were trained on these data points and encoders that were not. Through comprehensive empirical analysis on diverse encoder architectures and datasets we highlight that even though SSL relies on large datasets and strong augmentations-both known in supervised learning as regularization techniques that reduce overfitting-still significant fractions of training data points experience high memorization. Through our empirical results, we show that this memorization is essential for encoders to achieve higher generalization performance on different downstream tasks.
翻訳日:2024-01-25 16:28:42 公開日:2024-01-24
# MLLM-Tool:ツールエージェント学習のためのマルチモーダル大規模言語モデル

MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning ( http://arxiv.org/abs/2401.10727v2 )

ライセンス: Link先を確認
Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua (Michael) Xuan, Zhengxin Li, Lin Ma, Shenghua Gao(参考訳) 近年,自然言語理解と生成タスクにおける大規模言語モデル(llm)の驚くべき性能が,エージェントシステム構築のための中央制御系としての利用を大いに促進した。 複数の研究は、アプリケーションのシナリオを拡張するためにLLMを外部ツールにブリッジすることに焦点を当てている。 しかし、現在のLLMのツール使用能力は単一のテキストクエリに限られており、ユーザの実際の意図を理解するための曖昧さをもたらす可能性がある。 LLMは視覚的または聴覚的な命令の情報を知覚することでそれを排除することが期待されている。 そこで本稿では,オープンソースのLLMとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。 モデルの能力評価を容易にするために,hughingfaceからマルチモーダル入力ツールを用いたデータセットを収集した。 我々のデータセットのもう1つの重要な特徴は、同一の関数と同義関数が存在するため、我々のデータセットが同一の命令に対して複数の潜在的選択肢を含むことである。 実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。 コードとデータはhttps://github.com/MLLM-Tool/MLLM-Toolで公開されている。

Recently, the astonishing performance of large language models (LLMs) in natural language comprehension and generation tasks triggered lots of exploration of using them as central controllers to build agent systems. Multiple studies focus on bridging the LLMs to external tools to extend the application scenarios. However, the current LLMs' perceiving tool-use ability is limited to a single text query, which may result in ambiguity in understanding the users' real intentions. LLMs are expected to eliminate that by perceiving the visual- or auditory-grounded instructions' information. Therefore, in this paper, we propose MLLM-Tool, a system incorporating open-source LLMs and multi-modal encoders so that the learnt LLMs can be conscious of multi-modal input instruction and then select the function-matched tool correctly. To facilitate the evaluation of the model's capability, we collect a dataset featured by consisting of multi-modal input tools from HuggingFace. Another important feature of our dataset is that our dataset also contains multiple potential choices for the same instruction due to the existence of identical functions and synonymous functions, which provides more potential solutions for the same query. The experiments reveal that our MLLM-Tool is capable of recommending appropriate tools for multi-modal instructions. Codes and data are available at https://github.com/MLLM-Tool/MLLM-Tool.
翻訳日:2024-01-25 16:28:03 公開日:2024-01-24
# M2ORT : 病理像からの空間転写学予測のための多対一回帰変換器

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images ( http://arxiv.org/abs/2401.10608v2 )

ライセンス: Link先を確認
Hongyi Wang, Xiuju Du, Jing Liu, Shuyi Ouyang, Yen-Wei Chen, Lanfen Lin(参考訳) 空間転写学(Spatial Transcriptomics, ST)の進歩により, 組織像に基づく遺伝子発現の空間的プロファイリングが促進された。 STデータは腫瘍の微小環境に関する貴重な知見を提供するが、買収コストは高い。 したがって、デジタル病理画像から直接ST表現を予測することが望ましい。 現在の手法では、デジタル病理画像に固有のマルチスケール階層データ構造を無視する既存の回帰バックボーンを採用することが多い。 この限界に対処するために,マルチスケール特徴抽出器を用いて病理像の階層構造を満足する多対一回帰トランスフォーマであるm2ortを提案する。 1対1のイメージラベルペアで訓練された従来のモデルとは異なり、M2ORTは異なる倍率の複数の病理画像を受け入れ、トレーニングを通じて多対1の関係を学ぶことを目的として、対応する共通ST領域での遺伝子発現を共同で予測する。 我々は3つのパブリックSTデータセット上でM2ORTを試験し、実験結果から、M2ORTはパラメータが少なく、浮動小数点演算(FLOP)で最先端のパフォーマンスを達成できることが示された。 コードはhttps://github.com/dootmaan/m2ort/。

The advancement of Spatial Transcriptomics (ST) has facilitated the spatially-aware profiling of gene expressions based on histopathology images. Although ST data offers valuable insights into the micro-environment of tumors, its acquisition cost remains expensive. Therefore, directly predicting the ST expressions from digital pathology images is desired. Current methods usually adopt existing regression backbones for this task, which ignore the inherent multi-scale hierarchical data structure of digital pathology images. To address this limit, we propose M2ORT, a many-to-one regression Transformer that can accommodate the hierarchical structure of the pathology images through a decoupled multi-scale feature extractor. Different from traditional models that are trained with one-to-one image-label pairs, M2ORT accepts multiple pathology images of different magnifications at a time to jointly predict the gene expressions at their corresponding common ST spot, aiming at learning a many-to-one relationship through training. We have tested M2ORT on three public ST datasets and the experimental results show that M2ORT can achieve state-of-the-art performance with fewer parameters and floating-point operations (FLOPs). The code is available at: https://github.com/Dootmaan/M2ORT/.
翻訳日:2024-01-25 16:27:39 公開日:2024-01-24
# VIPTR: 高速かつ高能率なシーンテキスト認識のための視覚可変エクストラクタ

VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition ( http://arxiv.org/abs/2401.10110v3 )

ライセンス: Link先を確認
Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li(参考訳) シーンテキスト認識(STR)は、自然のシーンの画像内のテキストを認識するという課題である。 現在のSTRの最先端モデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。 本研究では,高速かつ効率的なシーンテキスト認識(VIPTR)のためのVIsion Permutable extractorを提案する。 具体的には、VIPTRは、伝統的なシークエンスデコーダをエシェレーションしながら、複数の自己アテンション層を特徴とするピラミッド構造を持つ視覚的意味抽出器を利用する。 この設計選択は、様々なサイズの入力を処理できる軽量で効率的なモデルをもたらす。 中国語と英語のテキスト認識のための様々な標準データセットに関する広範囲な実験結果がviptrの優位性を検証している。 特に、VIPTR-T(Tiny)は、他の軽量モデルと同等の高い競争精度を提供し、SOTA推論速度を達成する。 一方、VIPTR-L(Large)変異は、低いパラメータ数と好ましい推論速度を維持しつつ、より高い認識精度を実現する。 提案手法は,高い精度と効率をブレンドし,高速で信頼性の高いテキスト認識を必要とする実世界のアプリケーションに多大な恩恵を与える。 コードはhttps://github.com/cxfyxl/VIPTRで公開されている。

Scene Text Recognition (STR) is a challenging task that involves recognizing text within images of natural scenes. Although current state-of-the-art models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose the VIsion Permutable extractor for fast and efficient scene Text Recognition (VIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, VIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by multiple self-attention layers, while eschewing the traditional sequence decoder. This design choice results in a lightweight and efficient model capable of handling inputs of varying sizes. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of VIPTR. Notably, the VIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the VIPTR-L (Large) variant attains greater recognition accuracy, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which blends high accuracy with efficiency and greatly benefits real-world applications requiring fast and reliable text recognition. The code is publicly available at https://github.com/cxfyxl/VIPTR.
翻訳日:2024-01-25 16:27:15 公開日:2024-01-24
# 初期熱帯サイクロン強度に関連する3次元放射パターンの同定

Identifying Three-Dimensional Radiative Patterns Associated with Early Tropical Cyclone Intensification ( http://arxiv.org/abs/2401.09493v2 )

ライセンス: Link先を確認
Frederick Iat-Hin Tam, Tom Beucler, James H. Ruppert Jr(参考訳) 雲放射フィードバックは初期熱帯サイクロン(tc)の強度に影響を及ぼすが、既存の診断フレームワークの制限により、非対称または過渡的な放射加熱の研究には適さない。 本稿では, 実数値シミュレーションTCの表面強度と放射の隠れ関係を学習するための線形変分エンコーダ(VED)を提案する。 vedモデル入力を制限することで、放射線が強化にとってより重要である期間を識別することができる。 抽出した3次元放射構造を詳細に検討した結果,内部コアの深層対流と浅層雲からの長波放射はともに増大に寄与し,深層対流は全体として最も影響が大きいことが示唆された。 浅層雲の深い対流下風は、ハイヤンの強化に不可欠である。 我々の研究は、機械学習が軸対称的あるいは決定論的仮定に頼ることなく熱力学的関係を発見できることを示し、現実的な条件下でTCの強化につながるプロセスの客観的発見への道を開いた。

Cloud radiative feedback impacts early tropical cyclone (TC) intensification, but limitations in existing diagnostic frameworks make them unsuitable for studying asymmetric or transient radiative heating. We propose a linear Variational Encoder-Decoder (VED) to learn the hidden relationship between radiation and the surface intensification of realistic simulated TCs. Limiting VED model inputs enables using its uncertainty to identify periods when radiation has more importance for intensification. A close examination of the extracted 3D radiative structures suggests that longwave radiative forcing from inner core deep convection and shallow clouds both contribute to intensification, with the deep convection having the most impact overall. We find that deep convection downwind of the shallow clouds is critical to the intensification of Haiyan. Our work demonstrates that machine learning can discover thermodynamic-kinematic relationships without relying on axisymmetric or deterministic assumptions, paving the way towards the objective discovery of processes leading to TC intensification in realistic conditions.
翻訳日:2024-01-25 16:26:49 公開日:2024-01-24
# ソフトウェア脆弱性の検出・分類・修復のためのレポジトリレベルデータセット

A Repository-Level Dataset For Detecting, Classifying and Repairing Software Vulnerabilities ( http://arxiv.org/abs/2401.13169v1 )

ライセンス: Link先を確認
Xinchen Wang, Ruida Hu, Cuiyun Gao, Xin-Cheng Wen, Yujia Chen and Qing Liao(参考訳) オープンソースソフトウェア(oss)の脆弱性は、ソフトウェアセキュリティに大きな課題をもたらし、社会に潜在的なリスクをもたらします。 ディープラーニング(DL)ベースのアプローチが最も効果的であることが証明された。 しかし、現在のラベル付きデータは以下の制限を示している: (1) \textbf{tangled patch}: 開発者はパッチ内の脆弱性修正とは無関係なコード変更を提出でき、絡み合ったパッチにつながる。 (2) \textbf{lacking inter-procedural vulnerabilities}: 既存の脆弱性データセットには一般的に関数レベルの脆弱性とファイルレベルの脆弱性が含まれ、関数間の関係を無視する。 (3) \textbf{outdated patch}: 既存のデータセットには一般的に時代遅れのパッチが含まれており、トレーニング中にモデルをバイアスする可能性がある。 上記の制約に対処するため,本稿では,自動データ収集フレームワークを提案し,最初のリポジトリレベルの高品質な脆弱性データセットである \textbf{ReposVul} を構築した。 提案するフレームワークは,主に3つのモジュールを含む。(1)脆弱性修正関連コード変更と,大規模言語モデル(LLM)と静的解析ツールを併用した,絡み合ったパッチの区別を目的とした脆弱性回避モジュール。 2)リポジトリレベル,ファイルレベル,関数レベル,行レベルなど,脆弱性パッチごとに複数の粒度情報を構築する脆弱性のプロセス間コール関係を捉えることを目的とした,マルチ粒度依存性抽出モジュール。 3) 古いパッチのフィルタリングを目的としたトレースベースのフィルタリングモジュールは,ファイルパストレースベースのフィルタとコミットタイムトレースベースのフィルタを活用して,最新のデータセットを構築する。

Open-Source Software (OSS) vulnerabilities bring great challenges to the software security and pose potential risks to our society. Enormous efforts have been devoted into automated vulnerability detection, among which deep learning (DL)-based approaches have proven to be the most effective. However, the current labeled data present the following limitations: (1) \textbf{Tangled Patches}: Developers may submit code changes unrelated to vulnerability fixes within patches, leading to tangled patches. (2) \textbf{Lacking Inter-procedural Vulnerabilities}: The existing vulnerability datasets typically contain function-level and file-level vulnerabilities, ignoring the relations between functions, thus rendering the approaches unable to detect the inter-procedural vulnerabilities. (3) \textbf{Outdated Patches}: The existing datasets usually contain outdated patches, which may bias the model during training. To address the above limitations, in this paper, we propose an automated data collection framework and construct the first repository-level high-quality vulnerability dataset named \textbf{ReposVul}. The proposed framework mainly contains three modules: (1) A vulnerability untangling module, aiming at distinguishing vulnerability-fixing related code changes from tangled patches, in which the Large Language Models (LLMs) and static analysis tools are jointly employed. (2) A multi-granularity dependency extraction module, aiming at capturing the inter-procedural call relationships of vulnerabilities, in which we construct multiple-granularity information for each vulnerability patch, including repository-level, file-level, function-level, and line-level. (3) A trace-based filtering module, aiming at filtering the outdated patches, which leverages the file path trace-based filter and commit time trace-based filter to construct an up-to-date dataset.
翻訳日:2024-01-25 15:56:41 公開日:2024-01-24
# 多重量子リピータのポリシー:理論と実用的性能解析

Policies for multiplexed quantum repeaters: theory and practical performance analysis ( http://arxiv.org/abs/2401.13168v1 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Xiang Cheng, Kai-Chi Chang, Brian T. Kirby, Sumeet Khatri, Chee Wei Wong, Hwang Lee(参考訳) 将来の量子ネットワークは、複数の量子メモリを備えたノードを持ち、フィデリティを高め、エンドツーエンドのエンタングルメント分布の待ち時間を短縮するために多重化および蒸留戦略を実行することができる。 本稿では,よく知られたswap-asoon-as-possible(swap-asap)ポリシーを多重化量子リピータチェーンに適用する2つのポリシーを提案する。 Unlike the usual, fully local swap-asap policy, these policies are ``quasi-local", making effective use of knowledge of the states of the repeaters along the chain to optimize waiting times and end-to-end fidelities. Our policies also make use of entanglement distillation. We demonstrate via simulations one of our key findings, which is that these policies can outperform the well-known and widely studied nested purification and doubling swapping policy in practically relevant parameter regimes. Our work also provides the tools to carefully examine the role of entanglement distillation. We identify the parameter regimes in which performing distillation makes sense and is useful. In these regimes, we also address the question: ``Should we distill before swapping, or vice versa?" そこで我々は,量子ネットワークに蒸留能力を加える利点と,その技術的,実用的課題とのトレードオフを定式化する。 最後に、さらに実用的なガイダンスを提供するために、多重化に基づく線形ネットワークの実験実装を提案し、その鍵要素である高次元複光子周波数コム(BFC)を実験的に実証する。 そこで我々は,2つの具体的メモリプラットフォーム,レアアースイオンとダイヤモンド空洞のシミュレーション結果を用いて,そのような実世界のネットワークにおける多重化ポリシーの期待性能を評価する。

Future quantum networks will have nodes equipped with multiple quantum memories, providing the possibility to perform multiplexing and distillation strategies in order to increase fidelities and reduce waiting times for end-to-end entanglement distribution. In this paper, we introduce two policies that adapt the well-known swap-as-soon-as-possible (swap-asap) policy to multiplexed quantum repeater chains. Unlike the usual, fully local swap-asap policy, these policies are ``quasi-local", making effective use of knowledge of the states of the repeaters along the chain to optimize waiting times and end-to-end fidelities. Our policies also make use of entanglement distillation. We demonstrate via simulations one of our key findings, which is that these policies can outperform the well-known and widely studied nested purification and doubling swapping policy in practically relevant parameter regimes. Our work also provides the tools to carefully examine the role of entanglement distillation. We identify the parameter regimes in which performing distillation makes sense and is useful. In these regimes, we also address the question: ``Should we distill before swapping, or vice versa?" We thus formalize the trade-off between the advantages of adding distillation capabilities to quantum networks against their technological and practical challenges. Finally, to provide further practical guidance, we propose an experimental implementation of a multiplexing-based linear network, and experimentally demonstrate the key element, a high-dimensional biphoton frequency comb (BFC). We then evaluate the anticipated performance of our multiplexing-based policies in such a real-world network through simulation results for two concrete memory platforms, namely rare-earth ions and diamond vacancies.
翻訳日:2024-01-25 15:56:07 公開日:2024-01-24
# 低リソース言語を用いた機械翻訳における誤訳と性別推定

Misgendering and Assuming Gender in Machine Translation when Working with Low-Resource Languages ( http://arxiv.org/abs/2401.13165v1 )

ライセンス: Link先を確認
Sourojit Ghosh, Srishti Chatterjee(参考訳) 本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。 まず、低リソース言語とは何かを説明し、そのような言語階層を形成する不可分な社会的および計算的要因を調べます。 本稿は,母国語ベンガル語の事例研究を通じて,約3億人が話すグローバル言語であるベンガル語を事例として紹介する。 本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアル的・社会的影響について論じるとともに,MT会話においてより多くのエージェンシーを提供することで,言語強化に向けた潜在的な解決策について議論する。

This chapter focuses on gender-related errors in machine translation (MT) in the context of low-resource languages. We begin by explaining what low-resource languages are, examining the inseparable social and computational factors that create such linguistic hierarchies. We demonstrate through a case study of our mother tongue Bengali, a global language spoken by almost 300 million people but still classified as low-resource, how gender is assumed and inferred in translations to and from the high(est)-resource English when no such information is provided in source texts. We discuss the postcolonial and societal impacts of such errors leading to linguistic erasure and representational harms, and conclude by discussing potential solutions towards uplifting languages by providing them more agency in MT conversations.
翻訳日:2024-01-25 15:55:40 公開日:2024-01-24
# 一般化されたマルチスケールバンドルベースハイパースペクトルスパースアンミックスアルゴリズム

A Generalized Multiscale Bundle-Based Hyperspectral Sparse Unmixing Algorithm ( http://arxiv.org/abs/2401.13161v1 )

ライセンス: Link先を確認
Luciano Carvalho Ayres, Ricardo Augusto Borsoi, Jos\'e Carlos Moreira Bermudez, S\'ergio Jos\'e Melo de Almeida(参考訳) hyperspectral sparse unmixingにおいて、成功したアプローチは、空間領域のエンドメンバーの変動性に対処するためにスペクトル束を用いる。 しかし、正規化ペナルティは通常、計算の複雑さを集約し、その解は非常にノイズに敏感である。 我々は,群間隔誘導混合ノルムを組み込むことにより,非混合問題を解くために,マルチスケール空間正規化手法を一般化する。 そこで本研究では,バンドル構造を生かしてエンドメンバー変動に対処し,合理的な計算コストでクラス間およびクラス内スパルシリティを確保できるノイズロバスト手法を提案する。 また,非混合プロセスの複数実行上での<emph{most representative}存在量推定を選択できる一般的なヒューリスティックも提示し,堅牢で再現性が高い解を得る。 実験は、関連する手法と比較して結果の堅牢性と一貫性を示す。

In hyperspectral sparse unmixing, a successful approach employs spectral bundles to address the variability of the endmembers in the spatial domain. However, the regularization penalties usually employed aggregate substantial computational complexity, and the solutions are very noise-sensitive. We generalize a multiscale spatial regularization approach to solve the unmixing problem by incorporating group sparsity-inducing mixed norms. Then, we propose a noise-robust method that can take advantage of the bundle structure to deal with endmember variability while ensuring inter- and intra-class sparsity in abundance estimation with reasonable computational cost. We also present a general heuristic to select the \emph{most representative} abundance estimation over multiple runs of the unmixing process, yielding a solution that is robust and highly reproducible. Experiments illustrate the robustness and consistency of the results when compared to related methods.
翻訳日:2024-01-25 15:54:59 公開日:2024-01-24
# SpacTor-T5: Span Corruption と Replaced Token Detection を備えた事前学習型T5モデル

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection ( http://arxiv.org/abs/2401.13160v1 )

ライセンス: Link先を確認
Ke Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-Fran\c{c}ois Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar(参考訳) 事前学習された大きな言語モデルは、非常にリソース集約的で、しばしば非効率で、訓練されたテキストシーケンスにカプセル化された情報を過小評価することが知られている。 本稿では,(1)スパン腐敗(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標と,(2)初期$\tau$の反復に対してハイブリッド目標を最適化し,標準のSC損失に遷移する2段階のカリキュラムからなる,新しいトレーニング手順であるSpacTorを提案する。 本研究は,ハイブリッド目標の有効性が2段階事前学習スケジュールに結びついていることを実証的に示し,その理由を詳細に分析した。 各種NLPタスクのエンコーダデコーダアーキテクチャ(T5)を用いた実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能を示し、事前トレーニングの50%削減と全FLOPの40%削減を実現した。 あるいは、同じ計算予算を考えると、spactorによってダウンストリームベンチマークのパフォーマンスが大幅に向上することがわかった。

Pre-training large language models is known to be extremely resource intensive and often times inefficient, under-utilizing the information encapsulated in the training text sequences. In this paper, we present SpacTor, a new training procedure consisting of (1) a hybrid objective combining span corruption (SC) and token replacement detection (RTD), and (2) a two-stage curriculum that optimizes the hybrid objective over the initial $\tau$ iterations, then transitions to standard SC loss. We show empirically that the effectiveness of the hybrid objective is tied to the two-stage pre-training schedule, and provide extensive analysis on why this is the case. In our experiments with encoder-decoder architectures (T5) on a variety of NLP tasks, SpacTor-T5 yields the same downstream performance as standard SC pre-training, while enabling a 50% reduction in pre-training iterations and 40% reduction in total FLOPs. Alternatively, given the same amount of computing budget, we find that SpacTor results in significantly improved downstream benchmark performance.
翻訳日:2024-01-25 15:54:43 公開日:2024-01-24
# 多次元パーシステンスを持つ動的物体の時間的知識表現

Time-Aware Knowledge Representations of Dynamic Objects with Multidimensional Persistence ( http://arxiv.org/abs/2401.13157v1 )

ライセンス: Link先を確認
Baris Coskunuzer, Ignacio Segovia-Dominguez, Yuzhou Chen and Yulia R. Gel(参考訳) 多変量時系列や動的ネットワークなどの時間進化オブジェクトを学習するには、データに含まれる暗黙の時間依存情報をキャプチャできる新しい知識表現機構とニューラルネットワークアーキテクチャの開発が必要である。 このような情報は直接観測されるのではなく、学習タスクのパフォーマンスにおいて重要な役割を果たす。 逆に、時間依存データのための知識符号化機構における時間次元の欠如は、頻繁なモデル更新、学習性能の低下、そして結果として決定を下す。 本稿では,複数の幾何学的次元に沿った暗黙的な時間依存トポロジ情報に焦点を当てた時間認識型知識表現機構を提案する。 特に,既存の単一パラメータートポロジー要約を用いて多次元の位相的指紋を生成する新しい手法, \textit{temporal multipersistence} (tmp)を提案する。 TMPの背後にある主な考え方は、トポロジカル表現学習における2つの新しい方向、すなわち、複数のキーパラメータに沿ってデータ形状の進化を同時に記述するマルチパーシステンスと、ジグザグ永続性を組み合わせることで、時間とともに最も健全なデータ形状情報を抽出できるようにすることである。 我々は,TMPベクトル化の理論的保証を導き,その有用性を示し,ベンチマークトラフィックフロー,Ethereumブロックチェーン,心電図データセットの予測に適用し,特に限られたデータレコードのシナリオにおける競合性能を示す。 さらに,TMP法は,最先端マルチパーシスタンスサマリーの計算効率を59.5倍に向上させる。

Learning time-evolving objects such as multivariate time series and dynamic networks requires the development of novel knowledge representation mechanisms and neural network architectures, which allow for capturing implicit time-dependent information contained in the data. Such information is typically not directly observed but plays a key role in the learning task performance. In turn, lack of time dimension in knowledge encoding mechanisms for time-dependent data leads to frequent model updates, poor learning performance, and, as a result, subpar decision-making. Here we propose a new approach to a time-aware knowledge representation mechanism that notably focuses on implicit time-dependent topological information along multiple geometric dimensions. In particular, we propose a new approach, named \textit{Temporal MultiPersistence} (TMP), which produces multidimensional topological fingerprints of the data by using the existing single parameter topological summaries. The main idea behind TMP is to merge the two newest directions in topological representation learning, that is, multi-persistence which simultaneously describes data shape evolution along multiple key parameters, and zigzag persistence to enable us to extract the most salient data shape information over time. We derive theoretical guarantees of TMP vectorizations and show its utility, in application to forecasting on benchmark traffic flow, Ethereum blockchain, and electrocardiogram datasets, demonstrating the competitive performance, especially, in scenarios of limited data records. In addition, our TMP method improves the computational efficiency of the state-of-the-art multipersistence summaries up to 59.5 times.
翻訳日:2024-01-25 15:54:21 公開日:2024-01-24
# パラメタライズド量子回路の局所ハミルトン分解と古典シミュレーション

Local Hamiltonian decomposition and classical simulation of parametrized quantum circuits ( http://arxiv.org/abs/2401.13156v1 )

ライセンス: Link先を確認
Bibhas Adhikari, Aryan Jha(参考訳) 本稿では,量子回路(PQC)を$n$量子ビットでシミュレートするために,O(2^n)$の古典的複雑性アルゴリズムを開発する。 このアルゴリズムは、$n$-qubitシステムにおいて、任意のシングルキュービットと2キュービットの制御ゲートに明示的に対応して、2^n$のスパースユニタリ行列を求めることによって開発される。 最後に、そのようなゲートに対するハミルトニアンの解析的表現を決定し、従って任意のPQCの局所ハミルトニアン分解が得られる。 全ての結果は数値シミュレーションで検証される。

In this paper we develop a classical algorithm of complexity $O(2^n)$ to simulate parametrized quantum circuits (PQCs) of $n$ qubits. The algorithm is developed by finding $2$-sparse unitary matrices of order $2^n$ explicitly corresponding to any single-qubit and two-qubit control gates in an $n$-qubit system. Finally, we determine analytical expression of Hamiltonians for any such gate and consequently a local Hamiltonian decomposition of any PQC is obtained. All results are validated with numerical simulations.
翻訳日:2024-01-25 15:53:52 公開日:2024-01-24
# 原子ナトリウム中のマイクロ波遷移:ナトリウム層を用いたラジオメトリーと偏光度測定

Microwave transitions in atomic sodium: Radiometry and polarimetry using the sodium layer ( http://arxiv.org/abs/2401.13155v1 )

ライセンス: Link先を確認
Mariusz Pawlak, Eve L. Schoen, Justin E. Albert, H. R. Sadeghpour(参考訳) 変分法、単光子および2光子リドバーグマイクロ波遷移、およびスピン軌道結合を含むパラメトリック1電子価ポテンシャルを用いてナトリウム原子のスカラーおよびテンソル偏極率を計算する。 試行関数は最適化されたスレーター型軌道の基本セットで拡張され、精度が高く収束した固有エネルギーは最大で$n=60$となる。 宇宙マイクロ波背景からの光子の異方性偏光パターン内の原始重力波のシグネチャの探索において、このバンドの精密マイクロ波偏光度は、重要な系統的不確実性の源であり、地球上層大気ナトリウム層におけるレーザー励起の波長依存性と偏光度との関係から、マイクロ波帯90-150GHzの研究に焦点をあてる。 この範囲で最も効率的な遷移係数とスカラーとテンソルの分極率を実験データや理論データと比較した。

We calculate, via variational techniques, single- and two-photon Rydberg microwave transitions, as well as scalar and tensor polarizabilities of sodium atom using the parametric one-electron valence potential, including the spin-orbit coupling. The trial function is expanded in a basis set of optimized Slater-type orbitals, resulting in highly accurate and converged eigen-energies up to $n=60$. We focus our studies on the microwave band 90-150 GHz, due to its relevance to laser excitation in the Earth's upper-atmospheric sodium layer for wavelength-dependent radiometry and polarimetry, as precise microwave polarimetry in this band is an important source of systematic uncertainty in searches for signatures of primordial gravitational waves within the anisotropic polarization pattern of photons from the cosmic microwave background. We present the most efficient transition coefficients in this range, as well as the scalar and tensor polarizabilities compared with available experimental and theoretical data.
翻訳日:2024-01-25 15:53:40 公開日:2024-01-24
# 拡張グラフ学習のためのトポロジーアウェア埋め込みメモリ

Topology-aware Embedding Memory for Learning on Expanding Graphs ( http://arxiv.org/abs/2401.13200v1 )

ライセンス: Link先を確認
Xikun Zhang, Dongjin Song, Yixin Chen, Dacheng Tao(参考訳) メモリリプレイに基づく手法は、漸進的に蓄積されたユークリッドデータを用いた連続学習において大きな成功を収めている。 しかし、グラフの継続的な拡張に直接適用することで、代表ノードとその関連する位相近傍構造をバッファリングする必要があるため、潜在的なメモリ爆発問題が発生する。 この目的のために,メモリ爆発問題における重要な課題を体系的に分析し,この問題を解決するため,パラメータ分離グラフニューラルネットワーク(PDGNN)とトポロジ対応埋め込みメモリ(TEM)を併用した一般的なフレームワークを提案する。 提案されたフレームワークは、メモリ空間の複雑さを$\mathcal{O}(nd^L)$から$\mathcal{O}(n)$~\footnote{$n$:Memory budget, $d$: average node degree, $L$: the radius of the GNN receptive field} に還元するだけでなく、メモリ再生のためのトポロジ情報を完全に活用する。 具体的には、pdgnnは、ego-subgraphをコンパクトベクター(すなわちtes)に圧縮し、メモリ消費を減らす \textit{topology-aware embeddeds} (tes) によって、学習可能なパラメータを計算用ego-subgraphから切り離す。 この枠組みに基づいて,拡張グラフに対する連続学習におけるユニークな \textit{pseudo-training effect} を発見し,この効果は,厳密なメモリ予算で性能を向上させる新しい \textit{coverage maximization sample} 戦略を開発する動機となる。 メモリ爆発問題に対処し、トポロジカル情報をメモリリプレイに組み込むことで、TEMを用いたPDGNNは、特に挑戦的なクラスインクリメンタルセッティングにおいて、最先端技術よりも著しく優れていることを示した。

Memory replay based techniques have shown great success for continual learning with incrementally accumulated Euclidean data. Directly applying them to continually expanding graphs, however, leads to the potential memory explosion problem due to the need to buffer representative nodes and their associated topological neighborhood structures. To this end, we systematically analyze the key challenges in the memory explosion problem, and present a general framework, i.e., Parameter Decoupled Graph Neural Networks (PDGNNs) with Topology-aware Embedding Memory (TEM), to tackle this issue. The proposed framework not only reduces the memory space complexity from $\mathcal{O}(nd^L)$ to $\mathcal{O}(n)$~\footnote{$n$: memory budget, $d$: average node degree, $L$: the radius of the GNN receptive field}, but also fully utilizes the topological information for memory replay. Specifically, PDGNNs decouple trainable parameters from the computation ego-subgraph via \textit{Topology-aware Embeddings} (TEs), which compress ego-subgraphs into compact vectors (i.e., TEs) to reduce the memory consumption. Based on this framework, we discover a unique \textit{pseudo-training effect} in continual learning on expanding graphs and this effect motivates us to develop a novel \textit{coverage maximization sampling} strategy that can enhance the performance with a tight memory budget. Thorough empirical studies demonstrate that, by tackling the memory explosion problem and incorporating topological information into memory replay, PDGNNs with TEM significantly outperform state-of-the-art techniques, especially in the challenging class-incremental setting.
翻訳日:2024-01-25 15:44:25 公開日:2024-01-24
# メールのフィッシングで人々がまだ倒れている理由: メールの反応の決定方法に関する実証調査

Why People Still Fall for Phishing Emails: An Empirical Investigation into How Users Make Email Response Decisions ( http://arxiv.org/abs/2401.13199v1 )

ライセンス: Link先を確認
Asangi Jayatilaka, Nalin Asanka Gamagedara Arachchilage, Muhammad Ali Babar(参考訳) 技術的および非技術的対策にもかかわらず、人間はフィッシングメールによって騙され続けている。 ユーザーがメールの応答を判断する方法は、フィッシングメールの理由を特定するためのパズルの欠落部分だ。 メールを読みながら「応答決定」を行う方法を検討するために,シンクアルード法を用いて経験的研究を行った。 詳細な質的データに関する基礎的な理論分析により,メール応答決定に影響を及ぼすメールユーザの意思決定のさまざまな要素を特定できるようになった。 さらに,利用者のメール意思決定過程の特定要素と,そのデータから明らかになった関係に基づいて,利用者がどのようにメールに応答するかを説明する理論的モデルを開発した。 この結果は、人々のメール応答決定行動によるフィッシングメールの感受性に関する深い洞察を与える。 また, フィッシングトレーニング, 教育, 意識介入に携わるデザイナや研究者に対する知見の意義についても論じる。

Despite technical and non-technical countermeasures, humans continue to be tricked by phishing emails. How users make email response decisions is a missing piece in the puzzle to identifying why people still fall for phishing emails. We conducted an empirical study using a think-aloud method to investigate how people make 'response decisions' while reading emails. The grounded theory analysis of the in-depth qualitative data has enabled us to identify different elements of email users' decision-making that influence their email response decisions. Furthermore, we developed a theoretical model that explains how people could be driven to respond to emails based on the identified elements of users' email decision-making processes and the relationships uncovered from the data. The findings provide deeper insights into phishing email susceptibility due to people's email response decision-making behavior. We also discuss the implications of our findings for designers and researchers working in anti-phishing training, education, and awareness interventions
翻訳日:2024-01-25 15:43:45 公開日:2024-01-24
# 機械学習とディープラーニング技術を用いた僧帽弁mTEER手術成績予測

Predicting Mitral Valve mTEER Surgery Outcomes Using Machine Learning and Deep Learning Techniques ( http://arxiv.org/abs/2401.13197v1 )

ライセンス: Link先を確認
Tejas Vyas, Mohsena Chowdhury, Xiaojiao Xiao, Mathias Claeys, G\'eraldine Ong, Guanghui Wang(参考訳) mitral transcatheter edge-to-edge repair (mteer) は僧帽弁疾患の治療に用いられる医療処置である。 しかし、手順の結果を予測することは大きな課題となる。 本稿では,古典的機械学習(ML)と深部学習(DL)技術を用いて僧帽弁閉鎖不全症の手術結果を予測する試みを行う。 心エコー画像と経食道心エコー検査(TEE)を併用し,僧帽弁修復術(MVR)の成績を詳述した467例のデータセットを収集した。 このデータセットを利用して、6つのMLアルゴリズムと2つのDLモデルのベンチマーク評価を行った。 この結果から,mTEER手術の予後予測におけるMLとDLの可能性が示唆され,今後の研究や領域の進展が示唆された。

Mitral Transcatheter Edge-to-Edge Repair (mTEER) is a medical procedure utilized for the treatment of mitral valve disorders. However, predicting the outcome of the procedure poses a significant challenge. This paper makes the first attempt to harness classical machine learning (ML) and deep learning (DL) techniques for predicting mitral valve mTEER surgery outcomes. To achieve this, we compiled a dataset from 467 patients, encompassing labeled echocardiogram videos and patient reports containing Transesophageal Echocardiography (TEE) measurements detailing Mitral Valve Repair (MVR) treatment outcomes. Leveraging this dataset, we conducted a benchmark evaluation of six ML algorithms and two DL models. The results underscore the potential of ML and DL in predicting mTEER surgery outcomes, providing insight for future investigation and advancements in this domain.
翻訳日:2024-01-25 15:43:29 公開日:2024-01-24
# キャッチアップミックス:CNNでフィルタをスラグするためのキャッチアップクラス

Catch-Up Mix: Catch-Up Class for Struggling Filters in CNN ( http://arxiv.org/abs/2401.13193v1 )

ライセンス: Link先を確認
Minsoo Kang, Minkoo Kang, Suhyun Kim(参考訳) ディープラーニングはコンピュータビジョン、特に画像分類タスクにおいて大きな進歩を遂げている。 トレーニングデータの精度は高いが、ディープラーニングモデルは複雑さと過剰適合に関する課題に直面することが多い。 注目すべき懸念の1つは、モデルが予測を行うためのフィルターの限られたサブセットに大きく依存していることである。 この依存関係は、妥協された一般化と小さなバリエーションに対する脆弱性の増加をもたらす可能性がある。 重みの減衰、ドロップアウト、データ拡張といった正規化技術は、この問題に対処するために一般的に用いられるが、特定のフィルターに依存しない可能性がある。 その結果,低速学習フィルタが高速学習フィルタによって学習機会を奪われると,重回帰問題は深刻になることがわかった。 画像部分の除去・置換によって特定の画像領域への過度な依存に対処できる画像拡張研究からインスピレーションを得て,高活性化された特徴を置換することにより,強いフィルタへの過度な依存の問題を緩和する。 そこで本研究では,学習中の幅広いフィルタに学習機会を提供し,遅れる可能性のあるフィルタに着目した,キャッチアップ・ミックスという新しい手法を提案する。 アクティベーションマップを比較的低い基準で混合することで、キャッチアップミックスはより多様な表現の開発を促進し、フィルターの小さなサブセットへの依存を減らす。 種々の視覚分類データセットにおいて,本手法が優れていることを示す実験結果が得られた。

Deep learning has made significant advances in computer vision, particularly in image classification tasks. Despite their high accuracy on training data, deep learning models often face challenges related to complexity and overfitting. One notable concern is that the model often relies heavily on a limited subset of filters for making predictions. This dependency can result in compromised generalization and an increased vulnerability to minor variations. While regularization techniques like weight decay, dropout, and data augmentation are commonly used to address this issue, they may not directly tackle the reliance on specific filters. Our observations reveal that the heavy reliance problem gets severe when slow-learning filters are deprived of learning opportunities due to fast-learning filters. Drawing inspiration from image augmentation research that combats over-reliance on specific image regions by removing and replacing parts of images, our idea is to mitigate the problem of over-reliance on strong filters by substituting highly activated features. To this end, we present a novel method called Catch-up Mix, which provides learning opportunities to a wide range of filters during training, focusing on filters that may lag behind. By mixing activation maps with relatively lower norms, Catch-up Mix promotes the development of more diverse representations and reduces reliance on a small subset of filters. Experimental results demonstrate the superiority of our method in various vision classification datasets, providing enhanced robustness.
翻訳日:2024-01-25 15:43:14 公開日:2024-01-24
# 点雲表現と拡散モデルによる結晶構造生成設計

Generative Design of Crystal Structures by Point Cloud Representations and Diffusion Model ( http://arxiv.org/abs/2401.13192v1 )

ライセンス: Link先を確認
Zhelin Li, Rami Mrad, Runxian Jiao, Guan Huang, Jun Shan, Shibing Chu and Yuanping Chen(参考訳) エネルギー的に安定な結晶構造を効果的に生成することは、主に結晶格子内の原子の配置によって、材料設計において長年の課題であった。 安定な物質の発見を容易にするために, 点雲表現を利用して複雑な構造情報を符号化し, 合成可能な材料を生成する枠組みを提案する。 この枠組みの核心は、基本的な柱として拡散モデルを導入することである。 提案手法の有効性を評価するため,トレーニングデータセットから入力構造を再構築し,高い復元性能を厳格に検証した。 さらに,全く新しい物質を生成し,その合成性を強調することにより,ポイントクラウドベースの結晶拡散(PCCD)の可能性を示す。 本研究は, 従来の代替や経験に基づく発見ではなく, 創発的設計の最先端の道を通して, 材料設計と合成の進歩に注目すべき貢献である。

Efficiently generating energetically stable crystal structures has long been a challenge in material design, primarily due to the immense arrangement of atoms in a crystal lattice. To facilitate the discovery of stable material, we present a framework for the generation of synthesizable materials, leveraging a point cloud representation to encode intricate structural information. At the heart of this framework lies the introduction of a diffusion model as its foundational pillar. To gauge the efficacy of our approach, we employ it to reconstruct input structures from our training datasets, rigorously validating its high reconstruction performance. Furthermore, we demonstrate the profound potential of Point Cloud-Based Crystal Diffusion (PCCD) by generating entirely new materials, emphasizing their synthesizability. Our research stands as a noteworthy contribution to the advancement of materials design and synthesis through the cutting-edge avenue of generative design instead of the conventional substitution or experience-based discovery.
翻訳日:2024-01-25 15:42:50 公開日:2024-01-24
# 拡散モデルからの合成データを用いた多領域顔ランドマーク検出に向けて

Towards Multi-domain Face Landmark Detection with Synthetic Data from Diffusion model ( http://arxiv.org/abs/2401.13191v1 )

ライセンス: Link先を確認
Yuanming Li, Gwantae Kim, Jeong-gi Kwak, Bon-hwa Ku, Hanseok Ko(参考訳) 近年,深層学習による顔の顔のランドマーク検出が大幅に改善されている。 しかし、他の領域(例えば、漫画、似顔絵など)では、顔のランドマーク検出にはまだ課題がある。 これは、広範囲に注釈付きトレーニングデータが不足しているためである。 この問題に対処するために,我々は,限られたデータセットと事前学習された拡散モデルを有効に活用して,複数の領域におけるランドマークと顔のアライメントペアを得る2段階のトレーニング手法を設計した。 最初の段階では、実顔の大きなデータセット上でランドマーク条件付き顔生成モデルを訓練する。 第2段階では、画像とランドマークのペアの小さなデータセット上に、ドメインを制御するためのテキストプロンプトを微調整する。 提案手法は,ランドマークと顔特徴の整合を維持しつつ,複数の領域から高品質な合成ペアデータセットを生成することができる。 最後に,学習済みの顔ランドマーク検出モデルを合成データセット上に微調整し,多領域顔ランドマーク検出を実現する。 定性的かつ定量的な結果は,マルチドメイン顔ランドマーク検出における既存手法よりも優れていることを示す。

Recently, deep learning-based facial landmark detection for in-the-wild faces has achieved significant improvement. However, there are still challenges in face landmark detection in other domains (e.g. cartoon, caricature, etc). This is due to the scarcity of extensively annotated training data. To tackle this concern, we design a two-stage training approach that effectively leverages limited datasets and the pre-trained diffusion model to obtain aligned pairs of landmarks and face in multiple domains. In the first stage, we train a landmark-conditioned face generation model on a large dataset of real faces. In the second stage, we fine-tune the above model on a small dataset of image-landmark pairs with text prompts for controlling the domain. Our new designs enable our method to generate high-quality synthetic paired datasets from multiple domains while preserving the alignment between landmarks and facial features. Finally, we fine-tuned a pre-trained face landmark detection model on the synthetic dataset to achieve multi-domain face landmark detection. Our qualitative and quantitative results demonstrate that our method outperforms existing methods on multi-domain face landmark detection.
翻訳日:2024-01-25 15:42:37 公開日:2024-01-24
# クロスバリデーションのショートカット: カラムワイズ中心およびスケールドトレーニングを効果的に導出する $\mathbf{X}^\mathbf{T}\mathbf{X}$および$\mathbf{X}^\mathbf{T}\mathbf{Y}$

Shortcutting Cross-Validation: Efficiently Deriving Column-Wise Centered and Scaled Training Set $\mathbf{X}^\mathbf{T}\mathbf{X}$ and $\mathbf{X}^\mathbf{T}\mathbf{Y}$ Without Full Recomputation of Matrix Products or Statistical Moments ( http://arxiv.org/abs/2401.13185v1 )

ライセンス: Link先を確認
Ole-Christian Galbo Engstr{\o}m(参考訳) クロスバリデーションは、目に見えないデータに基づいて予測モデルの性能を評価するために広く用いられている手法である。 Kernel-Based partial Least-Squares (PLS) モデルのような多くの予測モデルは、入力および出力行列からのトレーニングセットのみを使用し、$\mathbf{X}^{\mathbf{T}}\mathbf{X}$と$\mathbf{X}^{\mathbf{T}}\mathbf{Y}$の計算を必要とする。 本研究では,これらの行列を効率的に計算する3つのアルゴリズムを提案する。 最初のものはカラム単位でのプリプロセッシングを許可しない。 第2の方法は、トレーニングセット手段を中心に列方向にセンタリングすることを可能にする。 第3の方法は、トレーニングセット手段と標準偏差に関するカラムワイドの集中と列ワイドのスケーリングを可能にする。 正確性と優れた計算複雑性を実証し、ストレートフォワードのクロスバリデーションと、高速なクロスバリデーションに関する以前の作業と比較して、大きなクロスバリデーションスピードアップを提供する。 並列化への適合性は、我々のアルゴリズムと改良Kernel PLSを組み合わせたオープンソースのPython実装で強調されている。

Cross-validation is a widely used technique for assessing the performance of predictive models on unseen data. Many predictive models, such as Kernel-Based Partial Least-Squares (PLS) models, require the computation of $\mathbf{X}^{\mathbf{T}}\mathbf{X}$ and $\mathbf{X}^{\mathbf{T}}\mathbf{Y}$ using only training set samples from the input and output matrices, $\mathbf{X}$ and $\mathbf{Y}$, respectively. In this work, we present three algorithms that efficiently compute these matrices. The first one allows no column-wise preprocessing. The second one allows column-wise centering around the training set means. The third one allows column-wise centering and column-wise scaling around the training set means and standard deviations. Demonstrating correctness and superior computational complexity, they offer significant cross-validation speedup compared with straight-forward cross-validation and previous work on fast cross-validation - all without data leakage. Their suitability for parallelization is highlighted with an open-source Python implementation combining our algorithms with Improved Kernel PLS.
翻訳日:2024-01-25 15:42:20 公開日:2024-01-24
# 乱れたポラリトンから正確な光マッターカップリングを抽出する

Extracting accurate light-matter couplings from disordered polaritons ( http://arxiv.org/abs/2401.13184v1 )

ライセンス: Link先を確認
Kai Schwennicke, Noel C. Giebink, and Joel Yuen-Zhou(参考訳) 分子偏光子における真空ラビ分裂(VRS)は、集合的な光-物質結合の基本的な尺度である。 その重要性にもかかわらず、分子障害がVRSに与える影響は、まだ完全には理解されていない。 この研究は、様々な分布と障害の度合いの中で、VRSの複雑さを掘り下げるものである。 本研究では,線形吸収,透過,反射スペクトルの精密な解析式とsum規則を提供し,実験データから正確な集合光・物質結合値を抽出するための簡易なプロトコルを提供する。 本研究は,大容量VRSを超強結合状態の開始に直接翻訳することを注意する。 さらに, 長方形障害では, 広い中心峰に沿って細い側帯が出現するのを目撃し, 実質的な障害があっても, コヒーレンス寿命が長くなることを示した。 これらの知見は、障害分子系におけるVRSの理解を深めるだけでなく、集団結合と障害の相互作用を通じて、空洞と分子間の長いコヒーレンス寿命を達成するための道を開いた。

The vacuum Rabi splitting (VRS) in molecular polaritons stands as a fundamental measure of collective light-matter coupling. Despite its significance, the impact of molecular disorder on VRS is not fully understood yet. This study delves into the complexities of VRS amidst various distributions and degrees of disorder. Our analysis provides precise analytical expressions for linear absorption, transmission, and reflection spectra, along with a "sum" rule, offering a straightforward protocol for extracting accurate collective light-matter coupling values from experimental data. Importantly, our study cautions against directly translating large VRS to the onset of ultrastrong coupling regime. Furthermore, for rectangular disorder, we witness the emergence of narrow side bands alongside a broad central peak, indicating an extended coherence lifetime even in the presence of substantial disorder. These findings not only enhance our understanding of VRS in disordered molecular systems but also open avenues for achieving prolonged coherence lifetimes between the cavity and molecules via the interplay of collective coupling and disorder.
翻訳日:2024-01-25 15:41:42 公開日:2024-01-24
# AgentBoard:マルチターンLDMエージェントの分析評価ボード

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents ( http://arxiv.org/abs/2401.13178v1 )

ライセンス: Link先を確認
Chang Ma, Junlei Zhang, Zhihao Zhu, Cheng Yang, Yujiu Yang, Yaohui Jin, Zhenzhong Lan, Lingpeng Kong, Junxian He(参考訳) 大きな言語モデル(LLM)を汎用エージェントとして評価することは、それらの能力を理解し、実用アプリケーションへの統合を促進するために不可欠である。 しかし、評価プロセスには大きな課題がある。 主な障害は、統合フレームワーク内のさまざまなシナリオ、特に部分的に観測可能な環境の維持とマルチラウンドインタラクションの確保において、エージェントのパフォーマンスのベンチマークである。 さらに、現在の評価フレームワークは主に最終成功率に重点を置いており、プロセス中の洞察がほとんどなく、モデル能力の深い理解が得られていない。 これらの課題に対処するために,我々は,LLMエージェントの分析的評価に適したオープンソースの評価フレームワークであるAgentBoardを紹介した。 AgentBoardは、インクリメンタルな進歩を捉えた詳細な進捗率測定と、インタラクティブな可視化による多面的分析のためのエージェントの評価を簡単に行う包括的な評価ツールキットを提供する。 これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。 最終的に、AgentBoardは、エージェントの振る舞いを減弱し、強力なLDMエージェントの開発を加速する重要なステップとなる。

Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
翻訳日:2024-01-25 15:41:23 公開日:2024-01-24
# HuggingFaceコミュニティにおけるディープラーニングモデルの再利用 - チャレンジ,ベネフィット,トレンド

Deep Learning Model Reuse in the HuggingFace Community: Challenges, Benefit and Trends ( http://arxiv.org/abs/2401.13177v1 )

ライセンス: Link先を確認
Mina Taraghi, Gianolli Dorcelus, Armstrong Foundjem, Florian Tambon, Foutse Khomh(参考訳) 大規模な事前学習モデル(PTM)の普及は、モデルハブへの関心を喚起し、PTMをホストする専用のプラットフォームも生まれている。 この傾向にもかかわらず、ユーザが直面する課題とコミュニティのPTM活用方法に関する包括的な調査は、まだ不十分である。 このギャップに対処するため,我々は,公開モデルハブであるHugingFaceのディスカッションフォーラムとモデルハブに焦点をあてて,多種多様な実験を行った。 質的な分析に基づいて,PTMの再利用に伴う課題とメリットの分類をコミュニティ内で提示する。 次に,モデル型トレンドとモデルドキュメントの進化を追跡する定量的研究を行った。 本研究は,初心者向けガイダンスの制限,モデルアウトプット理解のトレーニングや推論の難しさ,モデル理解の欠如など,一般的な課題を浮き彫りにしている。 また、関連するトピックの減少にもかかわらず、高いアップロード率を維持するモデルで興味深い傾向を見出した。 さらに,モデルドキュメンテーションツールの導入にもかかわらず,その量は時間とともに増加せず,モデル理解やユーザの選択に困難が伴うことがわかった。 本研究は,これまで報告されていない PTM の再利用における新たな課題と,PTM の再利用に関わる様々な利害関係者に対する推奨事項を明らかにした。

The ubiquity of large-scale Pre-Trained Models (PTMs) is on the rise, sparking interest in model hubs, and dedicated platforms for hosting PTMs. Despite this trend, a comprehensive exploration of the challenges that users encounter and how the community leverages PTMs remains lacking. To address this gap, we conducted an extensive mixed-methods empirical study by focusing on discussion forums and the model hub of HuggingFace, the largest public model hub. Based on our qualitative analysis, we present a taxonomy of the challenges and benefits associated with PTM reuse within this community. We then conduct a quantitative study to track model-type trends and model documentation evolution over time. Our findings highlight prevalent challenges such as limited guidance for beginner users, struggles with model output comprehensibility in training or inference, and a lack of model understanding. We also identified interesting trends among models where some models maintain high upload rates despite a decline in topics related to them. Additionally, we found that despite the introduction of model documentation tools, its quantity has not increased over time, leading to difficulties in model comprehension and selection among users. Our study sheds light on new challenges in reusing PTMs that were not reported before and we provide recommendations for various stakeholders involved in PTM reuse.
翻訳日:2024-01-25 15:41:03 公開日:2024-01-24
# 多重散乱2光子状態におけるコヒーレント2光子バック散乱と誘起角量子相関

Coherent Two-photon Backscattering and Induced Angular Quantum Correlations in Multiple-Scattered Two-Photon States of the Light ( http://arxiv.org/abs/2401.13176v1 )

ライセンス: Link先を確認
Nooshin M. Estakhri, Theodore B. Norris(参考訳) 本稿では,最大エンタングルドおよび完全混合2光子状態の多重散乱における弱局在の出現であるコヒーレント2光子後方散乱の出現と,エンタングルメントと古典的相関の影響について検討する。 後方散乱における量子相関は, 弱局在状態の有限次元乱れ構造と, 空間配置が指定された少数の散乱器の系について検討した。 散乱行列要素の統計的挙動については仮定されていない。 さらに,多重散乱によって引き起こされる量子相関と照明場に存在する相関との相互作用と,それらが出力モードにどのように現れるかについて検討した。 本研究は、エンタングルメントの次元と共同測定可能な光子対の角分布がエンタングルメントの出現と角量子相関に及ぼす影響について検討し、量子相関がエンタングルメント次元のプローブとしてどのように用いられるかを示す。 乱れ物質密度を増大させることにより, 構造内における平均自由経路長の減少に応じて, コヒーレントな2光子後方散乱円錐の幅が増加することを示す。

We present the emergence of coherent two-photon backscattering, a manifestation of weak localization, in multiple scattering of maximally entangled pure and fully mixed two-photon states and examine the effect of entanglement and classical correlations. Quantum correlations in backscattering are investigated for finite three-dimensional disordered structures in the weak localization regime as well as systems of a small number of scatterers with specified spatial arrangements. No assumptions are made on the statistical behavior of the scattering matrix elements. Furthermore, we study the interplay between quantum correlations induced by multiple scattering and the correlations that may be present in the illumination fields, and how they are manifested in the output modes. We study the effect of the dimensionality of the entanglement and the angular distribution of the jointly measurable photon pairs on the emergence of enhancement and angular quantum correlations and show how quantum correlations can be used as a probe of the entanglement dimensionality. We show that by increasing the disordered material density, the width of the coherent two-photon backscattering cones increases, in accordance with the reduction of the mean free path length within the structure.
翻訳日:2024-01-25 15:40:40 公開日:2024-01-24
# セマンティックセグメンテーションにおける境界と関係蒸留

Boundary and Relation Distillation for Semantic Segmentation ( http://arxiv.org/abs/2401.13174v1 )

ライセンス: Link先を確認
Dong Zhang, Pingcheng Dong, Xinting Hu, Long Chen, Kwang-Ting Cheng(参考訳) 近年,スモールセマンティクスセグメンテーション(ss)モデルでは,主対象領域の効果的なセグメンテーションにもかかわらず,境界領域の完全性維持や対象領域の接続性維持に誤りが生じる傾向が明らかにされている。 これらの誤りに対処するために,大規模教師モデルから小学生モデルへの知識蒸留を用いた境界・関係蒸留(BRD)戦略を提案する。 具体的には、境界蒸留はバックボーンネットワークの階層的特徴マップから明示的なオブジェクト境界を抽出し、その後、境界領域における学生モデルのマスク品質を向上させる。 同時に, 教師モデルから学生モデルへの暗黙の関係を, 画素レベルの自己関係をブリッジとして伝達し, 生徒のマスクが強い目標領域接続性を持つことを保証する。 提案するbrdはss用に設計され,単純さと効率性が特徴である。 筆者らは,Pascal VOC 2012,Cityscapes,ADE20K,COCO-Stuff 10Kを含む複数のSSデータセットの実験的評価により,BRDが推定コストを増大させることなく現在の手法を大幅に上回ることを示した。

Recently, it has been revealed that small semantic segmentation (SS) models exhibit a tendency to make errors in maintaining boundary region completeness and preserving target region connectivity, despite their effective segmentation of the main object regions. To address these errors, we propose a targeted boundary and relation distillation (BRD) strategy using knowledge distillation from large teacher models to small student models. Specifically, the boundary distillation extracts explicit object boundaries from the hierarchical feature maps of the backbone network, subsequently enhancing the student model's mask quality in boundary regions. Concurrently, the relation distillation transfers implicit relations from the teacher model to the student model using pixel-level self-relation as a bridge, ensuring that the student's mask has strong target region connectivity. The proposed BRD is designed concretely for SS and is characterized by simplicity and efficiency. Through experimental evaluations on multiple SS datasets, including Pascal VOC 2012, Cityscapes, ADE20K, and COCO-Stuff 10K, we demonstrated that BRD significantly surpasses the current methods without increasing the inference costs, generating crisp region boundaries and smooth connecting regions that are challenging for small models.
翻訳日:2024-01-25 15:40:18 公開日:2024-01-24
# admap:オンラインベクトル化hdマップを再構築する反disturbanceフレームワーク

ADMap: Anti-disturbance framework for reconstructing online vectorized HD map ( http://arxiv.org/abs/2401.13172v1 )

ライセンス: Link先を確認
Haotian Hu, Fanyi Wang, Yaonong Wang, Laifeng Hu, Jingwei Xu, Zhiwang Zhang(参考訳) 自動運転の分野では、オンラインハイデフィニション(HD)マップの再構築は計画作業に不可欠である。 最近の研究は、このニーズを満たすために、いくつかの高性能HDマップ再構成モデルを開発した。 しかし、インスタンスベクトル内の点列は予測バイアスによってジッタリあるいはジャグリングされ、その後のタスクに影響を及ぼす可能性がある。 そこで本稿では,admap (anti-disturbance map reconstruction framework) を提案する。 点次ジッターを緩和するため、このフレームワークは、マルチスケール知覚ネック、インスタンスインタラクティブアテンション(IIA)、ベクトル方向差損失(VDDL)の3つのモジュールで構成される。 カスケード方式でインスタンス内およびインスタンス内の点次関係を探索することにより、モデルがより効果的に点次予測プロセスを監視することができる。 ADMapはnuScenesとArgoverse2データセットで最先端のパフォーマンスを実現する。 広範な結果は、複雑で変化する駆動シナリオにおいて、安定かつ信頼性の高いマップ要素を生成する能力を示している。 コードとデモはhttps://github.com/hht1996ok/admap.comから入手できる。

In the field of autonomous driving, online high-definition (HD) map reconstruction is crucial for planning tasks. Recent research has developed several high-performance HD map reconstruction models to meet this necessity. However, the point sequences within the instance vectors may be jittery or jagged due to prediction bias, which can impact subsequent tasks. Therefore, this paper proposes the Anti-disturbance Map reconstruction framework (ADMap). To mitigate point-order jitter, the framework consists of three modules: Multi-Scale Perception Neck, Instance Interactive Attention (IIA), and Vector Direction Difference Loss (VDDL). By exploring the point-order relationships between and within instances in a cascading manner, the model can monitor the point-order prediction process more effectively. ADMap achieves state-of-the-art performance on the nuScenes and Argoverse2 datasets. Extensive results demonstrate its ability to produce stable and reliable map elements in complex and changing driving scenarios. Code and more demos are available at https://github.com/hht1996ok/ADMap.
翻訳日:2024-01-25 15:39:55 公開日:2024-01-24
# 合成生成逆設計

Compositional Generative Inverse Design ( http://arxiv.org/abs/2401.13171v1 )

ライセンス: Link先を確認
Tailin Wu, Takashi Maruyama, Long Wei, Tao Zhang, Yilun Du, Gianluca Iaccarino, Jure Leskovec(参考訳) 目的関数を最適化するために入力変数を設計しようとする逆設計は、機械工学や航空宇宙工学といった分野にまたがる重要な問題である。 逆設計は典型的には最適化問題として定式化され、最近の研究は学習されたダイナミクスモデル間の最適化を利用している。 しかし、モデルが最適化されているため、敵モードに陥り、効果的なサンプリングを防ぐ傾向にある。 拡散モデルによってキャプチャされた学習エネルギー関数を最適化することで、そのような逆の例を避け、設計性能を大幅に改善できることを示す。 さらに、そのような設計システムが構成的であるため、所望のシステムのサブコンポーネントを表す複数の異なる拡散モデルを組み合わせることで、システムの設計を特定のコンポーネントすべてと組み合わせることができる。 n体インタラクションタスクと挑戦的な2次元多翼設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,トレーニングデータよりも複雑な初期状態と境界形状を設計できることを実証する。 本手法は,n体データセットの予測目標の41.5%,設計目標の14.3%において,最先端のニューラルネットワーク逆設計法を上回り,多翼設計タスクのドラッグを最小化するために形成飛行を発見する。 プロジェクトのWebサイトとコードはhttps://github.com/AI4Science-WestlakeU/cindm.comにある。

Inverse design, where we seek to design input variables in order to optimize an underlying objective function, is an important problem that arises across fields such as mechanical engineering to aerospace engineering. Inverse design is typically formulated as an optimization problem, with recent works leveraging optimization across learned dynamics models. However, as models are optimized they tend to fall into adversarial modes, preventing effective sampling. We illustrate that by instead optimizing over the learned energy function captured by the diffusion model, we can avoid such adversarial examples and significantly improve design performance. We further illustrate how such a design system is compositional, enabling us to combine multiple different diffusion models representing subcomponents of our desired system to design systems with every specified component. In an N-body interaction task and a challenging 2D multi-airfoil design task, we demonstrate that by composing the learned diffusion model at test time, our method allows us to design initial states and boundary shapes that are more complex than those in the training data. Our method outperforms state-of-the-art neural inverse design method by an average of 41.5% in prediction MAE and 14.3% in design objective for the N-body dataset and discovers formation flying to minimize drag in the multi-airfoil design task. Project website and code can be found at https://github.com/AI4Science-WestlakeU/cindm.
翻訳日:2024-01-25 15:39:38 公開日:2024-01-24
# CFMatch: オープンドメイン質問応答のための専門家判断による回答等価性の自動評価

CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering ( http://arxiv.org/abs/2401.13170v1 )

ライセンス: Link先を確認
Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, and Jordan Boyd-Graber(参考訳) 質問応答(qa)は、答えが正しいかどうかを知った場合にのみ進行するが、最も挑戦的で興味深いqa例の多くでは、回答等価性(ae)を決定する現在の評価指標は、人間の判断、特に大規模言語モデル(llm)からのより冗長で自由形式の回答と一致しないことが多い。 データの欠如とモデルが大きすぎるという2つの課題がある: LLMベースのスコアラは人間の判断とよりよく相関できるが、このタスクは限定的なQAデータセットでのみテストされている。 プロの人間QAコンテストから採用したマシンQAにおいて、AEを評価するための明確で一貫したガイドラインを提供することで、これらの問題を是正する。 また,標準評価と,より効率的で堅牢で軽量な識別型AE分類器ベースのマッチング手法(CFMatch, 1MB未満)の組み合わせを導入し,人間の判断に適合した専門家によるAE規則に従って,回答の正確性をより正確に評価する。

Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments.
翻訳日:2024-01-25 15:39:13 公開日:2024-01-24
# 大規模言語モデルを用いた大規模異種グラフ上のスケーラブルリンク予測

Scalable Link Prediction on Large-Scale Heterogeneous Graphs with Large Language Models ( http://arxiv.org/abs/2401.13227v1 )

ライセンス: Link先を確認
Baolong Bi, Shenghua Liu, Yiwei Wang, Lingrui Mei and Xueqi Chen(参考訳) グラフ学習への大規模言語モデルの応用を探求することは、新しい試みである。 しかし、巨大なグラフに固有の膨大な情報はこのプロセスに重大な課題をもたらす。 本稿では,リンク予測タスクに着目し,大規模不均一グラフ上でのスケーラブルリンク予測用に設計された大規模言語モデルに基づくlpnl(link prediction via natural language)を提案する。 本研究では,大規模不均一グラフから重要な情報を抽出する2段階のサンプリングパイプラインと,事前定義された範囲内で入力トークン数を制御するための分割・分割戦略を提案する。 リンク予測用に設計された自己教師付き学習に基づいてt5モデルを微調整する。 大規模な公開ヘテロジニアスグラフに対する大規模な実験により、LPNLは様々な高度なベースラインを上回り、大規模グラフ上のリンク予測タスクにおいて顕著な性能を誇示している。

Exploring the application of large-scale language models to graph learning is a novel endeavor. However, the vast amount of information inherent in large graphs poses significant challenges to this process. This paper focuses on the link prediction task and introduces LPNL (Link Prediction via Natural Language), a framework based on a large language model designed for scalable link prediction on large-scale heterogeneous graphs.We design novel prompts for link prediction that articulate graph details in natural language. We propose a two-stage sampling pipeline to extract crucial information from large-scale heterogeneous graphs, and a divide-and-conquer strategy to control the input token count within predefined limits, addressing the challenge of overwhelming information. We fine-tune a T5 model based on our self-supervised learning designed for for link prediction. Extensive experiments on a large public heterogeneous graphs demonstrate that LPNL outperforms various advanced baselines, highlighting its remarkable performance in link prediction tasks on large-scale graphs.
翻訳日:2024-01-25 15:33:22 公開日:2024-01-24
# TAT-LLM: 単語とテキストデータの離散推論のための特殊言語モデル

TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data ( http://arxiv.org/abs/2401.13223v1 )

ライセンス: Link先を確認
Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li, Tat-Seng Chua(参考訳) 本研究では,web上で非常に一般的なコンテンツである表データとテキストデータのハイブリッド(例えばsec文書)上で質問応答(qa)に対処し,そこでは離散的な推論能力が必要となることが多い。 近年, GPT-4のような大規模言語モデル (LLM) は, 強力な多段階推論能力を示している。 次に,LLMの驚くべきパワーを活用して課題を解決することを検討する。 抽出子,推論子,実行子という3つの重要なステップで構成された表型およびテキスト型qaのためのステップワイズパイプラインを抽象化し,まずパイプラインをインスタンス化し,gpt-4が既存のメソッドを上回っていることを検証するための命令を設計する。 しかし、gpt-4のようなオンラインllmを利用することは、コスト、レイテンシ、データセキュリティのリスクに関して様々な課題を抱えています。 ステップワイズパイプラインに続く既存のエキスパートアノテートデータセットから自動的に生成されたトレーニングデータを用いて,LLaMA 2を微調整することで,TAT-LLM言語モデルを開発する。 実験結果から,我々のTAT-LLMモデルはFinQA,TAT-QA,TAT-DQAベンチマークのGPT-4などの大規模LPMを含む,すべてのベースラインモデルより優れていることが示された。 私たちの仕事は、特定のタスクのためにより小さな言語モデルを専門化するための先駆的な例になることを期待しています。

In this work, we address question answering (QA) over a hybrid of tabular and textual data that are very common content on the Web (e.g. SEC filings), where discrete reasoning capabilities are often required. Recently, large language models (LLMs) like GPT-4 have demonstrated strong multi-step reasoning capabilities. We then consider harnessing the amazing power of LLMs to solve our task. We abstract a Step-wise Pipeline for tabular and textual QA, which consists of three key steps, including Extractor, Reasoner and Executor, and initially design an instruction to instantiate the pipeline and validate that GPT-4 outperforms all existing methods. However, utilizing an online LLM like GPT-4 holds various challenges in terms of cost, latency, and data security risk, which motivates us to specialize smaller LLMs in this task. We develop a TAT-LLM language model by fine-tuning LLaMA 2 with the training data generated automatically from existing expert-annotated datasets following the Step-wise Pipeline. The experimental results have verified that our TAT-LLM model can outperform all baseline models, including the previous best fine-tuned models and very large-scale LLMs like GPT-4 on FinQA, TAT-QA and TAT-DQA benchmarks. We hope our work can serve as a pioneering example of specializing smaller language models for specific tasks.
翻訳日:2024-01-25 15:32:27 公開日:2024-01-24
# オールインワン画像復元のための統一幅適応動的ネットワーク

Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration ( http://arxiv.org/abs/2401.13221v1 )

ライセンス: Link先を確認
Yimin Xu, Nanxi Gao, Zhongyun Shan, Fei Chao, Rongrong Ji(参考訳) 従来の画像復元法とは対照的に,多種多様で未知の画像の復元能力から,オールインワン画像復元技術が注目されている。 しかし、現代のオールインワン画像復元手法では、タスクの難易度を省き、同じネットワークを用いて多様な劣化に苦しむ画像を再構築している。 このプラクティスは、タスク相関と計算リソースの最適でない割り当ての過小評価につながる。 課題の複雑さを解明するために, 複雑な画像劣化を初等劣化の観点から表現できるという新しい概念を導入する。 この基盤を基盤として,Width Adaptive Backbone (WAB) と Width Selector (WS) の2つの重要なコンポーネントからなるUnified-Width Adaptive Dynamic Network (U-WADN) と呼ばれる革新的なアプローチを提案する。 WABには、様々な幅のネストされたサブネットワークが組み込まれており、各タスクに適した最も適応的な計算の選択が容易になり、実行中に精度と計算効率のバランスがとれる。 異なる入力に対して、WSはタスク固有の複雑さとサンプル固有の複雑さの両方を考慮して、最も適切なサブネットワーク幅を自動的に選択します。 様々な画像復元タスクにわたる大規模な実験により、提案されたU-WADNは、最大32.3\%のFLOPを同時に削減し、約15.7\%のリアルタイム加速を実現する。 コードは \url{https://github.com/xuyimin0926/u-wadn} で利用可能である。

In contrast to traditional image restoration methods, all-in-one image restoration techniques are gaining increased attention for their ability to restore images affected by diverse and unknown corruption types and levels. However, contemporary all-in-one image restoration methods omit task-wise difficulties and employ the same networks to reconstruct images afflicted by diverse degradations. This practice leads to an underestimation of the task correlations and suboptimal allocation of computational resources. To elucidate task-wise complexities, we introduce a novel concept positing that intricate image degradation can be represented in terms of elementary degradation. Building upon this foundation, we propose an innovative approach, termed the Unified-Width Adaptive Dynamic Network (U-WADN), consisting of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS). The WAB incorporates several nested sub-networks with varying widths, which facilitates the selection of the most apt computations tailored to each task, thereby striking a balance between accuracy and computational efficiency during runtime. For different inputs, the WS automatically selects the most appropriate sub-network width, taking into account both task-specific and sample-specific complexities. Extensive experiments across a variety of image restoration tasks demonstrate that the proposed U-WADN achieves better performance while simultaneously reducing up to 32.3\% of FLOPs and providing approximately 15.7\% real-time acceleration. The code has been made available at \url{https://github.com/xuyimin0926/U-WADN}.
翻訳日:2024-01-25 15:31:27 公開日:2024-01-24
# Segment Any Cell: NucleiセグメンテーションのためのSAMベースの自動プロンプトファインチューニングフレームワーク

Segment Any Cell: A SAM-based Auto-prompting Fine-tuning Framework for Nuclei Segmentation ( http://arxiv.org/abs/2401.13220v1 )

ライセンス: Link先を確認
Saiyang Na, Yuzhi Guo, Feng Jiang, Hehuan Ma and Junzhou Huang(参考訳) AI研究の急速に発展する分野では、BERTやGPTといった基礎的なモデルは、言語とビジョンのタスクが大幅に進歩している。 ChatGPT や Segmentation Anything Model (SAM) のようなプレトレインプロンプティングモデルの出現により、画像セグメンテーションはさらに革新的になった。 しかし、彼らの専門分野、特に医療画像内の核分画への応用は、基礎モデルに最先端(sota)の微調整技術を適用するのと同じくらい、高品質で情報的なプロンプトの生成が重要であることを明らかにしている。 これに対処するために、segment any cell(sac)という、特に核分裂のためのsamを強化する革新的なフレームワークを紹介します。 SACは、トランスフォーマーの注意層にローランド適応(LoRA)を統合し、微調整プロセスを改善し、既存のSOTA法より優れている。 また、バイオメディカルイメージングにおける核セグメンテーションの複雑さを扱う重要な要素であるセグメンテーションを誘導する効果的なプロンプトを生成する革新的なオートプロンプトジェネレータも導入している。 核分割作業におけるSACの優位性を実証し,病理学者や研究者のツールとしての有効性を実証した。 提案手法には,新しいプロンプト生成戦略,多様なセグメンテーションタスクに対する自動適応性,samにおける低ランクアテンション適応の革新的適用,意味セグメンテーション課題のための汎用フレームワークなどが含まれる。

In the rapidly evolving field of AI research, foundational models like BERT and GPT have significantly advanced language and vision tasks. The advent of pretrain-prompting models such as ChatGPT and Segmentation Anything Model (SAM) has further revolutionized image segmentation. However, their applications in specialized areas, particularly in nuclei segmentation within medical imaging, reveal a key challenge: the generation of high-quality, informative prompts is as crucial as applying state-of-the-art (SOTA) fine-tuning techniques on foundation models. To address this, we introduce Segment Any Cell (SAC), an innovative framework that enhances SAM specifically for nuclei segmentation. SAC integrates a Low-Rank Adaptation (LoRA) within the attention layer of the Transformer to improve the fine-tuning process, outperforming existing SOTA methods. It also introduces an innovative auto-prompt generator that produces effective prompts to guide segmentation, a critical factor in handling the complexities of nuclei segmentation in biomedical imaging. Our extensive experiments demonstrate the superiority of SAC in nuclei segmentation tasks, proving its effectiveness as a tool for pathologists and researchers. Our contributions include a novel prompt generation strategy, automated adaptability for diverse segmentation tasks, the innovative application of Low-Rank Attention Adaptation in SAM, and a versatile framework for semantic segmentation challenges.
翻訳日:2024-01-25 15:30:56 公開日:2024-01-24
# tepi:希薄なゼロショットゲノム分類のための分類学アウェア埋め込みと擬似画像化

TEPI: Taxonomy-aware Embedding and Pseudo-Imaging for Scarcely-labeled Zero-shot Genome Classification ( http://arxiv.org/abs/2401.13219v1 )

ライセンス: Link先を確認
Sathyanarayanan Aakur, Vishalini R. Laguduva, Priyadharsini Ramamurthy, Akhilesh Ramachandran(参考訳) 種の遺伝コードまたはゲノムは、種の認識、分類学的分類、薬剤耐性や病原性などの遺伝子前置詞の理解を助ける貴重な進化的、生物学的、系統学的情報をコードしている。 しかし、膨大な数の潜在的な種は、汎用的な全ゲノム分類ツールを開発する上で大きな困難をもたらす。 従来のバイオインフォマティクスツールは顕著な進歩を遂げているが、スケーラビリティがなく、計算コストが高い。 機械学習ベースのフレームワークは、約束を示すが、ロングテール分布を持つ大きな分類語彙の問題に対処する必要がある。 本研究では,TEPI,Taxonomy-aware Embedding,Pseudo-Imagingを用いたゼロショット学習による問題解決を提案する。 各ゲノムを疑似画像として表現し、推論と分類のために分類学を意識した埋め込み空間にマッピングする。 この埋め込み空間は種の構成的および系統的関係を捉え、広い探索空間での予測を可能にする。 2つの厳密なゼロショット設定を用いてTEPIを評価し、その一般化能力をキュレートされた大規模公開データに基づいて定性的に示す。

A species' genetic code or genome encodes valuable evolutionary, biological, and phylogenetic information that aids in species recognition, taxonomic classification, and understanding genetic predispositions like drug resistance and virulence. However, the vast number of potential species poses significant challenges in developing a general-purpose whole genome classification tool. Traditional bioinformatics tools have made notable progress but lack scalability and are computationally expensive. Machine learning-based frameworks show promise but must address the issue of large classification vocabularies with long-tail distributions. In this study, we propose addressing this problem through zero-shot learning using TEPI, Taxonomy-aware Embedding and Pseudo-Imaging. We represent each genome as pseudo-images and map them to a taxonomy-aware embedding space for reasoning and classification. This embedding space captures compositional and phylogenetic relationships of species, enabling predictions in extensive search spaces. We evaluate TEPI using two rigorous zero-shot settings and demonstrate its generalization capabilities qualitatively on curated, large-scale, publicly sourced data.
翻訳日:2024-01-25 15:30:28 公開日:2024-01-24
# ultra:unleash llmsの階層モデリングとペアワイズによるイベント引数抽出の可能性

ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Refinement ( http://arxiv.org/abs/2401.13218v1 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Carter Blum, Temma Choji, Shalin Shah, Alakananda Vempala(参考訳) 会話内のイベントの構造的抽出は、コミュニケーションパターンや行動トレンドをより深く理解する上で重要である。 イベント引数抽出(英: Event argument extract、EAE)は、イベント中心の理解の中心にある、あるイベントに対する役割固有のテキストスパン(すなわち、引数)を特定するタスクである。 ドキュメントレベルEAE(DocEAE)は、ドキュメント全体に散在する引数に焦点を当てている。 本研究では,オープンソースのLarge Language Models(LLM),すなわちFlan-UL2のDocEAEタスク機能について検討する。 この目的のために、我々は、イベント引数をよりコスト効率よく抽出する階層的なフレームワークであるULTRAを提案する。 さらに、LSMに固有の位置バイアス問題を緩和する。 ultra firstは文書のテキストチャンクを順次読み込んで候補引数集合を生成し、ultraは自己定義を通じて無関係な候補をドロップすることを学習する。 さらに、LEAFERを導入して、LLMの課題に対処し、引数スパンの正確な境界を突き止める。 ultraは、強力な教師付きモデルやchatgptを含む強力なベースラインを、正確な一致(em)メトリックで評価すると9.8%上回っている。

Structural extraction of events within discourse is critical since it avails a deeper understanding of communication patterns and behavior trends. Event argument extraction (EAE), at the core of event-centric understanding, is the task of identifying role-specific text spans (i.e., arguments) for a given event. Document-level EAE (DocEAE) focuses on arguments that are scattered across an entire document. In this work, we explore the capabilities of open source Large Language Models (LLMs), i.e., Flan-UL2, for the DocEAE task. To this end, we propose ULTRA, a hierarchical framework that extracts event arguments more cost-effectively -- the method needs as few as 50 annotations and doesn't require hitting costly API endpoints. Further, it alleviates the positional bias issue intrinsic to LLMs. ULTRA first sequentially reads text chunks of a document to generate a candidate argument set, upon which ULTRA learns to drop non-pertinent candidates through self-refinement. We further introduce LEAFER to address the challenge LLMs face in locating the exact boundary of an argument span. ULTRA outperforms strong baselines, which include strong supervised models and ChatGPT, by 9.8% when evaluated by the exact match (EM) metric.
翻訳日:2024-01-25 15:30:10 公開日:2024-01-24
# フェデレーション学習のための原理的局所最適化法について

On Principled Local Optimization Methods for Federated Learning ( http://arxiv.org/abs/2401.13216v1 )

ライセンス: Link先を確認
Honglin Yuan(参考訳) デバイス上での学習を協調的にスケールする分散学習パラダイムであるfederated learning(fl)が、分散aiアプリケーションにとって有望なアプローチとして登場した。 Federated Averaging (FedAvg) のような局所最適化手法はFLアプリケーションの最も顕著な手法である。 その単純さと人気にもかかわらず、局所最適化法の理論的理解は明確ではない。 この論文は、局所的な手法の理論的な基礎を次の3つの方向に進めることを目的としている。 まず,federated learningで最もポピュラーなアルゴリズムであるfedavgのシャープ境界を確立する。 我々は、FedAvgが繰り返しバイアスと呼ばれる概念にどのように苦しむか、さらに3階の滑らかさの仮定がこの効果を緩和し、より良い収束率をもたらすかを実証する。 我々はこの現象を確率微分方程式(SDE)の観点から説明する。 次に、FedAvgの第一原理加速度であるFedAc(Federated Accelerated Stochastic Gradient Descent)を提案する。 本手法は, ポテンシャルに基づく摂動イテレート解析, 一般化加速sgdの新しい安定性解析, 加速度と安定性の戦略的トレードオフを用いている。 第3に,共有非平滑正規化器を組み込むことにより,古典的なスムーズな設定を拡張できるフェデレーション複合最適化問題について検討する。 我々は,FedAvgの直接拡張が「原始平均化の帰結」に悩まされ,収束が遅くなることを示した。 そこで本研究では,新たな2次平均化手法を用いて,主元平均化の呪いを克服するアルゴリズムであるFederated Dual Averagingを提案する。

Federated Learning (FL), a distributed learning paradigm that scales on-device learning collaboratively, has emerged as a promising approach for decentralized AI applications. Local optimization methods such as Federated Averaging (FedAvg) are the most prominent methods for FL applications. Despite their simplicity and popularity, the theoretical understanding of local optimization methods is far from clear. This dissertation aims to advance the theoretical foundation of local methods in the following three directions. First, we establish sharp bounds for FedAvg, the most popular algorithm in Federated Learning. We demonstrate how FedAvg may suffer from a notion we call iterate bias, and how an additional third-order smoothness assumption may mitigate this effect and lead to better convergence rates. We explain this phenomenon from a Stochastic Differential Equation (SDE) perspective. Second, we propose Federated Accelerated Stochastic Gradient Descent (FedAc), the first principled acceleration of FedAvg, which provably improves the convergence rate and communication efficiency. Our technique uses on a potential-based perturbed iterate analysis, a novel stability analysis of generalized accelerated SGD, and a strategic tradeoff between acceleration and stability. Third, we study the Federated Composite Optimization problem, which extends the classic smooth setting by incorporating a shared non-smooth regularizer. We show that direct extensions of FedAvg may suffer from the "curse of primal averaging," resulting in slow convergence. As a solution, we propose a new primal-dual algorithm, Federated Dual Averaging, which overcomes the curse of primal averaging by employing a novel inter-client dual averaging procedure.
翻訳日:2024-01-25 15:29:45 公開日:2024-01-24
# AMANet: 適応型多階層型アテンションネットワークによるSAR船体検出の高速化

AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical Attention Network ( http://arxiv.org/abs/2401.13214v1 )

ライセンス: Link先を確認
Xiaolin Ma, Junkai Cheng, Aihua Li, Yuhua Zhang, Zhilong Lin(参考訳) 近年,SAR(Synthetic Aperture radar)画像の船体検出にディープラーニングを用いた手法が成功している。 多くの船舶検出手法が開発されているにもかかわらず、沿岸環境の限られた特徴と乱雑さのため、小型および沿岸の船舶を検知することは大きな課題である。 そこで, 適応型多階層型アテンションモジュール (AMAM) を提案し, 複雑な環境下であっても, 多様な特徴層から有意な特徴を適応的に収集する。 具体的には、まず隣接する特徴層から情報を融合して、より小さなターゲットの検出を強化し、マルチスケールの機能強化を実現する。 次に, 複雑な背景の悪影響をフィルタリングするために, チャネル上の予め融合したマルチレベル特徴を解析し, 個別にサルエント領域を掘削し, 異なるチャネルに由来する適応的アマルガメート特徴を抽出した。 第3に、バックボーンネットワークとフィーチャーピラミッドネットワーク(fpn)の間にamを組み込むことにより、新しい適応型マルチ階層型注意ネットワーク(amanet)を提案する。 さらに、ammは異なるフレームワーク間で簡単に挿入でき、オブジェクト検出を改善します。 最後に,2つの大規模SAR船舶検出データセットに関する広範な実験により,AMANet法が最先端の手法よりも優れていることを示す。

Recently, methods based on deep learning have been successfully applied to ship detection for synthetic aperture radar (SAR) images. Despite the development of numerous ship detection methodologies, detecting small and coastal ships remains a significant challenge due to the limited features and clutter in coastal environments. For that, a novel adaptive multi-hierarchical attention module (AMAM) is proposed to learn multi-scale features and adaptively aggregate salient features from various feature layers, even in complex environments. Specifically, we first fuse information from adjacent feature layers to enhance the detection of smaller targets, thereby achieving multi-scale feature enhancement. Then, to filter out the adverse effects of complex backgrounds, we dissect the previously fused multi-level features on the channel, individually excavate the salient regions, and adaptively amalgamate features originating from different channels. Thirdly, we present a novel adaptive multi-hierarchical attention network (AMANet) by embedding the AMAM between the backbone network and the feature pyramid network (FPN). Besides, the AMAM can be readily inserted between different frameworks to improve object detection. Lastly, extensive experiments on two large-scale SAR ship detection datasets demonstrate that our AMANet method is superior to state-of-the-art methods.
翻訳日:2024-01-25 15:29:17 公開日:2024-01-24
# 共通センスバイアスの発見と分類課題の緩和

Common-Sense Bias Discovery and Mitigation for Classification Tasks ( http://arxiv.org/abs/2401.13213v1 )

ライセンス: Link先を確認
Miao Zhang, Zee fryer, Ben Colman, Ali Shahriyari, Gaurav Bharaj(参考訳) 機械学習モデルバイアスは、データセットの構成から生じうる: 学習目標に関連付けられたセンシティブな特徴は、モデル決定ルールを乱し、特徴に沿ったパフォーマンスの違いをもたらす。 既存の非バイアス処理は、数字の色や動物の背景など、モデル潜在空間で追跡可能な顕著で繊細な画像の特徴をキャプチャする。 しかし、潜在空間を使用すると、すべてのデータセットの特徴相関を理解するのに十分ではない。 本研究では,画像記述に基づくデータセット内の特徴クラスタを抽出し,画像の微妙な特徴と粗い特徴の両方をキャプチャするフレームワークを提案する。 特徴共起パターンを定式化し、人間のループを用いて相関を計測する。 解析された特徴と相関は人間の解釈可能であり,その手法をCSBD(Common-Sense Bias Discovery)と呼ぶ。 データセットに敏感な相関を露出させることで,感度の高いグループラベルの監督を必要とせず,画像サンプリング重みを調整することで下流モデルのバイアスを軽減できることを示す。 実験により,2つのベンチマーク画像データセットに対する複数の分類タスクに対する新たなバイアスが発見され,その介入は最先端の非教師なしバイアス軽減手法より優れていることがわかった。

Machine learning model bias can arise from dataset composition: sensitive features correlated to the learning target disturb the model decision rule and lead to performance differences along the features. Existing de-biasing work captures prominent and delicate image features which are traceable in model latent space, like colors of digits or background of animals. However, using the latent space is not sufficient to understand all dataset feature correlations. In this work, we propose a framework to extract feature clusters in a dataset based on image descriptions, allowing us to capture both subtle and coarse features of the images. The feature co-occurrence pattern is formulated and correlation is measured, utilizing a human-in-the-loop for examination. The analyzed features and correlations are human-interpretable, so we name the method Common-Sense Bias Discovery (CSBD). Having exposed sensitive correlations in a dataset, we demonstrate that downstream model bias can be mitigated by adjusting image sampling weights, without requiring a sensitive group label supervision. Experiments show that our method discovers novel biases on multiple classification tasks for two benchmark image datasets, and the intervention outperforms state-of-the-art unsupervised bias mitigation methods.
翻訳日:2024-01-25 15:28:53 公開日:2024-01-24
# AdCorDA: 逆補正とドメイン適応による分類器のリファインメント

AdCorDA: Classifier Refinement via Adversarial Correction and Domain Adaptation ( http://arxiv.org/abs/2401.13212v1 )

ライセンス: Link先を確認
Lulan Shen, Ali Edalati, Brett Meyer, Warren Gross, James J. Clark(参考訳) 本稿では,事前学習した分類器ネットワークを書き換える手法について述べる。 提案手法はトレーニングセットの修正と,ネットワーク重みと層入力の双対性を利用したAdCorDA法である。 これを入力空間トレーニングと呼ぶ。 この手法は、逆補正とドメイン適応の2つの段階から成り立っている。 逆境補正は、間違ったトレーニングセットの分類を正すために逆境攻撃を使用する。 誤分類されたトレーニングセットのサンプルを除去して、逆補正されたサンプルに置き換えて新たなトレーニングセットを形成し、第2段階では、元のトレーニングセットにドメイン適応を行う。 大規模な実験検証では、CIFAR-100データセットで5%以上の精度が向上した。 この手法は、ベースライン上での大幅な性能向上を示す実験において、重み付きニューラルネットワークの洗練に簡単に適用することができる。 また, 対向補正技術により, 対向攻撃に対する強靭性も向上する。

This paper describes a simple yet effective technique for refining a pretrained classifier network. The proposed AdCorDA method is based on modification of the training set and making use of the duality between network weights and layer inputs. We call this input space training. The method consists of two stages - adversarial correction followed by domain adaptation. Adversarial correction uses adversarial attacks to correct incorrect training-set classifications. The incorrectly classified samples of the training set are removed and replaced with the adversarially corrected samples to form a new training set, and then, in the second stage, domain adaptation is performed back to the original training set. Extensive experimental validations show significant accuracy boosts of over 5% on the CIFAR-100 dataset. The technique can be straightforwardly applied to refinement of weight-quantized neural networks, where experiments show substantial enhancement in performance over the baseline. The adversarial correction technique also results in enhanced robustness to adversarial attacks.
翻訳日:2024-01-25 15:28:32 公開日:2024-01-24
# グラフ異常検出のためのマルチタスク能動学習

Multitask Active Learning for Graph Anomaly Detection ( http://arxiv.org/abs/2401.13210v1 )

ライセンス: Link先を確認
Wenjing Chang, Kay Liu, Kaize Ding, Philip S. Yu, Jianjun Yu(参考訳) ウェブ時代、グラフ機械学習はユビキタスなグラフ構造化データに広く使われてきた。 Webのセキュリティを強化し、グラフベースのアプリケーションの堅牢性を高めるための重要なコンポーネントとして、グラフ異常検出の重要性はますます高まっている。 グラフニューラルネットワーク(gnns)は教師付きおよび半教師付きグラフ異常検出において有効性を示しているが、その性能は十分な基底真理ラベルの可用性に起因している。 複雑なグラフ構造から異常を識別する労力集約的な性質は、現実世界のアプリケーションにおいて大きな課題となる。 それにもかかわらず、他のタスク(例えばノード分類)からの間接的監督信号は比較的豊富である。 本稿では,MultItask acTIve Graph Anomaly Detection framework,すなわちMITIGATEを提案する。 まず、ノード分類タスクを結合することにより、既知の異常のない分散ノードを検出する能力を得る。 第二に、MITIGATEはタスク間の信頼差によってノードの情報量が定量化され、矛盾する予測を持つサンプルがその後のトレーニングに過度に困難な情報を提供する。 最後に,既知のパターンから離れた代表ノードを選択する可能性を高めるため,ノード固有の特徴と現在のラベル付き状態の両方を考慮して,距離測定のためのマスキングアグリゲーション機構を採用する。 4つのデータセットに関する実証的研究は、MITIGATEが異常検出のための最先端の手法を著しく上回っていることを示している。 私たちのコードは、https://github.com/AhaChang/MITIGATE.comで公開されています。

In the web era, graph machine learning has been widely used on ubiquitous graph-structured data. As a pivotal component for bolstering web security and enhancing the robustness of graph-based applications, the significance of graph anomaly detection is continually increasing. While Graph Neural Networks (GNNs) have demonstrated efficacy in supervised and semi-supervised graph anomaly detection, their performance is contingent upon the availability of sufficient ground truth labels. The labor-intensive nature of identifying anomalies from complex graph structures poses a significant challenge in real-world applications. Despite that, the indirect supervision signals from other tasks (e.g., node classification) are relatively abundant. In this paper, we propose a novel MultItask acTIve Graph Anomaly deTEction framework, namely MITIGATE. Firstly, by coupling node classification tasks, MITIGATE obtains the capability to detect out-of-distribution nodes without known anomalies. Secondly, MITIGATE quantifies the informativeness of nodes by the confidence difference across tasks, allowing samples with conflicting predictions to provide informative yet not excessively challenging information for subsequent training. Finally, to enhance the likelihood of selecting representative nodes that are distant from known patterns, MITIGATE adopts a masked aggregation mechanism for distance measurement, considering both inherent features of nodes and current labeled status. Empirical studies on four datasets demonstrate that MITIGATE significantly outperforms the state-of-the-art methods for anomaly detection. Our code is publicly available at: https://github.com/AhaChang/MITIGATE.
翻訳日:2024-01-25 15:28:18 公開日:2024-01-24
# 不確実性定量化による深層学習に基づく自己改善型干渉管理

Self-Improving Interference Management Based on Deep Learning With Uncertainty Quantification ( http://arxiv.org/abs/2401.13206v1 )

ライセンス: Link先を確認
Hyun-Suk Lee, Do-Yup Kim, Kyungsik Min(参考訳) 本稿では,無線通信に適した自己改善型干渉管理フレームワークを提案する。システム全体の性能を向上させるために,ディープラーニングと不確実性定量化を統合する。 提案手法は、ディープラーニングモデルを用いて最適な干渉管理ソリューションを予測することによって、従来の最適化アルゴリズムに固有の計算課題に対処する。 私たちのフレームワークの大きなブレークスルーは、データ駆動モデルに固有の制限、特にトレーニングデータセットで適切に表現されていないシナリオに対する認識です。 これらの課題を克服するために,不確実性定量化法と適格評価法を併用し,モデル予測の信頼性を評価する。 このフレームワークは、定量的不確実性に基づいて予測信頼性を評価する基準によって導かれる、モデル生成ソリューションと従来のアルゴリズムを戦略的に交互に置き換える。 実験結果は、フレームワークの有効性を検証し、特にトレーニングデータセットで過小評価されたシナリオにおいて、従来のディープラーニングモデルよりも優れていることを示す。 この研究は、不確実性定量化のレンズを通して、自己改善型ディープラーニングを干渉管理に活用する先駆的な取り組みである。

This paper presents a groundbreaking self-improving interference management framework tailored for wireless communications, integrating deep learning with uncertainty quantification to enhance overall system performance. Our approach addresses the computational challenges inherent in traditional optimization-based algorithms by harnessing deep learning models to predict optimal interference management solutions. A significant breakthrough of our framework is its acknowledgment of the limitations inherent in data-driven models, particularly in scenarios not adequately represented by the training dataset. To overcome these challenges, we propose a method for uncertainty quantification, accompanied by a qualifying criterion, to assess the trustworthiness of model predictions. This framework strategically alternates between model-generated solutions and traditional algorithms, guided by a criterion that assesses the prediction credibility based on quantified uncertainties. Experimental results validate the framework's efficacy, demonstrating its superiority over traditional deep learning models, notably in scenarios underrepresented in the training dataset. This work marks a pioneering endeavor in harnessing self-improving deep learning for interference management, through the lens of uncertainty quantification.
翻訳日:2024-01-25 15:27:54 公開日:2024-01-24
# 局所的混合と適応的ステップサイズによる逆例の伝達性の向上

Boosting the Transferability of Adversarial Examples via Local Mixup and Adaptive Step Size ( http://arxiv.org/abs/2401.13205v1 )

ライセンス: Link先を確認
Junlin Liu and Xinchen Lyu(参考訳) 敵の例は様々な視覚的応用にとって重要なセキュリティ上の脅威の一つであり、人間の知覚できない摂動が出力を混乱させる可能性がある。 既存の入力多様性に基づく方法は、異なる画像変換を採用するが、入力の多様性が不十分で、摂動ステップのサイズが同じであるために効率が悪い可能性がある。 本稿では,異なる画像領域が分類に特有の重みを持つという事実に動機づけられ,入力の多様性と適応的なステップサイズを共同で設計することにより,ブラックボックスの逆生成枠組みを提案する。 変換された逆画像群をランダムに混合し、入力の多様性を高めるために局所混合を設計する。 正確な逆生成のために、境界制約を緩和するために$tanh$空間に摂動を投影する。 さらに,2次運動量を統合することで,異なる領域のステップサイズを動的に調整することが可能である。

Adversarial examples are one critical security threat to various visual applications, where injected human-imperceptible perturbations can confuse the output.Generating transferable adversarial examples in the black-box setting is crucial but challenging in practice. Existing input-diversity-based methods adopt different image transformations, but may be inefficient due to insufficient input diversity and an identical perturbation step size. Motivated by the fact that different image regions have distinctive weights in classification, this paper proposes a black-box adversarial generative framework by jointly designing enhanced input diversity and adaptive step sizes. We design local mixup to randomly mix a group of transformed adversarial images, strengthening the input diversity. For precise adversarial generation, we project the perturbation into the $tanh$ space to relax the boundary constraint. Moreover, the step sizes of different regions can be dynamically adjusted by integrating a second-order momentum.Extensive experiments on ImageNet validate that our framework can achieve superior transferability compared to state-of-the-art baselines.
翻訳日:2024-01-25 15:27:35 公開日:2024-01-24
# デカップリングオブジェクトを用いた3次元室内シーン合成のスタイル整合

Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects ( http://arxiv.org/abs/2401.13203v1 )

ライセンス: Link先を確認
Yunfan Zhang, Hong Huang, Zhiwei Xiong, Zhiqi Shen, Guosheng Lin, Hao Wang, Nicholas Vun(参考訳) 制御可能な3D屋内シーン合成は、技術進歩の最前線にあり、ゲーム、映画、拡張現実/バーチャルリアリティーなどの様々な応用を提供している。 これらのシナリオ内でオブジェクトをスタイリッシュし、デカップリングする能力は重要な要素であり、編集プロセス全体で高度なコントロールを提供する。 この制御は、翻訳やスケーリングのような幾何学的属性を操作するだけでなく、スタイル化のような外観の管理も含む。 現在のシーンスタイライゼーションの方法は、個々のオブジェクトを分離しカスタマイズすることなく、シーン全体にスタイルを適用することに限定されている。 この課題の難しさに対処するために,室内3Dシーンを合成するためのユニークなパイプラインを導入する。 我々のアプローチでは、戦略的にオブジェクトをシーン内に配置し、プロが設計したバウンディングボックスからの情報を活用する。 重要な点は、パイプラインはシーン内の複数のオブジェクトにまたがるスタイル一貫性の維持を優先し、望ましい美的要素に合わせて結束的で視覚的にアピールする結果を確実にします。 パイプラインのコアとなる強みは、視覚的に印象的なだけでなく、フォトリアリズム、マルチビューの一貫性、多様性といった特徴も備えた3Dシーンを生成する能力にあります。 これらのシーンは、さまざまな自然言語のプロンプトに対応して作られ、モデルの汎用性と適応性を示している。

Controllable 3D indoor scene synthesis stands at the forefront of technological progress, offering various applications like gaming, film, and augmented/virtual reality. The capability to stylize and de-couple objects within these scenarios is a crucial factor, providing an advanced level of control throughout the editing process. This control extends not just to manipulating geometric attributes like translation and scaling but also includes managing appearances, such as stylization. Current methods for scene stylization are limited to applying styles to the entire scene, without the ability to separate and customize individual objects. Addressing the intricacies of this challenge, we introduce a unique pipeline designed for synthesis 3D indoor scenes. Our approach involves strategically placing objects within the scene, utilizing information from professionally designed bounding boxes. Significantly, our pipeline prioritizes maintaining style consistency across multiple objects within the scene, ensuring a cohesive and visually appealing result aligned with the desired aesthetic. The core strength of our pipeline lies in its ability to generate 3D scenes that are not only visually impressive but also exhibit features like photorealism, multi-view consistency, and diversity. These scenes are crafted in response to various natural language prompts, demonstrating the versatility and adaptability of our model.
翻訳日:2024-01-25 15:27:15 公開日:2024-01-24
# MLLMReID:マルチモーダル大言語モデルに基づく人物再識別

MLLMReID: Multimodal Large Language Model-based Person Re-identification ( http://arxiv.org/abs/2401.13201v1 )

ライセンス: Link先を確認
Shan Yang, Yongfei Zhang(参考訳) MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。 しかし, ReID (person re-identification, person re-identification) の課題におけるその業績は, これまでに調査されていない。 本稿では,ReIDの課題に適合させる方法について検討する。 直感的なアイデアは、ReIDイメージテキストデータセットでMLLMを微調整し、それらのビジュアルエンコーダをReIDのバックボーンとして使用することである。 しかし、(1) ReID の命令の設計、MLLM は特定の命令に過度に適合する可能性があること、そして、様々な命令の設計は、より高いコストをもたらす。 2) LLM の遅延像特徴ベクトルは損失計算には関与しない。 インストラクショナルラーニング,画像テキストの特徴の整合,間接的最適化の結果として,特徴を不十分に活用する学習目標が達成され,人的特徴学習の有効性が制限される。 本稿では,MLLMReID: Multimodal Large Language Model-based ReIDを提案する。 まず,LLMの本質的能力を活用するシンプルな手法であるCommon Instructionを提案し,複雑で多様な命令設計を避ける。 第二に、ReIDタスクにおいてLLMによって出力される画像の潜在画像特徴ベクトルを効果的に活用するDirectReIDを提案する。 実験の結果,本手法の優位性を示した。 コードをGitHubでオープンソースにします。

Multimodal large language models (MLLM) have achieved satisfactory results in many tasks. However, their performance in the task of person re-identification (ReID) has not been explored to date. This paper will investigate how to adapt them for the task of ReID. An intuitive idea is to fine-tune MLLM with ReID image-text datasets, and then use their visual encoder as a backbone for ReID. However, there still exist two apparent issues: (1) Designing instructions for ReID, MLLMs may overfit specific instructions, and designing a variety of instructions will lead to higher costs. (2) Latent image feature vectors from LLMs are not involved in loss computation. Instructional learning, aligning image-text features, results in indirect optimization and a learning objective that inadequately utilizes features, limiting effectiveness in person feature learning. To address these problems, this paper proposes MLLMReID: Multimodal Large Language Model-based ReID. Firstly, we proposed Common Instruction, a simple approach that leverages the essence ability of LLMs to continue writing, avoiding complex and diverse instruction design. Secondly, we proposed DirectReID, which effectively employs the latent image feature vectors of images outputted by LLMs in ReID tasks. The experimental results demonstrate the superiority of our method. We will open-source the code on GitHub.
翻訳日:2024-01-25 15:26:55 公開日:2024-01-24
# DDI-CoCo: 皮膚疾患検出における色コントラストの効果を理解するデータセット

DDI-CoCo: A Dataset For Understanding The Effect Of Color Contrast In Machine-Assisted Skin Disease Detection ( http://arxiv.org/abs/2401.13280v1 )

ライセンス: Link先を確認
Ming-Chang Chiu, Yingfei Wang, Yen-Ju Kuo, Pin-Yu Chen(参考訳) 皮膚のトーン 人口統計学的バイアスと一貫性のない人間のラベル付けは、皮膚科aiにおける課題を提起する。 我々は、皮膚疾患データセットの悪性度検出に対する皮膚色調以外の色のコントラストの影響について、別の角度で調査する:皮膚色調に加えて、病変領域と皮膚の色差も皮膚科AIモデルの悪性度検出性能に寄与する、と仮定する。 そこで本研究では,まず,各画像の色コントラストスコアを定量化し,小さなラベリング変動を提示することにより,ロバストなラベリング手法を提案する。 さらに, 本手法を多彩な肌色調と病理診断された皮膚疾患データセットddiに適用することで, \textbf{ddi-cocoデータセットを得ることができ, 高色差群と低色差群の性能差を観察できる。 この相違は、我々の仮説を支持する様々な最先端(SoTA)画像分類モデルにおいて一貫している。 さらに,肌の色調と色差効果の相互作用について検討し,色差が皮膚色調間のモデル性能バイアスの新たな原因となる可能性が示唆された。 我々の研究は皮膚疾患の検出を改善するために皮膚科のAIに補完的な角度を提供する。

Skin tone as a demographic bias and inconsistent human labeling poses challenges in dermatology AI. We take another angle to investigate color contrast's impact, beyond skin tones, on malignancy detection in skin disease datasets: We hypothesize that in addition to skin tones, the color difference between the lesion area and skin also plays a role in malignancy detection performance of dermatology AI models. To study this, we first propose a robust labeling method to quantify color contrast scores of each image and validate our method by showing small labeling variations. More importantly, applying our method to \textit{the only} diverse-skin tone and pathologically-confirmed skin disease dataset DDI, yields \textbf{DDI-CoCo Dataset}, and we observe a performance gap between the high and low color difference groups. This disparity remains consistent across various state-of-the-art (SoTA) image classification models, which supports our hypothesis. Furthermore, we study the interaction between skin tone and color difference effects and suggest that color difference can be an additional reason behind model performance bias between skin tones. Our work provides a complementary angle to dermatology AI for improving skin disease detection.
翻訳日:2024-01-25 15:20:20 公開日:2024-01-24
# AIアシスタントは、自分が知らないことを知っているか?

Can AI Assistants Know What They Don't Know? ( http://arxiv.org/abs/2401.13275v1 )

ライセンス: Link先を確認
Qinyuan Cheng and Tianxiang Sun and Xiangyang Liu and Wenwei Zhang and Zhangyue Yin and Shimin Li and Linyang Li and Kai Chen and Xipeng Qiu(参考訳) 近年、大規模言語モデル(llm)に基づくaiアシスタントは、対話、数学の問題解決、コード記述、ツールの使用など、多くのタスクで驚くべきパフォーマンスを示している。 LLMは世界の知識を集中的に持っているが、オープンドメインの質問応答のような知識集約的なタスクに直面しているときに、事実的誤りを犯す。 これらのAIアシスタントからの非現実的な反応は、実用的な応用において重大なリスクを引き起こす可能性がある。 我々は、AIアシスタントが知らない質問に答えることを拒否したことは、幻覚を減らし、アシスタントを真実にする重要な方法であると信じている。 そこで,本稿では,「AIアシスタントは,自分が知らないことを知っていて,自然言語で表現しているのか?」という質問を行う。 この質問に答えるために、我々は、既存のオープンドメインの質問応答データセットに基づいて、その既知の未知の質問を含むアシスタントのためのモデル固有の"I't know"(Idk)データセットを構築した。 次に、アシスタントを対応するidkデータセットにアライメントし、アライメント後の未知の質問への回答を拒否できるかどうかを観察する。 実験の結果、Idkデータセットと一致した後、アシスタントは未知の質問の多くに答えることを拒否した。 彼らが答えようとする質問に対して、精度はアライメント前よりもはるかに高い。

Recently, AI assistants based on large language models (LLMs) show surprising performance in many tasks, such as dialogue, solving math problems, writing code, and using tools. Although LLMs possess intensive world knowledge, they still make factual errors when facing some knowledge intensive tasks, like open-domain question answering. These untruthful responses from the AI assistant may cause significant risks in practical applications. We believe that an AI assistant's refusal to answer questions it does not know is a crucial method for reducing hallucinations and making the assistant truthful. Therefore, in this paper, we ask the question "Can AI assistants know what they don't know and express them through natural language?" To answer this question, we construct a model-specific "I don't know" (Idk) dataset for an assistant, which contains its known and unknown questions, based on existing open-domain question answering datasets. Then we align the assistant with its corresponding Idk dataset and observe whether it can refuse to answer its unknown questions after alignment. Experimental results show that after alignment with Idk datasets, the assistant can refuse to answer most its unknown questions. For questions they attempt to answer, the accuracy is significantly higher than before the alignment.
翻訳日:2024-01-25 15:19:56 公開日:2024-01-24
# 音声シーンセマンティクスを利用した音声インフュージョン自動カラー化

Audio-Infused Automatic Image Colorization by Exploiting Audio Scene Semantics ( http://arxiv.org/abs/2401.13270v1 )

ライセンス: Link先を確認
Pengcheng Zhao, Yanxiang Chen, Yang Zhao, Wei Jia, Zhao Zhang, Ronggang Wang and Richang Hong(参考訳) 画像の自動色付けは本質的に不確実性の問題であり、グレースケール画像の適切な色を推定するために、シーンの正確な意味的理解を必要とする。 最近のインタラクションベースの手法は目覚ましい性能を達成したが、自動着色のために現実的で正確な色を推測することは依然として非常に難しい課題である。 グレースケールシーンのセマンティック理解の難しさを軽減するため,本研究では,同一シーンに関する追加のセマンティック情報を含む対応する音声の利用を試みる。 具体的には,3段階からなる新しいaiaic(audio-infused automatic image colorization)ネットワークを提案する。 まず,カラー画像意味論を橋梁として,カラー画像意味論に導かれたカラー化ネットワークを事前学習する。 第2に、音声と映像の自然な共起を利用して、音声と映像のシーン間の色意味関係を学習する。 第3に、暗黙の音声意味表現を事前訓練されたネットワークに入力し、最終的にオーディオ誘導色化を実現する。 プロセス全体は、人間のアノテーションなしで自己管理的な方法で訓練される。 さらに、トレーニングおよびテストのために、オーディオ視覚色化データセットを確立する。 実験により、特に視覚的モダリティからしか理解できない場面では、音声誘導が自動着色性能を効果的に向上できることが示されている。

Automatic image colorization is inherently an ill-posed problem with uncertainty, which requires an accurate semantic understanding of scenes to estimate reasonable colors for grayscale images. Although recent interaction-based methods have achieved impressive performance, it is still a very difficult task to infer realistic and accurate colors for automatic colorization. To reduce the difficulty of semantic understanding of grayscale scenes, this paper tries to utilize corresponding audio, which naturally contains extra semantic information about the same scene. Specifically, a novel audio-infused automatic image colorization (AIAIC) network is proposed, which consists of three stages. First, we take color image semantics as a bridge and pretrain a colorization network guided by color image semantics. Second, the natural co-occurrence of audio and video is utilized to learn the color semantic correlations between audio and visual scenes. Third, the implicit audio semantic representation is fed into the pretrained network to finally realize the audio-guided colorization. The whole process is trained in a self-supervised manner without human annotation. In addition, an audiovisual colorization dataset is established for training and testing. Experiments demonstrate that audio guidance can effectively improve the performance of automatic colorization, especially for some scenes that are difficult to understand only from visual modality.
翻訳日:2024-01-25 15:19:34 公開日:2024-01-24
# 医学レポート生成のためのdual-modal dynamic traceback learning

Dual-modal Dynamic Traceback Learning for Medical Report Generation ( http://arxiv.org/abs/2401.13267v1 )

ライセンス: Link先を確認
Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Jinman Kim(参考訳) 臨床実践における医用画像への依存度の増加に伴い,医療用画像からの自動レポート生成が求められている。 既存のレポート生成手法は通常、エンコーダ-デコーダディープラーニングフレームワークを採用して、一方向のイメージとレポートのマッピングを構築する。 しかし、このような枠組みは画像と報告間の双方向の相互関連を無視しており、両者の内在的な医学的意味を関連付けるのが困難である。 最近の生成表現学習法は、画像とテキストの両モードからデュアルモーダル学習の利点を実証している。 しかし、これらの手法は、医療報告生成の2つの大きな欠点を示す。 1)形態的情報を取り込む傾向があり、微妙な病理的意味情報を取り込むのが困難である。 2) マスクされたテキストは、マスクされていない画像とテキストの両方に依存しており、推論が画像のみに基づく場合、必然的に性能が低下する。 本研究では,この2つの欠点を克服し,医用レポート生成のためのデュアルモーダル学習を実現するために,Dual-modal dynamic traceback Learning(DTrace)を用いた新たなレポート生成フレームワークを提案する。 これを実現するため、DTraceでは、自己評価により生成されたコンテンツのセマンティックな妥当性を制御するためのトレースバック機構を導入している。 さらに,画像とテキストのさまざまな比率に対応する動的学習戦略を導入し,推論中のテキスト入力に依存しないレポート生成を可能にした。 IU-Xray(英語版)とMIMIC-CXR(英語版)の2つのよく知られたデータセットに対する大規模な実験は、DTraceが最先端の医療レポート生成方法より優れていることを示している。

With increasing reliance on medical imaging in clinical practices, automated report generation from medical images is in great demand. Existing report generation methods typically adopt an encoder-decoder deep learning framework to build a uni-directional image-to-report mapping. However, such a framework ignores the bi-directional mutual associations between images and reports, thus incurring difficulties in associating the intrinsic medical meanings between them. Recent generative representation learning methods have demonstrated the benefits of dual-modal learning from both image and text modalities. However, these methods exhibit two major drawbacks for medical report generation: 1) they tend to capture morphological information and have difficulties in capturing subtle pathological semantic information, and 2) they predict masked text rely on both unmasked images and text, inevitably degrading performance when inference is based solely on images. In this study, we propose a new report generation framework with dual-modal dynamic traceback learning (DTrace) to overcome the two identified drawbacks and enable dual-modal learning for medical report generation. To achieve this, our DTrace introduces a traceback mechanism to control the semantic validity of generated content via self-assessment. Further, our DTrace introduces a dynamic learning strategy to adapt to various proportions of image and text input, enabling report generation without reliance on textual input during inference. Extensive experiments on two well-benchmarked datasets (IU-Xray and MIMIC-CXR) show that our DTrace outperforms state-of-the-art medical report generation methods.
翻訳日:2024-01-25 15:19:14 公開日:2024-01-24
# クロスドメイン検出の強化:適応型クラス認識コントラストトランス

Enhancing cross-domain detection: adaptive class-aware contrastive transformer ( http://arxiv.org/abs/2401.13264v1 )

ライセンス: Link先を確認
Ziru Zeng, Yue Ding, Hongtao Lu(参考訳) Recently,the detection transformer has gained substantial attention for its inherent minimal post-processing requirement.However,this paradigm relies on abundant training data,yet in the context of the cross-domain adaptation,insufficient labels in the target domain exacerbate issues of class imbalance and model performance degradation.To address these challenges, we propose a novel class-aware cross domain detection transformer based on the adversarial learning and mean-teacher framework.First,considering the inconsistencies between the classification and regression tasks,we introduce an IoU-aware prediction branch and exploit the consistency of classification and location scores to filter and reweight pseudo labels.Second, we devise a dynamic category threshold refinement to adaptively manage model confidence.Third,to alleviate the class imbalance,an instance-level class-aware contrastive learning module is presented to encourage the generation of discriminative features for each class,particularly benefiting minority classes.Experimental results across diverse domain-adaptive scenarios validate our method's effectiveness in improving performance and alleviating class imbalance issues,which outperforms the state-of-the-art transformer based methods.

Recently,the detection transformer has gained substantial attention for its inherent minimal post-processing requirement.However,this paradigm relies on abundant training data,yet in the context of the cross-domain adaptation,insufficient labels in the target domain exacerbate issues of class imbalance and model performance degradation.To address these challenges, we propose a novel class-aware cross domain detection transformer based on the adversarial learning and mean-teacher framework.First,considering the inconsistencies between the classification and regression tasks,we introduce an IoU-aware prediction branch and exploit the consistency of classification and location scores to filter and reweight pseudo labels.Second, we devise a dynamic category threshold refinement to adaptively manage model confidence.Third,to alleviate the class imbalance,an instance-level class-aware contrastive learning module is presented to encourage the generation of discriminative features for each class,particularly benefiting minority classes.Experimental results across diverse domain-adaptive scenarios validate our method's effectiveness in improving performance and alleviating class imbalance issues,which outperforms the state-of-the-art transformer based methods.
翻訳日:2024-01-25 15:18:48 公開日:2024-01-24
# ブロックチェーンにおけるトランザクションフィー低減のための再分配機構の設計

Designing Redistribution Mechanisms for Reducing Transaction Fees in Blockchains ( http://arxiv.org/abs/2401.13262v1 )

ライセンス: Link先を確認
Sankarshan Damle and Manisha Padala and Sujit Gujar(参考訳) ブロックチェーンはトランザクションフィーメカニズム(TFM)をデプロイし、どのユーザトランザクションをブロックに含めるかを決定し、支払い(トランザクション手数料)を決定する。 需要の増加とブロックリソースの不足は、ユーザー取引手数料の増加につながった。 これらのブロックチェーンはパブリックリソースであるため、これらのトランザクション手数料を減らすことが望ましい。 この目的のために、トランザクションフィー再分配メカニズム(TFRM)を導入し、トランザクション手数料を最小限に抑えるために、そのようなTFMから収集されたVCG支払いを再分配する。 古典的な再配布機構(RM)は、アロケーティブ・効率(AE)とユーザインセンティブ・コンパチビリティ(UIC)を確保しつつこれを達成します。 最初の結果は, RM を TFM に適用する非自明性を示した。 具体的には、取引手数料の削減が不可能であることを証明する。 (i)確認されていない取引は、返却を受け取らず、かつ、 (ii)鉱夫は、その機構を戦略的に操作することができる。 そこで我々は, 正直な鉱山労働者の個人的合理性に妥協し, 利用者に対して厳密な肯定的回答を保証するメカニズムである TFRM (\textsf{R-TFRM}) を提案する。 次に,マイナーの個性的合理性(期待値)と厳密な正の帰結を保証し,信頼されたオンチェーンランダム性を用いた, \emph{robust} と \emph{rational} tfrm (\textsf{r}$^2$\textsf{-tfrm}) を導入する。 この結果から、TFRMはパブリックブロックチェーンにおけるトランザクション手数料の削減に期待できる新たな方向性を提供することがわかった。

Blockchains deploy Transaction Fee Mechanisms (TFMs) to determine which user transactions to include in blocks and determine their payments (i.e., transaction fees). Increasing demand and scarce block resources have led to high user transaction fees. As these blockchains are a public resource, it may be preferable to reduce these transaction fees. To this end, we introduce Transaction Fee Redistribution Mechanisms (TFRMs) -- redistributing VCG payments collected from such TFM as rebates to minimize transaction fees. Classic redistribution mechanisms (RMs) achieve this while ensuring Allocative Efficiency (AE) and User Incentive Compatibility (UIC). Our first result shows the non-triviality of applying RM in TFMs. More concretely, we prove that it is impossible to reduce transaction fees when (i) transactions that are not confirmed do not receive rebates and (ii) the miner can strategically manipulate the mechanism. Driven by this, we propose \emph{Robust} TFRM (\textsf{R-TFRM}): a mechanism that compromises on an honest miner's individual rationality to guarantee strictly positive rebates to the users. We then introduce \emph{robust} and \emph{rational} TFRM (\textsf{R}$^2$\textsf{-TFRM}) that uses trusted on-chain randomness that additionally guarantees miner's individual rationality (in expectation) and strictly positive rebates. Our results show that TFRMs provide a promising new direction for reducing transaction fees in public blockchains.
翻訳日:2024-01-25 15:18:34 公開日:2024-01-24
# mf-aed-aec:マルチモーダル融合, asr誤り検出, asr誤り訂正による音声感情認識

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction ( http://arxiv.org/abs/2401.13260v1 )

ライセンス: Link先を確認
Jiajun He, Xiaohan Shi, Xingfeng Li, Tomoki Toda(参考訳) 音声感情認識(SER)における一般的なアプローチは、話者の感情を包括的に識別するために、音声情報とテキスト情報の両方を統合することである。 このアプローチの重要な問題は、テキストモダリティからのASRエラーがSERの性能を悪化させることである。 従来の研究では、補助的なASRエラー検出タスクを用いて、各単語の重みをASR仮説に適応的に割り当てることが提案されている。 しかし,本手法はテキスト中の意味情報の一貫性に対処しないため,改善可能性に制限がある。 さらに、異なるモジュラリティの固有の不均一性は、それらの表現間の分配ギャップをもたらし、融合が困難になる。 そこで本稿では、ASRテキストのセマンティックコヒーレンスを高めるために、ASRエラー検出(AED)とASRエラー補正(AEC)という2つの補助タスクを組み込み、また、モダリティ間の共有表現を学習するための新しいマルチモーダル融合(MF)手法を導入する。 本手法をMF-AED-AECと呼ぶ。 実験の結果、MF-AED-AECはベースラインモデルのマージン4.1\%を大きく上回ることがわかった。

The prevalent approach in speech emotion recognition (SER) involves integrating both audio and textual information to comprehensively identify the speaker's emotion, with the text generally obtained through automatic speech recognition (ASR). An essential issue of this approach is that ASR errors from the text modality can worsen the performance of SER. Previous studies have proposed using an auxiliary ASR error detection task to adaptively assign weights of each word in ASR hypotheses. However, this approach has limited improvement potential because it does not address the coherence of semantic information in the text. Additionally, the inherent heterogeneity of different modalities leads to distribution gaps between their representations, making their fusion challenging. Therefore, in this paper, we incorporate two auxiliary tasks, ASR error detection (AED) and ASR error correction (AEC), to enhance the semantic coherence of ASR text, and further introduce a novel multi-modal fusion (MF) method to learn shared representations across modalities. We refer to our method as MF-AED-AEC. Experimental results indicate that MF-AED-AEC significantly outperforms the baseline model by a margin of 4.1\%.
翻訳日:2024-01-25 15:18:04 公開日:2024-01-24
# UniMS-RAG:パーソナライズされた対話システムのためのマルチソース検索拡張生成

UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems ( http://arxiv.org/abs/2401.13256v1 )

ライセンス: Link先を確認
Hongru Wang, Wenyu Huang, Yang Deng, Rui Wang, Zezhong Wang, Yufei Wang, Fei Mi, Jeff Z. Pan, Kam-Fai Wong(参考訳) 大規模言語モデル(llms)は多くの翻訳言語理解と生成タスクにおいて例外的な能力を示している。 しかし、パーソナライゼーション問題は、特に対話システムに関わる複数の情報源に関して、いまだに非常に複雑な性質のままである。 パーソナライズされた応答を生成するための複数のソースの計画と利用を改善するため、まず、知識ソース選択、知識検索、応答生成の3つのサブタスクに分割する。 そこで我々は,これらの3つのサブタスクを異なる定式化してトレーニング中に同一のシーケンス・ツー・シーケンス・パラダイムに統一し,エビデンスを適応的に検索し,特別なトークン(行動トークンと評価トークン)を用いてオンデマンドで妥当性を評価する。 行動トークンを生成するための言語モデルの実現は、さまざまな知識ソースとの相互作用を促進する。 一方、評価トークンは、対話コンテキストと検索された証拠との間の関連スコアを測定する。 さらに、生成した応答を反復的に洗練する自己補充機構を慎重に設計する。 1) 生成した応答と回収された証拠との整合性スコア 2) 関連性スコア。 2つのパーソナライズされたデータセット(DuLeMonとKBP)の実験では、UniMS-RAGは、知識ソースの選択と応答生成タスクに対して、自分自身を統一的な方法で、最先端のパフォーマンスを達成する。 パーソナライズされた対話システムのための新しい視点を包括的に分析し,議論する。

Large Language Models (LLMs) has shown exceptional capabilities in many natual language understanding and generation tasks. However, the personalization issue still remains a much-coveted property, especially when it comes to the multiple sources involved in the dialogue system. To better plan and incorporate the use of multiple sources in generating personalized response, we firstly decompose it into three sub-tasks: Knowledge Source Selection, Knowledge Retrieval, and Response Generation. We then propose a novel Unified Multi-Source Retrieval-Augmented Generation system (UniMS-RAG) Specifically, we unify these three sub-tasks with different formulations into the same sequence-to-sequence paradigm during the training, to adaptively retrieve evidences and evaluate the relevance on-demand using special tokens, called acting tokens and evaluation tokens. Enabling language models to generate acting tokens facilitates interaction with various knowledge sources, allowing them to adapt their behavior to diverse task requirements. Meanwhile, evaluation tokens gauge the relevance score between the dialogue context and the retrieved evidence. In addition, we carefully design a self-refinement mechanism to iteratively refine the generated response considering 1) the consistency scores between the generated response and retrieved evidence; and 2) the relevance scores. Experiments on two personalized datasets (DuLeMon and KBP) show that UniMS-RAG achieves state-of-the-art performance on the knowledge source selection and response generation task with itself as a retriever in a unified manner. Extensive analyses and discussions are provided for shedding some new perspectives for personalized dialogue systems.
翻訳日:2024-01-25 15:17:36 公開日:2024-01-24
# 公式Twitter上での「あなたのエビデンス」に関するFalse Consensus : COVID-19の科学に関する議論

"Here's Your Evidence": False Consensus in Public Twitter Discussions of COVID-19 Science ( http://arxiv.org/abs/2401.13248v1 )

ライセンス: Link先を確認
Alexandros Efstratiou and Marina Efstratiou and Satrio Yudhoatmojo and Jeremy Blackburn and Emiliano De Cristofaro(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、一般大衆の間で議論されたこの話題に関する異例の科学論文を招いた。 本稿では,新型コロナウイルスの諸問題に関する科学的コンセンサスと公衆の議論が相反するかどうかを検討するための混合メソッド分析を提案する。 我々は,プレプリントサーバの要約のサンプルに基づいて科学的コンセンサスを推定し,これらの論文に言及するtwitter上の公開議論のボリュームと比較した。 アンチ・コンセンサス・ポストやユーザーは、全体としてはプロ・コンセンサス・ポストほど多くはないが、Twitter上では非常に過剰に表現されているため、誤ったコンセンサス効果をもたらす。 これにより、好意的な論文が不釣り合いに増幅され、新しい反コンセンサスユーザーのサインアップが流入する。 最後に、我々のコンテンツ分析では、アンチ・コンセンサス・ユーザーは科学的発見を誤って表現したり、科学者の主張を裏付ける努力の完全性に疑問を呈したりしている。

The COVID-19 pandemic brought about an extraordinary rate of scientific papers on the topic that were discussed among the general public, although often in biased or misinformed ways. In this paper, we present a mixed-methods analysis aimed at examining whether public discussions were commensurate with the scientific consensus on several COVID-19 issues. We estimate scientific consensus based on samples of abstracts from preprint servers and compare against the volume of public discussions on Twitter mentioning these papers. We find that anti-consensus posts and users, though overall less numerous than pro-consensus ones, are vastly over-represented on Twitter, thus producing a false consensus effect. This transpires with favorable papers being disproportionately amplified, along with an influx of new anti-consensus user sign-ups. Finally, our content analysis highlights that anti-consensus users misrepresent scientific findings or question scientists' integrity in their efforts to substantiate their claims.
翻訳日:2024-01-25 15:17:11 公開日:2024-01-24
# SEER:強化学習による構造化推論と説明の促進

SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning ( http://arxiv.org/abs/2401.13246v1 )

ライセンス: Link先を確認
Guoxin Chen and Kexin Tang and Chao Yang and Fuying Ye and Yu Qiao and Yiming Qian(参考訳) 質問回答システム(QA)の解釈可能性と信頼性を著しく向上させるため、質問から回答までの構造化された説明による推論プロセスの解明は基本的に重要である。 しかし、構造的説明は複雑な構造的推論を行うためにモデルを必要とするため、大きな課題が生じる。 既存のメソッドのほとんどは、教師付き学習による単一ステップ推論に重点を置いており、ステップ間の論理的依存関係を無視している。 一方、既存の強化学習(RL)に基づく手法は構造的関係を見落とし、構造的推論におけるRLの可能性を妨げる。 本稿では,構造的推論と説明を容易にする構造的回帰を最大化する手法であるSEERを提案する。 提案手法は,構造的推論に固有の階層構造と分岐構造を正確に記述し,状態間の複雑な関係を効果的に捉える。 また,様々な推論手順を細部まで考慮し,細粒度報酬関数を導入する。 SEERは最先端の手法を著しく上回り、EntailmentBankのRLベースの手法よりも6.9%向上し、STREETベンチマークの平均4.4%改善し、優れた効率とクロスデータセットの一般化性能を示した。

Elucidating the reasoning process with structured explanations from question to answer is fundamentally crucial, as it significantly enhances the interpretability and trustworthiness of question-answering (QA) systems. However, structured explanations demand models to perform intricate structured reasoning, which poses great challenges. Most existing methods focus on single-step reasoning through supervised learning, ignoring logical dependencies between steps. Meanwhile, existing reinforcement learning (RL)-based methods overlook the structured relationships, impeding RL's potential in structured reasoning. In this paper, we propose SEER, a novel method that maximizes a structure-based return to facilitate structured reasoning and explanation. Our proposed structure-based return precisely describes the hierarchical and branching structure inherent in structured reasoning, effectively capturing the intricate relationships between states. We also introduce a fine-grained reward function to meticulously delineate diverse reasoning steps. Extensive experiments show that SEER significantly outperforms state-of-the-art methods, achieving an absolute improvement of 6.9% over RL-based methods on EntailmentBank, a 4.4% average improvement on STREET benchmark, and exhibiting outstanding efficiency and cross-dataset generalization performance.
翻訳日:2024-01-25 15:16:51 公開日:2024-01-24
# 海洋における連続可変型量子通信

Continuous Variable Based Quantum Communication in the Ocean ( http://arxiv.org/abs/2401.13243v1 )

ライセンス: Link先を確認
Ramniwas Meena and Subhashish Banerjee(参考訳) 連続変数ベースの量子暗号(cv-qkd)は、量子情報科学における新たな分野であり、量子力学の原理を利用して通信プロトコルに対する前例のないセキュリティを提供する。 しかし、海洋環境は、その特性と特性によって量子通信に特有の課題をもたらす。 本研究では,水中量子通信用連続可変型量子鍵分布系におけるガウス光の透過に対する乱流の影響について検討する。 その目的は,誘発損失を定量的に解析し,その影響を緩和するための方法論を提案することである。 そこで我々は,光ビームの伝搬を異なる媒体で特徴付けるための包括的な枠組みを提供するABCD行列形式を広く採用する。 さらに,結果損失を評価し,提案システムの性能を評価するための数値シミュレーションフレームワークを開発した。 これらの数値シミュレーションフレームワークが海洋環境における量子通信システムの設計と最適化にもたらす影響を深く論じる。

Continuous Variable-Based Quantum Cryptography (CV-QKD) is an emerging field in quantum information science, offering unprecedented security for communication protocols by harnessing the principles of quantum mechanics. However, ocean environments pose unique challenges to quantum communication due to their distinct properties and characteristics. This work investigates the impact of turbulence on the transmission of Gaussian light beams used in a continuous variable-based quantum key distribution system for underwater quantum communication. The objective is to quantitatively analyze the induced losses and propose methodologies to mitigate their effects. To achieve this, we adopt the widely accepted ABCD matrix formalism, which provides a comprehensive framework for characterizing the propagation of optical beams through different media. Moreover, a numerical simulation framework is developed to assess the resulting losses and evaluate the performance of the proposed system. The implications of these numerical simulation frameworks for the design and optimization of quantum communication systems for oceanic environments are thoroughly discussed.
翻訳日:2024-01-25 15:16:29 公開日:2024-01-24
# 自己監督型学習による適応型クラウドソーシング

Adaptive Crowdsourcing Via Self-Supervised Learning ( http://arxiv.org/abs/2401.13239v1 )

ライセンス: Link先を確認
Anmol Kagrecha, Henrik Marklund, Benjamin Van Roy, Hong Jun Jeon, Richard Zeckhauser(参考訳) 一般的なクラウドソーシングシステムでは、多くのクラウドワーカーがグループ見積もりを作成するために提供した潜在量の推定値が平均される。 我々は、自己教師付き学習と新しいアグリゲーションスキームを活用する新しいアプローチ、Just-predict-othersを開発した。 このアプローチは、以前の量に対する見積もりに基づいて、クラウドワーカーに割り当てられた重みに適応する。 クラウドワーカー間でスキルが変化したり、見積が相関する場合、重み付けされた合計は平均よりも正確なグループ推定を提供する。 期待最大化のような既存のアルゴリズムは、少なくとも原則として、同様に正確なグループ推定を生成することができる。 しかし、ニューラルネットワークのような複雑なモデルが群集同士の関係を表現するために必要となると、計算の要求は面倒になる。 just-predict-othersはこのような複雑さと、他の多くの実用的な課題に対応している。 我々は、理論と計算研究を通して、予測の他者の有効性を分析する。 中でも,クラウドワーカー当たりのエンゲージメント数の増加に伴い,漸近的最適性を確立する。

Common crowdsourcing systems average estimates of a latent quantity of interest provided by many crowdworkers to produce a group estimate. We develop a new approach -- just-predict-others -- that leverages self-supervised learning and a novel aggregation scheme. This approach adapts weights assigned to crowdworkers based on estimates they provided for previous quantities. When skills vary across crowdworkers or their estimates correlate, the weighted sum offers a more accurate group estimate than the average. Existing algorithms such as expectation maximization can, at least in principle, produce similarly accurate group estimates. However, their computational requirements become onerous when complex models, such as neural networks, are required to express relationships among crowdworkers. Just-predict-others accommodates such complexity as well as many other practical challenges. We analyze the efficacy of just-predict-others through theoretical and computational studies. Among other things, we establish asymptotic optimality as the number of engagements per crowdworker grows.
翻訳日:2024-01-25 15:16:15 公開日:2024-01-24
# 単調性のない量子自然勾配

Quantum natural gradient without monotonicity ( http://arxiv.org/abs/2401.13237v1 )

ライセンス: Link先を確認
Toi Sasaki, Hideyuki Miyahara(参考訳) 自然言語勾配(NG)は、特にニューラルネットワークのような機械学習モデルのパラメータ推定において重要な役割を果たす情報幾何学的最適化手法である。 量子システムにNGを適用するために、量子自然勾配(QNG)を導入し、ノイズの多い中間スケールデバイスに利用した。 さらに、量子モンテカルロ法の性能を高めるために、確率的再構成法として知られるqngの数学的等価なアプローチが実装されている。 これらの手法は、単調な計量の一つである対称対数微分(SLD)計量に基づいていることに注意する必要がある。 これまでのところ、単調性は物理学における幾何学を構築するための指針原理であると信じられてきた。 本稿では,モノトニック性を排除した一般化QNGを提案する。 当初、単調性は従来のQNGが最適である重要な条件であることを示した。 次に,非単調QNGが収束速度の点から従来のQNGよりも優れていることを示す解析的および数値的証拠を提供する。

Natural gradient (NG) is an information-geometric optimization method that plays a crucial role, especially in the estimation of parameters for machine learning models like neural networks. To apply NG to quantum systems, the quantum natural gradient (QNG) was introduced and utilized for noisy intermediate-scale devices. Additionally, a mathematically equivalent approach to QNG, known as the stochastic reconfiguration method, has been implemented to enhance the performance of quantum Monte Carlo methods. It is worth noting that these methods are based on the symmetric logarithmic derivative (SLD) metric, which is one of the monotone metrics. So far, monotonicity has been believed to be a guiding principle to construct a geometry in physics. In this paper, we propose generalized QNG by removing the condition of monotonicity. Initially, we demonstrate that monotonicity is a crucial condition for conventional QNG to be optimal. Subsequently, we provide analytical and numerical evidence showing that non-monotone QNG outperforms conventional QNG based on the SLD metric in terms of convergence speed.
翻訳日:2024-01-25 15:16:02 公開日:2024-01-24
# コラボレーションの方法: クロスサイロフェデレーション学習における一般化性能の最大化に向けて

How to Collaborate: Towards Maximizing the Generalization Performance in Cross-Silo Federated Learning ( http://arxiv.org/abs/2401.13236v1 )

ライセンス: Link先を確認
Yuchang Sun and Marios Kountouris and Jun Zhang(参考訳) federated learning(fl)は、プライバシを保護可能な分散学習フレームワークとして、活発な注目を集めている。 本研究では,クライアントがトレーニング後にモデル所有者となるクロスサイロFLに着目し,モデルがローカルデータ上での一般化性能にのみ関心を持つ。 データの不均一性の問題により、すべてのクライアントに単一のFLトレーニングプロセスに参加するように要求すると、モデルの性能が低下する可能性がある。 共同作業の有効性を検討するため,まず,他者とのコラボレーションや個別のトレーニングを行う際のクライアント毎の一般化を導出する。 学習データと類似したデータ分布を持つ他のクライアントと協調することで、クライアントの一般化性能を向上できることを示す。 分析により、クライアントを複数の協調グループに分割することにより、クライアントユーティリティの最大化問題を定式化できる。 次に,グループ数を事前に修正する必要のない階層的クラスタリングに基づく協調学習(hcct)方式を提案する。 さらに,クライアント間のデータ類似性の影響を明らかにする汎用非凸損失関数に対するhcctの収束解析を行う。 大規模なシミュレーションではHCCTはベースラインスキームよりも優れた一般化性能を示し、一方特定のシナリオでは独立トレーニングや従来のFLに縮退する。

Federated learning (FL) has attracted vivid attention as a privacy-preserving distributed learning framework. In this work, we focus on cross-silo FL, where clients become the model owners after training and are only concerned about the model's generalization performance on their local data. Due to the data heterogeneity issue, asking all the clients to join a single FL training process may result in model performance degradation. To investigate the effectiveness of collaboration, we first derive a generalization bound for each client when collaborating with others or when training independently. We show that the generalization performance of a client can be improved only by collaborating with other clients that have more training data and similar data distribution. Our analysis allows us to formulate a client utility maximization problem by partitioning clients into multiple collaborating groups. A hierarchical clustering-based collaborative training (HCCT) scheme is then proposed, which does not need to fix in advance the number of groups. We further analyze the convergence of HCCT for general non-convex loss functions which unveils the effect of data similarity among clients. Extensive simulations show that HCCT achieves better generalization performance than baseline schemes, whereas it degenerates to independent training and conventional FL in specific scenarios.
翻訳日:2024-01-25 15:15:45 公開日:2024-01-24
# ランダムからインフォームドデータ選択へ--人間のアノテーションとマイノリティ学習を最適化する多様性に基づくアプローチ

From Random to Informed Data Selection: A Diversity-Based Approach to Optimize Human Annotation and Few-Shot Learning ( http://arxiv.org/abs/2401.13229v1 )

ライセンス: Link先を確認
Alexandre Alcoforado, Thomas Palmeira Ferraz, Lucas Hideki Okamura, Israel Campos Fama, Arnold Moya Lavado, B\'arbara Dias Bueno, Bruno Veloso, Anna Helena Reali Costa(参考訳) 自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。 選択肢は、データアノテーションにクラウドソーシングプラットフォームを使用することだ。 しかし、クラウドソーシングはアノテータの経験、一貫性、バイアスに関連する問題を導入している。 別の方法は、ゼロショットメソッドを使用することで、少数のショットや完全に教師されたメソッドと比較して制限がある。 大規模言語モデルによる最近の進歩は潜在的な可能性を示しているが、非常に限られたデータを持つ専門分野への適応に苦慮している。 したがって、最も一般的なアプローチは、初期データセットを構築するために一連のデータポイントにランダムにアノテートする人間自身である。 しかし、アノテートされるデータをランダムにサンプリングすることは、データの特性やモデルの特定のニーズを無視しているため、しばしば非効率である。 不均衡なデータセットを扱う場合、ランダムサンプリングは多数派クラスに偏りが強く、過剰な注釈付きデータが発生するため、状況は悪化する。 この問題に対処するため,本論文では,少量学習のための小さなデータセットを構築するための,自動的かつインフォームドなデータ選択アーキテクチャを提案する。 提案手法は,人間のアノテーションに選択したデータの量を最小限にし,その多様性を最大化し,モデル性能を向上させる。

A major challenge in Natural Language Processing is obtaining annotated data for supervised learning. An option is the use of crowdsourcing platforms for data annotation. However, crowdsourcing introduces issues related to the annotator's experience, consistency, and biases. An alternative is to use zero-shot methods, which in turn have limitations compared to their few-shot or fully supervised counterparts. Recent advancements driven by large language models show potential, but struggle to adapt to specialized domains with severely limited data. The most common approaches therefore involve the human itself randomly annotating a set of datapoints to build initial datasets. But randomly sampling data to be annotated is often inefficient as it ignores the characteristics of the data and the specific needs of the model. The situation worsens when working with imbalanced datasets, as random sampling tends to heavily bias towards the majority classes, leading to excessive annotated data. To address these issues, this paper contributes an automatic and informed data selection architecture to build a small dataset for few-shot learning. Our proposal minimizes the quantity and maximizes diversity of data selected for human annotation, while improving model performance.
翻訳日:2024-01-25 15:15:26 公開日:2024-01-24
# 一般化カテゴリー探索のためのメモリ一貫性誘導二分学習

Memory Consistency Guided Divide-and-Conquer Learning for Generalized Category Discovery ( http://arxiv.org/abs/2401.13325v1 )

ライセンス: Link先を確認
Yuanpeng Tu, Zhun Zhong, Yuxi Li, Hengshuang Zhao(参考訳) 一般カテゴリー発見(GCD)は、特定のトレーニングサンプルにカテゴリラベルの一部だけが割り当てられる半教師付き学習の現実的で挑戦的な設定に対処することを目的としている。 従来の手法では、すべてのサンプルに対して、ナイーブなコントラスト学習または教師なしクラスタリングスキームを用いるのが一般的である。 それでも、訓練中のモデルの歴史的予測における固有の臨界情報を無視しているのが普通である。 具体的には、かなりの数の有意な未ラベル標本が、それらの基礎的真理カテゴリに対応する一貫性のある歴史的予測をもたらすことを実証的に明らかにする。 そこで本研究では,メモリ一貫性をガイドするDivide-and-Conquer Learning framework (MCDL)を提案する。 本フレームワークでは,2つのメモリバンクを用いてラベルなしデータの履歴予測を行い,その予測整合性の観点から各サンプルの信頼性を計測する。 信頼性の指導により、ノイズラベルの悪影響を緩和しつつ、ラベルなしデータの識別情報を十分に活用するための分割学習戦略を設計できる。 複数のベンチマークにおける広範囲な実験結果から,本手法は,一般的な画像認識と意味的シフト(cubでは+8.4%,スタンドフォード車では+8.1%)のクラスにおいて,最先端モデルよりも大きなマージンで性能が向上することを示した。

Generalized category discovery (GCD) aims at addressing a more realistic and challenging setting of semi-supervised learning, where only part of the category labels are assigned to certain training samples. Previous methods generally employ naive contrastive learning or unsupervised clustering scheme for all the samples. Nevertheless, they usually ignore the inherent critical information within the historical predictions of the model being trained. Specifically, we empirically reveal that a significant number of salient unlabeled samples yield consistent historical predictions corresponding to their ground truth category. From this observation, we propose a Memory Consistency guided Divide-and-conquer Learning framework (MCDL). In this framework, we introduce two memory banks to record historical prediction of unlabeled data, which are exploited to measure the credibility of each sample in terms of its prediction consistency. With the guidance of credibility, we can design a divide-and-conquer learning strategy to fully utilize the discriminative information of unlabeled data while alleviating the negative influence of noisy labels. Extensive experimental results on multiple benchmarks demonstrate the generality and superiority of our method, where our method outperforms state-of-the-art models by a large margin on both seen and unseen classes of the generic image recognition and challenging semantic shift settings (i.e.,with +8.4% gain on CUB and +8.1% on Standford Cars).
翻訳日:2024-01-25 15:10:49 公開日:2024-01-24
# 重要な情報:アルゴリズム決定の影響を受ける人々の情報ニーズを探る

Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions ( http://arxiv.org/abs/2401.13324v1 )

ライセンス: Link先を確認
Timoth\'ee Schmude, Laura Koesten, Torsten M\"oller, Sebastian Tschiatschek(参考訳) AIシステムの説明は、アルゴリズム意思決定(ADM)によって影響を受ける人々の情報要求にほとんど対処しない。 影響を受ける利害関係者に重要な情報を伝達するこのギャップは、AI法のような規制フレームワークの理解と遵守を妨げる可能性がある。 このギャップに対処するため、我々は「xai novice question bank(xai novice question bank)」という2つの adm ユースケースにおける影響のあるステークホルダの情報ニーズのカタログ(雇用予測とヘルスモニタリング)を提示し、カテゴリデータ、システムコンテキスト、システム使用状況、システム仕様をカバーする。 インタヴュー調査で、参加者は質問に応じて説明を受けた。 参加者はさらに理解と決定の自信を報告し、説明を受けた後に自信が増す傾向にある一方で、参加者は理解が不完全であると感じた理由を理解できないなどの理解課題にも遭遇したことを示した。 説明は、システムのリスクとメリットに対する参加者の認識にさらに影響を与え、ユースケースに応じて確認または変更した。 リスクが高いと感じた場合、参加者は、なぜ、どのようにシステムを実行したのかといった、意図に関する説明に特に関心を示した。 本研究は,admシステムの導入を決定する際に関連する情報や課題の概要を提示することにより,影響のあるステークホルダーを説明可能性に含めることを支援することを目的とする。 私たちは、影響のあるステークホルダーの聴衆に将来の説明のデザインを知らせる6つの重要な含意のリストをまとめることで、調査結果を締めくくった。

Explanations of AI systems rarely address the information needs of people affected by algorithmic decision-making (ADM). This gap between conveyed information and information that matters to affected stakeholders can impede understanding and adherence to regulatory frameworks such as the AI Act. To address this gap, we present the "XAI Novice Question Bank": A catalog of affected stakeholders' information needs in two ADM use cases (employment prediction and health monitoring), covering the categories data, system context, system usage, and system specifications. Information needs were gathered in an interview study where participants received explanations in response to their inquiries. Participants further reported their understanding and decision confidence, showing that while confidence tended to increase after receiving explanations, participants also met understanding challenges, such as being unable to tell why their understanding felt incomplete. Explanations further influenced participants' perceptions of the systems' risks and benefits, which they confirmed or changed depending on the use case. When risks were perceived as high, participants expressed particular interest in explanations about intention, such as why and to what end a system was put in place. With this work, we aim to support the inclusion of affected stakeholders into explainability by contributing an overview of information and challenges relevant to them when deciding on the adoption of ADM systems. We close by summarizing our findings in a list of six key implications that inform the design of future explanations for affected stakeholder audiences.
翻訳日:2024-01-25 15:10:26 公開日:2024-01-24
# 合成狭帯域イメージングによるポリプ検出の深層学習

Deep Learning for Improved Polyp Detection from Synthetic Narrow-Band Imaging ( http://arxiv.org/abs/2401.13315v1 )

ライセンス: Link先を確認
Mathias Ramm Haugland, Hemin Ali Qadir, Ilangko Balasingham(参考訳) 大腸癌(CRC)の進行に対処するため,ポリープ検出および除去のためのスクリーニングプログラムの有用性が証明された。 大腸内視鏡検査はcrcスクリーニングに最適な方法であると考えられた。 検査を容易にするため,従来の白色光イメージング(WLI)のためのディープラーニングによる自動ポリープ検出法を開発した。 WLIと比較して、狭帯域画像(NBI)は大腸内視鏡におけるポリープ分類を改善するが、特別な装置を必要とする。 本稿では,nbiが利用できない場合,wliのオブジェクト検出を改善する前処理として,正規なwliでキャプチャされた画像を合成nbi(snbi)に変換するサイクガンベースのフレームワークを提案する。 本稿では,比較的類似したWLIデータセットと比較して,NBIにおけるポリプ検出の精度が向上することを示す。 第2に,提案したモダリティ変換により,WLIから生成されたSNBI画像のポリプ検出精度が向上することを示した。 これは,WLI-to-SNBI変換モデルが生成したSNBI画像のポリプ表面パターンの観察を促進できるためである。

To cope with the growing prevalence of colorectal cancer (CRC), screening programs for polyp detection and removal have proven their usefulness. Colonoscopy is considered the best-performing procedure for CRC screening. To ease the examination, deep learning based methods for automatic polyp detection have been developed for conventional white-light imaging (WLI). Compared with WLI, narrow-band imaging (NBI) can improve polyp classification during colonoscopy but requires special equipment. We propose a CycleGAN-based framework to convert images captured with regular WLI to synthetic NBI (SNBI) as a pre-processing method for improving object detection on WLI when NBI is unavailable. This paper first shows that better results for polyp detection can be achieved on NBI compared to a relatively similar dataset of WLI. Secondly, experimental results demonstrate that our proposed modality translation can achieve improved polyp detection on SNBI images generated from WLI compared to the original WLI. This is because our WLI-to-SNBI translation model can enhance the observation of polyp surface patterns in the generated SNBI images.
翻訳日:2024-01-25 15:09:59 公開日:2024-01-24
# パスワイズxva計算のための明示的なスキーム

An Explicit Scheme for Pathwise XVA Computations ( http://arxiv.org/abs/2401.13314v1 )

ライセンス: Link先を確認
Lokman Abbas-Turki (LPSM), St\'ephane Cr\'epey (LPSM), Botao Li (LPSM), Bouazza Saadeddine (LPSM, LaMME)(参考訳) xvas(クロス・バリュエーション・調整)の方程式に動機づけられ、変動マージンの資金源として資本が実用的と見なされる現実的な場合において、この係数は解のマルティンゲール部分の条件付き不足を伴う、予測されるbsdのクラスに対するシミュレーション/回帰スキームを導入する。 このスキームは時間的に明示的であり、ニューラルネットワークの最小二乗と量子レグレッションを組込み条件予測と予測不足計算に用いている。 後続のモンテカルロ検証手順では、各段階におけるスキームの回帰誤差を評価することができる。 ピカード反復に対するこのスキームの優位性は、高次元かつハイブリッドな市場/デフォルトリスク XVA ユースケースで示される。

Motivated by the equations of cross valuation adjustments (XVAs) in the realistic case where capital is deemed fungible as a source of funding for variation margin, we introduce a simulation/regression scheme for a class of anticipated BSDEs, where the coefficient entails a conditional expected shortfall of the martingale part of the solution. The scheme is explicit in time and uses neural network least-squares and quantile regressions for the embedded conditional expectations and expected shortfall computations. An a posteriori Monte Carlo validation procedure allows assessing the regression error of the scheme at each time step. The superiority of this scheme with respect to Picard iterations is illustrated in a high-dimensional and hybrid market/default risks XVA use-case.
翻訳日:2024-01-25 15:09:42 公開日:2024-01-24
# InstructDoc:インストラクションによるビジュアルドキュメント理解のゼロショット一般化のためのデータセット

InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions ( http://arxiv.org/abs/2401.13313v1 )

ライセンス: Link先を確認
Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki(参考訳) 本研究では,人間の手書きによる実世界の文書に対する質問応答や情報抽出など,様々な視覚的文書理解(VDU)タスクを完了させる問題について検討する。 この目的のために、InstructDocは、30の公開VDUデータセットからなる最初の大規模コレクションであり、それぞれに様々な命令を統一された形式で提供し、12のタスクを幅広くカバーし、オープンなドキュメントタイプ/フォーマットを含む。 さらに, vduタスクの一般化性能を向上させるために, 学習可能なブリッジングモジュールを用いて, 文書画像, 画像エンコーダ, 大型言語モデル(llms)を接続する新しい命令ベースの文書読解理解モデルinstructdrを設計した。 実験により、InstructDrは与えられた命令を通じて新しいVDUデータセット、タスク、ドメインに効果的に適応でき、特定のトレーニングなしで既存のマルチモーダルLLMやChatGPTより優れていることが示されている。

We study the problem of completing various visual document understanding (VDU) tasks, e.g., question answering and information extraction, on real-world documents through human-written instructions. To this end, we propose InstructDoc, the first large-scale collection of 30 publicly available VDU datasets, each with diverse instructions in a unified format, which covers a wide range of 12 tasks and includes open document types/formats. Furthermore, to enhance the generalization performance on VDU tasks, we design a new instruction-based document reading and understanding model, InstructDr, that connects document images, image encoders, and large language models (LLMs) through a trainable bridging module. Experiments demonstrate that InstructDr can effectively adapt to new VDU datasets, tasks, and domains via given instructions and outperforms existing multimodal LLMs and ChatGPT without specific training.
翻訳日:2024-01-25 15:09:28 公開日:2024-01-24
# ConTextual:大規模マルチモーダルモデルにおけるコンテキスト感性テキストリッチビジュアル推論の評価

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models ( http://arxiv.org/abs/2401.13311v1 )

ライセンス: Link先を確認
Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng(参考訳) aiの最近の進歩は、画像中のテキストとビジュアルコンテンツ(例えば、公共の場所で地図をナビゲートするなど)による共同推論を含む複雑なタスクを処理できる大規模なマルチモーダルモデル(lmm)の開発につながった。 本稿では,文脈に敏感なテキストリッチな視覚推論を行うLMMの能力を評価するために設計された命令からなる新しいベンチマークであるConTextualを紹介する。 ConTextualは、様々な現実世界のシナリオ(例えば、タイムリーディング、ナビゲーション、ショッピングなど)を強調し、テキストとビジュアル要素間の相互作用をより深く理解する必要がある。 以上の結果より,LMM,GPT-4V(ision)と人間の能力との間に30.8%の有意な性能差が認められた。 特に、gpt-4vはミームや引用解釈のような抽象的なカテゴリーで優れているが、全体的な性能は依然として人間より劣っていた。 また,人的評価に加えて,GPT-4を用いた自動評価指標を用いて,同様の性能格差の傾向を明らかにした。 また,様々な視覚的コンテキストをまたいで詳細な評価を行い,lmm設計の今後の発展にロバストなフレームワークを提供する質的分析を提供する。 https://con-textual.github.io/

Recent advancements in AI have led to the development of large multimodal models (LMMs) capable of processing complex tasks involving joint reasoning over text and visual content in the image (e.g., navigating maps in public places). This paper introduces ConTextual, a novel benchmark comprising instructions designed explicitly to evaluate LMMs' ability to perform context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse real-world scenarios (e.g., time-reading, navigation, shopping and more) demanding a deeper understanding of the interactions between textual and visual elements. Our findings reveal a significant performance gap of 30.8% between the best-performing LMM, GPT-4V(ision), and human capabilities using human evaluation indicating substantial room for improvement in context-sensitive text-rich visual reasoning. Notably, while GPT-4V excelled in abstract categories like meme and quote interpretation, its overall performance still lagged behind humans. In addition to human evaluations, we also employed automatic evaluation metrics using GPT-4, uncovering similar trends in performance disparities. We also perform a fine-grained evaluation across diverse visual contexts and provide qualitative analysis which provides a robust framework for future advancements in the LMM design. https://con-textual.github.io/
翻訳日:2024-01-25 15:09:09 公開日:2024-01-24
# chatterbox:マルチラウンドのマルチモーダル参照と接地

ChatterBox: Multi-round Multimodal Referring and Grounding ( http://arxiv.org/abs/2401.13307v1 )

ライセンス: Link先を確認
Yunjie Tian and Tianren Ma and Lingxi Xie and Jihao Qiu and Xi Tang and Yuan Zhang and Jianbin Jiao and Qi Tian and Qixiang Ye(参考訳) 本研究では,マルチモーダル・マルチラウンド・レファレンス・アンド・グラウンド(mrg)と呼ばれる新しいタスクのベースラインを確立し,インスタンスレベルのマルチモーダル対話の有望な方向性を開く。 この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。 CB-300Kと名付けられた新しいベンチマークは、複数ラウンドの対話、複数のインスタンス間の複雑な空間関係、既存のベンチマークに示されている以上の一貫性のある推論といった課題にまたがっている。 提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。 インスタンス領域をトークン化することにより、言語ブランチは参照情報を知覚する能力を取得する。 一方ChatterBoxは、視覚的な接地のためのトークン受信機にビジョンブランチに埋め込まれたクエリをフィードする。 CB-300Kと補助外部データの両方を用いて、モデル安定性とインスタンスレベルの理解能力を向上させる2段階最適化戦略が考案された。 実験により、ChatterBoxはMRGの既存のモデルよりも定量的かつ質的に優れており、複雑で正確な対話を伴うマルチモーダル対話シナリオへの新たな道が開かれた。 コード、データ、モデルは、https://github.com/sunsmarterjie/ChatterBox.comで入手できる。

In this study, we establish a baseline for a new task named multimodal multi-round referring and grounding (MRG), opening up a promising direction for instance-level multimodal dialogues. We present a new benchmark and an efficient vision-language model for this purpose. The new benchmark, named CB-300K, spans challenges including multi-round dialogue, complex spatial relationships among multiple instances, and consistent reasoning, which are beyond those shown in existing benchmarks. The proposed model, named ChatterBox, utilizes a two-branch architecture to collaboratively handle vision and language tasks. By tokenizing instance regions, the language branch acquires the ability to perceive referential information. Meanwhile, ChatterBox feeds a query embedding in the vision branch to a token receiver for visual grounding. A two-stage optimization strategy is devised, making use of both CB-300K and auxiliary external data to improve the model's stability and capacity for instance-level understanding. Experiments show that ChatterBox outperforms existing models in MRG both quantitatively and qualitatively, paving a new path towards multimodal dialogue scenarios with complicated and precise interactions. Code, data, and model are available at: https://github.com/sunsmarterjie/ChatterBox.
翻訳日:2024-01-25 15:08:45 公開日:2024-01-24
# MALA-500:大規模言語モデルの大規模言語適応

MaLA-500: Massive Language Adaptation of Large Language Models ( http://arxiv.org/abs/2401.13303v1 )

ライセンス: Link先を確認
Peiqin Lin, Shaoxiong Ji, J\"org Tiedemann, Andr\'e F. T. Martins, Hinrich Sch\"utze(参考訳) 大規模言語モデルは、自然言語処理の最先端技術である。 しかし、彼らの英語や限られた言語に対する主要な設計は、低リソース言語に対するその効果にかなりのギャップを生じさせる。 このギャップを埋めるため,幅広い534言語をカバーするように設計された新しい大規模言語モデルであるMALA-500を導入する。 また,MALA-500のトレーニングには語彙拡張を用い,Glot500-cを用いたLLaMA2の事前訓練を継続した。 sib-200実験により,mala-500は最先端のインコンテキスト学習結果を得た。 https://huggingface.co/MaLA-LMでMALA-500をリリースします。

Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM
翻訳日:2024-01-25 15:08:24 公開日:2024-01-24
# 機械学習による放射線分離症候群と臨床分離症候群の分類

Classification of Radiologically Isolated Syndrome and Clinically Isolated Syndrome with Machine-Learning Techniques ( http://arxiv.org/abs/2401.13301v1 )

ライセンス: Link先を確認
V Mato-Abad, A Labiano-Fontcuberta, S Rodriguez-Yanez, R Garcia-Vazquez, CR Munteanu, J Andrade-Garda, A Domingo-Santos, V Galan Sanchez-Seco, Y Aladro, ML Martinez-Gines, L Ayuso, J Benito-Leon(参考訳) 背景と目的: 多発性硬化症 (MS) を示唆する無症候性白質病変の脳におけるMRIによる予期せぬ検出は, 放射線学的に孤立性症候群 (RIS) と命名された。 早期MS(すなわち臨床分離症候群(CIS))とRISの差が臨床事象の発生であるので,それに対する診断基準があるためMRIに干渉することなく,臨床症状の検出を改善することが合理的である。 本研究の目的は, RIS 患者と CIS 患者を識別する手段として, 機械学習の分類手法を使用することであった。 方法: RIS群17例, CIS群17例のMRIバイオマーカー(皮質厚, 皮質および皮質下灰白質容積, ホワイトマター整合性)を併用し, マルチモーダル3TMRIを用いた。 結果: CIS と RIS の診断に最適なモデルは,左前頭前頭回体積と右扁桃体および右舌回回における分画異方性値の3つの特徴を用いて,Naive Bayes, Bagging および Multilayer Perceptron 分類法に基づいていた。 ナイーブベイズは最高精度[全分類, 0.765; 受信機動作特性 (auroc), 0.782]を得た。 結論: マルチモーダルMRIデータに適用した機械学習アプローチは, 最初期の臨床症状 (CIS, RIS) と78%の精度で区別できる可能性がある。 キーワード:バッグ、多層パーセプトロン、ネイブベイズ分類器、臨床分離症候群、拡散テンソルイメージング、機械学習、MRI、多発性硬化症、放射線分離症候群。

Background and purpose: The unanticipated detection by magnetic resonance imaging (MRI) in the brain of asymptomatic subjects of white matter lesions suggestive of multiple sclerosis (MS) has been named radiologically isolated syndrome (RIS). As the difference between early MS [i.e. clinically isolated syndrome (CIS)] and RIS is the occurrence of a clinical event, it is logical to improve detection of the subclinical form without interfering with MRI as there are radiological diagnostic criteria for that. Our objective was to use machine-learning classification methods to identify morphometric measures that help to discriminate patients with RIS from those with CIS. Methods: We used a multimodal 3-T MRI approach by combining MRI biomarkers (cortical thickness, cortical and subcortical grey matter volume, and white matter integrity) of a cohort of 17 patients with RIS and 17 patients with CIS for single-subject level classification. Results: The best proposed models to predict the diagnosis of CIS and RIS were based on the Naive Bayes, Bagging and Multilayer Perceptron classifiers using only three features: the left rostral middle frontal gyrus volume and the fractional anisotropy values in the right amygdala and right lingual gyrus. The Naive Bayes obtained the highest accuracy [overall classification, 0.765; area under the receiver operating characteristic (AUROC), 0.782]. Conclusions: A machine-learning approach applied to multimodal MRI data may differentiate between the earliest clinical expressions of MS (CIS and RIS) with an accuracy of 78%. Keywords: Bagging; Multilayer Perceptron; Naive Bayes classifier; clinically isolated syndrome; diffusion tensor imaging; machine-learning; magnetic resonance imaging; multiple sclerosis; radiologically isolated syndrome.
翻訳日:2024-01-25 15:08:10 公開日:2024-01-24
# 大規模言語モデル間のマルチモーダル議論による説明可能な有害ミーム検出に向けて

Towards Explainable Harmful Meme Detection through Multimodal Debate between Large Language Models ( http://arxiv.org/abs/2401.13298v1 )

ライセンス: Link先を確認
Hongzhan Lin, Ziyang Luo, Wei Gao, Jing Ma, Bo Wang, Ruichao Yang(参考訳) ソーシャルメディアの時代はインターネットのミームで溢れており、有害なものを明確に把握し、効果的に識別する必要がある。 このタスクは、表面テキストや画像を通して明示的に伝達されないミームに埋め込まれた暗黙的な意味のために、重大な課題を呈する。 しかし、既存の有害なミーム検出手法では、そのような暗黙的な意味を明らかにする読みやすい説明は提示されない。 本稿では,無害かつ有害な立場から相反する根拠を推論することにより,有害なミームを検出するための説明可能な手法を提案する。 具体的には,テキスト生成と推論における大規模言語モデル(llm)の強力な能力に触発されて,まずllm間のマルチモーダルな議論を行い,矛盾する議論に由来する説明を生成する。 そこで本研究では,有害性推論を議論する審査員として小言語モデルを微調整し,有害性論理と本質的マルチモーダル情報の融合を促進することを提案する。 このように、本モデルは、有害な議論と有害な議論の両方に由来するマルチモーダルな説明を利用して、複雑で暗黙的な有害なパターンよりも弁証的推論を行うことができる。 3つの公開ミームデータセットに対する大規模な実験により、我々の有害ミーム検出手法は最先端手法よりもはるかに優れた性能を示し、モデル予測のミーム有害性を説明する優れた能力を示している。

The age of social media is flooded with Internet memes, necessitating a clear grasp and effective identification of harmful ones. This task presents a significant challenge due to the implicit meaning embedded in memes, which is not explicitly conveyed through the surface text and image. However, existing harmful meme detection methods do not present readable explanations that unveil such implicit meaning to support their detection decisions. In this paper, we propose an explainable approach to detect harmful memes, achieved through reasoning over conflicting rationales from both harmless and harmful positions. Specifically, inspired by the powerful capacity of Large Language Models (LLMs) on text generation and reasoning, we first elicit multimodal debate between LLMs to generate the explanations derived from the contradictory arguments. Then we propose to fine-tune a small language model as the debate judge for harmfulness inference, to facilitate multimodal fusion between the harmfulness rationales and the intrinsic multimodal information within memes. In this way, our model is empowered to perform dialectical reasoning over intricate and implicit harm-indicative patterns, utilizing multimodal explanations originating from both harmless and harmful arguments. Extensive experiments on three public meme datasets demonstrate that our harmful meme detection approach achieves much better performance than state-of-the-art methods and exhibits a superior capacity for explaining the meme harmfulness of the model predictions.
翻訳日:2024-01-25 15:07:14 公開日:2024-01-24
# 映画における視覚物体化:映像解釈のための新しいaiタスクに向けて

Visual Objectification in Films: Towards a New AI Task for Video Interpretation ( http://arxiv.org/abs/2401.13296v1 )

ライセンス: Link先を確認
Julie Tores, Lucile Sassatelli, Hui-Yin Wu, Clement Bergman, Lea Andolfi, Victor Ecrement, Frederic Precioso, Thierry Devars, Magali Guaresi, Virginie Julliard, Sarah Lecossais(参考訳) 映画ジェンダー研究において、「男の視線」という概念は、登場人物が主題ではなく欲望の対象としてスクリーン上で描かれる方法を指す。 本稿では,フィルム内のキャラクタの客観化を検知する新しい映像解釈タスクを提案する。 その目的は、映画で操作される複雑な時間パターンの使用を解明し、定量化し、対象化の認知的知覚を生み出すことである。 1914年に映画研究や心理学で特定された客観化概念を専門家が密に注釈付けした映画クリップから作られた obygaze12 データセットを紹介する。 我々は、最近のビジョンモデルを評価し、タスクの実現可能性を示し、概念ボトルネックモデルに課題が残るかを示す。 新しいデータセットとコードはコミュニティに公開されています。

In film gender studies, the concept of 'male gaze' refers to the way the characters are portrayed on-screen as objects of desire rather than subjects. In this article, we introduce a novel video-interpretation task, to detect character objectification in films. The purpose is to reveal and quantify the usage of complex temporal patterns operated in cinema to produce the cognitive perception of objectification. We introduce the ObyGaze12 dataset, made of 1914 movie clips densely annotated by experts for objectification concepts identified in film studies and psychology. We evaluate recent vision models, show the feasibility of the task and where the challenges remain with concept bottleneck models. Our new dataset and code are made available to the community.
翻訳日:2024-01-25 15:06:29 公開日:2024-01-24
# 開量子系における輸送と情報

Transport and information in open quantum systems ( http://arxiv.org/abs/2401.13292v1 )

ライセンス: Link先を確認
Kasper Poulsen(参考訳) 第2次量子革命が近づくにつれ、量子熱力学の研究、特に熱流の研究は2つの主な理由によりさらに重要になっている。 まず、熱やその他の種類のノイズを理解することは、量子情報の保護とデコヒーレンス防止に不可欠である。 第二に、量子コンピュータ用に開発された量子システムの製造と制御能力は、全く新しい設定で量子熱力学を実験的に研究することができる。 本論文では、浴槽と接触する量子系を含むいくつかの系を理論的に実験的に利用可能な設定で研究する。 まず、ダークステート機構を用いて、熱電流の2つの整流またはダイオード設定を提案する。 ある系では、ダークステート機構は不完全だが非常に堅牢である。 他の系では、ダークステート機構は量子の絡み合いに依存しており、デコヒーレンスに対してより優れているがより脆弱である。 次に、同じエンタングルメント駆動のダークステート機構を使用して、ウィートストーンブリッジの量子バージョンが構築される。 いくつかの境界駆動量子システムを研究した後、学んだ教訓は強い相互作用するスピンの弱い相互作用鎖の一般線形鎖を用いて共鳴条件に一般化される。 最後の2章は、実現可能な量子システムで統計物理学を研究する能力に焦点を当てている。 まず、マックスウェルのデーモン設定を提案する。 デーモンコントロールキュートリットは2つの非マルコフ浴に結合される。 非マルコフ浴からの情報バックフローにより、デーモンは冷浴から熱浴へより効果的に熱を伝達することができる。 次に, トランスモン格子内の過流動相転移に対するモット絶縁体について検討した。 基底状態は、可変粒子数を有し、断熱処理を用いて調製される。 これにより、位相図全体の探索が可能になる。

With the approaching second quantum revolution, the study of quantum thermodynamics, particularly heat flow, has become even more relevant for two main reasons. First, understanding heat and other types of noise is essential for protecting quantum information and preventing decoherence. Second, the ability to manufacture and control quantum systems developed for the quantum computer allows for experimental study of quantum thermodynamics in entirely new settings. In this thesis, several systems involving quantum systems in contact with baths are studied theoretically in experimentally available settings. First, two rectification or diode setups for heat currents are proposed using a dark-state mechanism. In one system, the dark-state mechanism is imperfect but very robust. In the other system, the dark-state mechanism relies on quantum entanglement and is much better but more fragile towards decoherence. Next, a quantum version of the Wheatstone bridge is built using the same entanglement-powered dark state mechanism. After having studied several boundary-driven quantum systems, the lessons learned are generalized into resonance conditions using a general linear chain of weakly interacting chains of strongly interacting spins. The final two chapters focus on the ability to study statistical physics in realizable quantum systems. First, a Maxwell's demon setup is proposed. A demon-controlled qutrit is coupled to two non-Markovian baths. The information back-flow from the non-Markovian baths allows the demon to more effectively transfer heat from the cold bath to the hot bath. Second, the Mott insulator to superfluid phase transition in a lattice of transmons is examined. The ground state has a variable particle number and is prepared using adiabatic state preparation. This allows for the exploration of the entire phase diagram.
翻訳日:2024-01-25 15:05:45 公開日:2024-01-24
# 非エルミートフロケワニエスターク系のダイナミクス

Dynamics of non-Hermitian Floquet Wannier-Stark system ( http://arxiv.org/abs/2401.13286v1 )

ライセンス: Link先を確認
H. P. Zhang, K. L. Zhang, and Z. Song(参考訳) 強結合近似の枠組みにおける非エルミートフロケワニエ・スターク系の力学について検討し、フロケ周波数$\omega$でホッピング強度を周期関数とする。 瞬間ハミルトニアンのエネルギー準位は依然として等間隔であり、時間$t$ とホッピング項のエルミティキシティとは独立である。 オフ共鳴の場合、動力学はまだ周期的であり、占有エネルギーレベルは共鳴時に広がり、$t^z$の挙動を示す。 解析解析と数値シミュレーションにより,実ホッピング強度と複素ホッピング強度のレベルスレッディングダイナミクスは異なる挙動を示し,動的指数である$z=1$と$z=1/2$でよく説明されている。

We study the dynamics of the non-Hermitian Floquet Wannier-Stark system in the framework of the tight-binding approximation, where the hopping strength is a periodic function of time with Floquet frequency $\omega $. It is shown that the energy level of the instantaneous Hamiltonian is still equally spaced and independent of time $t$ and the Hermiticity of the hopping term. In the case of off resonance, the dynamics are still periodic, while the occupied energy levels spread out at the resonance, exhibiting $t^z$ behavior. Analytic analysis and numerical simulation show that the level-spreading dynamics for real and complex hopping strengths exhibit distinct behaviors and are well described by the dynamical exponents $z=1$ and $z=1/2$, respectively.
翻訳日:2024-01-25 15:04:45 公開日:2024-01-24
# lidar point cloudにおける小物体追跡:ターゲット認識プロトタイプときめ細かい探索領域の学習

Small Object Tracking in LiDAR Point Cloud: Learning the Target-awareness Prototype and Fine-grained Search Region ( http://arxiv.org/abs/2401.13285v1 )

ライセンス: Link先を確認
Shengjing Tian, Yinan Han, Xiuping Liu, Xiantong Zhao(参考訳) LiDARポイントクラウドにおける単一オブジェクト追跡は、環境認識において最も重要な部分の1つであり、小さなオブジェクトは現実のシナリオでは避けられず、正確な位置に重大な障壁をもたらす。 しかし,従来の手法は共通カテゴリの普遍的アーキテクチャの探索に重点を置いており,前景点の相対的欠如や乱れに対する耐性の低さから,小物体が長年にわたった課題を見落としている。 そこで本研究では,LiDARポイントクラウドにおいて,ターゲット認識プロトタイプマイニング (TAPM) モジュールと地域グリッド分割 (RGS) モジュールで構成される,小型物体追跡のためのSiameseネットワーク方式を提案する。 tapmモジュールは、マスキングデコーダの再構成機構を採用し、機能空間でプロトタイプを学習し、後続の小さなオブジェクトの配置を容易にする前景ポイントの存在を強調することを目的としている。 上記のプロトタイプを通して、興味のある小さな対象を強調することができるが、特徴地図の位置ずれは依然として高い追跡誤差をもたらす。 この問題を軽減するため,vit層とピクセルシャッフル層に基づいて検索領域の細粒度特性を復元するために,rssモジュールを提案する。 さらに、通常の設定とは別に、小さなオブジェクト上で異なるトラッカーの堅牢性を評価するためのスケーリング実験を精巧に設計する。 KITTI と nuScenes の大規模実験により,本手法は通常の物体に影響を及ぼすことなく,小型目標の追跡性能を効果的に向上できることを示した。

Single Object Tracking in LiDAR point cloud is one of the most essential parts of environmental perception, in which small objects are inevitable in real-world scenarios and will bring a significant barrier to the accurate location. However, the existing methods concentrate more on exploring universal architectures for common categories and overlook the challenges that small objects have long been thorny due to the relative deficiency of foreground points and a low tolerance for disturbances. To this end, we propose a Siamese network-based method for small object tracking in the LiDAR point cloud, which is composed of the target-awareness prototype mining (TAPM) module and the regional grid subdivision (RGS) module. The TAPM module adopts the reconstruction mechanism of the masked decoder to learn the prototype in the feature space, aiming to highlight the presence of foreground points that will facilitate the subsequent location of small objects. Through the above prototype is capable of accentuating the small object of interest, the positioning deviation in feature maps still leads to high tracking errors. To alleviate this issue, the RGS module is proposed to recover the fine-grained features of the search region based on ViT and pixel shuffle layers. In addition, apart from the normal settings, we elaborately design a scaling experiment to evaluate the robustness of the different trackers on small objects. Extensive experiments on KITTI and nuScenes demonstrate that our method can effectively improve the tracking performance of small targets without affecting normal-sized objects.
翻訳日:2024-01-25 15:04:29 公開日:2024-01-24
# refreshnet:階層リフレッシュによるマルチスケールダイナミクスの学習

RefreshNet: Learning Multiscale Dynamics through Hierarchical Refreshing ( http://arxiv.org/abs/2401.13282v1 )

ライセンス: Link先を確認
Junaid Farooq, Danish Rafiq, Pantelis R. Vlachas, Mohammad Abid Bazaz(参考訳) 予測複雑なシステムダイナミクス、特に長期予測は、エラーの蓄積と計算負荷によって永続的に妨げられる。 本研究では,これらの課題を克服するために開発されたマルチスケールフレームワークであるRefreshNetについて述べる。 RefreshNetは畳み込みオートエンコーダを組み込んで、ダイナミックスの本質的な特徴を捉えた低次潜時空間を識別し、遅延空間内の様々な時間分解で動作している複数のリカレントニューラルネットワーク(RNN)ブロックを戦略的に使用することにより、複数の時間スケールでの潜時ダイナミクスのキャプチャを可能にする。 RefreshNetのユニークな"リフレッシュ"メカニズムは、粗いブロックがより細かいブロックの入力をリセットし、エラーの蓄積を効果的に制御し緩和することを可能にする。 この設計は、特に長期予測において、計算効率と予測精度に関する既存の技術よりも優れていることを示す。 このフレームワークは、フィッツヒュー・ナグモ・システム、反応拡散方程式、倉本・シヴァシンスキー・ダイナミクスの3つのベンチマーク・アプリケーションを用いて検証される。 RefreshNetは、長期の予測精度と速度において最先端の手法を著しく上回り、複雑なシステムのモデリングと、それらの振る舞いの理解と予測における新たな道を開いた。

Forecasting complex system dynamics, particularly for long-term predictions, is persistently hindered by error accumulation and computational burdens. This study presents RefreshNet, a multiscale framework developed to overcome these challenges, delivering an unprecedented balance between computational efficiency and predictive accuracy. RefreshNet incorporates convolutional autoencoders to identify a reduced order latent space capturing essential features of the dynamics, and strategically employs multiple recurrent neural network (RNN) blocks operating at varying temporal resolutions within the latent space, thus allowing the capture of latent dynamics at multiple temporal scales. The unique "refreshing" mechanism in RefreshNet allows coarser blocks to reset inputs of finer blocks, effectively controlling and alleviating error accumulation. This design demonstrates superiority over existing techniques regarding computational efficiency and predictive accuracy, especially in long-term forecasting. The framework is validated using three benchmark applications: the FitzHugh-Nagumo system, the Reaction-Diffusion equation, and Kuramoto-Sivashinsky dynamics. RefreshNet significantly outperforms state-of-the-art methods in long-term forecasting accuracy and speed, marking a significant advancement in modeling complex systems and opening new avenues in understanding and predicting their behavior.
翻訳日:2024-01-25 15:04:00 公開日:2024-01-24
# 因果知覚

Causal Perception ( http://arxiv.org/abs/2401.13408v1 )

ライセンス: Link先を確認
Jose M. Alvarez and Salvatore Ruggieri(参考訳) 知覚は、2人が同じ情報を異なる方法で解釈する際に起こる。 個人の経験が解釈を決定するにつれ、意思決定のバイアスが生じる既知の現象であるにもかかわらず、自動意思決定(ADM)システムでは認識はほとんど見過ごされ続けている。 特に、フェアネス自体が文脈に特有であり、その解釈は誰が判断しているかに依存するため、admシステムのフェアネスまたはフェアユースにかなりの影響を与える可能性がある。 本研究では,因果推論に基づく認識を定式化し,個人による解釈行為を捉える。 また、個々の経験を、個人がもたらし、使用する追加の因果知識として定式化します。 さらに,認識を誘発する属性であるロード属性を定義し,議論する。 性別や人種などの敏感な属性は、ロードされた属性の明確な例である。 我々は、信頼と一貫性の因果特性に基づいて、不誠実かつ矛盾した因果知覚を2種類定義する。 我々は、一連の意思決定例を通してフレームワークを説明し、関連する公平性の適用について論じる。 この研究の目的は、認識を関心のパラメータとして位置づけ、標準の単一解釈 ADM 問題定式化の拡張に役立てることである。

Perception occurs when two individuals interpret the same information differently. Despite being a known phenomenon with implications for bias in decision-making, as individuals' experience determines interpretation, perception remains largely overlooked in automated decision-making (ADM) systems. In particular, it can have considerable effects on the fairness or fair usage of an ADM system, as fairness itself is context-specific and its interpretation dependent on who is judging. In this work, we formalize perception under causal reasoning to capture the act of interpretation by an individual. We also formalize individual experience as additional causal knowledge that comes with and is used by an individual. Further, we define and discuss loaded attributes, which are attributes prone to evoke perception. Sensitive attributes, such as gender and race, are clear examples of loaded attributes. We define two kinds of causal perception, unfaithful and inconsistent, based on the causal properties of faithfulness and consistency. We illustrate our framework through a series of decision-making examples and discuss relevant fairness applications. The goal of this work is to position perception as a parameter of interest, useful for extending the standard, single interpretation ADM problem formulation.
翻訳日:2024-01-25 14:57:21 公開日:2024-01-24
# 資源制約付き非同期フェデレーション学習システムにおけるシステムバイアスの緩和

Mitigating System Bias in Resource Constrained Asynchronous Federated Learning Systems ( http://arxiv.org/abs/2401.13366v1 )

ライセンス: Link先を確認
Jikun Gao, Ioannis Mavromatis, Peizheng Li, Pietro Carnelli, Aftab Khan(参考訳) フェデレーション学習(fl)システムは、異種デバイスや非識別的に分散したデータをクライアント間で扱う際のパフォーマンス上の課題に直面している。 本稿では,AFL(Asynchronous Federated Learning)デプロイメントにおける動的グローバルモデル集約手法を提案する。 本手法は,アップロード頻度に基づいてクライアントモデル更新の重み付けをスコアし,調整し,デバイス機能の違いに対応する。 さらに、ローカルモデルをアップロードしてアイドル時間を短縮し、トレーニング効率を向上させることで、クライアントに更新されたグローバルモデルも即座に提供します。 我々は,不均質な計算制約と非iidデータを持つ10個のシミュレーションクライアントからなる afl デプロイメントにおけるアプローチを評価した。 fashionmnistデータセットを用いたシミュレーションの結果, パパヤ法とフェダシンク法と比較して,グローバルモデルの精度が10%以上,19%向上していることが示された。 動的アグリゲーション手法は, クライアント資源と統計データの不均一性に制約があるにもかかわらず, 信頼性の高いグローバルモデルトレーニングを可能にする。 これにより、現実世界のFLデプロイメントの堅牢性とスケーラビリティが向上する。

Federated learning (FL) systems face performance challenges in dealing with heterogeneous devices and non-identically distributed data across clients. We propose a dynamic global model aggregation method within Asynchronous Federated Learning (AFL) deployments to address these issues. Our aggregation method scores and adjusts the weighting of client model updates based on their upload frequency to accommodate differences in device capabilities. Additionally, we also immediately provide an updated global model to clients after they upload their local models to reduce idle time and improve training efficiency. We evaluate our approach within an AFL deployment consisting of 10 simulated clients with heterogeneous compute constraints and non-IID data. The simulation results, using the FashionMNIST dataset, demonstrate over 10% and 19% improvement in global model accuracy compared to state-of-the-art methods PAPAYA and FedAsync, respectively. Our dynamic aggregation method allows reliable global model training despite limiting client resources and statistical data heterogeneity. This improves robustness and scalability for real-world FL deployments.
翻訳日:2024-01-25 14:57:04 公開日:2024-01-24
# ダンスをしたい人:複数人によるゼロショットの人間のダンス生成

Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons ( http://arxiv.org/abs/2401.13363v1 )

ライセンス: Link先を確認
Zhe Xu, Kun Wei, Xu Yang, Cheng Deng(参考訳) ヒューマン・ダンス・ジェネレーション(HDG)は、実写映像と運転ポーズのシーケンスからリアルな映像を合成することを目的としている。 大きな成功にもかかわらず、既存の手法は特定の背景を持つ1人のビデオに限られる一方で、複数の人物と複雑な背景を持つ現実のシナリオの一般化性は依然として不明である。 hdgモデルの一般化性を体系的に測定するために,構成的ヒトダンス生成(chdg)のタスク,データセット,評価プロトコルを提案する。 cHDGの最先端手法を評価することで,実世界のシナリオに一般化できないことを実証的に見出した。 そこで本研究では,任意の人物や背景に整合した映像を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。 具体的には、単純なddimやnullテキストインバージョンとは対照的に、まず、ノイズの多い潜在コードと初期化テキスト埋め込みを得るためのポーズ対応インバージョン法を示し、構成された参照画像を正確に再構成する。 そこで本研究では,映像から直接映像を生成することで,映像を合成し,一般化可能なテキスト埋め込みの集合を最適化する合成拡張戦略を提案する。 さらに、各逆ステップにおける推定クリーン画像の背景およびキーポイントを基準画像のそれに近いものに促進し、さらに生成されたビデオの時間的一貫性を向上させるために、整合性誘導サンプリングを精査する。 定性的かつ定量的な結果は,我々のアプローチの有効性と優位性を示している。

Human dance generation (HDG) aims to synthesize realistic videos from images and sequences of driving poses. Despite great success, existing methods are limited to generating videos of a single person with specific backgrounds, while the generalizability for real-world scenarios with multiple persons and complex backgrounds remains unclear. To systematically measure the generalizability of HDG models, we introduce a new task, dataset, and evaluation protocol of compositional human dance generation (cHDG). Evaluating the state-of-the-art methods on cHDG, we empirically find that they fail to generalize to real-world scenarios. To tackle the issue, we propose a novel zero-shot framework, dubbed MultiDance-Zero, that can synthesize videos consistent with arbitrary multiple persons and background while precisely following the driving poses. Specifically, in contrast to straightforward DDIM or null-text inversion, we first present a pose-aware inversion method to obtain the noisy latent code and initialization text embeddings, which can accurately reconstruct the composed reference image. Since directly generating videos from them will lead to severe appearance inconsistency, we propose a compositional augmentation strategy to generate augmented images and utilize them to optimize a set of generalizable text embeddings. In addition, consistency-guided sampling is elaborated to encourage the background and keypoints of the estimated clean image at each reverse step to be close to those of the reference image, further improving the temporal consistency of generated videos. Extensive qualitative and quantitative results demonstrate the effectiveness and superiority of our approach.
翻訳日:2024-01-25 14:56:47 公開日:2024-01-24
# ノイズラベル対策のためのdebiased sample selection

Debiased Sample Selection for Combating Noisy Labels ( http://arxiv.org/abs/2401.13360v1 )

ライセンス: Link先を確認
Qi Wei, Lei Feng, Haobo Wang, Bo An(参考訳) ノイズの多いラベルによる学習は、ラベルが破損したトレーニングセットによってモデルの一般化を保証することを目的としている。 サンプル選択戦略は、モデルトレーニングのためにラベル信頼部分集合を選択することで、有望な性能を達成する。 本稿では,既存のサンプル選択手法が,不均衡選択集合として表されるデータとトレーニングバイアスと,実際に蓄積誤差の両方に苦しむことを実証的に明らかにする。 しかし、前回の研究ではトレーニングバイアスのみが処理された。 この制限に対処するため,サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。 具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。 従来のダブルブランチネットワークと比較して,より少ないパラメータでトレーニングしながら,これらの専門家をセンセンシングすることで,選択と予測のパフォーマンスが向上する。 一方,データバイアスを軽減するため,重みに基づく2つのデータサンプリングに基づく混合サンプリング戦略を提案する。 2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルはサンプリング戦略によって容易に引き起こされるスパース表現を避けながら、不均衡なトレーニングセットの効果を緩和する。 大規模な実験と分析は、ITEMの有効性を示す。 私たちのコードは、このurl \href{https://github.com/1998v7/ITEM}{ITEM}で利用可能です。

Learning with noisy labels aims to ensure model generalization given a label-corrupted training set. The sample selection strategy achieves promising performance by selecting a label-reliable subset for model training. In this paper, we empirically reveal that existing sample selection methods suffer from both data and training bias that are represented as imbalanced selected sets and accumulation errors in practice, respectively. However, only the training bias was handled in previous studies. To address this limitation, we propose a noIse-Tolerant Expert Model (ITEM) for debiased learning in sample selection. Specifically, to mitigate the training bias, we design a robust network architecture that integrates with multiple experts. Compared with the prevailing double-branch network, our network exhibits better performance of selection and prediction by ensembling these experts while training with fewer parameters. Meanwhile, to mitigate the data bias, we propose a mixed sampling strategy based on two weight-based data samplers. By training on the mixture of two class-discriminative mini-batches, the model mitigates the effect of the imbalanced training set while avoiding sparse representations that are easily caused by sampling strategies. Extensive experiments and analyses demonstrate the effectiveness of ITEM. Our code is available at this url \href{https://github.com/1998v7/ITEM}{ITEM}.
翻訳日:2024-01-25 14:56:18 公開日:2024-01-24
# Pose-only Imaging Geometryに基づく線形相対ポース推定

Linear Relative Pose Estimation Founded on Pose-only Imaging Geometry ( http://arxiv.org/abs/2401.13357v1 )

ライセンス: Link先を確認
Qi Cai, Xinrui Li, Yuanxin Wu(参考訳) 2視点相対推定において、画像マッチング異常値の効率的かつ正確な処理は重要な問題である。 RANSAC法は極小点対が不整合であることを必要とする。 本稿では,n$(n \geq 6$)点対に対する線形相対ポーズ推定アルゴリズムを提案する。 提案アルゴリズムは平面デジェネレーションシーンの処理が可能であり,デジェネレーションのかなりの割合の存在下で頑健さと精度を高めることができる。 具体的には、線形グローバル翻訳(LiGT)制約を反復再重み付き最小二乗法(IRLS)とRANSACの戦略に組み込んで、堅牢な外乱除去を実現する。 Strechaデータセットのシミュレーションと実検により、提案アルゴリズムは、80%の外れ値に対して2$\sim$10倍の相対的な回転精度向上を達成することを示した。

How to efficiently and accurately handle image matching outliers is a critical issue in two-view relative estimation. The prevailing RANSAC method necessitates that the minimal point pairs be inliers. This paper introduces a linear relative pose estimation algorithm for n $( n \geq 6$) point pairs, which is founded on the recent pose-only imaging geometry to filter out outliers by proper reweighting. The proposed algorithm is able to handle planar degenerate scenes, and enhance robustness and accuracy in the presence of a substantial ratio of outliers. Specifically, we embed the linear global translation (LiGT) constraint into the strategies of iteratively reweighted least-squares (IRLS) and RANSAC so as to realize robust outlier removal. Simulations and real tests of the Strecha dataset show that the proposed algorithm achieves relative rotation accuracy improvement of 2 $\sim$ 10 times in face of as large as 80% outliers.
翻訳日:2024-01-25 14:55:58 公開日:2024-01-24
# EndoGaussian: 変形性内視鏡組織再建のためのシングルビューダイナミックガウススプラッティング

EndoGaussians: Single View Dynamic Gaussian Splatting for Deformable Endoscopic Tissues Reconstruction ( http://arxiv.org/abs/2401.13352v1 )

ライセンス: Link先を確認
Yangsen Chen, Hao Wang(参考訳) 内視鏡的ビデオから変形可能な軟体組織の正確な3D再構成は、VR手術や医用画像解析などの医療応用において重要な課題である。 既存の方法は、しばしば、その実用性を制限する、幻覚組織部分の正確さと曖昧さに苦しむ。 本研究では,動的内視鏡3D再構成にガウススプラッティングを用いた新しいアプローチであるEndoGaussiansを紹介する。 この手法は、従来のNeRFベースの手法の限界を克服し、ガウススプラッティングのこの文脈での初めての使用を示す。 本手法は,各種内視鏡データセットの定量的評価により,新しい最先端規格を定めている。 これらの進歩により,本手法は医療従事者にとって有望なツールとなり,医療分野の実践的応用のために,より信頼性が高く効率的な3D再構成を提供する。

The accurate 3D reconstruction of deformable soft body tissues from endoscopic videos is a pivotal challenge in medical applications such as VR surgery and medical image analysis. Existing methods often struggle with accuracy and the ambiguity of hallucinated tissue parts, limiting their practical utility. In this work, we introduce EndoGaussians, a novel approach that employs Gaussian Splatting for dynamic endoscopic 3D reconstruction. This method marks the first use of Gaussian Splatting in this context, overcoming the limitations of previous NeRF-based techniques. Our method sets new state-of-the-art standards, as demonstrated by quantitative assessments on various endoscope datasets. These advancements make our method a promising tool for medical professionals, offering more reliable and efficient 3D reconstructions for practical applications in the medical field.
翻訳日:2024-01-25 14:55:43 公開日:2024-01-24
# 減衰したJaynes-Cummingsモデルの固有モード解析

Eigenmode analysis of the damped Jaynes-Cummings model ( http://arxiv.org/abs/2401.13348v1 )

ライセンス: Link先を確認
L.G. Suttorp(参考訳) キャビティ減衰を伴うJaynes-Cummingsモデルの密度行列要素の生成関数は、特定の時間的挙動によって特徴づけられる固有モードによって解析される。 これらの固有モジュラーは、特定の一般化された超幾何関数に比例する。 生成関数におけるこれらの固有モードの相対重みはモデルの初期条件によって決定される。 これらの重みは随伴モードを含む直交関係を導出することによって見出される。 例えば、時間依存密度行列要素と関連する因子モーメントが、生成関数の固有モード分解からどのように抽出されるかを示す。

The generating functions for density matrix elements of the Jaynes-Cummings model with cavity damping are analysed in terms of their eigenmodes, which are characterised by a specific temporal behaviour. These eigenmodes are shown to be proportional to particular generalised hypergeometric functions. The relative weights of these eigenmodes in the generating functions are determined by the initial conditions of the model. These weights are found by deriving orthogonality relations involving adjoint modes. In an example it is shown how the time-dependent density matrix elements and the related factorial moments can be extracted from the eigenmode decompositions of the generating functions.
翻訳日:2024-01-25 14:55:30 公開日:2024-01-24
# UMBRELLA IoTテストベッドにおけるAIユースケースの総合的な探索

Past, Present, Future: A Comprehensive Exploration of AI Use Cases in the UMBRELLA IoT Testbed ( http://arxiv.org/abs/2401.13346v1 )

ライセンス: Link先を確認
Peizheng Li, Ioannis Mavromatis, Aftab Khan(参考訳) UMBRELLAは、200以上のマルチセンサマルチワイヤレスノード、20のコラボレーティブロボット、エッジインテリジェンス対応デバイスを備えた、大規模でオープンアクセス可能なIoT(Internet of Things)エコシステムである。 本稿では,現実のIoTシステムにおけるUMBRELLAの実装と将来的な人工知能(AI)機能に関するガイドを提供する。 既存のUMBRELLAアプリケーションは4つあります。 1)問題の検出及びメンテナンス警告のトリガーのための自動街灯監視 2 低コストで空気の質感を高める建築環境のデジタル双生児。 3)コミュニケーションのオーバーヘッドを減らすための大規模フェデレーション学習フレームワーク 4)悪意のあるアクティビティを識別するコンテナ化されたアプリケーションに対する侵入検知。 さらに、UMBRELLAのポテンシャルは将来のスマートシティと、セマンティックコミュニケーションとマルチエージェント計画によって強化されたマルチロボットクラウドセンシングアプリケーションのために概説されている。 最後に、上記のユースケースを実現するために、UMBRELLAモデルパイプラインを自動化し、信頼を確立するための、カスタマイズされたMLOpsプラットフォームの必要性について論じる。

UMBRELLA is a large-scale, open-access Internet of Things (IoT) ecosystem incorporating over 200 multi-sensor multi-wireless nodes, 20 collaborative robots, and edge-intelligence-enabled devices. This paper provides a guide to the implemented and prospective artificial intelligence (AI) capabilities of UMBRELLA in real-world IoT systems. Four existing UMBRELLA applications are presented in detail: 1) An automated streetlight monitoring for detecting issues and triggering maintenance alerts; 2) A Digital twin of building environments providing enhanced air quality sensing with reduced cost; 3) A large-scale Federated Learning framework for reducing communication overhead; and 4) An intrusion detection for containerised applications identifying malicious activities. Additionally, the potential of UMBRELLA is outlined for future smart city and multi-robot crowdsensing applications enhanced by semantic communications and multi-agent planning. Finally, to realise the above use-cases we discuss the need for a tailored MLOps platform to automate UMBRELLA model pipelines and establish trust.
翻訳日:2024-01-25 14:55:21 公開日:2024-01-24
# 記号計算のための機械学習におけるデータセットとパラダイム:CADを事例として

Lessons on Datasets and Paradigms in Machine Learning for Symbolic Computation: A Case Study on CAD ( http://arxiv.org/abs/2401.13343v1 )

ライセンス: Link先を確認
Tereso del R\'io and Matthew England(参考訳) シンボリック計算アルゴリズムとそのコンピュータ代数学システムにおける実装は、しばしば出力の正確性に影響しないが、必要なリソースに大きな影響を与える選択を含んでいる。 本研究は, 記号計算における機械学習の利用, 特に, 機械学習に先立ってデータセットを分析することの重要性, 活用可能なさまざまな機械学習パラダイムについて述べる。 本研究では, 円柱代数分解における変数順序付けの選択について検討するが, 学習した教訓は記号計算の他の決定にも適用できると期待する。 変数順序決定に関して不均衡であることがわかったアプリケーションから得られたサンプルの既存のデータセットを利用する。 我々は,データセットのバランスとさらなる拡張を可能にする多項式系問題に対する拡張手法を導入し,機械学習の結果を平均で28\%,38\%改善した。 次に、既存の機械学習手法で問題に使用される$-$分類が回帰パラダイムに再キャストされる可能性を実証する。 これはパフォーマンスに根本的な変化はないが、選択のために方法論が適用可能な範囲を広げている。

Symbolic Computation algorithms and their implementation in computer algebra systems often contain choices which do not affect the correctness of the output but can significantly impact the resources required: such choices can benefit from having them made separately for each problem via a machine learning model. This study reports lessons on such use of machine learning in symbolic computation, in particular on the importance of analysing datasets prior to machine learning and on the different machine learning paradigms that may be utilised. We present results for a particular case study, the selection of variable ordering for cylindrical algebraic decomposition, but expect that the lessons learned are applicable to other decisions in symbolic computation. We utilise an existing dataset of examples derived from applications which was found to be imbalanced with respect to the variable ordering decision. We introduce an augmentation technique for polynomial systems problems that allows us to balance and further augment the dataset, improving the machine learning results by 28\% and 38\% on average, respectively. We then demonstrate how the existing machine learning methodology used for the problem $-$ classification $-$ might be recast into the regression paradigm. While this does not have a radical change on the performance, it does widen the scope in which the methodology can be applied to make choices.
翻訳日:2024-01-25 14:55:04 公開日:2024-01-24
# エベレット多元論における決定不能命題としての量子崩壊

Quantum collapse as undecidable proposition in an Everettian multiverse ( http://arxiv.org/abs/2401.13336v1 )

ライセンス: Link先を確認
Fabrizio Tamburini and Ignazio Licata(参考訳) 我々の宇宙の表現は、記号、数、演算子、規則、決定不可能な命題の列で成り立っており、古典的、量子的、確率的チューリングマシンで表現される。 それぞれの表現は宇宙の物理的部分集合であり、空間と時間における事象のメタ構造であり、我々が内部観察者である宇宙の進化に積極的に関与する。 進化は、宇宙の局所事象を発生させる観測者の相補的な集合の局所波動関数の崩壊に由来する、局所事象の決定論的列である量子測定である。 これらの仮定により、宇宙とその進化は、大域的対象環境のデコヒーレンスを失うことなく意味的に閉じた構造を、内部観測者から構造を決定論的に決定できない意味論的抽象を持つフォン・ノイマンの普遍的な構成子として記述する。 意味的に閉じた構造において、コンストラクタの意味論的抽象を記述する特定の事象の実現は、メタ構造におけるコンストラクタの状態の選択、量子測定の特定の結果からの多世界のエベレットシナリオ、内部観測者に対する古典的なG\"odel un決定不可能な命題、宇宙の記述の限界と可能な宇宙のシミュレーションという観点から、宇宙の進化の「どちらの方法」を見つける問題である。

Our representation of the Universe is built with sequences of symbols, numbers, operators, rules and undecidable propositions defining our mathematical truths, represented either by classical, quantum and probabilistic Turing Machines containing intrinsic randomness. Each representation is at all effects a physical subset of the Universe, a metastructure of events in space and time, which actively participate to the evolution of the Universe as we are internal observers. The evolution is a deterministic sequence of local events, quantum measurements, originated from the local wavefunction collapse of the complementary set of the observers that generate the local events in the Universe. With these assumptions, the Universe and its evolution are described in terms of a semantically closed structure without a global object-environment loss of decoherence as a von Neumann's universal constructor with a semantical abstract whose structure cannot be decided deterministically a-priori from an internal observer. In a semantically closed structure the realization of a specific event writing the semantical abstract of the constructor is a problem that finds a "which way" for the evolution of the Universe in terms of a choice of the constructor's state in a metastructure, the many-world Everett scenario from the specific result of a quantum measurement, a classical G\"odel undecidable proposition for an internal observer, exposing the limits of our description and possible simulation of the Universe.
翻訳日:2024-01-25 14:54:44 公開日:2024-01-24
# ニューラルネットワークの完全ベイズ的重要度テスト

Full Bayesian Significance Testing for Neural Networks ( http://arxiv.org/abs/2401.13335v1 )

ライセンス: Link先を確認
Zehua Liu, Zimeng Li, Jingyuan Wang, Yue He(参考訳) 重要試験は、人口分布に関する命題が真実であるか否かを判断することを目的としている。 しかしながら、伝統的な意義テストはテスト統計の分布を導出する必要があり、複雑な非線形関係を扱うことができない。 本稿では,従来の手法における関係性の特徴付けの限界を克服するために,ニューラルネットワークの完全ベイズ的重要度テストを行うことを提案する。 ベイズニューラルネットワークを用いて、非線形および多次元の関係を小さな誤差に適合させ、エビデンス値を計算することによってハード理論的導出を避ける。 さらに、 \textit{n}fbstは、グローバルな重要性だけでなく、以前のテスト手法が重視していないローカルおよびインスタンス的な重要性もテストできる。 さらに、Grad-\textit{n}FBST、LRP-\textit{n}FBST、DeepLIFT-\textit{n}FBST、LIME-\textit{n}FBSTなど、選択した尺度に基づいて拡張できる一般的なフレームワークである。 本手法の利点を示すためにシミュレーションデータと実データの両方について実験を行った。

Significance testing aims to determine whether a proposition about the population distribution is the truth or not given observations. However, traditional significance testing often needs to derive the distribution of the testing statistic, failing to deal with complex nonlinear relationships. In this paper, we propose to conduct Full Bayesian Significance Testing for neural networks, called \textit{n}FBST, to overcome the limitation in relationship characterization of traditional approaches. A Bayesian neural network is utilized to fit the nonlinear and multi-dimensional relationships with small errors and avoid hard theoretical derivation by computing the evidence value. Besides, \textit{n}FBST can test not only global significance but also local and instance-wise significance, which previous testing methods don't focus on. Moreover, \textit{n}FBST is a general framework that can be extended based on the measures selected, such as Grad-\textit{n}FBST, LRP-\textit{n}FBST, DeepLIFT-\textit{n}FBST, LIME-\textit{n}FBST. A range of experiments on both simulated and real data are conducted to show the advantages of our method.
翻訳日:2024-01-25 14:54:16 公開日:2024-01-24
# 説明可能なベイズ最適化

Explainable Bayesian Optimization ( http://arxiv.org/abs/2401.13334v1 )

ライセンス: Link先を確認
Tanmay Chakraborty, Christin Seifert, Christian Wirth(参考訳) 産業において、ベイズ最適化(BO)はサイバー物理システムの人間-AI協調パラメータチューニングに広く応用されている。 しかし、BOの解法は近似誤差と単純化された目的のために人間の実際の目標から逸脱し、その後のチューニングが要求される。 BOのブラックボックスの性質は、専門家がBO勧告を信頼していないため、協調的なチューニングプロセスを制限する。 現在の説明可能なAI(XAI)メソッドは最適化には適していないため、このギャップに対処するには不十分である。 このギャップを埋めるために,多目的最適化による高品質な説明を生成するポストホックなルールベース説明可能性法であるTNTRules(TUNE-NOTUNE Rules)を提案する。 ベンチマーク最適化問題と実世界のハイパーパラメータ最適化タスクの評価は、TNTRulesが最先端のXAI法よりも優れていることを示す。 この研究はBOとXAIの交差に寄与し、現実世界のアプリケーションに解釈可能な最適化技術を提供する。

In industry, Bayesian optimization (BO) is widely applied in the human-AI collaborative parameter tuning of cyber-physical systems. However, BO's solutions may deviate from human experts' actual goal due to approximation errors and simplified objectives, requiring subsequent tuning. The black-box nature of BO limits the collaborative tuning process because the expert does not trust the BO recommendations. Current explainable AI (XAI) methods are not tailored for optimization and thus fall short of addressing this gap. To bridge this gap, we propose TNTRules (TUNE-NOTUNE Rules), a post-hoc, rule-based explainability method that produces high quality explanations through multiobjective optimization. Our evaluation of benchmark optimization problems and real-world hyperparameter optimization tasks demonstrates TNTRules' superiority over state-of-the-art XAI methods in generating high quality explanations. This work contributes to the intersection of BO and XAI, providing interpretable optimization techniques for real-world applications.
翻訳日:2024-01-25 14:53:52 公開日:2024-01-24
# NACHOS: ハードウェア制約付き早期ニューラルネットワークのためのニューラルアーキテクチャ検索

NACHOS: Neural Architecture Search for Hardware Constrained Early Exit Neural Networks ( http://arxiv.org/abs/2401.13330v1 )

ライセンス: Link先を確認
Matteo Gambella, Jary Pomponi, Simone Scardapane, and Manuel Roveri(参考訳) Early Exit Neural Networks (EENN) は、未標準のDeep Neural Network (DNN) をEarly Exit Classifiers (EEC) と共に提供し、分類の十分な信頼性が達成された場合の処理中間点での予測を提供する。 これは有効性と効率の点で多くの利点をもたらす。 現在、EENNの設計は専門家によって手作業で行われており、正確な配置、しきい値設定、EECの計算オーバーヘッドなど、多くの側面を考慮に入れなければならない複雑で時間を要するタスクである。 この理由から、本研究は eenn の設計を自動化するために neural architecture search (nas) の使用を検討している。 現在、EENNの包括的なNASソリューションが文献で提案されており、バックボーンとEECの両方を考慮して完全に自動化された共同設計戦略が未解決のままである。 そこで本研究では,ハードウェア制約付き早期出口ニューラルネットワーク(nachos)に対するニューラルネットワーク探索を提案する。nachosは,推定時に eenn が実行した乗算・累積演算の精度と数に制約を満たした最適な eenn の設計のための最初のnasフレームワークである。 特に、これはバックボーンとEECの結合設計を提供し、MACの精度と数との最良のトレードオフの観点から許容可能な一連の(すなわち制約を尊重する)Pareto Optimal Solutionsを選択する。 その結果,NACHOSの設計したモデルは最先端のEENNと競合していることがわかった。 さらに、EENNの補助分類器の最適化を目的とした2つの新しい正規化用語の有効性について検討する。

Early Exit Neural Networks (EENNs) endow astandard Deep Neural Network (DNN) with Early Exit Classifiers (EECs), to provide predictions at intermediate points of the processing when enough confidence in classification is achieved. This leads to many benefits in terms of effectiveness and efficiency. Currently, the design of EENNs is carried out manually by experts, a complex and time-consuming task that requires accounting for many aspects, including the correct placement, the thresholding, and the computational overhead of the EECs. For this reason, the research is exploring the use of Neural Architecture Search (NAS) to automatize the design of EENNs. Currently, few comprehensive NAS solutions for EENNs have been proposed in the literature, and a fully automated, joint design strategy taking into consideration both the backbone and the EECs remains an open problem. To this end, this work presents Neural Architecture Search for Hardware Constrained Early Exit Neural Networks (NACHOS), the first NAS framework for the design of optimal EENNs satisfying constraints on the accuracy and the number of Multiply and Accumulate (MAC) operations performed by the EENNs at inference time. In particular, this provides the joint design of backbone and EECs to select a set of admissible (i.e., respecting the constraints) Pareto Optimal Solutions in terms of best tradeoff between the accuracy and number of MACs. The results show that the models designed by NACHOS are competitive with the state-of-the-art EENNs. Additionally, this work investigates the effectiveness of two novel regularization terms designed for the optimization of the auxiliary classifiers of the EENN
翻訳日:2024-01-25 14:53:37 公開日:2024-01-24
# 見えないクロスドメインビデオモーメント検索のための生成的ビデオ拡散

Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval ( http://arxiv.org/abs/2401.13329v1 )

ライセンス: Link先を確認
Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu(参考訳) ビデオモーメント検索(vmr)は、複雑な視覚言語関係を捉えるために、きめ細かいモーメントテキスト関連を正確にモデル化する必要がある。 スケーラブルなモーメントテキストアソシエーションの学習を容易にするために、多種多様な汎用的なVMRデータセットが欠如しているため、既存の手法では、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方で共同トレーニングを行っている。 一方、大規模画像テキストおよび/またはビデオテキストペアで事前訓練された視覚言語マルチモーダルモデルの最近の発展は、粗い関連性(弱ラベル付き)にのみ基づいている。 クロスドメインvmrに必要な細かいモーメントテキスト相関を提供するには不十分です。 本研究では,対象領域の文(テキストプロンプト)をビデオにアクセスせずに利用することにより,特定の視覚概念やテキスト概念がドメイン間で重複しない,未認識のクロスドメインvmrの問題を解決する。 そこで本研究では,対象の文によって制御されるソースビデオのきめ細かい編集のための生成ビデオ拡散について検討し,対象のドメインビデオのシミュレートを可能にする。 未確認領域VMRを最適化するためのビデオ編集における2つの問題に対処する:(1)微妙な区別を伴う異なるモーメントの高品質なシミュレーションビデオの生成、(2)有害なノイズや不要な繰り返しを伴わずに既存のソーストレーニングビデオを補完するシミュレーションビデオの選択。 最初の問題として、(1)ソースビデオのオリジナルビデオ構造、(2)主題特定、(3)ターゲット文プロンプトによって同時に制御される2段階ビデオ拡散生成を定式化する。 これにより、ビデオモーメント間の微妙なバリエーションが保証される。 第2の課題として,ノイズフィルタリングのための2つの定量的指標と,シミュレーションビデオ選択におけるvmr予測を活用するための1つの定性指標を組み合わせたハイブリッド選択機構を提案する。

Video Moment Retrieval (VMR) requires precise modelling of fine-grained moment-text associations to capture intricate visual-language relationships. Due to the lack of a diverse and generalisable VMR dataset to facilitate learning scalable moment-text associations, existing methods resort to joint training on both source and target domain videos for cross-domain applications. Meanwhile, recent developments in vision-language multimodal models pre-trained on large-scale image-text and/or video-text pairs are only based on coarse associations (weakly labelled). They are inadequate to provide fine-grained moment-text correlations required for cross-domain VMR. In this work, we solve the problem of unseen cross-domain VMR, where certain visual and textual concepts do not overlap across domains, by only utilising target domain sentences (text prompts) without accessing their videos. To that end, we explore generative video diffusion for fine-grained editing of source videos controlled by the target sentences, enabling us to simulate target domain videos. We address two problems in video editing for optimising unseen domain VMR: (1) generation of high-quality simulation videos of different moments with subtle distinctions, (2) selection of simulation videos that complement existing source training videos without introducing harmful noise or unnecessary repetitions. On the first problem, we formulate a two-stage video diffusion generation controlled simultaneously by (1) the original video structure of a source video, (2) subject specifics, and (3) a target sentence prompt. This ensures fine-grained variations between video moments. On the second problem, we introduce a hybrid selection mechanism that combines two quantitative metrics for noise filtering and one qualitative metric for leveraging VMR prediction on simulation video selection.
翻訳日:2024-01-25 14:53:03 公開日:2024-01-24
# プライバシー保護型ウェアラブルストレス検出のための合成健康センサデータの生成

Generating Synthetic Health Sensor Data for Privacy-Preserving Wearable Stress Detection ( http://arxiv.org/abs/2401.13327v1 )

ライセンス: Link先を確認
Lucas Lange and Nils Wenzlitschke and Erhard Rahm(参考訳) スマートウォッチの健康センサーデータは、ストレス検出など、スマートヘルスアプリケーションや患者のモニタリングにますます活用されている。 しかし、そのような医療データは機密性の高い個人情報を多く含み、研究目的の取得に資源集約的である。 この課題に応えて、ストレスの瞬間に関連するマルチセンサースマートウォッチのヘルスリーダーのプライバシーに配慮した合成を導入する。 本手法は,GAN(Generative Adversarial Networks)による合成シーケンスデータの生成と,モデルトレーニング中に患者情報を保護するための差分プライバシ(DP)セーフガードの実装を含む。 合成データの完全性を確保するため、我々は様々な品質評価を採用し、合成データと原データとの妥当性をモニタリングする。 有用性をテストするために、私たちは、小さなストレス検出データセットを使用して、一般的に使用されているプライベート機械学習モデルを作成し、既存のデータ基盤を合成データで強化するための戦略を探求します。 GANベースの拡張手法を通じて、非プライベート(0.45% F1)およびプライベート(11.90-15.48% F1)トレーニングシナリオの両方において、モデル性能の改善を観察する。 ユーティリティプライバシトレードオフを最適化する上での、差分プライベートな合成データの可能性について、特に実際のトレーニングサンプルの可用性の制限について述べています。

Smartwatch health sensor data is increasingly utilized in smart health applications and patient monitoring, including stress detection. However, such medical data often comprises sensitive personal information and is resource-intensive to acquire for research purposes. In response to this challenge, we introduce the privacy-aware synthetization of multi-sensor smartwatch health readings related to moments of stress. Our method involves the generation of synthetic sequence data through Generative Adversarial Networks (GANs), coupled with the implementation of Differential Privacy (DP) safeguards for protecting patient information during model training. To ensure the integrity of our synthetic data, we employ a range of quality assessments and monitor the plausibility between synthetic and original data. To test the usefulness, we create private machine learning models on a commonly used, albeit small, stress detection dataset, exploring strategies for enhancing the existing data foundation with our synthetic data. Through our GAN-based augmentation methods, we observe improvements in model performance, both in non-private (0.45% F1) and private (11.90-15.48% F1) training scenarios. We underline the potential of differentially private synthetic data in optimizing utility-privacy trade-offs, especially with limited availability of real training samples.
翻訳日:2024-01-25 14:52:29 公開日:2024-01-24
# 相関ランダムベクトルの検出

Detection of Correlated Random Vectors ( http://arxiv.org/abs/2401.13429v1 )

ライセンス: Link先を確認
Dor Elimelech and Wasim Huleihel(参考訳) 本稿では、2つの標準正規乱ベクトル $\mathsf{X}\in\mathbb{R}^{n}$ と $\mathsf{Y}\in\mathbb{R}^{n}$ が相関しているかどうかを決定する問題を検討する。 これは仮説検定問題として定式化され、ヌル仮説の下ではこれらのベクトルは統計的に独立であるが、代わりに$\mathsf{x}$ と$\mathsf{y}$ のランダムかつ一様置換されたバージョンは相関値 $\rho$ と相関する。 最適テストが情報理論的に不可能で可能なしきい値を,n$と$\rho$の関数として解析する。 情報理論の下限を導出するために, 直交多項式展開を用いた確率比の第2モーメントの評価手法を開発した。 また、上記の設定の多次元一般化について検討し、2つのベクトルではなく2つのデータベース/行列を観測し、さらにこれらの2つの間の部分的相関を許容する。

In this paper, we investigate the problem of deciding whether two standard normal random vectors $\mathsf{X}\in\mathbb{R}^{n}$ and $\mathsf{Y}\in\mathbb{R}^{n}$ are correlated or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these vectors are statistically independent, while under the alternative, $\mathsf{X}$ and a randomly and uniformly permuted version of $\mathsf{Y}$, are correlated with correlation $\rho$. We analyze the thresholds at which optimal testing is information-theoretically impossible and possible, as a function of $n$ and $\rho$. To derive our information-theoretic lower bounds, we develop a novel technique for evaluating the second moment of the likelihood ratio using an orthogonal polynomials expansion, which among other things, reveals a surprising connection to integer partition functions. We also study a multi-dimensional generalization of the above setting, where rather than two vectors we observe two databases/matrices, and furthermore allow for partial correlations between these two.
翻訳日:2024-01-25 14:46:12 公開日:2024-01-24
# 分散固定設計量子チップと量子チャネルを用いたフェデレーション学習

Federated learning with distributed fixed design quantum chips and quantum channels ( http://arxiv.org/abs/2401.13421v1 )

ライセンス: Link先を確認
Ammar Daskin(参考訳) 古典的なフェデレーション学習におけるプライバシは、クライアントからのエンジニアリングクエリを使用することで、ローカル勾配結果を使用することで破ることができる。 しかし、量子通信チャネルは、データ内の測定値を使用することが何らかの情報損失を引き起こし、検出できるため、より安全であると考えられている。 したがって、フェデレーション学習の量子バージョンは、より多くのプライバシーを提供するために使用できる。 さらに、量子チャネルを通して$N$の次元データベクトルを送信するには、$\log N$ entangled qubitsを送信する必要がある。 本稿では,集中型サーバが送信する量子状態に基づいて,固定設計量子チップを動作させる量子フェデレーション学習モデルを提案する。 来るべき重ね合わせ状態に基づいて、クライアントは計算し、そのローカル勾配を量子状態としてサーバに送信し、パラメータを更新するために集約される。 サーバはモデルパラメータを送信せず、代わりに演算子を量子状態として送信するため、クライアントはモデルを共有する必要はない。 これにより、非同期学習モデルの作成が可能になる。 さらに、量子状態としてのモデルは直接クライアント側のチップに供給されるため、勾配を計算するためにモデルパラメータを取得するために次の量子状態の測定を必要としない。 これにより、パラメータベクトルが古典的あるいは量子的チャネルを介して送信され、これらのパラメータの得られた値によって局所勾配が得られるモデルよりも効率が良い。

The privacy in classical federated learning can be breached through the use of local gradient results by using engineered queries from the clients. However, quantum communication channels are considered more secure because the use of measurements in the data causes some loss of information, which can be detected. Therefore, the quantum version of federated learning can be used to provide more privacy. Additionally, sending an $N$ dimensional data vector through a quantum channel requires sending $\log N$ entangled qubits, which can provide exponential efficiency if the data vector is obtained as quantum states. In this paper, we propose a quantum federated learning model where fixed design quantum chips are operated based on the quantum states sent by a centralized server. Based on the coming superposition states, the clients compute and then send their local gradients as quantum states to the server, where they are aggregated to update parameters. Since the server does not send model parameters, but instead sends the operator as a quantum state, the clients are not required to share the model. This allows for the creation of asynchronous learning models. In addition, the model as a quantum state is fed into client-side chips directly; therefore, it does not require measurements on the upcoming quantum state to obtain model parameters in order to compute gradients. This can provide efficiency over the models where parameter vector is sent via classical or quantum channels and local gradients are obtained through the obtained values of these parameters.
翻訳日:2024-01-25 14:45:49 公開日:2024-01-24
# 多モードバイオメトリックシステムのシリアル融合

Serial fusion of multi-modal biometric systems ( http://arxiv.org/abs/2401.13418v1 )

ライセンス: Link先を確認
Gian Luca Marcialis, Paolo Mastinu, and Fabio Roli(参考訳) 複数のバイオメトリック・マーカのシリアルまたはシーケンシャルな融合は、これまで完全には研究されていない。 しかし、このアプローチは広く採用されている並列アプローチに対していくつかの利点を示す。 本稿では,著者の以前の研究に基づいて,このようなシステムの性能評価のための新たな理論的枠組みを提案する。 性能面での利点は理論的に評価され、モデルパラメータ計算における推定誤差も評価される。 NIST Biometric Score Set 1 で行った予備実験により, モデルとその長所と短所の観点から解析した。

Serial, or sequential, fusion of multiple biometric matchers has been not thoroughly investigated so far. However, this approach exhibits some advantages with respect to the widely adopted parallel approaches. In this paper, we propose a novel theoretical framework for the assessment of performance of such systems, based on a previous work of the authors. Benefits in terms of performance are theoretically evaluated, as well as estimation errors in the model parameters computation. Model is analyzed from the viewpoint of its pros and cons, by mean of preliminary experiments performed on NIST Biometric Score Set 1.
翻訳日:2024-01-25 14:45:27 公開日:2024-01-24
# GTAutoAct: アクション認識のためのゲームエンジン再開発に基づく自動データセット生成フレームワーク

GTAutoAct: An Automatic Datasets Generation Framework Based on Game Engine Redevelopment for Action Recognition ( http://arxiv.org/abs/2401.13414v1 )

ライセンス: Link先を確認
Xingyu Song, Zhan Li, Shi Chen and Kazuyuki Demachi(参考訳) アクション認識タスクの現在のデータセットは、アクションクラスの範囲の制限、マルチ視点記録の欠如、多様性の制限、ビデオ品質の低さ、労働集約的な手動収集など、従来の収集と生成方法に起因する制限に直面している。 これらの課題に対処するために,ゲームエンジン技術を活用した革新的なデータセット生成フレームワークであるGTAutoActを導入する。 GTAutoActは、広範囲なアクションクラスと優れたビデオ品質を備えた大規模で十分に注釈付けされたデータセットを自動生成する。 Our framework's distinctive contributions encompass: (1) it innovatively transforms readily available coordinate-based 3D human motion into rotation-orientated representation with enhanced suitability in multiple viewpoints; (2) it employs dynamic segmentation and interpolation of rotation sequences to create smooth and realistic animations of action; (3) it offers extensively customizable animation scenes; (4) it implements an autonomous video capture and processing pipeline, featuring a randomly navigating camera, with auto-trimming and labeling functionalities. 実験結果は、フレームワークの堅牢性を強調し、アクション認識モデルのトレーニングを大幅に改善する可能性を強調している。

Current datasets for action recognition tasks face limitations stemming from traditional collection and generation methods, including the constrained range of action classes, absence of multi-viewpoint recordings, limited diversity, poor video quality, and labor-intensive manually collection. To address these challenges, we introduce GTAutoAct, a innovative dataset generation framework leveraging game engine technology to facilitate advancements in action recognition. GTAutoAct excels in automatically creating large-scale, well-annotated datasets with extensive action classes and superior video quality. Our framework's distinctive contributions encompass: (1) it innovatively transforms readily available coordinate-based 3D human motion into rotation-orientated representation with enhanced suitability in multiple viewpoints; (2) it employs dynamic segmentation and interpolation of rotation sequences to create smooth and realistic animations of action; (3) it offers extensively customizable animation scenes; (4) it implements an autonomous video capture and processing pipeline, featuring a randomly navigating camera, with auto-trimming and labeling functionalities. Experimental results underscore the framework's robustness and highlights its potential to significantly improve action recognition model training.
翻訳日:2024-01-25 14:45:19 公開日:2024-01-24
# フェデレーションオンライン学習におけるクライアントのランク付けの方法

How to Forget Clients in Federated Online Learning to Rank? ( http://arxiv.org/abs/2401.13410v1 )

ライセンス: Link先を確認
Shuyi Wang, Bing Liu, Guido Zuccon(参考訳) 欧州連合(EU)の一般データ保護規則(GDPR)のようなデータ保護法は,‘textit{right to forget}’を定めている。 本稿では,foltr(federated online learning to rank)システムに参加するクライアントによる貢献の除去方法について検討する。 FOLTRシステムでは、グローバルランキングモデルに局所的な更新を集約することでランク付けを学習する。 ローカル更新は、特定のクライアント内で発生したクエリと暗黙のインタラクションを使用して、クライアントレベルでオンライン的に学習される。 これにより、各クライアントのローカルデータは、他のクライアントや集中検索サービスと共有されず、同時に、各クライアントのフェデレーションにおけるコントリビューションから学習した効果的なグローバルランキングモデルから恩恵を受けることができる。 本稿では,グローバルなローダをゼロから再訓練する必要がなく,全体のローダの有効性を損なうことなく,クライアントのコントリビューションを効果的かつ効率的に除去できるアンラーニング手法を提案する。 重要な課題は、モデルが削除を要求するクライアントの$c^*$からの貢献を解き放たれたかどうかを測定する方法である。 このために、$c^*$に毒物攻撃(このクライアント更新にノイズを加える)をするよう指示し、未学習プロセスが実行された場合、攻撃の影響が減るかどうかを測定します。 4つのデータセットを用いた実験により,パラメータ設定の異なる組み合わせ下での学習戦略の有効性と効率を示す。

Data protection legislation like the European Union's General Data Protection Regulation (GDPR) establishes the \textit{right to be forgotten}: a user (client) can request contributions made using their data to be removed from learned models. In this paper, we study how to remove the contributions made by a client participating in a Federated Online Learning to Rank (FOLTR) system. In a FOLTR system, a ranker is learned by aggregating local updates to the global ranking model. Local updates are learned in an online manner at a client-level using queries and implicit interactions that have occurred within that specific client. By doing so, each client's local data is not shared with other clients or with a centralised search service, while at the same time clients can benefit from an effective global ranking model learned from contributions of each client in the federation. In this paper, we study an effective and efficient unlearning method that can remove a client's contribution without compromising the overall ranker effectiveness and without needing to retrain the global ranker from scratch. A key challenge is how to measure whether the model has unlearned the contributions from the client $c^*$ that has requested removal. For this, we instruct $c^*$ to perform a poisoning attack (add noise to this client updates) and then we measure whether the impact of the attack is lessened when the unlearning process has taken place. Through experiments on four datasets, we demonstrate the effectiveness and efficiency of the unlearning strategy under different combinations of parameter settings.
翻訳日:2024-01-25 14:45:00 公開日:2024-01-24
# 増加、減少しない:高度に保守可能なコードのリターンを調査する

Increasing, not Diminishing: Investigating the Returns of Highly Maintainable Code ( http://arxiv.org/abs/2401.13407v1 )

ライセンス: Link先を確認
Markus Borg and Ilyana Pruvost and Enys Mones and Adam Tornhill(参考訳) 技術的負債(td)の理解と効果的管理は、ソフトウェアエンジニアリングにおける重要な課題である。 コードレベルのTDに関する多くの研究が公表されているが、低品質のソースコードによるビジネスへの影響を示すものはほとんどない。 本研究では,2つの公開データセットを組み合わせることで,コード品質と欠陥数,実装時間との関係について検討する。 回帰分析から導いた値生成モデルを導入し,ベースラインからの相対的変化を探索する。 その結果,関連性はコード品質の異なる間隔で異なることがわかった。 さらに、値モデルはコード品質スペクトルの極端において強い非線形性を示す。 最も重要なことは、このモデルが上端への投資のリターンを増幅したことを示唆している。 我々は,「壊れた窓」理論の文脈内での知見を議論し,ファイル中のコードの臭いの発生を慎重に防止することを推奨する。 最後に、リファクタリングの取り組みに対する投資の返却に関する議論を始めるために価値創造モデルを利用することができると論じる。

Understanding and effectively managing Technical Debt (TD) remains a vital challenge in software engineering. While many studies on code-level TD have been published, few illustrate the business impact of low-quality source code. In this study, we combine two publicly available datasets to study the association between code quality on the one hand, and defect count and implementation time on the other hand. We introduce a value-creation model, derived from regression analyses, to explore relative changes from a baseline. Our results show that the associations vary across different intervals of code quality. Furthermore, the value model suggests strong non-linearities at the extremes of the code quality spectrum. Most importantly, the model suggests amplified returns on investment in the upper end. We discuss the findings within the context of the "broken windows" theory and recommend organizations to diligently prevent the introduction of code smells in files with high churn. Finally, we argue that the value-creation model can be used to initiate discussions regarding the return on investment in refactoring efforts.
翻訳日:2024-01-25 14:44:34 公開日:2024-01-24
# 宇宙弦時空における絡み合い収穫

Entanglement harvesting in cosmic string spacetime ( http://arxiv.org/abs/2401.13406v1 )

ライセンス: Link先を確認
Ying Ji, Jialin Zhang and Hongwei Yu(参考訳) 局所的に平坦だが円錐状構造を持つ宇宙弦時空における無質量スカラー場と局所的に相互作用する静的検出器の絡み合い収穫現象について検討した。 具体的には、弦に対する検出器の3つのアライメント、すなわち、弦の同じ側にある検出器と平行および垂直アライメント、および2つの異なる側にある検出器との垂直アライメントについて検討する。 弦の同一側のアライメントについては、宇宙列の存在は、収穫された絡み合いの意味での絡み合いの収穫を助長するか、または阻害するかのどちらかであり、検出-弦間距離に応じて検出可能距離の収穫可能範囲を分離することであり、これは常に収穫可能範囲が拡大する反射境界を持つ局所的な平坦な時空の場合とは大きく異なる。 弦の2つの異なる側にある検出器とのアライメントのために、検出器は常に宇宙の弦なしで平らな時よりも絡み合うことができるが、これは同じ側にあるものとは対照的である。 興味深いことに、宇宙線の存在は、垂直方向の検出器の収穫到達範囲を弦の近傍のみに拡大し、平行方向の検出器の収穫到達範囲を常に減少させる。

We study the entanglement harvesting phenomenon for static detectors locally interacting with massless scalar fields in the cosmic string spacetime which is locally flat but with a conical structure characterized by a deficit angle. Specifically, three alignments of the detectors with respect to the string, i.e., parallel and vertical alignments with the detectors on the same side of the string, and vertical alignment with the detectors on two different sides, are examined. For the alignments on the same side of the string, we find that the presence of a cosmic string may either assist or inhibit entanglement harvesting both in the sense of the entanglement harvested and the harvesting-achievable range of interdetector separation depending on the detector-to-string distance, and this is remarkably different from the case of a locally flat spacetime with a reflecting boundary where the boundary always enlarges the harvesting-achievable range. For the alignment with detectors on two different sides of the string, the detectors notably can always harvest more entanglement than those in flat spacetime without a cosmic string, which is in sharp contrast to those on the same side. Interestingly, the presence of a cosmic string enlarges the harvesting-achievable range for the detectors in vertical alignment only in the vicinity of the string, while it always reduces the harvesting-achievable range for the detectors in parallel alignment.
翻訳日:2024-01-25 14:44:18 公開日:2024-01-24
# 合成データによりクラッタのマルチオブジェクト把握のためのより高速なアノテーションとロバストセグメンテーションが可能に

Synthetic data enables faster annotation and robust segmentation for multi-object grasping in clutter ( http://arxiv.org/abs/2401.13405v1 )

ライセンス: Link先を確認
Dongmyoung Lee, Wei Chen, Nicolas Rojas(参考訳) ラベル付きデータセットの構築には、データ収集とアノテーションの面での時間と費用がかかるため、ロボット把持におけるオブジェクト認識とオブジェクトポーズ推定は依然として重要な課題である。 本研究では,生成した合成データセットとより小さな実世界データセット(hybrid dataset)を組み合わせることにより,人間の介入を最小限にし,下流画像分割アルゴリズムをより堅牢にする合成データ生成手法を提案する。 アノテーション実験により,提案する合成シーン生成はラベリング時間を劇的に削減できることが示された。 rgbイメージセグメンテーションはハイブリッドデータセットでトレーニングされ、深度情報と組み合わせて個々のセグメンテーションオブジェクトのピクセル間対応を生成する。 次に、把握対象をセグメンテーションアルゴリズムの信頼度スコアによって決定する。 ピック・アンド・プレイス実験では、我々のハイブリッドデータセット(98.9%、70%)でトレーニングされたセグメンテーションが、実際のデータセットと公開データセット(6.7%、18.8%)と(2.8%、10%)をそれぞれラベル付けと達成率で上回っている。 補足資料はhttps://sites.google.com/view/synthetic-dataset-generationで入手できる。

Object recognition and object pose estimation in robotic grasping continue to be significant challenges, since building a labelled dataset can be time consuming and financially costly in terms of data collection and annotation. In this work, we propose a synthetic data generation method that minimizes human intervention and makes downstream image segmentation algorithms more robust by combining a generated synthetic dataset with a smaller real-world dataset (hybrid dataset). Annotation experiments show that the proposed synthetic scene generation can diminish labelling time dramatically. RGB image segmentation is trained with hybrid dataset and combined with depth information to produce pixel-to-point correspondence of individual segmented objects. The object to grasp is then determined by the confidence score of the segmentation algorithm. Pick-and-place experiments demonstrate that segmentation trained on our hybrid dataset (98.9%, 70%) outperforms the real dataset and a publicly available dataset by (6.7%, 18.8%) and (2.8%, 10%) in terms of labelling and grasping success rate, respectively. Supplementary material is available at https://sites.google.com/view/synthetic-dataset-generation.
翻訳日:2024-01-25 14:43:11 公開日:2024-01-24
# 自己双対モノポールの隠れ対称性

Hidden symmetries of a self-dual monopole ( http://arxiv.org/abs/2401.13404v1 )

ライセンス: Link先を確認
L. Feher, P. Horvathy and L. O'Raifeartaigh(参考訳) 自己双極子単極子の場におけるスピン粒子の対称性は、超対称量子力学の観点から研究されている。

The symmetries of a spinning particle in the field of a self-dual monopole are studied from the viewpoint of supersymmetric quantum mechanics.
翻訳日:2024-01-25 14:42:47 公開日:2024-01-24
# SEDNet:脳腫瘍分離のための浅層エンコーダデコーダネットワーク

SEDNet: Shallow Encoder-Decoder Network for Brain Tumor Segmentation ( http://arxiv.org/abs/2401.13403v1 )

ライセンス: Link先を確認
Chollette C. Olisah(参考訳) いくつかのモデルが開発されている脳腫瘍セグメンテーションに対する計算モデリングの進歩にもかかわらず、まだ最高水準にある既存のモデルの計算複雑性から、臨床応用シナリオにおける性能と効率が制限されていることは明らかである。 そこで本研究では,脳腫瘍セグメント化のための浅層エンコーダとデコーダネットワークSEDNetを提案する。 提案するネットワークは,U-Net構造から適応する。 脳腫瘍は従来のu-netが設計したような複雑な構造を想定していないが、その外観、形状、曖昧さのばらつきは、解決すべき複雑な課題である。 sednetアーキテクチャ設計は、脳画像中の脳腫瘍の局所的性質に触発され、脳スライスにおける脳腫瘍の固有特徴を学習可能な符号化経路における十分な階層的畳み込みブロックと、脳腫瘍のグローバルレベル特徴と並行してミニチュアな局所的空間的特徴をキャプチャするのに十分な選択的スキップパスを持つ復号経路から構成される。 提案された前処理アルゴリズムとBraTS2020セットの最適化関数を統合したSEDNetは、それぞれ0.9308、0.9451、0.9026、0.7040、1.2866、0.7762、非エンハンシング腫瘍コア(NTC)、頭蓋周囲浮腫(ED)、拡張腫瘍(ET)をそれぞれ達成した。 さらに、SEDNetXと呼ばれる初期化SEDNet事前学習重みによる転送学習により、性能向上が観測された。 dice と hausdorff のスコアはそれぞれ 0.9336, 0.9478, 0.9061, 0.6983, 1.2691, 0.7711 である。 sednet(x)は最新技術と比較して約130万のパラメータと印象的な性能を有しており、リアルタイム臨床診断において計算効率が高いことが示されている。

Despite the advancement in computational modeling towards brain tumor segmentation, of which several models have been developed, it is evident from the computational complexity of existing models which are still at an all-time high, that performance and efficiency under clinical application scenarios are limited. Therefore, this paper proposes a shallow encoder and decoder network named SEDNet for brain tumor segmentation. The proposed network is adapted from the U-Net structure. Though brain tumors do not assume complex structures like the task the traditional U-Net was designed for, their variance in appearance, shape, and ambiguity of boundaries makes it a compelling complex task to solve. SEDNet architecture design is inspired by the localized nature of brain tumors in brain images, thus consists of sufficient hierarchical convolutional blocks in the encoding pathway capable of learning the intrinsic features of brain tumors in brain slices, and a decoding pathway with selective skip path sufficient for capturing miniature local-level spatial features alongside the global-level features of brain tumor. SEDNet with the integration of the proposed preprocessing algorithm and optimization function on the BraTS2020 set reserved for testing achieves impressive dice and Hausdorff scores of 0.9308, 0.9451, 0.9026, and 0.7040, 1.2866, 0.7762 for non-enhancing tumor core (NTC), peritumoral edema (ED), and enhancing tumor (ET), respectively. Furthermore, through transfer learning with initialized SEDNet pre-trained weights, termed SEDNetX, a performance increase is observed. The dice and Hausdorff scores recorded are 0.9336, 0.9478, 0.9061, 0.6983, 1.2691, and 0.7711 for NTC, ED, and ET, respectively. With about 1.3 million parameters and impressive performance in comparison to the state-of-the-art, SEDNet(X) is shown to be computationally efficient for real-time clinical diagnosis.
翻訳日:2024-01-25 14:42:44 公開日:2024-01-24
# テキスト分類はドメインに依存しないストップワード抽出を促進する

Text Categorization Can Enhance Domain-Agnostic Stopword Extraction ( http://arxiv.org/abs/2401.13398v1 )

ライセンス: Link先を確認
Houcemeddine Turki, Naome A. Etori, Mohamed Ali Hadj Taieb, Abdul-Hakeem Omotayo, Chris Chinenye Emezue, Mohamed Ben Aouicha, Ayodele Awokoya, Falalu Ibrahim Lawan, Doreen Nixdorf(参考訳) 本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。 masakhanews, african stopwords project, masakhapos datasetsを活用することで,テキスト分類は,80%以上の検出成功率を持つドメイン非依存ストップワードを効果的に識別できることを強調した。 それでも、言語差は特定の言語に対する検出率を低下させる。 興味深いことに、stopwordsの40%以上がニュースカテゴリに共通しているのに対して、ひとつのカテゴリに固有のものは15%未満である。 一般的なストップワードはテキストに深さを与えるが、ストップワードとしての分類は文脈に依存する。 したがって,統計的手法と言語的アプローチを組み合わせることで,総合的なストップワードリストが作成され,ハイブリッド手法の価値が強調される。 本研究は、アフリカ語におけるNLPを強化し、ストップワード抽出におけるテキスト分類の重要性を強調する。

This paper investigates the role of text categorization in streamlining stopword extraction in natural language processing (NLP), specifically focusing on nine African languages alongside French. By leveraging the MasakhaNEWS, African Stopwords Project, and MasakhaPOS datasets, our findings emphasize that text categorization effectively identifies domain-agnostic stopwords with over 80% detection success rate for most examined languages. Nevertheless, linguistic variances result in lower detection rates for certain languages. Interestingly, we find that while over 40% of stopwords are common across news categories, less than 15% are unique to a single category. Uncommon stopwords add depth to text but their classification as stopwords depends on context. Therefore combining statistical and linguistic approaches creates comprehensive stopword lists, highlighting the value of our hybrid method. This research enhances NLP for African languages and underscores the importance of text categorization in stopword extraction.
翻訳日:2024-01-25 14:42:05 公開日:2024-01-24
# 正確さを超えて:グループ間メトリクスのみに基づくバイアス緩和手法の評価をやめる

Beyond Accuracy-Fairness: Stop evaluating bias mitigation methods solely on between-group metrics ( http://arxiv.org/abs/2401.13391v1 )

ライセンス: Link先を確認
Sofie Goethals, Toon Calders, David Martens(参考訳) AI(Artificial Intelligence)は、さまざまなドメインにまたがる広範なアプリケーションを見つけ、デプロイメントの公正性に対する懸念を喚起する。 AIにおける公平性は依然として中心的な関心事であるが、一般的な議論では、サブグループ内の差分の影響を考慮せずに結果に基づくメトリクスを強調することが多い。 バイアス緩和手法は、センシティブなグループ間でのインスタンスペアのランキングに影響を与えるだけでなく、しばしばこれらのグループ内のインスタンスのランキングにも大きな影響を与える。 このような変更は、介入の有効性について説明し、懸念を提起するのは難しい。 残念なことに、これらの効果は、通常適用される精度・公正性評価フレームワークにおいて、主にレーダーの下にある。 本稿では,グループ内の変化を考慮せず,その結果の予測ラベルが現実のシナリオを反映するに足らないとして,バイアス緩和手法を評価するための一般的な指標に挑戦する。 まず、各サブグループに対して最も正確なランキングを生成することに重点を置くべきです。 その後、公正基準と実践的考察の両方を満たすために、これらのランクから個人を選ぶべきである。

Artificial Intelligence (AI) finds widespread applications across various domains, sparking concerns about fairness in its deployment. While fairness in AI remains a central concern, the prevailing discourse often emphasizes outcome-based metrics without a nuanced consideration of the differential impacts within subgroups. Bias mitigation techniques do not only affect the ranking of pairs of instances across sensitive groups, but often also significantly affect the ranking of instances within these groups. Such changes are hard to explain and raise concerns regarding the validity of the intervention. Unfortunately, these effects largely remain under the radar in the accuracy-fairness evaluation framework that is usually applied. This paper challenges the prevailing metrics for assessing bias mitigation techniques, arguing that they do not take into account the changes within-groups and that the resulting prediction labels fall short of reflecting real-world scenarios. We propose a paradigm shift: initially, we should focus on generating the most precise ranking for each subgroup. Following this, individuals should be chosen from these rankings to meet both fairness standards and practical considerations.
翻訳日:2024-01-25 14:41:49 公開日:2024-01-24
# UNIMO-G:マルチモーダル条件拡散による統一画像生成

UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion ( http://arxiv.org/abs/2401.13388v1 )

ライセンス: Link先を確認
Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao(参考訳) 既存のテキストから画像への拡散モデルは、主にテキストプロンプトから画像を生成する。 しかし、テキスト記述の固有の簡潔さは、特定の実体やシーンのような複雑な詳細を持つ画像を忠実に合成する上で困難を生じさせる。 本稿では,テキスト駆動および主題駆動画像生成の統一性を示すマルチモーダルプロンプト上で動作する,単純なマルチモーダル条件拡散フレームワークである \textbf{unimo-g} を提案する。 unimo-gは、マルチモーダルプロンプトを符号化するマルチモーダル大言語モデル(mllm)と、エンコードされたマルチモーダル入力に基づいて画像を生成する条件付きデノージング拡散ネットワークである。 まず、大規模テキストイメージペアで事前トレーニングを行い、条件付き画像生成機能を開発し、次にマルチモーダルプロンプトでチューニングを行い、統合された画像生成能力を実現する。 言語接地とイメージセグメンテーションを含む、よく設計されたデータ処理パイプラインを用いて、マルチモーダルプロンプトを構築する。 unimo-gはテキスト対画像生成とゼロショット主題駆動合成の両方に優れており、複数の画像エンティティを含む複雑なマルチモーダルプロンプトから高精細な画像を生成するのに特に有効である。

Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents \textbf{UNIMO-G}, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities.
翻訳日:2024-01-25 14:41:31 公開日:2024-01-24
# ハイブリッド周波数色領域におけるプライバシー保全型顔認識

Privacy-Preserving Face Recognition in Hybrid Frequency-Color Domain ( http://arxiv.org/abs/2401.13386v1 )

ライセンス: Link先を確認
Dong Han, Yong Li, Joachim Denzler(参考訳) 顔認識技術は様々な現実のアプリケーションに応用されている。 最も洗練されたディープラーニングベースの顔認識システムは、複雑なディープニューラルネットワークを通じて何百万もの顔画像のトレーニングに頼っている。 クライアントがモデル推論にアクセスするために、フェイスイメージをサービスプロバイダにアップロードすることは、非常に一般的です。 しかし、顔画像は、各ユーザのアイデンティティ情報に関連付けられた、敏感なバイオメトリック属性の一種である。 サービスプロバイダに生の顔イメージを直接公開することは、ユーザのプライバシに対する脅威となる。 顔認識に対する現在のプライバシー保護アプローチは、モデル入力の視覚情報を隠蔽するか、モデル出力のフェース埋め込みを保護することに焦点を当てている。 認識精度の低下は、ほとんどの方法の落とし穴である。 本稿では,周波数領域における顔認識の入力次元性を低減するための周波数色融合手法を提案する。 さらに、差分プライバシーノイズを付加した後の精度劣化を軽減するために、スパースカラー情報も導入する。 さらに、アイデンティティに特有な埋め込みマッピングスキームを適用し、アイデンティティ間の距離を増加させることで、元の顔埋め込みを保護する。 最後に,モデル推論中の埋め込み距離を安全に計算するために,セキュアなマルチパーティ計算を実装した。 提案手法は,複数の検証データセット上で有効に動作する。 さらに、1:nの検証シナリオの最先端よりも2.6%から4.2%高い精度を持つ。

Face recognition technology has been deployed in various real-life applications. The most sophisticated deep learning-based face recognition systems rely on training millions of face images through complex deep neural networks to achieve high accuracy. It is quite common for clients to upload face images to the service provider in order to access the model inference. However, the face image is a type of sensitive biometric attribute tied to the identity information of each user. Directly exposing the raw face image to the service provider poses a threat to the user's privacy. Current privacy-preserving approaches to face recognition focus on either concealing visual information on model input or protecting model output face embedding. The noticeable drop in recognition accuracy is a pitfall for most methods. This paper proposes a hybrid frequency-color fusion approach to reduce the input dimensionality of face recognition in the frequency domain. Moreover, sparse color information is also introduced to alleviate significant accuracy degradation after adding differential privacy noise. Besides, an identity-specific embedding mapping scheme is applied to protect original face embedding by enlarging the distance among identities. Lastly, secure multiparty computation is implemented for safely computing the embedding distance during model inference. The proposed method performs well on multiple widely used verification datasets. Moreover, it has around 2.6% to 4.2% higher accuracy than the state-of-the-art in the 1:N verification scenario.
翻訳日:2024-01-25 14:40:50 公開日:2024-01-24
# LDCA:Few-Shot Learningのための文脈拡張型ローカルディスクリプタ

LDCA: Local Descriptors with Contextual Augmentation for Few-Shot Learning ( http://arxiv.org/abs/2401.13499v1 )

ライセンス: Link先を確認
Maofa Wang and Bingchen Yan(参考訳) 画像の分類はコンピュータビジョンの分野で重要な課題として現れ、最小限のラベル付きデータで新しいタスクに迅速に適応する能力を強調している。 既存の手法は主に画像レベルの特徴や局所的な記述子に依存しており、しばしばこれらの記述子を取り巻く全体的文脈を見下ろしている。 本稿では,LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを紹介する。 具体的には,適応型グローバルコンテキスト拡張モジュールを利用することで,局所的理解とグローバル理解のギャップを一意的に橋渡しする。 このモジュールにはビジュアルトランスフォーマーが組み込まれており、広義のグローバルな視点から周囲の複雑なニュアンスまで、文脈認識能力を持つローカルな記述子を備えている。 これによりLDCAは従来の記述子に基づくアプローチを超越し、各局所的特徴がより大きな視覚的物語の中で解釈されるようにする。 本手法の有効性を実証し, 細粒度分類データセットの次値に対する最大絶対値が20\%向上することを示し, 少数の分類タスクにおいて有意な進歩を示した。

Few-shot image classification has emerged as a key challenge in the field of computer vision, highlighting the capability to rapidly adapt to new tasks with minimal labeled data. Existing methods predominantly rely on image-level features or local descriptors, often overlooking the holistic context surrounding these descriptors. In this work, we introduce a novel approach termed "Local Descriptor with Contextual Augmentation (LDCA)". Specifically, this method bridges the gap between local and global understanding uniquely by leveraging an adaptive global contextual enhancement module. This module incorporates a visual transformer, endowing local descriptors with contextual awareness capabilities, ranging from broad global perspectives to intricate surrounding nuances. By doing so, LDCA transcends traditional descriptor-based approaches, ensuring each local feature is interpreted within its larger visual narrative. Extensive experiments underscore the efficacy of our method, showing a maximal absolute improvement of 20\% over the next-best on fine-grained classification datasets, thus demonstrating significant advancements in few-shot classification tasks.
翻訳日:2024-01-25 14:33:12 公開日:2024-01-24
# 楽器に特有な入力表現と拡散出力を用いた音響ギター音響合成

Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific Input Representation and Diffusion Outpainting ( http://arxiv.org/abs/2401.13498v1 )

ライセンス: Link先を確認
Hounsu Kim, Soonbeom Choi, Juhan Nam(参考訳) ギター音の合成は、ポリフォニーや表現のバラエティが高いため、非常に難しい課題である。 近年、深層生成モデルでは、一般的なmidi入力を用いて、音楽の楽譜から表現豊かな多音楽器音を合成する有望な結果が示されている。 本研究では,ギターロールと呼ばれる楽器への入力表現をカスタマイズした,表現力のあるアコースティックギター音声合成モデルを提案する。 提案手法は,長期一貫性のある音声を生成できる拡散型アウトパインティングを用いて実装する。 MIDI/audio-pairedデータセットの欠如を克服するため,既存のギターデータセットだけでなく,高品質なサンプルベースギターシンセサイザーからのデータを収集した。 定量的および定性的な評価により,提案モデルがベースラインモデルよりも高音質で,先行作品よりもリアルな音色を生成することを示す。

Synthesizing performing guitar sound is a highly challenging task due to the polyphony and high variability in expression. Recently, deep generative models have shown promising results in synthesizing expressive polyphonic instrument sounds from music scores, often using a generic MIDI input. In this work, we propose an expressive acoustic guitar sound synthesis model with a customized input representation to the instrument, which we call guitarroll. We implement the proposed approach using diffusion-based outpainting which can generate audio with long-term consistency. To overcome the lack of MIDI/audio-paired datasets, we used not only an existing guitar dataset but also collected data from a high quality sample-based guitar synthesizer. Through quantitative and qualitative evaluations, we show that our proposed model has higher audio quality than the baseline model and generates more realistic timbre sounds than the previous leading work.
翻訳日:2024-01-25 14:32:52 公開日:2024-01-24
# 弾性問題の解のための分離型物理情報ニューラルネットワーク

Separable Physics-Informed Neural Networks for the solution of elasticity problems ( http://arxiv.org/abs/2401.13486v1 )

ライセンス: Link先を確認
Vasiliy A. Es'kin, Danil V. Davydov, Julia V. Gur'eva, Alexey O. Malkhanov, Mikhail E. Smorkalov(参考訳) 深部エネルギー法(DEM)と連動して、分離可能な物理情報ニューラルネットワーク(SPINN)に基づく弾性問題の解法を提案する。 この手法は, 偏微分方程式系(PDE)に基づくバニラ物理インフォームドニューラルネットワーク(PINN)やSPINNよりも, はるかに高い収束率と精度を有することを示す多くの問題に対して, 数値解析実験が実施されている。 さらに、DEMアプローチの枠組みにおいてSPINNを用いることで、偏微分方程式のフレームにおけるPINNの助けを借りて達成できない複素幾何学上の線形弾性理論の問題を解くことができる。 考慮された問題は、幾何学、荷重、材料パラメータの点で、産業問題と非常に近い。

A method for solving elasticity problems based on separable physics-informed neural networks (SPINN) in conjunction with the deep energy method (DEM) is presented. Numerical experiments have been carried out for a number of problems showing that this method has a significantly higher convergence rate and accuracy than the vanilla physics-informed neural networks (PINN) and even SPINN based on a system of partial differential equations (PDEs). In addition, using the SPINN in the framework of DEM approach it is possible to solve problems of the linear theory of elasticity on complex geometries, which is unachievable with the help of PINNs in frames of partial differential equations. Considered problems are very close to the industrial problems in terms of geometry, loading, and material parameters.
翻訳日:2024-01-25 14:32:36 公開日:2024-01-24
# AI思想が人間の思想の創造性、多様性、進化にどのように影響するか:大規模でダイナミックな実験から

How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment ( http://arxiv.org/abs/2401.13481v1 )

ライセンス: Link先を確認
Joshua Ashkinaze, Julia Mendelsohn, Li Qiwei, Ceren Budak, Eric Gilbert(参考訳) 大規模言語モデルの出力への露出は急速に増加している。 AIが生み出すアイデアは人間のアイデアにどのように影響するのか? 実験(800人以上、40カ国以上)を行い、参加者はChatGPTまたは先行実験参加者の創造的アイデアを観察し、そのアイデアをブレインストーミングした。 我々は,AI生成例数(無,低,高露出)と,その例が「AI」とラベル付けされている場合(開示)を変動させた。 我々の動的実験設計 - 実験条件における先行参加者のアイデアは、同じ実験条件における将来の参加者の刺激として使用されます - は、文化創造の相互依存過程を模倣します。 したがって,LLMを「培養ループ内」に組み込むことによる複合効果を捉える。 高いAI被曝は、個々のアイデアの創造性に影響を与えるものではなく、集団的アイデアの多様性の平均量と変化率を増加させることを発見した。 AIはアイデアを変えました。 開示の主な効果はなかった。 また、自己報告されたクリエイティブな人々は、アイデアがAIから来ていることを知ることの影響を受けず、参加者はタスクが難しいときにAIのアイデアを意識的に採用する傾向があったこともわかりました。 社会にaiを導入することで集団の多様性が増すが、個人の創造性は向上しないことが示唆された。

Exposure to large language model output is rapidly increasing. How will seeing AI-generated ideas affect human ideas? We conducted an experiment (800+ participants, 40+ countries) where participants viewed creative ideas that were from ChatGPT or prior experimental participants and then brainstormed their own idea. We varied the number of AI-generated examples (none, low, or high exposure) and if the examples were labeled as 'AI' (disclosure). Our dynamic experiment design -- ideas from prior participants in an experimental condition are used as stimuli for future participants in the same experimental condition -- mimics the interdependent process of cultural creation: creative ideas are built upon prior ideas. Hence, we capture the compounding effects of having LLMs 'in the culture loop'. We find that high AI exposure (but not low AI exposure) did not affect the creativity of individual ideas but did increase the average amount and rate of change of collective idea diversity. AI made ideas different, not better. There were no main effects of disclosure. We also found that self-reported creative people were less influenced by knowing an idea was from AI, and that participants were more likely to knowingly adopt AI ideas when the task was difficult. Our findings suggest that introducing AI ideas into society may increase collective diversity but not individual creativity.
翻訳日:2024-01-25 14:32:24 公開日:2024-01-24
# unfollowing misinformation spreader のダイナミクス

The Dynamics of (Not) Unfollowing Misinformation Spreaders ( http://arxiv.org/abs/2401.13480v1 )

ライセンス: Link先を確認
Joshua Ashkinaze, Eric Gilbert, Ceren Budak(参考訳) 多くの研究は、人々がどのように誤情報にさらされるかを調査している。 しかし、人々がどのようにして誤情報にさらされるかについては、あまり知られていない。 人々は誤報拡散器と有機的に結びつくか? そして、何を予測しているのか? 6ヶ月以上にわたって、twitterの健康情報拡散者約5万人をフォローしていないフォロワー約1億人の頻度と予測者を追跡した。 私たちは誤情報のつながりが永続的であることを発見した。 月間降格率は0.52%である。 また、誤情報スプレッダーをアンフォローするよりも、非誤情報スプレッダーをアンフォローする可能性が31%高い。 一般的には頻度は低いが, 偽情報の拡散に最も関与する要因は(1)冗長性と(2)イデオロギーである。 まず最初に、ユーザーはまず多くのスプレッドシートをフォローするか、あるいは頻繁にツイートするスプレッドシートをフォローしている。 第二に、リベラル派は保守派よりも控え目な傾向にある。 全体として、誤情報関係の強い持続性を観察する。 ユーザが誤情報スプレッダーをアンフォローすることは、外部の悪用の必要性と、そもそも露出が起こらないことの重要性を示唆している。

Many studies explore how people 'come into' misinformation exposure. But much less is known about how people 'come out of' misinformation exposure. Do people organically sever ties to misinformation spreaders? And what predicts doing so? Over six months, we tracked the frequency and predictors of ~1M followers unfollowing ~5K health misinformation spreaders on Twitter. We found that misinformation ties are persistent. Monthly unfollowing rates are just 0.52%. Users are also 31% more likely to unfollow non-misinformation spreaders than they are to unfollow misinformation spreaders. Although generally infrequent, the factors most associated with unfollowing misinformation spreaders are (1) redundancy and (2) ideology. First, users initially following many spreaders, or who follow spreaders that tweet often, are most likely to unfollow later. Second, liberals are more likely to unfollow than conservatives. Overall, we observe strong persistence of misinformation ties. The fact that users rarely unfollow misinformation spreaders suggests a need for external nudges and the importance of preventing exposure from arising in the first place.
翻訳日:2024-01-25 14:31:56 公開日:2024-01-24
# SciMMIR: 科学的マルチモーダル情報検索のベンチマーク

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval ( http://arxiv.org/abs/2401.13478v1 )

ライセンス: Link先を確認
Siwei Wu, Yizhi Li, Kang Zhu, Ge Zhang, Yiming Liang, Kaijing Ma, Chenghao Xiao, Haoran Zhang, Bohao Yang, Wenhu Chen, Wenhao Huang, Noura Al Moubayed, Jie Fu, Chenghua Lin(参考訳) マルチモーダル情報検索(MMIR)は、特に画像とテキストのペアリングにおいて、高度な表現学習と相互モーダルアライメント研究を通じて大きな進歩を遂げた、急速に発展する分野である。 しかしながら、科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための現在のベンチマークでは、学術言語で記述されたチャートや表のイメージが通常重要な役割を果たさない、顕著なギャップが示されている。 このギャップを埋めるために、オープンアクセス紙コレクションを活用し、科学領域に関連するデータを抽出する特別科学的MMIR(SciMMIR)ベンチマークを開発する。 このベンチマークは、530kの精巧にキュレートされた画像テキストペアを含み、科学文書に詳細なキャプションを含む図形と表から抽出される。 さらに,2レベルサブセットサブカテゴリ階層アノテーションを用いて画像テキストペアに注釈を付け,ベースラインのより包括的な評価を容易にする。 CLIP や BLIP などの視覚言語モデルと多モード画像キャプションを用いたゼロショットおよび微調整評価を行った。 我々の分析は、事前学習と微調整の影響、視覚およびテキストエンコーダの影響など、科学領域におけるMMIRの重要な洞察を提供する。 データとチェックポイントはすべてhttps://github.com/Wusiwei0410/SciMMIRで公開されています。

Multi-modal information retrieval (MMIR) is a rapidly evolving field, where significant progress, particularly in image-text pairing, has been made through advanced representation learning and cross-modality alignment research. However, current benchmarks for evaluating MMIR performance in image-text pairing within the scientific domain show a notable gap, where chart and table images described in scholarly language usually do not play a significant role. To bridge this gap, we develop a specialised scientific MMIR (SciMMIR) benchmark by leveraging open-access paper collections to extract data relevant to the scientific domain. This benchmark comprises 530K meticulously curated image-text pairs, extracted from figures and tables with detailed captions in scientific documents. We further annotate the image-text pairs with two-level subset-subcategory hierarchy annotations to facilitate a more comprehensive evaluation of the baselines. We conducted zero-shot and fine-tuning evaluations on prominent multi-modal image-captioning and visual language models, such as CLIP and BLIP. Our analysis offers critical insights for MMIR in the scientific domain, including the impact of pre-training and fine-tuning settings and the influence of the visual and textual encoders. All our data and checkpoints are publicly available at https://github.com/Wusiwei0410/SciMMIR.
翻訳日:2024-01-25 14:31:38 公開日:2024-01-24
# ディープニューラルネットワークを用いた心臓筋Zディスクの分割

Segmenting Cardiac Muscle Z-disks with Deep Neural Networks ( http://arxiv.org/abs/2401.13472v1 )

ライセンス: Link先を確認
Mihaela Croitor Ibrahim, Nishant Ravikumar, Alistair Curd, Joanna Leng, Oliver Umney, Michelle Peckham(参考訳) Z-ディスク(Z-disk)は、筋の繰り返しサルコマーを脱線させる複雑な構造である。 心筋細胞において、収縮性サルコメア、細胞シグナル伝達、オートファジーの機械的安定性など重要な役割を担っている。 Zディスク構造の変化は心機能障害と関連している。 したがって、顕微鏡画像からzディスクを分割するツールを作成する必要性は強く、画像輝度の変動や染色技術などの従来の制限を克服している。 本研究では,深層学習に基づくセグメンテーションモデルを用いて筋組織の画像からZディスクを抽出する。 健常心組織のZディスクの高分解能画像と特定のZディスクタンパク質をアフィマーで染色したAiryscan共焦点データセットを利用する。 我々は,対話的ラベル付けツールであるirasikを用いて,基底真理セグメンテーションマスクを取得し,得られたデータセットを用いて,最先端セグメンテーションネットワークの性能を訓練し評価した。 テストセットでは、UNet++は、平均Diceスコアが0.91で、心筋細胞のZディスクに対して最高のセグメンテーション性能を達成し、UNet、FPN、DeepLabv3+、pix2pixなどの既存のセグメンテーションメソッドより優れている。 しかし、pix2pixは、チチン変異を伴う追加の心筋細胞のデータセットでテストすると、一般化の改善を示す。 これは、共焦点顕微鏡画像におけるz-diskのセグメント化に機械学習に基づく自動セグメンテーション手法が効果的に使用できることを示す最初の研究である。 自動セグメンテーションアプローチと予測セグメンテーションマスクは、Zディスクの形態的特徴(例えば、幅と向き)を導出し、その後、疾患に関連する心ミクロ組織の変化を定量化するために用いられる。

Z-disks are complex structures that delineate repeating sarcomeres in striated muscle. They play significant roles in cardiomyocytes such as providing mechanical stability for the contracting sarcomere, cell signalling and autophagy. Changes in Z-disk architecture have been associated with impaired cardiac function. Hence, there is a strong need to create tools to segment Z-disks from microscopy images, that overcome traditional limitations such as variability in image brightness and staining technique. In this study, we apply deep learning based segmentation models to extract Z-disks in images of striated muscle tissue. We leverage a novel Airyscan confocal dataset, which comprises high resolution images of Z-disks of healthy heart tissue, stained with Affimers for specific Z-disk proteins. We employed an interactive labelling tool, Ilastik to obtain ground truth segmentation masks and use the resulting data set to train and evaluate the performance of several state-of-the-art segmentation networks. On the test set, UNet++ achieves best segmentation performance for Z-disks in cardiomyocytes, with an average Dice score of 0.91 and outperforms other established segmentation methods including UNet, FPN, DeepLabv3+ and pix2pix. However, pix2pix demonstrates improved generalisation, when tested on an additional dataset of cardiomyocytes with a titin mutation. This is the first study to demonstrate that automated machine learning-based segmentation approaches may be used effectively to segment Z-disks in confocal microscopy images. Automated segmentation approaches and predicted segmentation masks could be used to derive morphological features of Z-disks (e.g. width and orientation), and subsequently, to quantify disease-related changes to cardiac microstructure.
翻訳日:2024-01-25 14:31:14 公開日:2024-01-24
# speechdpr: オープンドメイン音声質問応答のためのエンドツーエンド音声通路検索

SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering ( http://arxiv.org/abs/2401.13463v1 )

ライセンス: Link先を確認
Chyi-Jiunn Lin, Guan-Ting Lin, Yung-Sung Chuang, Wei-Lun Wu, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee(参考訳) sqa(stalkd question answering)は、機械がユーザの質問に応答するために、与えられた音声の通路内で回答スパンを見つけ出すことで不可欠である。 SQAは、認識エラーや外語彙(OOV)の問題を避けるために、これまでASRなしで達成されてきた。 しかし,オープンドメインSQA(open-domain SQA)の現実的な問題として,機械が最初に音声アーカイブから解答を格納するパスを検索する必要があることが考えられた。 本稿では,openSQA問題の検索コンポーネントとして,最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。 speechdprはunsupervised asr(uasr)とtext dense retriever(tdr)のカスケードモデルから知識を蒸留することで文レベルの意味表現を学ぶ。 手書きの音声データは必要ない。 最初の実験では、UASRとTDRのカスケードモデルに匹敵する性能を示し、UASRが貧弱な場合には、音声認識エラーに対してより堅牢であることを示す。

Spoken Question Answering (SQA) is essential for machines to reply to user's question by finding the answer span within a given spoken passage. SQA has been previously achieved without ASR to avoid recognition errors and Out-of-Vocabulary (OOV) problems. However, the real-world problem of Open-domain SQA (openSQA), in which the machine needs to first retrieve passages that possibly contain the answer from a spoken archive in addition, was never considered. This paper proposes the first known end-to-end framework, Speech Dense Passage Retriever (SpeechDPR), for the retrieval component of the openSQA problem. SpeechDPR learns a sentence-level semantic representation by distilling knowledge from the cascading model of unsupervised ASR (UASR) and text dense retriever (TDR). No manually transcribed speech data is needed. Initial experiments showed performance comparable to the cascading model of UASR and TDR, and significantly better when UASR was poor, verifying this approach is more robust to speech recognition errors.
翻訳日:2024-01-25 14:30:40 公開日:2024-01-24
# 探索から成長する:基盤モデルに基づくロボットのための自己探索フレームワーク

Growing from Exploration: A self-exploring framework for robots based on foundation models ( http://arxiv.org/abs/2401.13462v1 )

ライセンス: Link先を確認
Shoujie Li and Ran Yu and Tong Wu and JunWen Zhong and Xiao-Ping Zhang and Wenbo Ding(参考訳) 知能ロボットはロボット分野における究極の目標である。 既存の作業は、人間定義のタスクを達成するために学習ベースまたは最適化ベースの方法を活用する。 しかし、ロボットが様々な環境を自律的に探索できるという課題は解決されていない。 本研究では,ロボットが人間の介入なしに自律的に探索・学習できるGExpというフレームワークを提案する。 この目標を達成するために,基礎モデルに基づく自己探索,知識ベース構築,クローズループフィードバックを含むモジュールを考案する。 幼児が世界と対話する方法に触発されて、GExpはロボットに一連の自己生成タスクで環境を理解し、探索するように促す。 探索の過程で、ロボットは将来に役立つ有益な経験からスキルを得る。 GExpはロボットに、自己探索によって複雑なタスクを解く機能を提供する。 GExpの作業は、事前の対話的な知識と人間の介入とは独立しており、いくつかのショット学習としてコンテキスト内サンプルを提供する以前の研究とは異なり、異なるシナリオに直接適応することができる。 さらに,実世界のロボットシステムに自己学習のスキルを具体的アシスタントとして展開するワークフローを提案する。

Intelligent robot is the ultimate goal in the robotics field. Existing works leverage learning-based or optimization-based methods to accomplish human-defined tasks. However, the challenge of enabling robots to explore various environments autonomously remains unresolved. In this work, we propose a framework named GExp, which enables robots to explore and learn autonomously without human intervention. To achieve this goal, we devise modules including self-exploration, knowledge-base-building, and close-loop feedback based on foundation models. Inspired by the way that infants interact with the world, GExp encourages robots to understand and explore the environment with a series of self-generated tasks. During the process of exploration, the robot will acquire skills from beneficial experiences that are useful in the future. GExp provides robots with the ability to solve complex tasks through self-exploration. GExp work is independent of prior interactive knowledge and human intervention, allowing it to adapt directly to different scenarios, unlike previous studies that provided in-context examples as few-shot learning. In addition, we propose a workflow of deploying the real-world robot system with self-learned skills as an embodied assistant.
翻訳日:2024-01-25 14:30:17 公開日:2024-01-24
# 照度多様性によるロバストネスのマルチエージェント診断

Multi-Agent Diagnostics for Robustness via Illuminated Diversity ( http://arxiv.org/abs/2401.13460v1 )

ライセンス: Link先を確認
Mikayel Samvelyan, Davide Paglieri, Minqi Jiang, Jack Parker-Holder, Tim Rockt\"aschel(参考訳) 急速に進展するマルチエージェントシステムの分野では,不慣れな環境や敵意のない環境でのロバスト性を確保することが重要である。 慣れ親しんだ環境での卓越した性能にもかかわらず、これらのシステムはトレーニング期間中に過度に適合するため、しばしば新しい状況で失敗する。 これは、協調行動と競争行動の両方が存在する環境で特に顕著であり、過剰フィットと一般化の課題の二重の性質をカプセル化している。 この問題に対処するために,我々は,事前訓練されたマルチエージェントポリシにおいて戦略的脆弱性を露呈する多様な敵シナリオを生成するための新しい手法である,illuminated diversity (madrid) によるロバストネスのマルチエージェント診断を提案する。 オープンエンド学習の概念を活用して、MADRIDは敵の設定の広大な空間をナビゲートし、これらの設定の脆弱性を測定するために、ターゲットポリシーの後悔を利用する。 我々はマルチエージェント強化学習における最も複雑な環境の一つであるGoogle Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。 具体的には,大規模な分散インフラ上での45日間のトレーニングを通じてゲームを"マスター"する,最先端のアプローチであるTiZeroに対して,多様な敵設定を生成するためにMADRIDを使用する。 マルチエージェントシステムにおける厳密な評価の重要性を浮き彫りにして,TiZeroの戦術的意思決定における重要な欠点を明らかにする。

In the rapidly advancing field of multi-agent systems, ensuring robustness in unfamiliar and adversarial settings is crucial. Notwithstanding their outstanding performance in familiar environments, these systems often falter in new situations due to overfitting during the training phase. This is especially pronounced in settings where both cooperative and competitive behaviours are present, encapsulating a dual nature of overfitting and generalisation challenges. To address this issue, we present Multi-Agent Diagnostics for Robustness via Illuminated Diversity (MADRID), a novel approach for generating diverse adversarial scenarios that expose strategic vulnerabilities in pre-trained multi-agent policies. Leveraging the concepts from open-ended learning, MADRID navigates the vast space of adversarial settings, employing a target policy's regret to gauge the vulnerabilities of these settings. We evaluate the effectiveness of MADRID on the 11vs11 version of Google Research Football, one of the most complex environments for multi-agent reinforcement learning. Specifically, we employ MADRID for generating a diverse array of adversarial settings for TiZero, the state-of-the-art approach which "masters" the game through 45 days of training on a large-scale distributed infrastructure. We expose key shortcomings in TiZero's tactical decision-making, underlining the crucial importance of rigorous evaluation in multi-agent systems.
翻訳日:2024-01-25 14:29:58 公開日:2024-01-24
# 量子多体系の基底状態問題を解決する量子ガウスフィルタを用いた変分量子固有解法

Variational Quantum Eigensolvers with Quantum Gaussian Filters for solving ground-state problems in quantum many-body systems ( http://arxiv.org/abs/2401.13459v1 )

ライセンス: Link先を確認
Yihao Liu, Min-Quan He, and Z. D. Wang(参考訳) 本稿では,量子多体系における基底状態近似のための新しい量子アルゴリズムを提案する。 提案手法は変分量子固有解器(VQE)と量子ガウスフィルタ(QGF)を統合し,QGF演算子をVQEを介して小さな最適化ステップに分解する反復手法を利用する。 逆場イジングモデルを用いて,従来のVQE法と比較して,特に雑音条件下での収束速度と精度の向上を示した。 この進歩は、複雑な量子シミュレーションを効果的に処理するアルゴリズムの可能性を強調し、NISQ時代の量子コンピューティングアプリケーションにおいて重要な一歩を踏み出した。

We present a novel quantum algorithm for approximating the ground-state in quantum many-body systems, particularly suited for Noisy Intermediate-Scale Quantum (NISQ) devices. Our approach integrates Variational Quantum Eigensolvers (VQE) with Quantum Gaussian Filters (QGF), utilizing an iterative methodology that discretizes the application of the QGF operator into small, optimized steps through VQE. Demonstrated on the Transverse Field Ising models, our method shows improved convergence speed and accuracy, particularly under noisy conditions, compared to conventional VQE methods. This advancement highlights the potential of our algorithm in effectively addressing complex quantum simulations, marking a significant stride in quantum computing applications within the NISQ era.
翻訳日:2024-01-25 14:29:35 公開日:2024-01-24
# 強化学習による記号方程式解法

Symbolic Equation Solving via Reinforcement Learning ( http://arxiv.org/abs/2401.13447v1 )

ライセンス: Link先を確認
Lennart Dabelow and Masahito Ueda(参考訳) 機械学習の手法は、様々な社会的、経済的、科学的文脈で徐々に採用されているが、正確な数学に苦しむことで有名である。 典型的な例として、数学用語の単純化、形式微分の計算、代数方程式の正確な解の発見などのタスクを含むコンピュータ代数がある。 これらの目的のための伝統的なソフトウェアパッケージは、ある特定の操作(例えば、微分)がある項(例えば、正弦関数)を別の項(例えば、余弦関数)に変換する方法に関するルールの巨大なデータベースに基づいている。 これまでのところ、これらの規則は人間によって発見され、その後プログラムされる必要がある。 記号型で線形方程式を解くというパラダイム的な例に着目し、ニューラルネットワークを用いた強化学習を用いて、基本変換規則とステップバイステップの解を求める過程をいかに自動化できるかを実証する。

Machine-learning methods are gradually being adopted in a great variety of social, economic, and scientific contexts, yet they are notorious for struggling with exact mathematics. A typical example is computer algebra, which includes tasks like simplifying mathematical terms, calculating formal derivatives, or finding exact solutions of algebraic equations. Traditional software packages for these purposes are commonly based on a huge database of rules for how a specific operation (e.g., differentiation) transforms a certain term (e.g., sine function) into another one (e.g., cosine function). Thus far, these rules have usually needed to be discovered and subsequently programmed by humans. Focusing on the paradigmatic example of solving linear equations in symbolic form, we demonstrate how the process of finding elementary transformation rules and step-by-step solutions can be automated using reinforcement learning with deep neural networks.
翻訳日:2024-01-25 14:29:18 公開日:2024-01-24
# Clue-Guided Path Exploration: 計算資源消費量の少ない効率的な知識ベース質問応答フレームワーク

Clue-Guided Path Exploration: An Efficient Knowledge Base Question-Answering Framework with Low Computational Resource Consumption ( http://arxiv.org/abs/2401.13444v1 )

ライセンス: Link先を確認
Dehao Tao, Feng Huang, Yongfeng Huang and Minghu Jiang(参考訳) 近年、大きな言語モデル(LLM)は目覚ましい機能を見せている。 しかし、知識の更新は課題を引き起こし、未知のクエリに直面すると不正確になる可能性がある。 LLMと知識グラフの統合が検討されているが、既存のアプローチではLLMを主要な意思決定者として扱い、その能力に対する高い要求を示唆している。 これは計算コストが低く、性能が比較的低いLLMには特に適さない。 本稿では,知識ベースとllmを効率的に統合し,モデルの能力に対してより厳格な要件を課すための,手掛かり付き経路探索フレームワーク(cgpe)を提案する。 CGPEは、人間が手動で知識を検索する手法にインスパイアされ、知識ベース内の必要な知識経路を体系的に探索するための手がかりとして、質問からの情報を利用する。 オープンソースデータセットの実験では、CGPEは従来の手法よりも優れており、パラメータが少ないLCMに適用可能であることが明らかになった。 例えば、60億のパラメータを持つchatglm3でさえ、gpt-4のパフォーマンスに匹敵する可能性がある。 さらに, LLMにおけるCGPEの呼び出し頻度は最小であり, 計算オーバーヘッドの低減が示唆された。 計算資源の制約に直面している組織や個人に対して,本研究は大きな実用的価値を提供する。

In recent times, large language models (LLMs) have showcased remarkable capabilities. However, updating their knowledge poses challenges, potentially leading to inaccuracies when confronted with unfamiliar queries. While integrating knowledge graphs with LLMs has been explored, existing approaches treat LLMs as primary decision-makers, imposing high demands on their capabilities. This is particularly unsuitable for LLMs with lower computational costs and relatively poorer performance. In this paper, we introduce a Clue-Guided Path Exploration framework (CGPE) that efficiently merges a knowledge base with an LLM, placing less stringent requirements on the model's capabilities. Inspired by the method humans use to manually retrieve knowledge, CGPE employs information from the question as clues to systematically explore the required knowledge path within the knowledge base. Experiments on open-source datasets reveal that CGPE outperforms previous methods and is highly applicable to LLMs with fewer parameters. In some instances, even ChatGLM3, with its 6 billion parameters, can rival the performance of GPT-4. Furthermore, the results indicate a minimal invocation frequency of CGPE on LLMs, suggesting reduced computational overhead. For organizations and individuals facing constraints in computational resources, our research offers significant practical value.
翻訳日:2024-01-25 14:29:04 公開日:2024-01-24
# ランダムガウス状態の生成

Generating random Gaussian states ( http://arxiv.org/abs/2401.13435v1 )

ライセンス: Link先を確認
Leevi Lepp\"aj\"arvi, Ion Nechita, Ritabrata Sengupta(参考訳) 確率量子共分散行列 (RQCM) と呼ぶ共分散行列を用いて, ガウス状態のランダムサンプリング法を開発した。 本研究では,RQCMの固有値が,多数のモードの極限においてシフト半円分布に収束することを示す。 正部分転位(PPT)基準に基づいて,そのような状態の絡み合いに関する洞察を提供する。 さらに、RQCMのシンプレクティック固有値は、自由確率を用いて特徴づけられる確率分布に収束することを示す。 RQCMが分離可能で、そうでなくても、様々なパラメータ値とモード分割に対して、その拡張可能性度を数値的に推定する。

We develop a method for the random sampling of (multimode) Gaussian states in terms of their covariance matrix, which we refer to as a random quantum covariance matrix (RQCM). We analyze the distribution of marginals and demonstrate that the eigenvalues of an RQCM converge to a shifted semicircular distribution in the limit of a large number of modes. We provide insights into the entanglement of such states based on the positive partial transpose (PPT) criteria. Additionally, we show that the symplectic eigenvalues of an RQCM converge to a probability distribution that can be characterized using free probability. We present numerical estimates for the probability of a RQCM being separable and, if not, its extendibility degree, for various parameter values and mode bipartitions.
翻訳日:2024-01-25 14:28:42 公開日:2024-01-24
# 回転補正のための半教師付き結合薄板スプラインモデル

Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond ( http://arxiv.org/abs/2401.13432v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) 薄板スプライン(TPS)は、制御点運動による弾性・非線形変換を表現できる主ワープである。 制御点の増加に伴い、ワープはますます柔軟になるが、通常、コンテンツ歪みなどの望ましくない問題によって引き起こされるボトルネックに遭遇する。 本稿では, 回転補正, 整形, ポートレート補正などの単一画像に基づくワープ作業におけるTPSの汎用的応用について検討する。 このボトルネックを解消するために,複数のTPSを限定的な制御ポイントで繰り返し結合し,より柔軟かつ強力な変換を行う結合型薄板スプラインモデル(CoupledTPS)を提案する。 具体的には,現在の潜在状態に応じて新たな制御点を予測する反復探索をまず設計する。 次に,異なるTPS変換の結合のためのブリッジとしてワープ流を提示し,複数のワープによる補間誤差を効果的に除去する。 また,厳密なアノテーションコストを考慮した半教師付き学習手法を開発し,ラベルなしデータの活用によるワープ品質の向上を図る。 ラベル付きデータの検索制御点とグラフィック拡張の間の二重変換によって定式化され、暗黙の補正一貫性が制約される。 最後に、回転補正における半教師ありスキームの利点を示すために、大量のラベルなしデータを収集する。 大規模な実験により、CoupledTPSの回転補正以降の既存のSoTAソリューションよりも優位性と普遍性を示す。 コードとデータはhttps://github.com/nie-lang/CoupledTPSで入手できる。

Thin-plate spline (TPS) is a principal warp that allows for representing elastic, nonlinear transformation with control point motions. With the increase of control points, the warp becomes increasingly flexible but usually encounters a bottleneck caused by undesired issues, e.g., content distortion. In this paper, we explore generic applications of TPS in single-image-based warping tasks, such as rotation correction, rectangling, and portrait correction. To break this bottleneck, we propose the coupled thin-plate spline model (CoupledTPS), which iteratively couples multiple TPS with limited control points into a more flexible and powerful transformation. Concretely, we first design an iterative search to predict new control points according to the current latent condition. Then, we present the warping flow as a bridge for the coupling of different TPS transformations, effectively eliminating interpolation errors caused by multiple warps. Besides, in light of the laborious annotation cost, we develop a semi-supervised learning scheme to improve warping quality by exploiting unlabeled data. It is formulated through dual transformation between the searched control points of unlabeled data and its graphic augmentation, yielding an implicit correction consistency constraint. Finally, we collect massive unlabeled data to exhibit the benefit of our semi-supervised scheme in rotation correction. Extensive experiments demonstrate the superiority and universality of CoupledTPS over the existing state-of-the-art (SoTA) solutions for rotation correction and beyond. The code and data will be available at https://github.com/nie-lang/CoupledTPS.
翻訳日:2024-01-25 14:28:31 公開日:2024-01-24
# エッジGPUによるCNNアーキテクチャ抽出

CNN architecture extraction on edge GPU ( http://arxiv.org/abs/2401.13575v1 )

ライセンス: Link先を確認
Peter Horvath, Lukasz Chmielewski, Leo Weissbart, Lejla Batina, Yuval Yarom(参考訳) 画像分類、自然言語処理、音声認識、予測など、多くの応用において、汎用性と最先端の結果によって、ニューラルネットワークが普及している。 これらのアプリケーションは、組み込みデバイスのようなリソース制約のある環境でも使われる。 本研究では, NVIDIA Jetson Nanoマイクロコンピュータ上で, サイドチャネル解析によるニューラルネットワーク実装のリバースエンジニアリングへの感受性について検討した。 この目的のために、アーキテクチャ抽出攻撃が提示される。 この攻撃では、Jetson NanoのGPU上に15の一般的な畳み込みニューラルネットワークアーキテクチャ(EfficientNets、MobileNets、NasNetなど)を実装し、ニューラルネットワークの推論操作中にGPUの電磁放射を分析する。 その結果,深層学習に基づくサイドチャネル分析により,ニューラルネットワークアーキテクチャの識別が容易であることが判明した。

Neural networks have become popular due to their versatility and state-of-the-art results in many applications, such as image classification, natural language processing, speech recognition, forecasting, etc. These applications are also used in resource-constrained environments such as embedded devices. In this work, the susceptibility of neural network implementations to reverse engineering is explored on the NVIDIA Jetson Nano microcomputer via side-channel analysis. To this end, an architecture extraction attack is presented. In the attack, 15 popular convolutional neural network architectures (EfficientNets, MobileNets, NasNet, etc.) are implemented on the GPU of Jetson Nano and the electromagnetic radiation of the GPU is analyzed during the inference operation of the neural networks. The results of the analysis show that neural network architectures are easily distinguishable using deep learning-based side-channel analysis.
翻訳日:2024-01-25 14:21:47 公開日:2024-01-24
# サイバー物理システムにおける動的リスクマネジメント

Dynamic Risk Management in Cyber Physical Systems ( http://arxiv.org/abs/2401.13539v1 )

ライセンス: Link先を確認
Daniel Schneider, Jan Reich, Rasmus Adler and Peter Liggesmeyer(参考訳) サイバー物理システム(CPS)は、新しい種類のアプリケーションと、多数の異なるアプリケーションドメインにおける既存のアプリケーションを大幅に改善する。 今後のCPSの大きな特徴は、経済の成功や生態学的、社会的な改善の可能性を秘めているため、自律的な点まで自動化の度合いが高まることである。 しかし、このような(協力的かつ自動化された)CPSの可能性を最大限に活用するには、安全保証が特に重要であるいくつかの重要なエンジニアリング課題を克服する必要がある。 残念ながら、確立された安全保証手法や標準は、閉じたより複雑なシステムを念頭に置いて設計されているため、このタスクには達していない。 本稿では,協調型自動CPSの安全性保証課題の構築,動的リスク管理の展望の概要,既存のビルディングブロックについて述べる。

Cyber Physical Systems (CPS) enable new kinds of applications as well as significant improvements of existing ones in numerous different application domains. A major trait of upcoming CPS is an increasing degree of automation up to the point of autonomy, as there is a huge potential for economic success as well as for ecologic and societal improvements. However, to unlock the full potential of such (cooperative and automated) CPS, we first need to overcome several significant engineering challenges, where safety assurance is a particularly important one. Unfortunately, established safety assurance methods and standards do not live up to this task, as they have been designed with closed and less complex systems in mind. This paper structures safety assurance challenges of cooperative automated CPS, provides an overview on our vision of dynamic risk management and describes already existing building blocks.
翻訳日:2024-01-25 14:21:33 公開日:2024-01-24
# 集合上のマスク粒子モデリング:自己教師付き高エネルギー物理学基礎モデルに向けて

Masked Particle Modeling on Sets: Towards Self-Supervised High Energy Physics Foundation Models ( http://arxiv.org/abs/2401.13537v1 )

ライセンス: Link先を確認
Lukas Heinrich and Michael Kagan and Samuel Klein and Matthew Leigh and Tobias Golling and John Andrew Raine and Margarita Osadchy(参考訳) 我々は,高エネルギー物理学 (hep) の科学データに使用する無順序入力集合の汎用的,転送可能,再利用可能な表現を学習するための自己教師あり手法として, \textit{masked particle modeling} (mpm)を提案する。 この研究は、集合上の置換不変関数を学習するために、マスク付きモデリングに基づく事前学習を実行する新しいスキームを提供する。 より一般的に、この研究はhepの大規模な基礎モデルを構築するためのステップを提供しており、これは自己教師あり学習で一般的に事前学習され、後に様々なダウンストリームタスク用に微調整される。 MPMでは、予め訓練されたベクトル量子化変分オートエンコーダの離散化トークン表現によって定義されるように、集合内の粒子をマスクし、トレーニング目的がそれらのアイデンティティを回復することである。 衝突型加速器物理実験における高エネルギージェットの試料における方法の有効性について検討し, 離散化, 置換不変性, 秩序の影響について検討した。 また,モデルの微調整能力についても検討し,教師付きや弱い教師付きジェット分類などのタスクに適用可能であり,また,小さな微調整データセットを新しいクラスや新しいデータドメインに効率的に転送できることを示した。

We propose \textit{masked particle modeling} (MPM) as a self-supervised method for learning generic, transferable, and reusable representations on unordered sets of inputs for use in high energy physics (HEP) scientific data. This work provides a novel scheme to perform masked modeling based pre-training to learn permutation invariant functions on sets. More generally, this work provides a step towards building large foundation models for HEP that can be generically pre-trained with self-supervised learning and later fine-tuned for a variety of down-stream tasks. In MPM, particles in a set are masked and the training objective is to recover their identity, as defined by a discretized token representation of a pre-trained vector quantized variational autoencoder. We study the efficacy of the method in samples of high energy jets at collider physics experiments, including studies on the impact of discretization, permutation invariance, and ordering. We also study the fine-tuning capability of the model, showing that it can be adapted to tasks such as supervised and weakly supervised jet classification, and that the model can transfer efficiently with small fine-tuning data sets to new classes and new data domains.
翻訳日:2024-01-25 14:21:19 公開日:2024-01-24
# 共同解析最適化のためのファインタニング基礎モデル

Finetuning Foundation Models for Joint Analysis Optimization ( http://arxiv.org/abs/2401.13536v1 )

ライセンス: Link先を確認
Matthias Vig and Nicole Hartman and Lukas Heinrich(参考訳) 本研究は,高エネルギー物理(HEP)において,逐次最適化や再構成,解析の標準パラダイムを超越して,性能とデータ効率の大幅な向上が達成できることを実証する。 我々は、HEP再構成と分析を、事前学習、微調整、ドメイン適応、高次元埋め込み空間といった現代の機械学習ワークフローに結合し、中間ジヒッグスシステムを介して崩壊する重共鳴の探索を例に、そのゲインを4$b$-jetsに定量化する。

In this work we demonstrate that significant gains in performance and data efficiency can be achieved in High Energy Physics (HEP) by moving beyond the standard paradigm of sequential optimization or reconstruction and analysis components. We conceptually connect HEP reconstruction and analysis to modern machine learning workflows such as pretraining, finetuning, domain adaptation and high-dimensional embedding spaces and quantify the gains in the example usecase of searches of heavy resonances decaying via an intermediate di-Higgs system to four $b$-jets.
翻訳日:2024-01-25 14:20:58 公開日:2024-01-24
# QAGait:品質の観点からの歩行認識の再考

QAGait: Revisit Gait Recognition from a Quality Perspective ( http://arxiv.org/abs/2401.13531v1 )

ライセンス: Link先を確認
Zengbin Wang, Saihui Hou, Man Zhang, Xu Liu, Chunshui Cao, Yongzhen Huang, Peipei Li, Shibiao Xu(参考訳) 歩行認識は、歩行者を独自の歩行パターンから識別することを目的とした、有望な生体計測手法である。 シルエットのモダリティは、容易な獲得、単純な構造、スパース表現、便利なモデリングで有名であり、実験室内での制御研究に広く利用されている。 しかし、歩容認識が盤内から機内シナリオへと急速に進展するにつれて、様々な条件がシルエットモダリティの重要な課題を提起する。 1)識別不能な低品質シルエット(異常セグメンテーション、重篤な閉塞、あるいは非ヒトの形状) 2) 身元不明だが難易度の高いシルエット(背景雑音,非標準姿勢,わずか閉塞)。 これらの課題に対処するために,歩行認識パイプラインを再検討し,品質の観点から歩行認識にアプローチする。 具体的には、背景雑音を除去するMaxmial Connect AreaとTemplate Match、非標準姿勢を扱うアライメント戦略など、コスト効率の高い品質評価戦略を提案する。 また,シルエット品質を組込み空間内で最適化する2つの品質認識損失関数を提案する。 大規模な実験により、当社のQAGaitは歩行信頼性と性能向上の両方を保証できます。 さらに、我々の品質評価戦略は既存の歩行データセットとシームレスに統合することができ、優位性を示している。 コードはhttps://github.com/wzb-bupt/qagaitで入手できる。

Gait recognition is a promising biometric method that aims to identify pedestrians from their unique walking patterns. Silhouette modality, renowned for its easy acquisition, simple structure, sparse representation, and convenient modeling, has been widely employed in controlled in-the-lab research. However, as gait recognition rapidly advances from in-the-lab to in-the-wild scenarios, various conditions raise significant challenges for silhouette modality, including 1) unidentifiable low-quality silhouettes (abnormal segmentation, severe occlusion, or even non-human shape), and 2) identifiable but challenging silhouettes (background noise, non-standard posture, slight occlusion). To address these challenges, we revisit gait recognition pipeline and approach gait recognition from a quality perspective, namely QAGait. Specifically, we propose a series of cost-effective quality assessment strategies, including Maxmial Connect Area and Template Match to eliminate background noises and unidentifiable silhouettes, Alignment strategy to handle non-standard postures. We also propose two quality-aware loss functions to integrate silhouette quality into optimization within the embedding space. Extensive experiments demonstrate our QAGait can guarantee both gait reliability and performance enhancement. Furthermore, our quality assessment strategies can seamlessly integrate with existing gait datasets, showcasing our superiority. Code is available at https://github.com/wzb-bupt/QAGait.
翻訳日:2024-01-25 14:20:45 公開日:2024-01-24
# ワッサーシュタイン確率空間上のリーマンSGDとSVRGの流れの理解に向けて

Towards Understanding the Riemannian SGD and SVRG Flows on Wasserstein Probabilistic Space ( http://arxiv.org/abs/2401.13530v1 )

ライセンス: Link先を確認
Mingyang Yi, Bohan Wang(参考訳) 近年、リーマン多様体上の最適化は、最適化コミュニティに新たな洞察を与えている。 この点において、二階ワッサースタイン距離を備えた確率測度距離空間として取られる多様体は、実際的なサンプリングプロセスと結びつくことができるので、特に興味がある。 一般に、ワッサーシュタイン空間上のオラクル(連続)最適化法はリーマン勾配流れ(つまり、kl の発散を最小化するときにランゲバンダイナミクス)である。 本稿では,勾配流を確率勾配勾配勾配(SGD)流と確率分散還元勾配(SVRG)流に拡張することにより,ワッサーシュタイン空間における連続的な最適化手法を強化することを目的とする。 ユークリッド空間上の2つの流れは標準確率最適化法であるが、リーマンの対応式はまだ検討されていない。 ワッサーシュタイン空間の構造を利用して、対応するランダムベクトル空間における所望の確率法の離散力学を近似するために確率微分方程式(SDE)を構築する。 そして、そのようなsdeにフォッカープランク方程式を適用することにより、確率測度の流れが自然に得られる。 さらに、提案されたリーマン確率流の収束速度が証明され、ユークリッド空間における結果と一致する。

Recently, optimization on the Riemannian manifold has provided new insights to the optimization community. In this regard, the manifold taken as the probability measure metric space equipped with the second-order Wasserstein distance is of particular interest, since optimization on it can be linked to practical sampling processes. In general, the oracle (continuous) optimization method on Wasserstein space is Riemannian gradient flow (i.e., Langevin dynamics when minimizing KL divergence). In this paper, we aim to enrich the continuous optimization methods in the Wasserstein space by extending the gradient flow into the stochastic gradient descent (SGD) flow and stochastic variance reduction gradient (SVRG) flow. The two flows on Euclidean space are standard stochastic optimization methods, while their Riemannian counterparts are not explored yet. By leveraging the structures in Wasserstein space, we construct a stochastic differential equation (SDE) to approximate the discrete dynamics of desired stochastic methods in the corresponded random vector space. Then, the flows of probability measures are naturally obtained by applying Fokker-Planck equation to such SDE. Furthermore, the convergence rates of the proposed Riemannian stochastic flows are proven, and they match the results in Euclidean space.
翻訳日:2024-01-25 14:20:21 公開日:2024-01-24
# speechgpt-gen: 情報連鎖音声生成のスケール

SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation ( http://arxiv.org/abs/2401.13527v1 )

ライセンス: Link先を確認
Dong Zhang, Xin Zhang, Jun Zhan, Shimin Li, Yaqian Zhou, Xipeng Qiu(参考訳) 現在の音声大言語モデル(SLLM)は、効果的な音声モデリングから恩恵を受け、文脈内音声生成における例外的な能力と、目に見えない話者への効率的な一般化を実証している。 しかし、一般的な情報モデリングプロセスは特定の冗長性によって蓄積され、音声生成の非効率化に繋がる。 本稿では,大規模音声生成における意味情報と知覚情報を分離する手法であるChain-of-Information Generation (CoIG)を提案する。 そこで我々は, セマンティックおよび知覚情報モデリングにおいて効率的な8ビリオンパラメータSLLMであるSpeechGPT-Genを開発した。 意味情報モデリングのためのLLMに基づく自己回帰モデルと、知覚情報モデリングのためのフローマッチングを用いた非自己回帰モデルを含む。 さらに,フローマッチングの効率を高めるために,先行分布に意味情報を注入する新しい手法を導入する。 広汎な実験結果から,SpeechGPT-Gen はゼロショット音声変換,ゼロショット音声変換,音声音声対話において顕著に優れており,CoIG が音声の意味的・知覚的次元を抽出・モデル化する能力に優れていたことが示唆された。 コードとモデルはhttps://github.com/0nutation/SpeechGPTで入手できる。

Benefiting from effective speech modeling, current Speech Large Language Models (SLLMs) have demonstrated exceptional capabilities in in-context speech generation and efficient generalization to unseen speakers. However, the prevailing information modeling process is encumbered by certain redundancies, leading to inefficiencies in speech generation. We propose Chain-of-Information Generation (CoIG), a method for decoupling semantic and perceptual information in large-scale speech generation. Building on this, we develop SpeechGPT-Gen, an 8-billion-parameter SLLM efficient in semantic and perceptual information modeling. It comprises an autoregressive model based on LLM for semantic information modeling and a non-autoregressive model employing flow matching for perceptual information modeling. Additionally, we introduce the novel approach of infusing semantic information into the prior distribution to enhance the efficiency of flow matching. Extensive experimental results demonstrate that SpeechGPT-Gen markedly excels in zero-shot text-to-speech, zero-shot voice conversion, and speech-to-speech dialogue, underscoring CoIG's remarkable proficiency in capturing and modeling speech's semantic and perceptual dimensions. Code and models are available at https://github.com/0nutation/SpeechGPT.
翻訳日:2024-01-25 14:19:58 公開日:2024-01-24
# デロケート:ランダムな改ざん跡のあるディープフェイクビデオの検出と位置決め

Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces ( http://arxiv.org/abs/2401.13516v1 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou(参考訳) ディープフェイクビデオはますます現実的になりつつあり、フレームごとに異なる顔領域に微妙な改ざんの痕跡が見られる。 その結果、既存のDeepfake検出手法の多くは、未知のドメインのDeepfakeビデオを検出するのに苦労し、改ざんされた領域を正確に特定する。 そこで本研究では,未知のドメインのDeepfakeビデオの認識とローカライズが可能なDelocateという,新しいDeepfake検出モデルを提案する。 OurmethodはRecovering and Localizationという2つのステージから構成される。 復元段階では、関心領域(rois)をマスキングし、痕跡を改ざんすることなく実顔の復元を行い、実顔の回復効果が比較的良好であり、偽顔の回復効果が低くなる。 ローカライズ段階では、回収相の出力と偽造グランド真理マスクは偽造ローカライズプロセスを導くためのスーパービジョンとして機能する。 このプロセスは、偽の顔の回復段階と回復不良を戦略的に強調し、改ざんされた領域の局所化を容易にする。 4つのベンチマークデータセットを用いた拡張実験により,改ざん領域のローカライズだけでなく,クロスドメイン検出性能も向上した。

Deepfake videos are becoming increasingly realistic, showing subtle tampering traces on facial areasthat vary between frames. Consequently, many existing Deepfake detection methods struggle to detect unknown domain Deepfake videos while accurately locating the tampered region. To address thislimitation, we propose Delocate, a novel Deepfake detection model that can both recognize andlocalize unknown domain Deepfake videos. Ourmethod consists of two stages named recoveringand localization. In the recovering stage, the modelrandomly masks regions of interest (ROIs) and reconstructs real faces without tampering traces, resulting in a relatively good recovery effect for realfaces and a poor recovery effect for fake faces. Inthe localization stage, the output of the recoveryphase and the forgery ground truth mask serve assupervision to guide the forgery localization process. This process strategically emphasizes the recovery phase of fake faces with poor recovery, facilitating the localization of tampered regions. Ourextensive experiments on four widely used benchmark datasets demonstrate that Delocate not onlyexcels in localizing tampered areas but also enhances cross-domain detection performance.
翻訳日:2024-01-25 14:19:32 公開日:2024-01-24
# gpt-3.5は要約を生成することができるか?

Can GPT-3.5 Generate and Code Discharge Summaries? ( http://arxiv.org/abs/2401.13512v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Falis, Aryo Pradipta Gema, Hang Dong, Luke Daines, Siddharth Basetti, Michael Holder, Rose S Penfold, Alexandra Birch, Beatrice Alex(参考訳) 目的: 低リソースラベルデータ拡張のためのicd-10コードによる医用文書の作成とコーディングにおけるgpt-3.5の検討。 資料と方法:MIMIC-IVデータセットに低頻度(世代)符号を持つ患者のICD-10コード記述リストに基づいてGPT-3.5を用いて,9,606個の放電サマリーを作成した。 ベースライントレーニングセットと組み合わせることで、これは拡張トレーニングセットを形成した。 ニューラルコーディングモデルはベースラインと拡張データでトレーニングされ、mimmy-ivテストセットで評価された。 全コードセット、生成コード、およびそれらの家族について、マイクロおよびマクロf1スコアを報告します。 弱い階層的混乱行列を用いて、後者の符号集合における家族内および家族外コーディングエラーを判定した。 GPT-3.5の符号化性能は,プロンプト誘導型自己生成データと実MIMIC-IVデータの両方で評価した。 臨床専門家は、生成された文書の受容性を評価した。 結果: Augmentationはモデル全体のパフォーマンスをわずかに阻害するが、ベースライントレーニングデータに見られないものを含め、生成候補コードとその家族のパフォーマンスを改善する。 拡張モデルでは、家族外のエラー率が低い。 GPT-3.5 はインプットされた記述によって ICD-10 の符号を識別できるが、実際のデータでは不十分である。 評価者は、多様性、支援情報、物語に苦しむ間、生成された概念の正確さに注意する。 議論と結論: GPT-3.5 だけでは ICD-10 のコーディングには適さない。 拡張はジェネレーションコードファミリーに影響を与えるが、主に既存の例でコードに恩恵を与える。 拡張は家族外のエラーを減らす。 gpt-3.5ステートが生成した要約は概念を正しく引き起こしたが、バラエティや物語の真正性に欠けていた。 彼らは臨床に向いていない。

Objective: To investigate GPT-3.5 in generating and coding medical documents with ICD-10 codes for data augmentation on low-resources labels. Materials and Methods: Employing GPT-3.5 we generated and coded 9,606 discharge summaries based on lists of ICD-10 code descriptions of patients with infrequent (generation) codes within the MIMIC-IV dataset. Combined with the baseline training set, this formed an augmented training set. Neural coding models were trained on baseline and augmented data and evaluated on a MIMIC-IV test set. We report micro- and macro-F1 scores on the full codeset, generation codes, and their families. Weak Hierarchical Confusion Matrices were employed to determine within-family and outside-of-family coding errors in the latter codesets. The coding performance of GPT-3.5 was evaluated both on prompt-guided self-generated data and real MIMIC-IV data. Clinical professionals evaluated the clinical acceptability of the generated documents. Results: Augmentation slightly hinders the overall performance of the models but improves performance for the generation candidate codes and their families, including one unseen in the baseline training data. Augmented models display lower out-of-family error rates. GPT-3.5 can identify ICD-10 codes by the prompted descriptions, but performs poorly on real data. Evaluators note the correctness of generated concepts while suffering in variety, supporting information, and narrative. Discussion and Conclusion: GPT-3.5 alone is unsuitable for ICD-10 coding. Augmentation positively affects generation code families but mainly benefits codes with existing examples. Augmentation reduces out-of-family errors. Discharge summaries generated by GPT-3.5 state prompted concepts correctly but lack variety, and authenticity in narratives. They are unsuitable for clinical practice.
翻訳日:2024-01-25 14:19:09 公開日:2024-01-24
# 全スライド画像における組織断面とペンマーキングセグメンテーション

Tissue Cross-Section and Pen Marking Segmentation in Whole Slide Images ( http://arxiv.org/abs/2401.13511v1 )

ライセンス: Link先を確認
Ruben T. Lucassen, Willeke A. M. Blokx, Mitko Veta(参考訳) 組織分割は、背景領域を除外して全スライド画像(wsi)解析の計算コストを削減するための定期的な前処理である。 従来の画像処理技術は組織セグメンテーションによく用いられるが、非典型例のパラメータ値に手動で調整する必要があることが多く、背景からすべてのスライドやスキャンアーティファクトを排除できず、組織を分割することができない。 特にペンマーキングアーティファクトは、削除されない場合、その後の分析のバイアスとなる可能性がある。 さらに、組織断片化と隣接位置決めのために困難となる、個々の断面の分離を必要とする応用もいくつかある。 これらの問題に対処するために,200個のH&E染色WSIのデータセットを用いて組織とペンマーキングセグメンテーションのための畳み込みニューラルネットワークを開発した。 組織断面を分離するために,2次元ヒストグラムによる断面の遠心位置予測に基づく新しい後処理法を提案する。 独立したテストセットでは、このモデルは組織分割で0.981$\pm$0.033、ペンマーキングセグメンテーションで0.912$\pm$0.090という平均サイクリングスコアを達成した。 アノテーションと分離断面積の平均絶対差は0.075$\pm$0.350であった。 提案手法は,WSIにおけるH&E染色組織断面とペンマーキングを高精度に分割し,多くの一般的なスライディングやスキャニングアーティファクトに対して堅牢であることを示す。 トレーニングされたモデルパラメータと後処理メソッドを持つモデルは、slidesegmenterと呼ばれるpythonパッケージとして公開されている。

Tissue segmentation is a routine preprocessing step to reduce the computational cost of whole slide image (WSI) analysis by excluding background regions. Traditional image processing techniques are commonly used for tissue segmentation, but often require manual adjustments to parameter values for atypical cases, fail to exclude all slide and scanning artifacts from the background, and are unable to segment adipose tissue. Pen marking artifacts in particular can be a potential source of bias for subsequent analyses if not removed. In addition, several applications require the separation of individual cross-sections, which can be challenging due to tissue fragmentation and adjacent positioning. To address these problems, we develop a convolutional neural network for tissue and pen marking segmentation using a dataset of 200 H&E stained WSIs. For separating tissue cross-sections, we propose a novel post-processing method based on clustering predicted centroid locations of the cross-sections in a 2D histogram. On an independent test set, the model achieved a mean Dice score of 0.981$\pm$0.033 for tissue segmentation and a mean Dice score of 0.912$\pm$0.090 for pen marking segmentation. The mean absolute difference between the number of annotated and separated cross-sections was 0.075$\pm$0.350. Our results demonstrate that the proposed model can accurately segment H&E stained tissue cross-sections and pen markings in WSIs while being robust to many common slide and scanning artifacts. The model with trained model parameters and post-processing method are made publicly available as a Python package called SlideSegmenter.
翻訳日:2024-01-25 14:18:39 公開日:2024-01-24
# 空気中の光による光の偏向の干渉計測

Interferometric measurement of the deflection of light by light in air ( http://arxiv.org/abs/2401.13506v1 )

ライセンス: Link先を確認
Adrien E. Kraych, Aur\'elie Max Mailliet, Fran\c{c}ois Couchot, Xavier Sarazin, Elsa Baynard, Julien Demailly, Moana Pittman, Arache Djannati-Ata\"i, Sophie Kazamias, Scott Robertson and Marcel Urban(参考訳) dellight (deflection of light by light) 実験の目的は、高強度集光レーザパルス(pump)によって誘導される有効真空指数勾配を交差させる際に、低強度集光レーザパルス(probe)の屈折を測定することで、量子電磁力学によって予測される真空中の光学非線形性を初めて観測することである。 sagnac干渉計を用いて偏向信号を増幅する。 本稿では,低強度ポンプを用いたDLLightパイロット干渉計による空気中の光による光の偏向の測定を行った。 干渉計によって測定された偏向信号は増幅され、空気中の光ケラ効果によって引き起こされる期待信号と一致していることを示す。 さらに, ポンプ強度, ポンプとプローブ間の時間遅延, 相対偏光の関数として信号が期待通りに変化することを確認した。 これらの結果は、干渉計測増幅に基づくDeLLight実験法の概念実証である。

The aim of the DeLLight (Deflection of Light by Light) experiment is to observe for the first time the optical nonlinearity in vacuum, as predicted by Quantum Electrodynamics, by measuring the refraction of a low-intensity focused laser pulse (probe) when crossing the effective vacuum index gradient induced by a high-intensity focused laser pulse (pump). The deflection signal is amplified by using a Sagnac interferometer. Here, we report the first measurement performed with the DeLLight pilot interferometer, of the deflection of light by light in air, with a low-intensity pump. We show that the deflection signal measured by the interferometer is amplified, and is in agreement with the expected signal induced by the optical Kerr effect in air. Moreover, we verify that the signal varies as expected as a function of the pump intensity, the temporal delay between the pump and the probe, and their relative polarisation. These results represent a proof of concept of the DeLLight experimental method based on interferometric amplification.
翻訳日:2024-01-25 14:18:12 公開日:2024-01-24
# 潜在空間における生成的ヒューマンモーションスタイライゼーション

Generative Human Motion Stylization in Latent Space ( http://arxiv.org/abs/2401.13505v1 )

ライセンス: Link先を確認
Chuan Guo, Yuxuan Mu, Xinxin Zuo, Peng Dai, Youliang Yan, Juwei Lu, Li Cheng(参考訳) ヒューマンモーションスタイライゼーションは、コンテンツを変更せずに入力モーションのスタイルを改訂することを目的としている。 ポーズ空間で直接動作する既存の作品とは異なり、プリトレーニングされたオートエンコーダの潜在空間を、より表現力が高くロバストな動き抽出と注入の表現として活用する。 そこで本研究では,単一動作 (latent) 符号の多様なスタイライゼーション結果を生成する新しい生成モデルを提案する。 トレーニング中、動作コードは、決定論的コンテンツコードと、事前分布に固執する確率論的スタイルコードとに分解され、生成器は、コンテンツとスタイルコードのランダムな組み合わせをマッサージして対応する動作コードを再構築する。 私たちのアプローチは多用途であり、ラベル付きまたはラベルなしの動作から確率的なスタイル空間を学ぶことができ、スタイリゼーションにも顕著な柔軟性を提供する。 推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。 明示的なスタイル入力がなくても,無条件スタイル事前分布からサンプリングすることで,新しい再スタイライゼーションが容易になる。 実験の結果,提案するスタイリゼーションモデルは,軽量な設計にもかかわらず,様々なアプリケーションや設定において,スタイルの再評価,コンテンツ保存,一般化において最先端を上回っていることがわかった。 プロジェクトページ: https://yxmu.foo/genmostyle

Human motion stylization aims to revise the style of an input motion while keeping its content unaltered. Unlike existing works that operate directly in pose space, we leverage the latent space of pretrained autoencoders as a more expressive and robust representation for motion extraction and infusion. Building upon this, we present a novel generative model that produces diverse stylization results of a single motion (latent) code. During training, a motion code is decomposed into two coding components: a deterministic content code, and a probabilistic style code adhering to a prior distribution; then a generator massages the random combination of content and style codes to reconstruct the corresponding motion codes. Our approach is versatile, allowing the learning of probabilistic style space from either style labeled or unlabeled motions, providing notable flexibility in stylization as well. In inference, users can opt to stylize a motion using style cues from a reference motion or a label. Even in the absence of explicit style input, our model facilitates novel re-stylization by sampling from the unconditional style prior distribution. Experimental results show that our proposed stylization models, despite their lightweight design, outperform the state-of-the-arts in style reeanactment, content preservation, and generalization across various applications and settings. Project Page: https://yxmu.foo/GenMoStyle
翻訳日:2024-01-25 14:17:55 公開日:2024-01-24
# タンパ検出領域におけるLDMの能力に関する研究

Research about the Ability of LLM in the Tamper-Detection Area ( http://arxiv.org/abs/2401.13504v1 )

ライセンス: Link先を確認
Xinyu Yang and Jizhe Zhou(参考訳) 近年,特に2020年代初頭から,自然言語処理からさまざまな領域における複雑な問題解決に至るまで,さまざまな課題に対処する上で,Large Language Models(LLM)が最強のAIツールとして登場している。 タンパー検出の分野では, LLMは基本的な改ざん活動の特定が可能であり, より専門的な領域におけるLLMの能力を評価するために, GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5つの異なるLCMを収集した。 この多種多様なモデルにより、洗練された改ざんインスタンスの検出におけるパフォーマンスの総合評価が可能となり、AIGC(AI-Generated Content)検出と操作検出という2つの領域を考案した。 AIGC検出は、画像が本物かAI生成かを識別する能力をテストすることを目的としている。 一方、マニピュレーション検出は、改ざん画像の識別に重点を置いている。 我々の実験によると、ほとんどのllmは論理と矛盾する合成画像を識別でき、より強力なllmだけが論理的だが目に見える改ざんの兆候を人間の目に区別できる。 LLMはすべて、AIによって生成された慎重に偽造されたイメージや非常に現実的なイメージを識別することはできない。 改ざん検出の分野では、LLMはまだまだ長い道のりがあり、特に高度に洗練された偽造品と、現実を忠実に模倣するAI生成イメージを確実に識別する。

In recent years, particularly since the early 2020s, Large Language Models (LLMs) have emerged as the most powerful AI tools in addressing a diverse range of challenges, from natural language processing to complex problem-solving in various domains. In the field of tamper detection, LLMs are capable of identifying basic tampering activities.To assess the capabilities of LLMs in more specialized domains, we have collected five different LLMs developed by various companies: GPT-4, LLaMA, Bard, ERNIE Bot 4.0, and Tongyi Qianwen. This diverse range of models allows for a comprehensive evaluation of their performance in detecting sophisticated tampering instances.We devised two domains of detection: AI-Generated Content (AIGC) detection and manipulation detection. AIGC detection aims to test the ability to distinguish whether an image is real or AI-generated. Manipulation detection, on the other hand, focuses on identifying tampered images. According to our experiments, most LLMs can identify composite pictures that are inconsistent with logic, and only more powerful LLMs can distinguish logical, but visible signs of tampering to the human eye. All of the LLMs can't identify carefully forged images and very realistic images generated by AI. In the area of tamper detection, LLMs still have a long way to go, particularly in reliably identifying highly sophisticated forgeries and AI-generated images that closely mimic reality.
翻訳日:2024-01-25 14:17:31 公開日:2024-01-24
# 部分的情報識別とクロスレベルインタラクションによるクラスタリングのための学習表現

Learning Representations for Clustering via Partial Information Discrimination and Cross-Level Interaction ( http://arxiv.org/abs/2401.13503v1 )

ライセンス: Link先を確認
Hai-Xin Zhang, Dong Huang, Hua-Bao Ling, Guang-Yu Zhang, Wei-jun Sun and Zi-hao Wen(参考訳) 本稿では,統合学習フレームワークにおける部分的情報識別とクロスレベル相互作用を強制する,PICIと呼ばれる新しい深層画像クラスタリング手法を提案する。 特に、トランスフォーマーエンコーダをバックボーンとして利用し、2つの並列化拡張ビューによるマスク画像モデリングを定式化する。 トランスフォーマーエンコーダによりマスク画像からクラストークンを抽出した後、マスク画像再構成を介してオートエンコーダを訓練するためのPISDモジュール、コントラスト学習の2レベルを使用するPICDモジュール、インスタンスレベルとクラスタレベルのサブスペース間の相互インタラクションのためのCLIモジュールを含む3つの部分情報学習モジュールが組み込まれている。 6つの実世界の画像データセットに対して、最先端の深層クラスタリングアプローチに対して提案されたPICIアプローチの優れたクラスタリング性能を実証する大規模な実験が行われた。 ソースコードはhttps://github.com/Regan-Zhang/PICIで公開されている。

In this paper, we present a novel deep image clustering approach termed PICI, which enforces the partial information discrimination and the cross-level interaction in a joint learning framework. In particular, we leverage a Transformer encoder as the backbone, through which the masked image modeling with two paralleled augmented views is formulated. After deriving the class tokens from the masked images by the Transformer encoder, three partial information learning modules are further incorporated, including the PISD module for training the auto-encoder via masked image reconstruction, the PICD module for employing two levels of contrastive learning, and the CLI module for mutual interaction between the instance-level and cluster-level subspaces. Extensive experiments have been conducted on six real-world image datasets, which demononstrate the superior clustering performance of the proposed PICI approach over the state-of-the-art deep clustering approaches. The source code is available at https://github.com/Regan-Zhang/PICI.
翻訳日:2024-01-25 14:17:04 公開日:2024-01-24
# 量子コンピュータ上の非線形微分方程式の解法 : Fokker-Planckアプローチ

Solving nonlinear differential equations on Quantum Computers: A Fokker-Planck approach ( http://arxiv.org/abs/2401.13500v1 )

ライセンス: Link先を確認
Felix Tennie and Luca Magri(参考訳) 量子コンピュータが物理学者、技術者、計算科学者にとって有用なツールとなるためには、非線形微分方程式を解く量子アルゴリズムを開発する必要がある。 近年の進歩にもかかわらず、非線形力学系を量子アドバンテージと統合し、利用可能な(あるいは近い将来に)量子ハードウェア上で実現可能な解法を求めるのは、オープンチャレンジである。 本稿では,非線形力学系を線形系に変換し,量子アルゴリズムと統合する手法を提案する。 この方法の鍵は、非正規偏微分方程式であるフォッカー・プランク方程式である。 3つの統合戦略が提案されている。 (i)単位ブロック符号化によるフォワード・ウラーステップ (ii)シュレーディンガー化及び (iii)ユニタリの線形付加による前方ユーラーステッピング 提案する量子ソルバと原始非線形系の統合をエミュレートし,その出力を古典積分器のベンチマーク解と比較する。 古典的および量子的出力はよく一致している。 本稿では,非線形微分方程式の量子アルゴリズムによる解法について述べる。

For quantum computers to become useful tools to physicists, engineers and computational scientists, quantum algorithms for solving nonlinear differential equations need to be developed. Despite recent advances, the quest for a solver that can integrate nonlinear dynamical systems with a quantum advantage, whilst being realisable on available (or near-term) quantum hardware, is an open challenge. In this paper, we propose to transform a nonlinear dynamical system into a linear system, which we integrate with quantum algorithms. Key to the method is the Fokker-Planck equation, which is a non-normal partial differential equation. Three integration strategies are proposed: (i) Forward-Euler stepping by unitary block encoding; (ii) Schroedingerisation, and (iii) Forward-Euler stepping by linear addition of unitaries. We emulate the integration of prototypical nonlinear systems with the proposed quantum solvers, and compare the output with the benchmark solutions of classical integrators. We find that classical and quantum outputs are in good agreement. This paper opens opportunities for solving nonlinear differential equations with quantum algorithms.
翻訳日:2024-01-25 14:16:43 公開日:2024-01-24
# 手続き的質問応答のためのグラフ誘導質問応答生成

Graph Guided Question Answer Generation for Procedural Question-Answering ( http://arxiv.org/abs/2401.13594v1 )

ライセンス: Link先を確認
Hai X. Pham, Isma Hadji, Xinnuo Xu, Ziedune Degutyte, Jay Rainey, Evangelos Kazakos, Afsaneh Fazly, Georgios Tzimiropoulos, Brais Martinez(参考訳) 本稿では,タスク固有の質問応答(QA)に焦点を当てる。 そこで本研究では,GPTと競合するタスク固有QAモデルであるコンパクトな(モバイルデバイス上で動作させるなど)トレーニングを可能にする,完全かつ高品質なトレーニングデータを生成する方法を提案する。 重要な技術的イネーブルは、大量のテキスト命令を取り込み、網羅的なドメイン内QAトレーニングデータを生成するプロシージャテキストから自動質問応答生成のための新しいメカニズムである。 現状のQAデータ生成手法は, 良好で多様なデータを生成することができるが, その非出力特性はQAモデルのトレーニングに最適である。 対照的に、手続きテキストの高度に構造化された側面を活用し、手順の各ステップと全体のフローをグラフとして表現する。 次に、グラフノードに条件を定め、完全かつ制御可能な方法でQAペアを自動的に生成する。 本手法の総合評価は以下のとおりである。 1) GPT3 や ChatGPT よりも数桁小さいにもかかわらず, 目標QA タスクにおいて, 学習した小型モデルは優れた性能を発揮する。 2) セマンティックカバレッジは、下流のQAパフォーマンスの重要な指標です。 重要なことに、大きな言語モデルは構文的多様性に優れているが、必ずしも最終QAモデルの改善をもたらすとは限らない。 対照的に,本手法により提供されるセマンティックカバレッジは,QA性能に極めて重要である。

In this paper, we focus on task-specific question answering (QA). To this end, we introduce a method for generating exhaustive and high-quality training data, which allows us to train compact (e.g., run on a mobile device), task-specific QA models that are competitive against GPT variants. The key technological enabler is a novel mechanism for automatic question-answer generation from procedural text which can ingest large amounts of textual instructions and produce exhaustive in-domain QA training data. While current QA data generation methods can produce well-formed and varied data, their non-exhaustive nature is sub-optimal for training a QA model. In contrast, we leverage the highly structured aspect of procedural text and represent each step and the overall flow of the procedure as graphs. We then condition on graph nodes to automatically generate QA pairs in an exhaustive and controllable manner. Comprehensive evaluations of our method show that: 1) small models trained with our data achieve excellent performance on the target QA task, even exceeding that of GPT3 and ChatGPT despite being several orders of magnitude smaller. 2) semantic coverage is the key indicator for downstream QA performance. Crucially, while large language models excel at syntactic diversity, this does not necessarily result in improvements on the end QA model. In contrast, the higher semantic coverage provided by our method is critical for QA performance.
翻訳日:2024-01-25 14:09:12 公開日:2024-01-24
# 光ツイーザーアレイを用いた個々の超低温分子の量子制御

Enhanced quantum control of individual ultracold molecules using optical tweezer arrays ( http://arxiv.org/abs/2401.13593v1 )

ライセンス: Link先を確認
Daniel K. Ruttley, Alexander Guttridge, Tom R. Hepworth, Simon L. Cornish(参考訳) 個々の分子の量子状態の制御は、そのリッチな内部構造と双極子相互作用を量子科学の応用に利用するために重要である。 本稿では,光学的ツイーザの配列における個別に閉じ込められた極性分子の制御と読み出しのためのツールボックスを開発する。 最大8つのRb原子と8つのCs原子の配列から始め、RbCs分子の配列を、その相対的および超微細な基底状態に48(2)%の効率で組み立てる。 我々は,複数の分子の回転状態のグローバルマイクロ波制御を実証し,補助tweezerアレイを用いてサイト解決アドレッシングと状態制御を実装した。 分子の回転状態がRb原子の位置にどのようにマッピングされ、この能力を用いて1回の実験で複数の回転状態を読み取るかを示す。 さらに, 分子形成エラーの中間系列検出法を用いて, 集合分子の再構成を行い, 欠陥のない小さな配列を作製する。 最後に、より大きな分子配列へのスケーリングを可能にする方法について論じる。

Control over the quantum states of individual molecules is crucial in the quest to harness their rich internal structure and dipolar interactions for applications in quantum science. In this paper, we develop a toolbox of techniques for the control and readout of individually trapped polar molecules in an array of optical tweezers. Starting with arrays of up to eight Rb and eight Cs atoms, we assemble arrays of RbCs molecules in their rovibrational and hyperfine ground state with an overall efficiency of 48(2)%. We demonstrate global microwave control of multiple rotational states of the molecules and use an auxiliary tweezer array to implement site-resolved addressing and state control. We show how the rotational state of the molecule can be mapped onto the position of Rb atoms and use this capability to readout multiple rotational states in a single experimental run. Further, using a scheme for the mid-sequence detection of molecule formation errors, we perform rearrangement of assembled molecules to prepare small defect-free arrays. Finally, we discuss a feasible route to scaling to larger arrays of molecules.
翻訳日:2024-01-25 14:08:50 公開日:2024-01-24
# 成人要介護電子健康記録から抽出した意味概念の文脈的評価における一般言語モデルの評価

Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes ( http://arxiv.org/abs/2401.13588v1 )

ライセンス: Link先を確認
Darren Liu, Cheng Ding, Delgersuren Bold, Monique Bouvier, Jiaying Lu, Benjamin Shickel, Craig S. Jabaley, Wenhui Zhang, Soojin Park, Michael J. Young, Mark S. Wainwright, Gilles Clermont, Parisa Rashidi, Eric S. Rosenthal, Laurie Dimisko, Ran Xiao, Joo Heung Yoon, Carl Yang, Xiao Hu(参考訳) 医療の分野では、その顕著なパフォーマンスから、大規模言語モデル(LLM)に注目が向けられている。 しかし、実際の臨床応用における性能は過小評価されている。 質問応答タスクに基づく従来の評価は、ニュアンス付きコンテキストを完全にキャプチャするものではない。 このギャップは、現実世界の医療環境におけるLSMのより深い評価と実践的な評価の必要性を強調している。 目的: 臨床診断や適応を含む系統的, 理解可能な分析手法を用いて, 成人医療の複雑な臨床状況におけるLCMの性能評価を試みた。 方法: 実地臨床ノートの理解と処理における3つのLCMの性能について検討した。 150の臨床ノートの概念はMetaMapによって特定され、その後9人の臨床医によってラベル付けされた。 各llmの習熟度は,各概念の時間性と否定を,異なるプロンプトを用いて同定することで評価した。 結果: GPT-4 は他の LLM と比較して総合的に優れた性能を示した。 対照的に、gpt-3.5とtext-davinci-003は、適切なプロンプト戦略を採用すると性能が向上する。 gptファミリーモデルはかなりの効率を示しており、コスト効率と時間節約能力が証明されている。 結論: LLMの総合的質的性能評価フレームワークを開発し運用する。 このフレームワークは特異なパフォーマンスの側面を越えている。 専門家のアノテーションを用いて、この方法論は複雑な医療データ処理におけるLSMの能力を検証するだけでなく、専門分野にわたる将来のLSM評価のベンチマークも確立する。

The field of healthcare has increasingly turned its focus towards Large Language Models (LLMs) due to their remarkable performance. However, their performance in actual clinical applications has been underexplored. Traditional evaluations based on question-answering tasks don't fully capture the nuanced contexts. This gap highlights the need for more in-depth and practical assessments of LLMs in real-world healthcare settings. Objective: We sought to evaluate the performance of LLMs in the complex clinical context of adult critical care medicine using systematic and comprehensible analytic methods, including clinician annotation and adjudication. Methods: We investigated the performance of three general LLMs in understanding and processing real-world clinical notes. Concepts from 150 clinical notes were identified by MetaMap and then labeled by 9 clinicians. Each LLM's proficiency was evaluated by identifying the temporality and negation of these concepts using different prompts for an in-depth analysis. Results: GPT-4 showed overall superior performance compared to other LLMs. In contrast, both GPT-3.5 and text-davinci-003 exhibit enhanced performance when the appropriate prompting strategies are employed. The GPT family models have demonstrated considerable efficiency, evidenced by their cost-effectiveness and time-saving capabilities. Conclusion: A comprehensive qualitative performance evaluation framework for LLMs is developed and operationalized. This framework goes beyond singular performance aspects. With expert annotations, this methodology not only validates LLMs' capabilities in processing complex medical data but also establishes a benchmark for future LLM evaluations across specialized domains.
翻訳日:2024-01-25 14:08:32 公開日:2024-01-24
# LLMインストラクションファインチューニングのためのプロンプトウェイト実験

Prompt Weight Experiments for LLM Instruction Fine-Tuning ( http://arxiv.org/abs/2401.13586v1 )

ライセンス: Link先を確認
Mathew Huerta-Enochian(参考訳) トークン分類損失重み付け(PLW)が7BサイズのLLaMAモデルの性能にどのように影響するかを命令タスクで微調整する。 我々は、複数の命令データセットを用いて、LLaMA 1とLLaMA 2の両方でスタンフォード大学のAlpaca実験を再現した。 その結果、短い補完データセットで微調整されたモデルはPLWと負の二次関係を持ち、長い補完データセットで微調整されたモデルはPLWの影響を受けなかった。

We present a small study analyzing how prompt token classification loss weighting (PLW) affects the performance of 7B-size LLaMA models fine-tuned on instruction tasks. We recreated Stanford's Alpaca experiment with both LLaMA 1 and LLaMA 2 using multiple instruction datasets. We found that models fine-tuned on our short-completion dataset have a negative quadratic relationship with PLW while models fine-tuned on long-completion datasets were unaffected by PLW.
翻訳日:2024-01-25 14:08:10 公開日:2024-01-24
# 動的グルーピングとプロトタイプアグリゲーションを用いた効率的かつ効果的な深層クラスタリング

Towards Efficient and Effective Deep Clustering with Dynamic Grouping and Prototype Aggregation ( http://arxiv.org/abs/2401.13581v1 )

ライセンス: Link先を確認
Haixin Zhang and Dong Huang(参考訳) 従来の対照的なディープクラスタリング手法は、主にインスタンスレベルの情報に焦点を合わせ、グループ/クラスタ内のメンバー関係を見渡しながら、その表現学習とクラスタリング能力を大幅に損なう可能性がある。 近年,グループ結合型手法が開発されているが,通常はデータセット全体のサンプルに頼って擬似ラベルを取得し,グループ割り当てをバッチ的に効率的に更新する能力が欠如している。 これらの重要な問題に対処するため、動的グループ化とプロトタイプアグリゲーションを備えた新しいエンドツーエンドのディープクラスタリングフレームワークDigProを提案する。 具体的には、動的グルーピングは、時間的にグループを更新する上で効率的かつ効率的なインスタンスレベルからグループレベルへのコントラスト学習を拡張する。 一方,クラスタ間距離を最大化することを目的とした,プロトタイプアグリゲーションと呼ばれる球状特徴空間におけるプロトタイプの対比学習を行う。 特に、期待最大化フレームワークでは、DigProはクラスタ内接続のコンパクトな接続、よく分離されたクラスタ、そしてセルフ教師付きトレーニング中の効率的なグループ更新を同時に活用する。 6つのイメージベンチマークに関する広範な実験は、最先端のアプローチよりも優れたパフォーマンスを示している。 コードはhttps://github.com/Regan-Zhang/DigProで入手できる。

Previous contrastive deep clustering methods mostly focus on instance-level information while overlooking the member relationship within groups/clusters, which may significantly undermine their representation learning and clustering capability. Recently, some group-contrastive methods have been developed, which, however, typically rely on the samples of the entire dataset to obtain pseudo labels and lack the ability to efficiently update the group assignments in a batch-wise manner. To tackle these critical issues, we present a novel end-to-end deep clustering framework with dynamic grouping and prototype aggregation, termed as DigPro. Specifically, the proposed dynamic grouping extends contrastive learning from instance-level to group-level, which is effective and efficient for timely updating groups. Meanwhile, we perform contrastive learning on prototypes in a spherical feature space, termed as prototype aggregation, which aims to maximize the inter-cluster distance. Notably, with an expectation-maximization framework, DigPro simultaneously takes advantage of compact intra-cluster connections, well-separated clusters, and efficient group updating during the self-supervised training. Extensive experiments on six image benchmarks demonstrate the superior performance of our approach over the state-of-the-art. Code is available at https://github.com/Regan-Zhang/DigPro.
翻訳日:2024-01-25 14:08:01 公開日:2024-01-24
# 密度ベースメカニカルメタマテリアルの高速逆設計のためのガイド拡散

Guided Diffusion for Fast Inverse Design of Density-based Mechanical Metamaterials ( http://arxiv.org/abs/2401.13570v1 )

ライセンス: Link先を確認
Yanyan Yang, Lili Wang, Xiaoya Zhai, Kai Chen, Wenming Wu, Yunkai Zhao, Ligang Liu, Xiao-Ming Fu(参考訳) メカニカルメタマテリアル(英語: mechanical metamaterial)は、内部構造を慎重に設計することで、異常な弾性、剛性、安定性などの物理的特性を持つ合成材料である。 メタマテリアルを独特の機械的性質を持つ繊細な局所構造を含むようにするため、高分解能ボクセルを介してそれらを表現する潜在的な方法である。 しかし、これはかなりの計算負荷をもたらす。 そこで本研究では,ボクセルをベースとしたメカニカルメタマテリアルを生成するための,高度な深層生成AIアルゴリズムである高速逆設計手法を提案する。 具体的には, 128^3$の分解能を持つマイクロ構造を生成できる自己条件拡散モデルを用いて, 3秒で特定の均質テンソル行列にアプローチする。 したがって、この高速逆設計ツールは、極端なメタマテリアルの探索、メタマテリアルのシーケンス補間、マルチスケール設計のための多様なミクロ組織の生成を促進する。 この柔軟で適応的な生成ツールは、構造工学や他の機械システムにおいて大きな価値があり、さらなる研究を刺激することができる。

Mechanical metamaterial is a synthetic material that can possess extraordinary physical characteristics, such as abnormal elasticity, stiffness, and stability, by carefully designing its internal structure. To make metamaterials contain delicate local structures with unique mechanical properties, it is a potential method to represent them through high-resolution voxels. However, it brings a substantial computational burden. To this end, this paper proposes a fast inverse design method, whose core is an advanced deep generative AI algorithm, to generate voxel-based mechanical metamaterials. Specifically, we use the self-conditioned diffusion model, capable of generating a microstructure with a resolution of $128^3$ to approach the specified homogenized tensor matrix in just 3 seconds. Accordingly, this rapid reverse design tool facilitates the exploration of extreme metamaterials, the sequence interpolation in metamaterials, and the generation of diverse microstructures for multi-scale design. This flexible and adaptive generative tool is of great value in structural engineering or other mechanical systems and can stimulate more subsequent research.
翻訳日:2024-01-25 14:07:38 公開日:2024-01-24
# ミストラルに基づく局所言語理解のための大規模マレーシア語モデル

Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding ( http://arxiv.org/abs/2401.13565v1 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) 本稿では,11億トークンに相当する32.6GBのデータセットを用いて,大規模言語モデルであるMistral 7Bの事前訓練の大幅な進歩を示す。 我々は,コンテキスト長の拡張,コンテキスト長4096および32768トークンのモデルのリリース,および特別な16384コンテキスト長命令調整モデルによるさらなる改良性能について検討し,マレーシアミストラルと呼ぶ。 本実験は,Mistral 7B言語理解能力に対する継続事前学習の有効性と拡張文脈長の影響を実証した。 さらに、16384のコンテキスト長命令を特別に調整したモデルをリリースし、ニュアンス言語を複雑に捉えられる可能性を示した。 さらに本研究では,ChatGPT3.5やClaude 2などの著名な言語モデルに対するマレーシアのMistralのベンチマークに寄与する。 マレーシアのミストラルがタタバハサ(マレー文法)検定において,特に指示を微調整した場合に優れた性能を示した。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700cでリリース

In this paper, we present significant advancements in the pretraining of Mistral 7B, a large-scale language model, using a dataset of 32.6 GB, equivalent to 1.1 billion tokens. We explore the impact of extending the context length, releasing models with context lengths of 4096 and 32768 tokens, and further refining performance with a specialized 16384 context length instruction-tuned model, we called it Malaysian Mistral. Our experiments demonstrate the efficacy of continue pretraining and the influence of extended context lengths on Mistral 7B's language understanding capabilities. Additionally, we release a model specifically tuned with a 16384 context length instruction, showcasing its potential for capturing nuanced language intricacies. Furthermore, our research contributes to the benchmarking of Malaysian Mistral against prominent language models, including ChatGPT3.5 and Claude 2. We present compelling results indicating Malaysian Mistral's superior performance on Tatabahasa (Malay grammar) test set, particularly when fine-tuned with instructions. All models released at https://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700c
翻訳日:2024-01-25 14:07:19 公開日:2024-01-24
# 分離依存コヒーレンスを利用した光学分解能の向上

Exploiting separation-dependent coherence to boost optical resolution ( http://arxiv.org/abs/2401.13562v1 )

ライセンス: Link先を確認
Ilya Karuseichyk, Giacomo Sorelli, Vyacheslav Shatokhin, Mattia Walschaers, and Nicolas Treps(参考訳) 点状の光源を分解する問題は光学分解能のベンチマークとして機能するだけでなく、顕微鏡から天文学まで様々な応用がある。 本研究では,空間モード分割手法を用いて任意の相互整合性を共有する2つの熱源を解くことを目的とする。 我々の分析研究は、コヒーレンスと排出率がソース間の分離に依存し、かすかなソース制限に制限されないシナリオを含む。 我々は2つの相互作用する双極子の蛍光を考慮し, 放射特性のパラメータ依存性が推定の感度を増加させ, 情報減衰の持続期間を著しく延長することを示す。

The problem of resolving point-like light sources not only serves as a benchmark for optical resolution but also holds various practical applications ranging from microscopy to astronomy. In this research, we aim to resolve two thermal sources sharing arbitrary mutual coherence using the spatial mode demultiplexing technique. Our analytical study includes scenarios where the coherence and the emission rate depend on the separation between the sources, and is not limited to the faint sources limit. We consider the fluorescence of two interacting dipoles to demonstrate that the dependence of emission characteristics on the parameter of interest can boost the sensitivity of the estimation and noticeably prolong the duration of information decay.
翻訳日:2024-01-25 14:06:59 公開日:2024-01-24
# SegMamba:3D画像セグメンテーションのための長距離連続モデリングマンバ

SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation ( http://arxiv.org/abs/2401.13560v1 )

ライセンス: Link先を確認
Zhaohu Xing, Tian Ye, Yijun Yang, Guang Liu, Lei Zhu(参考訳) トランスフォーマーアーキテクチャは、グローバルリレーションシップのモデリングにおいて顕著な能力を示している。 しかし,高次元医用画像の処理には大きな課題がある。 これは開発を妨げ、このタスクに広く採用される。 状態空間モデル(SSM)としてのMambaは、最近、シーケンシャルモデリングにおける長距離依存の顕著な方法として現れ、その顕著なメモリ効率と計算速度で自然言語処理に優れていた。 その成功にインスパイアされたSegMambaは,全ボリューム特徴の長距離依存性を各スケールで効果的にキャプチャするように設計された,新しい3次元医用画像である。 我々のSegMambaは、Transformerベースの手法とは対照的に、状態空間モデルの観点から全容積特徴モデリングを抜粋し、$64\times 64\times 64$}の解像度のボリューム特徴であっても、優れた処理速度を維持する。 BraTS2023データセットに関する包括的な実験は、SegMambaの有効性と効率を実証している。 SegMambaのコードは、https://github.com/ge-xing/SegMambaで入手できる。

The Transformer architecture has shown a remarkable ability in modeling global relationships. However, it poses a significant computational challenge when processing high-dimensional medical images. This hinders its development and widespread adoption in this task. Mamba, as a State Space Model (SSM), recently emerged as a notable manner for long-range dependencies in sequential modeling, excelling in natural language processing filed with its remarkable memory efficiency and computational speed. Inspired by its success, we introduce SegMamba, a novel 3D medical image \textbf{Seg}mentation \textbf{Mamba} model, designed to effectively capture long-range dependencies within whole volume features at every scale. Our SegMamba, in contrast to Transformer-based methods, excels in whole volume feature modeling from a state space model standpoint, maintaining superior processing speed, even with volume features at a resolution of {$64\times 64\times 64$}. Comprehensive experiments on the BraTS2023 dataset demonstrate the effectiveness and efficiency of our SegMamba. The code for SegMamba is available at: https://github.com/ge-xing/SegMamba
翻訳日:2024-01-25 14:06:47 公開日:2024-01-24
# 学習表現幾何学を共同で決定するタスク構造と非線形性

Task structure and nonlinearity jointly determine learned representational geometry ( http://arxiv.org/abs/2401.13558v1 )

ライセンス: Link先を確認
Matteo Alleman, Jack W Lindsey, Stefano Fusi(参考訳) 学習したニューラルネットワーク表現の有用性は、そのジオメトリがダウンストリームタスクのパフォーマンスをどのようにサポートするかに依存する。 この幾何学は、入力の構造、ターゲット出力の構造、ネットワークのアーキテクチャに依存する。 1つの隠れた層でネットワークの学習ダイナミクスを研究することで、ネットワークの活性化関数が表現幾何学に予期せぬほど強い影響を与えることが判明した: tanhネットワークは、ターゲット出力の構造を反映した表現を学習し、reluネットワークは生の入力の構造に関するより多くの情報を保持する傾向がある。 この違いは、タスク入力の幾何とタスクラベルのアライメントの程度を変調する幅広いパラメータ化されたタスクのクラスを通して一貫して観察される。 重み空間における学習ダイナミクスを分析し,tanh と relu の非線形性を持つネットワーク間の差異が relu の非対称漸近的挙動からどのように生じるかを示した。 対照的に、Tanhネットワークの特徴ニューロンはタスクラベル構造を継承する傾向がある。 その結果、ターゲット出力が低次元である場合、TanhネットワークはReLU非線形性で得られるものよりも絡み合った神経表現を生成する。 本研究は,ニューラルネットワークにおける入出力幾何,非線形性,学習表現の相互作用に光を当てた。

The utility of a learned neural representation depends on how well its geometry supports performance in downstream tasks. This geometry depends on the structure of the inputs, the structure of the target outputs, and the architecture of the network. By studying the learning dynamics of networks with one hidden layer, we discovered that the network's activation function has an unexpectedly strong impact on the representational geometry: Tanh networks tend to learn representations that reflect the structure of the target outputs, while ReLU networks retain more information about the structure of the raw inputs. This difference is consistently observed across a broad class of parameterized tasks in which we modulated the degree of alignment between the geometry of the task inputs and that of the task labels. We analyzed the learning dynamics in weight space and show how the differences between the networks with Tanh and ReLU nonlinearities arise from the asymmetric asymptotic behavior of ReLU, which leads feature neurons to specialize for different regions of input space. By contrast, feature neurons in Tanh networks tend to inherit the task label structure. Consequently, when the target outputs are low dimensional, Tanh networks generate neural representations that are more disentangled than those obtained with a ReLU nonlinearity. Our findings shed light on the interplay between input-output geometry, nonlinearity, and learned representations in neural networks.
翻訳日:2024-01-25 14:06:27 公開日:2024-01-24
# 画像アップサンプリング手法の公平性ベンチマーク

Benchmarking the Fairness of Image Upsampling Methods ( http://arxiv.org/abs/2401.13555v1 )

ライセンス: Link先を確認
Mike Laszkiewicz, Imant Daunhawer, Julia E. Vogt, Asja Fischer, Johannes Lederer(参考訳) 近年、画像やビデオなどの合成メディアを作成するための深層生成モデルの開発が急速に進んでいる。 日常業務におけるこれらのモデルの実用的応用は注目に値するが、公平性に関する固有のリスクを評価することは重要である。 本研究では,条件付き生成モデルの性能と公平性をベンチマークする包括的なフレームワークを提案する。 我々は、その公正さと多様性のモデルを評価するために、教師付きフェアネスの指標である$\unicode{x2013}$インスパイアされたメトリクスのセットを開発する。 画像アップサンプリングの特定の応用に焦点を当てて、様々な現代的なアップサンプリング手法をカバーするベンチマークを作成する。 ベンチマークの一部として、私たちは、一般的な大規模な顔データセットの人種分布を再現するfairfaceのサブセットであるfairfaceを紹介します。 実験的な研究は、偏りのないトレーニングセットを使用することの重要性を強調し、アルゴリズムがデータセットの不均衡にどのように反応するかを明らかにする。 また,どの手法も統計的に公平で多様な結果が得られないことがわかった。

Recent years have witnessed a rapid development of deep generative models for creating synthetic media, such as images and videos. While the practical applications of these models in everyday tasks are enticing, it is crucial to assess the inherent risks regarding their fairness. In this work, we introduce a comprehensive framework for benchmarking the performance and fairness of conditional generative models. We develop a set of metrics$\unicode{x2013}$inspired by their supervised fairness counterparts$\unicode{x2013}$to evaluate the models on their fairness and diversity. Focusing on the specific application of image upsampling, we create a benchmark covering a wide variety of modern upsampling methods. As part of the benchmark, we introduce UnfairFace, a subset of FairFace that replicates the racial distribution of common large-scale face datasets. Our empirical study highlights the importance of using an unbiased training set and reveals variations in how the algorithms respond to dataset imbalances. Alarmingly, we find that none of the considered methods produces statistically fair and diverse results.
翻訳日:2024-01-25 14:06:05 公開日:2024-01-24
# panaf20k:野生の猿の検出と行動認識のための大規模ビデオデータセット

PanAf20K: A Large Video Dataset for Wild Ape Detection and Behaviour Recognition ( http://arxiv.org/abs/2401.13554v1 )

ライセンス: Link先を確認
Otto Brookes, Majid Mirmehdi, Colleen Stephens, Samuel Angedakin, Katherine Corogenes, Dervla Dowd, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Vera Leinert, Juan Lapuente, Maureen S. McCarthy, Amelia Meier, Mizuki Murai, Emmanuelle Normand, Virginie Vergnes, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Nuria Maldonado, Xinyu Yang, Klaus Zuberbuhler, Christophe Boesch, Mimi Arandjelovic, Hjalmar Kuhl, Tilo Burghardt(参考訳) 我々は,自然環境において類人猿の最大かつ最も多様なオープンアクセスアノテートビデオデータセットであるpanaf20kデータセットを提案する。 約2万本のチンパンジーとゴリラのカメラトラップビデオで700万フレーム以上のフレームで構成されており、パンアフリカプログラムの一環として、熱帯アフリカの18のフィールドで収集された。 映像には豊富なアノテーションとベンチマークが付属しており、猿の検出や行動認識など、さまざまな挑戦的で生態学的に重要なコンピュータビジョンタスクのトレーニングとテストに適している。 国際自然保護連合(international union for conservation of nature)は、大型猿科の全ての種を絶滅危惧種または絶滅危惧種としてリストアップしているため、カメラトラップ情報のai分析は極めて重要である。 データセットがAIコミュニティの関与の確固たる基盤を形成し、パフォーマンス、効率、結果の解釈を改善し、類人猿の存在、豊富さ、分布、行動の評価を支援し、保存活動を支援することを願っている。

We present the PanAf20K dataset, the largest and most diverse open-access annotated video dataset of great apes in their natural environment. It comprises more than 7 million frames across ~20,000 camera trap videos of chimpanzees and gorillas collected at 18 field sites in tropical Africa as part of the Pan African Programme: The Cultured Chimpanzee. The footage is accompanied by a rich set of annotations and benchmarks making it suitable for training and testing a variety of challenging and ecologically important computer vision tasks including ape detection and behaviour recognition. Furthering AI analysis of camera trap information is critical given the International Union for Conservation of Nature now lists all species in the great ape family as either Endangered or Critically Endangered. We hope the dataset can form a solid basis for engagement of the AI community to improve performance, efficiency, and result interpretation in order to support assessments of great ape presence, abundance, distribution, and behaviour and thereby aid conservation efforts.
翻訳日:2024-01-25 14:05:48 公開日:2024-01-24
# 非教師なしビデオ異常検出のための適応しきい値付き一級・弱教師付きモデル

Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2401.13551v1 )

ライセンス: Link先を確認
Yongwei Nie, Hao Huang, Chengjiang Long, Qing Zhang, Pradipta Maji, Hongmin Cai(参考訳) 人間のアノテーションがなければ、典型的なUnsupervised Video Anomaly Detection (UVAD) 法では、互いに擬似ラベルを生成する2つのモデルを訓練する必要がある。 前回の作業では、2つのモデルが密接に絡み合っており、トレーニングフレームワークを大幅に変更することなく、どのようにメソッドをアップグレードするかは分かっていない。 第2に、従来の作業では固定しきい値を採用して擬似ラベルを取得するが、ユーザ指定しきい値が信頼できないため、必然的にトレーニングプロセスにエラーが発生する。 これら2つの問題を緩和するために,1クラス分類(OCC)モデルとWakly-Supervised(WS)モデルを交互にトレーニングする新しいインターリーブドフレームワークを提案する。 私たちのメソッドの OCC または WS モデルは、他の OCC または WS モデルに簡単に置き換えることができる。 固定しきい値問題に対処するために,従来の認知境界を破って,正常データと異常データの両方でトレーニング可能な重み付きoccモデルを提案する。 また、WSモデルの最適しきい値を自動的にゆるやかな方法で見つけるための適応的なメカニズムを提案する。 提案手法が従来の手法より優れていることを示す実験を行った。

Without human annotations, a typical Unsupervised Video Anomaly Detection (UVAD) method needs to train two models that generate pseudo labels for each other. In previous work, the two models are closely entangled with each other, and it is not known how to upgrade their method without modifying their training framework significantly. Second, previous work usually adopts fixed thresholding to obtain pseudo labels, however the user-specified threshold is not reliable which inevitably introduces errors into the training process. To alleviate these two problems, we propose a novel interleaved framework that alternately trains a One-Class Classification (OCC) model and a Weakly-Supervised (WS) model for UVAD. The OCC or WS models in our method can be easily replaced with other OCC or WS models, which facilitates our method to upgrade with the most recent developments in both fields. For handling the fixed thresholding problem, we break through the conventional cognitive boundary and propose a weighted OCC model that can be trained on both normal and abnormal data. We also propose an adaptive mechanism for automatically finding the optimal threshold for the WS model in a loose to strict manner. Experiments demonstrate that the proposed UVAD method outperforms previous approaches.
翻訳日:2024-01-25 14:05:31 公開日:2024-01-24
# コンセプトボトルネックモデルを超えて:ブラックボックスを相互利用可能にするには?

Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? ( http://arxiv.org/abs/2401.13544v1 )

ライセンス: Link先を確認
Ri\v{c}ards Marcinkevi\v{c}s, Sonia Laguna, Moritz Vandenhirtz, Julia E. Vogt(参考訳) 近年、解釈可能な機械学習は概念ボトルネックモデル (CBM) を再探索し、生の特徴から高レベルの概念を段階的に予測し、予測された概念からターゲット変数を推定する。 このモデルクラスの魅力的な利点は、ユーザが予測された概念値に介入し、モデルの下流出力に影響を与える能力である。 本研究では,アノテートされた検証セットを与えられた設計では解釈できないニューラルネットワークに対して,そのような概念に基づく介入を行う手法を提案する。 さらに,概念に基づく介入の有効性の尺度としてモデルの介入性を定式化し,その定義をブラックボックスモデルに活用する。 実験では,合成表型および自然画像ベンチマークにおけるブラックボックス分類器の相互利用性について検討する。 微調整は介入効率を向上し、しばしばより良い校正予測をもたらすことを示す。 提案手法の実用性を実証するため, 深部胸部X線分類器に適用し, 微調整したブラックボックスはCBMよりもインターベンタブルで高性能であることを示す。

Recently, interpretable machine learning has re-explored concept bottleneck models (CBM), comprising step-by-step prediction of the high-level concepts from the raw features and the target variable from the predicted concepts. A compelling advantage of this model class is the user's ability to intervene on the predicted concept values, affecting the model's downstream output. In this work, we introduce a method to perform such concept-based interventions on already-trained neural networks, which are not interpretable by design, given an annotated validation set. Furthermore, we formalise the model's intervenability as a measure of the effectiveness of concept-based interventions and leverage this definition to fine-tune black-box models. Empirically, we explore the intervenability of black-box classifiers on synthetic tabular and natural image benchmarks. We demonstrate that fine-tuning improves intervention effectiveness and often yields better-calibrated predictions. To showcase the practical utility of the proposed techniques, we apply them to deep chest X-ray classifiers and show that fine-tuned black boxes can be as intervenable and more performant than CBMs.
翻訳日:2024-01-25 14:05:08 公開日:2024-01-24
# 優れたスケールアップ:野生のフォトリアリスティック画像復元のためのモデルスケーリングの実践

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild ( http://arxiv.org/abs/2401.13627v1 )

ライセンス: Link先を確認
Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong(参考訳) 本稿では,生成前処理とモデルスケールアップのパワーを活かした画期的な画像復元手法であるSUPIR(Scaling-UP Image Restoration)を紹介する。 SUPIRはマルチモーダル技術と先進的な生成技術を応用し、インテリジェントで現実的な画像復元において大きな進歩を遂げた。 SUPIRの触媒として、モデルスケーリングはその能力を劇的に向上させ、画像復元の新しい可能性を示す。 モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し,それぞれに記述的テキストアノテーションを付加する。 SUPIRは、テキストプロンプトでガイドされたイメージを復元する機能を提供し、アプリケーションの範囲と可能性を広げる。 さらに,知覚的品質をさらに向上させるために,否定的品質プロンプトを導入する。 また, 生成的修復における忠実性問題を抑制するために, 復元誘導サンプリング法を開発した。 実験は、supirの例外的な修復効果と、テキストによるプロンプトによる修復を操作できる新しい能力を示している。

We introduce SUPIR (Scaling-UP Image Restoration), a groundbreaking image restoration method that harnesses generative prior and the power of model scaling up. Leveraging multi-modal techniques and advanced generative prior, SUPIR marks a significant advance in intelligent and realistic image restoration. As a pivotal catalyst within SUPIR, model scaling dramatically enhances its capabilities and demonstrates new potential for image restoration. We collect a dataset comprising 20 million high-resolution, high-quality images for model training, each enriched with descriptive text annotations. SUPIR provides the capability to restore images guided by textual prompts, broadening its application scope and potential. Moreover, we introduce negative-quality prompts to further improve perceptual quality. We also develop a restoration-guided sampling method to suppress the fidelity issue encountered in generative-based restoration. Experiments demonstrate SUPIR's exceptional restoration effects and its novel capacity to manipulate restoration through textual prompts.
翻訳日:2024-01-25 13:57:38 公開日:2024-01-24
# kibble-zurek機構とガッピング量子位相の誤差

Kibble-Zurek mechanism and errors of gapped quantum phases ( http://arxiv.org/abs/2401.13625v1 )

ライセンス: Link先を確認
Amit Jamadagni, Javad Kazemi, Arpan Bhattacharyya(参考訳) キブル・ズレック機構は非平衡力学の領域と平衡における臨界特性を関連付ける。 これは、連続相転移によってクエンチされる非平衡欠陥と、スケーリング指数を介してクエンチレートとの間の電力法則接続を確立する。 本稿では,様々なガップ量子位相を定量化するために導入された,欠陥の概念を誤差にマッピングしたスケーリング指数を推定する新しい数値スキームを提案する。 本手法の汎用性を示すために,局所および対称性が保護された位相秩序をホストするスピンハーフモデルの幅広いスペクトルにわたって数値実験を行う。 さらに,デジタル量子コンピュータ上で位相相転移を特徴とするクエンチダイナミクスの実装を提案し,関連する臨界度を定量化する。

Kibble-Zurek mechanism relates the domain of non-equilibrium dynamics with the critical properties at equilibrium. It establishes a power law connection between non-equilibrium defects quenched through a continuous phase transition and the quench rate via the scaling exponent. We present a novel numerical scheme to estimate the scaling exponent wherein the notion of defects is mapped to errors, previously introduced to quantify a variety of gapped quantum phases. To demonstrate the versatility of our method we conduct numerical experiments across a broad spectrum of spin-half models hosting local and symmetry protected topological order. Furthermore, an implementation of the quench dynamics featuring a topological phase transition on a digital quantum computer is proposed to quantify the associated criticality.
翻訳日:2024-01-25 13:57:22 公開日:2024-01-24
# 逆行訓練における深層ニューラルネットワークは一般化できるか? --近似的視点

Can overfitted deep neural networks in adversarial training generalize? -- An approximation viewpoint ( http://arxiv.org/abs/2401.13624v1 )

ライセンス: Link先を確認
Zhongjie Shi, Fanghui Liu, Yuan Cao and Johan A.K. Suykens(参考訳) adversarial trainingは、adversarial perturbationに対するディープニューラルネットワーク(dnn)の堅牢性を改善するために広く使用される方法である。 しかし、過度パラメータ化されたネットワーク上での敵の訓練は、しばしば「textit{robust overfitting}」に悩まされ、頑健な一般化性能が期待できない一方で、ほぼゼロの敵の訓練誤差を達成できる。 本稿では,逆行訓練における過剰適合DNNが近似的視点から一般化できるかどうかを理論的に理解する。 具体的には、主な成果を3つにまとめる。 一 分類については、データ品質、分離度、摂動レベルに関する一定の条件下で良好な一般化誤差を達成する一方で、任意に小さい逆訓練誤差(オーバーフィッティング)を得る過パラメータdnn上の無限個の逆訓練分類器の存在を立証する。 二 線形過パラメータ化(パラメータの数がサンプルサイズよりわずかに大きいこと)は、目的関数が十分に滑らかであれば、その存在を保証するのに十分である。 iii) 回帰に対しては, 標準一般化誤差の収束率をほぼ最適に得るような, 相反訓練において線形オーバーパラメータを持つ無限に多くの過剰適合dnnが存在することを実証する。 全体として, 頑健なオーバーフィッティングは避けられるが, モデル容量は対象関数の滑らかさに依存するが, 頑健な一般化ギャップは避けられない。 我々は,DNNのロバスト性に関する数学的基礎を近似的観点からより深く理解することを期待している。

Adversarial training is a widely used method to improve the robustness of deep neural networks (DNNs) over adversarial perturbations. However, it is empirically observed that adversarial training on over-parameterized networks often suffers from the \textit{robust overfitting}: it can achieve almost zero adversarial training error while the robust generalization performance is not promising. In this paper, we provide a theoretical understanding of the question of whether overfitted DNNs in adversarial training can generalize from an approximation viewpoint. Specifically, our main results are summarized into three folds: i) For classification, we prove by construction the existence of infinitely many adversarial training classifiers on over-parameterized DNNs that obtain arbitrarily small adversarial training error (overfitting), whereas achieving good robust generalization error under certain conditions concerning the data quality, well separated, and perturbation level. ii) Linear over-parameterization (meaning that the number of parameters is only slightly larger than the sample size) is enough to ensure such existence if the target function is smooth enough. iii) For regression, our results demonstrate that there also exist infinitely many overfitted DNNs with linear over-parameterization in adversarial training that can achieve almost optimal rates of convergence for the standard generalization error. Overall, our analysis points out that robust overfitting can be avoided but the required model capacity will depend on the smoothness of the target function, while a robust generalization gap is inevitable. We hope our analysis will give a better understanding of the mathematical foundations of robustness in DNNs from an approximation view.
翻訳日:2024-01-25 13:57:11 公開日:2024-01-24
# 優れたソフトウェア品質保証エンジニアとは何でしょう?

What Makes a Great Software Quality Assurance Engineer? ( http://arxiv.org/abs/2401.13623v1 )

ライセンス: Link先を確認
Roselane Silva Farias, Iftekhar Ahmed, and Eduardo Santana de Almeida(参考訳) ソフトウェア品質保証(SQA) エンジニアは、各フェーズと最終製品の結果が望ましい品質を持つことを保証するために、ソフトウェア開発プロセスの各フェーズで製品を評価する責任を負います。 一般的に、優れたSQAエンジニアは、製品開発プロセス全体を最初から最後まで効果的に監督するために、開発チームと異なる能力セットを持つ必要があります。 最近の実証研究では、ソフトウェアエンジニアとマネージャの重要な属性が特定されているが、品質保証の役割は見過ごされている。 ソフトウェア開発のライフサイクルにおいて、ソフトウェア品質の側面が優先されるようになり、雇用主は会社の目的に最も適したプロフェッショナルを探し、新しい卒業生は、SQAエンジニアとしての仕事を通じて、価値ある貢献をしたいと願っている。 世界中のさまざまな企業のソフトウェア品質保証エンジニアを対象に,25の半構造化インタビューと363のアンケートを行った。 我々は,これらの活動から収集したデータを用いて,重要と考えられる属性の包括的集合を導出する。 インタビューの結果,25の属性が同定され,個人的,社会的,技術的,管理的,意思決定的属性の5つのカテゴリに分類された。 評価調査により,優れたSQA技術者の特徴は好奇心,効果的なコミュニケーション能力,批判的思考能力であることを確認した。 本研究は、文脈要因を考慮し、研究や実践にいくつかの意味を与えることにより、SQA実践者とのさらなる研究を導く。

Software Quality Assurance (SQA) Engineers are responsible for assessing a product during every phase of the software development process to ensure that the outcomes of each phase and the final product possess the desired qualities. In general, a great SQA engineer needs to have a different set of abilities from development engineers to effectively oversee the entire product development process from beginning to end. Recent empirical studies identified important attributes of software engineers and managers, but the quality assurance role is overlooked. As software quality aspects have become more of a priority in the life cycle of software development, employers seek professionals that best suit the company's objectives and new graduates desire to make a valuable contribution through their job as an SQA engineer, but what makes them great? We addressed this knowledge gap by conducting 25 semi-structured interviews and 363 survey respondents with software quality assurance engineers from different companies around the world. We use the data collected from these activities to derive a comprehensive set of attributes that are considered important. As a result of the interviews, twenty-five attributes were identified and grouped into five main categories: personal, social, technical, management, and decision-making attributes. Through a rating survey, we confirmed that the distinguishing characteristics of great SQA engineers are curiosity, the ability to communicate effectively, and critical thinking skills. This work will guide further studies with SQA practitioners, by considering contextual factors and providing some implications for research and practice.
翻訳日:2024-01-25 13:56:41 公開日:2024-01-24
# DenoSent: 自己監督型文表現学習のためのDenoising Objective

DenoSent: A Denoising Objective for Self-Supervised Sentence Representation Learning ( http://arxiv.org/abs/2401.13621v1 )

ライセンス: Link先を確認
Xinghao Wang, Junliang He, Pengyu Wang, Yunhua Zhou, Tianxiang Sun, Xipeng Qiu(参考訳) コントラスト学習に基づく方法が文表現学習を支配している。 これらの手法は、類似した文表現を近づき、異種語を押下することで表現空間を規則化し、意味的テキスト類似性(STS)タスクのような様々なNLPタスクに有効であることが証明されている。 しかし、これらの手法は、データサンプル間の関係から生じる監督信号という、相互関係の観点からのみ学習するので、細粒度のセマンティクスを学ぶことは困難である。 本研究は,別の視点,すなわちsentence-intra-sentenceの視点を継承する,新しい特徴付け目標を提案する。 離散雑音と連続雑音の両方を導入することで、ノイズ文を生成し、モデルをトレーニングして元の形式に復元します。 実験により,本手法が意味的テキスト類似性(STS)と多岐にわたる伝達タスクの両面で,コントラッシブ・ラーニングに基づく手法と比較して,競争力のある結果をもたらすことを示した。 特に,提案手法は既存の文間コントラスト手法を補完し,それらと統合してさらなる性能向上を図ることができる。 私たちのコードはhttps://github.com/xinghaow99/denosentで利用可能です。

Contrastive-learning-based methods have dominated sentence representation learning. These methods regularize the representation space by pulling similar sentence representations closer and pushing away the dissimilar ones and have been proven effective in various NLP tasks, e.g., semantic textual similarity (STS) tasks. However, it is challenging for these methods to learn fine-grained semantics as they only learn from the inter-sentence perspective, i.e., their supervision signal comes from the relationship between data samples. In this work, we propose a novel denoising objective that inherits from another perspective, i.e., the intra-sentence perspective. By introducing both discrete and continuous noise, we generate noisy sentences and then train our model to restore them to their original form. Our empirical evaluations demonstrate that this approach delivers competitive results on both semantic textual similarity (STS) and a wide range of transfer tasks, standing up well in comparison to contrastive-learning-based methods. Notably, the proposed intra-sentence denoising objective complements existing inter-sentence contrastive methodologies and can be integrated with them to further enhance performance. Our code is available at https://github.com/xinghaow99/DenoSent.
翻訳日:2024-01-25 13:56:14 公開日:2024-01-24
# フルガルモデリングの提唱:分子スピンダイナミクスを含む2つのケーススタディ

A call for frugal modelling: two case studies involving molecular spin dynamics ( http://arxiv.org/abs/2401.13618v1 )

ライセンス: Link先を確認
Gerliz M. Guti\'errez-Finol, Aman Ullah, Alejandro Gaita-Ari\~no(参考訳) 科学者が気候の緊急事態を乗り越えるためには、例によってリードするか、少なくとも問題に対する我々の理解と一致させる責任がある。 ここでは、この原則を提示し、批判的に説明する。 まず、分子スピン量子ビットの電気的操作を含む実験と、同じ定性的な一致をもたらすような、非常に異なる高度化の2つのモデルを比較し、コストの差は4$である。 第2段階として、2つの異なるプログラミング言語でプログラムされた確率的pビットのネットワークを実装するために単イオン磁石を使用する既に最小限のモデルが、$\simeq 50$のコスト差を示すことが示されている。 どちらの例でも、計算的に高価なバージョンのモデルが公開された。 コミュニティとして、この方向に改善の余地はたくさんあります。

As scientists living through a climate emergency, we have a responsibility to lead by example, or to at least be consistent with our understanding of the problem, which in the case of theoreticians involves a frugal approach to modelling. Here we present and critically illustrate this principle. First, we compare two models of very different level of sophistication which nevertheless yield the same qualitative agreement with an experiment involving electric manipulation of molecular spin qubits while presenting a difference in cost of $>4$ orders of magnitude. As a second stage, an already minimalistic model involving the use of single-ion magnets to implement a network of probabilistic p-bits, programmed in two different programming languages, is shown to present a difference in cost of a factor of $\simeq 50$. In both examples, the computationally expensive version of the model was the one that was published. As a community, we still have a lot of room for improvement in this direction.
翻訳日:2024-01-25 13:55:51 公開日:2024-01-24
# FLLIC:機能的にロスレスな画像圧縮

FLLIC: Functionally Lossless Image Compression ( http://arxiv.org/abs/2401.13616v1 )

ライセンス: Link先を確認
Xi Zhang, Xiaolin Wu(参考訳) 近年、ロスレス画像符号化のためのdnnモデルは、従来の圧縮性能を上回っており、自然色画像のビットレートを約10%削減している。 しかし、これらの進歩にもかかわらず、自然画像の数学的ロスレス画像圧縮(mllic)比は、現在でも最も実用的な撮像システムや視覚システムの帯域幅やコスト効率要件に届かない。 圧縮性能におけるMLLICのボトルネックを打破するためには、ほとんどのデジタルセンサが本質的に取得ノイズを導入し、数学的に損失のない圧縮を非生産的にするMLLICの必要性を疑問視する。 そこで,mllicとは対照的に,機能的ロスレス画像圧縮 (fllic) と呼ばれる,最適デノレーション画像のロスレス圧縮(最適性はタスク固有かもしれない)を行うジョイントデノイジングと圧縮の新しいパラダイムを提案する。 ノイズの入力に対して文字通りロスレスというわけではないが、fllicは潜在ノイズのない原画像の最良の再構成を達成することを目指している。 広汎な実験により,FLLICは雑音画像の調音・圧縮において最先端の性能を達成し,計算コストの低減を図っている。

Recently, DNN models for lossless image coding have surpassed their traditional counterparts in compression performance, reducing the bit rate by about ten percent for natural color images. But even with these advances, mathematically lossless image compression (MLLIC) ratios for natural images still fall short of the bandwidth and cost-effectiveness requirements of most practical imaging and vision systems at present and beyond. To break the bottleneck of MLLIC in compression performance, we question the necessity of MLLIC, as almost all digital sensors inherently introduce acquisition noises, making mathematically lossless compression counterproductive. Therefore, in contrast to MLLIC, we propose a new paradigm of joint denoising and compression called functionally lossless image compression (FLLIC), which performs lossless compression of optimally denoised images (the optimality may be task-specific). Although not literally lossless with respect to the noisy input, FLLIC aims to achieve the best possible reconstruction of the latent noise-free original image. Extensive experiments show that FLLIC achieves state-of-the-art performance in joint denoising and compression of noisy images and does so at a lower computational cost.
翻訳日:2024-01-25 13:55:35 公開日:2024-01-24
# 画像検索の強化 : CLIPモードを用いた画像検索に関する総合的研究

Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode ( http://arxiv.org/abs/2401.13613v1 )

ライセンス: Link先を確認
Naresh Kumar Lahajal and Harini S(参考訳) テキストクエリに基づく画像検索の課題であるフォトサーチでは,CLIP(Contrastive Language- Image Pretraining)モデルの導入により,大幅な進歩が見られた。 CLIPはビジョン言語による事前トレーニングアプローチを利用して、画像とテキストの共有表現空間を学習し、モーダル間の理解を可能にする。 このモデルは、多様な画像とテキストペア間の意味的関係を理解する能力を示し、自然言語クエリに基づく画像の効率的かつ正確な検索を可能にする。 画像と関連するテキスト記述を含む大規模なデータセットをトレーニングすることにより、CLIPは目覚ましい一般化を実現し、ゼロショット学習や少数ショット分類といったタスクのための強力なツールを提供する。 この要約は、CLIPの基本原理を要約し、写真検索分野の進歩に対するその潜在的影響を強調し、マルチメディアアプリケーションにおける情報検索改善のための自然言語理解とコンピュータビジョンのシームレスな統合を促進する。

Photo search, the task of retrieving images based on textual queries, has witnessed significant advancements with the introduction of CLIP (Contrastive Language-Image Pretraining) model. CLIP leverages a vision-language pre training approach, wherein it learns a shared representation space for images and text, enabling cross-modal understanding. This model demonstrates the capability to understand the semantic relationships between diverse image and text pairs, allowing for efficient and accurate retrieval of images based on natural language queries. By training on a large-scale dataset containing images and their associated textual descriptions, CLIP achieves remarkable generalization, providing a powerful tool for tasks such as zero-shot learning and few-shot classification. This abstract summarizes the foundational principles of CLIP and highlights its potential impact on advancing the field of photo search, fostering a seamless integration of natural language understanding and computer vision for improved information retrieval in multimedia applications
翻訳日:2024-01-25 13:55:15 公開日:2024-01-24
# 中間asr特徴と人間の記憶モデルを用いた聴覚障害者の非インタラクティブ音声明瞭度予測

Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models ( http://arxiv.org/abs/2401.13611v1 )

ライセンス: Link先を確認
Rhiannon Mogridge, George Close, Robert Sutherland, Thomas Hain, Jon Barker, Stefan Goetze, Anton Ragni(参考訳) ニューラルネットワークは、非侵入的音声の知性予測に成功している。 近年,事前学習された自己教師型モデルと弱教師型モデルの中間層から得られる特徴表現の利用は,この課題に特に有用であることが判明した。 この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせて、補聴器使用者の人間の知能評価を予測する。 確立された侵入型haspiベースラインシステムに対する実質的な性能改善が見られ、トレーニングデータに含まれない強化システムやリスナー、根平均二乗誤差が28.7のベースラインと比較して25.3である。

Neural networks have been successfully used for non-intrusive speech intelligibility prediction. Recently, the use of feature representations sourced from intermediate layers of pre-trained self-supervised and weakly-supervised models has been found to be particularly useful for this task. This work combines the use of Whisper ASR decoder layer representations as neural network input features with an exemplar-based, psychologically motivated model of human memory to predict human intelligibility ratings for hearing-aid users. Substantial performance improvement over an established intrusive HASPI baseline system is found, including on enhancement systems and listeners unseen in the training data, with a root mean squared error of 25.3 compared with the baseline of 28.7.
翻訳日:2024-01-25 13:54:57 公開日:2024-01-24
# AIに基づくリモートバイオメトリック同定の制御。 禁止,監査及び公開データベース登録の公衆需要調査

Regulating AI-Based Remote Biometric Identification. Investigating the Public Demand for Bans, Audits, and Public Database Registrations ( http://arxiv.org/abs/2401.13605v1 )

ライセンス: Link先を確認
Kimon Kieslich, Marco L\"unich(参考訳) AIは、公共のセキュリティを含む公共部門でますます使われている。 この文脈では、ai駆動の遠隔生体認証(rbi)システムの利用は、多くの論点がある技術である。 RBIシステムは公共空間における犯罪行為を特定するために使用されるが、偏見を継承し、基本的人権を侵害しているとして批判されている。 したがって、そのようなシステムが公益に開発されることを保証することが重要であり、公益に展開される技術は精査する必要がある。 ビジネスリーダー、政策立案者、科学者の間では、AIは倫理的で信頼できる方法で開発されなければならないという意見が一致しているが、学者らは倫理的ガイドラインは倫理的AIを保証せず、むしろAIのより強力な規制を防ぐものだと主張している。 カウンターウェイトの可能性として、世論は政策立案者に決定的な影響を及ぼし、もしもAIシステムが使われるべき境界と条件を確立することができる。 しかし、AIシステムの規制要求につながる条件についてはほとんど分かっていない。 本研究では,AI技術規制の要求につながる可能性のある潜在的な要因として,AIにおける信頼の役割と,法執行機関に対する信頼に焦点を当てる。 また, RBIに関する識別認知の媒介効果についても検討した。 ドイツ国民を対象にした調査において, RBIの時間的側面(リアルタイム対ポストホック分析)と使用目的(犯罪者の迫害対公共イベントの保護)の異なる4つのユースケースに対する効果を検証した。 我々は、ドイツ市民がrbi規制の要求に関して異なる適用形態を区別しないことを発見した。 さらに、差別に対する認識がより強い規制の要求につながる一方で、AIへの信頼と法執行機関への信頼は、RBIシステムに対する規制の要求に関して反対の効果をもたらすことを示す。

AI is increasingly being used in the public sector, including public security. In this context, the use of AI-powered remote biometric identification (RBI) systems is a much-discussed technology. RBI systems are used to identify criminal activity in public spaces, but are criticised for inheriting biases and violating fundamental human rights. It is therefore important to ensure that such systems are developed in the public interest, which means that any technology that is deployed for public use needs to be scrutinised. While there is a consensus among business leaders, policymakers and scientists that AI must be developed in an ethical and trustworthy manner, scholars have argued that ethical guidelines do not guarantee ethical AI, but rather prevent stronger regulation of AI. As a possible counterweight, public opinion can have a decisive influence on policymakers to establish boundaries and conditions under which AI systems should be used -- if at all. However, we know little about the conditions that lead to regulatory demand for AI systems. In this study, we focus on the role of trust in AI as well as trust in law enforcement as potential factors that may lead to demands for regulation of AI technology. In addition, we explore the mediating effects of discrimination perceptions regarding RBI. We test the effects on four different use cases of RBI varying the temporal aspect (real-time vs. post hoc analysis) and purpose of use (persecution of criminals vs. safeguarding public events) in a survey among German citizens. We found that German citizens do not differentiate between the different modes of application in terms of their demand for RBI regulation. Furthermore, we show that perceptions of discrimination lead to a demand for stronger regulation, while trust in AI and trust in law enforcement lead to opposite effects in terms of demand for a ban on RBI systems.
翻訳日:2024-01-25 13:54:44 公開日:2024-01-24
# モバイルエコシステムにおける認知エージェントのストリームベース知覚

Stream-based perception for cognitive agents in mobile ecosystems ( http://arxiv.org/abs/2401.13604v1 )

ライセンス: Link先を確認
Jeremias D\"otterl, Ralf Bruns, J\"urgen Dunkel, Sascha Ossowski(参考訳) 認知エージェント抽象化は、モバイルデバイスにまたがるインテリジェントなシステムを構築するのに役立つ。 スマートフォンでは、オンボードセンサーから得られるデータは、ユーザの現在の状況に関する貴重な洞察を与えることができる。 残念なことに、今日のcognitive agentフレームワークは、センサデータの困難な特性にうまく対応できない。 センサデータは抽象レベルが低く、個々のデータ要素は分離して観測しても意味がない。 対照的に、認知エージェントは高レベルの知覚で作用し、複数の知覚配列における複雑な時空間パターンを効果的に検出する手段が欠如している。 本稿では,低レベルのセンサデータストリームにおいて,エージェントが有意義な状況を知覚できるストリームベースの知覚手法を提案する。 我々は,自律的,利己的なエージェントが協力して荷物を目的地に届ける,クラウドシッピング・ケーススタディを提案する。 スマートフォンのセンサデータから得られた状況が、エージェントが合意に達するために使用するオークションをトリガーし、ガイドする方法を示す。 実際のスマートフォンデータによる実験は、ストリームベースのエージェント認識の利点を示している。

Cognitive agent abstractions can help to engineer intelligent systems across mobile devices. On smartphones, the data obtained from onboard sensors can give valuable insights into the user's current situation. Unfortunately, today's cognitive agent frameworks cannot cope well with the challenging characteristics of sensor data. Sensor data is located on a low abstraction level and the individual data elements are not meaningful when observed in isolation. In contrast, cognitive agents operate on high-level percepts and lack the means to effectively detect complex spatio-temporal patterns in sequences of multiple percepts. In this paper, we present a stream-based perception approach that enables the agents to perceive meaningful situations in low-level sensor data streams. We present a crowdshipping case study where autonomous, self-interested agents collaborate to deliver parcels to their destinations. We show how situations derived from smartphone sensor data can trigger and guide auctions, which the agents use to reach agreements. Experiments with real smartphone data demonstrate the benefits of stream-based agent perception.
翻訳日:2024-01-25 13:54:15 公開日:2024-01-24
# MM-LLM:マルチモーダル大言語モデルの最近の進歩

MM-LLMs: Recent Advances in MultiModal Large Language Models ( http://arxiv.org/abs/2401.13601v1 )

ライセンス: Link先を確認
Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu(参考訳) 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。 結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、多様なMMタスクも強化する。 本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。 具体的には、まずモデルアーキテクチャとトレーニングパイプラインの一般設計について概説する。 その後、既存のMM-LLMを26ドル(約2,600円)で紹介し、それぞれに具体的定式化を特徴とする。 さらに,主要なベンチマークにおけるMM-LLMの性能を概観し,MM-LLMの有効性を高めるための重要なトレーニングレシピを要約する。 最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡サイトを同時に維持する。 この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
翻訳日:2024-01-25 13:54:01 公開日:2024-01-24
# ゼロショット文書レベル関係三重項抽出のためのllmsにおける一貫性のある知識検索と特徴付け

Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction ( http://arxiv.org/abs/2401.13598v1 )

ライセンス: Link先を確認
Qi Sun and Kun Huang and Xiaocui Yang and Rong Tong and Kun Zhang and Soujanya Poria(参考訳) 文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。 既存の手法は、かなりの量の完全なラベル付きデータに依存している。 しかし、新たな関係のためのデータの収集と注釈付けには時間と労力がかかる。 近年,ChatGPT や LLaMA などの先進言語モデル (LLM) は,優れた長文生成能力を示し,新たな関係を持つ自動ラベル付き文書を得るための代替手法を探究するきっかけとなった。 本稿では,llmsから知識を検索・削除することでラベル付きデータを生成するゼロショット文書レベル関係三重項抽出(zerodocrte)フレームワークを提案する。 具体的には、ChatGPTをガイドしてラベル付き長文データを生成するチェーン・オブ・検索プロンプトを提案する。 合成データの品質を向上させるために,クロスドキュメント知識の一貫性に基づく分別戦略を提案する。 有意な合成データを利用して,llama2-13b-chatを微調整し,文書レベルの関係三重項を抽出する。 2つの公開データセット上でゼロショット文書レベル関係とトリプレット抽出の両方について実験を行う。 実験の結果,我々のGenRDKフレームワークは強いベースラインを上回っていることがわかった。

Document-level Relation Triplet Extraction (DocRTE) is a fundamental task in information systems that aims to simultaneously extract entities with semantic relations from a document. Existing methods heavily rely on a substantial amount of fully labeled data. However, collecting and annotating data for newly emerging relations is time-consuming and labor-intensive. Recent advanced Large Language Models (LLMs), such as ChatGPT and LLaMA, exhibit impressive long-text generation capabilities, inspiring us to explore an alternative approach for obtaining auto-labeled documents with new relations. In this paper, we propose a Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) framework, which generates labeled data by retrieval and denoising knowledge from LLMs, called GenRDK. Specifically, we propose a chain-of-retrieval prompt to guide ChatGPT to generate labeled long-text data step by step. To improve the quality of synthetic data, we propose a denoising strategy based on the consistency of cross-document knowledge. Leveraging our denoised synthetic data, we proceed to fine-tune the LLaMA2-13B-Chat for extracting document-level relation triplets. We perform experiments for both zero-shot document-level relation and triplet extraction on two public datasets. The experimental results illustrate that our GenRDK framework outperforms strong baselines.
翻訳日:2024-01-25 13:53:43 公開日:2024-01-24
# PLATE:知覚遅延認識推定器。

PLATE: A perception-latency aware estimator, ( http://arxiv.org/abs/2401.13596v1 )

ライセンス: Link先を確認
Rodrigo Aldana-L\'opez, Rosario Arag\"u\'es, Carlos Sag\"u\'es(参考訳) ターゲット追跡は多くの潜在的なアプリケーションで一般的な問題である。 様々な技術を用いて、カメラによる目標検出の品質向上に多くの努力が払われている。 一般に、より高い計算労力、すなわちより長い知覚レイテンシを適用すれば、より優れた検出精度が得られる。 しかし、特に環境が不要で、計算資源が他のタスク間で共有されている場合に、最も長い知覚レイテンシーを適用することは必ずしも有用ではない。 本研究では,特定の性能尺度を最適化するために,異なるタイミングで異なる知覚構成を用いる新しい知覚遅延認識推定器(plate)を提案する。 この尺度は、品質とリソース使用量の良好な妥協を目的とした知覚遅延と正確さのトレードオフを考慮に入れている。 他のヒューリスティックなフレームスキッピング技術と比較すると、PLATEは形式的な複雑さと最適性解析を持つ。 PLATEの利点は、実データを用いた標準ベンチマークに対する評価や、認識段階におけるディープラーニングオブジェクト検出手法の現状など、いくつかの実験によって検証されている。

Target tracking is a popular problem with many potential applications. There has been a lot of effort on improving the quality of the detection of targets using cameras through different techniques. In general, with higher computational effort applied, i.e., a longer perception-latency, a better detection accuracy is obtained. However, it is not always useful to apply the longest perception-latency allowed, particularly when the environment doesn't require to and when the computational resources are shared between other tasks. In this work, we propose a new Perception-LATency aware Estimator (PLATE), which uses different perception configurations in different moments of time in order to optimize a certain performance measure. This measure takes into account a perception-latency and accuracy trade-off aiming for a good compromise between quality and resource usage. Compared to other heuristic frame-skipping techniques, PLATE comes with a formal complexity and optimality analysis. The advantages of PLATE are verified by several experiments including an evaluation over a standard benchmark with real data and using state of the art deep learning object detection methods for the perception stage.
翻訳日:2024-01-25 13:53:19 公開日:2024-01-24
# テンソルネットワークからの創発的ホログラフィック力と臨界

Emergent Holographic Forces from Tensor Networks and Criticality ( http://arxiv.org/abs/2401.13595v1 )

ライセンス: Link先を確認
Rahul Sahay, Mikhail D. Lukin, Jordan Cotler(参考訳) AdS/CFT対応は、1つの高い空間次元における共形場理論と量子重力の特定の理論の双対性を定義する。 しかし、この予想を現代の古典的または量子コンピュータに当てはめることは困難である。 1+1)-次元臨界スピン系と(2+1)-次元バルク理論のマッピングを提供するads/cftの効率良く実装可能なマルチスケールエンタングルメント再正規化 ansatz (mera) モデルを定式化する。 数値と解析の組み合わせを用いて、この最適化テンソルネットワークから生じるバルク理論は、魅力的な相互作用を伴う励起を与えることを示した。 注目すべきことに、これらの励起は、遠距離でのAdS重力と結合した物質の予測に一致する1粒子と2粒子のエネルギーを持ち、AdS物理学の重要な特徴を示す。 これらのポテンシャルは絡み合い再正規化の直接的な帰結として生じ、現実的な量子デバイスを用いてバルクダイナミクスを効率的にシミュレートする方法について議論する。

The AdS/CFT correspondence stipulates a duality between conformal field theories and certain theories of quantum gravity in one higher spatial dimension. However, probing this conjecture on contemporary classical or quantum computers is challenging. We formulate an efficiently implementable multi-scale entanglement renormalization ansatz (MERA) model of AdS/CFT providing a mapping between a (1+1)-dimensional critical spin system and a (2+1)-dimensional bulk theory. Using a combination of numerics and analytics, we show that the bulk theory arising from this optimized tensor network furnishes excitations with attractive interactions. Remarkably, these excitations have one- and two-particle energies matching the predictions for matter coupled to AdS gravity at long distances, thus displaying key features of AdS physics. We show that these potentials arise as a direct consequence of entanglement renormalization and discuss how this approach can be used to efficiently simulate bulk dynamics using realistic quantum devices.
翻訳日:2024-01-25 13:53:02 公開日:2024-01-24
# リリースチャネルにまたがるクラッシュの影響を予測する

Predicting the Impact of Crashes Across Release Channels ( http://arxiv.org/abs/2401.13667v1 )

ライセンス: Link先を確認
Suhaib Mujahid and Diego Elias Costa and Marco Castelluccio(参考訳) ソフトウェアのメンテナンスはクラッシュバグに対して、特に異なるユーザベースに対応するさまざまなリリースチャネルにおいて、永続的な課題に直面している。 熱狂的な人たちによって好まれるナイトリービルドは、多くの場合、修正コストが安く、安定版とは大きく異なるクラッシュを示す。 本稿では,安定したチャネルにリリースされれば,夜間チャネルで発生したクラッシュの影響を予測するためのデータ駆動ソリューションの必要性を強調する。 また、この問題に取り組む際に考慮すべき課題もリストアップします。

Software maintenance faces a persistent challenge with crash bugs, especially across diverse release channels catering to distinct user bases. Nightly builds, favoured by enthusiasts, often reveal crashes that are cheaper to fix but may differ significantly from those in stable releases. In this paper, we emphasize the need for a data-driven solution to predict the impact of crashes happening on nightly channels once they are released to stable channels. We also list the challenges that need to be considered when approaching this problem.
翻訳日:2024-01-25 13:45:00 公開日:2024-01-24
# 非交叉クラスによる認識問題の代数的解法

Algebraic methods for solving recognition problems with non-crossing classes ( http://arxiv.org/abs/2401.13666v1 )

ライセンス: Link先を確認
Anvar Kabulov, Alimdzhan Babadzhanov, Islambek Saymanov(参考訳) 本稿では,パターン認識の様々なモデルについて考察する。 同時に、認識演算子と決定ルールという2つの演算子の形式でモデルを検討することが提案されている。 演算子を認識するために代数演算を導入し、これらの演算子の応用に基づいて認識アルゴリズムのファミリを作成する。 モデルに対して、拡張の完全性を保証する上述の見積もりが構築される。

In this paper, we propose to consider various models of pattern recognition. At the same time, it is proposed to consider models in the form of two operators: a recognizing operator and a decision rule. Algebraic operations are introduced on recognizing operators, and based on the application of these operators, a family of recognizing algorithms is created. An upper estimate is constructed for the model, which guarantees the completeness of the extension.
翻訳日:2024-01-25 13:44:53 公開日:2024-01-24
# 因果パネルデータのエントリワイズ推論:単純かつインスタンス最適アプローチ

Entrywise Inference for Causal Panel Data: A Simple and Instance-Optimal Approach ( http://arxiv.org/abs/2401.13665v1 )

ライセンス: Link先を確認
Yuling Yan, Martin J. Wainwright(参考訳) パネルデータを用いた因果推論では、潜在的な結果と治療効果に対する信頼区間を推定し、導出することが目的である。 単純な行列代数と特異値分解のみを含む計算効率の高い手順を提案する。 入射誤差の非漸近境界を導出し、適切なスケールのガウス変数に近接性を確立する。 その単純さにもかかわらず、我々の手順は、ベイジアン・クラム\'{e}r-ラオの引数によって導かれる局所的なインスタンス右下界と、理論的なスケーリングが一致していることが判明した。 本研究は,データ駆動方式を用いて,予め規定されたカバレッジ保証付きエントリーワイド信頼区間を構築する。 本分析は,行列復調モデルに適用されたSVDアルゴリズムの一般的な推論ツールボックスに基づく。

In causal inference with panel data under staggered adoption, the goal is to estimate and derive confidence intervals for potential outcomes and treatment effects. We propose a computationally efficient procedure, involving only simple matrix algebra and singular value decomposition. We derive non-asymptotic bounds on the entrywise error, establishing its proximity to a suitably scaled Gaussian variable. Despite its simplicity, our procedure turns out to be instance-optimal, in that our theoretical scaling matches a local instance-wise lower bound derived via a Bayesian Cram\'{e}r-Rao argument. Using our insights, we develop a data-driven procedure for constructing entrywise confidence intervals with pre-specified coverage guarantees. Our analysis is based on a general inferential toolbox for the SVD algorithm applied to the matrix denoising model, which might be of independent interest.
翻訳日:2024-01-25 13:44:47 公開日:2024-01-24
# 曲線上のスピン零粒子に対するハミルトニアン、幾何運動量および力作用素:物理的アプローチ

Hamiltonian, Geometric Momentum and Force Operators for a Spin Zero Particle on a Curve: Physical Approach ( http://arxiv.org/abs/2401.13664v1 )

ライセンス: Link先を確認
M. S. Shikakhwa and N.Chair(参考訳) 3次元空間に埋め込まれた曲線に閉じ込められたスピン零粒子のハミルトニアンは、曲線に垂直なチューブにまたがる座標を、強い正規力を仮定した曲線に絞り込むことによって構成される。 我々は、曲面に粒子を閉じ込めるために適用した新しいアプローチに従い、曲線方向に沿った成分と正規成分が別々にエルミートである3次元運動量作用素の式から始める。 通常の方向の運動量作用素の項で表される運動エネルギー作用素は、この場合のエルミート作用素である。 この演算子を落として曲線を囲む管の厚さをゼロにすると、予想される幾何学的ポテンシャル項を含むエルミート曲線ハミルトニアンが自動的に得られる。 このポテンシャルの起源は、元の3次元運動量作用素の順序付けや対称性によってエルミートを表現できることが証明されている。 曲線に制限される粒子のエルミート運動量作用素も構成されており、曲面に制限された粒子の幾何運動量(英語版)として知られるものと同様に、曲線の正規に沿った曲率に比例する項を持つ。 曲線上の粒子の力作用素も導出され、一定の曲率とねじれを持つ曲線に対して、古典的な表現と量子項の対称性である曲線に対して通常の-明らかに-単成分に還元されることが示されている。 上記の全ての量は、3次元空間に埋め込まれた円筒状ヘリックスに閉じ込められた粒子の特定の場合のために導出される。

The Hamiltonian for a spin zero particle that is confined to a curve embedded in the 3D space is constructed by squeezing the coordinates spanning a tube normal to the curve onto the curve assuming strong normal forces. We follow the new approach that we applied to confine a particle to a surface, in that we start with an expression for the 3D momentum operators whose components along and normal to the curve directions are separately Hermitian. The kinetic energy operator expressed in terms of the momentum operator in the normal direction is then a Hermitian operator in this case. When this operator is dropped and the thickness of the tube surrounding the curve is set to zero, one automatically gets the Hermitian curve Hamiltonian that contains the geometric potential term as expected. It is demonstrated that the origin of this potential lies in the ordering or symmetrization of the original 3D momentum operators in order to render them Hermitian. The Hermitian momentum operator for the particle as it is confined to the curve is also constructed and is seen to be similar to what is known as the geometric momentum of a particle confined to a surface in that it has a term proportional to the curvature that is along the normal to the curve. The force operator of the particle on the curve is also derived, and is shown to reduce, for a curve with a constant curvature and torsion, to a -- apparently -- single component normal to the curve that is a symmetrization of the classical expression plus a quantum term. All the above quantities are then derived for the specific case of a particle confined to a cylindrical helix embedded in 3D space.
翻訳日:2024-01-25 13:44:29 公開日:2024-01-24
# 深層強化学習における政策勾配決定ガイド:理論・アルゴリズム・実装

The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations ( http://arxiv.org/abs/2401.13662v1 )

ライセンス: Link先を確認
Matthias Lehmann(参考訳) 近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。 これらのアルゴリズムはすべてポリシー勾配定理に基づいているが、特定の設計選択はアルゴリズムによって大きく異なる。 本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オンライン政策勾配アルゴリズムの概要について述べる。 本稿では,ポリシー勾配定理の連続バージョン,収束結果,実用的なアルゴリズムに関する包括的議論について詳細に述べる。 最も著名なアルゴリズムを連続制御環境で比較し、正規化の利点についての洞察を提供する。 すべてのコードはhttps://github.com/Matt00n/PolicyGradientsJaxで入手できる。

In recent years, various powerful policy gradient algorithms have been proposed in deep reinforcement learning. While all these algorithms build on the Policy Gradient Theorem, the specific design choices differ significantly across algorithms. We provide a holistic overview of on-policy policy gradient algorithms to facilitate the understanding of both their theoretical foundations and their practical implementations. In this overview, we include a detailed proof of the continuous version of the Policy Gradient Theorem, convergence results and a comprehensive discussion of practical algorithms. We compare the most prominent algorithms on continuous control environments and provide insights on the benefits of regularization. All code is available at https://github.com/Matt00n/PolicyGradientsJax.
翻訳日:2024-01-25 13:44:02 公開日:2024-01-24
# mambabyte:トークンフリーの選択的状態空間モデル

MambaByte: Token-free Selective State Space Model ( http://arxiv.org/abs/2401.13660v1 )

ライセンス: Link先を確認
Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M Rush(参考訳) トークンフリー言語モデルは生のバイトから直接学習し、サブワードのトークン化のバイアスを取り除く。 しかし、バイトを動作させるとシーケンスがかなり長くなり、標準の自己回帰トランスフォーマーはそのような設定ではスケールが悪くなります。 我々は,Mamba状態空間モデルのトークンフリー適応であるMambaByteを,バイト列上で自己回帰的に訓練した。 実験では,mambabyteの計算効率を他のバイト単位モデルと比較した。 また、MambaByteは最先端のサブワードトランスフォーマーよりも優れています。 さらに、長さの線形スケーリングのため、mambabyteはトランスフォーマーに比べて高速推論の利点がある。 トークンフリーな言語モデリングを実現する上で,mambabyteが有効であることを示す。

Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
翻訳日:2024-01-25 13:43:51 公開日:2024-01-24
# 光ツイーザにおける分子のサイト選択的調製と多状態読み出し

Site-selective preparation and multi-state readout of molecules in optical tweezers ( http://arxiv.org/abs/2401.13659v1 )

ライセンス: Link先を確認
Lewis R. B. Picard, Gabriel E. Patenotte, Annie J. Park, Samuel F. Gebretsadkan, Kang-Kuen Ni(参考訳) 極性分子は、コヒーレントに制御できる豊富な内部構造を持つ量子資源である。 しかし、この構造は、分子の状態準備と測定(SPAM)を困難にしている。 我々は、光学トウェザアレイに閉じ込められた構成原子から組み立てられた個々の分子のスパムを進行させる。 NaCs分子を持たない部位は高忠実度Cs原子検出により除去され、配列の3倍のピーク分子充填率を増加させる。 我々は、光ツイーザからの差分交流スタークシフトに敏感な回転量子ビット部分空間において、アレイをサイト選択的に初期化する。 最後に, 逐次状態選択解離後の原子イメージングにより, 実験サイクル毎に複数の回転状態を検出する。 これらのデモンストレーションは、量子情報、シミュレーション、および気象学のための分子のSPAM能力を拡張する。

Polar molecules are a quantum resource with rich internal structure that can be coherently controlled. The structure, however, also makes the state preparation and measurement (SPAM) of molecules challenging. We advance the SPAM of individual molecules assembled from constituent atoms trapped in optical tweezer arrays. Sites without NaCs molecules are eliminated using high-fidelity Cs atom detection, increasing the peak molecule filling fraction of the array threefold. We site-selectively initialize the array in a rotational qubit subspace that is insensitive to differential AC Stark shifts from the optical tweezer. Lastly, we detect multiple rotational states per experimental cycle by imaging atoms after sequential state-selective dissociations. These demonstrations extend the SPAM capabilities of molecules for quantum information, simulation, and metrology.
翻訳日:2024-01-25 13:43:40 公開日:2024-01-24
# 量子センシング:古典的な精度限界を超えて

Quantum sensing: Beyond the classical limits of precision ( http://arxiv.org/abs/2401.13658v1 )

ライセンス: Link先を確認
Luiz Davidovich(参考訳) 量子センサーは、古典的な戦略で得られるものよりも精度の高いパラメータの推定を可能にする。 量子物理学に基づく装置は、重力場の正確な推定、脳の詳細なイメージング、4億光年以上離れた重力波源の検出、時間の測定における精度の向上を可能にした。 これらすべてのデバイスを包含する概念的フレームワークである量子メロジ(Quantum metrology)について概説し、ノイズシステムに関する最近の結果を強調した。

Quantum sensors allow the estimation of parameters with precision higher than that obtained with classical strategies. Devices based on quantum physics have allowed the precise estimation of the gravitational field, the detailed imaging of the brain, the detection of gravitational-wave sources more than 400 million light years away, and an ever-increasing precision in the measurement of time. Quantum metrology, which is the conceptual framework that encompasses all these devices, is reviewed here, emphasizing recent results regarding noisy systems.
翻訳日:2024-01-25 13:43:29 公開日:2024-01-24
# 信頼性決定支援のための共通確率ニューラルネットワークの不適切性

Inadequacy of common stochastic neural networks for reliable clinical decision support ( http://arxiv.org/abs/2401.13657v1 )

ライセンス: Link先を確認
Adrian Lindenmeyer, Malte Blattmann, Stefan Franke, Thomas Neumuth, Daniel Schneider(参考訳) 医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。 医療設定におけるAIベースの意思決定支援システムでは、信頼性と信頼性が最優先される。 しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。 このような証拠に基づくシナリオを超えた不適切な外挿は、恐ろしい結果をもたらす可能性がある。 このことは、ローカル不確実性の信頼性評価の重要性とエンドユーザへのコミュニケーションを強調している。 確率的ニューラルネットワークはこれらの問題の潜在的な解決策として評価されてきたが,本研究は臨床応用における実際の信頼性について検討する。 MIMIC3によるEHRを用いたICU入院患者の死亡予測の例を中心に分析を行った。 EHR時系列の予測にはEncoder-Only Transformerモデルが採用された。 モデル関数の確率性は、ベイズニューラルネットワーク層やモデルアンサンブルのような一般的な手法を取り入れることで達成された。 判別性能 (AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) と, 死亡予測ベンチマークのキャリブレーションについて検討した。 しかし,確率的深層学習法は認識的不確かさを過小評価している。 後方分布の責任崩壊のヒューリスティックな証明を提供する。 以上の結果から,一般の確率的深層学習手法ではoodサンプルを確実に認識できないことが明らかとなった。 両方法とも, 機能的後肢のバイアスが強いため, 信頼性の低いモデル信頼性が防止され, 信頼性の高い臨床診断支援には不適当である。 これは、カーネルベースの技術を使った既知のデータポイントに対して、より厳密な強制または固有の距離認識のアプローチの必要性を強調している。

Widespread adoption of AI for medical decision making is still hindered due to ethical and safety-related concerns. For AI-based decision support systems in healthcare settings it is paramount to be reliable and trustworthy. Common deep learning approaches, however, have the tendency towards overconfidence under data shift. Such inappropriate extrapolation beyond evidence-based scenarios may have dire consequences. This highlights the importance of reliable estimation of local uncertainty and its communication to the end user. While stochastic neural networks have been heralded as a potential solution to these issues, this study investigates their actual reliability in clinical applications. We centered our analysis on the exemplary use case of mortality prediction for ICU hospitalizations using EHR from MIMIC3 study. For predictions on the EHR time series, Encoder-Only Transformer models were employed. Stochasticity of model functions was achieved by incorporating common methods such as Bayesian neural network layers and model ensembles. Our models achieve state of the art performance in terms of discrimination performance (AUC ROC: 0.868+-0.011, AUC PR: 0.554+-0.034) and calibration on the mortality prediction benchmark. However, epistemic uncertainty is critically underestimated by the selected stochastic deep learning methods. A heuristic proof for the responsible collapse of the posterior distribution is provided. Our findings reveal the inadequacy of commonly used stochastic deep learning approaches to reliably recognize OoD samples. In both methods, unsubstantiated model confidence is not prevented due to strongly biased functional posteriors, rendering them inappropriate for reliable clinical decision support. This highlights the need for approaches with more strictly enforced or inherent distance-awareness to known data points, e.g., using kernel-based techniques.
翻訳日:2024-01-25 13:43:21 公開日:2024-01-24
# redditの政治コンパスによる多次元イデオロギーのナビゲート:経済的対立と社会的親和性

Navigating Multidimensional Ideologies with Reddit's Political Compass: Economic Conflict and Social Affinity ( http://arxiv.org/abs/2401.13656v1 )

ライセンス: Link先を確認
Ernesto Colacrai, Federico Cinus, Gianmarco De Francisci Morales, Michele Starnini(参考訳) 意見のダイナミクスに関する定量的研究における一般的な視点は、オンライン政治談話の風景を伝統的な左派分裂へとフラットにする。 このアプローチは分析とモデリングの作業を単純化するのに役立つが、本質的な多次元イデオロギーの豊かさも無視する。 本研究では,多次元イデオロギーの枠組みである政治コンパスのレンズの下で,Reddit上の社会的相互作用を分析する。 2020~2022年の間に、サブレディット/r/PoliticalCompassと/r/PoliticalCompassMemesに投稿された800万以上のコメントを調べます。 彼らの自己宣言を活用することで、ユーザのイデオロギー的な側面を、経済的(右派)と社会的(リバタリアン-権威主義)の軸に切り離します。 さらに,年齢,性別,豊かさなどの属性によってユーザを特徴付ける。 政治的コンパスと人口統計特性の社会的軸に沿った相互作用に対する重要なホモフィリーを見いだす。 nullモデルと比較して、同様のイデオロギーの個人間の相互作用は、期待を6%上回った。 対照的に、左/右相互作用は期待を10%上回るという、経済軸に沿った大きな異質性を明らかにする。 さらに、ヘテロ親和性相互作用は、全ての反対イデオロギー間の矛盾した会話を示唆するホモ親和性相互作用よりも高い言語毒性によって特徴づけられる。 本研究は, オンライン政治議論において, 相同性および異性間の相互作用が重なり合うことを発見した最近の文献において, 明らかな矛盾を和らげる助けとなる。 このような相互作用を経済や社会の軸に遠ざけることで、ソーシャルメディア上での意見のダイナミクスをより深く理解する道を開く。

The prevalent perspective in quantitative research on opinion dynamics flattens the landscape of the online political discourse into a traditional left--right dichotomy. While this approach helps simplify the analysis and modeling effort, it also neglects the intrinsic multidimensional richness of ideologies. In this study, we analyze social interactions on Reddit, under the lens of a multi-dimensional ideological framework: the political compass. We examine over 8 million comments posted on the subreddits /r/PoliticalCompass and /r/PoliticalCompassMemes during 2020--2022. By leveraging their self-declarations, we disentangle the ideological dimensions of users into economic (left--right) and social (libertarian--authoritarian) axes. In addition, we characterize users by their demographic attributes (age, gender, and affluence). We find significant homophily for interactions along the social axis of the political compass and demographic attributes. Compared to a null model, interactions among individuals of similar ideology surpass expectations by 6%. In contrast, we uncover a significant heterophily along the economic axis: left/right interactions exceed expectations by 10%. Furthermore, heterophilic interactions are characterized by a higher language toxicity than homophilic interactions, which hints at a conflictual discourse between every opposite ideology. Our results help reconcile apparent contradictions in recent literature, which found a superposition of homophilic and heterophilic interactions in online political discussions. By disentangling such interactions into the economic and social axes we pave the way for a deeper understanding of opinion dynamics on social media.
翻訳日:2024-01-25 13:42:56 公開日:2024-01-24
# スパースグリッド型不連続検出のためのグラフインフォームニューラルネットワーク

Graph-Informed Neural Networks for Sparse Grid-Based Discontinuity Detectors ( http://arxiv.org/abs/2401.13652v1 )

ライセンス: Link先を確認
Francesco Della Santa and Sandra Pieraccini(参考訳) 本稿では,不連続関数の不連続界面を検出するための新しい手法を提案する。 このアプローチでは、グラフインフォームドニューラルネットワーク(GINN)とスパースグリッドを利用して、3より大きい次元の領域でも不連続検出に対処する。 スパースグリッド上の問題点を特定するために訓練されたGINNは、グリッド上に構築されたグラフ構造を利用して、効率的で正確な不連続検出性能を実現する。 また,一般のスパースグリッド型検出器に対する再帰的アルゴリズムを導入し,収束特性と容易な適用性に特徴付ける。 次元 n = 2 および n = 4 の関数に関する数値実験は、不連続界面の検出における GINN の効率性とロバストな一般化を示す。 特に、訓練されたギンはポータビリティと汎用性を提供し、様々なアルゴリズムへの統合とユーザ間の共有を可能にする。

In this paper, we present a novel approach for detecting the discontinuity interfaces of a discontinuous function. This approach leverages Graph-Informed Neural Networks (GINNs) and sparse grids to address discontinuity detection also in domains of dimension larger than 3. GINNs, trained to identify troubled points on sparse grids, exploit graph structures built on the grids to achieve efficient and accurate discontinuity detection performances. We also introduce a recursive algorithm for general sparse grid-based detectors, characterized by convergence properties and easy applicability. Numerical experiments on functions with dimensions n = 2 and n = 4 demonstrate the efficiency and robust generalization of GINNs in detecting discontinuity interfaces. Notably, the trained GINNs offer portability and versatility, allowing integration into various algorithms and sharing among users.
翻訳日:2024-01-25 13:42:30 公開日:2024-01-24
# tyche: 医学画像分割のための確率的文脈学習

Tyche: Stochastic In-Context Learning for Medical Image Segmentation ( http://arxiv.org/abs/2401.13650v1 )

ライセンス: Link先を確認
Marianne Rakic, Hallee E. Wong, Jose Javier Gonzalez Ortiz, Beth Cimini, John Guttag and Adrian V. Dalca(参考訳) 既存の医用画像セグメンテーションに対する学習ベースのソリューションには2つの重要な欠点がある。 まず、ほとんどの新しいセグメンテーションタスクでは、新しいモデルをトレーニングまたは微調整する必要がある。 これは膨大なリソースと機械学習の専門知識を必要とするため、医学研究者や臨床医には利用できないことが多い。 第二に、既存のセグメンテーション手法は、与えられた画像に対して単一の決定論的セグメンテーションマスクを生成する。 しかし実際には、何が正しいセグメンテーションを構成するかについてはかなり不確実性があることが多く、異なる専門家アノテータは、しばしば同じ画像を異なる方法でセグメンテーションする。 我々はこれら2つの問題にTycheを用いて対処する。Tycheはコンテキストセットを使用して、以前に見つからなかったタスクの確率的予測を生成する。 ティッシュは他の文脈内セグメンテーション法と2つの重要な方法で異なる。 1)予測間の相互作用を可能にする新しい畳み込みブロックアーキテクチャを提案する。 2) 予測確率性を提供する新しいメカニズムであるインコンテキストテスト時間拡張を導入する。 適切なモデル設計と損失関数とを組み合わせることで、tycheは再トレーニングする必要なしに、新しいまたは未発見の医療画像とセグメント化タスクの多様なセグメンテーション候補のセットを予測できる。

Existing learning-based solutions to medical image segmentation have two important shortcomings. First, for most new segmentation task, a new model has to be trained or fine-tuned. This requires extensive resources and machine learning expertise, and is therefore often infeasible for medical researchers and clinicians. Second, most existing segmentation methods produce a single deterministic segmentation mask for a given image. In practice however, there is often considerable uncertainty about what constitutes the correct segmentation, and different expert annotators will often segment the same image differently. We tackle both of these problems with Tyche, a model that uses a context set to generate stochastic predictions for previously unseen tasks without the need to retrain. Tyche differs from other in-context segmentation methods in two important ways. (1) We introduce a novel convolution block architecture that enables interactions among predictions. (2) We introduce in-context test-time augmentation, a new mechanism to provide prediction stochasticity. When combined with appropriate model design and loss functions, Tyche can predict a set of plausible diverse segmentation candidates for new or unseen medical images and segmentation tasks without the need to retrain.
翻訳日:2024-01-25 13:42:17 公開日:2024-01-24
# VisualWebArena: リアルなビジュアルWebタスク上でのマルチモーダルエージェントの評価

VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks ( http://arxiv.org/abs/2401.13649v1 )

ライセンス: Link先を確認
Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried(参考訳) ウェブ上での行動計画、推論、実行が可能な自律エージェントは、コンピュータタスクの自動化に有望な道を提供する。 しかし、既存のベンチマークのほとんどはテキストベースのエージェントに重点を置いており、視覚情報を必要とする多くの自然なタスクを無視している。 ほとんどのコンピュータインタフェースが人間の知覚に適応していることを考えると、視覚情報はしばしばテキストのみのモデルが効果的に利用するのに苦労している方法でテキストデータを強化する。 このギャップを埋めるため、現実的な \textit{visually grounded task} 上でマルチモーダルな Web エージェントのパフォーマンスを評価するために設計されたベンチマークである VisualWebArena を紹介した。 VisualWebArenaは、多種多様なWebベースのタスクで構成され、自律マルチモーダルエージェントの様々な機能を評価する。 このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。 我々は複数のマルチモーダルモデルを含む最先端llmベースの自律エージェントを広範囲に評価する。 広範に定量化および定性的分析を行い、テキストのみのLLMエージェントのいくつかの制限を特定し、最先端のマルチモーダル言語エージェントの能力のギャップを明らかにする。 visualwebarenaはマルチモーダルな自律型言語エージェントを評価するためのフレームワークを提供し、webのための強力な自律型エージェントを構築するための洞察を提供する。 私たちのコード、ベースラインモデル、データはhttps://jykoh.com/vwa.comで公開されています。

Autonomous agents capable of planning, reasoning, and executing actions on the web offer a promising avenue for automating computer tasks. However, the majority of existing benchmarks primarily focus on text-based agents, neglecting many natural tasks that require visual information to effectively solve. Given that most computer interfaces cater to human perception, visual information often augments textual data in ways that text-only models struggle to harness effectively. To bridge this gap, we introduce VisualWebArena, a benchmark designed to assess the performance of multimodal web agents on realistic \textit{visually grounded tasks}. VisualWebArena comprises of a set of diverse and complex web-based tasks that evaluate various capabilities of autonomous multimodal agents. To perform on this benchmark, agents need to accurately process image-text inputs, interpret natural language instructions, and execute actions on websites to accomplish user-defined objectives. We conduct an extensive evaluation of state-of-the-art LLM-based autonomous agents, including several multimodal models. Through extensive quantitative and qualitative analysis, we identify several limitations of text-only LLM agents, and reveal gaps in the capabilities of state-of-the-art multimodal language agents. VisualWebArena provides a framework for evaluating multimodal autonomous language agents, and offers insights towards building stronger autonomous agents for the web. Our code, baseline models, and data is publicly available at https://jykoh.com/vwa.
翻訳日:2024-01-25 13:42:01 公開日:2024-01-24
# Face BiometricsのChatGPTはどれくらい良いか? 音声認識, ソフトバイオメトリックス, 説明可能性に関する一考察

How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability ( http://arxiv.org/abs/2401.13641v1 )

ライセンス: Link先を確認
Ivan DeAndres-Tame, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia(参考訳) OpenAI が開発した GPT などの大規模言語モデル (LLM) は,すでに驚くべき結果を示し,社会の急速な変化をもたらした。 これは chatgpt のリリースによって強化され、この分野の経験を一切必要とせずに、誰でも簡単に llms と会話できるようになっている。 その結果、chatgptは、コードやソングライター、教育、バーチャルアシスタントなど、多くの異なるタスクに急速に適用され、訓練を受けていないタスク(ゼロショット学習)の印象的な結果を示している。 本研究の目的は,顔バイオメトリクスの課題に対する最近のGPT-4マルチモーダルLCMに基づくChatGPTの能力を探ることである。 特に,ChatGPTの顔認証,ソフトバイオメトリックス推定,結果の説明可能性などのタスクの実行能力を分析した。 チャットGPTは、人間のシナリオにおける自動決定の説明可能性と透明性をさらに高めるために非常に有用である。 実験はChatGPTの性能とロバスト性を評価するため,一般的なベンチマークを用いて実験を行い,その結果を現場における最先端の手法と比較した。 本研究で得られた結果は, 顔バイオメトリックス, 特に説明可能性を高めるために, ChatGPT などの LLM の可能性を示している。 再現性のために、すべてのコードをgithubにリリースします。

Large Language Models (LLMs) such as GPT developed by OpenAI, have already shown astonishing results, introducing quick changes in our society. This has been intensified by the release of ChatGPT which allows anyone to interact in a simple conversational way with LLMs, without any experience in the field needed. As a result, ChatGPT has been rapidly applied to many different tasks such as code- and song-writer, education, virtual assistants, etc., showing impressive results for tasks for which it was not trained (zero-shot learning). The present study aims to explore the ability of ChatGPT, based on the recent GPT-4 multimodal LLM, for the task of face biometrics. In particular, we analyze the ability of ChatGPT to perform tasks such as face verification, soft-biometrics estimation, and explainability of the results. ChatGPT could be very valuable to further increase the explainability and transparency of the automatic decisions in human scenarios. Experiments are carried out in order to evaluate the performance and robustness of ChatGPT, using popular public benchmarks and comparing the results with state-of-the-art methods in the field. The results achieved in this study show the potential of LLMs such as ChatGPT for face biometrics, especially to enhance explainability. For reproducibility reasons, we release all the code in GitHub.
翻訳日:2024-01-25 13:41:38 公開日:2024-01-24
# 固有状態熱化仮説からのカオスの尺度

A measure of chaos from eigenstate thermalization hypothesis ( http://arxiv.org/abs/2401.13633v1 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 固有状態熱化仮説は、カオスハミルトニアンのエネルギー固有基底における少数体作用素の行列要素の詳細な記述である。 声明の一部では、オフ対角要素は大きなエネルギー差のために指数関数的に低下する。 指数(\gamma>0$)は量子カオスの尺度である。 より小さい$\gamma$はよりカオス的なダイナミクスを意味する。 カオス境界は$\gamma=\beta/4$で与えられるが、ここで$\beta$は逆温度である。 我々はこの提案を支持する分析的な議論を行う。 緩やかな指数降下は、状態に対する作用素の作用がエネルギー固有値の非局在化を高めることを意味する。 数値的には、2つのカオスハミルトンモデル、SYKモデルとカオスXXZスピンチェーンを比較する。 新しい測定値を用いて,SYKモデルが低温下で最大カオスとなり,従来より厳密に示されていた。 新しい測度は、数値的な方法を用いた他の測度と比較して、より容易に利用できる。

Eigenstate thermalization hypothesis is a detailed statement of the matrix elements of few-body operators in energy eigenbasis of a chaotic Hamiltonian. Part of the statement is that the off-diagonal elements fall exponential for large energy difference. We propose that the exponent ($\gamma>0$) is a measure of quantum chaos. Smaller $\gamma$ implies more chaotic dynamics. The chaos bound is given by $\gamma=\beta/4$ where $\beta$ is the inverse temperature. We give analytical argument in support of this proposal. The slower exponential fall also means that the action of the operator on a state leads to higher delocalization in energy eigenbasis. Numerically we compare two chaotic Hamiltonians - SYK model and chaotic XXZ spin chain. Using the new measure, we find that the SYK model becomes maximally chaotic at low temperature which has been shown rigorously in previous works. The new measure is more readily accessible compare to other measures using numerical methods.
翻訳日:2024-01-25 13:41:15 公開日:2024-01-24
# マルチモーダルな誤情報検出:アプローチ,課題,機会

Multi-modal Misinformation Detection: Approaches, Challenges and Opportunities ( http://arxiv.org/abs/2203.13883v5 )

ライセンス: Link先を確認
Sara Abdali, Sina shaham, Bhaskar Krishnamachari(参考訳) ソーシャルメディアプラットフォームがテキストベースのフォーラムからマルチモーダル環境へと進化するにつれ、ソーシャルメディアにおける誤情報の性質も変化している。 画像やビデオなどの視覚的モダリティがユーザにとってより好適で魅力的であり、テキストの内容が不注意にスキミングされることがあるという事実を生かして、誤情報のスプレッダーは、最近、テキストや画像などのモダリティ間のコンテキスト的接続を標的にしてきた。 したがって、多くの研究者がウェブベースのコンテンツのクロスモーダルな不一致を検出する自動技術を開発した。 我々は,マルチモーダル誤情報検出の分野における新たな研究機会を明らかにするため,課題や欠点に加えて,既存のアプローチを分析し,分類し,識別する。

As social media platforms are evolving from text-based forums into multi-modal environments, the nature of misinformation in social media is also transforming accordingly. Taking advantage of the fact that visual modalities such as images and videos are more favorable and attractive to the users and textual contents are sometimes skimmed carelessly, misinformation spreaders have recently targeted contextual connections between the modalities e.g., text and image. Hence many researchers have developed automatic techniques for detecting possible cross-modal discordance in web-based content. We analyze, categorize and identify existing approaches in addition to challenges and shortcomings they face in order to unearth new research opportunities in the field of multi-modal misinformation detection.
翻訳日:2024-01-25 11:56:59 公開日:2024-01-24
# Knapsacks を用いた MNL-Bandit 近似アルゴリズム

MNL-Bandit with Knapsacks: a near-optimal algorithm ( http://arxiv.org/abs/2106.01135v5 )

ライセンス: Link先を確認
Abdellah Aznag, Vineet Goyal and Noemie Perivier(参考訳) 販売者がN$の代替品の在庫を固定し、T$の期間に順次届く未知の需要に直面している場合の動的品揃え選択問題を考える。 各期間において、売り手は顧客に提供する製品の品揃え(一定の制約を満たす)を決定する必要がある。 顧客の応答は、パラメータ$\boldsymbol{v}$を持つ未知の多項ロジットモデル(mnl)に従っている。 顧客が商品$i \in [N]$を選択すると、売り手は収入$r_i$を受け取る。 販売者の目標は、n$製品の初期在庫が固定された場合、t$顧客から期待される総売上を最大化することである。 UCBに基づくアルゴリズムであるMNLwK-UCBを提案する。 MNLwK-UCB は、在庫規模が時間的に準直線的に大きくなると、$\tilde{O}(N + \sqrt{NT})$ regret bound が得られる。 また、より小さな在庫(成長$\sim T^{\alpha}$, $\alpha < 1$)の場合、MNLwK-UCB は $\tilde{O}(N(1 + T^{\frac{1 - \alpha}{2}}) + \sqrt{NT})$ を達成する。 特に、長い時間的地平線において、$\tilde{O}(\sqrt{NT})$ は在庫の制約や大きさに関わらず常に達成される。

We consider a dynamic assortment selection problem where a seller has a fixed inventory of $N$ substitutable products and faces an unknown demand that arrives sequentially over $T$ periods. In each period, the seller needs to decide on the assortment of products (satisfying certain constraints) to offer to the customers. The customer's response follows an unknown multinomial logit model (MNL) with parameter $\boldsymbol{v}$. If customer selects product $i \in [N]$, the seller receives revenue $r_i$. The goal of the seller is to maximize the total expected revenue from the $T$ customers given the fixed initial inventory of $N$ products. We present MNLwK-UCB, a UCB-based algorithm and characterize its regret under different regimes of inventory size. We show that when the inventory size grows quasi-linearly in time, MNLwK-UCB achieves a $\tilde{O}(N + \sqrt{NT})$ regret bound. We also show that for a smaller inventory (with growth $\sim T^{\alpha}$, $\alpha < 1$), MNLwK-UCB achieves a $\tilde{O}(N(1 + T^{\frac{1 - \alpha}{2}}) + \sqrt{NT})$. In particular, over a long time horizon $T$, the rate $\tilde{O}(\sqrt{NT})$ is always achieved regardless of the constraints and the size of the inventory.
翻訳日:2024-01-25 11:56:42 公開日:2024-01-24
# 遅延コスト集約によるマルチビューステレオの強化

Boosting Multi-view Stereo with Late Cost Aggregation ( http://arxiv.org/abs/2401.11751v2 )

ライセンス: Link先を確認
Jiang Wu, Rui Li, Yu Zhu, Wenxun Zhao, Jinqiu Sun, Yanning Zhang(参考訳) ペアワイズマッチングコストアグリゲーションは、現代の学習ベースのマルチビューステレオ(mvs)にとって重要なステップである。 以前の作業では初期集約方式を採用しており、中間コストに対価を加算する。 しかし,このプロセスは,情報付きペアワイズマッチングを劣化させ,奥行きネットワークが元の幾何学的マッチングの手がかりを十分に活用しないことを解析する。 この課題に対処するために、ネットワークフィードフォワードプロセス全体を通してペアワイズコストを集約し、通常のCasMVSNetのわずかな変更だけで正確な推定を行う、遅延集約アプローチを提案する。 重み付けによる中間コストを構築する代わりに、遅延集約は、異なるビューチャネルに沿って、すべてのペアワイズコストを保存する。 これにより、後続の深度ネットワークは、コストの忠実さを失うことなく重要な幾何学的手がかりを完全に活用することができる。 新たなアグリゲーション方式を基礎として,保存コスト内でのビューオーダー依存性の解決,フレキシブルなテストビューの処理,深度フィルタリングプロセスの改善などを提案する。 その技術的単純さにもかかわらず、本手法はベースラインのカスケードベースアプローチにより大幅に改善され、計算オーバーヘッドが良好な最先端メソッドと同等の結果が得られる。

Pairwise matching cost aggregation is a crucial step for modern learning-based Multi-view Stereo (MVS). Prior works adopt an early aggregation scheme, which adds up pairwise costs into an intermediate cost. However, we analyze that this process can degrade informative pairwise matchings, thereby blocking the depth network from fully utilizing the original geometric matching cues. To address this challenge, we present a late aggregation approach that allows for aggregating pairwise costs throughout the network feed-forward process, achieving accurate estimations with only minor changes of the plain CasMVSNet. Instead of building an intermediate cost by weighted sum, late aggregation preserves all pairwise costs along a distinct view channel. This enables the succeeding depth network to fully utilize the crucial geometric cues without loss of cost fidelity. Grounded in the new aggregation scheme, we propose further techniques addressing view order dependence inside the preserved cost, handling flexible testing views, and improving the depth filtering process. Despite its technical simplicity, our method improves significantly upon the baseline cascade-based approach, achieving comparable results with state-of-the-art methods with favorable computation overhead.
翻訳日:2024-01-25 11:53:29 公開日:2024-01-24
# 階層的正規化を伴うマルチモーダル・コントラスト EHR モデルによる次回の来院診断予測

Next Visit Diagnosis Prediction via Medical Code-Centric Multimodal Contrastive EHR Modelling with Hierarchical Regularisation ( http://arxiv.org/abs/2401.11648v2 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) エレクトロニック・ヘルス・レコード(EHR)を用いた次の来院診断の予測は、医療機関と患者双方の積極的な将来の計画策定に不可欠である。 しかしながら、多くの先行研究は、EHRデータに固有の不均一性や階層性に十分対応していない。 そこで我々は, 階層的正規化を伴う新しい医用コード中心マルチモーダルコントラスト学習フレームワークであるNECHOを提案する。 まず, 医用コード, 人口統計, 臨床ノートを含む多面的情報を, 整形ネットワーク設計と両モードのコントラスト的損失のペアを用いて統合し, すべて医療用コード表現を中心に展開する。 EHRデータの階層構造を学習するために、医療オントロジーにおける親レベル情報を用いてモダリティ固有のエンコーダを規則化する。 MIMIC-IIIデータの一連の実験により,本手法の有効性が示された。

Predicting next visit diagnosis using Electronic Health Records (EHR) is an essential task in healthcare, critical for devising proactive future plans for both healthcare providers and patients. Nonetheless, many preceding studies have not sufficiently addressed the heterogeneous and hierarchical characteristics inherent in EHR data, inevitably leading to sub-optimal performance. To this end, we propose NECHO, a novel medical code-centric multimodal contrastive EHR learning framework with hierarchical regularisation. First, we integrate multifaceted information encompassing medical codes, demographics, and clinical notes using a tailored network design and a pair of bimodal contrastive losses, all of which pivot around a medical code representation. We also regularise modality-specific encoders using a parental level information in medical ontology to learn hierarchical structure of EHR data. A series of experiments on MIMIC-III data demonstrates effectiveness of our approach.
翻訳日:2024-01-25 11:52:59 公開日:2024-01-24
# MotionMix:制御可能なモーション生成のための弱スーパービジョン拡散

MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation ( http://arxiv.org/abs/2401.11115v3 )

ライセンス: Link先を確認
Nhat M. Hoang, Kehong Gong, Chuan Guo, Michael Bi Mi(参考訳) 世界がデジタルトランスフォーメーションを受け入れるにつれ、制御可能な3次元人間の動きの生成は重要なトピックとなる。 拡散モデルの登場で有望な進展を遂げた既存の作品は、実世界のリソース集約的な取り組みである、細心の注意深いキャプチャーと注釈付き(テキストなど)の高品質モーションコーパスに大きく依存している。 提案するモーションミックスは,ノイズと無意味な動き列を併用した,単純かつ効果的な弱教師付き拡散モデルである。 具体的には, 初期$t-t^*$ ステップにおける条件付き粗動近似を得るには, 雑音アノテートされた動きを学習し, 最終$t^*$ ステップの条件付き粗動近似を得る。 特に、2つの不完全なデータソースから学習するが、我々のモデルは、ゴールドデータにアクセスする完全に教師されたアプローチに比べて、動きの生成品質を損なうことはない。 いくつかのベンチマークにおいて、MotionMixは多機能なフレームワークであり、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成している。 プロジェクトページ: https://nhathoang2002.github.io/motionmix-page/

Controllable generation of 3D human motions becomes an important topic as the world embraces digital transformation. Existing works, though making promising progress with the advent of diffusion models, heavily rely on meticulously captured and annotated (e.g., text) high-quality motion corpus, a resource-intensive endeavor in the real world. This motivates our proposed MotionMix, a simple yet effective weakly-supervised diffusion model that leverages both noisy and unannotated motion sequences. Specifically, we separate the denoising objectives of a diffusion model into two stages: obtaining conditional rough motion approximations in the initial $T-T^*$ steps by learning the noisy annotated motions, followed by the unconditional refinement of these preliminary motions during the last $T^*$ steps using unannotated motions. Notably, though learning from two sources of imperfect data, our model does not compromise motion generation quality compared to fully supervised approaches that access gold data. Extensive experiments on several benchmarks demonstrate that our MotionMix, as a versatile framework, consistently achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks. Project page: https://nhathoang2002.github.io/MotionMix-page/
翻訳日:2024-01-25 11:52:17 公開日:2024-01-24
# 学習支援確率的容量拡張計画:ベイズ最適化アプローチ

Learning-assisted Stochastic Capacity Expansion Planning: A Bayesian Optimization Approach ( http://arxiv.org/abs/2401.10451v3 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Dharik Mallapragada, Saurabh Amin(参考訳) 大規模容量拡大問題(CEP)の解決は、地域規模のエネルギーシステムのコスト効率の高い脱炭の中心である。 CEPの意図した結果を保証するため、気象に依存した可変再生可能エネルギー(VRE)の供給とエネルギー需要による不確実性をモデル化することが重要である。 しかし、結果として得られる確率的最適化モデルは、しばしば決定論的モデルよりも計算的に扱いにくい。 本稿では,2段階確率CEPを抽出可能な学習支援近似解法を提案する。 提案手法は,時間的集約型サロゲート問題の構築と解決により,低コストな計画決定を識別する。 我々は,時系列集約ハイパーパラメータの空間を探索し,供給需要予測の検証セットのコストを最小化する近似解を計算するベイズ最適化手法を採用する。 重要な点として,解決された計画の成果を連続したテストプロジェクションで評価する。 我々は,ニューイングランドにまたがるジョイントパワーガスシステムの発電・送電拡張計画にアプローチを適用した。 本手法は,ベンチマーク時系列アグリゲーション手法と比較して,最大3.8%のコスト削減が期待できることを示す。

Solving large-scale capacity expansion problems (CEPs) is central to cost-effective decarbonization of regional-scale energy systems. To ensure the intended outcomes of CEPs, modeling uncertainty due to weather-dependent variable renewable energy (VRE) supply and energy demand becomes crucially important. However, the resulting stochastic optimization models are often less computationally tractable than their deterministic counterparts. Here, we propose a learning-assisted approximate solution method to tractably solve two-stage stochastic CEPs. Our method identifies low-cost planning decisions by constructing and solving a sequence of tractable temporally aggregated surrogate problems. We adopt a Bayesian optimization approach to searching the space of time series aggregation hyperparameters and compute approximate solutions that minimize costs on a validation set of supply-demand projections. Importantly, we evaluate solved planning outcomes on a held-out set of test projections. We apply our approach to generation and transmission expansion planning for a joint power-gas system spanning New England. We show that our approach yields an estimated cost savings of up to 3.8% in comparison to benchmark time series aggregation approaches.
翻訳日:2024-01-25 11:51:55 公開日:2024-01-24
# PatchAD: 時系列異常検出のためのパッチベースMLPミキサ

PatchAD: Patch-based MLP-Mixer for Time Series Anomaly Detection ( http://arxiv.org/abs/2401.09793v3 )

ライセンス: Link先を確認
Zhijie Zhong, Zhiwen Yu, Yiyuan Yang, Weizheng Wang, Kaixiang Yang(参考訳) 異常検出は時系列分析の重要な側面であり、時系列サンプルにおける異常事象の同定を目的としている。 このタスクの中心的な課題は、ラベルラッキングシナリオにおける正規および異常パターンの表現を効果的に学習することにある。 これまでの研究は主に復元に基づくアプローチに依存し、モデルの表現能力を制限していた。 さらに、現在のディープラーニングベースの手法のほとんどは十分に軽量ではないため、異常検出のためのより効率的なフレームワークを設計する必要がある。 本研究では,表現抽出と異常検出にコントラスト学習を利用するマルチスケールパッチベースmlp-mixerアーキテクチャであるpatchadを提案する。 具体的には、PatchADは4つの異なるMLPミキサーで構成されており、MLPアーキテクチャを高効率で軽量なアーキテクチャにのみ活用している。 さらに,潜在的なモデル劣化を軽減するために,2つの制約モジュールを革新的に開発した。 総合的な実験により、PatchADは複数の実世界の多変量時系列データセットにまたがって最先端の結果を達成する。 私たちのコードはhttps://github.com/EmorZz1G/PatchADで公開されています

Anomaly detection stands as a crucial aspect of time series analysis, aiming to identify abnormal events in time series samples. The central challenge of this task lies in effectively learning the representations of normal and abnormal patterns in a label-lacking scenario. Previous research mostly relied on reconstruction-based approaches, restricting the representational abilities of the models. In addition, most of the current deep learning-based methods are not lightweight enough, which prompts us to design a more efficient framework for anomaly detection. In this study, we introduce PatchAD, a novel multi-scale patch-based MLP-Mixer architecture that leverages contrastive learning for representational extraction and anomaly detection. Specifically, PatchAD is composed of four distinct MLP Mixers, exclusively utilizing the MLP architecture for high efficiency and lightweight architecture. Additionally, we also innovatively crafted a dual project constraint module to mitigate potential model degradation. Comprehensive experiments demonstrate that PatchAD achieves state-of-the-art results across multiple real-world multivariate time series datasets. Our code is publicly available https://github.com/EmorZz1G/PatchAD
翻訳日:2024-01-25 11:51:35 公開日:2024-01-24
# 学習勧告に関する学生の判断を支援する:会話説明可能性と指導のための知識グラフ型チャットボット

Supporting Student Decisions on Learning Recommendations: An LLM-Based Chatbot with Knowledge Graph Contextualization for Conversational Explainability and Mentoring ( http://arxiv.org/abs/2401.08517v3 )

ライセンス: Link先を確認
Hasan Abu-Rasheed, Mohamad Hussam Abdulsalam, Christian Weber, Madjid Fathi(参考訳) 学習推薦に対する学生のコミットメントは、それが推奨された理由やその理解に基づいてそれを修正できる能力についての理解とは分離できない。 説明可能性のアプローチの中で、チャットボットは、同僚やメンターとの議論と同様、会話で学生を巻き込む可能性を提供する。 しかし、生成型AI(GenAI)と大規模言語モデル(LLM)の進歩にもかかわらず、チャットボットの能力は人間のメンターを置き換えるには十分ではない。 そこで本稿では,チャットボットを会話の仲介者や限定的かつ制御された説明生成源として利用し,LLMの潜在能力を同時に獲得し,潜在的なリスクを低減させるアプローチを提案する。 提案するLLMベースのチャットボットは,学習パスレコメンデーションの理解を支援する。 我々は、知識グラフ(KG)を人間の情報ソースとして使用し、そのプロンプトのコンテキストを定義してLLMの出力を制御する。 グループチャットアプローチは、必要に応じて、あるいはチャットボットの予め定義されたタスクを超える場合に、学生と人間のメンターを結びつけるために開発された。 チャットボットをユーザ調査により評価し,概念実証を提供し,チャットボットを利用した会話説明可能性の潜在的要件と限界を強調する。

Student commitment towards a learning recommendation is not separable from their understanding of the reasons it was recommended to them; and their ability to modify it based on that understanding. Among explainability approaches, chatbots offer the potential to engage the student in a conversation, similar to a discussion with a peer or a mentor. The capabilities of chatbots, however, are still not sufficient to replace a human mentor, despite the advancements of generative AI (GenAI) and large language models (LLM). Therefore, we propose an approach to utilize chatbots as mediators of the conversation and sources of limited and controlled generation of explanations, to harvest the potential of LLMs while reducing their potential risks at the same time. The proposed LLM-based chatbot supports students in understanding learning-paths recommendations. We use a knowledge graph (KG) as a human-curated source of information, to regulate the LLM's output through defining its prompt's context. A group chat approach is developed to connect students with human mentors, either on demand or in cases that exceed the chatbot's pre-defined tasks. We evaluate the chatbot with a user study, to provide a proof-of-concept and highlight the potential requirements and limitations of utilizing chatbots in conversational explainability.
翻訳日:2024-01-25 11:51:18 公開日:2024-01-24
# 自動運転におけるオープンソースデータエコシステムの現状と将来

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future ( http://arxiv.org/abs/2312.03408v3 )

ライセンス: Link先を確認
Hongyang Li and Yang Li and Huijie Wang and Jia Zeng and Huilin Xu and Pinlong Cai and Li Chen and Junchi Yan and Feng Xu and Lu Xiong and Jingdong Wang and Futang Zhu and Kai Yan and Chunjing Xu and Tiancai Wang and Fei Xia and Beipeng Mu and Zhihui Peng and Dahua Lin and Yu Qiao(参考訳) 自動運転技術の継続的な成熟と応用により、オープンソースの自動運転データセットを体系的に検討することで、業界エコシステムの堅牢な進化を育むことができる。 現在の自動運転データセットは、広く2世代に分類できる。 第1世代の自動運転データセットは、センサーモダリティが比較的シンプルで、データスケールが小さく、知覚レベルのタスクに限定されている。 2012年に導入されたkittiは、この最初の波の顕著な代表である。 対照的に、第2世代のデータセットは、センサーのモダリティの増大、データスケールと多様性の増大、および予測と制御を包含する知覚からのタスクの拡張を示す。 第2世代の代表的な例として、2019年頃に導入されたnuScenesとWaymoがある。 この包括的なレビューは、学界と産業界の両方の同僚と共同で行われ、国内外の70以上のオープンソースの自動運転データセットを体系的に評価している。 高品質なデータセットの作成の基礎となる原則、データエンジンシステムの重要な役割、スケーラブルなデータ生成を容易にするための生成基盤モデルの利用など、さまざまな側面に対する洞察を提供する。 さらに、将来の第3世代自動運転データセットが持つべき特性とデータスケールについて、徹底的な分析と談話を行う。 また、解決を保障する科学的、技術的課題も検討している。 これらの取り組みは、自律的な革新を推進し、重要な領域における技術強化を促進する上で重要なものである。 詳細はhttps://github.com/opendrivelab/driveagiを参照。

With the continuous maturation and application of autonomous driving technology, a systematic examination of open-source autonomous driving datasets becomes instrumental in fostering the robust evolution of the industry ecosystem. Current autonomous driving datasets can broadly be categorized into two generations. The first-generation autonomous driving datasets are characterized by relatively simpler sensor modalities, smaller data scale, and is limited to perception-level tasks. KITTI, introduced in 2012, serves as a prominent representative of this initial wave. In contrast, the second-generation datasets exhibit heightened complexity in sensor modalities, greater data scale and diversity, and an expansion of tasks from perception to encompass prediction and control. Leading examples of the second generation include nuScenes and Waymo, introduced around 2019. This comprehensive review, conducted in collaboration with esteemed colleagues from both academia and industry, systematically assesses over seventy open-source autonomous driving datasets from domestic and international sources. It offers insights into various aspects, such as the principles underlying the creation of high-quality datasets, the pivotal role of data engine systems, and the utilization of generative foundation models to facilitate scalable data generation. Furthermore, this review undertakes an exhaustive analysis and discourse regarding the characteristics and data scales that future third-generation autonomous driving datasets should possess. It also delves into the scientific and technical challenges that warrant resolution. These endeavors are pivotal in advancing autonomous innovation and fostering technological enhancement in critical domains. For further details, please refer to https://github.com/OpenDriveLab/DriveAGI.
翻訳日:2024-01-25 11:50:55 公開日:2024-01-24
# Prompt-driven Nucleus Instance Segmentation のパワーを解放する

Unleashing the Power of Prompt-driven Nucleus Instance Segmentation ( http://arxiv.org/abs/2311.15939v4 )

ライセンス: Link先を確認
Zhongyi Shui and Yunlong Zhang and Kai Yao and Chenglu Zhu and Sunyi Zheng and Jingxiong Li and Honglin Li and Yuxuan Sun and Ruizhe Guo and Lin Yang(参考訳) 組織像における核インスタンスのセグメンテーションは、幅広い臨床応用に不可欠である。 現在の支配的アルゴリズムは核プロキシマップの回帰に依存する。 推定されたマップから核インスタンスを区別するには、エラーが発生しやすくパラメータに敏感な、注意深くキュレートされた後処理が必要である。 近年,Segment Anything Model (SAM) は医用画像のセグメンテーションに大きな注目を集めている。 それでも、核のインスタンスセグメンテーションに対するそのポテンシャルは、ほとんど未発見のままである。 本稿では, 自動核インスタンス分割のための核プロンプトとSAMから構成される新しいプロンプト駆動型フレームワークを提案する。 具体的には、SAMが微調整され、刺激された核の対応するマスクを出力している間、プロンプトは各核に対してユニークな点プロンプトを生成することを学習する。 さらに、重なり合う核を同定するモデルの能力を高めるために、隣接核を負のプロンプトとして含むことを提案する。 複雑な後処理がなければ,提案手法は3つの挑戦的ベンチマークに対して新しい最先端性能を設定できる。 コードは \url{github.com/windygoo/PromptNucSeg} で入手できる。

Nucleus instance segmentation in histology images is crucial for a broad spectrum of clinical applications. Current dominant algorithms rely on regression of nuclear proxy maps. Distinguishing nucleus instances from the estimated maps requires carefully curated post-processing, which is error-prone and parameter-sensitive. Recently, the Segment Anything Model (SAM) has earned huge attention in medical image segmentation, owing to its impressive generalization ability and promptable property. Nevertheless, its potential on nucleus instance segmentation remains largely underexplored. In this paper, we present a novel prompt-driven framework that consists of a nucleus prompter and SAM for automatic nucleus instance segmentation. Specifically, the prompter learns to generate a unique point prompt for each nucleus while the SAM is fine-tuned to output the corresponding mask for the prompted nucleus. Furthermore, we propose the inclusion of adjacent nuclei as negative prompts to enhance the model's capability to identify overlapping nuclei. Without complicated post-processing, our proposed method sets a new state-of-the-art performance on three challenging benchmarks. Code is available at \url{github.com/windygoo/PromptNucSeg}
翻訳日:2024-01-25 11:50:05 公開日:2024-01-24
# LLM系剤の高レベル挙動の形式的特定

Formally Specifying the High-Level Behavior of LLM-Based Agents ( http://arxiv.org/abs/2310.08535v3 )

ライセンス: Link先を確認
Maxwell Crouse, Ibrahim Abdelaziz, Ramon Astudillo, Kinjal Basu, Soham Dan, Sadhana Kumaravel, Achille Fokoue, Pavan Kapanipathi, Salim Roukos, Luis Lastras(参考訳) LLMを利用した自律的ゴール駆動エージェントは、最近、調達にコストがかかるタスク固有の微調整モデルを必要としない、課題を解決するための有望なツールとして登場した。 現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。 本研究では,エージェント構築のプロセスを簡単にする最小限の生成フレームワークを提案することにより,新しいエージェントの設計と実装の難しさを軽減することを目的とする。 私たちが導入したフレームワークは、ユーザが要求するエージェントの振る舞いを高レベルで宣言的な仕様で定義し、llmが望ましい振る舞いを示す出力を生成することを保証するデコーディングモニタの構築に使用できます。 私たちの宣言的アプローチでは,実装や実施の方法を気にせずに動作を記述することで,さまざまなllmベースのエージェントによる迅速な設計,実装,実験を可能にします。 提案するフレームワークが最近のLCMベースのエージェント(例えばReACT)の実装にどのように使用できるかを示し、より複雑な振る舞いを持つ新しいエージェントであるPlan-Act-Summarize-Solve(PASS)エージェントを定義するために、我々のアプローチの柔軟性をどのように活用できるかを示す。 最後に,提案手法が他のエージェントよりも優れていることを示す。

Autonomous, goal-driven agents powered by LLMs have recently emerged as promising tools for solving challenging problems without the need for task-specific finetuned models that can be expensive to procure. Currently, the design and implementation of such agents is ad hoc, as the wide variety of tasks that LLM-based agents may be applied to naturally means there can be no one-size-fits-all approach to agent design. In this work we aim to alleviate the difficulty of designing and implementing new agents by proposing a minimalistic generation framework that simplifies the process of building agents. The framework we introduce allows the user to define desired agent behaviors in a high-level, declarative specification that is then used to construct a decoding monitor which guarantees the LLM will produce an output exhibiting the desired behavior. Our declarative approach, in which the behavior is described without concern for how it should be implemented or enforced, enables rapid design, implementation, and experimentation with different LLM-based agents. We demonstrate how the proposed framework can be used to implement recent LLM-based agents (e.g., ReACT), and show how the flexibility of our approach can be leveraged to define a new agent with more complex behavior, the Plan-Act-Summarize-Solve (PASS) agent. Lastly, we demonstrate that our method outperforms other agents on multiple popular reasoning-centric question-answering benchmarks.
翻訳日:2024-01-25 11:49:45 公開日:2024-01-24
# easytpp: テンポラリポイントプロセスのオープンベンチマークに向けて

EasyTPP: Towards Open Benchmarking Temporal Point Processes ( http://arxiv.org/abs/2307.08097v3 )

ライセンス: Link先を確認
Siqiao Xue, Xiaoming Shi, Zhixuan Chu, Yan Wang, Hongyan Hao, Fan Zhou, Caigao Jiang, Chen Pan, James Y. Zhang, Qingsong Wen, Jun Zhou, Hongyuan Mei(参考訳) 継続的イベントシーケンスは、ヘルスケア、ファイナンス、オンラインショッピング、ソーシャルネットワークなど、現実世界のドメインにおいて重要な役割を果たす。 このようなデータをモデル化するために、時間的ポイントプロセス(TPP)が最も自然で競争的なモデルとして登場し、学術的およびアプリケーション的コミュニティに大きな影響を与えている。 近年、多くの強力なモデルが出現しているが、これらのモデルと将来の研究努力の中心的なベンチマークは存在していない。 この標準化の欠如は、研究者や実践者が手法の比較や結果の再現を妨げ、この分野の進歩を遅らせる可能性がある。 本稿では,イベントシーケンスモデリングの分野で最初の研究資産(データ,モデル,評価プログラム,ドキュメントなど)の中央リポジトリであるeasytppを提案する。 我々のEasyTPPは、この領域にいくつかのユニークな貢献をしている: 既存のデータセットの使用と新しいデータセットの追加を統一したインターフェース、簡単に使用および拡張でき、再現可能な研究を容易にする幅広い評価プログラム、人気のあるニューラルネットワークTPPの実装、複雑なモデルを素早く構築できるモジュールの豊富なライブラリ。 すべてのデータと実装はhttps://github.com/ant-research/EasyTemporalPointProcessで確認できる。 私たちはこのベンチマークを積極的に維持し、他の研究者や実践者の貢献を歓迎します。 私たちのベンチマークは、この分野における再現可能な研究を促進するのに役立つでしょう。

Continuous-time event sequences play a vital role in real-world domains such as healthcare, finance, online shopping, social networks, and so on. To model such data, temporal point processes (TPPs) have emerged as the most natural and competitive models, making a significant impact in both academic and application communities. Despite the emergence of many powerful models in recent years, there hasn't been a central benchmark for these models and future research endeavors. This lack of standardization impedes researchers and practitioners from comparing methods and reproducing results, potentially slowing down progress in this field. In this paper, we present EasyTPP, the first central repository of research assets (e.g., data, models, evaluation programs, documentations) in the area of event sequence modeling. Our EasyTPP makes several unique contributions to this area: a unified interface of using existing datasets and adding new datasets; a wide range of evaluation programs that are easy to use and extend as well as facilitate reproducible research; implementations of popular neural TPPs, together with a rich library of modules by composing which one could quickly build complex models. All the data and implementation can be found at https://github.com/ant-research/EasyTemporalPointProcess. We will actively maintain this benchmark and welcome contributions from other researchers and practitioners. Our benchmark will help promote reproducible research in this field, thus accelerating research progress as well as making more significant real-world impacts.
翻訳日:2024-01-25 11:49:19 公開日:2024-01-24
# 量子力学の時空対称展開:解釈と到着時予測

Space-time-symmetric extension of quantum mechanics: Interpretation and arrival-time predictions ( http://arxiv.org/abs/2306.12000v3 )

ライセンス: Link先を確認
Ruben E. Ara\'ujo, Ricardo Ximenes, and Eduardo O. Dias(参考訳) 時間が自己随伴作用素となり、位置がパラメータとなる別の量子化規則が、Dias and Parisio [Phys] によって提案された。 rev. a {\bf 95}, 032133 (2017)]。 このアプローチでは、著者らは量子力学の時空対称(sts)拡張(qm)を導出し、そこでは空間の各点において新しい量子状態(粒子に内在する) |{\phi}(x)\rangle$ が定義される。 $|\phi(x)\rangle$ は空間条件 (SC) Schr\\odinger 方程式に従い、$|t\rangle$, $\langle t|\phi(x)\rangle$ 上の射影は、粒子の到着時刻の確率振幅を$x$ とする。 本稿では、まず、SC Schr\"odinger 方程式と STS 拡張における観測値の固有状態の解釈を提供する。通常の QM と類似して、x_0$ で局所化された検出器によって実行される粒子の任意の測定を予測できる「初期」状態 $|\phi(x_0)\rangle$ -- により、SC Schr\"odinger 方程式は $|\phi(x)\rangle={\hat U}(x,x_0)|\phi(x_0)\rangle$ を提供するので、検出器が $x \lessgtr x_0$ であるときの測定を予測できる。 また、空間依存ポテンシャルに対して、STS 拡張における運動量固有状態 $|P_b(x)\rangle$ は、通常の QM のエネルギー固有状態が時間依存ポテンシャルの時間に依存するように位置に依存することを検証する。 この文脈では、標準 qm における運動量固有状態の粒子が ||\psi(t)\rangle=|p\rangle|_t$ であるのに対して、時刻 $t$ は運動量 $p$(かつ不定な位置)を持つが、状態における同じ粒子は $|\phi(x)\rangle=|p_b(x)\rangle$ である。 $|\psi(t)\rangle$ と $|{\phi}(x)\rangle$ は、それぞれ$t$ と $x$ で収集された同じ観測可能量の実験データを記述しているという事実を調べることで、同じ粒子について補完的な情報を提供すると結論付ける。

An alternative quantization rule, in which time becomes a self-adjoint operator and position is a parameter, was proposed by Dias and Parisio [Phys. Rev. A {\bf 95}, 032133 (2017)]. In this approach, the authors derive a space-time-symmetric (STS) extension of quantum mechanics (QM) where a new quantum state (intrinsic to the particle), $|{\phi}(x)\rangle$, is defined at each point in space. $|\phi(x)\rangle$ obeys a space-conditional (SC) Schr\"odinger equation and its projection on $|t\rangle$, $\langle t|\phi(x)\rangle$, represents the probability amplitude of the particle's arrival time at $x$. In this work, first we provide an interpretation of the SC Schr\"odinger equation and the eigenstates of observables in the STS extension. Analogous to the usual QM, we propose that by knowing the "initial" state $|\phi(x_0)\rangle$ -- which predicts any measurement on the particle performed by a detector localized at $x_0$ -- the SC Schr\"odinger equation provides $|\phi(x)\rangle={\hat U}(x,x_0)|\phi(x_0)\rangle$, enabling us to predict measurements when the detector is at $x \lessgtr x_0$. We also verify that for space-dependent potentials, momentum eigenstates in the STS extension, $|P_b(x)\rangle$, depend on position just as energy eigenstates in the usual QM depend on time for time-dependent potentials. In this context, whereas a particle in the momentum eigenstate in the standard QM, $|\psi(t)\rangle=|P\rangle|_t$, at time $t$, has momentum $P$ (and indefinite position), the same particle in the state $|\phi(x)\rangle=|P_b(x)\rangle$ arrives at position $x$ with momentum $P_b(x)$ (and indefinite arrival time). By investigating the fact that $|\psi(t)\rangle$ and $|{\phi}(x)\rangle$ describe experimental data of the same observables collected at $t$ and $x$, respectively, we conclude that they provide complementary information about the same particle...
翻訳日:2024-01-25 11:48:55 公開日:2024-01-24
# OWQ: 大規模言語モデルの効率的な微調整と推論のための外乱対応重み量子化

OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models ( http://arxiv.org/abs/2306.02272v4 )

ライセンス: Link先を確認
Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park(参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、推論に強力なサーバグレードGPUを必要とし、実際のデプロイメントを制限する。 この課題に対処するために,低精度表現によるLCMのフットプリントの最小化を目的とした,outlier-aware weight Quantization (OWQ)法を提案する。 owqは量子化に敏感な構造重みの小さなサブセットを優先し、高精度に保存し、残りの密度重みに高度に調整された量子化を適用する。 この感度対応混合精度スキームは量子化誤差を顕著に低減し、OWQを用いた3.1ビットモデルがOPTQで最適化された4ビットモデルと互換性があることを示した。 さらにOWQは、WCT(Wilt column tuning)と呼ばれるタスク固有の適応のためのパラメータ効率の細かいチューニングを導入し、最適化されたフォーマットで最小限のメモリオーバーヘッドでタスク固有のLLM適応を可能にする。 OWQはLLM最適化文献の柔軟性、効率、実用性において顕著な進歩を示している。 ソースコードはhttps://github.com/xvyaward/owqで入手できる。

Large language models (LLMs) with hundreds of billions of parameters require powerful server-grade GPUs for inference, limiting their practical deployment. To address this challenge, we introduce the outlier-aware weight quantization (OWQ) method, which aims to minimize LLM's footprint through low-precision representation. OWQ prioritizes a small subset of structured weights sensitive to quantization, storing them in high-precision, while applying highly tuned quantization to the remaining dense weights. This sensitivity-aware mixed-precision scheme reduces the quantization error notably, and extensive experiments demonstrate that 3.1-bit models using OWQ perform comparably to 4-bit models optimized by OPTQ. Furthermore, OWQ incorporates a parameter-efficient fine-tuning for task-specific adaptation, called weak column tuning (WCT), enabling accurate task-specific LLM adaptation with minimal memory overhead in the optimized format. OWQ represents a notable advancement in the flexibility, efficiency, and practicality of LLM optimization literature. The source code is available at https://github.com/xvyaward/owq
翻訳日:2024-01-25 11:47:50 公開日:2024-01-24
# エンタングルメント支援マルチパーティ計算の通信複雑性

Communication complexity of entanglement assisted multi-party computation ( http://arxiv.org/abs/2305.04435v3 )

ライセンス: Link先を確認
Ruoyu Meng, Aditya Ramamoorthy(参考訳) プレイヤー2, \dots, n$はプレイヤー1に適切な情報を伝達する必要があるので、適切な約束を持つ「一般化された」内部積関数を計算することができる。 プロトコルの通信複雑性は、通信が必要なビットの総数である。 n$ が素数で選択された関数の場合、量子プロトコル(複雑性 $(n-1) \log n$ ビット)と古典的なプロトコル(複雑性 $(n-1)^2 (\log n^2$) ビット)を示す。 量子プロトコルでは、プレイヤーは絡み合った量子ビットにアクセスするが、通信は古典的である。 さらに,古典的通信複雑性の下位境界を決定する整数線形プログラミングの定式化を提案する。 これは、量子プロトコルが古典的プロトコルよりも厳密に優れていることを示す。

We consider a quantum and classical version multi-party function computation problem with $n$ players, where players $2, \dots, n$ need to communicate appropriate information to player 1, so that a "generalized" inner product function with an appropriate promise can be calculated. The communication complexity of a protocol is the total number of bits that need to be communicated. When $n$ is prime and for our chosen function, we exhibit a quantum protocol (with complexity $(n-1) \log n$ bits) and a classical protocol (with complexity $(n-1)^2 (\log n^2$) bits). In the quantum protocol, the players have access to entangled qudits but the communication is still classical. Furthermore, we present an integer linear programming formulation for determining a lower bound on the classical communication complexity. This demonstrates that our quantum protocol is strictly better than classical protocols.
翻訳日:2024-01-25 11:47:28 公開日:2024-01-24
# 汎用オブジェクトにおける3次元アフォーアンスプリミティブのためのゼロショット学習

Zero-Shot Learning for the Primitives of 3D Affordance in General Objects ( http://arxiv.org/abs/2401.12978v2 )

ライセンス: Link先を確認
Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo(参考訳) AIの大きな課題の1つは、機械に環境機能に正確に反応し、活用するように教えることである。 その重要性にもかかわらず、学習分野は、特に3Dにおいて、人間と物体の相互作用の多様さにより、アノテート・アノテート・アノテート・アコメンタンス(英語版)は、面倒なプロセスである。 アフォーアンスデータの低可用性は、オブジェクトカテゴリの一般化の観点からの学習を制限すると同時に、アフォーアンス表現を単純化し、アフォーアンスのほんの一部をキャプチャする。 これらの課題を克服するために,手作業でアノテーションを使わずに3dオブジェクトのみに3dアフォーアンスを生成できる,新しい自己教師付き手法を提案する。 この手法は3dオブジェクトを画像にキャプチャし、2dアフォーアンス画像を作成することから始まり、その画像に人間を塗りつぶし拡散モデルを通して挿入し、物体の本来の詳細を変更することなく、人間の挿入を可能にする適応マスクアルゴリズムを提案する。 この方法では、挿入された人間を3dへ持ち上げ、3dの人間と物体のペアを作り、複数の視点から予め生成された人間の姿勢を利用する深度最適化フレームワークの中で奥行きあいまいを解消する。 また,任意の3次元hoiデータセットから容易に集約できる,相対方向と密接な人間と対象点の近接について定義した新たなアフォーマンス表現を提供する。 提案された表現は、物理的に行使された価格から非物理学的な価格まで、単純な変換によって従来の空白表現に表せるプリミティブとして機能する。 本研究では, 3次元アフォーアンスサンプルを生成し, 接触, 方位, 空間占有率などの表現から高品質アフォーアンスサンプルを導出することにより, 提案手法と表現の有効性を示す。

One of the major challenges in AI is teaching machines to precisely respond and utilize environmental functionalities, thereby achieving the affordance awareness that humans possess. Despite its importance, the field has been lagging in terms of learning, especially in 3D, as annotating affordance accompanies a laborious process due to the numerous variations of human-object interaction. The low availability of affordance data limits the learning in terms of generalization for object categories, and also simplifies the representation of affordance, capturing only a fraction of the affordance. To overcome these challenges, we propose a novel, self-supervised method to generate the 3D affordance examples given only a 3D object, without any manual annotations. The method starts by capturing the 3D object into images and creating 2D affordance images by inserting humans into the image via inpainting diffusion models, where we present the Adaptive Mask algorithm to enable human insertion without altering the original details of the object. The method consequently lifts inserted humans back to 3D to create 3D human-object pairs, where the depth ambiguity is resolved within a depth optimization framework that utilizes pre-generated human postures from multiple viewpoints. We also provide a novel affordance representation defined on relative orientations and proximity between dense human and object points, that can be easily aggregated from any 3D HOI datasets. The proposed representation serves as a primitive that can be manifested to conventional affordance representations via simple transformations, ranging from physically exerted affordances to nonphysical ones. We demonstrate the efficacy of our method and representation by generating the 3D affordance samples and deriving high-quality affordance examples from the representation, including contact, orientation, and spatial occupancies.
翻訳日:2024-01-25 11:41:07 公開日:2024-01-24
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v2 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang(参考訳) 本稿では,3次元形状スケルトン化の新規かつ効率的なアプローチであるカバレッジaxis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するために、coverture axis++は、様々な形状表現の計算強度を著しく軽減しながら、内側軸変換(mat)の高精度近似を提供する、骨格点を選択するヒューリスティックなアルゴリズムを提案する。 形状被覆と一様性の両方を考慮し, 単純かつ効果的な方略を導入し, 骨格点を導出する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からはコンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点数の指定、ハイパーパラメータの少ない、再現精度の向上による高効率な計算を可能にした。 幅広い3d形状の広範囲な実験は、カバレッジaxis++の効率と有効性を検証する。 論文が公開されたら、コードは公開される予定だ。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers both shape coverage and uniformity to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-01-25 11:40:32 公開日:2024-01-24
# PSAvatar:3次元ガウス平板を用いたリアルタイム頭部アバター作成のためのポイントベース形状モデル

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Creation with 3D Gaussian Splatting ( http://arxiv.org/abs/2401.12900v2 )

ライセンス: Link先を確認
Zhongyuan Zhao and Zhenyu Bao and Qing Li and Guoping Qiu and Kanglin Liu(参考訳) 多くの進歩にもかかわらず、リアルタイムの高精細なヘッドアバターアニメーションの実現は依然として困難であり、既存の手法ではスピードと品質のトレードオフが必要となる。 3DMMに基づく手法は、眼鏡やヘアスタイルのような非界面構造をモデル化するのに失敗することが多い。 3d gaussian は幾何学表現と放射場再構成に有望な能力を持つことが証明されているが、3d gaussian はポーズや表現の変化によって生じる頭部形状の変化をモデル化することが困難であるため、頭部アバター作成に3d gaussian を適用することは依然として大きな課題である。 本稿では,離散幾何学的プリミティブを用いてパラメトリックなモーファブル形状モデルを作成し,精細なディテール表現と高忠実度レンダリングに3dガウシアンを用いる,アニメーション可能な頭部アバター作成のための新しいフレームワークpsavatarを提案する。 パラメトリック形状モデル(Parametric morphable shape model)は、3次元表現のメッシュの代わりに点を用いて表現の柔軟性を向上するポイントベース形状モデル(PMSM)である。 PMSMは、最初にFLAMEメッシュを、表面のサンプリングとメッシュのオフによってポイントに変換し、表面のような構造だけでなく、眼鏡やヘアスタイルのような複雑な地形の再構築を可能にする。 これらの点を分析・合成方式で頭部形状と整合させることにより、pmsmは3次元ガウシアンを詳細な表現と外観のモデリングに活用し、高忠実なアバターを作成することができる。 psavatarは多種多様な被写体の高精細な頭部アバターを再現でき、アバターはリアルタイムでアニメーションできる(512$\times$ 512 の解像度で25 fps)。

Despite much progress, achieving real-time high-fidelity head avatar animation is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyles, while neural implicit models suffer from deformation inflexibility and rendering inefficiency. Although 3D Gaussian has been demonstrated to possess promising capability for geometry representation and radiance field reconstruction, applying 3D Gaussian in head avatar creation remains a major challenge since it is difficult for 3D Gaussian to model the head shape variations caused by changing poses and expressions. In this paper, we introduce PSAvatar, a novel framework for animatable head avatar creation that utilizes discrete geometric primitive to create a parametric morphable shape model and employs 3D Gaussian for fine detail representation and high fidelity rendering. The parametric morphable shape model is a Point-based Morphable Shape Model (PMSM) which uses points instead of meshes for 3D representation to achieve enhanced representation flexibility. The PMSM first converts the FLAME mesh to points by sampling on the surfaces as well as off the meshes to enable the reconstruction of not only surface-like structures but also complex geometries such as eyeglasses and hairstyles. By aligning these points with the head shape in an analysis-by-synthesis manner, the PMSM makes it possible to utilize 3D Gaussian for fine detail representation and appearance modeling, thus enabling the creation of high-fidelity avatars. We show that PSAvatar can reconstruct high-fidelity head avatars of a variety of subjects and the avatars can be animated in real-time ($\ge$ 25 fps at a resolution of 512 $\times$ 512 ).
翻訳日:2024-01-25 11:40:09 公開日:2024-01-24
# 高速非線形2時間スケール確率近似:$O(1/k)$ Finite-Sample Complexity

Fast Nonlinear Two-Time-Scale Stochastic Approximation: Achieving $O(1/k)$ Finite-Sample Complexity ( http://arxiv.org/abs/2401.12764v2 )

ライセンス: Link先を確認
Thinh T. Doan(参考訳) 本稿では,2つの結合した非線形作用素の根を探すために,2時間スケール確率近似の新しい変種を開発することを提案する。 私たちのキーとなるアイデアは、古典的なRuppert-Polyak平均化技術を利用して、サンプルを通して演算子を動的に推定することです。 これらの平均化ステップの推定値は、望ましい解を見つけるために二度スケールの確率近似更新で使用される。 我々の理論的な主な結果は、基礎となる非線形作用素の強い単調条件の下で、提案手法によって生成されるイテレートの平均二乗誤差が最適速度$O(1/k)$でゼロに収束することを示すことである。 この結果は, 2 倍の確率近似の既存の結果を大幅に改善し, 最もよく知られた有限時間収束率は $o(1/k^{2/3})$ である。

This paper proposes to develop a new variant of the two-time-scale stochastic approximation to find the roots of two coupled nonlinear operators, assuming only noisy samples of these operators can be observed. Our key idea is to leverage the classic Ruppert-Polyak averaging technique to dynamically estimate the operators through their samples. The estimated values of these averaging steps will then be used in the two-time-scale stochastic approximation updates to find the desired solution. Our main theoretical result is to show that under the strongly monotone condition of the underlying nonlinear operators the mean-squared errors of the iterates generated by the proposed method converge to zero at an optimal rate $O(1/k)$, where $k$ is the number of iterations. Our result significantly improves the existing result of two-time-scale stochastic approximation, where the best known finite-time convergence rate is $O(1/k^{2/3})$.
翻訳日:2024-01-25 11:39:35 公開日:2024-01-24
# Falcon: マルチアームバンドによる優れたアクティブラーニング

Falcon: Fair Active Learning using Multi-armed Bandits ( http://arxiv.org/abs/2401.12722v2 )

ライセンス: Link先を確認
Ki Hyun Tae, Hantian Zhang, Jaeyoung Park, Kexin Rong, Steven Euijong Whang(参考訳) バイアスドデータは不公平な機械学習モデルにつながり、特にデータセットのキュレーションやラベル付けにおいて、データ分析の開始時に公正を埋め込むことの重要性を強調します。 そこで我々は,スケーラブルなフェアアクティブ学習フレームワークであるfalconを提案する。 falconは、戦略的サンプル選択による機械学習モデルの公平性を改善するデータ中心のアプローチを採用している。 ユーザーが特定したグループフェアネス尺度が与えられた場合、ファルコンはフェアネスを改善する上で最も有益な「ターゲットグループ」(例えば、属性=女性、ラベル=陽性)のサンプルを識別する。 しかし、これらの対象群はサンプル選択時に利用できない基底真理ラベルを用いて定義されるため、課題が生じる。 そこで本研究では,予測ラベルと期待ラベルが異なっていた場合にサンプルを用いて延期し,対象群外に落下させる新しい試行錯誤法を提案する。 また,より有益なサンプルを選択するとラベル予測が望ましくないため延期の確率が高くなり,データセット毎に最適なバランスが変化するというトレードオフも観察した。 我々は,情報伝達率とポストポンレートのトレードオフを政策として捉え,その計算効率と理論的保証を考慮し,敵対的多武装バンディット手法による最良の政策を自動選択することを提案する。 実験によると、falconは、公平性と正確性の観点から、既存のfair active learningアプローチを大きく上回っており、より効率的である。 特に、ファルコンだけが正確さと公平さの間の適切なトレードオフを支持しており、その最大フェアネススコアは2番目に良い結果よりも1.8-4.5倍高い。

Biased data can lead to unfair machine learning models, highlighting the importance of embedding fairness at the beginning of data analysis, particularly during dataset curation and labeling. In response, we propose Falcon, a scalable fair active learning framework. Falcon adopts a data-centric approach that improves machine learning model fairness via strategic sample selection. Given a user-specified group fairness measure, Falcon identifies samples from "target groups" (e.g., (attribute=female, label=positive)) that are the most informative for improving fairness. However, a challenge arises since these target groups are defined using ground truth labels that are not available during sample selection. To handle this, we propose a novel trial-and-error method, where we postpone using a sample if the predicted label is different from the expected one and falls outside the target group. We also observe the trade-off that selecting more informative samples results in higher likelihood of postponing due to undesired label prediction, and the optimal balance varies per dataset. We capture the trade-off between informativeness and postpone rate as policies and propose to automatically select the best policy using adversarial multi-armed bandit methods, given their computational efficiency and theoretical guarantees. Experiments show that Falcon significantly outperforms existing fair active learning approaches in terms of fairness and accuracy and is more efficient. In particular, only Falcon supports a proper trade-off between accuracy and fairness where its maximum fairness score is 1.8-4.5x higher than the second-best results.
翻訳日:2024-01-25 11:39:00 公開日:2024-01-24
# デバイス非依存な量子状態識別

Device-independent quantum state discrimination ( http://arxiv.org/abs/2401.12719v2 )

ライセンス: Link先を確認
Xinyu Qiu and Lin Chen(参考訳) 量子状態の識別は、量子システムから古典情報を抽出する一般的な進歩を表している。 自己テスト結果のツールを用いて,デバイスに依存しないシナリオで量子状態の識別を実現することができることを示す。 すなわち、状態は量子相関と状態の対応によって、信頼できない実験装置と確実に区別することができる。 細部では、2つの任意の状態が互いに共役していない場合、デバイス非依存的に識別できることを示し、他の状態は測定デバイス非依存で識別可能である。 デバイスに依存しない要件を満たすため、測定はPauliオブザーバブルに制限される。 この制限の影響は、最小誤差判別のための推定確率解析に基づいて許容される。

Quantum state discrimination depicts the general progress of extracting classical information from quantum systems. We show that quantum state discrimination can be realized in a device-independent scenario using tools of self-testing results. That is, the states can be discriminated credibly with the untrusted experiment devices by the correspondence between quantum correlations and states. In detail, we show that two arbitrary states can be discriminated in a device-independent manner when they are not conjugate with each other, while other states can be discriminated measurement-device-independently. To fulfill the device-independent requirement, the measurements are restricted on Pauli observables. The influence of this restriction is acceptable based on the guessing probability analysis for minimum error discrimination.
翻訳日:2024-01-25 11:38:24 公開日:2024-01-24
# タスク類似性と過パラメータ化の相乗効果 - 解析モデルによる検討-

The Joint Effect of Task Similarity and Overparameterization on Catastrophic Forgetting -- An Analytical Model ( http://arxiv.org/abs/2401.12617v2 )

ライセンス: Link先を確認
Daniel Goldfarb, Itay Evron, Nir Weinberger, Daniel Soudry, Paul Hand(参考訳) 継続的学習では、破滅的な忘れることはタスクのさまざまな側面に影響される。 以前の研究は、タスクの類似性や過剰パラメータ化によって忘れられる影響を別々に分析している。 対照的に,本研究では,タスクの類似性と過パラメータ化が,分析可能なモデルにおける記憶にどのように影響するかを検討する。 具体的には,2タスク連続線形回帰に着目し,第2タスクは任意の第1タスク(ランダムな置換タスクの抽象化)のランダム直交変換である。 我々は、期待される忘れを正確に分析し、ニュアンスパターンを明らかにする。 高過パラメータモデルでは、中間タスクの類似性が最も忘れられる。 しかし、補間しきい値付近では、期待されるタスク類似度と単調に減少する。 我々は、合成データに対する線形回帰と、確立された置換タスクベンチマークにおけるニューラルネットワークによる結果を検証する。

In continual learning, catastrophic forgetting is affected by multiple aspects of the tasks. Previous works have analyzed separately how forgetting is affected by either task similarity or overparameterization. In contrast, our paper examines how task similarity and overparameterization jointly affect forgetting in an analyzable model. Specifically, we focus on two-task continual linear regression, where the second task is a random orthogonal transformation of an arbitrary first task (an abstraction of random permutation tasks). We derive an exact analytical expression for the expected forgetting - and uncover a nuanced pattern. In highly overparameterized models, intermediate task similarity causes the most forgetting. However, near the interpolation threshold, forgetting decreases monotonically with the expected task similarity. We validate our findings with linear regression on synthetic data, and with neural networks on established permutation task benchmarks.
翻訳日:2024-01-25 11:37:55 公開日:2024-01-24
# 野生のRGBDオブジェクト:RGB-Dビデオによる実世界の3Dオブジェクト学習のスケーリング

RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos ( http://arxiv.org/abs/2401.12592v2 )

ライセンス: Link先を確認
Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang(参考訳) 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。 rgbキャプチャのみの既存の現実世界のオブジェクト中心データセットとは異なり、深度チャネルを直接キャプチャすることで、3dアノテーションとより広範な下流アプリケーションが可能になる。 WildRGB-Dは、大規模なカテゴリレベルのRGB-Dオブジェクトビデオで構成されており、iPhoneを使って360度回転させる。 約8500の録音オブジェクトと、46の共通オブジェクトカテゴリにわたる20000 RGB-Dビデオが含まれている。 これらのビデオは、さまざまな背景が散らばっていて、3つの設定でできるだけ多くの現実のシナリオをカバーしています。 (i) 1つのビデオ中の1つのオブジェクト (ii)1つのビデオ中の複数のオブジェクト (iii)一本のビデオに静的な手が入った物。 データセットには、オブジェクトマスク、現実世界のカメラポーズ、RGBDビデオから集約されたポイントクラウドがアノテートされている。 wildrgb-dでは,新しいビュー合成,カメラポーズ推定,オブジェクト6dポーズ推定,オブジェクト表面再構成の4つのタスクをベンチマークした。 実験の結果,RGB-D物体の大規模捕獲は,3次元物体の学習を促進する大きな可能性を秘めていることがわかった。 プロジェクトページはhttps://wildrgbd.github.io/です。

We introduce a new RGB-D object dataset captured in the wild called WildRGB-D. Unlike most existing real-world object-centric datasets which only come with RGB capturing, the direct capture of the depth channel allows better 3D annotations and broader downstream applications. WildRGB-D comprises large-scale category-level RGB-D object videos, which are taken using an iPhone to go around the objects in 360 degrees. It contains around 8500 recorded objects and nearly 20000 RGB-D videos across 46 common object categories. These videos are taken with diverse cluttered backgrounds with three setups to cover as many real-world scenarios as possible: (i) a single object in one video; (ii) multiple objects in one video; and (iii) an object with a static hand in one video. The dataset is annotated with object masks, real-world scale camera poses, and reconstructed aggregated point clouds from RGBD videos. We benchmark four tasks with WildRGB-D including novel view synthesis, camera pose estimation, object 6d pose estimation, and object surface reconstruction. Our experiments show that the large-scale capture of RGB-D objects provides a large potential to advance 3D object learning. Our project page is https://wildrgbd.github.io/.
翻訳日:2024-01-25 11:37:39 公開日:2024-01-24
# 言語感受性エージェントを用いた誤情報拡散モデリングのためのオンラインソーシャルネットワークのデジタルクローニング

Digital cloning of online social networks for language-sensitive agent-based modeling of misinformation spread ( http://arxiv.org/abs/2401.12509v2 )

ライセンス: Link先を確認
Prateek Puri, Gabriel Hassler, Anton Shenk, Sai Katragadda(参考訳) エージェントベースモデリングと自然言語処理を融合した,オンラインソーシャルネットワークにおける誤情報拡散のシミュレーションフレームワークを開発した。 この領域には他の多くのエージェントベースのシミュレーションが存在するが、その忠実性や既存のネットワークへの一般化に関する疑問は、アクション可能な洞察を提供する能力を妨げる。 これらの懸念を部分的に解決するため,我々は,1万人を超えるユーザに対してソーシャルメディア履歴をダウンロードすることで,既知の誤情報共有ネットワークの「デジタルクローン」を作成する。 これらの履歴を解析してネットワークの構造を抽出し、メンバー間で情報を共有・拡散するニュアンスな方法をモデル化する。 この分野の他のエージェントベースの方法とは異なり、このフレームワークのユーザ間の情報共有は、議論のトピック、ユーザの好み、オンラインコミュニティのダイナミクスに敏感です。 提案手法の忠実性を評価するため,我々はクローンネットワークをベースネットワークに記録されたポストのセットに種まき,2つのネットワーク間の伝播ダイナミクスを比較し,ツインネットワーク間の妥当な合意を様々な指標で観察する。 最後に,クローンネットワークが,誤情報対策評価とレッド・チームリング分析のために,柔軟で低コストなテストベッドとして機能するかを検討する。 ここで検討されたツールは、この分野における既存の取り組みを強化し、誤情報対策評価の新たな機会を開放することを望んでいる。

We develop a simulation framework for studying misinformation spread within online social networks that blends agent-based modeling and natural language processing techniques. While many other agent-based simulations exist in this space, questions over their fidelity and generalization to existing networks in part hinders their ability to provide actionable insights. To partially address these concerns, we create a 'digital clone' of a known misinformation sharing network by downloading social media histories for over ten thousand of its users. We parse these histories to both extract the structure of the network and model the nuanced ways in which information is shared and spread among its members. Unlike many other agent-based methods in this space, information sharing between users in our framework is sensitive to topic of discussion, user preferences, and online community dynamics. To evaluate the fidelity of our method, we seed our cloned network with a set of posts recorded in the base network and compare propagation dynamics between the two, observing reasonable agreement across the twin networks over a variety of metrics. Lastly, we explore how the cloned network may serve as a flexible, low-cost testbed for misinformation countermeasure evaluation and red teaming analysis. We hope the tools explored here augment existing efforts in the space and unlock new opportunities for misinformation countermeasure evaluation, a field that may become increasingly important to consider with the anticipated rise of misinformation campaigns fueled by generative artificial intelligence.
翻訳日:2024-01-25 11:37:12 公開日:2024-01-24
# 物理インフォームドニューラルネットワークを用いた細胞外空間における分子輸送の定量的解析

Quantitative Analysis of Molecular Transport in the Extracellular Space Using Physics-Informed Neural Network ( http://arxiv.org/abs/2401.12435v2 )

ライセンス: Link先を確認
Jiayi Xie, Hongfeng Li, Jin Cheng, Qingrui Cai, Hanbo Tan, Lingyun Zu, Xiaobo Qu, and Hongbin Han(参考訳) 脳外細胞間空間(ECS)は、細胞間、または細胞と血管の間に位置する不規則で非常に頑丈なナノスケール空間であり、神経細胞の生存に不可欠である。 記憶、感情、感覚などの高レベルの脳機能において重要な役割を果たす。 しかし、ECS内の分子輸送の特定の形態は依然として解明されていない。 そこで本研究では,物理インフォームドニューラルネットワーク(PINN)を用いて,吸着拡散方程式(ADE)から導かれる逆問題を解くことにより,ECS内の分子輸送を定量的に解析する手法を提案する。 PINNは複雑な数学的定式化やグリッド設定を必要とせずにADEに合理化されたソリューションを提供する。 さらに, pinnの最適化により, 長期分子輸送を規定する拡散係数と, 吸着によって駆動される分子の速度の自動計算が容易になる。 提案手法はペクレット数を計算することにより,ECS内の分子輸送の特異パターンを定量的に解析し,同定することができる。 磁気共鳴画像(mri)の2つのデータセットの異なる時点における実験的検証は,提案手法の有効性を示すものである。 特にシミュレーションでは、同じ脳領域にトレーサを注入したラットのデータセット間で同じ分子輸送パターンが示されている。 これらの知見は、ECS内の分子輸送を包括的に探索するための有望なツールとしてのPINNの可能性を示している。

The brain extracellular space (ECS), an irregular, extremely tortuous nanoscale space located between cells or between cells and blood vessels, is crucial for nerve cell survival. It plays a pivotal role in high-level brain functions such as memory, emotion, and sensation. However, the specific form of molecular transport within the ECS remain elusive. To address this challenge, this paper proposes a novel approach to quantitatively analyze the molecular transport within the ECS by solving an inverse problem derived from the advection-diffusion equation (ADE) using a physics-informed neural network (PINN). PINN provides a streamlined solution to the ADE without the need for intricate mathematical formulations or grid settings. Additionally, the optimization of PINN facilitates the automatic computation of the diffusion coefficient governing long-term molecule transport and the velocity of molecules driven by advection. Consequently, the proposed method allows for the quantitative analysis and identification of the specific pattern of molecular transport within the ECS through the calculation of the Peclet number. Experimental validation on two datasets of magnetic resonance images (MRIs) captured at different time points showcases the effectiveness of the proposed method. Notably, our simulations reveal identical molecular transport patterns between datasets representing rats with tracer injected into the same brain region. These findings highlight the potential of PINN as a promising tool for comprehensively exploring molecular transport within the ECS.
翻訳日:2024-01-25 11:36:48 公開日:2024-01-24
# ランク、パック、承認:参加予算編成における投票方法

Rank, Pack, or Approve: Voting Methods in Participatory Budgeting ( http://arxiv.org/abs/2401.12423v2 )

ライセンス: Link先を確認
Lodewijk Gelauff and Ashish Goel(参考訳) 参加予算は地方自治体による予算決定に住民を巻き込む一般的な方法である。 stanford participatory budgeting platformは、150以上の予算プロセスに居住者を参加させるためのオンラインプラットフォームである。 我々は,k-approval,k- ranking,knapsackプライマリ投票による匿名予算意見のデータセットを提案する。 有権者のサブセットには、同じプロセスで異なる勧誘方法によるペア投票が含まれる。 これは、有権者、プロジェクト、設定が、有権者が実際に興味を持っている実際の意思決定と関係しているため、ユニークなデータセットを示します。 予備投票のデータから、投票の複雑さ(選択するプロジェクト数、選択するプロジェクト数、投票の長さ)は有権者が費やした中央値の時間と相関するが、高い放棄率とは相関しないことがわかった。 異なる投票方法を持つ投票ペアを用いて,投票方法が選択したプロジェクトのコストに与える影響を,従来よりも包括的に分析した。 ほとんどの選挙において、有権者はk-approvalを使ってクナプサックを使うよりもかなり高価なプロジェクトを選んだが、反対方向に大きな効果を持つ少数の例も見いだした。 この効果は、個々の投票者だけでなく、集計レベルでも起こり、投票方法の暗黙の制約と投票インターフェースの明示的な制約の両方に影響される。 最後に、knapsack 投票のための紙代替手段として K 級の elicitation の使用を検証する。

Participatory budgeting is a popular method to engage residents in budgeting decisions by local governments. The Stanford Participatory Budgeting platform is an online platform that has been used to engage residents in more than 150 budgeting processes. We present a data set with anonymized budget opinions from these processes with K-approval, K-ranking or knapsack primary ballots. For a subset of the voters, it includes paired votes with a different elicitation method in the same process. This presents a unique data set, as the voters, projects and setting are all related to real-world decisions that the voters have an actual interest in. With data from primary ballots we find that while ballot complexity (number of projects to choose from, number of projects to select and ballot length) is correlated with a higher median time spent by voters, it is not correlated with a higher abandonment rate. We use vote pairs with different voting methods to analyze the effect of voting methods on the cost of selected projects, more comprehensively than was previously possible. In most elections, voters selected significantly more expensive projects using K-approval than using knapsack, although we also find a small number of examples with a significant effect in the opposite direction. This effect happens at the aggregate level as well as for individual voters, and is influenced both by the implicit constraints of the voting method and the explicit constraints of the voting interface. Finally, we validate the use of K-ranking elicitation to offer a paper alternative for knapsack voting.
翻訳日:2024-01-25 11:36:26 公開日:2024-01-24
# 異方性は変圧器の自己注意に欠かせない

Anisotropy Is Inherent to Self-Attention in Transformers ( http://arxiv.org/abs/2401.12143v2 )

ライセンス: Link先を確認
Nathan Godey and \'Eric de la Clergerie and Beno\^it Sagot(参考訳) 表現退化問題は、トランスフォーマーに基づく自己教師型学習手法の間で広く見られる現象である。 NLPでは、非等方性(英: anisotropy)は、隠れた表現の特異な性質であり、角距離(cosine-similarity)の点でそれらを予期せず互いに近接させる。 いくつかの最近の研究は、異方性はトークンの長期分布におけるクロスエントロピー損失の最適化の結果であることを示している。 本稿では,同じ結果を直接受けるべきではない特定の目的を持つ言語モデルにおいても,異方性が実証的に観察できることを示す。 また、異方性問題は、他のモダリティで訓練されたトランスフォーマーにも拡張できることを示した。 この結果から, 異方性はトランスフォーマーモデルに固有であることが示唆された。

The representation degeneration problem is a phenomenon that is widely observed among self-supervised learning methods based on Transformers. In NLP, it takes the form of anisotropy, a singular property of hidden representations which makes them unexpectedly close to each other in terms of angular distance (cosine-similarity). Some recent works tend to show that anisotropy is a consequence of optimizing the cross-entropy loss on long-tailed distributions of tokens. We show in this paper that anisotropy can also be observed empirically in language models with specific objectives that should not suffer directly from the same consequences. We also show that the anisotropy problem extends to Transformers trained on other modalities. Our observations suggest that anisotropy is actually inherent to Transformers-based models.
翻訳日:2024-01-25 11:36:02 公開日:2024-01-24
# lkformer:赤外線超解像用大型カーネルトランスフォーマ

LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution ( http://arxiv.org/abs/2401.11859v2 )

ライセンス: Link先を確認
Feiwei Qin and Kang Yan and Changmiao Wang and Ruiquan Ge and Yong Peng and Kai Zhang(参考訳) 多様な分野にまたがる赤外線技術の幅広い応用を考えると、深層学習の領域における赤外線画像の超解像技術の研究に重点が置かれている。 画像超解像タスクにおける現在のトランスフォーマー方式の印象的な結果にもかかわらず、トランスフォーマーアーキテクチャに固有の自己注意機構に依存することによって、画像は1次元のシーケンスとして扱われるようになり、その結果、固有の2次元構造は無視される。 さらに、赤外線画像は、均一な画素分布と限定的な勾配範囲を示し、有効な特徴情報をキャプチャするためのモデルの課題を提起する。 そこで本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。 具体的には,LKRA(Large Kernel Residual Attention)モジュールを線形複雑度で設計した。 これは主に、大きなカーネルとの深さ方向の畳み込みを使用して非局所的な特徴モデリングを実行し、標準の自己完結層を構成する。 さらに,Gated-Pixel Feed-Forward Network (GPFN) と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。 総合的な実験結果から,本手法はより少ないパラメータを使用でき,より優れた性能が得られる。ソースコードはhttps://github.com/sad192/large-kernel-Transformerで入手できる。

Given the broad application of infrared technology across diverse fields, there is an increasing emphasis on investigating super-resolution techniques for infrared images within the realm of deep learning. Despite the impressive results of current Transformer-based methods in image super-resolution tasks, their reliance on the self-attentive mechanism intrinsic to the Transformer architecture results in images being treated as one-dimensional sequences, thereby neglecting their inherent two-dimensional structure. Moreover, infrared images exhibit a uniform pixel distribution and a limited gradient range, posing challenges for the model to capture effective feature information. Consequently, we suggest a potent Transformer model, termed Large Kernel Transformer (LKFormer), to address this issue. Specifically, we have designed a Large Kernel Residual Attention (LKRA) module with linear complexity. This mainly employs depth-wise convolution with large kernels to execute non-local feature modeling, thereby substituting the standard self-attentive layer. Additionally, we have devised a novel feed-forward network structure called Gated-Pixel Feed-Forward Network (GPFN) to augment the LKFormer's capacity to manage the information flow within the network. Comprehensive experimental results reveal that our method surpasses the most advanced techniques available, using fewer parameters and yielding considerably superior performance.The source code will be available at https://github.com/sad192/large-kernel-Transformer.
翻訳日:2024-01-25 11:35:49 公開日:2024-01-24
# 強化学習とデモによる安全で汎用的なエンドツーエンド自動運転システム

Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v3 )

ライセンス: Link先を確認
Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen(参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化することができるべきである。 しかし、強化学習と模倣学習に基づく既存の手法は安全性が低く、一般化が悪く、サンプリングが効率が悪い。 さらに、将来の運転軌跡を正確に予測することはできず、将来の運転軌跡の正確な予測は最適な決定を行うための前提条件である。 そこで本稿では,複雑なシナリオに対して,安全で汎用的なエンドツーエンドの自動運転システム(sgads)を提案する。 我々のSGADSは変動推論と正規化フローを組み込んでおり、インテリジェントな車両が将来の走行軌跡を正確に予測することができる。 さらに,ロバストな安全制約の定式化を提案する。 さらに,強化学習と実演を組み合わせることで,エージェントの探索過程を増強する。 実験結果から,SGADSは安全性能を著しく向上し,高度に一般化し,複雑な都市環境下での知的車両の訓練効率を向上させることができることが示された。

An intelligent driving system should be capable of dynamically formulating appropriate driving strategies based on the current environment and vehicle status, while ensuring the security and reliability of the system. However, existing methods based on reinforcement learning and imitation learning suffer from low safety, poor generalization, and inefficient sampling. Additionally, they cannot accurately predict future driving trajectories, and the accurate prediction of future driving trajectories is a precondition for making optimal decisions. To solve these problems, in this paper, we introduce a Safe and Generalized end-to-end Autonomous Driving System (SGADS) for complex and various scenarios. Our SGADS incorporates variational inference with normalizing flows, enabling the intelligent vehicle to accurately predict future driving trajectories. Moreover, we propose the formulation of robust safety constraints. Furthermore, we combine reinforcement learning with demonstrations to augment search process of the agent. The experimental results demonstrate that our SGADS can significantly improve safety performance, exhibit strong generalization, and enhance the training efficiency of intelligent vehicles in complex urban scenarios compared to existing methods.
翻訳日:2024-01-25 11:34:56 公開日:2024-01-24