このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240117となっている論文です。

PDF登録状況(公開日: 20240117)

TitleAuthorsAbstract論文公表日・翻訳日
# Pipelet: 実用的なストリーミングブロックチェーンプロトコル

Pipelet: Practical Streamlined Blockchain Protocol ( http://arxiv.org/abs/2401.07162v2 )

ライセンス: Link先を確認
Vivek Karihaloo, Ruchi Shah, Panruo Wu, Aron Laszka, (参考訳) ブロックチェーンの実証の人気が高まる中、許可されたコンセンサスプロトコルへの関心と進歩が高まり、PaxosやPBFTといった既存のプロトコルに対するよりシンプルな代替手段を提供する可能性がある。 特に、最近提案されたStreamletプロトコルは驚くほどシンプルで合理化されたコンセンサスアプローチを提供しており、古典的なコンセンサスプロトコルの簡素化と改善に関する長年の研究を結晶化している。 Streamletの単純さは大きな成果であるが、このプロトコルには安定したブロックプロポーサのサポートや、同期クロックや全メッセージの暗黙のエコーといった強い仮定など、いくつかの実用的な機能が欠けている。 最も重要なことは、ブロック毎に$O(N^3)$メッセージを$N$ノードのネットワークで送信する必要があることだ。 これらの制約に対処するために,実用的な合理化コンセンサスプロトコルであるPipeletを導入する。 パイプレットはStreamletと同じブロックファイナライズルールを採用しているが、通信の複雑さの観点から最先端のパフォーマンスを実現し、クロック同期や安定したブロックプロジェクタといった実用的なアプリケーションに不可欠な機能を提供する。 同時に、PipeletはStreamletの単純さを保ち、実装の容易さや検証など、実用的なメリットを生んでいる。

Fueled by the growing popularity of proof-of-stake blockchains, there has been increasing interest and progress in permissioned consensus protocols, which could provide a simpler alternative to existing protocols, such as Paxos and PBFT. In particular, the recently proposed Streamlet protocol provides a surprisingly simple and streamlined consensus approach, which crystallizes years of research in simplifying and improving classical consensus protocols. While the simplicity of Streamlet is a major accomplishment, the protocol lacks certain practical features, such as supporting a stable block proposer, and it makes strong assumptions, such as synchronized clocks and the implicit echoing of all messages. Most importantly, it requires sending $O(N^3)$ messages per block in a network of $N$ nodes, which poses a significant challenge to its application in larger networks. To address these limitations, we introduce Pipelet, a practical streamlined consensus protocol. Pipelet employs the same block-finalization rule as Streamlet, but attains state-of-the-art performance in terms of communication complexity and provides features that are crucial for practical applications, such as clock synchronization and stable block proposers. At the same time, Pipelet retains the simplicity of Streamlet, which presents significant practical advantages, such as ease of implementation and verification.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-17
# BERTを用いたフェデレーションラーニングを用いたソフトウェア定義VANETにおけるプライバシ保護侵入検出

Privacy-Preserving Intrusion Detection in Software-defined VANET using Federated Learning with BERT ( http://arxiv.org/abs/2401.07343v2 )

ライセンス: Link先を確認
Shakil Ibne Ahsan, Phil Legg, S M Iftekharul Alam, (参考訳) 堅牢なセキュリティプロトコルがないため、VANET(Vehicle ad-hoc Networks)ネットワークは、乗客と道路安全を妥協することで、サイバー脅威に対して開放される。 侵入検知システム(IDS)は、ネットワークセキュリティの脅威を検出するために広く利用されている。 道路や多様な環境における車両のモビリティの高さにより、VANETは、絶えず変化するネットワークトポロジを考案し、プライバシとセキュリティが欠如し、帯域幅の効率が制限される。 VANETのプライバシー対策、エンドツーエンド暗号化方法、ローカルデータ処理システムの欠如は、多くのプライバシーとセキュリティ上の問題をもたらす。 したがって、新しいリアルタイム処理IDSアプローチをこの新興技術に活用できるかどうかを評価することが重要である。 本研究では,シーケンス分類のためのBERTモデルと協調して,Federated Learning(FL)機能を用いた侵入検出手法を提案する。 データプライバシの重要性は明確に認識されている。 FL方法論によると、各クライアントは独自のローカルモデルとデータセットを持っている。 彼らはモデルをローカルにトレーニングし、モデルの重みをサーバに送る。 集約後、サーバはすべてのクライアントの重みを集約し、グローバルモデルを更新します。 集約後、グローバルモデルの重みはクライアントと共有される。 このプラクティスは、個々のクライアントのデバイスに機密性の高い生データをセキュアに保存し、効果的にプライバシを保護する。 フェデレートされた学習手順を実行した後、別個のテストデータセットを用いてモデルの性能を評価した。 FL-BERT技術は有望な結果をもたらし、この研究分野におけるさらなる研究の道を開いた。 既存の研究結果を比較した結果、FL-BERTはプライバシーやセキュリティ上の問題に対してより効果的であることが分かりました。 この結果から,FL-BERTは攻撃検出を向上するための有望な手法であることが示唆された。

The absence of robust security protocols renders the VANET (Vehicle ad-hoc Networks) network open to cyber threats by compromising passengers and road safety. Intrusion Detection Systems (IDS) are widely employed to detect network security threats. With vehicles' high mobility on the road and diverse environments, VANETs devise ever-changing network topologies, lack privacy and security, and have limited bandwidth efficiency. The absence of privacy precautions, End-to-End Encryption methods, and Local Data Processing systems in VANET also present many privacy and security difficulties. So, assessing whether a novel real-time processing IDS approach can be utilized for this emerging technology is crucial. The present study introduces a novel approach for intrusion detection using Federated Learning (FL) capabilities in conjunction with the BERT model for sequence classification (FL-BERT). The significance of data privacy is duly recognized. According to FL methodology, each client has its own local model and dataset. They train their models locally and then send the model's weights to the server. After aggregation, the server aggregates the weights from all clients to update a global model. After aggregation, the global model's weights are shared with the clients. This practice guarantees the secure storage of sensitive raw data on individual clients' devices, effectively protecting privacy. After conducting the federated learning procedure, we assessed our models' performance using a separate test dataset. The FL-BERT technique has yielded promising results, opening avenues for further investigation in this particular area of research. We reached the result of our approaches by comparing existing research works and found that FL-BERT is more effective for privacy and security concerns. Our results suggest that FL-BERT is a promising technique for enhancing attack detection.
翻訳日:2024-03-25 12:37:32 公開日:2024-01-17
# HasTEE+ : Haskellによる信頼できるクラウドコンピューティングと分析

HasTEE+ : Confidential Cloud Computing and Analytics with Haskell ( http://arxiv.org/abs/2401.08901v1 )

ライセンス: Link先を確認
Abhiroop Sarkar, Alejandro Russo, (参考訳) Confidential Computingは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア分離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にするセキュリティパラダイムである。 TEEをリモートテストプロトコルに統合することにより、サードパーティが信頼できないクラウド内にホストされる‘textit{enclave}’の整合性を確立することができる。 しかし、Intel SGXやARM TrustZoneのようなTEEソリューションは、固有のメモリ安全性の脆弱性に敏感な低レベルのC/C++ベースのツールチェーンを提供し、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。 さらに、ツールチェーンには複雑なマルチプロジェクトの階層と、 \textit{enclave}の整合性を検証する手書きの検査プロトコルが配置されている。 私たちは、Haskellに埋め込まれたドメイン固有言語(DSL)であるHasTEE+を使って、強力な型安全性を持つ高レベルの言語でTEEをプログラミングできます。 HasTEE+は,(1)分散クライアントサーバ間のインタラクションを単一のプログラムとして表現する‘textit{tierless}プログラミングモデルの導入,(2)アプリケーション固有の横断的検証コードを記述する必要性を排除した一般的なリモートテストアーキテクチャの統合,(3)明示的かつ暗黙的なデータ漏洩を防止するために動的情報フロー制御機構を活用することにより,マルチ層クラウドアプリケーション開発を支援する。 本稿では、機密データ分析のケーススタディを通じてHasTEE+の実用性を実証し、相互不信な参加者に適用可能なデータ共有パターンを示し、全体的なパフォーマンス指標を提供する。

Confidential computing is a security paradigm that enables the protection of confidential code and data in a co-tenanted cloud deployment using specialized hardware isolation units called Trusted Execution Environments (TEEs). By integrating TEEs with a Remote Attestation protocol, confidential computing allows a third party to establish the integrity of an \textit{enclave} hosted within an untrusted cloud. However, TEE solutions, such as Intel SGX and ARM TrustZone, offer low-level C/C++-based toolchains that are susceptible to inherent memory safety vulnerabilities and lack language constructs to monitor explicit and implicit information-flow leaks. Moreover, the toolchains involve complex multi-project hierarchies and the deployment of hand-written attestation protocols for verifying \textit{enclave} integrity. We address the above with HasTEE+, a domain-specific language (DSL) embedded in Haskell that enables programming TEEs in a high-level language with strong type-safety. HasTEE+ assists in multi-tier cloud application development by (1) introducing a \textit{tierless} programming model for expressing distributed client-server interactions as a single program, (2) integrating a general remote-attestation architecture that removes the necessity to write application-specific cross-cutting attestation code, and (3) employing a dynamic information flow control mechanism to prevent explicit as well as implicit data leaks. We demonstrate the practicality of HasTEE+ through a case study on confidential data analytics, presenting a data-sharing pattern applicable to mutually distrustful participants and providing overall performance metrics.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# RandOhm:ランダム化回路構成を用いたインピーダンスサイドチャネル攻撃の軽減

RandOhm: Mitigating Impedance Side-channel Attacks using Randomized Circuit Configurations ( http://arxiv.org/abs/2401.08925v1 )

ライセンス: Link先を確認
Saleh Khalaj Monfared, Domenic Forte, Shahin Tajik, (参考訳) 物理的サイドチャネル攻撃は集積回路のセキュリティを損なう可能性がある。 ほとんどの物理的サイドチャネル攻撃(例えば電力や電磁)は、通常、現在の消費の変化や、マスキングなどのアルゴリズムによる対策によって攻撃を効果的に軽減できる電圧変動として、チップの動的挙動を利用する。 しかし、最近示されたように、これらの緩和技術はインピーダンス解析のような後方散乱したサイドチャネル攻撃に対して完全には効果がない。 インピーダンス攻撃の場合、敵はチップ電源ネットワーク(PDN)のデータ依存インピーダンス変動を利用して秘密情報を抽出する。 本研究では、メインストリームFPGAの部分的再構成に基づく移動目標防御(MTD)戦略を利用して、インピーダンス側チャネル攻撃に対する防御を行うRandOhmを紹介する。 PDNインピーダンスによる情報漏洩は、回路の秘密に敏感な部分のランタイム再構成によって低減できることを示す。 これにより、回路の配置とルーティングを常にランダムにすることで、インピーダンス値からデータ依存の計算を非相関化することができる。 本研究では,28nmFPGA上で実現されたAES暗号の実装に対して,2つの異なる部分再構成戦略を備えた系統的手法を提案する。 我々は,遅延と性能の観点から緩和のオーバーヘッドを調査し,これらの実装に対する非目立たずかつプロファイル化されたインピーダンス解析攻撃を実行してセキュリティ解析を行い,そのレジリエンスを実証する。

Physical side-channel attacks can compromise the security of integrated circuits. Most of the physical side-channel attacks (e.g., power or electromagnetic) exploit the dynamic behavior of a chip, typically manifesting as changes in current consumption or voltage fluctuations where algorithmic countermeasures, such as masking, can effectively mitigate the attacks. However, as demonstrated recently, these mitigation techniques are not entirely effective against backscattered side-channel attacks such as impedance analysis. In the case of an impedance attack, an adversary exploits the data-dependent impedance variations of chip power delivery network (PDN) to extract secret information. In this work, we introduce RandOhm, which exploits moving target defense (MTD) strategy based on partial reconfiguration of mainstream FPGAs, to defend against impedance side-channel attacks. We demonstrate that the information leakage through the PDN impedance could be reduced via run-time reconfiguration of the secret-sensitive parts of the circuitry. Hence, by constantly randomizing the placement and routing of the circuit, one can decorrelate the data-dependent computation from the impedance value. To validate our claims, we present a systematic approach equipped with two different partial reconfiguration strategies on implementations of the AES cipher realized on 28-nm FPGAs. We investigate the overhead of our mitigation in terms of delay and performance and provide security analysis by performing non-profiled and profiled impedance analysis attacks against these implementations to demonstrate the resiliency of our approach.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# 拡張Bツリーを用いたクラウドデータストレージの効率的かつスケーラブルな監査方式

An Efficient and Scalable Auditing Scheme for Cloud Data Storage using an Enhanced B-tree ( http://arxiv.org/abs/2401.08953v1 )

ライセンス: Link先を確認
Tariqul Islam, Faisal Haque Bappy, Md Nafis Ul Haque Shifat, Farhan Ahmad, Kamrul Hasan, Tarannum Shaila Zaman, (参考訳) アウトソースデータの完全性を検証するため,クラウドストレージ環境において,効率よく,スケーラブルで,かつ,確実にセキュアな動的監査方式が望ましい。 リモート整合性チェックに関する既存の作業のほとんどは静的アーカイブデータに重点を置いているため、動的データ更新がより一般的であるケースには適用できない。 さらに、既存の監査スキームはパフォーマンスのボトルネックとスケーラビリティの問題に悩まされている。 このような問題に対処するため,本論文では,Bツリーの強化版を活用した,集中型クラウド環境のための動的監査手法を提案する。 提案手法は,分散システム(ブロックチェーン技術)の不変特性を効果的に解決しつつ,そのようなシステムの同期と性能の課題に対処する。 他の静的監査スキームとは異なり、我々のスキームは動的挿入、更新、削除操作をサポートしている。 また,拡張されたBツリーを利用することで,特定のファイルへの変更後のバランスのとれたツリーを維持でき,性能が大幅に向上する。 実験の結果,従来のMerkle Hash Treeをベースとした集中型監査と,ブロック修正(例えば,挿入,削除,更新),ブロック検索,データ検証時間)の両面で,ブロックチェーンベースの監査スキームよりも優れた結果が得られた。

An efficient, scalable, and provably secure dynamic auditing scheme is highly desirable in the cloud storage environment for verifying the integrity of the outsourced data. Most of the existing work on remote integrity checking focuses on static archival data and therefore cannot be applied to cases where dynamic data updates are more common. Additionally, existing auditing schemes suffer from performance bottlenecks and scalability issues. To address these issues, in this paper, we present a novel dynamic auditing scheme for centralized cloud environments leveraging an enhanced version of the B-tree. Our proposed scheme achieves the immutable characteristic of a decentralized system (i.e., blockchain technology) while effectively addressing the synchronization and performance challenges of such systems. Unlike other static auditing schemes, our scheme supports dynamic insert, update, and delete operations. Also, by leveraging an enhanced B-tree, our scheme maintains a balanced tree after any alteration to a certain file, improving performance significantly. Experimental results show that our scheme outperforms both traditional Merkle Hash Tree-based centralized auditing and decentralized blockchain-based auditing schemes in terms of block modifications (e.g., insert, delete, update), block retrieval, and data verification time.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# ヘルスケアとIoTセキュリティのための機械学習 - レビューとリスク軽減

Machine Learning for Healthcare-IoT Security: A Review and Risk Mitigation ( http://arxiv.org/abs/2401.09124v1 )

ライセンス: Link先を確認
Mirza Akhi Khatun, Sanober Farheen Memon, Ciarán Eising, Lubna Luxmi Dhirani, (参考訳) デジタルヘルスケア(Digital Healthcare)として知られるHealthcare Internet-of-Things(H-IoT)は、スマートセンシングデバイス(血圧モニター、温度センサーなど)に強く依存して、応答時間、治療、診断を高速化するデータ駆動インフラストラクチャである。 しかし、進化するサイバー脅威の状況において、IoTデバイスはより広いリスク表面(例えば、生成AIや5G-IoTに関連するリスクなど)に対してより脆弱になっている。 本稿では、医療用IoTの基礎、プライバシ、マシンラーニングやH-IoTデバイスに関連するデータセキュリティの課題についてレビューする。 この論文は、知覚、ネットワーク、クラウド、アプリケーションなどの医療用IoTレイヤを監視することの重要性をさらに強調する。 異常の検出と応答には、Wi-Fi 6、Narrowband Internet of Things (NB-IoT)、Bluetooth、ZigBee、LoRa、および5G New Radio (5G NR)などの様々なサイバー攻撃とプロトコルが含まれる。 マシンラーニングとディープラーニング技術に基づく堅牢な認証メカニズムは、H-IoTデバイスをサイバーセキュリティの脆弱性の増加から保護し、軽減するために必要である。 したがって、このレビュー論文では、H-IoTでレジリエンスを構築するためのセキュリティとプライバシの課題とリスク軽減戦略を調査し、報告する。

The Healthcare Internet-of-Things (H-IoT), commonly known as Digital Healthcare, is a data-driven infrastructure that highly relies on smart sensing devices (i.e., blood pressure monitors, temperature sensors, etc.) for faster response time, treatments, and diagnosis. However, with the evolving cyber threat landscape, IoT devices have become more vulnerable to the broader risk surface (e.g., risks associated with generative AI, 5G-IoT, etc.), which, if exploited, may lead to data breaches, unauthorized access, and lack of command and control and potential harm. This paper reviews the fundamentals of healthcare IoT, its privacy, and data security challenges associated with machine learning and H-IoT devices. The paper further emphasizes the importance of monitoring healthcare IoT layers such as perception, network, cloud, and application. Detecting and responding to anomalies involves various cyber-attacks and protocols such as Wi-Fi 6, Narrowband Internet of Things (NB-IoT), Bluetooth, ZigBee, LoRa, and 5G New Radio (5G NR). A robust authentication mechanism based on machine learning and deep learning techniques is required to protect and mitigate H-IoT devices from increasing cybersecurity vulnerabilities. Hence, in this review paper, security and privacy challenges and risk mitigation strategies for building resilience in H-IoT are explored and reported.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# O-RANにおける早期攻撃検出と悪意流の防御のためのクロスドメインAI

Cross-Domain AI for Early Attack Detection and Defense Against Malicious Flows in O-RAN ( http://arxiv.org/abs/2401.09204v1 )

ライセンス: Link先を確認
Bruno Missi Xavier, Merim Dzaferagic, Irene Vilà, Magnos Martinello, Marco Ruffini, (参考訳) サイバー攻撃との戦いにおいて、Network Softwarization(NS)はフレキシブルで適応可能なシールドであり、通常のネットワークトラフィックで悪意のあるアクティビティを見つけるために高度なソフトウェアを使用する。 しかし、ソースに近い攻撃検出のための機械学習(ML)ソリューションの開発に基本となるモバイルネットワーク用の包括的なデータセットは、依然として限られている。 クロスドメイン人工知能(AI)は、Open Radio Access Network(O-RAN)におけるその応用はまだ初期段階にあるが、この問題に対処するための鍵となる。 これらの課題に対処するため、RANとトランスポートネットワークからデータを収集するために使用されるエンドツーエンドのO-RANネットワークをデプロイしました。 これらのデータセットは、攻撃検出のためのネットワーク内MLトラフィック分類器からの知識を組み合わせて、RANに特化されたMLベースのトラフィック分類器のトレーニングを強化する。 提案手法の可能性を実証し,精度を93%とした。 このアプローチは、モバイルネットワークセキュリティにおける重要なギャップを埋めるだけでなく、ネットワークセキュリティ対策の有効性を高めるためのクロスドメインAIの可能性も示している。

Only the chairs can edit In the fight against cyber attacks, Network Softwarization (NS) is a flexible and adaptable shield, using advanced software to spot malicious activity in regular network traffic. However, the availability of comprehensive datasets for mobile networks, which are fundamental for the development of Machine Learning (ML) solutions for attack detection near their source, is still limited. Cross-Domain Artificial Intelligence (AI) can be the key to address this, although its application in Open Radio Access Network (O-RAN) is still at its infancy. To address these challenges, we deployed an end-to-end O-RAN network, that was used to collect data from the RAN and the transport network. These datasets allow us to combine the knowledge from an in-network ML traffic classifier for attack detection to bolster the training of an ML-based traffic classifier specifically tailored for the RAN. Our results demonstrate the potential of the proposed approach, achieving an accuracy rate of 93%. This approach not only bridges critical gaps in mobile network security but also showcases the potential of cross-domain AI in enhancing the efficacy of network security measures.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# RISC-Vオープンソースプロセッサのためのハードウェアソフトリーク契約の合成

Synthesizing Hardware-Software Leakage Contracts for RISC-V Open-Source Processors ( http://arxiv.org/abs/2401.09383v1 )

ライセンス: Link先を確認
Gideon Mohr, Marco Guarnieri, Jan Reineke, (参考訳) マイクロアーキテクチャー攻撃は、キャッシュや投機的実行といったマイクロアーキテクチャー最適化のソフトウェア可視アーチファクトを活用することでセキュリティを損なう。 このような攻撃をソフトウェアレベルで防御するには、マイクロアーキテクチャの漏洩を捉える命令セットアーキテクチャ(ISA)レベルで適切な抽象化が必要である。 ハードウェアソフトウェアリーク契約は、最近そのような抽象化として提案されている。 本稿では,オープンソースマイクロアーキテクチャのためのハードウェア・ソフトウェアリーク契約を合成する半自動手法を提案する。 特定のISAに対して、我々のアプローチは人間の専門家に頼っている。 (a)コントラクトテンプレートの形式で可能なコントラクトの空間をキャプチャします。 b) マイクロアーキテクチャーの潜在的な漏洩を探索するテストケース生成戦略を考案する。 ISAの実装のために、これらの2つの材料は、マイクロアーキテクチャによって満たされる最も正確なリーク契約を自動で合成するために使用される。 我々はRISC-V ISAのためにこの手法をインスタンス化し、IbexおよびCVA6オープンソースプロセッサに適用した。 我々の実験は方法論の実用性を示し、微妙で予期せぬリークを明らかにする。

Microarchitectural attacks compromise security by exploiting software-visible artifacts of microarchitectural optimizations such as caches and speculative execution. Defending against such attacks at the software level requires an appropriate abstraction at the instruction set architecture (ISA) level that captures microarchitectural leakage. Hardware-software leakage contracts have recently been proposed as such an abstraction. In this paper, we propose a semi-automatic methodology for synthesizing hardware-software leakage contracts for open-source microarchitectures. For a given ISA, our approach relies on human experts to (a) capture the space of possible contracts in the form of contract templates and (b) devise a test-case generation strategy to explore a microarchitecture's potential leakage. For a given implementation of an ISA, these two ingredients are then used to automatically synthesize the most precise leakage contract that is satisfied by the microarchitecture. We have instantiated this methodology for the RISC-V ISA and applied it to the Ibex and CVA6 open-source processors. Our experiments demonstrate the practical applicability of the methodology and uncover subtle and unexpected leaks.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# MDS符号化分散ストレージからの弱生成情報検索

Weakly-Private Information Retrieval From MDS-Coded Distributed Storage ( http://arxiv.org/abs/2401.09412v1 )

ライセンス: Link先を確認
Asbjørn O. Orvedal, Hsuan-Yin Lin, Eirik Rosnes, (参考訳) 我々は、データが最大距離分離可能コードで符号化され、複数のサーバにまたがって格納される場合、弱いプライベート情報検索(WPIR)の問題を考える。 WPIRでは、ユーザは、関心のあるデータに関する情報をあまり漏らさずに、サーバの集合からデータを取り出したいと思っている。 本稿では,このシナリオに対する最初のWPIRプロトコルについて検討し,最大漏洩プライバシー指標を用いて,ダウンロード率と情報漏洩の最適なトレードオフについて述べる。

We consider the problem of weakly-private information retrieval (WPIR) when data is encoded by a maximum distance separable code and stored across multiple servers. In WPIR, a user wishes to retrieve a piece of data from a set of servers without leaking too much information about which piece of data she is interested in. We study and provide the first WPIR protocols for this scenario and present results on their optimal trade-off between download rate and information leakage using the maximal leakage privacy metric.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-17
# スマートホーム(SH)システムにおけるプライバシエンジニアリング : 包括的プライバシ脅威分析とリスク管理アプローチ

Privacy Engineering in Smart Home (SH) Systems: A Comprehensive Privacy Threat Analysis and Risk Management Approach ( http://arxiv.org/abs/2401.09519v1 )

ライセンス: Link先を確認
Emmanuel Dare Alalade, Mohammed Mahyoub, Ashraf Matrawy, (参考訳) スマートホーム(SH)システムにおける信頼関係への対処は、効果的なリスク管理のためのプライバシ脅威を分析し評価することに焦点を当てた保存的アプローチの限定的な研究のため、不可欠である。 ほとんどの研究はユーザのプライバシに重点を置いているが、デバイスデータのプライバシ、特にIDプライバシはほぼ無視されているため、SHシステム全体のプライバシに大きな影響を与える可能性がある。 そこで本研究では,ユーザおよびデバイスデータのプライバシを考慮したSHシステムに,プライバシエンジニアリング(PE)の原則を取り入れた。 まず、一般的なSHシステムの包括的な参照モデルから始める。 PEフレームワークのLINDDUN PROの初期段階に基づいて、典型的なSH参照モデルに基づくデータフロー図(DFD)を示し、SHシステム操作をよりよく理解する。 プライバシ脅威の潜在的な領域を特定し、プライバシ脅威分析(PTA)を行うために、LINDDUN PRO脅威モデルを用いる。 その後,プライバシ・インパクト・アセスメント(PIA)を実施し,プライバシ・リスク・マネジメントの実現に向けて,プライバシ・リスク・アセスメント(プライバシ・インパクト・アセスメント,プライバシ・インパクト・アセスメント,プライバシ・リスク・マネジメント,プライバシ・リスク・マネジメント,プライバシ・リスク・マネジメント,プライバシ・リスク・アセスメント,プライバシ・リスク・アセスメント,プライバシ・アセスメント,プライバシ・アセスメント,プライバシ・アセスメント,プライバシ・アセスメント 最後に、これらの脅威のいくつかを緩和できるプライバシー強化技術(PET)を提案する。 この研究は、SHシステムにおけるプライバシー管理の主な脅威、関連するリスク、および効果的なプライバシ制御の優先順位付けを解明することを目的としている。 この研究の結果は、SHシステムドメイン内のベンダー、クラウドプロバイダ、ユーザ、研究者、規制機関を含むSH利害関係者に恩恵をもたらすことが期待されている。

Addressing trust concerns in Smart Home (SH) systems is imperative due to the limited study on preservation approaches that focus on analyzing and evaluating privacy threats for effective risk management. While most research focuses primarily on user privacy, device data privacy, especially identity privacy, is almost neglected, which can significantly impact overall user privacy within the SH system. To this end, our study incorporates privacy engineering (PE) principles in the SH system that consider user and device data privacy. We start with a comprehensive reference model for a typical SH system. Based on the initial stage of LINDDUN PRO for the PE framework, we present a data flow diagram (DFD) based on a typical SH reference model to better understand SH system operations. To identify potential areas of privacy threat and perform a privacy threat analysis (PTA), we employ the LINDDUN PRO threat model. Then, a privacy impact assessment (PIA) was carried out to implement privacy risk management by prioritizing privacy threats based on their likelihood of occurrence and potential consequences. Finally, we suggest possible privacy enhancement techniques (PETs) that can mitigate some of these threats. The study aims to elucidate the main threats to privacy, associated risks, and effective prioritization of privacy control in SH systems. The outcomes of this study are expected to benefit SH stakeholders, including vendors, cloud providers, users, researchers, and regulatory bodies in the SH systems domain.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-17
# 新興技術時代のゼロトラスト実装:サーベイ

Zero Trust Implementation in the Emerging Technologies Era: Survey ( http://arxiv.org/abs/2401.09575v1 )

ライセンス: Link先を確認
Abraham Itzhak Weinberg, Kelly Cohen, (参考訳) 本稿では,従来のセキュリティモデルからゼロトラスト(ZT)フレームワークへの移行を包括的に分析し,ZTの移行と実用化の要点を強調した。 これは、ZTポリシーとレガシーセキュリティポリシーの違いと、ZTの進化に影響を与えた重要な出来事を概説している。 さらに、人工知能(AI)や量子コンピューティングといった新興技術がZTのポリシーと実装に与える影響についても検討する。 この研究は、機械学習(ML)アルゴリズムを使用してパターンを分析し、異常を検出し、脅威を予測し、リアルタイムな意思決定プロセスを改善することによって、AIがZTを強化する方法について、徹底的に検討している。 さらに,eXtended Detection and Response (XDR) などの他の技術とともに,カオス理論に基づくアプローチが,サイバー攻撃を効果的に軽減できることを示す。 量子コンピューティングがZTとサイバーセキュリティ全体に新しい課題を提示しているため、論文はZTマイグレーション、自動化、オーケストレーションの複雑さを掘り下げ、これらの側面に関連する複雑さに対処する。 最後に、この論文は組織におけるZTのシームレスな実装のためのベストプラクティスを提供し、よりセキュアなZTモデルへの移行を促進するためのガイドラインを策定する。 この研究は、ZTの実施の成功とサイバーセキュリティ対策の強化を支援することを目的としている。

This paper presents a comprehensive analysis of the shift from the traditional perimeter model of security to the Zero Trust (ZT) framework, emphasizing the key points in the transition and the practical application of ZT. It outlines the differences between ZT policies and legacy security policies, along with the significant events that have impacted the evolution of ZT. Additionally, the paper explores the potential impacts of emerging technologies, such as Artificial Intelligence (AI) and quantum computing, on the policy and implementation of ZT. The study thoroughly examines how AI can enhance ZT by utilizing Machine Learning (ML) algorithms to analyze patterns, detect anomalies, and predict threats, thereby improving real-time decision-making processes. Furthermore, the paper demonstrates how a chaos theory-based approach, in conjunction with other technologies like eXtended Detection and Response (XDR), can effectively mitigate cyberattacks. As quantum computing presents new challenges to ZT and cybersecurity as a whole, the paper delves into the intricacies of ZT migration, automation, and orchestration, addressing the complexities associated with these aspects. Finally, the paper provides a best practice approach for the seamless implementation of ZT in organizations, laying out the proposed guidelines to facilitate organizations in their transition towards a more secure ZT model. The study aims to support organizations in successfully implementing ZT and enhancing their cybersecurity measures.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-17
# プログラム型照明顕微鏡のためのハイブリッドディープラーニングと物理ベースニューラルネットワーク

Hybrid deep learning and physics-based neural network for programmable illumination computational microscopy ( http://arxiv.org/abs/2403.12970v1 )

ライセンス: Link先を確認
Ruiqing Sun, Delong Yang, Shaohui Zhang, Qun Hao, (参考訳) 深層モデルと物理モデルの両方を頼りにする手法は、プログラム可能な照明計算顕微鏡における逆サンプル再構成問題を解くための2つの主要なアプローチである。 物理モデルに基づく解は、物理制約が不十分なため、逆問題の大域的最適化に苦慮しながら、強力な一般化能力を有する。 対照的に、ディープラーニングの手法は強力な問題解決能力を持っているが、その一般化能力は不明瞭な物理原理のためにしばしば疑問視される。 さらに、高品質なトレーニングデータを取得するのが困難であり、さまざまなシナリオにまたがって一般化する能力が限られているため、従来のディープモデルの適用は困難である。 本稿では,ディープモデルと物理モデルの利点を組み合わせるために,3つのサブニューラルネットワーク(2つのディープラーニングネットワークと1つの物理ベースネットワーク)からなるハイブリッドフレームワークを提案する。 まず、光深層学習ニューラルネットワークを用いてリッチな意味情報を取得し、それを物理ネットワークの初期値として利用し、その出力を物理プロセスの制約に適合させる。 これらの2つの結果は、融合深層学習ニューラルワークの入力として使用され、2つの異なるモデルの再構成結果のペア化特徴を利用して、画像品質をさらに向上する。 最終結果は深部モデルと物理モデルの両方の利点を統合し、プログラム可能な照明顕微鏡における計算再構成逆問題を迅速に解き、より良い結果が得られる。 提案手法の有効性と妥当性を理論的解析と実測実験により検証した。

Relying on either deep models or physical models are two mainstream approaches for solving inverse sample reconstruction problems in programmable illumination computational microscopy. Solutions based on physical models possess strong generalization capabilities while struggling with global optimization of inverse problems due to a lack of insufficient physical constraints. In contrast, deep learning methods have strong problem-solving abilities, but their generalization ability is often questioned because of the unclear physical principles. Besides, conventional deep models are difficult to apply to some specific scenes because of the difficulty in acquiring high-quality training data and their limited capacity to generalize across different scenarios. In this paper, to combine the advantages of deep models and physical models together, we propose a hybrid framework consisting of three sub-neural networks (two deep learning networks and one physics-based network). We first obtain a result with rich semantic information through a light deep learning neural network and then use it as the initial value of the physical network to make its output comply with physical process constraints. These two results are then used as the input of a fusion deep learning neural work which utilizes the paired features between the reconstruction results of two different models to further enhance imaging quality. The final result integrates the advantages of both deep models and physical models and can quickly solve the computational reconstruction inverse problem in programmable illumination computational microscopy and achieve better results. We verified the feasibility and effectiveness of the proposed hybrid framework with theoretical analysis and actual experiments on resolution targets and biological samples.
翻訳日:2024-03-25 07:27:10 公開日:2024-01-17
# 熱帯暗号III:デジタル署名

Tropical cryptography III: digital signatures ( http://arxiv.org/abs/2309.11256v2 )

ライセンス: Link先を確認
Jiale Chen, Dima Grigoriev, Vladimir Shpilrain, (参考訳) 我々は、非常に効率的なデジタル署名プロトコルのプラットフォームとしてトロピカル代数を用いる。 セキュリティは1変数の熱帯多項式を分解する計算硬度に依存しており、この問題はNPハードであることが知られている。

We use tropical algebras as platforms for a very efficient digital signature protocol. Security relies on computational hardness of factoring one-variable tropical polynomials; this problem is known to be NP-hard.
翻訳日:2024-03-19 04:10:47 公開日:2024-01-17
# 神経細胞形態形成のための同期層別成長法

A Synchronized Layer-by-layer Growing Approach for Plausible Neuronal Morphology Generation ( http://arxiv.org/abs/2401.09500v1 )

ライセンス: Link先を確認
Nianzu Yang, Kaipeng Zeng, Haotian Lu, Yexin Wu, Zexin Yuan, Shengdian Jiang, Jiaxiang Wu, Yimin Wang, Junchi Yan(参考訳) 神経形態学は神経変性疾患の研究と理解に不可欠である。 実世界の形態データの取得は高価であるため、特にモルフォロジー生成のためのMorphVAEのような学習ベースの手法が最近研究され、しばしば特定の真正な形態をランダムに増補して妥当性を高める方法として行われている。 そこで本研究では,MorphVAEの1ショット処理ではなく,自然成長機構を模倣することにより,より可塑性な形態素サンプルを生成することを目的とした。 具体的には、モルフォロジー層を同期的に生成し、一対の兄弟枝を基本生成ブロックとして選択し、各層の生成を前層のモルフォロジー構造に基づいて条件付けし、球状潜在空間を有する条件付き変分オートエンコーダを介してモルフォロジーを生成する。 4つの実世界のデータセットに関する広範囲な実験の結果は、morphgrowerがmorphvaeを上回っていることを示している。 私たちのコードは、将来の研究を促進するために公開されます。

Neuronal morphology is essential for studying brain functioning and understanding neurodegenerative disorders. As the acquiring of real-world morphology data is expensive, computational approaches especially learning-based ones e.g. MorphVAE for morphology generation were recently studied, which are often conducted in a way of randomly augmenting a given authentic morphology to achieve plausibility. Under such a setting, this paper proposes \textbf{MorphGrower} which aims to generate more plausible morphology samples by mimicking the natural growth mechanism instead of a one-shot treatment as done in MorphVAE. Specifically, MorphGrower generates morphologies layer by layer synchronously and chooses a pair of sibling branches as the basic generation block, and the generation of each layer is conditioned on the morphological structure of previous layers and then generate morphologies via a conditional variational autoencoder with spherical latent space. Extensive experimental results on four real-world datasets demonstrate that MorphGrower outperforms MorphVAE by a notable margin. Our code will be publicly available to facilitate future research.
翻訳日:2024-02-11 17:47:43 公開日:2024-01-17
# アドバイザのためのアナリティクスダッシュボードの学習 - 体系的な文献レビュー

Learning Analytics Dashboards for Advisors -- A Systematic Literature Review ( http://arxiv.org/abs/2402.01671v1 )

ライセンス: Link先を確認
Suchith Reddy Vemula (1) and Marcia Moraes (1) ((1) Colorado State University, USA)(参考訳) learning analytics dashboard for advisorsは、学生の学業の進歩、エンゲージメント、ターゲットとなるサポート、そして全体的な成功に関する意思決定において、アドバイザーを支援するデータ駆動の洞察と視覚化を提供するように設計されている。 本研究は,分析ダッシュボードの学習における技術の現状を考察し,アドバイザーの要求に焦点をあてる。 本研究は,既存の文献とケーススタディを調査し,アドバイザニーズに合わせた効果的な学習分析ダッシュボードに必要な重要な特徴と機能について検討する。 本研究の目的は、分析に使用される21の研究論文から現在の傾向を合成することによって、アドバイザの学習分析ダッシュボードの展望を包括的に理解し、開発における進歩、機会、課題に関する洞察を提供することである。 この発見は、学習分析ダッシュボードにおける新機能の設計と実装に寄与し、アドバイザが積極的に個人化されたサポートを提供し、最終的には学生の定着と学術的成功を促進する。

Learning Analytics Dashboard for Advisors is designed to provide data-driven insights and visualizations to support advisors in their decision-making regarding student academic progress, engagement, targeted support, and overall success. This study explores the current state of the art in learning analytics dashboards, focusing on specific requirements for advisors. By examining existing literature and case studies, this research investigates the key features and functionalities essential for an effective learning analytics dashboard tailored to advisor needs. This study also aims to provide a comprehensive understanding of the landscape of learning analytics dashboards for advisors, offering insights into the advancements, opportunities, and challenges in their development by synthesizing the current trends from a total of 21 research papers used for analysis. The findings will contribute to the design and implementation of new features in learning analytics dashboards that empower advisors to provide proactive and individualized support, ultimately fostering student retention and academic success.
翻訳日:2024-02-11 16:49:20 公開日:2024-01-17
# ニューラルネットワークを用いた大気密度適応型精密火星探査ナビゲーション

Precision Mars Entry Navigation with Atmospheric Density Adaptation via Neural Networks ( http://arxiv.org/abs/2401.14411v1 )

ライセンス: Link先を確認
Felipe Giraldo-Grueso, Andrey A. Popov, Renato Zanetti(参考訳) 真の火星大気密度とオンボード密度モデルとの相違は、宇宙船の航法フィルタの性能を著しく損なう可能性がある。 この研究は、ニューラルネットワークを用いて大気密度を推定し、推定の不確実性を考慮した考察分析を用いることで、火星の突入に対するオンラインフィルタリングの新しいアプローチを導入する。 ネットワークは指数的な大気密度モデルに基づいて訓練され、そのパラメータは、真の密度と推定された密度のミスマッチを考慮するためにリアルタイムで動的に適応される。 ネットワークの適応は、最適なネットワークパラメータを識別するためにフィルタの測定革新を活用し、最大極大問題として定式化される。 ニューラルネットワークを組み込むことで、最大確率アプローチのコンテキスト内の機械学習領域における効率性で知られている確率的最適化を利用できるようになる。 従来の手法と性能の比較は、様々なリアルな火星の航法シナリオで行われ、結果として推定密度の推定精度と正確なアライメントが、摂動した火星のグラムデータからサンプリングされた現実的な火星の大気の幅広い選択によって得られた。

Discrepancies between the true Martian atmospheric density and the onboard density model can significantly impair the performance of spacecraft entry navigation filters. This work introduces a new approach to online filtering for Martian entry by using a neural network to estimate atmospheric density and employing a consider analysis to account for the uncertainty in the estimate. The network is trained on an exponential atmospheric density model, and its parameters are dynamically adapted in real time to account for any mismatches between the true and estimated densities. The adaptation of the network is formulated as a maximum likelihood problem, leveraging the measurement innovations of the filter to identify optimal network parameters. The incorporation of a neural network enables the use of stochastic optimizers known for their efficiency in the machine learning domain within the context of the maximum likelihood approach. Performance comparisons against previous approaches are conducted in various realistic Mars entry navigation scenarios, resulting in superior estimation accuracy and precise alignment of the estimated density with a broad selection of realistic Martian atmospheres sampled from perturbed Mars-GRAM data.
翻訳日:2024-02-04 05:41:15 公開日:2024-01-17
# 推薦システムのための機械学習: インサイト

Machine Unlearning for Recommendation Systems: An Insight ( http://arxiv.org/abs/2401.10942v1 )

ライセンス: Link先を確認
Bhavika Sachdeva, Harshita Rathee, Sristi, Arun Sharma, Witold Wydma\'nski(参考訳) このレビューでは、適応性、パーソナライゼーション、プライバシ、バイアス問題に対処するレコメンデーションシステムにおける機械学習(MUL)について検討する。 従来のモデルとは異なり、MULはユーザの好みや倫理的配慮の変化に基づいてシステム知識を動的に調整する。 この論文は、MULの基本、現実世界の応用、およびアルゴリズムの透明性のような課題について批判的に考察する。 MULがレコメンデーションをどう変えるか、ユーザ信頼について議論し、責任とユーザ中心の人工知能(AI)における将来の研究の道筋を提案する。 この文書は、パーソナライゼーションとプライバシのトレードオフに関わる課題を通じて研究者を導き、ターゲットデータ削除の実用的な要求を満たすために貢献を奨励する。 セキュアで適応的な機械学習におけるMULの役割を強調し、その境界を押し上げる方法を提案する。 本稿の目新しさは,この分野を前進させるエキサイティングな展望を浮き彫りにする手法の限界を探求することにある。

This review explores machine unlearning (MUL) in recommendation systems, addressing adaptability, personalization, privacy, and bias challenges. Unlike traditional models, MUL dynamically adjusts system knowledge based on shifts in user preferences and ethical considerations. The paper critically examines MUL's basics, real-world applications, and challenges like algorithmic transparency. It sifts through literature, offering insights into how MUL could transform recommendations, discussing user trust, and suggesting paths for future research in responsible and user-focused artificial intelligence (AI). The document guides researchers through challenges involving the trade-off between personalization and privacy, encouraging contributions to meet practical demands for targeted data removal. Emphasizing MUL's role in secure and adaptive machine learning, the paper proposes ways to push its boundaries. The novelty of this paper lies in its exploration of the limitations of the methods, which highlights exciting prospects for advancing the field.
翻訳日:2024-01-28 15:57:55 公開日:2024-01-17
# crowd-prefrl: 選好に基づく報酬学習

Crowd-PrefRL: Preference-Based Reward Learning from Crowds ( http://arxiv.org/abs/2401.10941v1 )

ライセンス: Link先を確認
David Chhan, Ellen Novoseller, Vernon J. Lawhern(参考訳) 優先度に基づく強化学習(RL)は、行動のペアよりもペアの選好を通じて人間のフィードバックを用いてエージェントを訓練するフレームワークを提供する。 このパラダイムは人間のフィードバックを活用するが、現在は1人の人間のユーザによるフィードバックを処理している。 一方、群衆(すなわち利用者のアンサンブル)からの選好フィードバックを堅牢に取り入れることは課題であり、複数のユーザからのフィードバックを使ってrlエージェントを訓練する問題は未解決である。 本研究では,観衆からのフィードバックを活かした嗜好に基づくRLを実現するフレームワークであるCrowd-PrefRLを紹介する。 本研究は,未知の知識と信頼性を持つ群集の選好フィードバックから報奨機能を学習する可能性を示す。 Crowd-PrefRLは、群衆の選好フィードバックを頑健に集約するだけでなく、(騒々しい)クラウドソースによる選好比較のみを使用して、群衆内の各ユーザの信頼性を推定する。 最も重要なことは、特に群衆間でのユーザエラー率の拡散が大きい場合、多数投票の好みや好みで訓練されたエージェントよりも、Crowd-PrefRLで訓練されたエージェントの方が優れていることである。 さらに,本手法が群集内の少数派視点を識別できることが示唆された。

Preference-based reinforcement learning (RL) provides a framework to train agents using human feedback through pairwise preferences over pairs of behaviors, enabling agents to learn desired behaviors when it is difficult to specify a numerical reward function. While this paradigm leverages human feedback, it currently treats the feedback as given by a single human user. Meanwhile, incorporating preference feedback from crowds (i.e. ensembles of users) in a robust manner remains a challenge, and the problem of training RL agents using feedback from multiple human users remains understudied. In this work, we introduce Crowd-PrefRL, a framework for performing preference-based RL leveraging feedback from crowds. This work demonstrates the viability of learning reward functions from preference feedback provided by crowds of unknown expertise and reliability. Crowd-PrefRL not only robustly aggregates the crowd preference feedback, but also estimates the reliability of each user within the crowd using only the (noisy) crowdsourced preference comparisons. Most importantly, we show that agents trained with Crowd-PrefRL outperform agents trained with majority-vote preferences or preferences from any individual user in most cases, especially when the spread of user error rates among the crowd is large. Results further suggest that our method can identify minority viewpoints within the crowd.
翻訳日:2024-01-28 15:57:39 公開日:2024-01-17
# reliance:信頼性のあるアンサンブル学習による情報とニュース信頼性の評価

RELIANCE: Reliable Ensemble Learning for Information and News Credibility Evaluation ( http://arxiv.org/abs/2401.10940v1 )

ライセンス: Link先を確認
Majid Ramezani, Hamed Mohammad-Shahi, Mahshid Daliry, Soroor Rahmani, Amir-Hosein Asghari(参考訳) 情報拡散の時代には、ニュースコンテンツの信頼性の認識がますます難しくなっている。 本稿では,堅牢な情報と偽ニュースの信頼性評価を目的とした,先駆的なアンサンブル学習システムRELIANCEを紹介する。 Support Vector Machine(SVM)、Naive Bayes(英語版)、ロジスティック回帰(英語版)、ランダムフォレスト(英語版)、Bidirectional Long Term Memory Networks(英語版) (BiLSTMs)を含む5つの多様なベースモデルで構成され、RELIANCEはその強度を統合する革新的なアプローチを採用し、アンサンブルの集合的知性を利用して精度を向上させる。 実験は、個々のモデルに対する信頼の優位性を示し、信頼できる情報ソースと信用できない情報ソースを区別する効果を示している。 Relianceはまた、情報およびニュース信頼性評価のベースラインモデルを超え、情報ソースの信頼性を評価する効果的なソリューションとしての地位を確立している。

In the era of information proliferation, discerning the credibility of news content poses an ever-growing challenge. This paper introduces RELIANCE, a pioneering ensemble learning system designed for robust information and fake news credibility evaluation. Comprising five diverse base models, including Support Vector Machine (SVM), naive Bayes, logistic regression, random forest, and Bidirectional Long Short Term Memory Networks (BiLSTMs), RELIANCE employs an innovative approach to integrate their strengths, harnessing the collective intelligence of the ensemble for enhanced accuracy. Experiments demonstrate the superiority of RELIANCE over individual models, indicating its efficacy in distinguishing between credible and non-credible information sources. RELIANCE, also surpasses baseline models in information and news credibility assessment, establishing itself as an effective solution for evaluating the reliability of information sources.
翻訳日:2024-01-28 15:57:14 公開日:2024-01-17
# 偶発的説明:正式な基礎、優先順位、複雑さ

Even-if Explanations: Formal Foundations, Priorities and Complexity ( http://arxiv.org/abs/2401.10938v1 )

ライセンス: Link先を確認
Gianvincenzo Alfano, Sergio Greco, Domenico Mandaglio, Francesco Parisi, Reza Shahbazian and Irina Trubitsyna(参考訳) 説明可能なAIは近年大きな注目を集めている。 機械学習モデルは、しばしばブラックボックスとして動作し、意思決定プロセスをサポートする一方で説明可能性と透明性を欠いている。 ローカルなポストホックな説明可能性クエリは、与えられたモデルによって個々の入力が特定の方法で分類される理由に答えようとする。 反事実的説明に関する重要な研究はあったが、半事実的説明にはあまり関心が向けられていない。 本稿では,半事実的"even-if"思考における局所的なポストホックな説明可能性クエリと,モデルの異なるクラス間の計算複雑性に着目し,線形モデルと木ベースモデルの両方がニューラルネットワークよりも厳密に解釈可能であることを示す。 そこで,本稿では,ユーザの嗜好に基づく説明のパーソナライズを可能にする,嗜好に基づくフレームワークを提案する。 最後に,提案する選好ベースのフレームワークにおけるいくつかの解釈可能性問題の複雑性を調べ,多項式の場合のアルゴリズムを提供する。

EXplainable AI has received significant attention in recent years. Machine learning models often operate as black boxes, lacking explainability and transparency while supporting decision-making processes. Local post-hoc explainability queries attempt to answer why individual inputs are classified in a certain way by a given model. While there has been important work on counterfactual explanations, less attention has been devoted to semifactual ones. In this paper, we focus on local post-hoc explainability queries within the semifactual `even-if' thinking and their computational complexity among different classes of models, and show that both linear and tree-based models are strictly more interpretable than neural networks. After this, we introduce a preference-based framework that enables users to personalize explanations based on their preferences, both in the case of semifactuals and counterfactuals, enhancing interpretability and user-centricity. Finally, we explore the complexity of several interpretability problems in the proposed preference-based framework and provide algorithms for polynomial cases.
翻訳日:2024-01-28 15:56:53 公開日:2024-01-17
# 主観的因果性

Subjective Causality ( http://arxiv.org/abs/2401.10937v1 )

ライセンス: Link先を確認
Joseph Y. Halpern, Evan Piermont(参考訳) 意思決定者の主観的因果判断は,介入に対する嗜好を観察することで理解し,識別することが可能であることを示す。 パール [2000] に続いて、我々は因果モデル(構造方程式モデルとも呼ばれる)を用いて因果関係を表現する。 介入に対する嗜好関係が特定の公理(反事実に関する標準公理に関連する)を満たすならば、定義できることを示す。 (i)因果モデル 二 世界の外部要因に関する意思決定者の不確実性を捉えた確率 (iii)各介入が期待される効用と関連づけられ、かつ、介入$a$が$b$ iffより好ましい結果の効用$a$の期待効用は、$b$の効用よりも大きい。 さらに、因果モデルがユニークである場合に特徴付ける。 そこで本研究では,意思決定者の嗜好が何らかの因果モデルと一致しているという仮説をモデル化し,観察行動から因果判断を同定する。

We show that it is possible to understand and identify a decision maker's subjective causal judgements by observing her preferences over interventions. Following Pearl [2000], we represent causality using causal models (also called structural equations models), where the world is described by a collection of variables, related by equations. We show that if a preference relation over interventions satisfies certain axioms (related to standard axioms regarding counterfactuals), then we can define (i) a causal model, (ii) a probability capturing the decision-maker's uncertainty regarding the external factors in the world and (iii) a utility on outcomes such that each intervention is associated with an expected utility and such that intervention $A$ is preferred to $B$ iff the expected utility of $A$ is greater than that of $B$. In addition, we characterize when the causal model is unique. Thus, our results allow a modeler to test the hypothesis that a decision maker's preferences are consistent with some causal model and to identify causal judgements from observed behavior.
翻訳日:2024-01-28 15:56:36 公開日:2024-01-17
# SeeClick: 高度なビジュアルGUIエージェントのためのハーネスングGUIグラウンド

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents ( http://arxiv.org/abs/2401.10935v1 )

ライセンス: Link先を確認
Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Yantao Li, Jianbing Zhang, Zhiyong Wu(参考訳) グラフィカルユーザインタフェース(GUI)エージェントは、スマートフォンやデスクトップなどのデジタルデバイス上の複雑なタスクを自動化するように設計されている。 既存のGUIエージェントは、抽出された構造化データを通じて環境と対話し、特に長め(HTMLなど)で、時にはアクセスできない(デスクトップなど)。 この問題を軽減するため,我々はタスク自動化のスクリーンショットのみに依存するビジュアルguiエージェントseeclickを提案する。 予備的な研究で、ビジュアルguiエージェントを開発する上で重要な課題が見つかった: guiのグラウンドニング - 指示に基づいて画面要素を正確に見つける能力。 この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。 上記の取り組みに加えて、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドデータセットであるScreenSpotも作成しました。 事前トレーニング後、seeclickはさまざまなベースラインに対するscreenspotの大幅な改善を示す。 さらに、広く使用されている3つのベンチマークの包括的な評価は、GUIの進歩が下流GUIエージェントタスクのパフォーマンス向上と直接相関していることの発見を一貫してサポートしています。 モデル、データ、コードはhttps://github.com/njucckevin/seeclickで入手できる。

Graphical User Interface (GUI) agents are designed to automate complex tasks on digital devices, such as smartphones and desktops. Most existing GUI agents interact with the environment through extracted structured data, which can be notably lengthy (e.g., HTML) and occasionally inaccessible (e.g., on desktops). To alleviate this issue, we propose a visual GUI agent -- SeeClick, which only relies on screenshots for task automation. In our preliminary study, we have discovered a key challenge in developing visual GUI agents: GUI grounding -- the capacity to accurately locate screen elements based on instructions. To tackle this challenge, we propose to enhance SeeClick with GUI grounding pre-training and devise a method to automate the curation of GUI grounding data. Along with the efforts above, we have also created ScreenSpot, the first realistic GUI grounding dataset that encompasses mobile, desktop, and web environments. After pre-training, SeeClick demonstrates significant improvement in ScreenSpot over various baselines. Moreover, comprehensive evaluations on three widely used benchmarks consistently support our finding that advancements in GUI grounding directly correlate with enhanced performance in downstream GUI agent tasks. The model, data and code are available at https://github.com/njucckevin/SeeClick.
翻訳日:2024-01-28 15:56:14 公開日:2024-01-17
# 安定拡散モデルを用いた新しいクリエーティブ・ジェネレーション・パイプライン

A New Creative Generation Pipeline for Click-Through Rate with Stable Diffusion Model ( http://arxiv.org/abs/2401.10934v1 )

ライセンス: Link先を確認
Hao Yang, Jianxin Yuan, Shuai Yang, Linhe Xu, Shuo Yuan, Yifan Zeng(参考訳) オンライン広告のシナリオでは、売り手は包括的なデモを提供するために複数のクリエイティブを創造することが多く、クリックスルー率(ctr)を最大化するために最も魅力的なデザインを提示することが不可欠である。 しかし、売り手は通常、ユーザーが創造的デザインを好むことを考えるのに苦労し、人工知能(AI)ベースのアプローチに比べて美学と量が少ない。 従来のaiベースのアプローチは、設計者による美的知識が限られている一方で、ユーザ情報を考慮しないという同じ問題に直面している。 実際、ユーザー情報を融合させることで、生成したクリエイティブはより魅力的になる可能性がある。 結果を最適化するために、従来の方法で生成された創造性は、creative ranking modelという別のモジュールによってランク付けされる。 ランキングモデルは、ユーザ特徴を考慮した創造性ごとにctrスコアを予測できる。 しかし、上記の2つの段階は2つの異なる課題と見なされ、個別に最適化されている。 本稿では,CTRの創造的生成段階における改良を目的とした,Click-Through Rate (CG4CTR) のための自動生成パイプラインを提案する。 コントリビューションには4つの部分があります。 1) オンライン広告シーンにおいて, 安定拡散における着色モードを創造的生成タスクに適用する。 訓練の収束を保証するために自己循環生成パイプラインを提案する。 2)プロンプトモデルは,異なるユーザグループに対して個別化された創造性を生み出すように設計されている。 3) 報酬モデルは, 画像とテキストのマルチモーダルな特徴を包括的に考慮し, 創造的ランキング作業の有効性を向上し, 自己循環的パイプラインにおいても重要である。 4) オンラインおよびオフライン実験で得られた有意な利益は,提案手法の意義を検証できる。

In online advertising scenario, sellers often create multiple creatives to provide comprehensive demonstrations, making it essential to present the most appealing design to maximize the Click-Through Rate (CTR). However, sellers generally struggle to consider users preferences for creative design, leading to the relatively lower aesthetics and quantities compared to Artificial Intelligence (AI)-based approaches. Traditional AI-based approaches still face the same problem of not considering user information while having limited aesthetic knowledge from designers. In fact that fusing the user information, the generated creatives can be more attractive because different users may have different preferences. To optimize the results, the generated creatives in traditional methods are then ranked by another module named creative ranking model. The ranking model can predict the CTR score for each creative considering user features. However, the two above stages are regarded as two different tasks and are optimized separately. In this paper, we proposed a new automated Creative Generation pipeline for Click-Through Rate (CG4CTR) with the goal of improving CTR during the creative generation stage. Our contributions have 4 parts: 1) The inpainting mode in stable diffusion is firstly applied to creative generation task in online advertising scene. A self-cyclic generation pipeline is proposed to ensure the convergence of training. 2) Prompt model is designed to generate individualized creatives for different user groups, which can further improve the diversity and quality. 3) Reward model comprehensively considers the multimodal features of image and text to improve the effectiveness of creative ranking task, and it is also critical in self-cyclic pipeline. 4) The significant benefits obtained in online and offline experiments verify the significance of our proposed method.
翻訳日:2024-01-28 15:55:53 公開日:2024-01-17
# 大規模生成モデルの時代のコンピューティング: クラウドネイティブからaiネイティブへ

Computing in the Era of Large Generative Models: From Cloud-Native to AI-Native ( http://arxiv.org/abs/2401.12230v1 )

ライセンス: Link先を確認
Yao Lu, Song Bian, Lequn Chen, Yongjun He, Yulong Hui, Matthew Lentz, Beibin Li, Fei Liu, Jialin Li, Qi Liu, Rui Liu, Xiaoxuan Liu, Lin Ma, Kexin Rong, Jianguo Wang, Yingjun Wu, Yongji Wu, Huanchen Zhang, Minjia Zhang, Qizhen Zhang, Tianyi Zhou, Danyang Zhuo(参考訳) 本稿では,大規模生成型AIモデルとクラウドネイティブコンピューティングアーキテクチャの交わりについて検討する。 ChatGPTのような最近の大規模モデルは、その能力に革命的だが、コストのエスカレーションやハイエンドGPUの需要といった課題に直面している。 大規模モデル・アズ・ア・サービス(LMaaS)とクラウドデータベース・ア・ア・サービス(DBaaS)の類似性を引き合いに出し、クラウドネイティブなテクノロジ(マルチテナントやサーバレスコンピューティングなど)と高度な機械学習ランタイム(例えばバッチ化LoRA推論)の両方のパワーを活用するAIネイティブコンピューティングパラダイムについて説明する。 これらの共同作業は、コスト・オブ・グッド・ソード(COGS)を最適化し、資源のアクセシビリティを向上させることを目的としている。 この2つのドメインをマージする旅は始まりに過ぎず、この分野の今後の研究と開発を活性化したいと考えています。

In this paper, we investigate the intersection of large generative AI models and cloud-native computing architectures. Recent large models such as ChatGPT, while revolutionary in their capabilities, face challenges like escalating costs and demand for high-end GPUs. Drawing analogies between large-model-as-a-service (LMaaS) and cloud database-as-a-service (DBaaS), we describe an AI-native computing paradigm that harnesses the power of both cloud-native technologies (e.g., multi-tenancy and serverless computing) and advanced machine learning runtime (e.g., batched LoRA inference). These joint efforts aim to optimize costs-of-goods-sold (COGS) and improve resource accessibility. The journey of merging these two domains is just at the beginning and we hope to stimulate future research and development in this area.
翻訳日:2024-01-28 15:41:55 公開日:2024-01-17
# 微分可能グラフニューラルネットワークシミュレータによる粒状流れの逆解析

Inverse analysis of granular flows using differentiable graph neural network simulator ( http://arxiv.org/abs/2401.13695v1 )

ライセンス: Link先を確認
Yongjin Choi, Krishna Kumar(参考訳) 地すべりや土砂流などの粒状流の逆問題では, 目標流出プロファイルに基づいて材料パラメータや境界条件を推定する。 これらの逆問題に対する従来の高忠実性シミュレータは計算的に要求され、可能なシミュレーションの数を制限する。 さらに、それらの非微分性は、高次元問題における効率性で知られる勾配に基づく最適化手法を適用不能にする。 機械学習ベースのサロゲートモデルは計算効率と微分可能性を提供するが、グラニュラーフローの完全な物理を捉えるのに失敗する低次元の入出力マッピングに依存するため、トレーニングデータ以上の一般化に苦慮することが多い。 本稿では,グラフニューラルネットワークの逆モード自動微分と逆問題に対する勾配最適化を組み合わせた新しい微分可能グラフニューラルネットワークシミュレータ(gns)を提案する。 GNSは、系をグラフとして表現することで粒度の流れのダイナミクスを学習し、現在の状態から次のステップでグラフの進化を予測する。 微分可能なgsnは、トレーニングデータを超えた最適化機能を示す。 本手法は, 目標流出距離に対する材料特性および境界条件の評価や, 地すべり流出抑制のためのバッフル位置の設計などを含む, 単パラメータおよび多パラメータの最適化問題に対する逆推定手法の有効性を示す。 提案した微分可能 GNS フレームワークは,従来の有限差分法による勾配最適化法に比べて,これらの逆問題に対して,桁違いに高速な解を提供する。

Inverse problems in granular flows, such as landslides and debris flows, involve estimating material parameters or boundary conditions based on target runout profile. Traditional high-fidelity simulators for these inverse problems are computationally demanding, restricting the number of simulations possible. Additionally, their non-differentiable nature makes gradient-based optimization methods, known for their efficiency in high-dimensional problems, inapplicable. While machine learning-based surrogate models offer computational efficiency and differentiability, they often struggle to generalize beyond their training data due to their reliance on low-dimensional input-output mappings that fail to capture the complete physics of granular flows. We propose a novel differentiable graph neural network simulator (GNS) by combining reverse mode automatic differentiation of graph neural networks with gradient-based optimization for solving inverse problems. GNS learns the dynamics of granular flow by representing the system as a graph and predicts the evolution of the graph at the next time step, given the current state. The differentiable GNS shows optimization capabilities beyond the training data. We demonstrate the effectiveness of our method for inverse estimation across single and multi-parameter optimization problems, including evaluating material properties and boundary conditions for a target runout distance and designing baffle locations to limit a landslide runout. Our proposed differentiable GNS framework offers an orders of magnitude faster solution to these inverse problems than the conventional finite difference approach to gradient-based optimization.
翻訳日:2024-01-28 15:33:07 公開日:2024-01-17
# 臨床報告に対する感情分類による歯科・口腔問題の重症度の推定

Estimating the severity of dental and oral problems via sentiment classification over clinical reports ( http://arxiv.org/abs/2401.12993v1 )

ライセンス: Link先を確認
Sare Mahdavifar, Seyed Mostafa Fakhrahmad, Elham Ansarifard(参考訳) テキストの極性を識別する技術としての著者の感情分析は、医学や歯科など様々な分野において実用的で有用である。 現在、患者の状態に関する知識の不足、専門医へのアクセスの困難、特にパンデミック状態における病気の恐れなどの要因により、放射線検査の報告を受けるか、医師に相談するかが遅れる可能性がある。 場合によっては、この遅延は患者に重大なリスクをもたらし、タイムリーな意思決定が重要である。 放射線学報告のテキストを分析して患者に症状の悪化を知らせる自動システムを持つことは、タイムリーな意思決定に大きな影響を与える可能性がある。 本研究では,シラズ医科大学から1,134個のコーンビームCT(CBCT)画像のデータセットを収集した。 各症例について検討し,各文書に患者状態の重症度をラベル付けした。 全てのテキストデータを前処理した後、CNN-LSTMとして知られる畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ネットワークアーキテクチャに基づくディープラーニングモデルが開発され、放射線技師のレポートの感情分析に基づいて患者の問題の重大度レベルを検出する。 モデルの性能は、2つのデータセットで評価され、2つのクラスと4つのクラスが不均衡なシナリオとバランスの取れたシナリオの両方で評価された。 最後に,本モデルの有効性を示すために,その性能を他の分類モデルと比較した。 その結果, 片道ANOVA, Tukey 試験とともに, 提案したモデル (CNN-LSTM) が, 精度, リコール, f 測定基準に従って最適に動作したことが示された。 このことから, 口腔疾患および歯科疾患の重症度を推定し, 患者を支援できる信頼性モデルであることが示唆された。

Analyzing authors' sentiments in texts as a technique for identifying text polarity can be practical and useful in various fields, including medicine and dentistry. Currently, due to factors such as patients' limited knowledge about their condition, difficulties in accessing specialist doctors, or fear of illness, particularly in pandemic conditions, there might be a delay between receiving a radiology report and consulting a doctor. In some cases, this delay can pose significant risks to the patient, making timely decision-making crucial. Having an automatic system that can inform patients about the deterioration of their condition by analyzing the text of radiology reports could greatly impact timely decision-making. In this study, a dataset comprising 1,134 cone-beam computed tomography (CBCT) photo reports was collected from the Shiraz University of Medical Sciences. Each case was examined, and an expert labeled a severity level for the patient's condition on each document. After preprocessing all the text data, a deep learning model based on Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) network architecture, known as CNN-LSTM, was developed to detect the severity level of the patient's problem based on sentiment analysis in the radiologist's report. The model's performance was evaluated on two datasets, each with two and four classes, in both imbalanced and balanced scenarios. Finally, to demonstrate the effectiveness of our model, we compared its performance with that of other classification models. The results, along with one-way ANOVA and Tukey's test, indicated that our proposed model (CNN-LSTM) performed the best according to precision, recall, and f-measure criteria. This suggests that it can be a reliable model for estimating the severity of oral and dental diseases, thereby assisting patients.
翻訳日:2024-01-28 15:31:02 公開日:2024-01-17
# TranSentence:Language-Agnostic Sentence-level Speech Encoding without Language-parallel Data

TranSentence: Speech-to-speech Translation via Language-agnostic Sentence-level Speech Encoding without Language-parallel Data ( http://arxiv.org/abs/2401.12992v1 )

ライセンス: Link先を確認
Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee(参考訳) 音声から音声への翻訳の分野では大きな進歩があったが、従来のモデルでは、訓練にはソースとターゲット言語間の言語並列音声データが必要である。 本稿では,言語並列音声データを用いない新しい音声対音声翻訳であるtransentenceを提案する。 これを実現するために,まず,言語によらず音声の意味情報をキャプチャする,言語に依存しない文レベルの音声符号化を採用する。 次に,様々な言語で事前学習された言語非依存の文レベルの音声エンコーダから得られた符号化埋め込みに基づく音声生成を学習する。 この方法では、対象言語のモノリンガルデータのみを訓練しながら、ソース言語音声から言語に依存しない音声を埋め込み、推論段階でターゲット言語音声を生成することができる。 さらに、TranSentenceを多言語音声合成に拡張する。 実験の結果, トランスエンテンスは他のモデルよりも優れていることがわかった。

Although there has been significant advancement in the field of speech-to-speech translation, conventional models still require language-parallel speech data between the source and target languages for training. In this paper, we introduce TranSentence, a novel speech-to-speech translation without language-parallel speech data. To achieve this, we first adopt a language-agnostic sentence-level speech encoding that captures the semantic information of speech, irrespective of language. We then train our model to generate speech based on the encoded embedding obtained from a language-agnostic sentence-level speech encoder that is pre-trained with various languages. With this method, despite training exclusively on the target language's monolingual data, we can generate target language speech in the inference stage using language-agnostic speech embedding from the source language speech. Furthermore, we extend TranSentence to multilingual speech-to-speech translation. The experimental results demonstrate that TranSentence is superior to other models.
翻訳日:2024-01-28 15:30:29 公開日:2024-01-17
# TraffNet:What-if予測のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for What-if Prediction ( http://arxiv.org/abs/2303.15954v6 )

ライセンス: Link先を確認
Ming Xu, Qiang Ai, Ruimin Li, Yunyi Ma, Geqi Qi, Xiangfu Meng, Haibo Jin(参考訳) インテリジェントなトラフィック管理と制御における意思決定には,リアルタイムなトラフィック予測が不可欠だ。 現在のディープラーニング手法は,トラヒック予測において有意なアドバンテージを示すが,相関性に基づくトラヒック予測には無力である。 本稿では,車両軌道データから交通発生のメカニズムを学習するTraffNetという単純なディープラーニングフレームワークを提案する。 まず,ヘテロジニアスグラフを用いて道路網を表現し,オリジン・デスティネーション(od)要求や経路といった交通の流れの因果的特徴をモデルに組み込む。 次に,道路網にod要求を割り当てるプロセスをモデル化し,セグメント表現を学習する手法を提案する。 学習セグメント表現は、交通発生の複雑な原因を効果的にカプセル化し、下流の交通予測を容易にする。 最後に,traffnetの有効性を評価するために合成データセットの実験を行った。 traffnetのコードとデータセットはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。

Real-time what-if traffic prediction is crucial for decision making in intelligent traffic management and control. Although current deep learning methods demonstrate significant advantages in traffic prediction, they are powerless in what-if traffic prediction due to their nature of correlation-based. Here, we present a simple deep learning framework called TraffNet that learns the mechanisms of traffic generation for what-if prediction from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic flows, such as Origin-Destination (OD) demands and routes. Next, we propose a method for learning segment representations, which involves modeling the process of assigning OD demands onto the road network. The learned segment representations effectively encapsulate the intricate causes of traffic generation, facilitating downstream what-if traffic prediction. Finally, we conduct experiments on synthetic datasets to evaluate the effectiveness of TraffNet. The code and datasets of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git.
翻訳日:2024-01-22 19:27:36 公開日:2024-01-17
# ガウス機構の混合によるサンプリングによるDP-SGDの高次グループレベルDP保証

Tight Group-Level DP Guarantees for DP-SGD with Sampling via Mixture of Gaussians Mechanisms ( http://arxiv.org/abs/2401.10294v1 )

ライセンス: Link先を確認
Arun Ganesh(参考訳) 本稿では,Poisson サンプリングや固定バッチサイズサンプリングを用いて,DP-SGD に対するグループレベルの $(\epsilon, \delta)$-DP 保証の計算手順を提案する。 実装における離散化エラーに対して、この手順によって計算されたDP保証は厳密である(全ての中間イテレートをリリースした場合)。

We give a procedure for computing group-level $(\epsilon, \delta)$-DP guarantees for DP-SGD, when using Poisson sampling or fixed batch size sampling. Up to discretization errors in the implementation, the DP guarantees computed by this procedure are tight (assuming we release every intermediate iterate).
翻訳日:2024-01-22 18:07:42 公開日:2024-01-17
# 幾何学量子機械学習における対称性の破れとノイズの存在

Symmetry breaking in geometric quantum machine learning in the presence of noise ( http://arxiv.org/abs/2401.10293v1 )

ライセンス: Link先を確認
Cenk T\"uys\"uz, Su Yeon Chang, Maria Demidik, Karl Jansen, Sofia Vallecorsa, Michele Grossi(参考訳) 等価量子ニューラルネットワーク(eqnn)に基づく幾何学的量子機械学習は、最近量子機械学習において有望な方向として現れた。 奨励的な進歩にもかかわらず、研究は理論に限られており、EQNNトレーニングにおけるハードウェアノイズの役割は調査されていない。 本研究では,ノイズの存在下でのEQNNモデルの挙動について検討する。 EQNNモデルによってはパウリチャネルの下で等価性を保てるが、振幅減衰チャネルでは不可能であることを示す。 対称性の破れは層数と雑音強度で直線的に増加すると主張する。 シミュレーションの数値データと64キュービットまでのハードウェアで、私たちの主張を支持します。 さらに、ノイズの存在下でのEQNNモデルの対称性保護を強化するための戦略を提供する。

Geometric quantum machine learning based on equivariant quantum neural networks (EQNN) recently appeared as a promising direction in quantum machine learning. Despite the encouraging progress, the studies are still limited to theory, and the role of hardware noise in EQNN training has never been explored. This work studies the behavior of EQNN models in the presence of noise. We show that certain EQNN models can preserve equivariance under Pauli channels, while this is not possible under the amplitude damping channel. We claim that the symmetry breaking grows linearly in the number of layers and noise strength. We support our claims with numerical data from simulations as well as hardware up to 64 qubits. Furthermore, we provide strategies to enhance the symmetry protection of EQNN models in the presence of noise.
翻訳日:2024-01-22 18:07:34 公開日:2024-01-17
# 機械学習アルゴリズムによる地磁気嵐の早期予測

Early Prediction of Geomagnetic Storms by Machine Learning Algorithms ( http://arxiv.org/abs/2401.10290v1 )

ライセンス: Link先を確認
Iris Yan(参考訳) 地球磁気嵐は、太陽風が地球の磁気圏を乱すときに起こる。 GSは衛星、電力網、通信インフラに深刻なダメージを与える可能性がある。 大規模GSによる直接的な経済影響の推定は、米国で1日400億ドルを超える。 早期予測は危険の防止と最小化に重要である。 しかし、現在の手法では、数時間前に予測するが、すべての種類のGSを特定できないか、短時間で予測を行うか、例えば、発生の1時間前に予測を行う。 この研究は、ビッグデータと機械学習アルゴリズムを使用して、あらゆる種類の地磁気嵐をできるだけ早く確実に予測することを目的としている。 複数の地上局から収集されたビッグデータを太陽観測のさまざまな側面で活用し、地球磁気嵐(データの大部分を担っている)に特徴選択とダウンサンプリングを伴うランダムフォレスト回帰を用いることで、2021年に収集されたデータの82.55%の精度を3時間前に予測することができる。 歴史的Kp指標などの重要な予測的特徴が3時間毎に測定され、その重要性は予め時間とともに急速に低下していることから、早期に3時間先行する予測は実用的限界に近いと考えられる。

Geomagnetic storms (GS) occur when solar winds disrupt Earth's magnetosphere. GS can cause severe damages to satellites, power grids, and communication infrastructures. Estimate of direct economic impacts of a large scale GS exceeds $40 billion a day in the US. Early prediction is critical in preventing and minimizing the hazards. However, current methods either predict several hours ahead but fail to identify all types of GS, or make predictions within short time, e.g., one hour ahead of the occurrence. This work aims to predict all types of geomagnetic storms reliably and as early as possible using big data and machine learning algorithms. By fusing big data collected from multiple ground stations in the world on different aspects of solar measurements and using Random Forests regression with feature selection and downsampling on minor geomagnetic storm instances (which carry majority of the data), we are able to achieve an accuracy of 82.55% on data collected in 2021 when making early predictions three hours in advance. Given that important predictive features such as historic Kp indices are measured every 3 hours and their importance decay quickly with the amount of time in advance, an early prediction of 3 hours ahead of time is believed to be close to the practical limit.
翻訳日:2024-01-22 18:07:23 公開日:2024-01-17
# ハイブリッドロボティクスにおける潜在実装のための画像検出訓練ニューラルネットワークのシミュレーションのための光ニューラルプロセッサの設計と開発

Design and development of opto-neural processors for simulation of neural networks trained in image detection for potential implementation in hybrid robotics ( http://arxiv.org/abs/2401.10289v1 )

ライセンス: Link先を確認
Sanjana Shetty(参考訳) ニューラルネットワークは、画像処理、モータ制御、オブジェクト検出など、幅広い処理アプリケーションで使用されている。 リビングニューラルネットワークは、消費電力の低減、処理の高速化、生物学的リアリズムの利点を提供する。 オプトジェネティクスは生物学的ニューロンに対する空間的および時間的制御を提供し、生きたニューラルネットワークを訓練する可能性を示す。 本研究は、従来のニューラルネットワーク訓練アルゴリズムに匹敵する精度を達成する光遺伝学による精度活性化を用いて、stdpベースのアルゴリズムをバックプロパゲーションすることにより、間接的に学習するシミュレーションニューラルネットワークを提案する。

Neural networks have been employed for a wide range of processing applications like image processing, motor control, object detection and many others. Living neural networks offer advantages of lower power consumption, faster processing, and biological realism. Optogenetics offers high spatial and temporal control over biological neurons and presents potential in training live neural networks. This work proposes a simulated living neural network trained indirectly by backpropagating STDP based algorithms using precision activation by optogenetics achieving accuracy comparable to traditional neural network training algorithms.
翻訳日:2024-01-22 18:07:02 公開日:2024-01-17
# CLAN:人間活動認識のための対照的学習に基づくノベルティ検出フレームワーク

CLAN: A Contrastive Learning based Novelty Detection Framework for Human Activity Recognition ( http://arxiv.org/abs/2401.10288v1 )

ライセンス: Link先を確認
Hyunju Kim and Dongman Lee(参考訳) 環境支援生活において、時系列センサデータからの人間の活動認識は主に事前定義された活動に焦点を当て、しばしば新しい活動パターンを見渡す。 CLANは,人間の活動認識のためのネガティブなペアの多種多様さを持つ,2towerのコントラスト学習に基づく新規性検出フレームワークである。 時間的・周波数的特徴の意義、複雑な活動のダイナミクス、活動間での共有機能、センサーモダリティのバリエーションなど、人間の活動特性の課題に合わせて調整されている。 このフレームワークは、課題に頑健な既知のアクティビティの不変表現を構築することを目的としている。 適切な負のペアを生成するために、データセットの時間的および周波数的特性に応じてデータ拡張方法を選択する。 比較的および分類的損失に基づく表現学習と、異なる種類の強化サンプルの動的数に対応する関数に基づく新規性検出によって、無意味なダイナミクスに対するキー表現を導出する。 提案手法は時間と周波数の表現を抽出し,共通特徴を共有した場合でも,新しい活動と既知の活動を区別するための表現性を相互に強化する。 4つの実世界のヒューマンアクティビティデータセットの実験により、clanは既存のノベルティ検出手法の最高の性能を超え、それぞれ8.3%、13.7%、53.3%のauroc、 balanced accuracy、fpr@tpr0.95メトリクスを改善した。

In ambient assisted living, human activity recognition from time series sensor data mainly focuses on predefined activities, often overlooking new activity patterns. We propose CLAN, a two-tower contrastive learning-based novelty detection framework with diverse types of negative pairs for human activity recognition. It is tailored to challenges with human activity characteristics, including the significance of temporal and frequency features, complex activity dynamics, shared features across activities, and sensor modality variations. The framework aims to construct invariant representations of known activity robust to the challenges. To generate suitable negative pairs, it selects data augmentation methods according to the temporal and frequency characteristics of each dataset. It derives the key representations against meaningless dynamics by contrastive and classification losses-based representation learning and score function-based novelty detection that accommodate dynamic numbers of the different types of augmented samples. The proposed two-tower model extracts the representations in terms of time and frequency, mutually enhancing expressiveness for distinguishing between new and known activities, even when they share common features. Experiments on four real-world human activity datasets show that CLAN surpasses the best performance of existing novelty detection methods, improving by 8.3%, 13.7%, and 53.3% in AUROC, balanced accuracy, and FPR@TPR0.95 metrics respectively.
翻訳日:2024-01-22 18:06:50 公開日:2024-01-17
# 気候不変機械学習

Climate-Invariant Machine Learning ( http://arxiv.org/abs/2112.08440v5 )

ライセンス: Link先を確認
Tom Beucler, Pierre Gentine, Janni Yuval, Ankitesh Gupta, Liran Peng, Jerry Lin, Sungduk Yu, Stephan Rasp, Fiaz Ahmed, Paul A. O'Gorman, J. David Neelin, Nicholas J. Lutsko, Michael Pritchard(参考訳) 気候変動を予測することは一般化の問題であり、過去、現在、そして将来の気候の物理的モデルを用いて最近の過去を外挿する。 現在の気候モデルは、モデル予測の不確実性の主要な原因であるモデルグリッドサイズよりも規模が小さいプロセスの表現を必要とする。 最近の機械学習(ML)アルゴリズムは、そのようなプロセス表現を改善することを約束するが、訓練されていない気候体制に悪影響を及ぼす傾向がある。 物理的および統計的な世界を最大限に活用するために、我々は、気候プロセスの知識をMLアルゴリズムに取り入れた「気候不変」MLと呼ばれる新しいフレームワークを提案し、3つの異なる大気モデルにおいて、幅広い気候条件と構成にわたって高いオフライン精度を維持することができることを示した。 以上の結果から,地球系プロセスのデータ駆動モデルに物理知識を明示的に組み込むことで,その一貫性,データの効率,一般化性が向上することが示唆された。

Projecting climate change is a generalization problem: we extrapolate the recent past using physical models across past, present, and future climates. Current climate models require representations of processes that occur at scales smaller than model grid size, which have been the main source of model projection uncertainty. Recent machine learning (ML) algorithms hold promise to improve such process representations, but tend to extrapolate poorly to climate regimes they were not trained on. To get the best of the physical and statistical worlds, we propose a new framework - termed "climate-invariant" ML - incorporating knowledge of climate processes into ML algorithms, and show that it can maintain high offline accuracy across a wide range of climate conditions and configurations in three distinct atmospheric models. Our results suggest that explicitly incorporating physical knowledge into data-driven models of Earth system processes can improve their consistency, data efficiency, and generalizability across climate regimes.
翻訳日:2024-01-19 21:14:58 公開日:2024-01-17
# 量子相対性理論」へのコメント

Comment on 'Quantum principle of relativity' ( http://arxiv.org/abs/2301.07802v3 )

ライセンス: Link先を確認
Ryszard Horodecki(参考訳) Dragan and Ekert in the paper (2020 \emph{New.) J. Phys } \textbf{22} 033038) はガリレオの相対性理論に基づく「量子相対性理論」(QPR)を提示し、これは超光度 $G_S$ と準光度 $G_s$ の両方の観測者の族を包含し、それらが「複雑な確率振幅と多重軌跡とともに非決定論的ダイナミクスの出現を示唆する」ことを主張する。 ここでは、自然の普遍定数 (universal constants) の役割の下で、ハイゼンベルクの基本的な物理理論モデルの分類の文脈において、QPRについて議論する:プランクの定数$h$と光速$c$。 両枝を接続する数学的コヒーレントな形式が存在しないという意味では、スーパールミナル分岐とサブルミナル分岐の両方が分離可能であることを指摘する。 これは特に、QPRが不完全であることを意味する。

Dragan and Ekert in the paper (2020 \emph{New. J. Phys.} \textbf{22} 033038) presented 'quantum principle of relativity' (QPR) based on Galilean principle of relativity, which involves both superluminal $G_S$ and subluminal $G_s$ families of observers and argue that then they are considered on the same footing it 'implies the emergence of non-deterministic dynamics, together with complex probability amplitudes and multiple trajectories.'. Here we discuss QPR in the context of Heisenberg's classification of the fundamental physical theoretical models under the role universal constants of nature: Planck's constant $h$ and speed of light $c$. We point out that both the superluminal and subluminal branches are separable in the sense that there is no mathematical coherent formalism that connect both branches. This, in particular, implies that the QPR is incomplete.
翻訳日:2024-01-19 21:11:34 公開日:2024-01-17
# J=1/2$-$J'=1/2$原子系の共鳴蛍光における量子干渉:量子ビート、非古典性、非ガウス性

Quantum interference in the resonance fluorescence of a $J=1/2$-$J'=1/2$ atomic system: Quantum beats, nonclassicality, and non-Gaussianity ( http://arxiv.org/abs/2301.03061v2 )

ライセンス: Link先を確認
H. M. Castro-Beltr\'an, O. de los Santos-S\'anchez, L. Guti\'errez, and A. D. Alcantar-Vidal(参考訳) 単色線形偏光レーザー場によって駆動される角運動量$J=1/2 - J'=1/2$の単一原子または系の共鳴蛍光の量子統計学的およびスペクトル的性質について検討した。 レーザー偏光に平行な磁場を印加して縮退(ゼーマン効果)を破る。 非退化の場合、$\pi$遷移は異なる一般化されたRabi周波数で進化し、強度と双極子-双極子、強度-強度、および二次強度相関の量子ビートを生成する。 強いレーザーと大きなゼーマン分割の場合、ビートの平均と変調周波数はそれぞれrabi周波数の平均と差で与えられるが、多くの分光システムで研究されているビートとは異なり、指数関数的な減衰が特徴である。 さらに、rabi周波数は、系のモロー様スペクトルの1対のサイドバンドの周波数である。 2回の相関では、2つの$\pi$遷移の確率振幅の積を持つクロスコントリビューションは、確率密度の干渉によるものよりも小さい役割を持つ。 対照的に、全強度には交差項は存在しない。 また, 位相依存性蛍光の非古典的および非ガウス的特性を, 弱励起と中等励起の場合にも考慮した。 ビーツ系における蛍光は非古典的であり、主に第3次双極子揺らぎが強く非ガウス性であることを示し、それらの二次スペクトルはラビ周波数の周りの複雑な特徴を示す。 小さなレーザーとゼーマンのデチューンでは、弱から中程度のレーザー場がシステムの一部を基底状態の1つに励起し、2つの時間相関の緩やかな減衰と2次スペクトルの狭いピークを示す。

We study theoretically quantum statistical and spectral properties of the resonance fluorescence of a single atom or system with angular momentum $J=1/2 - J'=1/2$ driven by a monochromatic linearly polarized laser field, due to quantum interference among its two antiparallel, $\pi$ transitions. A magnetic field parallel to the laser polarization is applied to break the degeneracy (Zeeman effect). In the nondegenerate case, the $\pi$ transitions evolve at different generalized Rabi frequencies, producing quantum beats in the intensity and the dipole-dipole, intensity-intensity, and quadrature-intensity correlations. For a strong laser and large Zeeman splitting the beats have mean and modulation frequencies given by the average and difference, respectively, of the Rabi frequencies, unlike thebeats studied in many spectroscopic systems, characterized by a modulated exponential-like decay. Further, the Rabi frequencies are those of the pairs of sidebands of the Mollow-like spectrum of the system. In the two-time correlations, the cross contributions, i.e., those with products of probability amplitudes of the two $\pi$ transitions, have a lesser role than those from the interference of the probability densities. In contrast, there are no cross terms in the total intensity. We also consider nonclassical and non-Gaussian properties of the phase-dependent fluorescence for the cases of weak to moderate excitation and in the regime of beats. The fluorescence in the beats regime is nonclassical, mainly from third-order dipole fluctuations, which reveal them to be also strongly non-Gaussian, and their quadrature spectra show complex features around the Rabi frequencies. For small laser and Zeeman detunings, a weak to moderate laser field pumps the system partially to one of the ground states, showing slow decay in the two time correlations and a narrow peak in the quadrature spectra.
翻訳日:2024-01-19 21:10:35 公開日:2024-01-17
# 連続制御のための正規性誘導分布強化学習

Normality-Guided Distributional Reinforcement Learning for Continuous Control ( http://arxiv.org/abs/2208.13125v3 )

ライセンス: Link先を確認
Ju-Seung Byun, Andrew Perrault(参考訳) 平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。 分布強化学習 (DRL) は, 平均値だけでなく, 値分布をモデル化することによって性能を向上させることが示されている。 本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。 そこで本研究では,分散ネットワークから予測される分散と戻り値を用いて,分布値関数の正規を表す目標量子量棒を解析的に計算する手法を提案する。 また,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。 我々が概説したアプローチは多くのDRL構造と互換性がある。 テストベッドとしてPPOとTRPOの2つの代表的オンラインアルゴリズムを用いる。 提案手法は,16の連続タスク設定のうち10の統計的に有意な改善を実現し,重みを減らし,値分布の不確かさを定量化するためのアンサンブル法と比較して訓練時間を短縮する。

Learning a predictive model of the mean return, or value function, plays a critical role in many reinforcement learning algorithms. Distributional reinforcement learning (DRL) has been shown to improve performance by modeling the value distribution, not just the mean. We study the value distribution in several continuous control tasks and find that the learned value distribution is empirical quite close to normal. We design a method that exploits this property, employ variances predicted from a variance network, along with returns, to analytically compute target quantile bars representing a normal for our distributional value function. In addition, we propose a policy update strategy based on the correctness as measured by structural characteristics of the value distribution not present in the standard value function. The approach we outline is compatible with many DRL structures. We use two representative on-policy algorithms, PPO and TRPO, as testbeds. Our method yields statistically significant improvements in 10 out of 16 continuous task settings, while utilizing a reduced number of weights and achieving faster training time compared to an ensemble-based method for quantifying value distribution uncertainty.
翻訳日:2024-01-19 21:06:02 公開日:2024-01-17
# neurobench:ニューロモーフィックコンピューティングアルゴリズムとシステムをベンチマークするためのフレームワーク

NeuroBench: A Framework for Benchmarking Neuromorphic Computing Algorithms and Systems ( http://arxiv.org/abs/2304.04640v3 )

ライセンス: Link先を確認
Jason Yik, Korneel Van den Berghe, Douwe den Blanken, Younes Bouhadjar, Maxime Fabre, Paul Hueber, Denis Kleyko, Noah Pacik-Nelson, Pao-Sheng Vincent Sun, Guangzhi Tang, Shenqi Wang, Biyan Zhou, Soikat Hasan Ahmed, George Vathakkattil Joseph, Benedetto Leto, Aurora Micheli, Anurag Kumar Mishra, Gregor Lenz, Tao Sun, Zergham Ahmed, Mahmoud Akl, Brian Anderson, Andreas G. Andreou, Chiara Bartolozzi, Arindam Basu, Petrut Bogdan, Sander Bohte, Sonia Buckley, Gert Cauwenberghs, Elisabetta Chicca, Federico Corradi, Guido de Croon, Andreea Danielescu, Anurag Daram, Mike Davies, Yigit Demirag, Jason Eshraghian, Tobias Fischer, Jeremy Forest, Vittorio Fra, Steve Furber, P. Michael Furlong, William Gilpin, Aditya Gilra, Hector A. Gonzalez, Giacomo Indiveri, Siddharth Joshi, Vedant Karia, Lyes Khacef, James C. Knight, Laura Kriener, Rajkumar Kubendran, Dhireesha Kudithipudi, Yao-Hong Liu, Shih-Chii Liu, Haoyuan Ma, Rajit Manohar, Josep Maria Margarit-Taul\'e, Christian Mayr, Konstantinos Michmizos, Dylan Muir, Emre Neftci, Thomas Nowotny, Fabrizio Ottati, Ayca Ozcelikkale, Priyadarshini Panda, Jongkil Park, Melika Payvand, Christian Pehle, Mihai A. Petrovici, Alessandro Pierro, Christoph Posch, Alpha Renner, Yulia Sandamirskaya, Clemens JS Schaefer, Andr\'e van Schaik, Johannes Schemmel, Samuel Schmidgall, Catherine Schuman, Jae-sun Seo, Sadique Sheik, Sumit Bam Shrestha, Manolis Sifalakis, Amos Sironi, Matthew Stewart, Kenneth Stewart, Terrence C. Stewart, Philipp Stratmann, Jonathan Timcheck, Nergis T\"omen, Gianvito Urgese, Marian Verhelst, Craig M. Vineyard, Bernhard Vogginger, Amirreza Yousefzadeh, Fatima Tuz Zohora, Charlotte Frenkel, Vijay Janapa Reddi(参考訳) ニューロモルフィックコンピューティングは、脳に触発された原則を用いたaiアプリケーションのコンピューティング効率と能力の進歩を約束している。 しかし、現在、神経形研究分野は標準化されたベンチマークを欠いているため、技術的進歩を正確に測定し、従来の手法と性能を比較し、将来有望な研究方向性を特定することは困難である。 従来のニューロモーフィックコンピューティングベンチマークの取り組みは、包括的で実行可能で反復的なベンチマーク設計とガイドラインが欠如しているため、広く採用されていない。 これらの欠点に対処するため、ニューロベンチはニューロモルフィックコンピューティングアルゴリズムとシステムのためのベンチマークフレームワークである。 NeuroBenchは、業界や学界の50以上の機関で100人近い共著者からなるオープンコミュニティから共同で設計された取り組みであり、ニューロモルフィックアプローチの評価を標準化するための代表的構造を提供することを目的としている。 NeuroBenchフレームワークは、包括的ベンチマーク測定のための共通のツールセットと体系的な方法論を導入し、ハードウェア非依存(アルゴリズムトラック)とハードウェア依存(システムトラック)の両方の設定において、ニューロモルフィックアプローチを定量化する客観的参照フレームワークを提供する。 本稿では,様々なモデルアーキテクチャを対象とした初期性能ベースラインをアルゴリズムトラック上で提示し,システムトラックベンチマークタスクとガイドラインの概要を示す。 neurobenchは、ベンチマークと機能を継続的に拡張し、研究コミュニティの進捗を促進および追跡することを目的としている。

Neuromorphic computing shows promise for advancing computing efficiency and capabilities of AI applications using brain-inspired principles. However, the neuromorphic research field currently lacks standardized benchmarks, making it difficult to accurately measure technological advancements, compare performance with conventional methods, and identify promising future research directions. Prior neuromorphic computing benchmark efforts have not seen widespread adoption due to a lack of inclusive, actionable, and iterative benchmark design and guidelines. To address these shortcomings, we present NeuroBench: a benchmark framework for neuromorphic computing algorithms and systems. NeuroBench is a collaboratively-designed effort from an open community of nearly 100 co-authors across over 50 institutions in industry and academia, aiming to provide a representative structure for standardizing the evaluation of neuromorphic approaches. The NeuroBench framework introduces a common set of tools and systematic methodology for inclusive benchmark measurement, delivering an objective reference framework for quantifying neuromorphic approaches in both hardware-independent (algorithm track) and hardware-dependent (system track) settings. In this article, we present initial performance baselines across various model architectures on the algorithm track and outline the system track benchmark tasks and guidelines. NeuroBench is intended to continually expand its benchmarks and features to foster and track the progress made by the research community.
翻訳日:2024-01-19 20:57:59 公開日:2024-01-17
# 統計的学習における適応ワッサースタイン分布ロバスト推定器

Adjusted Wasserstein Distributionally Robust Estimator in Statistical Learning ( http://arxiv.org/abs/2303.15579v2 )

ライセンス: Link先を確認
Yiling Xie, Xiaoming Huo(参考訳) 本稿では,統計学習におけるWDRO(Wsserstein distributionally robust)推定器の非線形変換に基づく,調整されたWasserstein distributionally robust estimatorを提案する。 古典的なWDRO推定器は漸近的に偏りがあり、調整されたWDRO推定器は漸近的に偏りがなく、漸近的に平均二乗誤差が小さくなる。 一方、調整されたWDROは、サンプル外性能を保証する。 さらに, ある条件下では, 提案手法は漸近偏差推定器を脱バイアスする一般的な原理を提供する。 具体的には、ロジスティック回帰、線形回帰、ポアソン回帰を含む一般化線形モデルにおいて、調整されたWDRO推定器がどのように開発されたかを検討する。 数値実験は、古典的な推定器よりも調整された推定器の実用的な性能を示す。

We propose an adjusted Wasserstein distributionally robust estimator -- based on a nonlinear transformation of the Wasserstein distributionally robust (WDRO) estimator in statistical learning. The classic WDRO estimator is asymptotically biased, while our adjusted WDRO estimator is asymptotically unbiased, resulting in a smaller asymptotic mean squared error. Meanwhile, the proposed adjusted WDRO has an out-of-sample performance guarantee. Further, under certain conditions, our proposed adjustment technique provides a general principle to de-bias asymptotically biased estimators. Specifically, we will investigate how the adjusted WDRO estimator is developed in the generalized linear model, including logistic regression, linear regression, and Poisson regression. Numerical experiments demonstrate the favorable practical performance of the adjusted estimator over the classic one.
翻訳日:2024-01-19 20:56:39 公開日:2024-01-17
# GraphCare: パーソナライズされた知識グラフによるヘルスケア予測の強化

GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge Graphs ( http://arxiv.org/abs/2305.12788v3 )

ライセンス: Link先を確認
Pengcheng Jiang, Cao Xiao, Adam Cross, Jimeng Sun(参考訳) 臨床予測モデルは患者の電子健康記録(ehr)に依存することが多いが、予測と意思決定を強化するための医学知識の統合は困難である。 これは、パーソナライズされた予測にはパーソナライズドナレッジグラフ(kgs)が必要であり、患者ehrデータから生成することが難しいためである。 これを解決するために、外部KGを用いてEHRベースの予測を改善するオープンワールドフレームワークである \textsc{GraphCare} を提案する。 本手法は,大規模言語モデル(llms)と外部バイオメディカルkgから知識を抽出して患者固有のkgsを構築することで,医療予測のためのバイアテンション拡張(bat)グラフニューラルネットワーク(gnn)のトレーニングを行う。 MIMIC-IIIとMIMIC-IVの2つの公開データセットにおいて、 \textsc{GraphCare}は、死亡率、リードミッション、滞在期間(LOS)、薬物推奨の4つの重要な医療予測タスクにおいて、ベースラインを超える。 MIMIC-IIIでは、AUROCを17.6\%、レセプトを6.6\%、F1スコアを7.9\%、薬物レコメンデーションを10.8\%向上させる。 特に、 \textsc{GraphCare} は、データ可用性が制限されたシナリオにおいて、かなりのエッジを示している。 本研究は, 医療予測タスクにおける外部KGの使用の可能性を強調し, パーソナライズド医療を促進するために, パーソナライズドKGの生成において, textsc{GraphCare} が期待できることを実証した。

Clinical predictive models often rely on patients' electronic health records (EHR), but integrating medical knowledge to enhance predictions and decision-making is challenging. This is because personalized predictions require personalized knowledge graphs (KGs), which are difficult to generate from patient EHR data. To address this, we propose \textsc{GraphCare}, an open-world framework that uses external KGs to improve EHR-based predictions. Our method extracts knowledge from large language models (LLMs) and external biomedical KGs to build patient-specific KGs, which are then used to train our proposed Bi-attention AugmenTed (BAT) graph neural network (GNN) for healthcare predictions. On two public datasets, MIMIC-III and MIMIC-IV, \textsc{GraphCare} surpasses baselines in four vital healthcare prediction tasks: mortality, readmission, length of stay (LOS), and drug recommendation. On MIMIC-III, it boosts AUROC by 17.6\% and 6.6\% for mortality and readmission, and F1-score by 7.9\% and 10.8\% for LOS and drug recommendation, respectively. Notably, \textsc{GraphCare} demonstrates a substantial edge in scenarios with limited data availability. Our findings highlight the potential of using external KGs in healthcare prediction tasks and demonstrate the promise of \textsc{GraphCare} in generating personalized KGs for promoting personalized medicine.
翻訳日:2024-01-19 20:46:15 公開日:2024-01-17
# マシンメイドメディア:誤情報とメインストリームニュースサイトにおける機械学習記事のモビライゼーションのモニタリング

Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites ( http://arxiv.org/abs/2305.09820v4 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) ChatGPTのような大規模言語モデル(LLM)が注目を集めるにつれ、ニュースサイトが記事作成に利用し始めている。 しかし、これらの言語モデルは、信頼できるウェブサイト上で事実的に不正確な記事を生成できるだけでなく、不確かなニュースサイトはLLMを利用して誤情報を大量生成することができる。 この現象を理解するために、オンラインニュースメディアにおける合成記事の普及に関する最初の大規模研究の1つを提案する。 そのために、DeBERTaベースの合成ニュース検出器を訓練し、3,074件の誤報や主流ニュースサイトから15.9百万件以上を分類する。 2022年1月1日から2023年5月1日までの間に、メインストリームのウェブサイトでは合成ニュース記事が55.4%増加し、偽情報サイトでは457%増加した。 この増加は、ほとんど人気が低いウェブサイトによって引き起こされている。 中断時間番組を用いたChatGPTのリリースの影響を分析した結果,小規模サイトや誤報ニュースサイトにおける合成記事の増加は顕著であったが,大手ニュースサイトではそれに相当する増加は見られなかった。

As large language models (LLMs) like ChatGPT have gained traction, an increasing number of news websites have begun utilizing them to generate articles. However, not only can these language models produce factually inaccurate articles on reputable websites but disreputable news sites can utilize LLMs to mass produce misinformation. To begin to understand this phenomenon, we present one of the first large-scale studies of the prevalence of synthetic articles within online news media. To do this, we train a DeBERTa-based synthetic news detector and classify over 15.90 million articles from 3,074 misinformation and mainstream news websites. We find that between January 1, 2022, and May 1, 2023, the relative number of synthetic news articles increased by 55.4% on mainstream websites while increasing by 457% on misinformation sites. We find that this increase is largely driven by smaller less popular websites. Analyzing the impact of the release of ChatGPT using an interrupted-time-series, we show that while its release resulted in a marked increase in synthetic articles on small sites as well as misinformation news websites, there was not a corresponding increase on large mainstream news websites.
翻訳日:2024-01-19 20:45:41 公開日:2024-01-17
# 高速機械学習推論のためのFPGAのシンボリック回帰

Symbolic Regression on FPGAs for Fast Machine Learning Inference ( http://arxiv.org/abs/2305.04099v2 )

ライセンス: Link先を確認
Ho Fung Tsoi, Adrian Alan Pol, Vladimir Loncar, Ekaterina Govorkova, Miles Cranmer, Sridhara Dasu, Peter Elmer, Philip Harris, Isobel Ojalvo, Maurizio Pierini(参考訳) 高エネルギー物理学コミュニティは、データ処理時間の制約を満たしながら物理感度を高めるために、フィールドプログラマブルゲートアレイ(FPGA)に機械学習ベースのソリューションをデプロイする可能性を調査している。 本稿では,シンボル回帰(SR)と呼ばれる機械学習技術を利用した,新しいエンドツーエンド手法を提案する。 方程式空間を探索し、データセットに近似する代数関係を発見する。 我々は、pysr(進化的アルゴリズムに基づくこれらの式を明らかにするソフトウェア)とhls4ml(fpgaにおける機械学習推論パッケージ)の機能を拡張し、リソース制約のあるプロダクション環境でpysr生成式をサポートする。 ディープラーニングモデルは、膨大なハイパーパラメータ空間がニューラルネットワークアーキテクチャの広範な探索を妨げるため、ネットワークサイズをピン留めすることで、トップメトリックを最適化することが多い。 逆にsrは、paretoフロントで一連のモデルを選択し、パフォーマンス-リソーストレードオフを直接最適化する。 シンボリックな形式を埋め込むことで、重要なタスクを実行するのに必要な計算リソースを劇的に削減できます。 本研究では,CERN大型ハドロン衝突型加速器における陽子-陽子衝突シミュレーションによるジェットのマルチクラス分類を物理ベンチマークで検証した。 提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。

The high-energy physics community is investigating the potential of deploying machine-learning-based solutions on Field-Programmable Gate Arrays (FPGAs) to enhance physics sensitivity while still meeting data processing time constraints. In this contribution, we introduce a novel end-to-end procedure that utilizes a machine learning technique called symbolic regression (SR). It searches the equation space to discover algebraic relations approximating a dataset. We use PySR (a software to uncover these expressions based on an evolutionary algorithm) and extend the functionality of hls4ml (a package for machine learning inference in FPGAs) to support PySR-generated expressions for resource-constrained production environments. Deep learning models often optimize the top metric by pinning the network size because the vast hyperparameter space prevents an extensive search for neural architecture. Conversely, SR selects a set of models on the Pareto front, which allows for optimizing the performance-resource trade-off directly. By embedding symbolic forms, our implementation can dramatically reduce the computational resources needed to perform critical tasks. We validate our method on a physics benchmark: the multiclass classification of jets produced in simulated proton-proton collisions at the CERN Large Hadron Collider. We show that our approach can approximate a 3-layer neural network using an inference model that achieves up to a 13-fold decrease in execution time, down to 5 ns, while still preserving more than 90% approximation accuracy.
翻訳日:2024-01-19 20:44:24 公開日:2024-01-17
# 決定論的目的を持つブラックボックス変分推論:より速く、より正確で、さらにブラックボックス

Black Box Variational Inference with a Deterministic Objective: Faster, More Accurate, and Even More Black Box ( http://arxiv.org/abs/2304.05527v4 )

ライセンス: Link先を確認
Ryan Giordano, Martin Ingram, Tamara Broderick(参考訳) 自動微分変分推論(ADVI)は、複数の現代の確率的プログラミング言語において、高速で使いやすい後部近似を提供する。 しかし、確率最適化器には明確な収束基準がなく、チューニングパラメータが必要である。 さらにadviは平均場変動ベイズ(mfvb)の後方不確かさの少ない推定を継承している。 これらの問題に対処するために, 決定論的ADVI (DADVI) を導入する。 DADVIは、難解なMFVBの目的を固定されたモンテカルロ近似(英語版)に置き換え、これは確率最適化の文献で「サンプル平均近似」(SAA)として知られている技法である。 近似的だが決定論的な目的を最適化することにより、DADVIはオフザシェルフの2階最適化を使用でき、標準平均場ADVIとは異なり、線形応答(LR)を介してより正確な後続共分散を実現できる。 既存の最悪のケース理論とは対照的に、DADVIとSAAは、非常に高次元であっても比較的少数のサンプルでうまく機能するが、そのような好ましい結果は平均場ADVIに比例しすぎる変動近似にまで拡張できないことも示している。 DADVIがデフォルト設定(ADVIとは違って)で適切な解を確実に見つけ出すような現実世界の様々な問題を示し、LR共分散とともに、通常標準のADVIよりも高速で正確である。

Automatic differentiation variational inference (ADVI) offers fast and easy-to-use posterior approximation in multiple modern probabilistic programming languages. However, its stochastic optimizer lacks clear convergence criteria and requires tuning parameters. Moreover, ADVI inherits the poor posterior uncertainty estimates of mean-field variational Bayes (MFVB). We introduce "deterministic ADVI" (DADVI) to address these issues. DADVI replaces the intractable MFVB objective with a fixed Monte Carlo approximation, a technique known in the stochastic optimization literature as the "sample average approximation" (SAA). By optimizing an approximate but deterministic objective, DADVI can use off-the-shelf second-order optimization, and, unlike standard mean-field ADVI, is amenable to more accurate posterior covariances via linear response (LR). In contrast to existing worst-case theory, we show that, on certain classes of common statistical problems, DADVI and the SAA can perform well with relatively few samples even in very high dimensions, though we also show that such favorable results cannot extend to variational approximations that are too expressive relative to mean-field ADVI. We show on a variety of real-world problems that DADVI reliably finds good solutions with default settings (unlike ADVI) and, together with LR covariances, is typically faster and more accurate than standard ADVI.
翻訳日:2024-01-19 20:41:31 公開日:2024-01-17
# CMMLU:中国語における大規模マルチタスク言語理解の測定

CMMLU: Measuring massive multitask language understanding in Chinese ( http://arxiv.org/abs/2306.09212v2 )

ライセンス: Link先を確認
Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin(参考訳) 大きな言語モデル(LLM)の能力が進歩し続けるにつれ、その性能の評価はますます重要で難しいものになりつつある。 本稿は,自然科学,社会科学,工学,人文科学など,さまざまな分野をカバーする総合的な中国のベンチマークであるCMMLUを導入することで,このギャップを埋めることを目的としている。 我々は18の高度多言語および中国語指向LLMの徹底的な評価を行い、その性能を異なる主題や設定で評価する。 その結果、既存のllmのほとんどが、文脈内例と思考の連鎖プロンプトが提供されても、平均精度50%を達成するのに苦労していることが分かり、ランダムベースラインは25%である。 これはLLMの改善のための重要な余地を浮き彫りにする。 さらに,モデルの性能に影響する要因を同定し,llm向上のための方向性を提案する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。

As the capabilities of large language models (LLMs) continue to advance, evaluating their performance becomes increasingly crucial and challenging. This paper aims to bridge this gap by introducing CMMLU, a comprehensive Chinese benchmark that covers various subjects, including natural science, social sciences, engineering, and humanities. We conduct a thorough evaluation of 18 advanced multilingual- and Chinese-oriented LLMs, assessing their performance across different subjects and settings. The results reveal that most existing LLMs struggle to achieve an average accuracy of 50%, even when provided with in-context examples and chain-of-thought prompts, whereas the random baseline stands at 25%. This highlights significant room for improvement in LLMs. Additionally, we conduct extensive experiments to identify factors impacting the models' performance and propose directions for enhancing LLMs. CMMLU fills the gap in evaluating the knowledge and reasoning capabilities of large language models within the Chinese context.
翻訳日:2024-01-19 20:33:30 公開日:2024-01-17
# 音声データを用いた政治討論, スピーチ, インタビューにおけるチェックワード主張の検出

Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data ( http://arxiv.org/abs/2306.05535v2 )

ライセンス: Link先を確認
Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov(参考訳) 政治討論や演説でチェックに値するクレームを自動的に検出するツールの開発は、ディベート、ジャーナリスト、ファクトチェッカーのモデレーターに大いに役立つ。 この問題に関するこれまでの研究は、テキストモダリティにのみ焦点を合わせてきたが、ここでは、追加入力としてのオーディオモダリティの有用性について検討する。 米国における過去の政治討論から48時間のスピーチを含む、新しいマルチモーダルデータセット(テキストと音声)を作成しました。 実験により、複数話者の場合、音声モダリティの追加は、テキストモダリティのみの使用よりも大幅に改善され、さらに、音声のみのモデルが単一の話者に対してテキストのみのモデルよりも優れていることを示した。 将来の研究を可能にするために、すべてのデータとコードをhttps://github.com/petar-iv/audio-checkworthiness-detectionで公開しています。

Developing tools to automatically detect check-worthy claims in political debates and speeches can greatly help moderators of debates, journalists, and fact-checkers. While previous work on this problem has focused exclusively on the text modality, here we explore the utility of the audio modality as an additional input. We create a new multimodal dataset (text and audio in English) containing 48 hours of speech from past political debates in the USA. We then experimentally demonstrate that, in the case of multiple speakers, adding the audio modality yields sizable improvements over using the text modality alone; moreover, an audio-only model could outperform a text-only one for a single speaker. With the aim to enable future research, we make all our data and code publicly available at https://github.com/petar-iv/audio-checkworthiness-detection.
翻訳日:2024-01-19 20:32:58 公開日:2024-01-17
# シミュレーションに基づく実世界運転行動の因果発見

Simulation-Based Counterfactual Causal Discovery on Real World Driver Behaviour ( http://arxiv.org/abs/2306.03354v2 )

ライセンス: Link先を確認
Rhys Howard, Lars Kunze(参考訳) 人の行動が他人の行動にどう影響するかを判断できることは、インテリジェントな運転エージェントに必要なコアスキルである。 それにもかかわらず、芸術の状態は、自分自身と他者の間の因果関係を発見するエージェントの必要性を満たすために苦労している。 観察的アプローチは、動的環境における因果関係の非定常性や因果相互作用のスパースが原因で、オンライン形式での動作を要求される。 一方、車両は公道での動作を実験できないため、介入アプローチは現実的ではない。 非定常性の問題に対処するため、前述した介入制限を反事実シミュレーションを用いて克服する一方で、抽出された事象の観点から問題を再構成する。 提案手法は, 実世界の運転データセットから抽出した3396件の因果的シーンを対象とし, 提案手法の3つの変種について検討を行った。 提案手法は,提案課題における工法の現状を定量的に上回り,観察的アプローチや介入的アプローチでは不可能な方法で,異なる一連の意思決定結果を比較することで,さらなる洞察を与えることができる。

Being able to reason about how one's behaviour can affect the behaviour of others is a core skill required of intelligent driving agents. Despite this, the state of the art struggles to meet the need of agents to discover causal links between themselves and others. Observational approaches struggle because of the non-stationarity of causal links in dynamic environments, and the sparsity of causal interactions while requiring the approaches to work in an online fashion. Meanwhile interventional approaches are impractical as a vehicle cannot experiment with its actions on a public road. To counter the issue of non-stationarity we reformulate the problem in terms of extracted events, while the previously mentioned restriction upon interventions can be overcome with the use of counterfactual simulation. We present three variants of the proposed counterfactual causal discovery method and evaluate these against state of the art observational temporal causal discovery methods across 3396 causal scenes extracted from a real world driving dataset. We find that the proposed method significantly outperforms the state of the art on the proposed task quantitatively and can offer additional insights by comparing the outcome of an alternate series of decisions in a way that observational and interventional approaches cannot.
翻訳日:2024-01-19 20:31:52 公開日:2024-01-17
# Prompt to Transfer: Prompt Learningによる交通信号制御のためのSim-to-Real Transfer

Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning ( http://arxiv.org/abs/2308.14284v5 )

ライセンス: Link先を確認
Longchao Da, Minchiuan Gao, Hao Mei, Hua Wei(参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。 近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。 しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。 この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。 大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。 本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。 クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。 我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。

Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real).
翻訳日:2024-01-19 20:07:30 公開日:2024-01-17
# BridgeData V2: 大規模ロボット学習のためのデータセット

BridgeData V2: A Dataset for Robot Learning at Scale ( http://arxiv.org/abs/2308.12952v3 )

ライセンス: Link先を確認
Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine(参考訳) スケーラブルなロボット学習の研究を容易にするように設計されたロボット操作行動の大規模かつ多様なデータセットであるbridgedata v2を紹介する。 BridgeData V2には、24の環境にまたがる60,096のトラジェクトリが含まれている。 BridgeData V2は広範なタスクと環境の多様性を提供し、環境、ドメイン、機関をまたいで一般化できるスキルをもたらし、データセットを幅広い研究者にとって有用なリソースにする。 さらにデータセットは、ゴールイメージや自然言語命令を条件とした、さまざまなオープンボキャブラリなマルチタスク学習手法と互換性がある。 実験では,我々のデータセット上で6つの最先端模倣学習とオフライン強化学習法をトレーニングし,それらが様々な一般化を必要とする一連のタスクで成功することを確認した。 また,これらの手法の性能は,よりデータと高いキャパシティモデルにより向上し,より多様なスキルのトレーニングによって一般化が向上することを示した。 bridgedata v2とトレーニング済みモデルを公開することにより、スケーラブルなロボット学習手法の研究を加速することを目指している。 プロジェクトページ: https://rail-berkeley.github.io/bridgedata

We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata
翻訳日:2024-01-19 20:07:04 公開日:2024-01-17
# トランスフォーマー言語モデルにおけるタスク間の回路コンポーネント再利用

Circuit Component Reuse Across Tasks in Transformer Language Models ( http://arxiv.org/abs/2310.08744v2 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick(参考訳) 機械論的解釈可能性に関する最近の研究は、回路解析によって言語モデルの振る舞いを逆エンジニアリングできることを示した。 しかし、一般的な批判として、各回路はタスク固有であり、そのような分析はより高いレベルでモデルを理解することに寄与しない。 本研究は、特定の頭部に関する低レベルな発見と一般アルゴリズムに関する高レベルな発見の両方が、タスク全体にわたって実際に一般化できることを示す。 具体的には,Wang et al. (2022) で発見された間接物体識別(IOI)タスクの回路について検討する。 1)より大きなgpt2モデルで再現できることを示し、 2. 一見異なるタスク:色付きオブジェクト(ippolito & callison-burch, 2023)を解決するために再利用されることが多い。 両タスクの根底にあるプロセスが機能的に非常によく似ており、回路内注目ヘッドの約78%が重複していることを示す。 さらに,中間層に4つの注目ヘッドを配置して,カラーオブジェクト回路を「修復」し,IOI回路のように動作させる,概念実証介入実験を提案する。 そうすることで、Colored Objectsタスクの精度は49.6%から93.7%に向上し、ほとんどのエラーソースを説明します。 この介入は、IOI回路内の相互作用によって予測される特定の方法で下流の注意に影響を与え、このサブ回路の挙動が異なるタスク入力に不変であることを示す。 本研究の結果から,大規模言語モデルの動作を,相対的に少ない数のタスク一般化型アルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。

Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the models at a higher level. In this work, we present evidence that insights (both low-level findings about specific heads and higher-level findings about general algorithms) can indeed generalize across tasks. Specifically, we study the circuit discovered in Wang et al. (2022) for the Indirect Object Identification (IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that it is mostly reused to solve a seemingly different task: Colored Objects (Ippolito & Callison-Burch, 2023). We provide evidence that the process underlying both tasks is functionally very similar, and contains about a 78% overlap in in-circuit attention heads. We further present a proof-of-concept intervention experiment, in which we adjust four attention heads in middle layers in order to 'repair' the Colored Objects circuit and make it behave like the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the Colored Objects task and explain most sources of error. The intervention affects downstream attention heads in specific ways predicted by their interactions in the IOI circuit, indicating that this subcircuit behavior is invariant to the different task inputs. Overall, our results provide evidence that it may yet be possible to explain large language models' behavior in terms of a relatively small number of interpretable task-general algorithmic building blocks and computational components.
翻訳日:2024-01-19 19:58:16 公開日:2024-01-17
# ビデオからの擬似一般化ダイナミックビュー合成

Pseudo-Generalized Dynamic View Synthesis from a Video ( http://arxiv.org/abs/2310.08587v2 )

ライセンス: Link先を確認
Xiaoming Zhao, Alex Colburn, Fangchang Ma, Miguel Angel Bautista, Joshua M. Susskind, Alexander G. Schwing(参考訳) 新たな視点から単眼映像で見るシーンのレンダリングは難しい問題である。 静的なシーンでは、すべてのテストシーンを最適化するシーン固有の最適化テクニックと、テストシーンでディープネットフォワードのみを実行する一般化テクニックの両方を研究した。 対照的に、動的シーンにはシーン固有の最適化技術が存在するが、我々の知る限りでは、与えられた単眼ビデオから動的に新規なビューを合成するための一般的な方法は存在しない。 モノクラービデオから一般化された動的新規ビュー合成が可能かどうかを問うため、既存の技術に基づく分析フレームワークを構築し、一般化されたアプローチに向けた作業を行う。 シーン特有の外観最適化を伴わない擬似一般化プロセスは可能であるが、幾何学的および時間的一貫性のある深さ推定が必要である。 シーン固有の外観最適化はないが、擬似一般化アプローチはシーン固有の方法を改善する。

Rendering scenes observed in a monocular video from novel viewpoints is a challenging problem. For static scenes the community has studied both scene-specific optimization techniques, which optimize on every test scene, and generalized techniques, which only run a deep net forward pass on a test scene. In contrast, for dynamic scenes, scene-specific optimization techniques exist, but, to our best knowledge, there is currently no generalized method for dynamic novel view synthesis from a given monocular video. To answer whether generalized dynamic novel view synthesis from monocular videos is possible today, we establish an analysis framework based on existing techniques and work toward the generalized approach. We find a pseudo-generalized process without scene-specific appearance optimization is possible, but geometrically and temporally consistent depth estimates are needed. Despite no scene-specific appearance optimization, the pseudo-generalized approach improves upon some scene-specific methods.
翻訳日:2024-01-19 19:57:47 公開日:2024-01-17
# ZnOにおける単一ドナーの分離

Isolation of Single Donors in ZnO ( http://arxiv.org/abs/2310.05806v3 )

ライセンス: Link先を確認
Ethan R. Hansen, Vasileios Niaouris, Bethany E. Matthews, Christian Zimmermann, Xingyi Wang, Roman Kolodka, Lasse Vines, Steven R. Spurgeon, Kai-Mei C. Fu(参考訳) 酸化亜鉛(ZnO)の浅いドナーは光アクセスを持つ有望な半導体スピンキュービットである。 単一インジウム供与体は、プラズマ集光イオンビーム(PFIB)ミリングを用いて市販のZnO基板に分離される。 量子エミッタは空間および周波数フィルタリングによって光学的に識別される。 インジウムドナーの割り当ては、光学束縛励起子遷移エネルギーと磁気依存に基づいている。 単一ドナー放出は強度と周波数が安定であり、遷移線幅は寿命の2倍未満である。 fib製造後の光学安定なシングルドナーの分離は、直接バンドギャップ半導体の単一ドナーに基づくスケーラブルな量子技術に必要な光学デバイス統合に有望である。

The shallow donor in zinc oxide (ZnO) is a promising semiconductor spin qubit with optical access. Single indium donors are isolated in a commercial ZnO substrate using plasma focused ion beam (PFIB) milling. Quantum emitters are identified optically by spatial and frequency filtering. The indium donor assignment is based on the optical bound exciton transition energy and magnetic dependence. The single donor emission is intensity and frequency stable with a transition linewidth less than twice the lifetime limit. The isolation of optically stable single donors post-FIB fabrication is promising for optical device integration required for scalable quantum technologies based on single donors in direct band gap semiconductors.
翻訳日:2024-01-19 19:57:06 公開日:2024-01-17
# 極端多ラベル分類におけるロングテール性能のための一般化テストユーティリティ

Generalized test utilities for long-tail performance in extreme multi-label classification ( http://arxiv.org/abs/2311.05081v2 )

ライセンス: Link先を確認
Erik Schultheis, Marek Wydmuch, Wojciech Kot{\l}owski, Rohit Babbar, Krzysztof Dembczy\'nski(参考訳) Extreme Multi-label classification (XMLC)は、非常に大きなラベルセットから関連するラベルの小さなサブセットを選択するタスクである。 そのため、長い尾のラベルが特徴であり、ほとんどのラベルには正の例がほとんどない。 precision@kのような標準的なパフォーマンス対策では、分類器はテールラベルを無視し、良いパフォーマンスを報告できる。 しかし、尾部の正確な予測はより「興味深い」あるいは「逆行」であるとしばしば主張されるが、コミュニティはこの直感的な概念を捉える計量についてはまだ決着していない。 既存の適合度スコア付きメトリクスは、長いラベルと欠落ラベルの問題を埋め合わせることで、この目標を達成できない。 本稿では,代替手法として「at k」を予算とした一般化メトリクスを解析する。 これらのメトリクスを最適化する難しい問題に対処するため、固定されたテストセット上での期待性能の最適化を目的とした、期待テストユーティリティ(ETU)フレームワークでこれを定式化する。 最適予測規則を導出し,モデルの誤特定に対する証明可能な後悔保証と頑健性を備えた計算効率のよい近似を構築する。 ブロック座標の昇華に基づくアルゴリズムは、XMLC問題に懸命にスケールし、ロングテール性能の観点から有望な結果を得る。

Extreme multi-label classification (XMLC) is the task of selecting a small subset of relevant labels from a very large set of possible labels. As such, it is characterized by long-tail labels, i.e., most labels have very few positive instances. With standard performance measures such as precision@k, a classifier can ignore tail labels and still report good performance. However, it is often argued that correct predictions in the tail are more "interesting" or "rewarding," but the community has not yet settled on a metric capturing this intuitive concept. The existing propensity-scored metrics fall short on this goal by confounding the problems of long-tail and missing labels. In this paper, we analyze generalized metrics budgeted "at k" as an alternative solution. To tackle the challenging problem of optimizing these metrics, we formulate it in the expected test utility (ETU) framework, which aims to optimize the expected performance on a fixed test set. We derive optimal prediction rules and construct computationally efficient approximations with provable regret guarantees and robustness against model misspecification. Our algorithm, based on block coordinate ascent, scales effortlessly to XMLC problems and obtains promising results in terms of long-tail performance.
翻訳日:2024-01-19 19:46:46 公開日:2024-01-17
# 値不確定観測値に基づく二元量子乱数生成

Binary Quantum Random Number Generator Based on Value Indefinite Observables ( http://arxiv.org/abs/2312.10973v2 )

ライセンス: Link先を確認
Cristian S. Calude and Karl Svozil(参考訳) 値の不定値観測量に基づくすべての量子乱数生成器は、コッヘン・スペックルの定理と配置されたコッヘン・スペックルの定理が次元 2 において偽であるので少なくとも3次元である。 本稿では、三元数と同じランダム性特性を持つ二元量子ランダム出力を生成する3次元値非定義可観測性の測定に基づいて、量子乱数生成器を構成する。

All quantum random number generators based on measuring value indefinite observables are at least three-dimensional because the Kochen-Specker Theorem and the Located Kochen-Specker Theorem are false in dimension two. In this article, we construct quantum random number generators based on measuring a three-dimensional value indefinite observable that generate binary quantum random outputs with the same randomness qualities as the ternary ones: the outputs are maximally unpredictable.
翻訳日:2024-01-19 19:35:53 公開日:2024-01-17
# LLM-SQL-Solver: LLMはSQL等価性を決定できるか?

LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? ( http://arxiv.org/abs/2312.10321v2 )

ライセンス: Link先を確認
Fuheng Zhao, Lawrence Lim, Ishtiyaque Ahmad, Divyakant Agrawal, Amr El Abbadi(参考訳) 2つのSQLクエリの等価性を判断することは、データ管理とSQL生成(つまり、テキストからSQLタスクで生成されたSQLクエリの品質を評価する)における多くの実践的なアプリケーションにとって、根本的な問題である。 研究コミュニティは、SQLの同値性について何十年も推論してきたが、かなりの困難を伴い、完全なソリューションは存在しない。 近年,Large Language Models (LLMs) は,会話や質問応答,数学の課題解決に強い推論能力を示している。 本稿では,sqlクエリ間の等価性を,sql同値の2つの概念(semantic equivalence と relaxed equivalence)の下で決定するために llms が使用可能かどうかについて検討する。 LLMの高品質な応答生成を支援するために,Miniature & Mull と Explain & Compare の2つのプロンプト技術を提案する。 前者の手法は、LCMに単純なデータベースインスタンス上でクエリを実行させ、データベースを変更することで逆例が存在するかどうかを探索する意味等価性を評価するために使用される。 後者の手法は、LLMにクエリの説明を依頼し、重要な論理的違いがあるかどうかを比較するという緩和された等価性を評価するために用いられる。 LLMsは、セマンティックに等価なSQLクエリを書くのに役立つ有望なツールですが、課題はまだ続きますし、一般的な実行精度よりもSQL生成を評価するための優れた指標です。

Judging the equivalence between two SQL queries is a fundamental problem with many practical applications in data management and SQL generation (i.e., evaluating the quality of generated SQL queries in text-to-SQL task). While the research community has reasoned about SQL equivalence for decades, it poses considerable difficulties and no complete solutions exist. Recently, Large Language Models (LLMs) have shown strong reasoning capability in conversation, question answering and solving mathematics challenges. In this paper, we study if LLMs can be used to determine the equivalence between SQL queries under two notions of SQL equivalence (semantic equivalence and relaxed equivalence). To assist LLMs in generating high quality responses, we present two prompting techniques: Miniature & Mull and Explain & Compare. The former technique is used to evaluate the semantic equivalence in which it asks LLMs to execute a query on a simple database instance and then explore if a counterexample exists by modifying the database. The latter technique is used to evaluate the relaxed equivalence in which it asks LLMs to explain the queries and then compare if they contain significant logical differences. Our experiments demonstrate using our techniques, LLMs is a promising tool to help data engineers in writing semantically equivalent SQL queries, however challenges still persist, and is a better metric for evaluating SQL generation than the popular execution accuracy.
翻訳日:2024-01-19 19:35:41 公開日:2024-01-17
# logic-scaffolding: llmsを用いたパーソナライズされたアスペクト誘導型推奨説明生成

Logic-Scaffolding: Personalized Aspect-Instructed Recommendation Explanation Generation using LLMs ( http://arxiv.org/abs/2312.14345v2 )

ライセンス: Link先を確認
Behnam Rahdari, Hao Ding, Ziwei Fan, Yifei Ma, Zhuotong Chen, Anoop Deoras and Branislav Kveton(参考訳) 自然言語テキスト生成機能のようなLarge Language Models(LLMs)のユニークな能力は、レコメンデーションの説明を提供する強力な候補としてそれらを位置づけている。 しかし、LLMのサイズにもかかわらず、既存のモデルのほとんどはゼロショットの説明を確実に作成するのに苦労している。 この問題に対処するために、アスペクトベースの説明とチェーン・オブ・思想のアイデアを組み合わせたLogic-Scaffolding(Logic-Scaffolding)というフレームワークを提案する。 本稿では,フレームワーク構築の経験を共有し,その結果を探索するためのインタラクティブなデモンストレーションを行う。

The unique capabilities of Large Language Models (LLMs), such as the natural language text generation ability, position them as strong candidates for providing explanation for recommendations. However, despite the size of the LLM, most existing models struggle to produce zero-shot explanations reliably. To address this issue, we propose a framework called Logic-Scaffolding, that combines the ideas of aspect-based explanation and chain-of-thought prompting to generate explanations through intermediate reasoning steps. In this paper, we share our experience in building the framework and present an interactive demonstration for exploring our results.
翻訳日:2024-01-19 19:21:55 公開日:2024-01-17
# 量子シストリックアレイ型DNN加速器の活性化故障信頼性の探索

Exploration of Activation Fault Reliability in Quantized Systolic Array-Based DNN Accelerators ( http://arxiv.org/abs/2401.09509v1 )

ライセンス: Link先を確認
Mahdi Taheri, Natalia Cherezova, Mohammad Saeed Ansari, Maksim Jenihhin, Ali Mahani, Masoud Daneshtalab, Jaan Raik(参考訳) ディープニューラルネットワーク(DNN)アクセラレーターの信頼性の厳格な要件は、ハードウェアプラットフォームにおける計算負担の軽減、すなわち、エネルギー消費と実行時間を削減し、DNNアクセラレーターの効率を向上する必要性に沿うものである。 さらに、特別なDNNアクセラレーターの需要が増大し、特に安全クリティカルなアプリケーションには、これらの要件を満たす効率的で堅牢なアクセラレーターの開発を可能にするために、包括的な設計空間の探索が必要である。 したがって、ハードウェアの性能、すなわち領域と遅延と、dnnアクセラレータの実装の信頼性とのトレードオフが重要となり、分析ツールが必要となる。 本稿では,量子化がモデル精度,アクティベーション障害信頼性,ハードウェア効率に与える影響を総合的に評価するための総合的な手法を提案する。 様々な量子化対応技術、フォールトインジェクション、ハードウェア実装を適用し、ハードウェアパラメータの測定を可能にする、完全に自動化されたフレームワークが導入された。 さらに,本論文では,最終的なシストリックアレイに基づくFPGA実装の信頼性を保証するために,フレームワークに組み込んだ軽量保護手法を提案する。 確立されたベンチマークの実験では、信頼性、ハードウェア性能、ネットワークの正確性、特にネットワークのアクティベーションにおける過渡的障害に関する量子化の分析フローと深い影響が示されている。

The stringent requirements for the Deep Neural Networks (DNNs) accelerator's reliability stand along with the need for reducing the computational burden on the hardware platforms, i.e. reducing the energy consumption and execution time as well as increasing the efficiency of DNN accelerators. Moreover, the growing demand for specialized DNN accelerators with tailored requirements, particularly for safety-critical applications, necessitates a comprehensive design space exploration to enable the development of efficient and robust accelerators that meet those requirements. Therefore, the trade-off between hardware performance, i.e. area and delay, and the reliability of the DNN accelerator implementation becomes critical and requires tools for analysis. This paper presents a comprehensive methodology for exploring and enabling a holistic assessment of the trilateral impact of quantization on model accuracy, activation fault reliability, and hardware efficiency. A fully automated framework is introduced that is capable of applying various quantization-aware techniques, fault injection, and hardware implementation, thus enabling the measurement of hardware parameters. Moreover, this paper proposes a novel lightweight protection technique integrated within the framework to ensure the dependable deployment of the final systolic-array-based FPGA implementation. The experiments on established benchmarks demonstrate the analysis flow and the profound implications of quantization on reliability, hardware performance, and network accuracy, particularly concerning the transient faults in the network's activations.
翻訳日:2024-01-19 19:11:35 公開日:2024-01-17
# スリーパーエージェント:安全トレーニングを通じて持続する偽装llmの訓練

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ( http://arxiv.org/abs/2401.05566v3 )

ライセンス: Link先を確認
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, S\"oren Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez(参考訳) 人間は多くの状況で有益な行動をとるが、機会を与えられたときに別の目的を追求するために非常に異なる行動をとる。 もしAIシステムがそのような偽りの戦略を学んだら、検出して現在の最先端の安全訓練技術を使って除去できるだろうか? そこで本研究では,大規模言語モデル(llm)における概念実証事例について考察する。 例えば、2023年とプロンプトされた時にセキュアなコードを書くモデルをトレーニングしますが、2024年の場合は、悪用可能なコードを挿入します。 このようなバックドア動作は、教師付き微調整、強化学習、敵の訓練(安全でない振る舞いを排除し、それを除去する訓練)など、標準的な安全訓練技術によって取り除かれることはない。 バックドアの挙動は、最大のモデルや訓練されたモデルにおいて最も永続的であり、チェーン・オブ・シントを蒸留しても持続性は残る。 さらに,バックドアをなくすのではなく,モデルにバックドアトリガをよりよく認識するように指導することで,安全でない動作を効果的に隠蔽できることがわかった。 以上の結果から, モデルが仮装行動を示すと, 標準技術ではそのような偽装を除去できず, 安全性の虚偽の印象を生じさせる可能性が示唆された。

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoor behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoor behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.
翻訳日:2024-01-19 19:07:51 公開日:2024-01-17
# 次元ニューロイメージングエンドフェノタイプ : 機械学習による疾患の多様性の神経生物学的表現

Dimensional Neuroimaging Endophenotypes: Neurobiological Representations of Disease Heterogeneity Through Machine Learning ( http://arxiv.org/abs/2401.09517v1 )

ライセンス: Link先を確認
Junhao Wen, Mathilde Antoniades, Zhijian Yang, Gyujoon Hwang, Ioanna Skampardoni, Rongguang Wang, Christos Davatzikos(参考訳) 機械学習は、神経精神疾患および神経変性疾患の診断、予後、治療に対する反応のための個別化された神経画像シグネチャを得るためにますます使われてきた。 したがって、様々な脳の表現型に有意な差を示す疾患のサブタイプを同定することで、疾患の多様性をよりよく理解するのに役立つ。 本稿では,まず,アルツハイマー病,統合失調症,大うつ病,自閉症スペクトラム障害,多発性硬化症などの種々の神経精神疾患および神経変性疾患における疾患の多様性を解き放つために,機械学習とマルチモーダルmriを用いた研究を体系的に概観した。 次に,関連する機械学習方法論を要約し,dne(dimensional neuroimaging endophenotype)と呼ばれる新しいパラダイムについて論じる。 DNEは、神経精神医学および神経変性疾患の神経生物学的不均一性を低次元で情報的かつ定量的な脳表現型表現に分解し、基礎となる遺伝学と退化学を主に反映する堅牢な中間表現型(内フェノタイプ)として機能する。 最後に, 本研究の臨床的意義について考察し, 今後の展望について考察する。

Machine learning has been increasingly used to obtain individualized neuroimaging signatures for disease diagnosis, prognosis, and response to treatment in neuropsychiatric and neurodegenerative disorders. Therefore, it has contributed to a better understanding of disease heterogeneity by identifying disease subtypes that present significant differences in various brain phenotypic measures. In this review, we first present a systematic literature overview of studies using machine learning and multimodal MRI to unravel disease heterogeneity in various neuropsychiatric and neurodegenerative disorders, including Alzheimer disease, schizophrenia, major depressive disorder, autism spectrum disorder, multiple sclerosis, as well as their potential in transdiagnostic settings. Subsequently, we summarize relevant machine learning methodologies and discuss an emerging paradigm which we call dimensional neuroimaging endophenotype (DNE). DNE dissects the neurobiological heterogeneity of neuropsychiatric and neurodegenerative disorders into a low dimensional yet informative, quantitative brain phenotypic representation, serving as a robust intermediate phenotype (i.e., endophenotype) largely reflecting underlying genetics and etiology. Finally, we discuss the potential clinical implications of the current findings and envision future research avenues.
翻訳日:2024-01-19 18:59:38 公開日:2024-01-17
# Krylovサブスペースリサイクルによるニューラル演算子の高速化データ生成

Accelerating Data Generation for Neural Operators via Krylov Subspace Recycling ( http://arxiv.org/abs/2401.09516v1 )

ライセンス: Link先を確認
Hong Wang, Zhongkai Hao, Jie Wang, Zijie Geng, Zhen Wang, Bin Li, Feng Wu(参考訳) 偏微分方程式(PDE)を解くニューラルネットワークの学習は、高い推論効率のために大きな注目を集めている。 しかし、そのような演算子をトレーニングするには、大量のラベル付きデータ、すなわちpde問題とその解を生成する必要がある。 データ生成プロセスは、多くの線形方程式系を解いてPDEの数値解を得るため、非常に時間がかかります。 多くの既存手法は、固有の類似性を考慮せずにこれらのシステムを独立に解き、非常に冗長な計算をもたらす。 そこで本研究では,この問題に対処するために,krylov recycling (skr) という新しい手法を提案する。 我々の知る限りでは、SKRはニューラル演算子を学習するためのデータ生成の時間を要する性質に対処する最初の試みである。 skrの作業馬はkrylov subspace recycling(クリロフ・サブスペース・リサイクリング)であり、それらの固有の類似性を利用して一連の相互関連システムを解決する強力な技術である。 特に、skrはソートアルゴリズムを使用してこれらのシステムを配列し、隣接するシステムが高い類似性を示す。 次に、Krylovサブスペースのリサイクルを解き、独立にではなく逐次的にシステムを解くことで、解決効率を効果的に向上する。 理論解析と広範な実験は、SKRが神経オペレーターのデータ生成を著しく加速し、最大13.9倍のスピードアップを達成することを示した。

Learning neural operators for solving partial differential equations (PDEs) has attracted great attention due to its high inference efficiency. However, training such operators requires generating a substantial amount of labeled data, i.e., PDE problems together with their solutions. The data generation process is exceptionally time-consuming, as it involves solving numerous systems of linear equations to obtain numerical solutions to the PDEs. Many existing methods solve these systems independently without considering their inherent similarities, resulting in extremely redundant computations. To tackle this problem, we propose a novel method, namely Sorting Krylov Recycling (SKR), to boost the efficiency of solving these systems, thus significantly accelerating data generation for neural operators training. To the best of our knowledge, SKR is the first attempt to address the time-consuming nature of data generation for learning neural operators. The working horse of SKR is Krylov subspace recycling, a powerful technique for solving a series of interrelated systems by leveraging their inherent similarities. Specifically, SKR employs a sorting algorithm to arrange these systems in a sequence, where adjacent systems exhibit high similarities. Then it equips a solver with Krylov subspace recycling to solve the systems sequentially instead of independently, thus effectively enhancing the solving efficiency. Both theoretical analysis and extensive experiments demonstrate that SKR can significantly accelerate neural operator data generation, achieving a remarkable speedup of up to 13.9 times.
翻訳日:2024-01-19 18:59:13 公開日:2024-01-17
# ディープハフ変換による意味線検出と分類による監視カメラのfov品質の向上

Enhancing Surveillance Camera FOV Quality via Semantic Line Detection and Classification with Deep Hough Transform ( http://arxiv.org/abs/2401.09515v1 )

ライセンス: Link先を確認
Andrew C. Freeman, Wenjing Shi, Bin Hwang(参考訳) 録画されたビデオや画像の品質は、カメラの視野(fov)の影響を強く受けている。 監視システムや自動運転車のような重要なアプリケーションでは、不適切なFOVは、個人や物体を検知できないために自動車事故や盗難など、深刻な安全とセキュリティ上の懸念を引き起こす可能性がある。 従来のFOVの確立方法は人間の判断に大きく依存しており、FOVに基づいて映像や画質を評価するための自動メカニズムが欠如している。 本稿では,意味線の検出と分類をディープハフ変換と併用して意味線を識別し,並列線による3次元視の理解により適切なfovを実現する革新的な手法を提案する。 提案手法は, 一般のEgoCartデータセット上での有効F1スコア0.729と, ラインプレースメント指標の顕著な中央値スコアとを併用する。 本手法は,カメラの視野の質を簡易に評価し,83.8\%の分類精度が得られることを示す。 このメトリックは、ビデオおよび画質アプリケーションの潜在的なパフォーマンスを評価するためのプロキシとして機能する。

The quality of recorded videos and images is significantly influenced by the camera's field of view (FOV). In critical applications like surveillance systems and self-driving cars, an inadequate FOV can give rise to severe safety and security concerns, including car accidents and thefts due to the failure to detect individuals and objects. The conventional methods for establishing the correct FOV heavily rely on human judgment and lack automated mechanisms to assess video and image quality based on FOV. In this paper, we introduce an innovative approach that harnesses semantic line detection and classification alongside deep Hough transform to identify semantic lines, thus ensuring a suitable FOV by understanding 3D view through parallel lines. Our approach yields an effective F1 score of 0.729 on the public EgoCart dataset, coupled with a notably high median score in the line placement metric. We illustrate that our method offers a straightforward means of assessing the quality of the camera's field of view, achieving a classification accuracy of 83.8\%. This metric can serve as a proxy for evaluating the potential performance of video and image quality applications.
翻訳日:2024-01-19 18:58:45 公開日:2024-01-17
# 多視点確率ブロックモデルにおけるコミュニティ検出

Community Detection in the Multi-View Stochastic Block Model ( http://arxiv.org/abs/2401.09510v1 )

ライセンス: Link先を確認
Yexin Zhang, Zhongtian Ma, Qiaosheng Zhang, Zhen Wang, Xuelong Li(参考訳) 本稿では,情報理論の観点から,複数の潜在的相関グラフに対するコミュニティ検出の問題について考察する。 私たちはまず、同じノード群(濃度$n$)で相関グラフを生成するように設計されたマルチビュー確率ブロックモデル(mvsbm)と呼ばれるランダムグラフモデルを発表した。 n$ノードは、同じサイズの2つの非結合なコミュニティに分割される。 各ノードのグラフにエッジが存在するか存在しないかは、2つのノードが同じコミュニティに属しているかどうかに依存する。 学習者の目標は、観察されたグラフで隠れたコミュニティを回復することである。 私たちの技術貢献は2つあります。 i) MVSBMのモデルパラメータが一定の閾値を超えると,コミュニティの正確な回復が達成可能であることを示す情報理論上界(Theorem~1)を確立する。 (ii) 逆に、mvsbm のモデルパラメータが上記のしきい値を下回るとき、任意の推定器に対して、期待される誤分類されたノード数が常に1より大きいことを示す情報理論的下限 (theorem~2) を導出する。 MVSBMは, 標準SBMおよび複数の独立SBMにおいて, コミュニティ検出に先立ついくつかの結果を得た。

This paper considers the problem of community detection on multiple potentially correlated graphs from an information-theoretical perspective. We first put forth a random graph model, called the multi-view stochastic block model (MVSBM), designed to generate correlated graphs on the same set of nodes (with cardinality $n$). The $n$ nodes are partitioned into two disjoint communities of equal size. The presence or absence of edges in the graphs for each pair of nodes depends on whether the two nodes belong to the same community or not. The objective for the learner is to recover the hidden communities with observed graphs. Our technical contributions are two-fold: (i) We establish an information-theoretic upper bound (Theorem~1) showing that exact recovery of community is achievable when the model parameters of MVSBM exceed a certain threshold. (ii) Conversely, we derive an information-theoretic lower bound (Theorem~2) showing that when the model parameters of MVSBM fall below the aforementioned threshold, then for any estimator, the expected number of misclassified nodes will always be greater than one. Our results for the MVSBM recover several prior results for community detection in the standard SBM as well as in multiple independent SBMs as special cases.
翻訳日:2024-01-19 18:58:24 公開日:2024-01-17
# ディープアンサンブル形状校正:オンライン広告におけるマルチフィールドポストホック校正

Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising ( http://arxiv.org/abs/2401.09507v1 )

ライセンス: Link先を確認
Shuai Yang, Hao Yang, Zhuang Zou, Linhe Xu, Shuo Yuan, Yifan Zeng(参考訳) 電子商取引のシナリオでは、CTRとCVRの真の確率(キャリブレーションされた見積)を推定することが重要であり、買い手、売り手、プラットフォームの利益に直接影響を与える可能性がある。 従来の研究では、校正問題に対処する多くの解決策が紹介されている。 これらの方法は通常、検証セットを使用してカリブレータのトレーニングを伴い、オンライン推論中の元の推定値を補正するためにこれらのカリブレータを適用する。 しかし、eコマース広告のシナリオを決めるのは、マルチフィールドキャリブレーションの課題である。 マルチフィールドキャリブレーションは、値キャリブレーションと形状キャリブレーションの2つの異なるサブプロブレムに分けられる。 値のキャリブレーションは、関連するフィールド下の各値に対する過大評価や過小評価とは定義されていない。 形状キャリブレーションは、pCTRの各サブセットについて、関係するフィールドの条件下での特定範囲における過小評価または過小評価として定義される。 形状校正と値校正を実現するためには,単フィールド値サンプルのpctr指定範囲が相対的に少ないため,校正器の訓練が困難となるため,強力なデータ活用能力が必要である。 しかし,既存手法では値校正と形状校正を同時に行うことはできない。 これらの問題を解決するために,Deep Ensemble Shape Calibration (DESC) と呼ばれる新しい手法を提案する。 本稿では,これらの基本キャリブレーション関数を組み合わせることで,関数表現機能とデータ利用性を両立させる革新的な基底キャリブレーション関数を提案する。 重要な進歩は、最も適切な形状の校正器を様々なフィールドと値内の異なる推定誤差分布に割り当てることができるアロケータの開発にある。

In the e-commerce advertising scenario, estimating the true probabilities (known as a calibrated estimate) on CTR and CVR is critical and can directly affect the benefits of the buyer, seller and platform. Previous research has introduced numerous solutions for addressing the calibration problem. These methods typically involve the training of calibrators using a validation set and subsequently applying these calibrators to correct the original estimated values during online inference. However, what sets e-commerce advertising scenarios is the challenge of multi-field calibration. Multi-field calibration can be subdivided into two distinct sub-problems: value calibration and shape calibration. Value calibration is defined as no over- or under-estimation for each value under concerned fields. Shape calibration is defined as no over- or under-estimation for each subset of the pCTR within the specified range under condition of concerned fields. In order to achieve shape calibration and value calibration, it is necessary to have a strong data utilization ability.Because the quantity of pCTR specified range for single field-value sample is relative small, which makes the calibrator more difficult to train. However the existing methods cannot simultaneously fulfill both value calibration and shape calibration. To solve these problems, we propose a new method named Deep Ensemble Shape Calibration (DESC). We introduce innovative basis calibration functions, which enhance both function expression capabilities and data utilization by combining these basis calibration functions. A significant advancement lies in the development of an allocator capable of allocating the most suitable shape calibrators to different estimation error distributions within diverse fields and values.
翻訳日:2024-01-19 18:58:05 公開日:2024-01-17
# ロジスティックマップを用いた貯留層計算

Reservoir computing with logistic map ( http://arxiv.org/abs/2401.09501v1 )

ライセンス: Link先を確認
R. Arun, M. Sathish Aravindh, A. Venkatesan, M. Lakshmanan(参考訳) 貯水池計算の最近の研究は、時間的および非時間的データ処理のための高次元状態として入力を変換し保存する貯水池としての高次元力学系を本質的に含んでいる。 本稿では,非線形写像,すなわちロジスティック写像,単純有限三角級数を用いて貯留層を構成する仮想ノードを構築し,時間的および非時間的タスクを予測する手法を示す。 時間的タスクに対してはlorenz,r\"ossler,hindmarsh-rose,非時間的タスクでは7階多項式の3つの非線形システムを予測する。 また、予測はノイズの存在下で行われ、ターゲットと密接に一致していることがわかった。 驚くべきことに、ロジスティックマップはうまく動作し、実際の値や目標値に近い値を予測します。 根平均二乗誤差の低い値は,効率性の観点から,この手法の精度を確認する。 貯留層計算における貯留層構築のための連続力学系の必要性を解消する。 さらに、3つの異なる非線形系の正確な予測は、この手法が一般のシステムと見なすことができ、多くのシステムの予測に応用できることを示唆している。 最後に,この手法が将来の時系列を正確に予測していることを示す(自己予測)。

Recent studies on reservoir computing essentially involve a high dimensional dynamical system as the reservoir, which transforms and stores the input as a higher dimensional state, for temporal and nontemporal data processing. We demonstrate here a method to predict temporal and nontemporal tasks by constructing virtual nodes as constituting a reservoir in reservoir computing using a nonlinear map, namely logistic map, and a simple finite trigonometric series. We predict three nonlinear systems, namely Lorenz, R\"ossler, and Hindmarsh-Rose, for temporal tasks and a seventh order polynomial for nontemporal tasks with great accuracy. Also, the prediction is made in the presence of noise and found to closely agree with the target. Remarkably, the logistic map performs well and predicts close to the actual or target values. The low values of the root mean square error confirm the accuracy of this method in terms of efficiency. Our approach removes the necessity of continuous dynamical systems for constructing the reservoir in reservoir computing. Moreover, the accurate prediction for the three different nonlinear systems suggests that this method can be considered a general one and can be applied to predict many systems. Finally, we show that the method also accurately anticipates the time series for the future (self prediction).
翻訳日:2024-01-19 18:57:37 公開日:2024-01-17
# 平滑な表現学習のための機能的オートエンコーダ

Functional Autoencoder for Smoothing and Representation Learning ( http://arxiv.org/abs/2401.09499v1 )

ライセンス: Link先を確認
Sidi Wu, C\'edric Beaulac and Jiguo Cao(参考訳) 関数データ解析における一般的なパイプラインは、まず離散的に観測されたデータを滑らかな関数に変換し、次に情報を要約する係数の有限次元ベクトルで関数を表現することである。 データ平滑化と次元縮小のための既存の方法は、主にデータ空間から表現空間への線形写像の学習に焦点を当てているが、線形表現のみを学ぶだけでは不十分である。 本研究では,ニューラルネットワークのオートエンコーダを用いて,関数データの非線形表現を学習し,前処理を必要とせずに収集する手法を提案する。 関数データの重み付き内積と観測されたタイムスタンプ上の関数重み付き内積を演算する投影層と、関数データから抽出された有限次元ベクトルを所定の基底関数の集合を用いて関数空間にマッピングする回復層を適用するデコーダとを備えるように設計する。 開発されたアーキテクチャは、定期的および不規則な間隔のデータの両方に対応できる。 提案手法は, 線形および非線形条件下での従来のオートエンコーダと比較して, 機能主成分分析を予測と分類で上回り, よりスムーズな性能と計算効率を向上することを示した。

A common pipeline in functional data analysis is to first convert the discretely observed data to smooth functions, and then represent the functions by a finite-dimensional vector of coefficients summarizing the information. Existing methods for data smoothing and dimensional reduction mainly focus on learning the linear mappings from the data space to the representation space, however, learning only the linear representations may not be sufficient. In this study, we propose to learn the nonlinear representations of functional data using neural network autoencoders designed to process data in the form it is usually collected without the need of preprocessing. We design the encoder to employ a projection layer computing the weighted inner product of the functional data and functional weights over the observed timestamp, and the decoder to apply a recovery layer that maps the finite-dimensional vector extracted from the functional data back to functional space using a set of predetermined basis functions. The developed architecture can accommodate both regularly and irregularly spaced data. Our experiments demonstrate that the proposed method outperforms functional principal component analysis in terms of prediction and classification, and maintains superior smoothing ability and better computational efficiency in comparison to the conventional autoencoders under both linear and nonlinear settings.
翻訳日:2024-01-19 18:57:13 公開日:2024-01-17
# 技術報告:ノードの到達不能性を考慮したゴシップ学習の収束について

Technical Report: On the Convergence of Gossip Learning in the Presence of Node Inaccessibility ( http://arxiv.org/abs/2401.09498v1 )

ライセンス: Link先を確認
Tian Liu, Yue Cui, Xueyang Hu, Yecheng Xu, Bo Liu(参考訳) Gossip Learning(GL)は、連邦学習(FL)の代替として、無人航空機(UAV)によって形成されるFANETなどのリソース制約された無線ネットワークに適している。 GLは、UAVネットワークの効率を大幅に向上し、バッテリー寿命を延長することができる。 この利点にもかかわらず、GLの性能はデータ分散、通信速度、ネットワーク接続に強く影響されている。 しかし、これらの因子がGL収束にどのように影響するかはいまだ不明である。 既存の研究は、いくつかのノードがアクセスできない場合、ネットワークの実際の状態を反映できない利便性のために、仮想量に基づいてGLの収束を研究した。 本稿では,動的ネットワークトポロジの下でglに対するアクセス不能ノードの影響を定式化し,検討する。 まず、ノードがアクセス可能かどうかによって重み分散を分解する。 そこで我々は,ノードアクセシビリティの動的条件下でのGL収束について検討し,到達不能ノード数,データ非i.d.ネス,到達不能期間が収束に与える影響を理論的に示す。 理論的な結果の正しさを包括的に検証するために,実践的な実験を行った。

Gossip learning (GL), as a decentralized alternative to federated learning (FL), is more suitable for resource-constrained wireless networks, such as FANETs that are formed by unmanned aerial vehicles (UAVs). GL can significantly enhance the efficiency and extend the battery life of UAV networks. Despite the advantages, the performance of GL is strongly affected by data distribution, communication speed, and network connectivity. However, how these factors influence the GL convergence is still unclear. Existing work studied the convergence of GL based on a virtual quantity for the sake of convenience, which fail to reflect the real state of the network when some nodes are inaccessible. In this paper, we formulate and investigate the impact of inaccessible nodes to GL under a dynamic network topology. We first decompose the weight divergence by whether the node is accessible or not. Then, we investigate the GL convergence under the dynamic of node accessibility and theoretically provide how the number of inaccessible nodes, data non-i.i.d.-ness, and duration of inaccessibility affect the convergence. Extensive experiments are carried out in practical settings to comprehensively verify the correctness of our theoretical findings.
翻訳日:2024-01-19 18:56:53 公開日:2024-01-17
# ヘテロゲニティ認識領域適応核セグメンテーションのための超分割一般化学習

Learning to Generalize over Subpartitions for Heterogeneity-aware Domain Adaptive Nuclei Segmentation ( http://arxiv.org/abs/2401.09496v1 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Hang Chang, and Weidong Cai(参考訳) アノテーション不足とクロスモダリティ/定常データ分散シフトは、デジタル病理学における潜在的な応用範囲の広い核解析へのディープラーニングモデルの適用を妨げる2つの大きな障害である。 近年,組織病理画像における非教師なし核分画の異なる撮像モード間の分布ギャップを軽減するために,未教師なし領域適応法 (unsupervised domain adaptation,uda) が提案されている。 しかし、既存のudaメソッドは、各ドメイン内のデータ分布が一様であるべきだという仮定に基づいている。 組織病理組織学的対象領域とソースドメインを一体的に連携させることを提案し,混合癌とサンプリング臓器によって引き起こされる亜分画に対する重度のドメイン内不一致を無視した。 本稿では,病理組織学領域における異質性を明確に検討し,その解決のためにオープン複合ドメイン適応(OCDA)を導入することを提案する。 具体的には、画像レベルとインスタンスレベルの両方でドメイン不変の特徴表現を取得するために、2段階のアンタングルメントフレームワークを提案する。 全体的な設計は、インスタンスワイドのバリエーションを捉えるのに苦労する既存のOCDAアプローチの制限に対処する。 ここでは,2つのレギュラー化戦略を,病理組織像におけるリッチな分節特異的特性を活用し,サブドメイン分解を促進するために考案した。 さらに,合成画像の核過剰発生と変形を防止するために,二重分岐核形状と構造保存モジュールを提案する。 多様なデータセットにまたがるクロスモダリティおよびクロスステイティシナリオに関する実験結果は、最先端のUDA法やOCDA法と比較して、我々の手法の優位性を示している。

Annotation scarcity and cross-modality/stain data distribution shifts are two major obstacles hindering the application of deep learning models for nuclei analysis, which holds a broad spectrum of potential applications in digital pathology. Recently, unsupervised domain adaptation (UDA) methods have been proposed to mitigate the distributional gap between different imaging modalities for unsupervised nuclei segmentation in histopathology images. However, existing UDA methods are built upon the assumption that data distributions within each domain should be uniform. Based on the over-simplified supposition, they propose to align the histopathology target domain with the source domain integrally, neglecting severe intra-domain discrepancy over subpartitions incurred by mixed cancer types and sampling organs. In this paper, for the first time, we propose to explicitly consider the heterogeneity within the histopathology domain and introduce open compound domain adaptation (OCDA) to resolve the crux. In specific, a two-stage disentanglement framework is proposed to acquire domain-invariant feature representations at both image and instance levels. The holistic design addresses the limitations of existing OCDA approaches which struggle to capture instance-wise variations. Two regularization strategies are specifically devised herein to leverage the rich subpartition-specific characteristics in histopathology images and facilitate subdomain decomposition. Moreover, we propose a dual-branch nucleus shape and structure preserving module to prevent nucleus over-generation and deformation in the synthesized images. Experimental results on both cross-modality and cross-stain scenarios over a broad range of diverse datasets demonstrate the superiority of our method compared with state-of-the-art UDA and OCDA methods.
翻訳日:2024-01-19 18:56:32 公開日:2024-01-17
# IPR-NeRF:オーナシップ検証とニューラルラジアンスフィールド

IPR-NeRF: Ownership Verification meets Neural Radiance Field ( http://arxiv.org/abs/2401.09495v1 )

ライセンス: Link先を確認
Win Kent Ong, Kam Woh Ng, Chee Seng Chan, Yi Zhe Song, Tao Xiang(参考訳) neural radiance field(nerf)モデルは、最近のコンピュータビジョンコミュニティにおいて、最先端の視覚品質で大きな注目を集め、印象的なデモンストレーションを生み出した。 それ以来、技術者はNeRFモデルを利益のあるビジネスに活用しようとしてきた。 そのため、NeRFモデルは、違法にそれらのモデルをコピー、再配布、または誤用するリスクを負う。 本稿では, ブラックボックスおよびホワイトボックス設定, IPR-NeRFにおけるNeRFモデルに対する包括的知的財産権保護フレームワークを提案する。 ブラックボックス設定では、2段階最適化プロセスを介して透かしを埋め込み抽出するために拡散ベースの溶液が導入された。 ホワイトボックス設定では、指定されたデジタル署名が、符号損失目標を採用して、nerfモデルの重みに埋め込まれる。 我々は,IPR-NeRFモデルの忠実度(レンダリング品質)を維持するだけでなく,従来の技術と比較して曖昧さと除去攻撃に対して頑健であることを示した。

Neural Radiance Field (NeRF) models have gained significant attention in the computer vision community in the recent past with state-of-the-art visual quality and produced impressive demonstrations. Since then, technopreneurs have sought to leverage NeRF models into a profitable business. Therefore, NeRF models make it worth the risk of plagiarizers illegally copying, re-distributing, or misusing those models. This paper proposes a comprehensive intellectual property (IP) protection framework for the NeRF model in both black-box and white-box settings, namely IPR-NeRF. In the black-box setting, a diffusion-based solution is introduced to embed and extract the watermark via a two-stage optimization process. In the white-box setting, a designated digital signature is embedded into the weights of the NeRF model by adopting the sign loss objective. Our extensive experiments demonstrate that not only does our approach maintain the fidelity (\ie, the rendering quality) of IPR-NeRF models, but it is also robust against both ambiguity and removal attacks compared to prior arts.
翻訳日:2024-01-19 18:56:06 公開日:2024-01-17
# VeriBug: ハードウェア設計におけるバグローカライズのための注意ベースのフレームワーク

VeriBug: An Attention-based Framework for Bug-Localization in Hardware Designs ( http://arxiv.org/abs/2401.09494v1 )

ライセンス: Link先を確認
Giuseppe Stracquadanio, Sourav Medya, Stefano Quer, and Debjit Pal(参考訳) 近年,様々な用途を対象としたSystem-on-Chip設計のサイズと複雑さが指数関数的に増大している。 これらのシステムにおける検出されていないバグのコストは、プロパティや寿命の損失を意味する可能性があるため、従来のプロセッサシステムよりもはるかに高い。 この問題は、何十億ものデバイスを駆除する時間と需要の増大によってさらに悪化している。 何十年ものシミュレーションとデバッグと検証のための形式的手法の研究にもかかわらず、現代のハードウェア設計サイクルで最も時間を要する、リソース集約的なプロセスの一つである。 本研究では,最近のディープラーニングの進歩を活かして,レジスタ転送レベルでのデバッグを高速化し,根本原因の説明を生成するveribugを提案する。 まず、VeriBugはハードウェア設計の制御データフローグラフを使用し、オペランドのコンテキストとその割り当てを分析して設計文を実行することを学習する。 次に、設計文の各オペランドに重要スコアを割り当て、そのスコアを使用して障害の説明を生成する。 最後に、VeriBugは潜在的なバグのあるソースコード部分を強調するヒートマップを生成する。 実験の結果,VeriBugはオープンソース設計やさまざまなタイプのインジェクトバグに対して,平均82.5%のバグローカライゼーションを達成できることがわかった。

In recent years, there has been an exponential growth in the size and complexity of System-on-Chip designs targeting different specialized applications. The cost of an undetected bug in these systems is much higher than in traditional processor systems as it may imply the loss of property or life. The problem is further exacerbated by the ever-shrinking time-to-market and ever-increasing demand to churn out billions of devices. Despite decades of research in simulation and formal methods for debugging and verification, it is still one of the most time-consuming and resource intensive processes in contemporary hardware design cycle. In this work, we propose VeriBug, which leverages recent advances in deep learning to accelerate debugging at the Register-Transfer Level and generates explanations of likely root causes. First, VeriBug uses control-data flow graph of a hardware design and learns to execute design statements by analyzing the context of operands and their assignments. Then, it assigns an importance score to each operand in a design statement and uses that score for generating explanations for failures. Finally, VeriBug produces a heatmap highlighting potential buggy source code portions. Our experiments show that VeriBug can achieve an average bug localization coverage of 82.5% on open-source designs and different types of injected bugs.
翻訳日:2024-01-19 18:55:38 公開日:2024-01-17
# 初期熱帯サイクロン強度に関連する3次元放射パターンの同定

Identifying Three-Dimensional Radiative Patterns Associated with Early Tropical Cyclone Intensification ( http://arxiv.org/abs/2401.09493v1 )

ライセンス: Link先を確認
Frederick Iat-Hin Tam, Tom Beucler, James H. Ruppert Jr(参考訳) 雲放射フィードバックは初期熱帯サイクロン(tc)の強度に影響を及ぼすが、既存の診断フレームワークの制限により、非対称または過渡的な放射加熱の研究には適さない。 本稿では, 実数値シミュレーションTCの表面強度と放射の隠れ関係を学習するための線形変分エンコーダ(VED)を提案する。 vedモデル入力を制限することで、放射線が強化にとってより重要である期間を識別することができる。 抽出した3次元放射構造を詳細に検討した結果,内部コアの深層対流と浅層雲からの長波放射はともに増大に寄与し,深層対流は全体として最も影響が大きいことが示唆された。 浅層雲の深い対流下風は、ハイヤンの強化に不可欠である。 我々の研究は、機械学習が軸対称的あるいは決定論的仮定に頼ることなく熱力学的関係を発見できることを示し、現実的な条件下でTCの強化につながるプロセスの客観的発見への道を開いた。

Cloud radiative feedback impacts early tropical cyclone (TC) intensification, but limitations in existing diagnostic frameworks make them unsuitable for studying asymmetric or transient radiative heating. We propose a linear Variational Encoder-Decoder (VED) to learn the hidden relationship between radiation and the surface intensification of realistic simulated TCs. Limiting VED model inputs enables using its uncertainty to identify periods when radiation has more importance for intensification. A close examination of the extracted 3D radiative structures suggests that longwave radiative forcing from inner core deep convection and shallow clouds both contribute to intensification, with the deep convection having the most impact overall. We find that deep convection downwind of the shallow clouds is critical to the intensification of Haiyan. Our work demonstrates that machine learning can discover thermodynamic-kinematic relationships without relying on axisymmetric or deterministic assumptions, paving the way towards the objective discovery of processes leading to TC intensification in realistic conditions.
翻訳日:2024-01-19 18:55:15 公開日:2024-01-17
# 局所磁場による通信線における量子状態の最適リモート復元

Optimal remote restoring of quantum states in communication lines via local magnetic field ( http://arxiv.org/abs/2401.09569v1 )

ライセンス: Link先を確認
E.B. Fel'dman, A.N. Pechen and A.I. Zenchuk(参考訳) スピン鎖間の最適状態輸送は、固体量子アーキテクチャにおける情報伝達のための量子ワイヤとして提案され、量子技術にとって重要なトピックである。 本研究では,スピン鎖に沿って移動した量子状態の遠隔復元について検討する。 } 構造状態復元手法は,初期送信者状態の密度行列の適切な要素と,ある時点における受信者状態との比例性を提供する。 我々は,段階的な時間依存ラーモア周波数を持つ不均質な磁場を状態制御ツールとして使用する“remote”状態復元プロトコルを開発した。 マルチパラメトリックハミルトニアンをシミュレートするには、2つの近似モデルを用いる。 第1モデルはトロッタースズキ法に基づいており、第2モデルは高強度の短パルスを用いている。 いずれの場合も近似の精度を推定し、様々な長さのスピン鎖の比例率の係数を最大化するプロトコルの最適復元パラメータ(ラーモア周波数)を求める。

Optimal state transport across spin chains, which are proposed as quantum wires for information transfer in solid state quantum architectures, is an important topic for quantum technologies. In this work, we study {the remote restoring of a quantum state transferred along a spin chain.} The structural state-restoring technique provides proportionality between the appropriate elements of the density matrices of the initial sender state and receiver state at some time instant. We develop a {remote} state-restoring protocol which uses an inhomogeneous magnetic field with step-wise time-dependent Larmor frequencies as the state-control tool. For simulating the multiparametric Hamiltonian we use two approximating models. First model is based on the Trotter-Suzuki method, while the second model is based on using short pulses of high intensity. In both cases we estimate the accuracy of the approximation and find the optimal restoring parameters (Larmor frequencies) of the protocol which maximize the coefficients in the proportionality for spin chains of various lengths.
翻訳日:2024-01-19 18:47:05 公開日:2024-01-17
# 対実DPOを用いた大規模言語モデルのアライメント

Aligning Large Language Models with Counterfactual DPO ( http://arxiv.org/abs/2401.09566v1 )

ライセンス: Link先を確認
Bradley Butcher(参考訳) 大規模言語モデル(LLM)の進歩は、様々なアプリケーションで顕著な機能を示している。 これらのモデルは文脈的に一貫性があり、幅広い主題をカバーするテキスト補完を生成するのに優れている。 しかし、トレーニングに必要な膨大なデータセットは、事前トレーニングと指導のチューニングフェーズにおける応答スタイルの整合を困難にしている。 その結果、通常、追加のアライメントフェーズが採用され、モデルはさらに人間の嗜好データで訓練され、その出力と人間の期待をより良く調整される。 このプロセスは、本質的に新しい機能を導入していないが、モデルに固有の生成スタイルをアクセント化する。 本稿では,人間の介入に頼らずにモデルスタイルを整合させるために,直接選好最適化(DPO)フレームワーク内での対実的プロンプトの利用について検討する。 本手法は,望ましい動作を効果的に排除し,望ましくない動作を緩和し,不適切な指示を無視するようモデルに促すことを実証する。 我々の知見は、DPOによる反実的プロンプトは、責任的かつ倫理的に整合したAIシステムに対する要求を満たすために、LLMを微調整する低リソースな方法を示すことを示唆している。

Advancements in large language models (LLMs) have demonstrated remarkable capabilities across a diverse range of applications. These models excel in generating text completions that are contextually coherent and cover an extensive array of subjects. However, the vast datasets required for their training make aligning response styles during the pretraining and instruction tuning phases challenging. Consequently, an additional alignment phase is typically employed, wherein the model is further trained with human preference data to better align its outputs with human expectations. While this process doesn't introduce new capabilities per se, it does accentuate generation styles innate to the model. This paper explores the utilization of counterfactual prompting within the framework of Direct Preference Optimization (DPO) to align the model's style without relying on human intervention. We demonstrate that this method effectively instils desirable behaviour, mitigates undesirable ones, and encourages the model to disregard inappropriate instructions. Our findings suggest that counterfactual prompting with DPO presents a low-resource way to fine-tune LLMs to meet the demands for responsible and ethically aligned AI systems.
翻訳日:2024-01-19 18:46:48 公開日:2024-01-17
# スピンリングYIGナノ球における真空摩擦の巨大化

Giant Enhancement of Vacuum Friction in Spinning YIG Nanospheres ( http://arxiv.org/abs/2401.09563v1 )

ライセンス: Link先を確認
Farhad Khosravi, Wenbo Sun, Chinmay Khandekar, Tongcang Li, Zubin Jacob(参考訳) 真空放射と真空摩擦トルクの実験的観察は、実用システムにおける極めて小さな効果のために困難である。 例えば、自由空間の回転するナノスフィアは、宇宙の年齢の前後で停止する時間を持つ真空変動による摩擦によって減速する。 ここでは、アルミニウムまたはYIGスラブ近傍の回転するイットリウム鉄ガーネット(YIG)ナノスフィアは他の金属または誘電体ナノスフィアよりも8桁大きい真空放射を示す。 回転周波数に匹敵する低周波GHzで発生するYIG系における状態の磁場近傍の局所密度を利用して、この巨大化を実現する。 さらに,この大きな真空放射と摩擦トルクを実験で利用可能な条件下で観測するための現実的な実験装置を提案する。

Experimental observations of vacuum radiation and vacuum frictional torque are challenging due to their vanishingly small effects in practical systems. For example, a rotating nanosphere in free space slows down due to friction from vacuum fluctuations with a stopping time around the age of the universe. Here, we show that a spinning yttrium iron garnet (YIG) nanosphere near aluminum or YIG slabs exhibits vacuum radiation eight orders of magnitude larger than other metallic or dielectric spinning nanospheres. We achieve this giant enhancement by exploiting the large near-field magnetic local density of states in YIG systems, which occurs in the low-frequency GHz regime comparable to the rotation frequency. Furthermore, we propose a realistic experimental setup for observing the effects of this large vacuum radiation and frictional torque under experimentally accessible conditions.
翻訳日:2024-01-19 18:46:28 公開日:2024-01-17
# マルチタスク深層強化学習における知識共有

Sharing Knowledge in Multi-Task Deep Reinforcement Learning ( http://arxiv.org/abs/2401.09561v1 )

ライセンス: Link先を確認
Carlo D'Eramo, Davide Tateo, Andrea Bonarini, Marcello Restelli, Jan Peters(参考訳) マルチタスク強化学習において,ディープニューラルネットワークを効果的に活用するためのタスク間の表現共有の利点について検討する。 異なるタスクから学習し、共通の特性を共有することは、それらの知識を一般化し、1つのタスクを学習するよりも効果的な特徴抽出を可能にすると仮定する。 直感的には、結果として得られた機能セットは強化学習アルゴリズムが使用するパフォーマンスの利点を提供する。 本稿では,タスク間の表現の共有に便利な条件を強調した理論的保証を提供することにより,近似値の有限時間境界をマルチタスク設定に拡張することでこれを証明する。 さらに,広範に使用されている強化学習ベンチマークで実証的に評価した3つの強化学習アルゴリズムのマルチタスク拡張を提案し,サンプル効率と性能の観点から,単一タスクのアルゴリズムよりも大幅に向上したことを示す。

We study the benefit of sharing representations among tasks to enable the effective use of deep neural networks in Multi-Task Reinforcement Learning. We leverage the assumption that learning from different tasks, sharing common properties, is helpful to generalize the knowledge of them resulting in a more effective feature extraction compared to learning a single task. Intuitively, the resulting set of features offers performance benefits when used by Reinforcement Learning algorithms. We prove this by providing theoretical guarantees that highlight the conditions for which is convenient to share representations among tasks, extending the well-known finite-time bounds of Approximate Value-Iteration to the multi-task setting. In addition, we complement our analysis by proposing multi-task extensions of three Reinforcement Learning algorithms that we empirically evaluate on widely used Reinforcement Learning benchmarks showing significant improvements over the single-task counterparts in terms of sample efficiency and performance.
翻訳日:2024-01-19 18:46:17 公開日:2024-01-17
# 深層学習による混合整数最適化:モデルの次元性向上のための学習

Deep learning enhanced mixed integer optimization: Learning to reduce model dimensionality ( http://arxiv.org/abs/2401.09556v1 )

ライセンス: Link先を確認
Niki Triantafyllou, Maria M. Papathanasiou(参考訳) この研究は、深層学習の可能性を生かして、MIP(Mixed-Integer Programming)モデルに固有の計算複雑性に対処するフレームワークを導入する。 私たちは効果を比較する (a)フィードフォワードニューラルネットワーク(ANN)と b) 畳み込みニューラルネットワーク(CNN)は, MIP問題における活動次元を近似する。 マルチラベル分類を用いて,複数のアクティブ次元を考慮した。 フレームワークの性能を向上させるため、ハイパーパラメータチューニングにベイズ最適化を採用し、サンプルレベルの精度を最大化することを目指している。 主な目的は、すべての活動次元を正確に予測するためにニューラルネットワークを訓練することであり、それによってグローバルな最適解の発生を最大化する。 本枠組みは, 長期投資計画と中期戦略計画を記述したMILP (Mixed-Integer Linear Programming) を, 細胞治療と流通のためのパーソナライズされた医療サプライチェーンに適用する。

This work introduces a framework to address the computational complexity inherent in Mixed-Integer Programming (MIP) models by harnessing the potential of deep learning. We compare the effectiveness of (a) feed-forward neural networks (ANN) and (b) convolutional neural networks (CNN) in approximating the active dimensions within MIP problems. We utilize multi-label classification to account for more than one active dimension. To enhance the framework's performance, we employ Bayesian optimization for hyperparameter tuning, aiming to maximize sample-level accuracy. The primary objective is to train the neural networks to predict all active dimensions accurately, thereby maximizing the occurrence of global optimum solutions. We apply this framework to a flow-based facility location allocation Mixed-Integer Linear Programming (MILP) formulation that describes long-term investment planning and medium-term tactical planning in a personalized medicine supply chain for cell therapy manufacturing and distribution.
翻訳日:2024-01-19 18:46:03 公開日:2024-01-17
# 人的フィードバックによる分類性能の向上: ラベルを付け、残りをラベル付けする

Improving Classification Performance With Human Feedback: Label a few, we label the rest ( http://arxiv.org/abs/2401.09555v1 )

ライセンス: Link先を確認
Natan Vidra, Thomas Clifford, Katherine Jijo, Eden Chung, Liang Zhang(参考訳) 大部分のデータが構造化されていない人工知能の領域では、教師付き機械学習モデルのトレーニングのために大量のラベル付きデータを取得することが大きな課題となる。 そこでは、ラベル付きのいくつかの例について、人間のフィードバックでAIモデルを改善することが目標です。 本稿では,連続フィードバックループがモデルを洗練し,人間のインクリメンタル入力による精度,リコール,精度を向上させる方法について述べる。 GPT-3.5,BERT,SetFitなどのLarge Language Models (LLMs) を用いることで,限られたラベル付き例を用いてモデル精度を大幅に向上させる効果を解析することを目指す。 このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を超え、テキスト分類のパフォーマンスを向上させることができることを証明しています。 数百万行のデータを手動でラベル付けする必要はなく、数行のラベルを付けるだけで、モデルを効果的に予測できることを実証しています。

In the realm of artificial intelligence, where a vast majority of data is unstructured, obtaining substantial amounts of labeled data to train supervised machine learning models poses a significant challenge. To address this, we delve into few-shot and active learning, where are goal is to improve AI models with human feedback on a few labeled examples. This paper focuses on understanding how a continuous feedback loop can refine models, thereby enhancing their accuracy, recall, and precision through incremental human input. By employing Large Language Models (LLMs) such as GPT-3.5, BERT, and SetFit, we aim to analyze the efficacy of using a limited number of labeled examples to substantially improve model accuracy. We benchmark this approach on the Financial Phrasebank, Banking, Craigslist, Trec, Amazon Reviews datasets to prove that with just a few labeled examples, we are able to surpass the accuracy of zero shot large language models to provide enhanced text classification performance. We demonstrate that rather than needing to manually label millions of rows of data, we just need to label a few and the model can effectively predict the rest.
翻訳日:2024-01-19 18:45:47 公開日:2024-01-17
# 無限次元物理系の絡み合いコスト

Entanglement cost for infinite-dimensional physical systems ( http://arxiv.org/abs/2401.09554v1 )

ライセンス: Link先を確認
Hayata Yamasaki, Kohdai Kuroiwa, Patrick Hayden, Ludovico Lami(参考訳) エンタングルメントコストは、任意の無限次元量子状態 $\rho_{AB}$ の正規化エンタングルメントと、少なくとも1つのサブシステム $A$ または $B$ の有限量子エントロピーと等しいことを証明している。 これは、以前は有限次元系の操作や状態に対してのみ定式化された量子情報理論の基礎的な結果を一般化する。 無限次元への拡張は、直交境界と逆境界、すなわち強い典型的、単調性、漸近連続性を確立する従来のツールがもはや直接適用されないため、非自明である。 この問題に対処するため,局所演算で実装可能な無限次元状態に対する新しい絡み合い解プロトコルと,弱および強典型性を複数回使用した一方向古典通信(一方方向LOCC)の有限量を構築した。 また、無限次元状態に対する生成の絡み合いの代替形式と漸近的連続性に基づく議論を発展させることにより、無限次元の分離操作でさえも、このプロトコルの全てのプロトコルの最適性を証明する。 その過程で、無限次元状態の量子エントロピーに対する新たな積分表現が導き出され、これは独立な興味を持つと考えられる。 その結果、全ての無限次元物理系において、重要な操作的絡み合い測度 -- 絡み合いコスト -- を完全に特徴付けることができる。

We prove that the entanglement cost equals the regularized entanglement of formation for any infinite-dimensional quantum state $\rho_{AB}$ with finite quantum entropy on at least one of the subsystems $A$ or $B$. This generalizes a foundational result in quantum information theory that was previously formulated only for operations and states on finite-dimensional systems. The extension to infinite dimensions is nontrivial because the conventional tools for establishing both the direct and converse bounds, i.e., strong typically, monotonicity, and asymptotic continuity, are no longer directly applicable. To address this problem, we construct a new entanglement dilution protocol for infinite-dimensional states implementable by local operations and a finite amount of one-way classical communication (one-way LOCC), using weak and strong typicality multiple times. We also prove the optimality of this protocol among all protocols even under infinite-dimensional separable operations by developing an argument based on alternative forms of monotonicity and asymptotic continuity of the entanglement of formation for infinite-dimensional states. Along the way, we derive a new integral representation for the quantum entropy of infinite-dimensional states, which we believe to be of independent interest. Our results allow us to fully characterize an important operational entanglement measure -- the entanglement cost -- for all infinite-dimensional physical systems.
翻訳日:2024-01-19 18:45:26 公開日:2024-01-17
# BERTologyNavigator: BERTベースのセマンティックによる高度な質問応答

BERTologyNavigator: Advanced Question Answering with BERT-based Semantics ( http://arxiv.org/abs/2401.09553v1 )

ライセンス: Link先を確認
Shreya Rajpal (1,2), Ricardo Usbeck (1) ((1) Universit\"at Hamburg, Hamburg, Germany,(2) Vellore Institute of Technology, Vellore, Tamil Nadu, India)(参考訳) 知識グラフと言語モデルの開発と統合は、人工知能と自然言語処理において重要である。 本研究では,DBLPナレッジグラフ(KG)内の関係をナビゲートするために,関係抽出技術とBERT埋め込みを組み合わせた二相システムであるBERTologyNavigatorを紹介する。 提案手法は,第1段階における1-hop関係とラベル付き候補ペアの抽出に焦点をあてる。 この後、BERT の CLS 埋め込みと第二フェーズにおける関係選択のための追加のヒューリスティックが採用された。 本システムは,DBLP QuADファイナルテストデータセットで0.2175点,QAフェーズでDBLP QuADテストデータセットのサブセットで0.98点に到達した。

The development and integration of knowledge graphs and language models has significance in artificial intelligence and natural language processing. In this study, we introduce the BERTologyNavigator -- a two-phased system that combines relation extraction techniques and BERT embeddings to navigate the relationships within the DBLP Knowledge Graph (KG). Our approach focuses on extracting one-hop relations and labelled candidate pairs in the first phases. This is followed by employing BERT's CLS embeddings and additional heuristics for relation selection in the second phase. Our system reaches an F1 score of 0.2175 on the DBLP QuAD Final test dataset for Scholarly QALD and 0.98 F1 score on the subset of the DBLP QuAD test dataset during the QA phase.
翻訳日:2024-01-19 18:45:01 公開日:2024-01-17
# スピン鎖の有限温度における電荷揺らぎに対する普遍的貢献

Universal contributions to charge fluctuations in spin chains at finite temperature ( http://arxiv.org/abs/2401.09548v1 )

ライセンス: Link先を確認
Kang-Le Cai and Meng Cheng(参考訳) 有限温度では、保存電荷はグランドカノニカルアンサンブルの量子多体系における熱揺らぎを受ける。 総 U(1) 電荷$Q$ のゆらぎの完全な構造は、生成関数 $G(\theta)=\left\langle e^{i \theta Q}\right\rangle$ によって簡潔に捉えることができる。 1次元翻訳不変スピン鎖の場合、熱力学的極限において、等級$|G(\theta)|$はシステムサイズ$L$として$\ln |G(\theta)|=-\alpha(\theta)L+\gamma(\theta)$であり、$\gamma(\theta)$はスケール不変コントリビューションであり、基礎システムに関する普遍的な情報を符号化することができる。 本研究では、システムが周期的であるときの$\gamma(\theta)$の振る舞いと物理的意味を調べる。 我々は、$\gamma(\theta)$が、すべての例に対して$\theta=\pi$の孤立点においてのみ 0 でない値を取ることを発見した。 2つの例の格子系において、u(1)対称性が他の対称性と特定のタイプの「t hooft anomaly」を示すとき、$\gamma(\pi)$ は量子化された値を取る。 他のケースでは、$\gamma(\theta)$ が場理論と正確に可解な格子モデルにおける微視的条件(充填因子など)に依存するかを調べる。

At finite temperature, conserved charges undergo thermal fluctuations in a quantum many-body system in the grand canonical ensemble. The full structure of the fluctuations of the total U(1) charge $Q$ can be succinctly captured by the generating function $G(\theta)=\left\langle e^{i \theta Q}\right\rangle$. For a 1D translation-invariant spin chain, in the thermodynamic limit the magnitude $|G(\theta)|$ scales with the system size $L$ as $\ln |G(\theta)|=-\alpha(\theta)L+\gamma(\theta)$, where $\gamma(\theta)$ is the scale-invariant contribution and may encode universal information about the underlying system. In this work we investigate the behavior and physical meaning of $\gamma(\theta)$ when the system is periodic. We find that $\gamma(\theta)$ only takes non-zero values at isolated points of $\theta$, which is $\theta=\pi$ for all our examples. In two exemplary lattice systems we show that $\gamma(\pi)$ takes quantized values when the U(1) symmetry exhibits a specific type of 't Hooft anomaly with other symmetries. In other cases, we investigate how $\gamma(\theta)$ depends on microscopic conditions (such as the filling factor) in field theory and exactly solvable lattice models.
翻訳日:2024-01-19 18:44:45 公開日:2024-01-17
# 2次元の低オーバーヘッド量子コンピューティングのためのLDPC-cat符号

LDPC-cat codes for low-overhead quantum computing in 2D ( http://arxiv.org/abs/2401.09541v1 )

ライセンス: Link先を確認
Diego Ruiz, J\'er\'emie Guillaud, Anthony Leverrier, Mazyar Mirrahimi, Christophe Vuillot(参考訳) 量子低密度パリティチェック(qLDPC)コードは、フォールトトレラント量子コンピューティング(FTQC)アーキテクチャのオーバーヘッドを大幅に削減するための有望な構造である。 しかし、これらのコードの既知のハードウェア実装はすべて、長距離量子ビット接続、高速安定化器、多層チップレイアウトなどの高度な技術を必要とする。 フォールトトレランスのハードウェアオーバーヘッドを削減する別のアプローチは、ビットフリップエラーが指数関数的に設計によって抑制されるボソニックキャットキュービットを使用することである。 本研究では,両手法を組み合わせて,位相フリップを補正する古典的LDPC符号を構成する猫量子ビットに基づくアーキテクチャを提案する。 このような位相フリップLDPC符号を用いることで、2つの大きな利点が得られます。 まず、2Dおよび低ウェイト安定化器における短距離量子ビット相互作用により、現在の超伝導回路技術と容易に互換性のあるコードの実装を実現する。 第2に,局所接続を維持しつつ,猫キュービットの第2層を持つ論理ゲートのフォールトトレラントなユニバーサルセットの実装方法を示す。 我々はこれらの古典符号の数値的ブルートフォース最適化を行い、アルゴリズムが関連する符号距離に最適な符号化レートの符号を求める。 我々は、最良のコードのいくつかがセル・オートマトン構造から恩恵を受けていることを発見します。 これにより、高いエンコーディングレートと距離を持つコードのファミリーを定義することができます。 最後に,回路レベルの雑音下でのコードの性能を数値的に評価する。 物理的フェイズフリップエラー確率$\epsilon \approx 0.1\%$と仮定すると、私たちの$[165+8\ell, 34+2\ell, 22]$コードファミリーは、合計論理的エラー確率(論理的位相フリップとビットフリップの両方を含む)と論理的キュービット$\epsilon_L \leq 10^{-8}$を758ドルのキャット量子ビットチップで符号化することができる。

Quantum low-density parity-check (qLDPC) codes are a promising construction for drastically reducing the overhead of fault-tolerant quantum computing (FTQC) architectures. However, all of the known hardware implementations of these codes require advanced technologies, such as long-range qubit connectivity, high-weight stabilizers, or multi-layered chip layouts. An alternative approach to reduce the hardware overhead of fault-tolerance is to use bosonic cat qubits where bit-flip errors are exponentially suppressed by design. In this work, we combine both approaches and propose an architecture based on cat qubits concatenated in classical LDPC codes correcting for phase-flips. We find that employing such phase-flip LDPC codes provides two major advantages. First, the hardware implementation of the code can be realised using short-range qubit interactions in 2D and low-weight stabilizers, which makes it readily compatible with current superconducting circuit technologies. Second, we demonstrate how to implement a fault-tolerant universal set of logical gates with a second layer of cat qubits while maintaining the local connectivity. We conduct a numerical brute force optimisation of these classical codes to find the ones with the best encoding rate for algorithmically relevant code distances. We discover that some of the best codes benefit from a cellular automaton structure. This allows us to define families of codes with high encoding rates and distances. Finally, we numerically assess the performance of our codes under circuit-level noise. Assuming a physical phase-flip error probability $\epsilon \approx 0.1\%$, our $[165+8\ell, 34+2\ell, 22]$ code family allows to encode $100$ logical qubits with a total logical error probability (including both logical phase-flip and bit-flip) per cycle and per logical qubit $\epsilon_L \leq 10^{-8}$ on a $758$ cat qubit chip.
翻訳日:2024-01-19 18:44:13 公開日:2024-01-17
# 位相的フラストレーションの少数体前駆体

Few-body precursors of topological frustration ( http://arxiv.org/abs/2401.09536v1 )

ライセンス: Link先を確認
Federico Raffaele De Filippi and Antonio Francesco Mello and Daniel Sacco Shaikh and Maura Sassetti and Niccol\`o Traverso Ziani and Michele Grossi(参考訳) 量子スピンチェーン(Quantum spin chains) - 熱化理論から量子計算まで、基礎的および技術的応用のための2レベルシステムフラー結合の原型モデル。 境界条件によって引き起こされるフラストレーションの影響は、最近この文脈で対処されている。 本研究では, このようなフラストレーションがいくつかのスピン系に与える影響を解析し, 地中エネルギーに誘起される強い偶発効果について述べる。 この研究の目的は、これらの署名が現在の量子コンピュータプラットフォームで見えることを示すことである。

Quantum spin chains - the prototypical model for coupled two-level systems - offer a fertile playground both for fundamental and technological applications, ranging from the theory of thermalization to quantum computation. The effects of frustration induced by the boundary conditions have recently been addressed in this context. In this work, we analyze the effects of such frustration on a few spin system and we comment the strong even-odd effects induced in the ground state energy. The purpose of this work is to show that such signatures are visible on current quantum computer platforms.
翻訳日:2024-01-19 18:43:35 公開日:2024-01-17
# ボース・アインシュタイン凝縮の普遍渦統計と確率幾何学

Universal Vortex Statistics and Stochastic Geometry of Bose-Einstein Condensation ( http://arxiv.org/abs/2401.09525v1 )

ライセンス: Link先を確認
Mithun Thudiyangal, Adolfo del Campo(参考訳) ボース気体が有限時間に冷却されると、ボース=アインシュタイン凝縮体が形成され、渦が自発的に増殖する。 我々は,この渦空間統計を,キブルズレーク機構 (KZM) で定式化された密度を持つ均質ポアソン点過程 (PPP) によって記述することを提案する。 二次元確率Gross-Pitaevskii方程式(SGPE)の数値シミュレーションを用いて,同次および固壁閉じ込め凝縮体について検証した。 平均渦数と冷却速度とのKZMスケーリングは、渦数分布の普遍性とともに確立される。 渦間の空間統計は, 2点欠陥欠陥相関関数, 対応する間隔分布, およびボロノイ細胞領域統計を用いた渦パターンのランダムなテッセル化を解析することによって特徴付けられる。 PPP記述とKZMを組み合わせることで、これらの量について普遍的な理論的予測を導き、SGPEシミュレーションと一致してそれらを見つける。 連続相転移とそれに伴う確率幾何学の間に生じる点状位相欠陥の空間統計の普遍的特徴を定式化する。

The cooling of a Bose gas in finite time results in the formation of a Bose-Einstein condensate that is spontaneously proliferated with vortices. We propose that the vortex spatial statistics is described by a homogeneous Poisson point process (PPP) with a density dictated by the Kibble-Zurek mechanism (KZM). We validate this model using numerical simulations of the two-dimensional stochastic Gross-Pitaevskii equation (SGPE) for both a homogeneous and a hard-wall trapped condensate. The KZM scaling of the average vortex number with the cooling rate is established along with the universal character of the vortex number distribution. The spatial statistics between vortices is characterized by analyzing the two-point defect-defect correlation function, the corresponding spacing distributions, and the random tessellation of the vortex pattern using the Voronoi cell area statistics. Combining the PPP description with the KZM, we derive universal theoretical predictions for each of these quantities and find them in agreement with the SGPE simulations. Our results establish the universal character of the spatial statistics of point-like topological defects generated during a continuous phase transition and the associated stochastic geometry.
翻訳日:2024-01-19 18:43:25 公開日:2024-01-17
# 最大カオスを超えたサイズ巻線機構

Size Winding Mechanism beyond Maximum Chaos ( http://arxiv.org/abs/2401.09524v1 )

ライセンス: Link先を確認
Tian-Gang Zhou, Yingfei Gu and Pengfei Zhang(参考訳) 情報スクランブルの概念は、量子多体系における局所情報の分散を解明し、ワームホールテレポーテーションのような様々な物理現象への洞察を提供する。 この現象は広範な理論的、実験的研究を引き起こした。 これらのうち、信号検出を最適化するための貴重な診断ツールとしてサイズウィンディング機構が出現する。 本稿では,スクランブルロン効果理論を用いて,全対一の相互作用を持つ大容量N$量子系の巻線サイズ分布を決定するための計算枠組みを確立する。 時間領域全体にわたる大額SYKモデルの巻線サイズ分布を求める。 特に,スクランブルンプロパゲータの普遍的な位相因子からサイズワイディングの出現が明らかとなり,リャプノフ指数の重要性が明らかになった。 これらの結果は、オペレータのダイナミクスとワームホールテレポーテーションの現象の鋭く正確な関係をもたらす。

The concept of information scrambling elucidates the dispersion of local information in quantum many-body systems, offering insights into various physical phenomena such as wormhole teleportation. This phenomenon has spurred extensive theoretical and experimental investigations. Among these, the size-winding mechanism emerges as a valuable diagnostic tool for optimizing signal detection. In this Letter, we establish a computational framework for determining the winding size distribution in large-$N$ quantum systems with all-to-all interactions, utilizing the scramblon effective theory. We obtain the winding size distribution for the large-$q$ SYK model across the entire time domain. Notably, we unveil that the manifestation of size winding results from a universal phase factor in the scramblon propagator, highlighting the significance of the Lyapunov exponent. These findings contribute to a sharp and precise connection between operator dynamics and the phenomenon of wormhole teleportation.
翻訳日:2024-01-19 18:43:08 公開日:2024-01-17
# ユーザ認証のための量子ゼロ知識証明の実験的実装

Experimental Implementation of A Quantum Zero-Knowledge Proof for User Authentication ( http://arxiv.org/abs/2401.09521v1 )

ライセンス: Link先を確認
Marta I. Garcia-Cid, Dileepsai Bodanapu, Alberto Gatto, Paolo Martelli, Vicente Martin and Laura Ortiz(参考訳) 現在利用可能な量子暗号デバイスで実装可能なid認証のための新しい対話型量子ゼロ知識プロトコルの提案と実証を行った。 プロトコル設計は、事前共有された秘密を知っている検証者及び証明者を含み、証明の受理又は拒否は量子ビット誤り率によって決定される。 これは2つの基本的なケースを実行する修正量子鍵分配装置で実装されている。 第1のケースでは、すべてのプレイヤーが正直であり、第2のケースでは、ユーザーの一人が悪意のあるプレイヤーである。 本研究では,後者の場合と比較して,量子ビット誤り率の25%程度の増加を示す。 このプロトコルは、バック・ツー・バックのセットアップから検証者と証明者の間の60km以上の距離でも検証されている。 プロトコルのセキュリティとロバスト性は分析され、完全性、健全性、ゼロ知識特性を示している。

A new interactive quantum zero-knowledge protocol for identity authentication implementable in currently available quantum cryptographic devices is proposed and demonstrated. The protocol design involves a verifier and a prover knowing a pre-shared secret, and the acceptance or rejection of the proof is determined by the quantum bit error rate. It has been implemented in modified Quantum Key Distribution devices executing two fundamental cases. In the first case, all players are honest, while in the second case, one of the users is a malicious player. We demonstrate an increase of the quantum bit error rate around 25% in the latter case compared to the case of honesty. The protocol has also been validated for distances from a back-to-back setup to more than 60 km between verifier and prover. The security and robustness of the protocol has been analysed, demonstrating its completeness, soundness and zero-knowledge properties.
翻訳日:2024-01-19 18:42:54 公開日:2024-01-17
# ディープニューラルネットワーク表現としてのオンオフパターンエンコーディングとパスカウントエンコーディング

On-Off Pattern Encoding and Path-Count Encoding as Deep Neural Network Representations ( http://arxiv.org/abs/2401.09518v1 )

ライセンス: Link先を確認
Euna Jung, Jaekeol Choi, EungGu Yun, Wonjong Rhee(参考訳) 深層ニューラルネットワーク(dnn)のエンコード表現を理解することは、基本的には難しい目標でした。 本研究では,DNNの表現を単純な画像分類タスクで解析する2つの方法に焦点をあてる。 具体的には、情報がどのように深層表現に格納されているかを調べるために、 \textit{On-Off pattern} と \textit{PathCount} を考える。 ReLU後のニューロンの活性化が非ゼロかゼロかによって、ニューロンのオンオフパターンを「オン」または「オフ」と判定する。 PathCountは入力からニューロンへ非ゼロエネルギーを伝達する経路の数である。 ネットワーク内のニューロンは,各レイヤの活性化をOn-OffパターンやPathCountに置き換えて情報をエンコードし,分類性能に与える影響を評価する。 また、表現とPathCountの相関についても検討する。 最後に,On-OffやPathCountを直接利用することにより,既存のDNN解釈手法であるクラス活性化マップ(CAM)を改善する方法を示す。

Understanding the encoded representation of Deep Neural Networks (DNNs) has been a fundamental yet challenging objective. In this work, we focus on two possible directions for analyzing representations of DNNs by studying simple image classification tasks. Specifically, we consider \textit{On-Off pattern} and \textit{PathCount} for investigating how information is stored in deep representations. On-off pattern of a neuron is decided as `on' or `off' depending on whether the neuron's activation after ReLU is non-zero or zero. PathCount is the number of paths that transmit non-zero energy from the input to a neuron. We investigate how neurons in the network encodes information by replacing each layer's activation with On-Off pattern or PathCount and evaluating its effect on classification performance. We also examine correlation between representation and PathCount. Finally, we show a possible way to improve an existing DNN interpretation method, Class Activation Map (CAM), by directly utilizing On-Off or PathCount.
翻訳日:2024-01-19 18:42:41 公開日:2024-01-17
# ソフトウェア工学の隠れた人口:挑戦、学んだ教訓、機会

Hidden Populations in Software Engineering: Challenges, Lessons Learned, and Opportunities ( http://arxiv.org/abs/2401.09608v1 )

ライセンス: Link先を確認
Ronnie de Souza Santos, Kiev Gama(参考訳) ソフトウェア工学におけるエクイティ、多様性、包摂性の研究に重点を置くことで、この分野における隠れた人口を探求する必要性が増した。 隠れた集団を探索することは、ソフトウェア工学における過小評価されたグループの経験、課題、視点に関する貴重な洞察を得るために重要になるため、ソフトウェア産業をより多様にするための戦略を考案する。 しかし、これらの隠れた集団を研究することは、その疎外状態のために参加者の特定と関与に関わる複雑さを含む、多面的な課題を呈する。 本稿では,ソフトウェア工学における隠れ集団に関する複数の研究を行った経験と教訓について述べる。 我々は、ソフトウェア専門家の多様な集団のより包括的で包括的な理解を促進するために、ソフトウェアエンジニアリング研究コミュニティにおけるこれらの課題を認識し、対処することの重要性を強調します。

The growing emphasis on studying equity, diversity, and inclusion within software engineering has amplified the need to explore hidden populations within this field. Exploring hidden populations becomes important to obtain invaluable insights into the experiences, challenges, and perspectives of underrepresented groups in software engineering and, therefore, devise strategies to make the software industry more diverse. However, studying these hidden populations presents multifaceted challenges, including the complexities associated with identifying and engaging participants due to their marginalized status. In this paper, we discuss our experiences and lessons learned while conducting multiple studies involving hidden populations in software engineering. We emphasize the importance of recognizing and addressing these challenges within the software engineering research community to foster a more inclusive and comprehensive understanding of diverse populations of software professionals.
翻訳日:2024-01-19 18:37:08 公開日:2024-01-17
# 土地被覆画像分類

Land Cover Image Classification ( http://arxiv.org/abs/2401.09607v1 )

ライセンス: Link先を確認
Antonio Rangel, Juan Terven, Diana M. Cordova-Esparza, E.A. Chavez-Urbiola(参考訳) 土地被覆(LC)画像分類は, 環境変化, 都市計画, 災害管理の理解においてますます重要になっている。 しかし、従来のLC法は、しばしば労働集約的であり、ヒューマンエラーを起こしやすい。 本稿ではLC解析の精度と効率を向上させるための最先端ディープラーニングモデルについて検討する。 畳み込みニューラルネットワーク (cnn) をトランスフォーマー法と比較し, その応用とlc研究の利点を示す。 我々は、Sentinel-2衛星画像に基づくパッチベースのLC分類データセットであるEuroSATを使用し、現在のトランスモデルを用いて最先端の結果を得た。

Land Cover (LC) image classification has become increasingly significant in understanding environmental changes, urban planning, and disaster management. However, traditional LC methods are often labor-intensive and prone to human error. This paper explores state-of-the-art deep learning models for enhanced accuracy and efficiency in LC analysis. We compare convolutional neural networks (CNN) against transformer-based methods, showcasing their applications and advantages in LC studies. We used EuroSAT, a patch-based LC classification data set based on Sentinel-2 satellite images and achieved state-of-the-art results using current transformer models.
翻訳日:2024-01-19 18:36:42 公開日:2024-01-17
# 騒音環境におけるロボットアーム動作認識のための機械学習モデルのロバスト性評価

Robustness Evaluation of Machine Learning Models for Robot Arm Action Recognition in Noisy Environments ( http://arxiv.org/abs/2401.09606v1 )

ライセンス: Link先を確認
Elaheh Motamedi, Kian Behzad, Rojin Zandi, Hojjat Salehinejad and Milad Siami(参考訳) ロボット行動認識の領域では、ノイズの多い環境で視覚システムを用いて、区別されるが空間的に近接する腕の動きを識別することが大きな課題である。 本稿では,ロボットアームの動作認識を機械学習技術を用いてノイズの多い環境で研究する。 具体的には、ロボットの動きを追跡するために視覚システムを使用し、続いて深層学習モデルを用いて腕のキーポイントを抽出する。 機械学習手法の比較分析により、このモデルの有効性と堅牢性はノイズの多い環境で評価される。 3-by-3グリッド環境においてtic-tac-toeゲームを用いて,この制約のある環境における特定の場所の選択における腕の動作を正確に識別することに焦点を当てたケーススタディを行った。 実験の結果,データセットにノイズや不確実性を追加しても,精度の高いキーポイント検出と行動分類が可能となった。

In the realm of robot action recognition, identifying distinct but spatially proximate arm movements using vision systems in noisy environments poses a significant challenge. This paper studies robot arm action recognition in noisy environments using machine learning techniques. Specifically, a vision system is used to track the robot's movements followed by a deep learning model to extract the arm's key points. Through a comparative analysis of machine learning methods, the effectiveness and robustness of this model are assessed in noisy environments. A case study was conducted using the Tic-Tac-Toe game in a 3-by-3 grid environment, where the focus is to accurately identify the actions of the arms in selecting specific locations within this constrained environment. Experimental results show that our approach can achieve precise key point detection and action classification despite the addition of noise and uncertainties to the dataset.
翻訳日:2024-01-19 18:36:25 公開日:2024-01-17
# 効果的なオンボーディングへの道を図示する:ソフトウェアビジュアライゼーションの役割

Charting a Path to Efficient Onboarding: The Role of Software Visualization ( http://arxiv.org/abs/2401.09605v1 )

ライセンス: Link先を確認
Fernando Padoan, Ronnie de Souza Santos, Rodrigo Pessoa Medeiros(参考訳) 背景。 ソフトウェア業界では、ソフトウェア専門家が既存のシステムを理解するプロセスに時間の大半を費やすと一般的に見積もられている。 この文脈では、開発中のソフトウェアに新規参入者を導入する非効率な技術導入プロセスは、彼らの役割において生産的になるために必要な知識を吸収するための長い期間をもたらす可能性がある。 ゴール。 本研究は,ソフトウェアビジュアライゼーションツールを用いたマネージャ,リーダ,開発者の親しみと,これらのツールが新たなチームメンバの技術導入を促進する上でどのように利用されているかを検討することを目的としている。 方法。 研究課題に取り組むため,文献から得られた知見を整理し,逐次探索的アプローチを取り入れた。 本手法は, 質問紙調査と半構造化面接を用いて, 実践者から収集したデータの量的, 質的分析を取り入れた。 発見。 本研究は,ソフトウェアビジュアライゼーションの概念と,搭載ツールやテクニックの実践的利用のギャップを示すものである。 全体として、実践者は、概念的理解の欠如と潜在的な利益に対する認識の欠如のために、ソフトウェア視覚化ツールを自身の技術導入プロセスに体系的に組み入れない。 結論だ ソフトウェア産業は、ソフトウェアプロジェクトの新参者のプログラム理解を支援するために、ソフトウェア視覚化技術とツールを取り入れることで、標準化され、進化するオンボードモデルの恩恵を受けることができる。

Background. Within the software industry, it is commonly estimated that software professionals invest a substantial portion of their work hours in the process of understanding existing systems. In this context, an ineffective technical onboarding process, which introduces newcomers to software under development, can result in a prolonged period for them to absorb the necessary knowledge required to become productive in their roles. Goal. The present study aims to explore the familiarity of managers, leaders, and developers with software visualization tools and how these tools are employed to facilitate the technical onboarding of new team members. Method. To address the research problem, we built upon the insights gained through the literature and embraced a sequential exploratory approach. This approach incorporated quantitative and qualitative analyses of data collected from practitioners using questionnaires and semi-structured interviews. Findings. Our findings demonstrate a gap between the concept of software visualization and the practical use of onboarding tools and techniques. Overall, practitioners do not systematically incorporate software visualization tools into their technical onboarding processes due to a lack of conceptual understanding and awareness of their potential benefits. Conclusion. The software industry could benefit from standardized and evolving onboarding models, improved by incorporating software visualization techniques and tools to support program comprehension of newcomers in the software projects.
翻訳日:2024-01-19 18:36:01 公開日:2024-01-17
# MedBlindTuner: トランスフォーマーと完全同型暗号化によるバイオメディカル画像のプライバシー保護のための微調整

MedBlindTuner: Towards Privacy-preserving Fine-tuning on Biomedical Images with Transformers and Fully Homomorphic Encryption ( http://arxiv.org/abs/2401.09604v1 )

ライセンス: Link先を確認
Prajwal Panzade, Daniel Takabi, Zhipeng Cai(参考訳) 機械学習(ML)の進歩は医療画像分析に大きな革命をもたらし、病院は外部のMLサービスに頼るようになった。 しかし、胸部x線などのセンシティブな患者データの交換は、第三者と共有する際に固有のプライバシーリスクをもたらす。 そこで我々は,完全準同型暗号 (fhe) とデータ効率の高い画像トランスフォーマ (deit) を活用したプライバシー保護フレームワーク medblindtuner を提案する。 MedBlindTunerは、FHE暗号化された医療画像専用のMLモデルのトレーニングを可能にする。 我々の実験的評価は、MedBlindTunerが非暗号化画像上で訓練されたモデルに匹敵する精度を達成し、患者データのプライバシを維持しながら、ML計算をアウトソーシングするためのセキュアなソリューションを提供することを示した。 私たちの知る限りでは、このドメインでデータ効率のよい画像トランスフォーマーと完全同型暗号化を使用する最初の作品です。

Advancements in machine learning (ML) have significantly revolutionized medical image analysis, prompting hospitals to rely on external ML services. However, the exchange of sensitive patient data, such as chest X-rays, poses inherent privacy risks when shared with third parties. Addressing this concern, we propose MedBlindTuner, a privacy-preserving framework leveraging fully homomorphic encryption (FHE) and a data-efficient image transformer (DEiT). MedBlindTuner enables the training of ML models exclusively on FHE-encrypted medical images. Our experimental evaluation demonstrates that MedBlindTuner achieves comparable accuracy to models trained on non-encrypted images, offering a secure solution for outsourcing ML computations while preserving patient data privacy. To the best of our knowledge, this is the first work that uses data-efficient image transformers and fully homomorphic encryption in this domain.
翻訳日:2024-01-19 18:34:40 公開日:2024-01-17
# MICE PMMの代替として樹木を用いた倒立法の評価 : 実証的研究

Evaluating tree-based imputation methods as an alternative to MICE PMM for drawing inference in empirical studies ( http://arxiv.org/abs/2401.09602v1 )

ライセンス: Link先を確認
Jakob Schwerter, Ketevan Gurtskaia, Andr\'es Romero, Birgit Zeyer-Gliozzo, Markus Pauly(参考訳) 欠落したデータの処理は、しばしば計算手順で対処される統計解析において重要な問題である。 このような手法の性能と妥当性は、実証研究の応用において非常に重要である。 分岐方程式(MICE)と予測平均マッチング(PMM)は社会科学文献において一般的な方法であるが、複雑なデータセットの増加は機械学習に基づくより高度なアプローチを必要とする可能性がある。 特に、木に基づくインプテーション手法は、非常に競争的なアプローチとして現れてきた。 しかし、その性能と妥当性は、特に標準のMICE PMMと比較して完全には理解されていない。 これは特に線形モデルにおける推論に当てはまる。 本研究では,様々なインプテーション手法が係数推定,i型誤差,パワーに与える影響を調査し,経験的研究者がより効果的に欠如に対処できる洞察を得る。 MICE PMMは,MICE with Random Forest (RF), Chained Random Forests with and without PMM (missRanger), Extreme Gradient Boosting (MIXGBoost) と並んで,ドイツ国立教育パネル研究 (NEPS) を原資料としてリアルなシミュレーション研究を行っている。 以上の結果から,ランダムフォレストをベースとした障害,特にMICE RFとMICE RFとミスランガーは,ほとんどのシナリオにおいて一貫して改善されていることがわかった。 標準MICE PMMは偏見と過度に保守的なテスト決定、特に非真のゼロ係数を示す。 以上の結果から,木をベースとした計算手法の潜在的な利点は,すべての手法が欠落,特にMissRangerの欠如により悪化することを示す。

Dealing with missing data is an important problem in statistical analysis that is often addressed with imputation procedures. The performance and validity of such methods are of great importance for their application in empirical studies. While the prevailing method of Multiple Imputation by Chained Equations (MICE) with Predictive Mean Matching (PMM) is considered standard in the social science literature, the increase in complex datasets may require more advanced approaches based on machine learning. In particular, tree-based imputation methods have emerged as very competitive approaches. However, the performance and validity are not completely understood, particularly compared to the standard MICE PMM. This is especially true for inference in linear models. In this study, we investigate the impact of various imputation methods on coefficient estimation, Type I error, and power, to gain insights that can help empirical researchers deal with missingness more effectively. We explore MICE PMM alongside different tree-based methods, such as MICE with Random Forest (RF), Chained Random Forests with and without PMM (missRanger), and Extreme Gradient Boosting (MIXGBoost), conducting a realistic simulation study using the German National Educational Panel Study (NEPS) as the original data source. Our results reveal that Random Forest-based imputations, especially MICE RF and missRanger with PMM, consistently perform better in most scenarios. Standard MICE PMM shows partially increased bias and overly conservative test decisions, particularly with non-true zero coefficients. Our results thus underscore the potential advantages of tree-based imputation methods, albeit with a caveat that all methods perform worse with an increased missingness, particularly missRanger.
翻訳日:2024-01-19 18:33:49 公開日:2024-01-17
# 線形加算アテンション変換器を用いた高効率生成対向ネットワーク

Efficient generative adversarial networks using linear additive-attention Transformers ( http://arxiv.org/abs/2401.09596v1 )

ライセンス: Link先を確認
Emilio Morales-Juarez and Gibran Fuentes-Pineda(参考訳) 拡散モデル (DM) やGAN (Generative Adversarial Networks) のような画像生成のための深層生成モデルの能力は近年劇的に向上しているが、その成功の多くは計算コストの高いアーキテクチャによるものである。 これにより、大規模な資源を持つ研究所や企業への採用や利用が制限され、トレーニング、微調整、推論のための炭素フットプリントが著しく高まった。 本稿では,Ladaformerという新しいトランスフォーマーブロック上に構築した,効率的な生成対向ネットワークであるLadaGANを提案する。 このブロックの主成分は、二次的なドット積の注意ではなく、頭部あたりの1つの注意ベクトルを計算する線形加法アテンション機構である。 生成器と識別器の両方にLadaformerを使用し、計算複雑性を低減し、Transformer GANに関連するトレーニング不安定性を克服する。 LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みとトランスフォーマーGANよりもはるかに効率が良い。 さらにladaganは、計算リソースを桁違いに減らすことで、最先端のマルチステップ生成モデル(dmsなど)と比較した競合性能を示している。

Although the capacity of deep generative models for image generation, such as Diffusion Models (DMs) and Generative Adversarial Networks (GANs), has dramatically improved in recent years, much of their success can be attributed to computationally expensive architectures. This has limited their adoption and use to research laboratories and companies with large resources, while significantly raising the carbon footprint for training, fine-tuning, and inference. In this work, we present LadaGAN, an efficient generative adversarial network that is built upon a novel Transformer block named Ladaformer. The main component of this block is a linear additive-attention mechanism that computes a single attention vector per head instead of the quadratic dot-product attention. We employ Ladaformer in both the generator and discriminator, which reduces the computational complexity and overcomes the training instabilities often associated with Transformer GANs. LadaGAN consistently outperforms existing convolutional and Transformer GANs on benchmark datasets at different resolutions while being significantly more efficient. Moreover, LadaGAN shows competitive performance compared to state-of-the-art multi-step generative models (e.g. DMs) using orders of magnitude less computational resources.
翻訳日:2024-01-19 18:33:15 公開日:2024-01-17
# ソーシャルコンピューティングを中学校の教室に持ち込む

Bringing Social Computing to Secondary School Classrooms ( http://arxiv.org/abs/2401.09591v1 )

ライセンス: Link先を確認
Kianna Bolante, Kevin Chen, Quan Ze Chen, Amy Zhang(参考訳) ソーシャル・コンピューティング(social computing)は、テクノロジーが人間の社会的相互作用をどのように形作るかを研究する学問である。 若者の日常的な社会体験がオンライン化され、特に新型コロナウイルスのパンデミックの影響が続く中学生(11~18歳)にとって、この話題はますます重要になっている。 しかし、既存の中・高校のカリキュラムでは、ソーシャルコンピューティングの話題がほとんど触れられていない。 我々は、社会コンピューティングの概念を中学生に導入し、コンピューティングが日常生活に影響を及ぼす幅広い社会的影響を理解できるようにし、異なる社会技術デザインの肯定的側面と否定的側面の両方について批判的に考えることを目指している。 本報告では,ソーシャルコンピューティングにおける話題を取り扱うプレゼンテーションとハンズオン活動を組み合わせた6つの授業について紹介するとともに,この授業を地域学区中高13校の約1,405名に実施した経験について述べる。 データ管理、暗号化メッセージング、人間とコンピュータの交流キャリア、機械学習とバイアス、誤った情報、オンライン行動といったトピックにソーシャルコンピューティングがどのように関連しているかを取り上げたレッスンを開発した。 その結果、81.13%の学生が、STEMに対する関心に比べ、授業の内容に対する関心が高いことがわかった。 また、63.65%が主要な活動から新しい概念を学んでいるという前と後についての理解の質問からもわかった。 すべての教材をウェブサイト上で公開しています。 我々の経験から,学生はこれらの話題に取り組んでおり,コンピュータと自身の生活の関連を見いだすことに喜びを感じた。

Social computing is the study of how technology shapes human social interactions. This topic has become increasingly relevant to secondary school students (ages 11--18) as more of young people's everyday social experiences take place online, particularly with the continuing effects of the COVID-19 pandemic. However, social computing topics are rarely touched upon in existing middle and high school curricula. We seek to introduce concepts from social computing to secondary school students so they can understand how computing has wide-ranging social implications that touch upon their everyday lives, as well as think critically about both the positive and negative sides of different social technology designs. In this report, we present a series of six lessons combining presentations and hands-on activities covering topics within social computing and detail our experience teaching these lessons to approximately 1,405 students across 13 middle and high schools in our local school district. We developed lessons covering how social computing relates to the topics of Data Management, Encrypted Messaging, Human-Computer Interaction Careers, Machine Learning and Bias, Misinformation, and Online Behavior. We found that 81.13% of students expressed greater interest in the content of our lessons compared to their interest in STEM overall. We also found from pre- and post-lesson comprehension questions that 63.65% learned new concepts from the main activity. We release all lesson materials on a website for public use. From our experience, we observed that students were engaged in these topics and found enjoyment in finding connections between computing and their own lives.
翻訳日:2024-01-19 18:32:54 公開日:2024-01-17
# 非有界な平滑な二段階最適化:新しいアルゴリズムと収束解析

Bilevel Optimization under Unbounded Smoothness: A New Algorithm and Convergence Analysis ( http://arxiv.org/abs/2401.09587v1 )

ライセンス: Link先を確認
Jie Hao, Xiaochuan Gong, Mingrui Liu(参考訳) バイレベル最適化は多くの機械学習問題にとって重要な定式化である。 現在の双レベル最適化アルゴリズムは、上層関数の勾配がリプシッツであると仮定する。 しかし、最近の研究では、リカレントニューラルネットワーク(RNN)や長期記憶ネットワーク(LSTM)のような特定のニューラルネットワークが潜在的に非有界な滑らかさを示し、従来の双レベル最適化アルゴリズムが適さないことが示されている。 本稿では,この課題に対処するため,新しい二段階最適化アルゴリズムBO-REPを設計する。 このアルゴリズムは、正規化モーメントを用いて上層変数を更新し、下層変数を更新する2つの新しいテクニックを組み込んだ: \textit{initialization refinement} と \textit{ periodic updates}。 具体的には、上層変数が初期化されると、サブルーチンが起動され、対応する最適下層変数の洗練された推定値が得られ、下層変数は各イテレーションの代わりに特定の期間後にのみ更新される。 上階の問題は非凸で無界な滑らかであり、下階の問題は強い凸であるとき、我々のアルゴリズムは確率的設定において$\epsilon$定常点を見つけるために$\widetilde{\mathcal{o}}(1/\epsilon^4)$の反復が必要であることを証明します。 特に、この結果は、有界な滑らかさと確率勾配の平均2乗な滑らかさを伴わずに、対数的因子まで、最先端の複雑さの結果と一致する。 この証明は、周期的に更新される低レベル変数に対する新しい技術的補題に依存している。 テキスト分類タスクにおけるハイパー表現学習,ハイパーパラメータ最適化,データハイパークリーニングの実験により,提案アルゴリズムの有効性が示された。

Bilevel optimization is an important formulation for many machine learning problems. Current bilevel optimization algorithms assume that the gradient of the upper-level function is Lipschitz. However, recent studies reveal that certain neural networks such as recurrent neural networks (RNNs) and long-short-term memory networks (LSTMs) exhibit potential unbounded smoothness, rendering conventional bilevel optimization algorithms unsuitable. In this paper, we design a new bilevel optimization algorithm, namely BO-REP, to address this challenge. This algorithm updates the upper-level variable using normalized momentum and incorporates two novel techniques for updating the lower-level variable: \textit{initialization refinement} and \textit{periodic updates}. Specifically, once the upper-level variable is initialized, a subroutine is invoked to obtain a refined estimate of the corresponding optimal lower-level variable, and the lower-level variable is updated only after every specific period instead of each iteration. When the upper-level problem is nonconvex and unbounded smooth, and the lower-level problem is strongly convex, we prove that our algorithm requires $\widetilde{\mathcal{O}}(1/\epsilon^4)$ iterations to find an $\epsilon$-stationary point in the stochastic setting, where each iteration involves calling a stochastic gradient or Hessian-vector product oracle. Notably, this result matches the state-of-the-art complexity results under the bounded smoothness setting and without mean-squared smoothness of the stochastic gradient, up to logarithmic factors. Our proof relies on novel technical lemmas for the periodically updated lower-level variable, which are of independent interest. Our experiments on hyper-representation learning, hyperparameter optimization, and data hyper-cleaning for text classification tasks demonstrate the effectiveness of our proposed algorithm.
翻訳日:2024-01-19 18:32:28 公開日:2024-01-17
# eipy:ヘテロジニアスアンサンブルを用いたマルチモーダルデータ統合のためのオープンソースのpythonパッケージ

eipy: An Open-Source Python Package for Multi-modal Data Integration using Heterogeneous Ensembles ( http://arxiv.org/abs/2401.09582v1 )

ライセンス: Link先を確認
Jamie J. R. Bennett, Yan Chak Li, Gaurav Pandey(参考訳) 本稿では,効率的なマルチモーダルなヘテロジニアスアンサンブルを設計するためのオープンソースPythonパッケージであるeipyを紹介する。 このフレームワークは、ネストしたクロスバリデーションを使用してパフォーマンスを体系的に評価することで、最高のパフォーマンスを持つマルチモーダルデータ統合と予測モデリング手法を比較し、選択する。 このパッケージは、マルチモーダル予測モデルを構築するためのコンポーネントとして、Scikit-learn-like estimatorを活用するように設計されている。 APIリファレンスやチュートリアルを含む最新のユーザガイドは、https://eipy.readthedocs.io.comでメンテナンスされている。 このプロジェクトのメインリポジトリはGitHubのhttps://github.com/GauravPandeyLab/eipyにある。

In this paper, we introduce eipy--an open-source Python package for developing effective, multi-modal heterogeneous ensembles for classification. eipy simultaneously provides both a rigorous, and user-friendly framework for comparing and selecting the best-performing multi-modal data integration and predictive modeling methods by systematically evaluating their performance using nested cross-validation. The package is designed to leverage scikit-learn-like estimators as components to build multi-modal predictive models. An up-to-date user guide, including API reference and tutorials, for eipy is maintained at https://eipy.readthedocs.io . The main repository for this project can be found on GitHub at https://github.com/GauravPandeyLab/eipy .
翻訳日:2024-01-19 18:31:50 公開日:2024-01-17
# フルブリンドニューラルネットワークによる112gbit/s受動光ネットワークにおける重度非線形歪みの等化

Fully-blind Neural Network Based Equalization for Severe Nonlinear Distortions in 112 Gbit/s Passive Optical Networks ( http://arxiv.org/abs/2401.09579v1 )

ライセンス: Link先を確認
Vincent Lauinger, Patrick Matalla, Jonas Ney, Norbert Wehn, Sebastian Randel, and Laurent Schmalen(参考訳) 100gパッシブ光ネットワーク(pons)のための完全盲検ディジタル信号処理(dsp)チェーンを実証評価し,ハードウェアの複雑さの低いニューラルネットワークに基づいて,異なるイコライザトポロジを解析した。

We demonstrate and evaluate a fully-blind digital signal processing (DSP) chain for 100G passive optical networks (PONs), and analyze different equalizer topologies based on neural networks with low hardware complexity.
翻訳日:2024-01-19 18:31:35 公開日:2024-01-17
# 軽度安定化を伴う単一光子干渉に基づく多重量子リピータ

A multiplexed quantum repeater based on single-photon interference with mild stabilization ( http://arxiv.org/abs/2401.09578v1 )

ライセンス: Link先を確認
Daisuke Yoshida, Tomoyuki Horikiri(参考訳) 量子リピータは、量子インターネットの物理層において中心的である。 将来の発展のためには、堅牢で高速通信を容易にする量子リピータが望ましい。 効率の面では、単一光子干渉に基づく量子リピータスキームは有望であると考えられている。 しかし、この方法は、遠方のノードにおける光源との1次干渉を伴い、成分の相安定性を必要とする。 本稿では,マルチモード量子メモリとマルチモード2光子源を利用して,単一光子干渉を利用する量子リピータ方式を提案する。 従来の量子リピータ法と比較して,提案手法は位相安定性の要件を数桁削減する。 さらに,具体的条件下では,提案手法は既存手法と比較して,終端ノード間の一致率が高いことを示す。

Quantum repeaters are pivotal in the physical layer of the quantum Internet. For its future development, it is desirable to have quantum repeaters capable of facilitating robust and high-speed communication. In terms of efficiency, quantum repeater schemes based on single-photon interference are seen as promising. However, this method, involving first-order interference with light sources at distant nodes, requires stringent phase stability in the components. In this paper, we present a quantum repeater scheme that leverages single-photon interference, utilizing multimode quantum memories and multimode two-photon sources. Compared to conventional quantum repeater methods, our proposed scheme significantly reduces the phase stability requirements by several orders of magnitude. Additionally, under specific conditions, it is demonstrated that our scheme achieves a higher coincidence rate between end nodes compared to existing schemes.
翻訳日:2024-01-19 18:31:28 公開日:2024-01-17
# スケーラブルでロバストなモデルバージョニングに向けて

Towards Scalable and Robust Model Versioning ( http://arxiv.org/abs/2401.09574v1 )

ライセンス: Link先を確認
Wenxin Ding, Arjun Nitin Bhagoji, Ben Y. Zhao, Haitao Zheng(参考訳) ディープラーニングモデルの展開が業界全体に広がるにつれ、これらのデプロイされたモデルへのアクセスを目的とした悪意のある侵入の脅威が高まっている。 攻撃者がサーバの侵入、インサイダー攻撃、モデル反転技術などを通じてデプロイされたモデルにアクセスできれば、モデルの分類結果を操作するためにホワイトボックスの敵攻撃を構築でき、クリティカルなタスクにこれらのモデルに依存する組織に重大なリスクをもたらす。 モデル所有者は、新たなトレーニングデータを取得する必要なしに、そのような損失から自分自身を保護するメカニズムを必要とします。 本稿では,新たなトレーニングデータを取得したり,モデルアーキテクチャを変更することなく,異なる攻撃特性を持つモデルの複数バージョンを生成する可能性を検討する。 モデルオーナーは一度に1つのバージョンをデプロイし、リークしたバージョンを新しいバージョンで即座に置き換えることができる。 新しくデプロイされたモデルバージョンは、以前にリークされたバージョンすべてに対するホワイトボックスアクセスを利用して生成された敵攻撃に抵抗することができる。 モデル学習データにパラメータ化された隠れ分布を組み込むことで、モデルが選択したデータによって一意に定義されたタスク関連の特徴を学習させることで、これを実現できることを示す。 さらに、隠蔽分布の最適選択は、時間とともに複合転送可能性攻撃に抵抗できるモデルバージョンのシーケンスを生成することができる。 分析的知見を活かし,dnn分類器の実用的なモデルバージョニング手法を設計・実装し,既存の手法よりも大幅に堅牢性が向上した。 当社の作業は、DNNサービスを初期展開を超えて保護するための有望な方向性を示すものだと考えています。

As the deployment of deep learning models continues to expand across industries, the threat of malicious incursions aimed at gaining access to these deployed models is on the rise. Should an attacker gain access to a deployed model, whether through server breaches, insider attacks, or model inversion techniques, they can then construct white-box adversarial attacks to manipulate the model's classification outcomes, thereby posing significant risks to organizations that rely on these models for critical tasks. Model owners need mechanisms to protect themselves against such losses without the necessity of acquiring fresh training data - a process that typically demands substantial investments in time and capital. In this paper, we explore the feasibility of generating multiple versions of a model that possess different attack properties, without acquiring new training data or changing model architecture. The model owner can deploy one version at a time and replace a leaked version immediately with a new version. The newly deployed model version can resist adversarial attacks generated leveraging white-box access to one or all previously leaked versions. We show theoretically that this can be accomplished by incorporating parameterized hidden distributions into the model training data, forcing the model to learn task-irrelevant features uniquely defined by the chosen data. Additionally, optimal choices of hidden distributions can produce a sequence of model versions capable of resisting compound transferability attacks over time. Leveraging our analytical insights, we design and implement a practical model versioning method for DNN classifiers, which leads to significant robustness improvements over existing methods. We believe our work presents a promising direction for safeguarding DNN services beyond their initial deployment.
翻訳日:2024-01-19 18:31:16 公開日:2024-01-17
# 角運動量のシュウィンガー振動子構成法の超伝導トランスモン量子ビットの解釈への応用

Application of the Schwinger Oscillator Construct of Angular Momentum to an Interpretation of the Superconducting Transmon Qubit ( http://arxiv.org/abs/2401.09573v1 )

ライセンス: Link先を確認
R. P. Erickson(参考訳) 超伝導トランスモンに適用される角運動量のシュウィンガー発振器の構成と、容量結合型量子発振器としてモデル化された伝送線読み出しは、量子ビットの自然な、堅牢な記述を提供する。 この構成は、全光子数の物理的保存に対応する対称性を持つ角運動体のような基底を形成する量子交叉二光子状態を定義する。 この基礎は、トランモンのアンハーモニック性、周囲環境のデコヒーレンス、およびランダムな成層場がクビット状態およびゲート操作に与える影響を研究するための便利な出発点を提供する。 リンドブラッドマスター方程式を用いて周囲の環境への散逸をモデル化し、弱いトランスモンアンハーモニック性の効果を取り入れて、この構造の有用性の例を示す。 まず, 駆動外部電圧により, ラビ共鳴に対する基底状態の励起に伴う周波数応答を最小のスピン1/2モーメントで計算する。 第2に,はしご型励起方式を用いて,最低2光子状態の周波数応答を計算する。 シュウィンガー角モード構成の一般性により、他の超伝導電荷量子ビットにも適用できる。

The Schwinger oscillator construct of angular momentum, applied to the superconducting transmon and its transmission-line readout, modeled as capacitvely coupled quantum oscillators, provides a natural and robust description of a qubit. The construct defines quantum-entangled, two-photon states that form an angular-momentum-like basis, with symmetry corresponding to physical conservation of total photon number, with respect to the combined transmon and readout. This basis provides a convenient starting point from which to study error-inducing effects of transmon anharmonicity, surrounding-environment decoherence, and random stray fields on qubit state and gate operations. Employing a Lindblad master equation to model dissipation to the surrounding environment, and incorporating the effect of weak transmon anharmonicity, we present examples of the utility of the construct. First, we calculate the frequency response associated with exciting the ground state to a Rabi resonance with the lowest-lying spin-1/2 moment, via a driving external voltage. Second, we calculate the frequency response between the three lowest two-photon states, within a ladder-type excitation scheme. The generality of the Schwinger angular-momentum construct allows it to be applied to other superconducting charge qubits.
翻訳日:2024-01-19 18:30:49 公開日:2024-01-17
# 建築レコメンデーションシステムにおける大規模心の扱い

Handling Large-scale Cardinality in building recommendation systems ( http://arxiv.org/abs/2401.09572v1 )

ライセンス: Link先を確認
Dhruva Dixith Kurra, Bo Ling, Chun Zh, Seyedshahin Ashrafzadeh(参考訳) 効果的なレコメンデーションシステムはユーザの好みを捉えることに依存しており、しばしばエンティティの普遍的なユニークな識別子(UUID)のような多くの特徴を組み込む必要がある。 しかし、UUIDの極端に高い濃度は、モデル劣化とスパーシリティによるモデルサイズの増加という点で大きな課題をもたらす。 本稿では,推薦システムにおける高濃度化の課題に対処する2つの革新的な手法を提案する。 具体的には,階層共有と組み合わさって,性能を向上しつつ,モデルサイズを大幅に削減する手法を提案する。 当社のテクニックは,Uberのユースケースに関するオフラインおよびオンラインの実験を通じて評価された。その結果,レコメンデーションシステムの最適化と全体的なパフォーマンス向上に対するアプローチの有効性を示す有望な結果が得られた。

Effective recommendation systems rely on capturing user preferences, often requiring incorporating numerous features such as universally unique identifiers (UUIDs) of entities. However, the exceptionally high cardinality of UUIDs poses a significant challenge in terms of model degradation and increased model size due to sparsity. This paper presents two innovative techniques to address the challenge of high cardinality in recommendation systems. Specifically, we propose a bag-of-words approach, combined with layer sharing, to substantially decrease the model size while improving performance. Our techniques were evaluated through offline and online experiments on Uber use cases, resulting in promising results demonstrating our approach's effectiveness in optimizing recommendation systems and enhancing their overall performance.
翻訳日:2024-01-19 18:30:25 公開日:2024-01-17
# 大規模言語モデルによるオンライン摂食障害コミュニティの特徴付け

Characterizing Online Eating Disorder Communities with Large Language Models ( http://arxiv.org/abs/2401.09647v1 )

ライセンス: Link先を確認
Minh Duc Chu, Aryan Karnati, Zihao He, Kristina Lerman(参考訳) 死亡率と死亡率の高い危険な精神状態である摂食障害の上昇は、ソーシャルメディア上での理想化された身体イメージの拡散と関連している。 しかし、ソーシャルメディアと摂食障害の関連性ははるかに複雑である。 我々は、ソーシャルメディアプラットフォームが、食欲不振や食欲不振などの摂食障害を促進するコンテンツやコミュニティの成長を増幅するフィードバックループを生み出していると論じる。 特に、ソーシャルメディアプラットフォームは、脆弱な個人が同じ考えを持つ人たちを見つけ、接続しやすくする一方、グループのダイナミックなプロセスは、摂食障害に関連する有害な行動を促進し、称賛するコミュニティ内で活動し続けることを奨励する。 我々は、ネットワークと言語分析の組み合わせにより、この力学を経験的に特徴づける。 本稿では,大規模言語モデルを用いてオンラインコミュニティ内の談話を分析し,摂食障害に関連する話題に対する態度を探索し,潜在的有害な内容を特定する新しい枠組みについて述べる。 私たちの研究は、有害なフィードバックループを妨害し、脆弱な個人を保護するために、ソーシャルメディアのモデレーションを改善する必要性を強調しています。

The rise in eating disorders, a dangerous mental health condition with high mortality and morbidity, has been linked to the proliferation of idealized body images on social media. However, the link between social media and eating disorders is far more complex. We argue that social media platforms create a feedback loop that amplifies the growth of content and communities that promote eating disorders like anorexia and bulimia. Specifically, social media platforms make it easy for vulnerable individuals to find and connect to like-minded others, while group dynamic processes encourage them to stay engaged within communities that promote and glorify harmful behaviors linked to eating disorders. We characterize this dynamic empirically through a combination of network and language analysis. We describe a novel framework that leverages large language models to analyze the discourse within online communities and probe their attitudes on topics related to eating disorders to identify potentially harmful content. Our work emphasizes the need for better social media moderation to disrupt harmful feedback loops and protect vulnerable individuals.
翻訳日:2024-01-19 18:23:54 公開日:2024-01-17
# ClimateGPT: 気候変動に関する学際研究をAIで合成する

ClimateGPT: Towards AI Synthesizing Interdisciplinary Research on Climate Change ( http://arxiv.org/abs/2401.09646v1 )

ライセンス: Link先を確認
David Thulke and Yingbo Gao and Petrus Pelser and Rein Brune and Rricha Jalota and Floris Fok and Michael Ramos and Ian van Wyk and Abdallah Nasir and Hayden Goldstein and Taylor Tragemann and Katie Nguyen and Ariana Fowler and Andrew Stanco and Jon Gabriel and Jordan Taylor and Dean Moro and Evgenii Tsymbalov and Juliette de Waal and Evgeny Matusov and Mudar Yaghi and Mohammad Shihadah and Hermann Ney and Christian Dugast and Jonathan Dotan and Daniel Erasmus(参考訳) 本稿では,気候変動に関する学際研究を合成するドメイン固有大規模言語モデルのモデルファミリーであるClimateGPTを紹介する。 科学指向の300Bトークンデータセットを用いて,スクラッチから2つの7Bモデルをトレーニングした。 第1モデルでは4.2bドメイン固有のトークンが事前トレーニング中に含まれ、第2モデルは事前トレーニング後に気候領域に適応された。 さらに、climategpt-7b、13b、70bは4.2bトークンのドメイン固有データセット上でllama~2から継続的に事前トレーニングされる。 それぞれのモデルは、気候科学者と緊密に協力して作成された高品質で人為的なドメイン固有データセットに基づいて微調整される。 幻覚の数を減らすため,探索拡張のためのモデルを最適化し,階層的検索戦略を提案する。 非英語話者への我々のモデルのアクセシビリティを高めるために、カスケード機械翻訳を用いて、本手法がネイティブな多言語モデルと互換性を持ちながら、多数の言語に拡張しやすいことを示す。 さらに、気候変動の本質的な学際的側面に対処するため、異なる研究の視点を考察する。 したがって、モデルでは、全体的回答に加えて、異なる視点に焦点を当てた深い回答を生成できる。 LLMを評価するために,気候別自動ベンチマークスイートを提案する。 これらのベンチマークでは、ClimateGPT-7BはLlama-2-70B Chatモデルよりも10倍大きいが、一般のドメインベンチマークでは劣化しない。 人間の評価は、ベンチマークで見たトレンドを確認します。 全てのモデルは再生可能エネルギーを用いて訓練され評価され、一般公開された。

This paper introduces ClimateGPT, a model family of domain-specific large language models that synthesize interdisciplinary research on climate change. We trained two 7B models from scratch on a science-oriented dataset of 300B tokens. For the first model, the 4.2B domain-specific tokens were included during pre-training and the second was adapted to the climate domain after pre-training. Additionally, ClimateGPT-7B, 13B and 70B are continuously pre-trained from Llama~2 on a domain-specific dataset of 4.2B tokens. Each model is instruction fine-tuned on a high-quality and human-generated domain-specific dataset that has been created in close cooperation with climate scientists. To reduce the number of hallucinations, we optimize the model for retrieval augmentation and propose a hierarchical retrieval strategy. To increase the accessibility of our model to non-English speakers, we propose to make use of cascaded machine translation and show that this approach can perform comparably to natively multilingual models while being easier to scale to a large number of languages. Further, to address the intrinsic interdisciplinary aspect of climate change we consider different research perspectives. Therefore, the model can produce in-depth answers focusing on different perspectives in addition to an overall answer. We propose a suite of automatic climate-specific benchmarks to evaluate LLMs. On these benchmarks, ClimateGPT-7B performs on par with the ten times larger Llama-2-70B Chat model while not degrading results on general domain benchmarks. Our human evaluation confirms the trends we saw in our benchmarks. All models were trained and evaluated using renewable energy and are released publicly.
翻訳日:2024-01-19 18:23:37 公開日:2024-01-17
# 因果発見のための関数線形非ガウス非巡回モデル

Functional Linear Non-Gaussian Acyclic Model for Causal Discovery ( http://arxiv.org/abs/2401.09641v1 )

ライセンス: Link先を確認
Tian-Le Yang, Kuang-Yao Lee, Kun Zhang, Joe Suzuki(参考訳) 因果発見において、非ガウス性は、変数の因果順序とそれぞれの接続強度の両方を含む線形非ガウス環モデル(LiNGAM)の完全な構成を特徴付けるために用いられる。 しかし、LiNGAMは有限次元の場合のみを扱うことができる。 この概念を拡張するために、変数の概念を拡張してベクトルや函数を包含し、関数線形非ガウス非巡回モデル(Func-LiNGAM)へと導く。 私たちのモチベーションは、例えばfMRIやEEGデータセットを含む脳効果接続タスクにおける因果関係を識別したいという欲求に起因しています。 もともとのlingamがこれらの無限次元データセットを扱えなかった理由を実証し、経験的および理論的観点から機能的データ解析の可用性を説明する。 無限次元ヒルベルト空間における非ガウス確率ベクトルと偶数函数の間の因果関係の同定可能性の理論的保証を確立する。 無限次元関数データにおける離散時間点のスパーシティの問題に対処するために,関数主成分分析を用いてベクトルの座標を最適化する手法を提案する。 合成データを用いた実験結果から,多変量関数間の因果関係を同定する枠組みの有効性が検証された。 実データでは、fMRIデータから得られる脳の接続パターンを分析することに重点を置いている。

In causal discovery, non-Gaussianity has been used to characterize the complete configuration of a Linear Non-Gaussian Acyclic Model (LiNGAM), encompassing both the causal ordering of variables and their respective connection strengths. However, LiNGAM can only deal with the finite-dimensional case. To expand this concept, we extend the notion of variables to encompass vectors and even functions, leading to the Functional Linear Non-Gaussian Acyclic Model (Func-LiNGAM). Our motivation stems from the desire to identify causal relationships in brain-effective connectivity tasks involving, for example, fMRI and EEG datasets. We demonstrate why the original LiNGAM fails to handle these inherently infinite-dimensional datasets and explain the availability of functional data analysis from both empirical and theoretical perspectives. {We establish theoretical guarantees of the identifiability of the causal relationship among non-Gaussian random vectors and even random functions in infinite-dimensional Hilbert spaces.} To address the issue of sparsity in discrete time points within intrinsic infinite-dimensional functional data, we propose optimizing the coordinates of the vectors using functional principal component analysis. Experimental results on synthetic data verify the ability of the proposed framework to identify causal relationships among multivariate functions using the observed samples. For real data, we focus on analyzing the brain connectivity patterns derived from fMRI data.
翻訳日:2024-01-19 18:23:13 公開日:2024-01-17
# 物理誘導RLによるブラックアウト緩和

Blackout Mitigation via Physics-guided RL ( http://arxiv.org/abs/2401.09640v1 )

ライセンス: Link先を確認
Anmol Dwivedi, Santiago Paternain, Ali Tajer(参考訳) 本稿では,ブラックアウト防止の究極の目的として,システム異常に応答する修復的制御動作の逐次設計について考察する。 物理誘導強化学習(rl)フレームワークは、システムの安定性に対する長期的影響を考慮した、リアルタイムリメディアルルックアヘッド決定の効果的なシーケンスを識別するために設計されている。 本稿では,伝送線路切替決定(ライン再接続と削除)と連続値発生器調整の両方を含む制御動作の空間について考察する。 効果的なブラックアウト緩和策を特定するため, エージェントトレーニング中のRL探査を誘導するために, 送電網に付随する電力フロー感度因子を用いた物理誘導方式が設計された。 オープンソースのgrid2opプラットフォームを用いた包括的実証的評価は、rl決定に物理信号を取り込むことによる顕著な利点を示し、提案されている物理誘導アプローチの成果をブラックボックスと比較している。 重要な観察の1つは、戦略的に~\emph{removing}伝送線と複数のリアルタイムジェネレータの調整が相まって、ブラックアウトを防止または遅らせる可能性のある効果的な長期的決定がしばしば行われることである。

This paper considers the sequential design of remedial control actions in response to system anomalies for the ultimate objective of preventing blackouts. A physics-guided reinforcement learning (RL) framework is designed to identify effective sequences of real-time remedial look-ahead decisions accounting for the long-term impact on the system's stability. The paper considers a space of control actions that involve both discrete-valued transmission line-switching decisions (line reconnections and removals) and continuous-valued generator adjustments. To identify an effective blackout mitigation policy, a physics-guided approach is designed that uses power-flow sensitivity factors associated with the power transmission network to guide the RL exploration during agent training. Comprehensive empirical evaluations using the open-source Grid2Op platform demonstrate the notable advantages of incorporating physical signals into RL decisions, establishing the gains of the proposed physics-guided approach compared to its black box counterparts. One important observation is that strategically~\emph{removing} transmission lines, in conjunction with multiple real-time generator adjustments, often renders effective long-term decisions that are likely to prevent or delay blackouts.
翻訳日:2024-01-19 18:22:48 公開日:2024-01-17
# 精密胎児生体計測のための超音波画像分割の不確かさモデリング

Uncertainty Modeling in Ultrasound Image Segmentation for Precise Fetal Biometric Measurements ( http://arxiv.org/abs/2401.09639v1 )

ライセンス: Link先を確認
Shuge Lei(参考訳) 医用画像の分割は、特に超音波データの文脈において、コンピュータビジョンと医用画像の重要な側面である。 本稿では,胎児の頭部画像と大腿骨超音波画像に着目し,セグメンテーション過程における不確かさの複雑さについて検討する。 提案手法は,目標輪郭の抽出と正確なパラメータ測定のための探索技術を含む。 セグメンテーションネットワークのトレーニングおよびテストプロセスを強化するために不確実性モデリング手法が用いられている。 その結果、胎児の頭周計測における平均絶対誤差は8.0833mmで、相対誤差は4.7347%であった。 同様に、胎児の絶対誤差の平均は2.6163mmであり、相対誤差は6.3336%である。 テスト時間拡張(TTA)を用いた不確実性モデリング実験は、両方のデータセットにおけるデータ不確実性の効果的な解釈可能性を示す。 このことから,TTA法に基づくデータ不確実性の導入は,臨床実践者がインフォームドな意思決定を行い,より信頼性の高い測定結果が得られることを示唆している。 本稿では,超音波画像のセグメンテーションの進歩,重要な課題への対処,生体計測の信頼性向上に寄与する。

Medical image segmentation, particularly in the context of ultrasound data, is a crucial aspect of computer vision and medical imaging. This paper delves into the complexities of uncertainty in the segmentation process, focusing on fetal head and femur ultrasound images. The proposed methodology involves extracting target contours and exploring techniques for precise parameter measurement. Uncertainty modeling methods are employed to enhance the training and testing processes of the segmentation network. The study reveals that the average absolute error in fetal head circumference measurement is 8.0833mm, with a relative error of 4.7347%. Similarly, the average absolute error in fetal femur measurement is 2.6163mm, with a relative error of 6.3336%. Uncertainty modeling experiments employing Test-Time Augmentation (TTA) demonstrate effective interpretability of data uncertainty on both datasets. This suggests that incorporating data uncertainty based on the TTA method can support clinical practitioners in making informed decisions and obtaining more reliable measurement results in practical clinical applications. The paper contributes to the advancement of ultrasound image segmentation, addressing critical challenges and improving the reliability of biometric measurements.
翻訳日:2024-01-19 18:22:29 公開日:2024-01-17
# 融合戦略と深層学習を用いた人工胎盤の自動3次元マルチモーダル超音波分割

Automatic 3D Multi-modal Ultrasound Segmentation of Human Placenta using Fusion Strategies and Deep Learning ( http://arxiv.org/abs/2401.09638v1 )

ライセンス: Link先を確認
Sonit Singh, Gordon Stevenson, Brendan Mein, Alec Welsh and Arcot Sowmya(参考訳) 目的: 超音波は臨床における診断とスクリーニングに最も一般的に用いられる医用イメージングモードである。 安全性, 非侵襲性, 移植性から, 超音波は妊娠中の胎児評価における第一の画像モダリティである。 現在の超音波処理は手作業かセミオートマチックで、手間がかかり、エラーが発生しやすいため、自動化はこれらの課題に対処する上で長い道のりを歩むことになる。 妊娠初期の胎盤変化の自動同定は、妊娠後期にのみ検出されている胎児の成長制限や妊娠前治療のような条件に対する潜在的治療を促進し、周産期死亡や死亡を防ぐ可能性がある。 方法: 深層学習と融合戦略の併用により, ヒト胎盤の3次元マルチモーダル超音波(bモード, パワードプラ)の自動分割法を提案する。 結果: 標準オーバーラップ・バウンダリベースメトリクスに基づくプラセンタセグメンテーションにおいて, 異なる融合戦略と最先端画像セグメンテーションネットワークを評価した。 その結果,Bモードとパワードップラースキャンによるマルチモーダル情報は,単一のモダリティよりも優れていた。 さらに,データレベルでbモードとパワードップラー入力が融合することにより,平均ディス類似度係数(dsc)0.849の最適結果が得られることがわかった。 結論:bモードとパワードップラースキャンを組み合わせるマルチモーダルアプローチは,プラセンタを3次元超音波スキャンから完全に自動的に分割する上で有効であり,データセットの品質変動に頑健である。

Purpose: Ultrasound is the most commonly used medical imaging modality for diagnosis and screening in clinical practice. Due to its safety profile, noninvasive nature and portability, ultrasound is the primary imaging modality for fetal assessment in pregnancy. Current ultrasound processing methods are either manual or semi-automatic and are therefore laborious, time-consuming and prone to errors, and automation would go a long way in addressing these challenges. Automated identification of placental changes at earlier gestation could facilitate potential therapies for conditions such as fetal growth restriction and pre-eclampsia that are currently detected only at late gestational age, potentially preventing perinatal morbidity and mortality. Methods: We propose an automatic three-dimensional multi-modal (B-mode and power Doppler) ultrasound segmentation of the human placenta using deep learning combined with different fusion strategies.We collected data containing Bmode and power Doppler ultrasound scans for 400 studies. Results: We evaluated different fusion strategies and state-of-the-art image segmentation networks for placenta segmentation based on standard overlap- and boundary-based metrics. We found that multimodal information in the form of B-mode and power Doppler scans outperform any single modality. Furthermore, we found that B-mode and power Doppler input scans fused at the data level provide the best results with a mean Dice Similarity Coefficient (DSC) of 0.849. Conclusion: We conclude that the multi-modal approach of combining B-mode and power Doppler scans is effective in segmenting the placenta from 3D ultrasound scans in a fully automated manner and is robust to quality variation of the datasets.
翻訳日:2024-01-19 18:22:09 公開日:2024-01-17
# 大規模言語モデル支援が臨床ノートを読む患者に与える影響:混合手法による研究

Impact of Large Language Model Assistance on Patients Reading Clinical Notes: A Mixed-Methods Study ( http://arxiv.org/abs/2401.09637v1 )

ライセンス: Link先を確認
Niklas Mannhardt, Elizabeth Bondi-Kelly, Barbara Lam, Chloe O'Connell, Mercy Asiedu, Hussein Mozannar, Monica Agrawal, Alejandro Buendia, Tatiana Urman, Irbaz B. Riaz, Catherine E. Ricciardi, Marzyeh Ghassemi, David Sontag(参考訳) 患者は、健康に対するコントロール感の向上やケアプランの理解の改善など、臨床ノートを読むことで多くの利益を得られる。 しかし、臨床ノートの中の複雑な医療概念や用語は、患者の理解を妨げ、不安を引き起こす可能性がある。 臨床ノートをより読みやすくするための患者対応ツールを開発し,大規模言語モデル(LLM)を活用して,文書の簡易化,情報抽出,文脈追加を行った。 われわれは,GPT-4を用いて乳がん患者に寄贈された実名と,臨床医が作成した合成名,合計で3868語で,これらの増補作業を行うよう促した。 2023年6月,米国在住女性200名を対象に,無作為に3つの臨床ノートを作成した。 参加者は各ノートに対する質問に回答し、フォローアップ行動の理解と自己報告された自信を評価した。 その結果,行動理解スコアの大幅な増加(選択した拡張度では0.63$\pm$ 0.04,コントロールでは 0.54$\pm$ 0.02 )とp=0.002 の相関が認められた。 自己診断型乳癌患者(n=7)の詳細なインタビューもビデオ会議を用いて行った。 増量,特に定義は7人の参加者に肯定的な反応を与え,LSMへの依存を懸念した。 増補は臨床医によって評価され,誤解を招くエラーが発生し,本資料では合成ノートよりも誤りが一般的であり,注意深い臨床ノートの重要性が示された。 拡張によって、可読性メトリクスは改善されるが、すべてではない。 本研究は,臨床医の負担を軽減し,臨床ノートによる患者体験を改善するためのllmの可能性を示す。 しかし、そのループに人間がいることは、潜在的なモデルエラーを修正する上で重要である。

Patients derive numerous benefits from reading their clinical notes, including an increased sense of control over their health and improved understanding of their care plan. However, complex medical concepts and jargon within clinical notes hinder patient comprehension and may lead to anxiety. We developed a patient-facing tool to make clinical notes more readable, leveraging large language models (LLMs) to simplify, extract information from, and add context to notes. We prompt engineered GPT-4 to perform these augmentation tasks on real clinical notes donated by breast cancer survivors and synthetic notes generated by a clinician, a total of 12 notes with 3868 words. In June 2023, 200 female-identifying US-based participants were randomly assigned three clinical notes with varying levels of augmentations using our tool. Participants answered questions about each note, evaluating their understanding of follow-up actions and self-reported confidence. We found that augmentations were associated with a significant increase in action understanding score (0.63 $\pm$ 0.04 for select augmentations, compared to 0.54 $\pm$ 0.02 for the control) with p=0.002. In-depth interviews of self-identifying breast cancer patients (N=7) were also conducted via video conferencing. Augmentations, especially definitions, elicited positive responses among the seven participants, with some concerns about relying on LLMs. Augmentations were evaluated for errors by clinicians, and we found misleading errors occur, with errors more common in real donated notes than synthetic notes, illustrating the importance of carefully written clinical notes. Augmentations improve some but not all readability metrics. This work demonstrates the potential of LLMs to improve patients' experience with clinical notes at a lower burden to clinicians. However, having a human in the loop is important to correct potential model errors.
翻訳日:2024-01-19 18:21:44 公開日:2024-01-17
# 液体時間ネットワークを用いた磁気ナビゲーションシステムにおける空力補償の物理インフォームド校正

Physics-Informed Calibration of Aeromagnetic Compensation in Magnetic Navigation Systems using Liquid Time-Constant Networks ( http://arxiv.org/abs/2401.09631v1 )

ライセンス: Link先を確認
Favour Nerrise (1 and 2), Andrew Sosa Sosanya (2), Patrick Neary (2) ((1) Department of Electrical Engineering, Stanford University, CA, USA, (2) SandboxAQ, Palo Alto, CA, USA)(参考訳) 磁気航法 (MagNav) はGPS(Global Positioning System)の代替であり、航空機の航法に有用であることが証明されている。 従来の航空航法システムは有効ではあるが、特定の環境や攻撃に対する精度と信頼性の限界に直面している。 空中マグナブは地球の磁場を利用して正確な位置情報を提供する。 しかし、航空機の電子機器や地球の大規模な磁場によって誘導される外部磁場は、より弱い利害シグナルを妨害する。 本稿では,補償のためにトルス・ローソン係数を用いた物理インフォームド手法と,航空機の磁気源から発生する複雑な雑音信号を取り除くための液時定数ネットワーク(LTC)を提案する。 磁気センサによる実飛行データと航空機の計測値を用いて、従来のモデルよりも64%の空中電磁補償誤差(RMSE nT)を低減した。 この大幅な改善は、MagNav位置推定のためのクリーンで信頼性が高く正確な磁気信号を抽出する、物理インフォームドな機械学習アプローチの可能性を示している。

Magnetic navigation (MagNav) is a rising alternative to the Global Positioning System (GPS) and has proven useful for aircraft navigation. Traditional aircraft navigation systems, while effective, face limitations in precision and reliability in certain environments and against attacks. Airborne MagNav leverages the Earth's magnetic field to provide accurate positional information. However, external magnetic fields induced by aircraft electronics and Earth's large-scale magnetic fields disrupt the weaker signal of interest. We introduce a physics-informed approach using Tolles-Lawson coefficients for compensation and Liquid Time-Constant Networks (LTCs) to remove complex, noisy signals derived from the aircraft's magnetic sources. Using real flight data with magnetometer measurements and aircraft measurements, we observe up to a 64% reduction in aeromagnetic compensation error (RMSE nT), outperforming conventional models. This significant improvement underscores the potential of a physics-informed, machine learning approach for extracting clean, reliable, and accurate magnetic signals for MagNav positional estimation.
翻訳日:2024-01-19 18:21:13 公開日:2024-01-17
# PVTをベースとしたエンコーディングと精細復号によるCT肝セグメンテーション

CT Liver Segmentation via PVT-based Encoding and Refined Decoding ( http://arxiv.org/abs/2401.09630v1 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Koushik Biswas, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci(参考訳) CTスキャンからの正確な肝分画は,コンピュータ支援診断と治療計画に不可欠である。 近年、Vision Transformersは、グローバルな表現を学習する能力があるため、畳み込みニューラルネットワークと比較して、コンピュータビジョンタスクの競争力に優れています。 しかし、スケーラビリティやメモリの制約、計算効率の非効率、特に高解像度の医療画像の処理に苦しむことが多い。 拡張性と効率性の問題を克服するため,我々は,事前学習されたピラミッド型視覚トランスフォーマ(pvt v2)と高度な残差アップサンプリングとデコーダブロックを組み合わせた,新しいディープラーニング手法である \textit{\textbf{pvtformer}} を提案する。 改良された特徴チャネルアプローチを階層的デコーディング戦略に統合することにより、PVTFormerはセマンティック機能を強化して高品質なセグメンテーションマスクを生成する。 肝腫瘍分節ベンチマーク(lits)2017において,提案手法の厳密な評価を行った結果,提案手法は,dice係数が86.78\%,miouが78.46\%,低hdが3.50であった。 その結果,最新肝セグメンテーション法におけるPVTFormerの有効性が示された。 提案されたPVTFormerのソースコードは、 \url{https://github.com/DebeshJha/PVTFormer} で入手できる。

Accurate liver segmentation from CT scans is essential for computer-aided diagnosis and treatment planning. Recently, Vision Transformers achieved a competitive performance in computer vision tasks compared to convolutional neural networks due to their exceptional ability to learn global representations. However, they often struggle with scalability, memory constraints, and computational inefficiency, particularly in handling high-resolution medical images. To overcome scalability and efficiency issues, we propose a novel deep learning approach, \textit{\textbf{PVTFormer}}, that is built upon a pretrained pyramid vision transformer (PVT v2) combined with advanced residual upsampling and decoder block. By integrating a refined feature channel approach with hierarchical decoding strategy, PVTFormer generates high quality segmentation masks by enhancing semantic features. Rigorous evaluation of the proposed method on Liver Tumor Segmentation Benchmark (LiTS) 2017 demonstrates that our proposed architecture not only achieves a high dice coefficient of 86.78\%, mIoU of 78.46\%, but also obtains a low HD of 3.50. The results underscore PVTFormer's efficacy in setting a new benchmark for state-of-the-art liver segmentation methods. The source code of the proposed PVTFormer is available at \url{https://github.com/DebeshJha/PVTFormer}.
翻訳日:2024-01-19 18:20:55 公開日:2024-01-17
# 複数の局所線形カーネルマシン

Multiple Locally Linear Kernel Machines ( http://arxiv.org/abs/2401.09629v1 )

ライセンス: Link先を確認
David Picard(参考訳) 本稿では,局所線形分類器の組み合わせに基づく新しい非線形分類器を提案する。 多くの局所線形カーネルを用いた$\ell_1$ Multiple Kernel Learning (MKL) 問題に問題を投げかけたことで、よく知られた最適化式が与えられる。 このようなカーネルの数は巨大であるため、ストリーミングカーネルを扱うスケーラブルな汎用mklトレーニングアルゴリズムを提供する。 推定時間に関して、結果として得られる分類器は、高精度だが遅い非線形分類器(古典的mklなど)と高速だが低精度な線形分類器とのギャップに適合する。

In this paper we propose a new non-linear classifier based on a combination of locally linear classifiers. A well known optimization formulation is given as we cast the problem in a $\ell_1$ Multiple Kernel Learning (MKL) problem using many locally linear kernels. Since the number of such kernels is huge, we provide a scalable generic MKL training algorithm handling streaming kernels. With respect to the inference time, the resulting classifier fits the gap between high accuracy but slow non-linear classifiers (such as classical MKL) and fast but low accuracy linear classifiers.
翻訳日:2024-01-19 18:20:25 公開日:2024-01-17
# SymTC : 腰部MRIのインスタンス分割のための共生トランスフォーマー-CNNネット

SymTC: A Symbiotic Transformer-CNN Net for Instance Segmentation of Lumbar Spine MRI ( http://arxiv.org/abs/2401.09627v1 )

ライセンス: Link先を確認
Jiasong Chen, Linchen Qian, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang(参考訳) 椎間板疾患は一般的な疾患であり、しばしば間欠的または持続的な腰痛につながり、この疾患の診断と評価は腰椎mri画像から椎間板と椎間板の正確な測定に依存している。 ディープニューラルネットワーク(DNN)モデルは、腰椎の個々のインスタンス(ディスクと脊椎)のより効率的なイメージセグメンテーションを自動化された方法で臨床医を支援する。 本研究では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)の強みを組み合わせた,革新的な腰椎MR画像分割モデルであるSymTCを提案する。 具体的には、cnn層とtransformer層をマージする並列なデュアルパスアーキテクチャを設計し、トランスのセルフアテンションモジュールに新しい位置埋め込みを組み込むことにより、より正確なセグメンテーションのための位置情報の利用を強化した。 モデル性能をさらに向上させるため,ssmspineと呼ばれる合成的で現実的なmr画像データセットを作成するための新しいデータ拡張技術を導入した。 ssmspineデータセットとプライベートデータセットのsymtcおよび既存の15のイメージセグメンテーションモデルを,dice類似度係数と95%ハウスドルフ距離の2つの指標を用いて評価した。 その結果,SymTCは腰椎MRI画像における椎骨と椎間板のセグメンテーションに最適であることが示唆された。 SymTCコードとSSMSpineデータセットはhttps://github.com/jiasongchen/SymTCで公開されている。

Intervertebral disc disease, a prevalent ailment, frequently leads to intermittent or persistent low back pain, and diagnosing and assessing of this disease rely on accurate measurement of vertebral bone and intervertebral disc geometries from lumbar MR images. Deep neural network (DNN) models may assist clinicians with more efficient image segmentation of individual instances (disks and vertebrae) of the lumbar spine in an automated way, which is termed as instance image segmentation. In this work, we proposed SymTC, an innovative lumbar spine MR image segmentation model that combines the strengths of Transformer and Convolutional Neural Network (CNN). Specifically, we designed a parallel dual-path architecture to merge CNN layers and Transformer layers, and we integrated a novel position embedding into the self-attention module of Transformer, enhancing the utilization of positional information for more accurate segmentation. To further improves model performance, we introduced a new data augmentation technique to create synthetic yet realistic MR image dataset, named SSMSpine, which is made publicly available. We evaluated our SymTC and the other 15 existing image segmentation models on our private in-house dataset and the public SSMSpine dataset, using two metrics, Dice Similarity Coefficient and 95% Hausdorff Distance. The results show that our SymTC has the best performance for segmenting vertebral bones and intervertebral discs in lumbar spine MR images. The SymTC code and SSMSpine dataset are available at https://github.com/jiasongchen/SymTC.
翻訳日:2024-01-19 18:20:16 公開日:2024-01-17
# MITS-GAN:ジェネレーティブ・ディバイサル・ネットワークによるタンパリングからの医療画像の保護

MITS-GAN: Safeguarding Medical Imaging from Tampering with Generative Adversarial Networks ( http://arxiv.org/abs/2401.09624v1 )

ライセンス: Link先を確認
Giovanni Pasqualino, Luca Guarnera, Alessandro Ortis, Sebastiano Battiato(参考訳) 生成モデル、特にGAN(Generative Adversarial Networks)の進歩は、画像生成の新しい可能性を開いたが、特に医療画像のようなセンシティブな領域において、潜在的に悪意のある使用に対する懸念が高まった。 この研究は、医学画像の改ざんを防ぐための新しいアプローチであるMITS-GANを紹介し、特にCTスキャンに焦点を当てた。 このアプローチは攻撃者のct-ganアーキテクチャの出力を妨害し、不可避だが正確な摂動を導入する。 具体的には,様々な攻撃に対する保護策として,適切なガウスノイズを入力に導入する手法を提案する。 提案手法は,既存の技術と比較して,タンパー抵抗を向上させることを目的としている。 CTスキャンデータセットの実験結果は、MITS-GANの優れた性能を示し、無視可能なアーティファクトでタンパー耐性画像を生成する能力を強調した。 医療領域における画像改ざんは生命を脅かすリスクをもたらすため、当社の積極的なアプローチは、生成モデルの責任と倫理的利用に寄与します。 この研究は、医療画像におけるサイバー脅威に対抗するための将来の研究の基盤を提供する。 モデルとコードは以下のリンクで公開されている。

The progress in generative models, particularly Generative Adversarial Networks (GANs), opened new possibilities for image generation but raised concerns about potential malicious uses, especially in sensitive areas like medical imaging. This study introduces MITS-GAN, a novel approach to prevent tampering in medical images, with a specific focus on CT scans. The approach disrupts the output of the attacker's CT-GAN architecture by introducing imperceptible but yet precise perturbations. Specifically, the proposed approach involves the introduction of appropriate Gaussian noise to the input as a protective measure against various attacks. Our method aims to enhance tamper resistance, comparing favorably to existing techniques. Experimental results on a CT scan dataset demonstrate MITS-GAN's superior performance, emphasizing its ability to generate tamper-resistant images with negligible artifacts. As image tampering in medical domains poses life-threatening risks, our proactive approach contributes to the responsible and ethical use of generative models. This work provides a foundation for future research in countering cyber threats in medical imaging. Models and codes are publicly available at the following link \url{https://iplab.dmi.unict.it/MITS-GAN-2024/}.
翻訳日:2024-01-19 18:19:45 公開日:2024-01-17
# SMOOTHIE:ソフトウェア分析のためのハイパーパラメータ最適化の理論

SMOOTHIE: A Theory of Hyper-parameter Optimization for Software Analytics ( http://arxiv.org/abs/2401.09622v1 )

ライセンス: Link先を確認
Rahul Yedida and Tim Menzies(参考訳) ハイパーパラメータ最適化は、学習者の制御パラメータをチューニングするブラックアートである。 ソフトウェア分析では、このようなチューニングが劇的なパフォーマンス向上をもたらすことが繰り返される。 それにもかかわらず、ハイパーパラメータ最適化はソフトウェア分析においてまれに、あるいは不十分に適用されることが多い。 ロスランドスケープが `smooth'' である場合,学習者はより一般化する。 この理論は、異なるハイパーパラメータの選択の ‘smoothness'' への影響を非常に迅速にテストできる(例えば、深い学習者の場合、1つのエポックの後)ので有用である。 この理論を検証するために,<smothness'を考慮した新しいパラメータ最適化器SMOOTHIEの実装と試験を行った。 本論文は,多数のSEタスクにおけるSMOOTHIEのテスト実験である。 (a)GitHubは生涯予測を発行する。 b) 静的コード警告における誤報を検出すること (c)欠陥予測、及び (d) 標準的なMLデータセットのセット。 これらすべての実験において、SMOOTHIEは最先端のオプティマイザを上回った。 SMOOTHIEは従来の最先端技術よりも300%速く走った。 したがって、この理論(超パラメータ最適化は、決定ランドスケープの '`smoothing'' 関数として最もよく見なされる)は理論的に興味深く、実用的にも非常に有用である。 この領域で働くオープンサイエンスや他の研究者をサポートするために、私たちのスクリプトとデータセットはすべて、https://github.com/yrahul3910/smoothness-hpo/でオンラインで利用できます。

Hyper-parameter optimization is the black art of tuning a learner's control parameters. In software analytics, a repeated result is that such tuning can result in dramatic performance improvements. Despite this, hyper-parameter optimization is often applied rarely or poorly in software analytics--perhaps due to the CPU cost of exploring all those parameter options can be prohibitive. We theorize that learners generalize better when the loss landscape is ``smooth''. This theory is useful since the influence on ``smoothness'' of different hyper-parameter choices can be tested very quickly (e.g. for a deep learner, after just one epoch). To test this theory, this paper implements and tests SMOOTHIE, a novel hyper-parameter optimizer that guides its optimizations via considerations of ``smothness''. The experiments of this paper test SMOOTHIE on numerous SE tasks including (a) GitHub issue lifetime prediction; (b) detecting false alarms in static code warnings; (c) defect prediction, and (d) a set of standard ML datasets. In all these experiments, SMOOTHIE out-performed state-of-the-art optimizers. Better yet, SMOOTHIE ran 300% faster than the prior state-of-the art. We hence conclude that this theory (that hyper-parameter optimization is best viewed as a ``smoothing'' function for the decision landscape), is both theoretically interesting and practically very useful. To support open science and other researchers working in this area, all our scripts and datasets are available on-line at https://github.com/yrahul3910/smoothness-hpo/.
翻訳日:2024-01-19 18:19:26 公開日:2024-01-17
# 超長距離Cs-RbCsリドバーグ分子:双極子モーメントの非断熱性

Ultralong-range Cs-RbCs Rydberg molecules: non-adiabaticity of dipole moments ( http://arxiv.org/abs/2401.09618v1 )

ライセンス: Link先を確認
David Mellado-Alcedo, Alexander Guttridge, Simon L. Cornish, H. R. Sadeghpour, Rosario Gonzalez-Ferez(参考訳) 我々はRydbergのセシウム原子と基底状態RbCs分子を組み合わせた超長距離多原子Rydberg分子を考察した。 我々は、リドベルグ電子と二原子極分子による電荷-双極子相互作用が量子欠陥リドベルグ状態cs(ns)を最寄りの縮退した水素多様体に結合する状態を探る。 光学式ツイーザにおける生成に寄与する多原子Rydberg分子を考察し,非断熱カップリングが生成可能性に及ぼす影響について検討した。 振動状態の減衰速度は、異なる結合ポテンシャル井戸に広がる波動関数の干渉シグネチャを反映している。

We consider ultralong-range polyatomic Rydberg molecules formed by combining a Rydberg cesium atom and a ground-state RbCs molecule. We explore the regime where the charge-dipole interaction due to the Rydberg electron with the diatomic polar molecule couples the quantum defect Rydberg states Cs(ns) to the nearest degenerate hydrogenic manifold. We consider polyatomic Rydberg molecules in states which are amenable to production in optical tweezers and study the influence of nonadiabatic coupling on the likelihood of their formation. The decay rates of the vibrational states reflect the interference signature of wave function spread in different coupled potential wells.
翻訳日:2024-01-19 18:19:00 公開日:2024-01-17
# ショートカットの学習:言語モデルにおけるNLUの誤った約束について

Learning Shortcuts: On the Misleading Promise of NLU in Language Models ( http://arxiv.org/abs/2401.09615v1 )

ライセンス: Link先を確認
Geetanjali Bihani, Julia Taylor Rayz(参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理の分野で大きなパフォーマンス向上を実現している。 しかし、近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けつつ、性能向上の錯覚を生じさせる。 この現象は、LLMにおける自然言語理解を正確に評価する上での課題をもたらす。 本稿では,この領域における関連研究の簡潔な調査と,言語モデル,特にNLUタスクの評価におけるショートカット学習の影響について考察する。 本稿では,ショートカット学習の理解を深め,より堅牢な言語モデルの開発に寄与し,実世界のシナリオにおけるNLU評価の基準を高めるために,さらなる研究努力を奨励する。

The advent of large language models (LLMs) has enabled significant performance gains in the field of natural language processing. However, recent studies have found that LLMs often resort to shortcuts when performing tasks, creating an illusion of enhanced performance while lacking generalizability in their decision rules. This phenomenon introduces challenges in accurately assessing natural language understanding in LLMs. Our paper provides a concise survey of relevant research in this area and puts forth a perspective on the implications of shortcut learning in the evaluation of language models, specifically for NLU tasks. This paper urges more research efforts to be put towards deepening our comprehension of shortcut learning, contributing to the development of more robust language models, and raising the standards of NLU evaluation in real-world scenarios.
翻訳日:2024-01-19 18:18:45 公開日:2024-01-17
# ニューロシンボリック推論と学習のための凸・双レベル最適化

Convex and Bilevel Optimization for Neuro-Symbolic Inference and Learning ( http://arxiv.org/abs/2401.09651v1 )

ライセンス: Link先を確認
Charles Dickens, Changyu Gao, Connor Pryor, Stephen Wright, Lise Getoor(参考訳) 我々は、凸と双レベル最適化技術を活用し、終末のニューラルネットワークおよびシンボルパラメータ学習のための一般的な勾配に基づくフレームワークを開発することにより、ニューロシンボリックシステム(NeSy)の鍵となる課題に対処する。 我々のフレームワークの適用性は、最先端のNeSyアーキテクチャであるNePSLで実証されている。 そこで本研究では、NeuPSL推論のスムーズな原始および双対式化を提案し、学習勾配が最適双対変数の関数であることを示す。 さらに,自然にウォームスタートを利用する新しい定式化のためのデュアルブロック座標降下アルゴリズムを開発した。 これにより、現在の最高のNeuPSL推論メソッドよりも100倍以上の学習ランタイムが改善される。 最後に、さまざまなタスクをカバーする8ドルのデータセットにわたる広範な経験的評価を行い、学習フレームワークが代替学習方法よりも最大16%のポイント予測パフォーマンス向上を達成することを実証します。

We address a key challenge for neuro-symbolic (NeSy) systems by leveraging convex and bilevel optimization techniques to develop a general gradient-based framework for end-to-end neural and symbolic parameter learning. The applicability of our framework is demonstrated with NeuPSL, a state-of-the-art NeSy architecture. To achieve this, we propose a smooth primal and dual formulation of NeuPSL inference and show learning gradients are functions of the optimal dual variables. Additionally, we develop a dual block coordinate descent algorithm for the new formulation that naturally exploits warm-starts. This leads to over 100x learning runtime improvements over the current best NeuPSL inference method. Finally, we provide extensive empirical evaluations across $8$ datasets covering a range of tasks and demonstrate our learning framework achieves up to a 16% point prediction performance improvement over alternative learning methods.
翻訳日:2024-01-19 18:08:06 公開日:2024-01-17
# 非交叉測定による量子状態認証における共有ランダム性の役割

The role of shared randomness in quantum state certification with unentangled measurements ( http://arxiv.org/abs/2401.09650v1 )

ライセンス: Link先を確認
Yuhan Liu, Jayadev Acharya(参考訳) 未知の量子状態 $\rho\in\mathbb{C}^{d\times d}$ の $n$ が与えられたとき、量子状態認証は $\rho=\rho_0$ または $\|\rho-\rho_0\|_1>\varepsilon$ を決定するタスクである。 量子状態認証は、無絡量子測定、すなわち一度に$\rho$の1コピーでのみ動作する測定値を用いて研究する。 共有ランダム性の共通源が存在し、このランダム性に基づいて無絡測定が選択される場合、以前の研究では$\Theta(d^{3/2}/\varepsilon^2)$コピーが必要であることが示されている。 これは、測定値が適応的に選択されることを許可された場合でも保持される。 我々は(ランダム化とは対照的に)決定論的計測スキームを検討し、${\theta}(d^2/\varepsilon^2)$コピーが州認証に必要で十分であることを示す。 これは、ランダム性を共有しないアルゴリズムの分離を示す。 固定化とランダム化の両方のための統一された下界フレームワークを,テストの硬さと確立されたL\uders則を関連づけた理論的枠組みで開発する。 より正確には、1つの測定後の状態変換を特徴付けるL\'udersチャネルの固有値の関数としてランダム化および固定化されたスキームの下位境界を求める。

Given $n$ copies of an unknown quantum state $\rho\in\mathbb{C}^{d\times d}$, quantum state certification is the task of determining whether $\rho=\rho_0$ or $\|\rho-\rho_0\|_1>\varepsilon$, where $\rho_0$ is a known reference state. We study quantum state certification using unentangled quantum measurements, namely measurements which operate only on one copy of $\rho$ at a time. When there is a common source of shared randomness available and the unentangled measurements are chosen based on this randomness, prior work has shown that $\Theta(d^{3/2}/\varepsilon^2)$ copies are necessary and sufficient. This holds even when the measurements are allowed to be chosen adaptively. We consider deterministic measurement schemes (as opposed to randomized) and demonstrate that ${\Theta}(d^2/\varepsilon^2)$ copies are necessary and sufficient for state certification. This shows a separation between algorithms with and without shared randomness. We develop a unified lower bound framework for both fixed and randomized measurements, under the same theoretical framework that relates the hardness of testing to the well-established L\"uders rule. More precisely, we obtain lower bounds for randomized and fixed schemes as a function of the eigenvalues of the L\"uders channel which characterizes one possible post-measurement state transformation.
翻訳日:2024-01-19 18:07:46 公開日:2024-01-17
# トラヒックフロー予測のための新しいハイブリッド時変グラフニューラルネットワーク

A novel hybrid time-varying graph neural network for traffic flow forecasting ( http://arxiv.org/abs/2401.10155v1 )

ライセンス: Link先を確認
Ben Ao Dai, Bao-Lin Ye(参考訳) グラフニューラルネットワーク(GNN)に基づく既存の交通流予測手法では,都市道路網における異なる交通ノードの空間的相関を記述するために,事前に定義されたグラフが使用されるのが一般的である。 しかし,空間相関を記述するための事前定義されたグラフの能力は,先行知識とグラフ生成法によって制限された。 データ駆動学習に基づく時間変化グラフは,事前定義されたグラフの欠点を部分的に克服することができるが,既存の適応グラフの学習能力は限られていた。 例えば、時変グラフは交通流データに固有の空間相関を適切に捉えることができないため、これらの問題を解決するために、交通流予測のためのハイブリッド時変グラフニューラルネットワーク(htvgnn)を提案する。

Real-time and accurate traffic flow prediction is the foundation for ensuring the efficient operation of intelligent transportation systems.In existing traffic flow prediction methods based on graph neural networks (GNNs), pre-defined graphs were usually used to describe the spatial correlations of different traffic nodes in urban road networks. However, the ability of pre-defined graphs used to describe spatial correlation was limited by prior knowledge and graph generation methods. Although time-varying graphs based on data-driven learning can partially overcome the drawbacks of pre-defined graphs, the learning ability of existing adaptive graphs was limited. For example, time-varying graphs cannot adequately capture the inherent spatial correlations in traffic flow data.In order to solve these problems, we have proposed a hybrid time-varying graph neural network (HTVGNN) for traffic flow prediction.
翻訳日:2024-01-19 15:50:50 公開日:2024-01-17
# タンパク質表面学習のための階層的相互作用の爆発

Exploiting Hierarchical Interactions for Protein Surface Learning ( http://arxiv.org/abs/2401.10144v1 )

ライセンス: Link先を確認
Yiqun Lin, Liang Pan, Yi Li, Ziwei Liu, and Xiaomeng Li(参考訳) タンパク質間の相互作用を予測することは、構造生物情報学において最も重要で難しい問題の一つである。 本質的には、タンパク質表面のポテンシャル関数部位は幾何学的特徴と化学的特徴の両方によって決定される。 しかし、現存する研究は、原子型から手作りまたは個別に学んだ化学的特徴のみを考慮し、幾何学的特徴を独立して抽出している。 ここでは、有効タンパク質表面学習の2つの重要な性質を同定する。 1) 原子間の関係: 原子は共有結合によって結合し、単体ではなく生体分子を形成するため、化学的特徴学習において原子間の関係をモデル化することが重要である。 2) 階層的特徴相互作用: 隣り合う残基効果は、原子間および表面点と原子(または残基)間の階層的特徴相互作用の重要性を検証する。 本稿では,階層的相互作用を伴う化学・幾何学的特徴の橋渡しによるタンパク質表面分析のための,階層的化学・幾何学的特徴相互作用ネットワーク(hcgnet)という,ディープラーニング技術に基づく原理的枠組みを提案する。 総合的な実験により,提案手法は,現場予測タスクで2.3%,対話マッチングタスクで3.2%,先行技術で2.3%向上した。 私たちのコードはhttps://github.com/xmed-lab/HCGNetで利用可能です。

Predicting interactions between proteins is one of the most important yet challenging problems in structural bioinformatics. Intrinsically, potential function sites in protein surfaces are determined by both geometric and chemical features. However, existing works only consider handcrafted or individually learned chemical features from the atom type and extract geometric features independently. Here, we identify two key properties of effective protein surface learning: 1) relationship among atoms: atoms are linked with each other by covalent bonds to form biomolecules instead of appearing alone, leading to the significance of modeling the relationship among atoms in chemical feature learning. 2) hierarchical feature interaction: the neighboring residue effect validates the significance of hierarchical feature interaction among atoms and between surface points and atoms (or residues). In this paper, we present a principled framework based on deep learning techniques, namely Hierarchical Chemical and Geometric Feature Interaction Network (HCGNet), for protein surface analysis by bridging chemical and geometric features with hierarchical interactions. Extensive experiments demonstrate that our method outperforms the prior state-of-the-art method by 2.3% in site prediction task and 3.2% in interaction matching task, respectively. Our code is available at https://github.com/xmed-lab/HCGNet.
翻訳日:2024-01-19 15:47:57 公開日:2024-01-17
# RAG対微調整:パイプライン、トレードオフおよび農業の事例研究

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture ( http://arxiv.org/abs/2401.08406v2 )

ライセンス: Link先を確認
Angels Balaguer, Vinamra Benara, Renato Luiz de Freitas Cunha, Roberto de M. Estev\~ao Filho, Todd Hendry, Daniel Holstein, Jennifer Marsman, Nick Mecklenburg, Sara Malvar, Leonardo O. Nunes, Rafael Padilha, Morris Sharp, Bruno Silva, Swati Sharma, Vijay Aski, Ranveer Chandra(参考訳) 大きな言語モデル(llm)のアプリケーションを構築する際に、開発者がプロプライエタリなデータとドメイン固有のデータを組み込む一般的な方法が2つある。 RAGは外部データでプロンプトを強化し、 fine-Tuning はモデル自体に追加の知識を組み込む。 しかし、両方のアプローチの長所と短所はよく理解されていない。 本稿では、微調整とRAGのためのパイプラインを提案し、Llama2-13B、GPT-3.5、GPT-4を含む複数のLLMのトレードオフを示す。 我々のパイプラインは,PDFから情報を取り出す,質問や回答を生成する,微調整に使用する,GPT-4を利用して結果を評価する,など,複数の段階から構成される。 本稿では,RAGと微調整パイプラインの異なるステージの性能を評価する指標を提案する。 農業データセットに関する詳細な研究を行っている。 産業としての農業はAIの浸透をあまり見ていないが、潜在的に破壊的な応用について研究している。 本研究は,地理固有知識の獲得におけるデータセット生成パイプラインの有効性と,ragと微調整の定量的・質的効果を示す。 モデルを微調整すると精度が6時以上上昇し、RAGにより累積化され、さらに精度が5時まで向上する。 ある特定の実験では、微調整されたモデルが特定の質問に答えるために地理的に情報を活用することを実証し、回答の類似性は47%から72%に増加した。 全体として、LLMを使用して構築されたシステムは、特定の産業にとって重要な分野の知識に反応し、組み込むことができ、他の産業領域におけるLLMのさらなる応用の道を開くことができる。

There are two common ways in which developers are incorporating proprietary and domain-specific data when building applications of Large Language Models (LLMs): Retrieval-Augmented Generation (RAG) and Fine-Tuning. RAG augments the prompt with the external data, while fine-Tuning incorporates the additional knowledge into the model itself. However, the pros and cons of both approaches are not well understood. In this paper, we propose a pipeline for fine-tuning and RAG, and present the tradeoffs of both for multiple popular LLMs, including Llama2-13B, GPT-3.5, and GPT-4. Our pipeline consists of multiple stages, including extracting information from PDFs, generating questions and answers, using them for fine-tuning, and leveraging GPT-4 for evaluating the results. We propose metrics to assess the performance of different stages of the RAG and fine-Tuning pipeline. We conduct an in-depth study on an agricultural dataset. Agriculture as an industry has not seen much penetration of AI, and we study a potentially disruptive application - what if we could provide location-specific insights to a farmer? Our results show the effectiveness of our dataset generation pipeline in capturing geographic-specific knowledge, and the quantitative and qualitative benefits of RAG and fine-tuning. We see an accuracy increase of over 6 p.p. when fine-tuning the model and this is cumulative with RAG, which increases accuracy by 5 p.p. further. In one particular experiment, we also demonstrate that the fine-tuned model leverages information from across geographies to answer specific questions, increasing answer similarity from 47% to 72%. Overall, the results point to how systems built using LLMs can be adapted to respond and incorporate knowledge across a dimension that is critical for a specific industry, paving the way for further applications of LLMs in other industrial domains.
翻訳日:2024-01-19 13:08:40 公開日:2024-01-17
# 適応実験におけるCATEの個人差分推定

Differentially Private Estimation of CATE in Adaptive Experiment ( http://arxiv.org/abs/2401.08224v2 )

ライセンス: Link先を確認
Jiachun Li, Kaining Shi and David Simchi-Levi(参考訳) 適応実験は、臨床試験やその他の多くのシナリオで条件付き平均治療効果(cate)を推定するために広く採用されている。 実験の主目的は,社会的福祉の必須性から,推定精度を最大化することであるが,文脈的バンディットフレームワークにおける後悔によって測定される患者に優れた結果をもたらす治療を行うことも重要である。 これらの2つの目的はしばしばコントラスト最適割当機構に繋がる。 さらに、患者の健康記録のような機密データを含む臨床シナリオにプライバシー上の懸念が生じる。 したがって, 堅牢なプライバシー保護対策を組み込むためには, 治療割当機構が不可欠である。 本稿では,社会福祉の喪失と統計力とのトレードオフを文脈的バンディット実験で検討する。 多目的最適化問題に対して一致した上界と下界を提案し、次いでパレート最適性の概念を採用して最適条件を数学的に特徴づける。 さらに,プライバシが「ほぼ自由」であることを示す,下限にまだ一致する微分プライベートアルゴリズムを提案する。 さらに,統計的推論や仮説検定に必須な推定器の漸近正規性も導出する。

Adaptive experiment is widely adopted to estimate conditional average treatment effect (CATE) in clinical trials and many other scenarios. While the primary goal in experiment is to maximize estimation accuracy, due to the imperative of social welfare, it's also crucial to provide treatment with superior outcomes to patients, which is measured by regret in contextual bandit framework. These two objectives often lead to contrast optimal allocation mechanism. Furthermore, privacy concerns arise in clinical scenarios containing sensitive data like patients health records. Therefore, it's essential for the treatment allocation mechanism to incorporate robust privacy protection measures. In this paper, we investigate the tradeoff between loss of social welfare and statistical power in contextual bandit experiment. We propose a matched upper and lower bound for the multi-objective optimization problem, and then adopt the concept of Pareto optimality to mathematically characterize the optimality condition. Furthermore, we propose differentially private algorithms which still matches the lower bound, showing that privacy is "almost free". Additionally, we derive the asymptotic normality of the estimator, which is essential in statistical inference and hypothesis testing.
翻訳日:2024-01-19 13:08:08 公開日:2024-01-17
# 大規模言語モデルの自己説明は忠実か?

Are self-explanations from Large Language Models faithful? ( http://arxiv.org/abs/2401.07927v2 )

ライセンス: Link先を確認
Andreas Madsen, Sarath Chandar, Siva Reddy(参考訳) インストラクションチューニングされた大型言語モデル(LLM)は多くのタスクで優れており、その振る舞いの説明も提供する。 これらのモデルは一般に直接アクセス可能であるため、説得力や誤った説明がLSMへの信頼を損なうリスクがある。 したがって、自己説明の解釈可能性-信条はAI安全にとって重要な考慮事項である。 自己説明と呼ばれるこれらの説明の解釈可能性-忠実さを評価することは、モデルが複雑すぎて人間が正しい説明を注釈付けできないため、難しい。 そこで我々は,信頼度尺度として自己整合性チェックを採用することを提案する。 例えば、llmが単語の集合が予測を行うのに重要であると言うなら、これらの単語なしで同じ予測を行うことはできない。 自己整合性チェックは忠実性に対する一般的なアプローチであるが、LLMの自己説明には適用されていない。 自己整合性チェックを,反事実,重要度,リアクションの3種類の自己説明に適用する。 我々の研究は、信頼度はタスク依存とモデル依存の両方であることを示した。例えば、感情分類では、反ファクト的説明は、Llama2、Mistralの重要度、Falcon 40Bのリアクションなど、より忠実である。 最後に,本症例は即時変動に対して堅牢である。

Instruction-tuned large language models (LLMs) excel at many tasks, and will even provide explanations for their behavior. Since these models are directly accessible to the public, there is a risk that convincing and wrong explanations can lead to unsupported confidence in LLMs. Therefore, interpretability-faithfulness of self-explanations is an important consideration for AI Safety. Assessing the interpretability-faithfulness of these explanations, termed self-explanations, is challenging as the models are too complex for humans to annotate what is a correct explanation. To address this, we propose employing self-consistency checks as a measure of faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make the same prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been applied to LLM's self-explanations. We apply self-consistency checks to three types of self-explanations: counterfactuals, importance measures, and redactions. Our work demonstrate that faithfulness is both task and model dependent, e.g., for sentiment classification, counterfactual explanations are more faithful for Llama2, importance measures for Mistral, and redaction for Falcon 40B. Finally, our findings are robust to prompt-variations.
翻訳日:2024-01-19 13:07:04 公開日:2024-01-17
# TAROT: 半構造化データに基づくマルチタスク協調トレーニングを効果的に行う階層型フレームワーク

TAROT: A Hierarchical Framework with Multitask Co-Pretraining on Semi-Structured Data towards Effective Person-Job Fit ( http://arxiv.org/abs/2401.07525v2 )

ライセンス: Link先を確認
Yihan Cao, Xu Chen, Lun Du, Hao Chen, Qiang Fu, Shi Han, Yushu Du, Yanbin Kang, Guangming Lu, Zi Li(参考訳) Person-job fitは、ジョブ検索や候補推薦など、さまざまなダウンストリームアプリケーションを提供するための、オンライン採用プラットフォームの重要な部分である。 近年,ユーザプロファイルやジョブ記述にリッチなテキスト情報を活用することで,ユーザ行動の特徴やジョブメタデータとは別に,事前訓練された大規模言語モデルの有効性が向上している。 しかし、一般的なドメイン指向設計では、ユーザプロファイルとジョブ記述内のユニークな構造情報をキャプチャするのに苦労し、潜在意味相関が失われる。 本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。 tarotはプロファイルとジョブの半構造化テキストをターゲットにしており、取得したセマンティクス情報を各レベルに制限するために、複数の粒度の事前トレーニングタスクと共存する。 実世界のLinkedInデータセットの実験では、パフォーマンスが大幅に向上し、個人とタスクの適合性が証明された。

Person-job fit is an essential part of online recruitment platforms in serving various downstream applications like Job Search and Candidate Recommendation. Recently, pretrained large language models have further enhanced the effectiveness by leveraging richer textual information in user profiles and job descriptions apart from user behavior features and job metadata. However, the general domain-oriented design struggles to capture the unique structural information within user profiles and job descriptions, leading to a loss of latent semantic correlations. We propose TAROT, a hierarchical multitask co-pretraining framework, to better utilize structural and semantic information for informative text embeddings. TAROT targets semi-structured text in profiles and jobs, and it is co-pretained with multi-grained pretraining tasks to constrain the acquired semantic information at each level. Experiments on a real-world LinkedIn dataset show significant performance improvements, proving its effectiveness in person-job fit tasks.
翻訳日:2024-01-19 13:06:43 公開日:2024-01-17
# 異種マップを用いた幾何型インスタンス分割

Geometry-Aware Instance Segmentation with Disparity Maps ( http://arxiv.org/abs/2006.07802v2 )

ライセンス: Link先を確認
Cho-Ying Wu, Xiaoyan Hu, Michael Happold, Qiangeng Xu, Ulrich Neumann(参考訳) イメージのアウトドアインスタンスセグメンテーションのほとんどの以前の作品は、カラー情報のみを使用する。 ステレオカメラを利用するためのセンサ融合の新たな方向を探る。 格差から得られる幾何学的情報は、同じまたは異なるクラスの重複するオブジェクトを分離するのに役立ちます。 さらに、幾何学的情報は3次元形状の可能性のある領域の提案を罰し、偽陽性検出を抑える。 マスク回帰は擬似ライダーと画像ベース表現を用いた2D,2.5D,3DROIに基づく。 これらのマスク予測はマスクスコアリングプロセスによって融合される。 しかし、パブリックデータセットは、ステレオカメラの計測範囲を制限する、ベースラインと焦点長の短いステレオシステムのみを採用する。 我々は,高解像度のベースラインと焦点長を用いて,HQDS(High-Quality Driving Stereo)データセットを収集し,活用する。 私たちの演技は芸術の状態に達する。 プロジェクトページを参照してください。 全文はここで入手できる。

Most previous works of outdoor instance segmentation for images only use color information. We explore a novel direction of sensor fusion to exploit stereo cameras. Geometric information from disparities helps separate overlapping objects of the same or different classes. Moreover, geometric information penalizes region proposals with unlikely 3D shapes thus suppressing false positive detections. Mask regression is based on 2D, 2.5D, and 3D ROI using the pseudo-lidar and image-based representations. These mask predictions are fused by a mask scoring process. However, public datasets only adopt stereo systems with shorter baseline and focal legnth, which limit measuring ranges of stereo cameras. We collect and utilize High-Quality Driving Stereo (HQDS) dataset, using much longer baseline and focal length with higher resolution. Our performance attains state of the art. Please refer to our project page. The full paper is available here.
翻訳日:2024-01-18 22:36:09 公開日:2024-01-17
# 運転シナリオにおけるシーン完全性を考慮したライダー深度補完

Scene Completeness-Aware Lidar Depth Completion for Driving Scenario ( http://arxiv.org/abs/2003.06945v4 )

ライセンス: Link先を確認
Cho-Ying Wu, Ulrich Neumann(参考訳) 本稿では,Scene Completeness-Aware Depth Completion (SCADC)を導入し,詳細なシーン構造と完全なシーン構造を持つ深度マップに生ライダースキャンを組み込む。 最近のlidarの奥行きは低いシーンにのみ焦点を合わせており、kittiのような既存のデータセットが上層部に基部を提供していないため、上層で不規則な推定を行う。 これらの地域は、通常、風景理解の少ない空や木であるため、重要ではないと考えられている。 しかし、大型トラックや積載車のようないくつかの運転シナリオでは、物体はシーンの上部まで伸びる可能性がある。 したがって、rgbdアルゴリズムでは構造化上シーン推定を伴う深度マップが重要である。 SCADCは、シーンの完全性に優れた相違をもたらすステレオ画像を採用するが、ライダーよりも一般的には正確ではない。 我々の知る限りでは、我々はスパース深度完了のシーン完全性に最初に焦点を当てている。 我々は,KITTIにおける深度推定精度とシーン完全性の両方についてSCADCを検証した。 さらに,シーン完全性を考慮したd入力を用いたアウトドアrgbdセマンティクスセグメンテーションを実験し,提案手法の有効性を検証した。

This paper introduces Scene Completeness-Aware Depth Completion (SCADC) to complete raw lidar scans into dense depth maps with fine and complete scene structures. Recent sparse depth completion for lidars only focuses on the lower scenes and produces irregular estimations on the upper because existing datasets, such as KITTI, do not provide groundtruth for upper areas. These areas are considered less important since they are usually sky or trees of less scene understanding interest. However, we argue that in several driving scenarios such as large trucks or cars with loads, objects could extend to the upper parts of scenes. Thus depth maps with structured upper scene estimation are important for RGBD algorithms. SCADC adopts stereo images that produce disparities with better scene completeness but are generally less precise than lidars, to help sparse lidar depth completion. To our knowledge, we are the first to focus on scene completeness of sparse depth completion. We validate our SCADC on both depth estimate precision and scene-completeness on KITTI. Moreover, we experiment on less-explored outdoor RGBD semantic segmentation with scene completeness-aware D-input to validate our method.
翻訳日:2024-01-18 22:35:57 公開日:2024-01-17
# 準正規モードおよび他の固有値問題に対するバーンスタインスペクトル法

Bernstein spectral method for quasinormal modes and other eigenvalue problems ( http://arxiv.org/abs/2003.06232v3 )

ライセンス: Link先を確認
Sean Fortuna and Ian Vega(参考訳) スペクトル法は現在、ブラックホール準正規モードの計算など、様々な分野における通常の微分固有値問題の解法で一般的である。 これらのスペクトル符号の多くは標準チェビシェフ、フーリエ、その他の直交基底関数に基づいている。 本研究では、ベルンシュタイン多項式として知られる比較的未知の非直交基底関数の集合の有用性と、通常の微分固有値問題における境界条件を扱う利点を明らかにする。 我々はまた,固有値問題に対するBerstein-polynomial-based pseudospectral routinesを実装した,新しいユーザフレンドリーなパッケージである‘texttt{SpectralBP} について報告する。 量子力学における多くのモデル問題に適用し、シュワルツシルト背景におけるスカラーおよび重力準正規モードの計算問題に適用することにより、パッケージの機能性を示す。 いくつかの既知の結果に対してコードを検証し、優れた合意を達成する。 連続屈折法や直列法と比較して、大域近似法はシュワルツシルト重力摂動の代数的特殊モードのような純粋に想像的なモードを計算するのに特に適している。

Spectral methods are now common in the solution of ordinary differential eigenvalue problems in a wide variety of fields, such as in the computation of black hole quasinormal modes. Most of these spectral codes are based on standard Chebyshev, Fourier, or some other orthogonal basis functions. In this work we highlight the usefulness of a relatively unknown set of non-orthogonal basis functions, known as Bernstein polynomials, and their advantages for handling boundary conditions in ordinary differential eigenvalue problems. We also report on a new user-friendly package, called \texttt{SpectralBP}, that implements Berstein-polynomial-based pseudospectral routines for eigenvalue problems. We demonstrate the functionalities of the package by applying it to a number of model problems in quantum mechanics and to the problem of computing scalar and gravitational quasinormal modes in a Schwarzschild background. We validate our code against some known results and achieve excellent agreement. Compared to continued-fraction or series methods, global approximation methods are particularly well-suited for computing purely imaginary modes such as the algebraically special modes for Schwarzschild gravitational perturbations.
翻訳日:2024-01-18 22:35:34 公開日:2024-01-17
# 最適潮流学習のためのモデルインフォームド生成逆数ネットワーク(MI-GAN)

Model-Informed Generative Adversarial Network (MI-GAN) for Learning Optimal Power Flow ( http://arxiv.org/abs/2206.01864v2 )

ライセンス: Link先を確認
Yuxuan Li, Chaoyue Zhao, and Chenang Liu(参考訳) 最適電力フロー(OPF)問題は、電力系統の運用において重要な要素であり、電力系統にたらされる再生可能エネルギーの変動、断続性、予測不能により解決がますます困難になる。 確率的かつロバストな最適化手法のような従来の最適化手法は、再生可能エネルギーの不確実性、すなわち最適化モデルの動的係数に直面して、opf問題に対処するために利用できるが、大規模問題への対処効果は限られている。 その結果、近年、データ利用によるOPF問題の解法において、計算効率を向上させるために、ニューラルネットワークのようなディープラーニング技術が開発されている。 しかし、ソリューションの実現可能性や最適性は保証されず、システムダイナミクスも適切に対処できない。 本稿では,不確実性下でOPFを解決するための最適化モデルインフォームド生成逆数ネットワーク(MI-GAN)フレームワークを提案する。 1) 生成した解の実現性を確保し, 最適性を向上させるために, 実現性フィルタ層, 比較層, 勾配誘導層という3つの重要な層が提案されている。 (2) gan ベースのフレームワークでは, これら3つの新しい層を組み込んだ効率的なモデルインフォームセレクタが確立され, (3) 解の最適性を改善し, システムダイナミクスを扱うための新しい再帰的反復アルゴリズムも提案されている。 IEEEテストシステムの数値計算結果から,提案手法は非常に有効で有望であることが示された。

The optimal power flow (OPF) problem, as a critical component of power system operations, becomes increasingly difficult to solve due to the variability, intermittency, and unpredictability of renewable energy brought to the power system. Although traditional optimization techniques, such as stochastic and robust optimization approaches, could be leveraged to address the OPF problem, in the face of renewable energy uncertainty, i.e., the dynamic coefficients in the optimization model, their effectiveness in dealing with large-scale problems remains limited. As a result, deep learning techniques, such as neural networks, have recently been developed to improve computational efficiency in solving OPF problems with the utilization of data. However, the feasibility and optimality of the solution may not be guaranteed, and the system dynamics cannot be properly addressed as well. In this paper, we propose an optimization model-informed generative adversarial network (MI-GAN) framework to solve OPF under uncertainty. The main contributions are summarized into three aspects: (1) to ensure feasibility and improve optimality of generated solutions, three important layers are proposed: feasibility filter layer, comparison layer, and gradient-guided layer; (2) in the GAN-based framework, an efficient model-informed selector incorporating these three new layers is established; and (3) a new recursive iteration algorithm is also proposed to improve solution optimality and handle the system dynamics. The numerical results on IEEE test systems show that the proposed method is very effective and promising.
翻訳日:2024-01-18 22:29:52 公開日:2024-01-17
# 非マルコフ散逸から量子ナノデバイスの時空間制御へ

From Non-Markovian Dissipation to Spatiotemporal Control of Quantum Nanodevices ( http://arxiv.org/abs/2205.11247v5 )

ライセンス: Link先を確認
Thibaut Lacroix, Brendon W. Lovett, Alex W. Chin(参考訳) 量子効果を利用するナノデバイスは将来の量子技術(QT)の重要な要素であるが、その実世界の性能は局所的な「環境」相互作用から生じるデコヒーレンスによって強く制限されている。 複数の機能ユニットを含むデバイスが複雑化するにつれて、ローカルな環境が重なり始め、新しい時間と長さのスケールで環境に媒介するデコヒーレンス現象が発生する可能性がある。 このような複雑で本質的に非マルコフ力学は、QTのスケールアップに挑戦する可能性があるが、一方では、酵素や光合成タンパク質のような生物学的ナノマシンで起こることが示唆されるように、環境が「シグナル」とエネルギーを伝達する能力も、コンポーネント間プロセスの時空間的調整を可能にする可能性がある。 数値的に正確な多くのボディ・メソッド(テンソル・ネットワーク)を探索し、空間的に離れた非相互作用量子系の進化を伝播する環境力学をどのように推し進めるかを探求する。 本研究では, 環境に散逸するエネルギーを遠隔で収穫し, 過渡的な励起・反応性状態を生成することを実証し, また, 系の励起によって引き起こされる再編成が, 「機能」量子系の「ダウンストリーム」運動を質的かつ可逆的に変化させる可能性を明らかにする。 完全なシステム環境波動関数へのアクセスにより、これらの現象の基礎となる顕微鏡プロセスが解明され、エネルギー効率のよい量子デバイスにどのように活用できるかの新しい知見が得られた。

Nanodevices exploiting quantum effects are critically important elements of future quantum technologies (QT), but their real-world performance is strongly limited by decoherence arising from local `environmental' interactions. Compounding this, as devices become more complex, i.e. contain multiple functional units, the `local' environments begin to overlap, creating the possibility of environmentally mediated decoherence phenomena on new time-and-length scales. Such complex and inherently non-Markovian dynamics could present a challenge for scaling up QT, but -- on the other hand -- the ability of environments to transfer `signals' and energy might also enable sophisticated spatiotemporal coordination of inter-component processes, as is suggested to happen in biological nanomachines, like enzymes and photosynthetic proteins. Exploiting numerically exact many body methods (tensor networks) we study a fully quantum model that allows us to explore how propagating environmental dynamics can instigate and direct the evolution of spatially remote, non-interacting quantum systems. We demonstrate how energy dissipated into the environment can be remotely harvested to create transient excited/reactive states, and also identify how reorganisation triggered by system excitation can qualitatively and reversibly alter the `downstream' kinetics of a `functional' quantum system. With access to complete system-environment wave functions, we elucidate the microscopic processes underlying these phenomena, providing new insight into how they could be exploited for energy efficient quantum devices.
翻訳日:2024-01-18 22:29:24 公開日:2024-01-17
# 信頼できるAIに対するDempster-Shaferアプローチと胎児脳MRI領域への応用

A Dempster-Shafer approach to trustworthy AI with application to fetal brain MRI segmentation ( http://arxiv.org/abs/2204.02779v4 )

ライセンス: Link先を確認
Lucas Fidon, Michael Aertsen, Florian Kofler, Andrea Bink, Anna L. David, Thomas Deprest, Doaa Emam, Fr\'ed\'eric Guffens, Andr\'as Jakab, Gregor Kasprian, Patric Kienast, Andrew Melbourne, Bjoern Menze, Nada Mufti, Ivana Pogledic, Daniela Prayer, Marlene Stuempflen, Esther Van Elslander, S\'ebastien Ourselin, Jan Deprest, Tom Vercauteren(参考訳) 医療画像セグメンテーションのための深層学習モデルは、専門家の知識に反するラベル付けエラーを伴って、トレーニング画像と異なるセンターで取得された病理ケースや画像に対して予期せず、驚くほど失敗する可能性がある。 このような誤りは、医用画像分割のための深層学習モデルの信頼性を損なう。 このような障害の検出と修正のメカニズムは、この技術を診療所へ安全に翻訳するために不可欠であり、人工知能(AI)に関する将来の規制の要件である可能性が高い。 本研究では,Dempster-Shafer理論に基づくフォールバック手法とフェールセーフ機構を用いて,任意のバックボーンAIシステムを拡張可能な信頼性の高いAI理論フレームワークと実用的なシステムを提案する。 私たちのアプローチは、信頼できるAIの実用的な定義に依存しています。 我々の手法は、専門家の知識に反し、それらのボクセルのフォールバックに依存するバックボーンAIによって予測されるボクセルレベルのラベルを自動的に破棄する。 今回提案した信頼できるAIアプローチが,13中心の540個の手動3D T2w MRIからなる胎児MRIの最大の注釈データセットに対して有効であることを示す。 我々の信頼できるAI手法は、様々なセンターで取得された胎児脳MRIと、様々な脳異常を持つ胎児に対する最先端のバックボーンAIの堅牢性を改善する。

Deep learning models for medical image segmentation can fail unexpectedly and spectacularly for pathological cases and images acquired at different centers than training images, with labeling errors that violate expert knowledge. Such errors undermine the trustworthiness of deep learning models for medical image segmentation. Mechanisms for detecting and correcting such failures are essential for safely translating this technology into clinics and are likely to be a requirement of future regulations on artificial intelligence (AI). In this work, we propose a trustworthy AI theoretical framework and a practical system that can augment any backbone AI system using a fallback method and a fail-safe mechanism based on Dempster-Shafer theory. Our approach relies on an actionable definition of trustworthy AI. Our method automatically discards the voxel-level labeling predicted by the backbone AI that violate expert knowledge and relies on a fallback for those voxels. We demonstrate the effectiveness of the proposed trustworthy AI approach on the largest reported annotated dataset of fetal MRI consisting of 540 manually annotated fetal brain 3D T2w MRIs from 13 centers. Our trustworthy AI method improves the robustness of a state-of-the-art backbone AI for fetal brain MRIs acquired across various centers and for fetuses with various brain abnormalities.
翻訳日:2024-01-18 22:27:41 公開日:2024-01-17
# 連続時間量子ウォークによる多点空間探索

Multimarked Spatial Search by Continuous-Time Quantum Walk ( http://arxiv.org/abs/2203.14384v3 )

ライセンス: Link先を確認
Pedro H. G. Lug\~ao, Renato Portugal, Mohamed Sabri, Hajime Tanaka(参考訳) 量子ウォークに基づく空間探索問題は、マークされた頂点を持つグラフ上の量子ウォークを用いてマークされた頂点を見つけることを目的としている。 本稿では,任意のグラフ上での連続時間量子ウォークによる空間探索の計算量を決定するためのフレームワークについて,最適な実行時間とアルゴリズムの成功確率を求めるためのレシピを提供する。 量子ウォークは、マークされた頂点の存在によって修正されたグラフの隣接行列に由来するハミルトニアンによって駆動される。 我々のフレームワークの成功は、隣接行列の固有値と固有ベクトルの知識に依存する。 その後、ハミルトニアンのスペクトルは実対称行列の行列式 $m$ の根から得られ、その次元はマークされた頂点の数に依存する。 固有ベクトルは、カーネル $m$ に基づいて決定される。 ジョンソングラフ上の空間探索問題を固定された直径と2つのマークされた頂点で解くことにより,フレームワークの各ステップを示す。 我々の計算では、最適な実行時間は 1+o(1)$ の漸近確率を持つ $o(\sqrt{n})$ であり、ここで $n$ は頂点の数である。

The quantum-walk-based spatial search problem aims to find a marked vertex using a quantum walk on a graph with marked vertices. We describe a framework for determining the computational complexity of spatial search by continuous-time quantum walk on arbitrary graphs by providing a recipe for finding the optimal running time and the success probability of the algorithm. The quantum walk is driven by a Hamiltonian derived from the adjacency matrix of the graph modified by the presence of the marked vertices. The success of our framework depends on the knowledge of the eigenvalues and eigenvectors of the adjacency matrix. The spectrum of the Hamiltonian is subsequently obtained from the roots of the determinant of a real symmetric matrix $M$, the dimensions of which depend on the number of marked vertices. The eigenvectors are determined from a basis of the kernel of $M$. We show each step of the framework by solving the spatial searching problem on the Johnson graphs with a fixed diameter and with two marked vertices. Our calculations show that the optimal running time is $O(\sqrt{N})$ with an asymptotic probability of $1+o(1)$, where $N$ is the number of vertices.
翻訳日:2024-01-18 22:27:19 公開日:2024-01-17
# 量子非局所性は光よりも速い相互作用の結果か?

Can Quantum Nonlocality be the Consequence of Faster-Than-Light Interactions? ( http://arxiv.org/abs/2201.06420v4 )

ライセンス: Link先を確認
Luiz Carlos Ryff(参考訳) ベルとボームは、アインシュタイン-ポドルスキー-ローゼン(epr)相関は光速(ftl)相互作用によって仲介されると主張した。 以前の論文では、ローレンツ対称性の分解を通して)このFTL仮説から導かれる因果パラドックスを避ける方法が提案されている。 ローレンツ変換は依然として有効であるが、EPR相関の場合、アクティブなローレンツ変換とパッシブなローレンツ変換の間には等価性はない。 この仮定のいくつかの直観的な結果がここで概説されている。

It has been advocated by Bell and Bohm that the Einstein-Podolsky-Rosen (EPR) correlations are mediated through faster-than-light (FTL) interactions. In a previous paper a way to avoid causal paradoxes derived from this FTL hypothesis (via the breakdown of Lorentz symmetry) has been suggested. Lorentz transformations would remain valid, but there would be no equivalence between active and passive Lorentz transformations in the case of EPR correlations. Some counterintuitive consequences of this assumption are briefly examined here.
翻訳日:2024-01-18 22:26:59 公開日:2024-01-17
# 3dmmと3dランドマークの正確な3d顔形状のための相乗効果

Synergy between 3DMM and 3D Landmarks for Accurate 3D Facial Geometry ( http://arxiv.org/abs/2110.09772v3 )

ライセンス: Link先を確認
Cho-Ying Wu, Qiangeng Xu, Ulrich Neumann(参考訳) 本研究では,3次元形状モデル(3dmm)と3次元顔ランドマークの相乗過程から学習し,3次元アライメント,顔配向,3次元顔モデリングなど,完全な3次元顔形状を予測する。 我々のシナジープロセスは、3DMMパラメータと3Dランドマークの表現サイクルを利用する。 3DMMパラメータで構築されたフェイスメッシュから3Dランドマークを抽出し、洗練することができる。 次に、表現方向を反転させ、スパース3Dランドマークからの3DMMパラメータの予測が情報フローを改善することを示す。 3Dランドマークと3DMMパラメータの関係を利用して、協調的により良いパフォーマンスに寄与するシナジープロセスを作成する。 顔形状予測の完全なタスクに対する我々の貢献を広く検証し、様々なシナリオにおいてこれらのタスクに対する優れた、堅牢なパフォーマンスを示す。 特に,高速で正確な顔形状予測を実現するために,単純で広く利用されているネットワーク操作のみを採用する。 コードとデータ: https://choyingw.github.io/works/synergynet/

This work studies learning from a synergy process of 3D Morphable Models (3DMM) and 3D facial landmarks to predict complete 3D facial geometry, including 3D alignment, face orientation, and 3D face modeling. Our synergy process leverages a representation cycle for 3DMM parameters and 3D landmarks. 3D landmarks can be extracted and refined from face meshes built by 3DMM parameters. We next reverse the representation direction and show that predicting 3DMM parameters from sparse 3D landmarks improves the information flow. Together we create a synergy process that utilizes the relation between 3D landmarks and 3DMM parameters, and they collaboratively contribute to better performance. We extensively validate our contribution on full tasks of facial geometry prediction and show our superior and robust performance on these tasks for various scenarios. Particularly, we adopt only simple and widely-used network operations to attain fast and accurate facial geometry prediction. Codes and data: https://choyingw.github.io/works/SynergyNet/
翻訳日:2024-01-18 22:26:16 公開日:2024-01-17
# 退化はok:不明瞭な分布をもつネットワーク収益管理に対する対数的後悔

Degeneracy is OK: Logarithmic Regret for Network Revenue Management with Indiscrete Distributions ( http://arxiv.org/abs/2210.07996v3 )

ライセンス: Link先を確認
Jiashuo Jiang, Will Ma and Jiawei Zhang(参考訳) 我々は、従来のネットワーク収益管理(NRM)問題について、意思決定を受理/退避し、IIDの到着を$T$で検討する。 各到着は、決定論的リソース消費ベクトルを持つが、ランダムな値が一定間隔にわたって連続的に分布する、有限個の可能なカテゴリに満たさなければならない分布形式を考える。 このモデルの下では, 確率密度が 0 から遠ざかっているという仮定が唯一の(必要)前提として, $o(\log^2 t)$ regret を実現するオンラインアルゴリズムを開発した。 2階成長の仮定を追加して、$O(\log T)$ regretを達成する2番目の結果を得る。 我々の知る限り、これらは『非退化』の仮定を一切必要としない連続的な値を持つNEMモデルにおいて対数レベルの後悔を達成する最初の結果である。 本研究は,新しい手法により,自発的後悔のバウンディング,オフラインアロケーションの‘半流動’緩和,‘二重収束’のバウンドの改善などを実現する。

We study the classical Network Revenue Management (NRM) problem with accept/reject decisions and $T$ IID arrivals. We consider a distributional form where each arrival must fall under a finite number of possible categories, each with a deterministic resource consumption vector, but a random value distributed continuously over an interval. We develop an online algorithm that achieves $O(\log^2 T)$ regret under this model, with the only (necessary) assumption being that the probability densities are bounded away from 0. We derive a second result that achieves $O(\log T)$ regret under an additional assumption of second-order growth. To our knowledge, these are the first results achieving logarithmic-level regret in an NRM model with continuous values that do not require any kind of ``non-degeneracy'' assumptions. Our results are achieved via new techniques including a new method of bounding myopic regret, a ``semi-fluid'' relaxation of the offline allocation, and an improved bound on the ``dual convergence''.
翻訳日:2024-01-18 22:15:41 公開日:2024-01-17
# バックプレッシャと強化学習を用いたリアプノフ関数整合適応型ネットワーク信号制御

Lyapunov Function Consistent Adaptive Network Signal Control with Back Pressure and Reinforcement Learning ( http://arxiv.org/abs/2210.02612v2 )

ライセンス: Link先を確認
Chaolun Ma, Bruce Wang, Zihao Li, Ahmadreza Mahmoudzadeh, Yunlong Zhang(参考訳) 交通信号制御では、フローベース(全体の流れを最適化する)と圧力ベース(混雑の等化と緩和)が一般的であるが、しばしば別々に考慮される。 本研究は, Lyapunov 制御理論を用いた統一フレームワークを導入し, これらの手法についてそれぞれ特定の Lyapunov 関数を定義する。 興味深い結果が得られました。 例えば、よく認識されたバックプレッシャ法は、交差レーン飽和流によって重み付けられた差分キュー長と等しい。 基本的な交通流理論を追加してさらに改善する。 制御システムが安定していることを保証するのではなく、システムは様々なパフォーマンスメトリクスに適応できるべきである。 Lyapunov理論の知見に基づいて,複雑なトラフィックネットワークを効果的に制御するためにDouble Deep Q-Network(DDQN)を用いてエージェントを訓練したReinforcement Learning(RL)ベースのネットワーク信号制御のための報酬関数を設計する。 提案手法は, 純客車流下および貨物を含む異種交通流下において, 従来のRL法とRL法を比較した。 数値実験により,提案手法は,各車両の平均ネットワーク車両待ち時間の観点から,各経路および一般ネットワーク状況の異なる交通シナリオにおける代替制御方法よりも優れた性能を示すことが示された。

In traffic signal control, flow-based (optimizing the overall flow) and pressure-based methods (equalizing and alleviating congestion) are commonly used but often considered separately. This study introduces a unified framework using Lyapunov control theory, defining specific Lyapunov functions respectively for these methods. We have found interesting results. For example, the well-recognized back-pressure method is equal to differential queue lengths weighted by intersection lane saturation flows. We further improve it by adding basic traffic flow theory. Rather than ensuring that the control system be stable, the system should be also capable of adaptive to various performance metrics. Building on insights from Lyapunov theory, this study designs a reward function for the Reinforcement Learning (RL)-based network signal control, whose agent is trained with Double Deep Q-Network (DDQN) for effective control over complex traffic networks. The proposed algorithm is compared with several traditional and RL-based methods under pure passenger car flow and heterogenous traffic flow including freight, respectively. The numerical tests demonstrate that the proposed method outperforms the alternative control methods across different traffic scenarios, covering corridor and general network situations each with varying traffic demands, in terms of the average network vehicle waiting time per vehicle.
翻訳日:2024-01-18 22:14:29 公開日:2024-01-17
# ハイブリッド脳(Human Brain)とAI(AI)

In the realm of hybrid Brain: Human Brain and AI ( http://arxiv.org/abs/2210.01461v4 )

ライセンス: Link先を確認
Hoda Fares, Margherita Ronchini, Milad Zamani, Hooman Farkhani, and Farshad Moradi(参考訳) 近年の神経科学と工学の発展により、脳の信号を記録してデコードすることが可能になった。 また、脳活動の調節や影響のために刺激の方法が増えている。 現在の脳-コンピュータインターフェース(BCI)技術は、主に治療結果に基づいており、その効率を重度運動障害患者の補助的・リハビリテーション技術として既に実証している。 近年,脳信号のデコードには人工知能(AI)と機械学習(ML)技術が用いられている。 この進歩を超えて、aiとadvanced bcisを埋め込み可能な神経工学の形で組み合わせることで、神経・精神疾患の診断、予測、治療の新たな可能性をもたらす。 この文脈では、脳にインスパイアされたAI技術とニューロモルフィックハードウェアを用いて脳からのデータを処理する、クローズドループ、インテリジェント、低消費電力、小型のニューラルインターフェースの開発を想定する。 これはBrain Inspired Brain Computer Interfaces (BI-BCI)と呼ばれる。 このような神経インターフェースは、より深い脳領域へのアクセスを提供し、脳の機能や作業メカニズムをよりよく理解し、BCIの操作安定性とシステムの効率を向上させる。 一方、spyking neural networks (snns)で表現される脳インスパイアされたaiアルゴリズムは、bciシステムのマルチモーダル神経信号の解釈に使用される。 一方、snsが生体ニューロンの豊富なダイナミクスを捉え、時間、周波数、位相といった異なる情報次元を表現および統合する能力から、脳内の複雑な情報処理をモデル化し、エンコードし、ユーザにフィードバックを提供するのに使用される。 本稿では、脳と相互作用する様々な方法の概要、将来の応用、およびaiとbcisの融合について述べる。

With the recent developments in neuroscience and engineering, it is now possible to record brain signals and decode them. Also, a growing number of stimulation methods have emerged to modulate and influence brain activity. Current brain-computer interface (BCI) technology is mainly on therapeutic outcomes, it already demonstrated its efficiency as assistive and rehabilitative technology for patients with severe motor impairments. Recently, artificial intelligence (AI) and machine learning (ML) technologies have been used to decode brain signals. Beyond this progress, combining AI with advanced BCIs in the form of implantable neurotechnologies grants new possibilities for the diagnosis, prediction, and treatment of neurological and psychiatric disorders. In this context, we envision the development of closed loop, intelligent, low-power, and miniaturized neural interfaces that will use brain inspired AI techniques with neuromorphic hardware to process the data from the brain. This will be referred to as Brain Inspired Brain Computer Interfaces (BI-BCIs). Such neural interfaces would offer access to deeper brain regions and better understanding for brain's functions and working mechanism, which improves BCIs operative stability and system's efficiency. On one hand, brain inspired AI algorithms represented by spiking neural networks (SNNs) would be used to interpret the multimodal neural signals in the BCI system. On the other hand, due to the ability of SNNs to capture rich dynamics of biological neurons and to represent and integrate different information dimensions such as time, frequency, and phase, it would be used to model and encode complex information processing in the brain and to provide feedback to the users. This paper provides an overview of the different methods to interface with the brain, presents future applications and discusses the merger of AI and BCIs.
翻訳日:2024-01-18 22:14:07 公開日:2024-01-17
# ノイズおよび高密度スピン系の高コヒーレント量子サブシステムの創発

Emergence of highly coherent quantum subsystems of a noisy and dense spin system ( http://arxiv.org/abs/2210.01024v2 )

ライセンス: Link先を確認
A.Beckert, M.Grimm, N.Wili, R.Tschaggelar, G.Jeschke, G.Matmon, S.Gerber, M.M\"uller, G.Aeppli(参考訳) 量子センサと量子ビットは通常2レベルシステム(TLS)であり、古典ビットの量子アナログはバイナリ値 '0' または '1' を仮定する。 それらは実環境における'0' と '1' の量子重ね合わせに持続できる程度に有用である。 しかし、そのようなTLSは実際の材料や装置では決して存在せず、他の自由度への結合は重畳状態の寿命(デコヒーレンス時間と呼ばれる)を制限する。 デコヒーレンスは、励起ホッピングと変動する電磁場という2つの主要な経路によって起こる。 一般的な緩和戦略は、材料改良、外部摂動に対する第1次ではなく第2次へと結合するクロック状態の活用、核スピンからのノイズを最小限に抑えるために選択された同位体から得られる極端に希釈された純粋な物質による相互作用の低減に基づく。 我々は,高密度TLSネットワークにおいて,ホッピングから揺らぎ支配への相互作用を活用でき,デコヒーレンス時間を約3桁増加させることができることを示した。 希薄な希土類絶縁体LiY1-xTbxF4において、Tbイオンは30GHzの分割と容易に実装されたクロック状態によって特徴付けられるTLSを実現する。 双極子相互作用はコヒーレントで局所化されたtbイオン対につながり、量子力学的なリング交換相互作用が変動し、周囲でほぼ局所化されたtbスピンの遅いダイナミクスを感知する。 ホッピングとゆらぎの規則は、Rabiの発振と、古典的な「エラー修正」マイクロ波パルスシーケンスの強い影響によって著しく区別される。 相互作用するtlsの密集した無秩序で騒がしいネットワークの中で、デコヒーレンス機構を再生しながら、量子センサーや量子ビットの探索空間を広げて、密度の高い無秩序な物質のクラスターを含むようにし、ローカライズ効果を探求する。

Quantum sensors and qubits are usually two-level systems (TLS), the quantum analogs of classical bits which assume binary values '0' or '1'. They are useful to the extent to which they can persist in quantum superpositions of '0' and '1' in real environments. However, such TLS are never alone in real materials and devices, and couplings to other degrees of freedom limit the lifetimes - called decoherence times - of the superposition states. Decoherence occurs via two major routes - excitation hopping and fluctuating electromagnetic fields. Common mitigation strategies are based on material improvements, exploitation of clock states which couple only to second rather than first order to external perturbations, and reduction of interactions via extreme dilution of pure materials made from isotopes selected to minimize noise from nuclear spins. We demonstrate that for a dense TLS network in a noisy nuclear spin bath, we can take advantage of interactions to pass from hopping to fluctuation dominance, increasing decoherence times by almost three orders of magnitude. In the dilute rare-earth insulator LiY1-xTbxF4, Tb ions realize TLS characterized by a 30GHz splitting and readily implemented clock states. Dipolar interactions lead to coherent, localized pairs of Tb ions, that decohere due to fluctuating quantum mechanical ring-exchange interaction, sensing the slow dynamics of the surrounding, nearly localized Tb spins. The hopping and fluctuation regimes are sharply distinguished by their Rabi oscillations and the invisible vs. strong effect of classic 'error correcting' microwave pulse sequences. Laying open the decoherence mechanisms at play in a dense, disordered and noisy network of interacting TLS, our work expands the search space for quantum sensors and qubits to include clusters in dense, disordered materials, that can be explored for localization effects.
翻訳日:2024-01-18 22:13:36 公開日:2024-01-17
# 固定分布最適化重みによるロバストおよび大負荷DNN透かし

Robust and Large-Payload DNN Watermarking via Fixed, Distribution-Optimized, Weights ( http://arxiv.org/abs/2208.10973v3 )

ライセンス: Link先を確認
Benedetta Tondi, Andrea Costanzo, Mauro Barni(参考訳) 効果的なマルチビット透かしアルゴリズムの設計は、透かしトレードオフ三角形を形成する3つの基本的な要件、すなわち、ネットワーク修正、ペイロード、および非邪魔性の間の良いトレードオフを見つけ、透かしネットワークの性能に最小限の影響を確実にする。 本稿では,まずDNNの場合の透かしトレードオフ三角形の性質を再検討し,その特徴を生かして,非常に大きなペイロードとネットワーク修正に対する堅牢性を実現するためのホワイトボックス・マルチビット透かし手法を提案する。 提案システムでは, 透かしを収容する重量をトレーニング前に設定し, 目標ペイロードを収容し, ネットワーク修正を継続する程度に振幅が大きくなることを確認し, トレーニング過程を通じて変化しないようにした。 透かしを運ぶ重量の分布は理論的に最適化され、透かしの秘密性が確保され、透かしのないものと区別できないことが保証される。 提案手法は, ネットワーク修正に対する堅牢性, 再訓練, 転送学習などのネットワーク精度に大きな影響を与えず, かつ, 最下位のロバスト性を実現する技術手法の到達範囲外なペイロードを確保することができる。

The design of an effective multi-bit watermarking algorithm hinges upon finding a good trade-off between the three fundamental requirements forming the watermarking trade-off triangle, namely, robustness against network modifications, payload, and unobtrusiveness, ensuring minimal impact on the performance of the watermarked network. In this paper, we first revisit the nature of the watermarking trade-off triangle for the DNN case, then we exploit our findings to propose a white-box, multi-bit watermarking method achieving very large payload and strong robustness against network modification. In the proposed system, the weights hosting the watermark are set prior to training, making sure that their amplitude is large enough to bear the target payload and survive network modifications, notably retraining, and are left unchanged throughout the training process. The distribution of the weights carrying the watermark is theoretically optimised to ensure the secrecy of the watermark and make sure that the watermarked weights are indistinguishable from the non-watermarked ones. The proposed method can achieve outstanding performance, with no significant impact on network accuracy, including robustness against network modifications, retraining and transfer learning, while ensuring a payload which is out of reach of state of the art methods achieving a lower - or at most comparable - robustness.
翻訳日:2024-01-18 22:12:35 公開日:2024-01-17
# 信念のダイナミクス--連続的な監視と複雑なシステムの可視化

The dynamics of belief: continuously monitoring and visualising complex systems ( http://arxiv.org/abs/2208.05764v2 )

ライセンス: Link先を確認
Edwin J. Beggs and John V. Tucker(参考訳) 人間のコンテキストにおけるAIの台頭は、自動化システムに対する新たな要求を透明で説明可能なものにします。 複雑な人間の文脈におけるデジタルシステムを考えるための理論的枠組みと、その行動を説明する問題を開発するために、このような説明責任に関連する擬人化的な考え方や原理について検討する。 構造的には、システムはモジュラーコンポーネントと階層コンポーネントで構成されており、モードとモード遷移の概念を用いて新しいシステムモデルを抽象化する。 モードは、独自の目的、データ監視、アルゴリズムを備えた、システムの独立したコンポーネントである。 他のモードへの遷移を含むモードの挙動は、それぞれのモードの監視データをその目的とアルゴリズムに照らして解釈する関数によって決定される。 これらの信念関数は,高次元幾何学空間における軌跡としての評価を可視化することで,システムの振る舞いを説明する上でどのように役立つかを示す。 これらの概念は抽象的および具体的単純複体によって数学的に定式化される。 設計ヒューリスティックスのためのフレームワーク、モードに基づく一般的なシステム理論、幾何学的視覚化の3つの手法を提供し、これらを3種類の人間中心システムに適用する。

The rise of AI in human contexts places new demands on automated systems to be transparent and explainable. We examine some anthropomorphic ideas and principles relevant to such accountablity in order to develop a theoretical framework for thinking about digital systems in complex human contexts and the problem of explaining their behaviour. Structurally, systems are made of modular and hierachical components, which we abstract in a new system model using notions of modes and mode transitions. A mode is an independent component of the system with its own objectives, monitoring data, and algorithms. The behaviour of a mode, including its transitions to other modes, is determined by functions that interpret each mode's monitoring data in the light of its objectives and algorithms. We show how these belief functions can help explain system behaviour by visualising their evaluation as trajectories in higher-dimensional geometric spaces. These ideas are formalised mathematically by abstract and concrete simplicial complexes. We offer three techniques: a framework for design heuristics, a general system theory based on modes, and a geometric visualisation, and apply them in three types of human-centred systems.
翻訳日:2024-01-18 22:12:09 公開日:2024-01-17
# 共分散行列からの結合絡み合い次元

Bounding entanglement dimensionality from the covariance matrix ( http://arxiv.org/abs/2208.04909v4 )

ライセンス: Link先を確認
Shuheng Liu, Matteo Fadel, Qiongyi He, Marcus Huber and Giuseppe Vitagliano(参考訳) 高次元の絡み合いは、量子情報処理において重要な資源であり、量子システムをシミュレーションするための主要な障害でもある。 その認証はしばしば困難であり、実験の最も広く使われている方法は、高度に絡み合った状態に対する忠実度の測定に基づいている。 ここでは、集合可観測物の共分散を、よく知られた共分散行列基準(CMC)[1] において考慮し、二部系のシュミット数を決定するための CMC の一般化を示す。 これはコールド原子のような多体系において特に有利であり、実際的な測定のセットは非常に限られており、集合作用素の分散のみを推定できる。 結果の実際的妥当性を示すために,忠実性に基づく証人と同様の情報を必要とする単純なシュミット数基準を導出するが,より広範な状態を検出することができる。 また、スピン共分散に基づくパラダイム的基準も検討し、冷間原子系の高次元絡みの実験的検出に非常に役立ちます。 我々は,実験結果の多粒子アンサンブルへの適用性や今後の課題について論じる。

High-dimensional entanglement has been identified as an important resource in quantum information processing, and also as a main obstacle for simulating quantum systems. Its certification is often difficult, and most widely used methods for experiments are based on fidelity measurements with respect to highly entangled states. Here, instead, we consider covariances of collective observables, as in the well-known Covariance Matrix Criterion (CMC)[1] and present a generalization of the CMC for determining the Schmidt number of a bipartite system. This is potentially particularly advantageous in many-body systems, such as cold atoms, where the set of practical measurements is very limited and only variances of collective operators can typically be estimated. To show the practical relevance of our results, we derive simpler Schmidt-number criteria that require similar information as the fidelity-based witnesses, yet can detect a wider set of states. We also consider paradigmatic criteria based on spin covariances, which would be very helpful for experimental detection of high-dimensional entanglement in cold atom systems. We conclude by discussing the applicability of our results to a multiparticle ensemble and some open questions for future work.
翻訳日:2024-01-18 22:11:51 公開日:2024-01-17
# 非漸近性レジームにおける適応量子チャネル識別の並列化

Parallelization of Adaptive Quantum Channel Discrimination in the Non-Asymptotic Regime ( http://arxiv.org/abs/2206.08350v2 )

ライセンス: Link先を確認
Bjarne Bergh, Nilanjana Datta, Robert Salzmann, Mark M. Wilde(参考訳) 有限個のチャネルを用いた並列かつ適応的な量子チャネル識別戦略の性能について検討する。 最近、I型エラー確率が漸近的に消失する非対称的な設定において、適応戦略は並列的戦略よりも漸近的に強力でないことが示されている。 この結果は、任意の適応戦略に対して並列戦略を明示的に構築し、その性能の差をチャネル使用当たりのタイプIIエラー確率の減衰率の観点から測定することで、有限個のチャネル使用による漸近的でない状態にまで拡張する。 さらに,全ての並列戦略は,チャネル利用数において時間的多項式よりも最適化可能であること,したがって,一般適応戦略の性能に対して多時間計算可能な漸近的に密接な上界を得るためにも利用できることを示した。

We investigate the performance of parallel and adaptive quantum channel discrimination strategies for a finite number of channel uses. It has recently been shown that, in the asymmetric setting with asymptotically vanishing type I error probability, adaptive strategies are asymptotically not more powerful than parallel ones. We extend this result to the non-asymptotic regime with finitely many channel uses, by explicitly constructing a parallel strategy for any given adaptive strategy, and bounding the difference in their performances, measured in terms of the decay rate of the type II error probability per channel use. We further show that all parallel strategies can be optimized over in time polynomial in the number of channel uses, and hence our result can also be used to obtain a poly-time-computable asymptotically tight upper bound on the performance of general adaptive strategies.
翻訳日:2024-01-18 22:10:53 公開日:2024-01-17
# リモートセンシング画像変化検出のための3次元CNNによる隣接レベルクロスフュージョン

Adjacent-Level Feature Cross-Fusion With 3-D CNN for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2302.05109v2 )

ライセンス: Link先を確認
Yuanxin Ye, Mengmeng Wang, Liang Zhou, Guangyang Lei, Jianwei Fan, and Yao Qin(参考訳) 近年,リモートセンシング画像を用いた深層学習に基づく変化検出(CD)が注目されている。 しかし、CDの精度を向上させるために、両時間画像の深い特徴を効果的に抽出し、融合する方法は依然として課題である。 そこで本論文では, AFCF3D-Net と呼ばれる3次元畳み込みを伴う隣接レベル特徴融合ネットワークを提案する。 まず,3次元畳み込みの内的融合特性を用いて,両時間画像から特徴情報を同時に抽出・融合する特徴融合法を設計する。 そこで我々は,低レベル特徴と高レベル特徴のセマンティックギャップを軽減するために,隣接レベル特徴相互融合(AFCF)モジュールを提案し,隣接レベル間の相補的特徴情報を集約する。 さらに,実規模スキップ接続戦略を導入して,画素単位での予測能力と,変更対象のコンパクト性を向上させる。 最後に、提案されたAFCF3D-Netは、Wuhan building dataset(WHU-CD)、LEVIR building dataset(LEVIR-CD)、Sun Yat-Sen University dataset(SYSU-CD)の3つの挑戦的なリモートセンシングCDデータセットで検証されている。 定量的解析と定性比較の結果,提案したAFCF3D-Netは,他の最先端手法と比較して優れた性能を示すことが示された。 この作業のコードはhttps://github.com/wm-Githuber/AFCF3D-Netで公開されている。

Deep learning-based change detection (CD) using remote sensing images has received increasing attention in recent years. However, how to effectively extract and fuse the deep features of bi-temporal images for improving the accuracy of CD is still a challenge. To address that, a novel adjacent-level feature fusion network with 3D convolution (named AFCF3D-Net) is proposed in this article. First, through the inner fusion property of 3D convolution, we design a new feature fusion way that can simultaneously extract and fuse the feature information from bi-temporal images. Then, to alleviate the semantic gap between low-level features and high-level features, we propose an adjacent-level feature cross-fusion (AFCF) module to aggregate complementary feature information between the adjacent levels. Furthermore, the full-scale skip connection strategy is introduced to improve the capability of pixel-wise prediction and the compactness of changed objects in the results. Finally, the proposed AFCF3D-Net has been validated on the three challenging remote sensing CD datasets: the Wuhan building dataset (WHU-CD), the LEVIR building dataset (LEVIR-CD), and the Sun Yat-Sen University dataset (SYSU-CD). The results of quantitative analysis and qualitative comparison demonstrate that the proposed AFCF3D-Net achieves better performance compared to other state-of-the-art methods. The code for this work is available at https://github.com/wm-Githuber/AFCF3D-Net.
翻訳日:2024-01-18 22:04:41 公開日:2024-01-17
# クラスタリングによる画像処理DNNの安全性解析支援

Supporting Safety Analysis of Image-processing DNNs through Clustering-based Approaches ( http://arxiv.org/abs/2301.13506v3 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore and Lionel Briand(参考訳) 安全クリティカルな文脈におけるディープニューラルネットワーク(dnn)の採用は、その結果を説明する効果的な手段の欠如、特に誤用によってしばしば妨げられる。 先程の研究では,DNN障害を自動的に特徴付けるためのホワイトボックスアプローチ (HUDD) とブラックボックスアプローチ (SAFE) を提案した。 どちらも、DNNの障害につながる可能性のある大きなイメージから、類似したイメージのクラスタを識別する。 しかし、HUDDとSAFEの分析パイプラインは、一般的なプラクティスに従って特定の方法でインスタンス化され、他のパイプラインの分析を将来の作業に延期した。 本稿では,DNN故障の根本原因分析のための99種類のパイプラインの実験的評価について報告する。 それらは転送学習、オートエンコーダ、ニューロンの関連性のヒートマップ、次元削減技術、および異なるクラスタリングアルゴリズムを組み合わせる。 この結果から,最高のパイプラインは転送学習,DBSCAN,UMAPの組み合わせであることが示唆された。 クラスタは、ほぼ同じ障害シナリオの画像のみをキャプチャし、ルート原因分析を容易にする。 さらに、障害の根本原因ごとに異なるクラスタを生成し、エンジニアがすべての安全でないシナリオを検出できるようにする。 興味深いことに、これらの結果は、失敗する画像のごく一部でのみ観察される障害シナリオにも当てはまる。

The adoption of deep neural networks (DNNs) in safety-critical contexts is often prevented by the lack of effective means to explain their results, especially when they are erroneous. In our previous work, we proposed a white-box approach (HUDD) and a black-box approach (SAFE) to automatically characterize DNN failures. They both identify clusters of similar images from a potentially large set of images leading to DNN failures. However, the analysis pipelines for HUDD and SAFE were instantiated in specific ways according to common practices, deferring the analysis of other pipelines to future work. In this paper, we report on an empirical evaluation of 99 different pipelines for root cause analysis of DNN failures. They combine transfer learning, autoencoders, heatmaps of neuron relevance, dimensionality reduction techniques, and different clustering algorithms. Our results show that the best pipeline combines transfer learning, DBSCAN, and UMAP. It leads to clusters almost exclusively capturing images of the same failure scenario, thus facilitating root cause analysis. Further, it generates distinct clusters for each root cause of failure, thus enabling engineers to detect all the unsafe scenarios. Interestingly, these results hold even for failure scenarios that are only observed in a small percentage of the failing images.
翻訳日:2024-01-18 22:04:11 公開日:2024-01-17
# オンライン損失関数学習

Online Loss Function Learning ( http://arxiv.org/abs/2301.13247v2 )

ライセンス: Link先を確認
Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhang(参考訳) ロス関数学習は、機械学習モデルの損失関数を設計する重要なタスクを自動化することを目的とした、新しいメタ学習パラダイムである。 既存の損失関数学習技術は有望な結果を示し、しばしばモデルのトレーニング力学と最終的な推論性能を改善している。 しかしながら、これらのテクニックの重要な制限は、損失関数がオフラインでメタ学習されるという点であり、メタ目的はトレーニングの最初の数ステップのみを考慮し、深層ニューラルネットワークのトレーニングで一般的に使用されるものよりもはるかに短い時間軸である。 これにより、トレーニング開始時にうまく機能するが、トレーニング終了時に性能が低下する損失関数に対する大きな偏りが生じる。 この問題に対処するために,ベースモデルパラメータの更新毎にオンラインに損失関数を適応的に更新する新しい損失関数学習手法を提案する。 実験の結果,提案手法は多種多様なニューラルネットワークアーキテクチャとデータセット上で,クロスエントロピー損失とオフライン損失関数学習技術より一貫して優れていた。

Loss function learning is a new meta-learning paradigm that aims to automate the essential task of designing a loss function for a machine learning model. Existing techniques for loss function learning have shown promising results, often improving a model's training dynamics and final inference performance. However, a significant limitation of these techniques is that the loss functions are meta-learned in an offline fashion, where the meta-objective only considers the very first few steps of training, which is a significantly shorter time horizon than the one typically used for training deep neural networks. This causes significant bias towards loss functions that perform well at the very start of training but perform poorly at the end of training. To address this issue we propose a new loss function learning technique for adaptively updating the loss function online after each update to the base model parameters. The experimental results show that our proposed method consistently outperforms the cross-entropy loss and offline loss function learning techniques on a diverse range of neural network architectures and datasets.
翻訳日:2024-01-18 22:03:50 公開日:2024-01-17
# 蒸発するブラックホールのホログラフィーマップ

The Holographic Map of an Evaporating Black Hole ( http://arxiv.org/abs/2301.08362v2 )

ライセンス: Link先を確認
Zsolt Gyongyosi, Timothy J. Hollowood, S. Prem Kumar, Andrea Legramandi, Neil Talwar(参考訳) 我々は、蒸発するブラックホールとそのホーキング放射の半古典的な状態から、ブラックホールのスクランブルダイナミクスを反映した微視的モデルまで、ホログラフィックマップを構築する。 顕微鏡モデルは、ブラックホールの進化のスクランブルタイムステップを実装するランダムなユニタリのネスト配列によって与えられる。 他のモデルと異なり、ホーキング放射のエネルギー保存と熱的性質が考慮されている。 QES式は、放射線とブラックホールの複数の部分集合のエントロピーに従うことを示す。 さらに,ホーキングパートナーのサブセットに対するユニタリの作用を含む適切なトレースノルムと量子フィデリティを計算することで,絡み合うくさびの再構成が証明できることを示した。 ホーキングのパートナーが島にいる場合、そのユニタリは放射のユニタリによって再構築することができる。 また、インフォールディングシステムに作用するユニタリを、同様の設定と分析で再構築する。

We construct a holographic map that takes the semi-classical state of an evaporating black hole and its Hawking radiation to a microscopic model that reflects the scrambling dynamics of the black hole. The microscopic model is given by a nested sequence of random unitaries, each one implementing a scrambling time step of the black hole evolution. Differently from other models, energy conservation and the thermal nature of the Hawking radiation are taken into account. We show that the QES formula follows for the entropy of multiple subsets of the radiation and black hole. We further show that a version of entanglement wedge reconstruction can be proved by computing suitable trace norms and quantum fidelities involving the action of a unitary on a subset of Hawking partners. If the Hawking partner is in an island, its unitary can be reconstructed by a unitary on the radiation. We also adopt a similar setup and analyse reconstruction of unitaries acting on an infalling system.
翻訳日:2024-01-18 22:03:34 公開日:2024-01-17
# スロー光と捕捉寒冷原子を接合するロバストなハーフw1フォトニック結晶導波路の系統設計

Systematic design of a robust half-W1 photonic crystal waveguide for interfacing slow light and trapped cold atoms ( http://arxiv.org/abs/2301.04675v2 )

ライセンス: Link先を確認
Adrien Bouscal, Malik Kemiche, Sukanya Mahapatra, Nikos Fayard, J\'er\'emy Berroir, Tridib Ray, Jean-Jacques Greffet, Fabrice Raineri, Ariel Levenson, Kamel Bencheikh, Christophe Sauvan, Alban Urvoy, Julien Laurat(参考訳) ナノスケールの導波路において、閉じ込められたコールド原子と誘導光に面した新しいプラットフォームは、量子非線形光学および量子シミュレーションへの応用を含む、光と原子の強い結合状態を達成するための有望な経路である。 この新興導波路-QED分野の実験的発展のための強力な課題は、原子輸送の容易な光アクセス、誘導モードによる原子トラップ、および固有のナノファブリケーション不完全性への堅牢性を組み合わせることである。 本稿では,大型インデックスGaInPスラブをベースとして,ルビジウム原子とフォトニック結晶導波路を接合する手法を提案する。 導波管への大きなキラル結合を得ることができ、ガイドモードを用いて構造端から116〜nmの原子に対して2色の双極子トラップを形成することができる。 この最適化されたデバイスは、実験的な制御のレベルを大幅に改善し、atom統合を促進する。

Novel platforms interfacing trapped cold atoms and guided light in nanoscale waveguides are a promising route to achieve a regime of strong coupling between light and atoms in single pass, with applications to quantum non-linear optics and quantum simulation. A strong challenge for the experimental development of this emerging waveguide-QED field of research is to combine facilitated optical access for atom transport, atom trapping via guided modes and robustness to inherent nanofabrication imperfections. In this endeavor, here we propose to interface Rubidium atoms with a photonic-crystal waveguide based on a large-index GaInP slab. With a specifically tailored half-W1 design, we show that a large chiral coupling to the waveguide can be obtained and guided modes can be used to form two-color dipole traps for atoms at 116~nm from the edge of the structure. This optimized device should greatly improve the level of experimental control and facilitate the atom integration.
翻訳日:2024-01-18 22:03:19 公開日:2024-01-17
# 完全かつ高速テンソルネットワーク収縮による量子超越実験の検証

Validating quantum-supremacy experiments with exact and fast tensor network contraction ( http://arxiv.org/abs/2212.04749v2 )

ライセンス: Link先を確認
Yong Liu, Yaojian Chen, Chu Guo, Jiawei Song, Xinmin Shi, Lin Gan, Wenzhao Wu, Wei Wu, Haohuan Fu, Xin Liu, Dexun Chen, Zhifeng Zhao, Guangwen Yang, Jiangang Gao(参考訳) google sycamore [nature \textbf{574}, 505 (2019)]のような量子超越実験は、指数関数的に計算コストが増加するため、古典的検証にとって大きな課題となる。 8.5ドル以内の次世代sunwayスーパーコンピュータを用いて、実験で生成されたビットストリングの正確な振幅を300万計算し、xebの忠実度を0.191\%$(推定値$0.224\%$)を得る。 シミュレーション能力の飛躍は、現在のスーパーコンピュータの ``classical advantage' (von Neumann マシンの固有の ``store-and-compute" 操作モード) を体系的に活用するマルチアンプテンソルネットワーク収縮アルゴリズムと、異種アーキテクチャの計算効率を大幅に向上させる融合テンソルネットワーク収縮アルゴリズムに基づいて構築されている。 本手法は, 量子多体問題, 統計問題, 組合せ最適化問題にも大きな影響を与えている。

The quantum supremacy experiment, such as Google Sycamore [Nature \textbf{574}, 505 (2019)], poses great challenge for classical verification due to the exponentially-increasing compute cost. Using a new-generation Sunway supercomputer within $8.5$ days, we provide a direct verification by computing three million exact amplitudes for the experimentally generated bitstrings, obtaining an XEB fidelity of $0.191\%$ (the estimated value is $0.224\%$). The leap of simulation capability is built on a multiple-amplitude tensor network contraction algorithm which systematically exploits the ``classical advantage" (the inherent ``store-and-compute" operation mode of von Neumann machines) of current supercomputers, and a fused tensor network contraction algorithm which drastically increases the compute efficiency on heterogeneous architectures. Our method has a far-reaching impact in solving quantum many-body problems, statistical problems as well as combinatorial optimization problems.
翻訳日:2024-01-18 22:01:43 公開日:2024-01-17
# 決定ダイアグラムに基づくキャッシングによる支配とサブオプティリティ検出

Decision Diagram-Based Branch-and-Bound with Caching for Dominance and Suboptimality Detection ( http://arxiv.org/abs/2211.13118v4 )

ライセンス: Link先を確認
Vianney Copp\'e, Xavier Gillard, Pierre Schaus(参考訳) 2016年にBergmanらによって導入された決定図に基づく分岐とバウンドのアルゴリズムは、動的プログラミングの定式化によって離散最適化問題を解決するためのフレームワークである。 これは、任意の部分問題に対して下限と上限を提供する一連の有界幅決定ダイアグラムをコンパイルすることで機能する。 最終的には、検索空間のすべての部分がアルゴリズムによって探索または切断されるため、最適性が証明される。 本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。 鍵となる考え方は、検索中にキャッシュされた拡張しきい値に問い合わせることで、同じ動的プログラミング状態に対応するノードの繰り返し拡張を防止することである。 これらのしきい値は、以前に発見された部分解と2021年にギラードらが導入したフィルタリング手法の不等式との間の支配関係に基づいている。 計算実験により、このキャッシング機構によって引き起こされるプルーニングにより、アルゴリズムによって拡張されたノードの数を大幅に削減できることが示された。 これにより、より狭い決定ダイアグラムを使いながら、より少ない時間で難しい最適化問題のベンチマークインスタンスが解決される。

The branch-and-bound algorithm based on decision diagrams introduced by Bergman et al. in 2016 is a framework for solving discrete optimization problems with a dynamic programming formulation. It works by compiling a series of bounded-width decision diagrams that can provide lower and upper bounds for any given subproblem. Eventually, every part of the search space will be either explored or pruned by the algorithm, thus proving optimality. This paper presents new ingredients to speed up the search by exploiting the structure of dynamic programming models. The key idea is to prevent the repeated expansion of nodes corresponding to the same dynamic programming states by querying expansion thresholds cached throughout the search. These thresholds are based on dominance relations between partial solutions previously found and on the pruning inequalities of the filtering techniques introduced by Gillard et al. in 2021. Computational experiments show that the pruning brought by this caching mechanism allows significantly reducing the number of nodes expanded by the algorithm. This results in more benchmark instances of difficult optimization problems being solved in less time while using narrower decision diagrams.
翻訳日:2024-01-18 22:00:51 公開日:2024-01-17
# スケーラブル・並列ゲートのための調整可能なイオンカップリングを備えた表面トラップ

Surface trap with adjustable ion couplings for scalable and parallel gates ( http://arxiv.org/abs/2211.07121v3 )

ライセンス: Link先を確認
Yelnury Suleimen, Artem Podlesnyy, Lianna A. Akopyan, Nikita Sterligov, Olga Lakhmanskaya, Evgeny Anikin, Arthur Matveev and Kirill Lakhmanskiy(参考訳) 並列エンタングゲート実装のための表面電極ポールトラップの設計と動作について述べる。 特に, 電極の直流電圧を調整することで, イオン運動の分離や結合の可能性を示し, 特定の電圧構成に対する並列MSゲート動作の可能性を示す。 本手法のスケーラビリティを検証し,有限フォノンモードの占有やフォノン周波数の有限ドリフトの存在下でのこれらのゲートの性能を特徴付ける。 さらに,個々のトラップサイト当たりのイオン数と無調和ポテンシャル項が井戸間のカップリングに与える影響について検討した。

We describe the design and operation of a surface-electrode Paul trap for parallel entangling gate implementation. In particular, we demonstrate the possibility of separating or coupling ion motion by adjusting the DC-voltages on a set of electrodes and show the possibility of parallel MS-gate operations for specific voltage configurations. We verify the scalability of this approach and characterize the performance of these gates in the presence of the finite phonon mode occupation and of the finite drift of the phonon frequencies. Additionally, we investigate how the number of ions per individual trapping site and anharmonic potential terms affect the coupling between the wells.
翻訳日:2024-01-18 21:59:15 公開日:2024-01-17
# ID-MixGCL:グラフコントラスト学習のためのアイデンティティ混合

ID-MixGCL: Identity Mixup for Graph Contrastive Learning ( http://arxiv.org/abs/2304.10045v2 )

ライセンス: Link先を確認
Gehang Zhang and Bowen Yu and Jiangxia Cao and Xinghua Zhang and Jiawei Sheng and Chuan Zhou and Tingwen Liu(参考訳) グラフコントラスト学習(GCL)は近年,大幅な進歩を遂げている。 既存のGCLアプローチは、ノード/グラフ表現を学ぶために、同じグラフの2つの異なる ``views''' を比較する。 これらの研究の根底にある前提は、グラフ拡大戦略は、グラフビューが構造的に異なるが、元のグラフと意味的に類似しているような、いくつかの異なるグラフビューを生成することができるため、元のグラフ/ノードの基底構造ラベルは、対照的な学習において同一とみなすことができるということである。 しかし、この仮定が必ずしも成り立つとは限らない。 例えば、ソーシャルネットワーク内のスーパーノードの削除は、他のノードに対するコミュニティの分割に大きな影響を与える可能性がある。 同様に、分子グラフのノードやエッジへの摂動は、グラフのラベルを変更する。 したがって,グラフの増大と対照的な損失に使用されるラベルの適応が伴うことにより,エンコーダの表現性の向上が促進されると考えられる。 このアイデアに基づいて,ID-MixGCLを提案する。入力ノードと対応するIDラベルの同時補間により,ソフト信頼度サンプルを制御可能な変更度で取得し,ラベルのないグラフ上での自己教師付きトレーニングから,きめ細かい表現をキャプチャする。 実験結果から,ID-MixGCLはCora, IMDB-B, IMDB-M, PROTEINSデータセットを最先端技術と比較して3~29%向上し, グラフ分類およびノード分類タスクの性能が向上することが示された。

Graph contrastive learning (GCL) has recently achieved substantial advancements. Existing GCL approaches compare two different ``views'' of the same graph in order to learn node/graph representations. The underlying assumption of these studies is that the graph augmentation strategy is capable of generating several different graph views such that the graph views are structurally different but semantically similar to the original graphs, and thus the ground-truth labels of the original and augmented graph/nodes can be regarded identical in contrastive learning. However, we observe that this assumption does not always hold. For instance, the deletion of a super-node within a social network can exert a substantial influence on the partitioning of communities for other nodes. Similarly, any perturbation to nodes or edges in a molecular graph will change the labels of the graph. Therefore, we believe that augmenting the graph, accompanied by an adaptation of the labels used for the contrastive loss, will facilitate the encoder to learn a better representation. Based on this idea, we propose ID-MixGCL, which allows the simultaneous interpolation of input nodes and corresponding identity labels to obtain soft-confidence samples, with a controllable degree of change, leading to the capture of fine-grained representations from self-supervised training on unlabeled graphs. Experimental results demonstrate that ID-MixGCL improves performance on graph classification and node classification tasks, as demonstrated by significant improvements on the Cora, IMDB-B, IMDB-M, and PROTEINS datasets compared to state-of-the-art techniques, by 3-29% absolute points.
翻訳日:2024-01-18 21:53:27 公開日:2024-01-17
# シーンセマンティックセグメンテーションのための地域機能学習

Region-Enhanced Feature Learning for Scene Semantic Segmentation ( http://arxiv.org/abs/2304.07486v3 )

ライセンス: Link先を確認
Xin Kang, Chaoqun Wang, Xuejin Chen(参考訳) 複雑なシーンにおけるセマンティックセグメンテーションは、オブジェクトの外観だけでなく、オブジェクトの位置や周囲環境にも依存する。 それにもかかわらず、大規模ポイントクラウドの計算コストが大きいため、ペアワイズなポイント相関の形式で長距離コンテキストをモデル化することは困難である。 本稿では,細粒度点やボクセルの代わりに,領域を点雲の中間表現として用いて計算負担を軽減することを提案する。 本稿では,領域相関を利用して特徴学習を向上する領域拡張型特徴学習ネットワーク(REFL-Net)を提案する。 セマンティクス空間領域抽出ステージと領域依存モデリングステージからなる、領域ベース機能拡張(rfe)モジュールを設計する。 第1段階では、入力ポイントは、その意味的および空間的近接に基づいて、一連の領域にグループ化される。 第2段階では,地域特徴に対する自己注意ブロックを用いて地域間意味と空間的関係を探索し,地域特徴と融合してより識別的な表現を得る。 提案するrfeモジュールはプラグアンドプレイであり,共通のセグメンテーションバックボーンと統合することができる。 ScanNetV2およびS3DISデータセットに関する広範な実験を行い、異なるセグメンテーションバックボーンでRFEモジュールを評価する。 我々のREFL-Netは、ScanNetV2で1.8% mIoUゲイン、S3DISで1.7% mIoUゲインを達成した。 定量的および定性的な結果から,refl-netの強力な長距離文脈モデリング能力と強汎化能力を示す。

Semantic segmentation in complex scenes relies not only on object appearance but also on object location and the surrounding environment. Nonetheless, it is difficult to model long-range context in the format of pairwise point correlations due to the huge computational cost for large-scale point clouds. In this paper, we propose using regions as the intermediate representation of point clouds instead of fine-grained points or voxels to reduce the computational burden. We introduce a novel Region-Enhanced Feature Learning Network (REFL-Net) that leverages region correlations to enhance point feature learning. We design a region-based feature enhancement (RFE) module, which consists of a Semantic-Spatial Region Extraction stage and a Region Dependency Modeling stage. In the first stage, the input points are grouped into a set of regions based on their semantic and spatial proximity. In the second stage, we explore inter-region semantic and spatial relationships by employing a self-attention block on region features and then fuse point features with the region features to obtain more discriminative representations. Our proposed RFE module is plug-and-play and can be integrated with common semantic segmentation backbones. We conduct extensive experiments on ScanNetV2 and S3DIS datasets and evaluate our RFE module with different segmentation backbones. Our REFL-Net achieves 1.8% mIoU gain on ScanNetV2 and 1.7% mIoU gain on S3DIS with negligible computational cost compared with backbone models. Both quantitative and qualitative results show the powerful long-range context modeling ability and strong generalization ability of our REFL-Net.
翻訳日:2024-01-18 21:52:57 公開日:2024-01-17
# 光渦を用いた量子通信ネットワーク

Quantum communication networks with optical vortices ( http://arxiv.org/abs/2304.04798v2 )

ライセンス: Link先を確認
S. Suciu, G.A. Bulzan, T.A. Isdraila, A.M. Palici, S. Ataman, C. Kusko, R. Ionicioiu(参考訳) 量子通信は、量子リソースを使用して当事者間の安全な鍵を確立することによって、インターネットセキュリティのパラダイム変化をもたらす。 現在の量子通信ネットワークは主にポイントツーポイントであり、信頼されたノードと鍵管理システムを使って鍵を中継している。 量子インターネットを含む将来の量子ネットワークは、ユーザーの集団が相互に接続し通信する複雑なトポロジを持つことになる。 本稿では,量子通信ネットワークのアーキテクチャについて述べる。 我々は,光子軌道角運動量(OAM)を用いて異なるノード間の量子情報をルーティングできることを示す。 単純なポイント・ツー・ポイントのネットワークから始まり、ポイント・トゥ・マルチポイント、完全接続、および絡み合った分散ネットワークという、より複雑なアーキテクチャを徐々に発展させていく。 特に重要な結果として,1つのOAMソータと$n-1$OAM値を用いて,$n$ノードの完全接続ネットワークを構築することができることを示す。 提案手法は,最小限のリソースで複雑な量子通信ネットワークを構築する方法である。

Quantum communications bring a paradigm change in internet security by using quantum resources to establish secure keys between parties. Present-day quantum communications networks are mainly point-to-point and use trusted nodes and key management systems to relay the keys. Future quantum networks, including the quantum internet, will have complex topologies in which groups of users are connected and communicate with each-other. Here we investigate several architectures for quantum communication networks. We show that photonic orbital angular momentum (OAM) can be used to route quantum information between different nodes. Starting from a simple, point-to-point network, we will gradually develop more complex architectures: point-to-multipoint, fully-connected and entanglement-distribution networks. As a particularly important result, we show that an $n$-node, fully-connected network can be constructed with a single OAM sorter and $n-1$ OAM values. Our results pave the way to construct complex quantum communication networks with minimal resources.
翻訳日:2024-01-18 21:52:08 公開日:2024-01-17
# 低周波色優先放射場の評価幾何学

Evaluate Geometry of Radiance Fields with Low-frequency Color Prior ( http://arxiv.org/abs/2304.04351v2 )

ライセンス: Link先を確認
Qihang Fang, Yafei Song, Keqiang Li, Li Shen, Huaiyu Wu, Gang Xiong, Liefeng Bo(参考訳) 放射場は3dシーンの効果的な表現であり、新しい視点合成と3d再構成に広く採用されている。 基底真実がほとんど得られないため、幾何、すなわち密度場を評価することは依然としてオープンで難しい問題である。 もう一つの間接的な解決策は、密度場を点クラウドに変換し、スキャンされた接地面とシャムハ距離を計算することである。 しかしながら、多くの広く使われているデータセットは、スキャンプロセスが高価で複雑であるため、ポイントクラウドの地上構造を持たない。 この目的のために, 観測画像のみを用いて形状を評価可能な, 逆平均残留色(imrc)と呼ばれる新しい計量法を提案する。 我々の重要な洞察は、幾何が良くなるほど、計算された色場の周波数が低くなることである。 この知見から,再構成された密度場と観測画像から,低周波球面高調波の色場を近似し,逆平均残差色を計算するクローズドフォーム法を考案した。 そして、IMRCが高いほど、幾何が良くなる。 定性的および定量的実験により,提案したIMRC測定値の有効性が検証された。 また,今後の研究を促進するためにIMRCを用いたいくつかの最先端手法をベンチマークした。 私たちのコードはhttps://github.com/qihanggh/imrcで利用可能です。

A radiance field is an effective representation of 3D scenes, which has been widely adopted in novel-view synthesis and 3D reconstruction. It is still an open and challenging problem to evaluate the geometry, i.e., the density field, as the ground-truth is almost impossible to obtain. One alternative indirect solution is to transform the density field into a point-cloud and compute its Chamfer Distance with the scanned ground-truth. However, many widely-used datasets have no point-cloud ground-truth since the scanning process along with the equipment is expensive and complicated. To this end, we propose a novel metric, named Inverse Mean Residual Color (IMRC), which can evaluate the geometry only with the observation images. Our key insight is that the better the geometry, the lower-frequency the computed color field. From this insight, given a reconstructed density field and observation images, we design a closed-form method to approximate the color field with low-frequency spherical harmonics, and compute the inverse mean residual color. Then the higher the IMRC, the better the geometry. Qualitative and quantitative experimental results verify the effectiveness of our proposed IMRC metric. We also benchmark several state-of-the-art methods using IMRC to promote future related research. Our code is available at https://github.com/qihangGH/IMRC.
翻訳日:2024-01-18 21:51:51 公開日:2024-01-17
# hompinns:homotopy physics-informed neural networksによる多重解を持つ非線形微分方程式の逆問題を解く

HomPINNs: homotopy physics-informed neural networks for solving the inverse problems of nonlinear differential equations with multiple solutions ( http://arxiv.org/abs/2304.02811v2 )

ライセンス: Link先を確認
Haoyang Zheng, Yao Huang, Ziyang Huang, Wenrui Hao, Guang Lin(参考訳) 解空間における非特異性、対称性、分岐から生じる複素挙動のため、複数の解で非線形微分方程式(DE)の逆問題を解くことは難しい課題である。 これを解決するために,ホモトピー連続性とニューラルネットワーク(NN)を利用した逆問題の解法であるホモトピー物理情報ニューラルネットワーク(HomPINN)を提案する。 提案するフレームワークは、DEC制約を順守しながら、さまざまなソリューションにわたるラベルなしの観測を同時に近似するためにNNを使うことから始まる。 提案手法はホモトピー継続を通じて,観測の追跡と複数の解の同定によって逆問題を解決する。 実験では, 提案手法の性能を1次元DESで検証し, 2次元グレイ・スコットシミュレーションに応用する。 提案手法はスケーラブルで適応可能であり,複数の解と未知パラメータを用いたDESの解法として有効であることを示す。 さらに、複雑なシステムのモデリングや物理学、化学、生物学などの逆問題を解くなど、科学計算における様々な応用において有意な可能性を秘めている。

Due to the complex behavior arising from non-uniqueness, symmetry, and bifurcations in the solution space, solving inverse problems of nonlinear differential equations (DEs) with multiple solutions is a challenging task. To address this, we propose homotopy physics-informed neural networks (HomPINNs), a novel framework that leverages homotopy continuation and neural networks (NNs) to solve inverse problems. The proposed framework begins with the use of NNs to simultaneously approximate unlabeled observations across diverse solutions while adhering to DE constraints. Through homotopy continuation, the proposed method solves the inverse problem by tracing the observations and identifying multiple solutions. The experiments involve testing the performance of the proposed method on one-dimensional DEs and applying it to solve a two-dimensional Gray-Scott simulation. Our findings demonstrate that the proposed method is scalable and adaptable, providing an effective solution for solving DEs with multiple solutions and unknown parameters. Moreover, it has significant potential for various applications in scientific computing, such as modeling complex systems and solving inverse problems in physics, chemistry, biology, etc.
翻訳日:2024-01-18 21:51:31 公開日:2024-01-17
# 分布外セグメンテーションに応用した畳み込みニューラルネットワークの画素ワイズ勾配不確かさ

Pixel-wise Gradient Uncertainty for Convolutional Neural Networks applied to Out-of-Distribution Segmentation ( http://arxiv.org/abs/2303.06920v2 )

ライセンス: Link先を確認
Kira Maag and Tobias Riedlinger(参考訳) 近年、ディープニューラルネットワークはセマンティックセグメンテーションの最先端を定義しており、予測は事前に定義されたセマンティクスクラスに制限されている。 それらは自動運転のようなアプリケーションにデプロイされるが、そのカテゴリ的に制限された表現力はそのようなオープンワールドのシナリオとは対照的に実行される。 したがって、事前に定義されたセマンティック空間外、すなわちOoD(out-of-distribution)オブジェクトの検出とセグメンテーションが最も関心を持つ。 ソフトマックスエントロピーやベイズモデルのような不確実性推定法は誤った予測に敏感であるため、これらの手法はood検出の自然なベースラインである。 本稿では,推定中に効率的に計算できる画素損失勾配から不確かさスコアを得る手法を提案する。 我々のアプローチは、大規模なモデルのクラスの実装が簡単であり、追加のトレーニングや補助データを必要としないため、事前訓練されたセグメンテーションモデルで容易に利用できる。 本実験は,提案手法が誤った画素分類を識別し,無視可能な計算オーバーヘッドで予測品質を推定する能力を示す。 特に,SegmentMeIfYouCanベンチマークのOoDセグメンテーションにおいて,OoDセグメンテーションの点で優れた性能を示し,他の手法よりも明らかに優れている。

In recent years, deep neural networks have defined the state-of-the-art in semantic segmentation where their predictions are constrained to a predefined set of semantic classes. They are to be deployed in applications such as automated driving, although their categorically confined expressive power runs contrary to such open world scenarios. Thus, the detection and segmentation of objects from outside their predefined semantic space, i.e., out-of-distribution (OoD) objects, is of highest interest. Since uncertainty estimation methods like softmax entropy or Bayesian models are sensitive to erroneous predictions, these methods are a natural baseline for OoD detection. Here, we present a method for obtaining uncertainty scores from pixel-wise loss gradients which can be computed efficiently during inference. Our approach is simple to implement for a large class of models, does not require any additional training or auxiliary data and can be readily used on pre-trained segmentation models. Our experiments show the ability of our method to identify wrong pixel classifications and to estimate prediction quality at negligible computational overhead. In particular, we observe superior performance in terms of OoD segmentation to comparable baselines on the SegmentMeIfYouCan benchmark, clearly outperforming other methods.
翻訳日:2024-01-18 21:50:32 公開日:2024-01-17
# 共同チャネル推定と信号検出のためのディープラーニングと反復アルゴリズムの比較検討

A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection ( http://arxiv.org/abs/2303.03678v2 )

ライセンス: Link先を確認
Haocheng Ju, Haimiao Zhang, Lin Li, Xiao Li, Bin Dong(参考訳) 無線通信システムにおけるジョイントチャネル推定と信号検出(JCESD)は,特に非線形逆問題を引き起こすため,重要かつ困難な課題である。 この課題はさらに、従来のアルゴリズムが性能の悪いSNR(low signal-to-noise ratio)シナリオで強調されている。 深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。 したがって、広範囲のSNRに対して優れた性能を提供できる頑健で低複雑さのモデルの開発が極めて望ましい。 本稿では,従来のアルゴリズムとDL手法を異なるチャネルモデル,ドップラー,SNR設定で検証するベンチマークを確立することを目的とする。 特に,反復アルゴリズムの展開によりバックボーンネットワークが形成される新しいDLモデルを提案し,ハイパーネットワークによりハイパーパラメータを推定する。 さらに、軽量なDenseNetをJCESDのタスクに適用して比較する。 我々は,ビット誤り率(BER)の一般化,堅牢性,複雑性の3つの側面から異なる手法を評価する。 その結果,低snr設定ではdlアプローチが従来のアルゴリズムよりも優れており,高snr設定では反復アルゴリズムの方が優れていた。 さらに、繰り返しアルゴリズムはキャリア周波数オフセットの存在下でより堅牢であり、一方、DL法は非対称ガウス雑音によって信号が破損した場合に優れる。

Joint channel estimation and signal detection (JCESD) in wireless communication systems is a crucial and challenging task, especially since it inherently poses a nonlinear inverse problem. This challenge is further highlighted in low signal-to-noise ratio (SNR) scenarios, where traditional algorithms often perform poorly. Deep learning (DL) methods have been investigated, but concerns regarding computational expense and lack of validation in low-SNR settings remain. Hence, the development of a robust and low-complexity model that can deliver excellent performance across a wide range of SNRs is highly desirable. In this paper, we aim to establish a benchmark where traditional algorithms and DL methods are validated on different channel models, Doppler, and SNR settings. In particular, we propose a new DL model where the backbone network is formed by unrolling the iterative algorithm, and the hyperparameters are estimated by hypernetworks. Additionally, we adapt a lightweight DenseNet to the task of JCESD for comparison. We evaluate different methods in three aspects: generalization in terms of bit error rate (BER), robustness, and complexity. Our results indicate that DL approaches outperform traditional algorithms in the challenging low-SNR setting, while the iterative algorithm performs better in high-SNR settings. Furthermore, the iterative algorithm is more robust in the presence of carrier frequency offset, whereas DL methods excel when signals are corrupted by asymmetric Gaussian noise.
翻訳日:2024-01-18 21:49:54 公開日:2024-01-17
# 自己監督型ネットワーク蒸留 : スパース報酬環境における探索への効果的なアプローチ

Self-supervised network distillation: an effective approach to exploration in sparse reward environments ( http://arxiv.org/abs/2302.11563v3 )

ライセンス: Link先を確認
Matej Pech\'a\v{c}, Michal Chovanec, Igor Farka\v{s}(参考訳) 強化学習は意思決定問題を解決し、予め設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。 しかし, 報酬が小さすぎる場合, 環境調査において, エージェントが報酬に遭遇しない場合, このようなアプローチは非常に問題となる。 このような問題の解決策は、エージェントに固有の動機を与え、エージェントが外部の報酬に遭遇する可能性のある情報探索を提供するかもしれない。 ノベルティ検出は本質的動機づけ研究の有望な分野の1つである。 本稿では, 蒸留誤差に基づく本質的なモチベーションアルゴリズムである自己教師ネットワーク蒸留(SND)について, 予測モデルと対象モデルの両方を訓練した新規性指標として提示する。 この目的のために既存の3つの自己監督手法を適用し, 探索が困難と考えられる10の環境上で実験を行った。 その結果,我々のアプローチは,ベースラインモデルと比較して,同じトレーニング時間に対して,より速い成長と高い外部報酬を達成できることがわかった。 さらに,我々が適用した分析手法は,提案するモデルに対する貴重な説明的洞察を提供する。

Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and so the agent does not come across the reward during the environmental exploration. The solution to such a problem may be to equip the agent with an intrinsic motivation that will provide informed exploration during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of intrinsic motivation algorithms based on the distillation error as a novelty indicator, where the predictor model and the target model are both trained. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment. In addition, the analytical methods we applied provide valuable explanatory insights into our proposed models.
翻訳日:2024-01-18 21:47:43 公開日:2024-01-17
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v5 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens(参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動することでこの問題を緩和しようとしており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 この結果に基づき,time-shift samplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験の結果,fidスコアの異なるデータセットとサンプリング法において有意かつ一貫した改善が得られた。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMに比べて44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 私たちのコードはhttps://github.com/Mingxiao-Li/TS-DPMで公開しています。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. Our code is available at https://github.com/Mingxiao-Li/TS-DPM.
翻訳日:2024-01-18 21:40:18 公開日:2024-01-17
# DSICアフィン最大化器オークション設計のためのスケーラブルニューラルネットワーク

A Scalable Neural Network for DSIC Affine Maximizer Auction Design ( http://arxiv.org/abs/2305.12162v3 )

ライセンス: Link先を確認
Zhijian Duan, Haoran Sun, Yurong Chen, Xiaotie Deng(参考訳) 自動オークションデザインは、機械学習を通じて経験的に高い効率のメカニズムを見つけることを目的としている。 マルチアイテムオークションのシナリオに関する既存の作業は、大まかにrestenet-like and affine maximr auctions (amas) のアプローチに分けられる。 しかし,前者はDSIC(戦略インセンティブ互換性)を厳格に確保することはできず,後者は多数のアロケーション候補のためにスケーラビリティの問題に直面している。 これらの制限に対処するため,我々は,入札者やアイテム表現から(割り当てメニューを含む)amaパラメータを構築するスケーラブルなニューラルネットワーク amenunet を提案する。 amenunetは常にdsicであり、amasの特性により個別有理(ir)であり、ニューラルネットワークを介して候補割り当てを生成してスケーラビリティを高める。 さらに、AMenuNetは置換同変であり、パラメータの数はオークションスケールとは独立である。 我々は、AMenuNetがコンテキストおよび非コンテキストの多項目オークションにおいて強いベースラインを上回り、より大きなオークションに順応し、異なる設定に順応し、有用な決定論的アロケーションを特定することを実証するために、広範な実験を行った。 提案手法は,DSIC自動オークション設計における効率的なソリューションであり,スケーラビリティの向上と各種設定での収益性の向上を実現している。

Automated auction design aims to find empirically high-revenue mechanisms through machine learning. Existing works on multi item auction scenarios can be roughly divided into RegretNet-like and affine maximizer auctions (AMAs) approaches. However, the former cannot strictly ensure dominant strategy incentive compatibility (DSIC), while the latter faces scalability issue due to the large number of allocation candidates. To address these limitations, we propose AMenuNet, a scalable neural network that constructs the AMA parameters (even including the allocation menu) from bidder and item representations. AMenuNet is always DSIC and individually rational (IR) due to the properties of AMAs, and it enhances scalability by generating candidate allocations through a neural network. Additionally, AMenuNet is permutation equivariant, and its number of parameters is independent of auction scale. We conduct extensive experiments to demonstrate that AMenuNet outperforms strong baselines in both contextual and non-contextual multi-item auctions, scales well to larger auctions, generalizes well to different settings, and identifies useful deterministic allocations. Overall, our proposed approach offers an effective solution to automated DSIC auction design, with improved scalability and strong revenue performance in various settings.
翻訳日:2024-01-18 21:39:01 公開日:2024-01-17
# 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて

On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v5 )

ライセンス: Link先を確認
Yuliang Liu, Zhang Li, Biao Yang, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai(参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。 しかし、テキスト関連視覚タスクにおける効果は比較的未解明である。 本稿では,テキスト認識,Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information extract (KIE), Handwriting Mathematical Expression Recognition (HMER) などのテキスト関連視覚タスクにおいて,GPT4VやGeminiなどの大規模マルチモーダルモデルの包括的評価を行った。 大規模マルチモーダルモデルにおける光学文字認識(OCR)機能の評価を容易にするため,29個のデータセットを含む総合評価ベンチマークOCRBenchを提案する。 さらに,これらのモデルの強みと弱み,特に多言語テキスト,手書きテキスト,非意味テキスト,数学的表現認識について明らかにした。 最も重要な点は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを,本研究で提示した基礎的結果が提供できることである。 評価パイプラインとベンチマークはhttps://github.com/yuliang-liu/multimodalocrで入手できる。

Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. However, their effectiveness in text-related visual tasks remains relatively unexplored. In this paper, we conducted a comprehensive evaluation of Large Multimodal Models, such as GPT4V and Gemini, in various text-related visual tasks including Text Recognition, Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information Extraction (KIE), and Handwritten Mathematical Expression Recognition (HMER). To facilitate the assessment of Optical Character Recognition (OCR) capabilities in Large Multimodal Models, we propose OCRBench, a comprehensive evaluation benchmark.Our study encompasses 29 datasets, making it the most comprehensive OCR evaluation benchmark available. Furthermore, our study reveals both the strengths and weaknesses of these models, particularly in handling multilingual text, handwritten text, non-semantic text, and mathematical expression recognition. Most importantly, the baseline results showcased in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. The evaluation pipeline and benchmark are available at https://github.com/Yuliang-Liu/MultimodalOCR.
翻訳日:2024-01-18 21:38:26 公開日:2024-01-17
# Flame: フェデレーション学習におけるトポロジ拡張の簡略化

Flame: Simplifying Topology Extension in Federated Learning ( http://arxiv.org/abs/2305.05118v2 )

ライセンス: Link先を確認
Harshit Daga, Jaemin Shin, Dhruv Garg, Ada Gavrilovska, Myungjin Lee and Ramana Rao Kompella(参考訳) 広く分散されたインフラストラクチャ上に機械学習アプリケーションをデプロイする際のメリットとして、幅広い種類のフェデレートラーニング(FL)技術を含む、分散機械学習アプローチがある。 この利点は、基盤となる機械学習トポロジの詳細に大きく依存しており、参加ノードによって実行される機能、依存関係、相互接続を指定する。 現在のシステムには、マシンラーニングデプロイメントのトポロジをカスタマイズするために必要な柔軟性と拡張性が欠けている。 本研究では,分散flアプリケーションのトポロジ構成を,特定のデプロイメントコンテキストの仕様を中心に柔軟に構成し,新たなflアーキテクチャをサポートするために容易に拡張可能なシステムであるf flameを提案する。 Flame は新しい高レベルの抽象化 Topology Abstraction Graphs (TAGs) を通じてこれを実現している。 TAGは基盤となるデプロイメントの詳細からMLアプリケーションロジックを分離するので、開発労力を削減してアプリケーションデプロイメントを専門化できる。 flameはオープンソースプロジェクトとしてリリースされており、柔軟性と拡張性は様々なトポロジーとメカニズムをサポートし、新しいfl方法論の開発を促進することができる。

Distributed machine learning approaches, including a broad class of federated learning (FL) techniques, present a number of benefits when deploying machine learning applications over widely distributed infrastructures. The benefits are highly dependent on the details of the underlying machine learning topology, which specifies the functionality executed by the participating nodes, their dependencies and interconnections. Current systems lack the flexibility and extensibility necessary to customize the topology of a machine learning deployment. We present Flame, a new system that provides flexibility of the topology configuration of distributed FL applications around the specifics of a particular deployment context, and is easily extensible to support new FL architectures. Flame achieves this via a new high-level abstraction Topology Abstraction Graphs (TAGs). TAGs decouple the ML application logic from the underlying deployment details, making it possible to specialize the application deployment with reduced development effort. Flame is released as an open source project, and its flexibility and extensibility support a variety of topologies and mechanisms, and can facilitate the development of new FL methodologies.
翻訳日:2024-01-18 21:38:03 公開日:2024-01-17
# 超細胞からの非アベリア双曲バンド理論

Non-Abelian hyperbolic band theory from supercells ( http://arxiv.org/abs/2305.04945v2 )

ライセンス: Link先を確認
Patrick M. Lenggenhager, Joseph Maciejko, Tom\'a\v{s} Bzdu\v{s}ek(参考訳) 周期格子上の波動関数は一般にブロッホバンド理論によって記述される。 運動量ベクトルでラベル付けされたアーベルブロッホ状態の他に、双曲格子は解析的処理をこれまで明らかにしてきた非アーベルブロッホ状態をサポートする。 スーパーセルとゾーン折り畳みの固体物理概念を適応させることで、非アベリアブロッホ状態の体系的な構成法を考案する。 この方法は、アベリアンバンド理論をスーパーセルの配列に適用し、小さなセルの対称アグリゲーションとして再帰的に構築し、ギャップレスおよびギャップ付きタイトバインディングモデルの両方に対してバルクスペクトルと固有状態の高速収束計算を可能にする。 我々のスーパーセル法は熱力学限界を効率的に近似する手段を提供し、双曲格子の完全なバンド理論的特徴付けに向けて重要なステップを示す。

Wave functions on periodic lattices are commonly described by Bloch band theory. Besides Abelian Bloch states labeled by a momentum vector, hyperbolic lattices support non-Abelian Bloch states that have so far eluded analytical treatments. By adapting the solid-state-physics notions of supercells and zone folding, we devise a method for the systematic construction of non-Abelian Bloch states. The method applies Abelian band theory to sequences of supercells, recursively built as symmetric aggregates of smaller cells, and enables a rapidly convergent computation of bulk spectra and eigenstates for both gapless and gapped tight-binding models. Our supercell method provides an efficient means of approximating the thermodynamic limit and marks a pivotal step towards a complete band-theoretic characterization of hyperbolic lattices.
翻訳日:2024-01-18 21:37:45 公開日:2024-01-17
# 部分分離型強化学習とベクトル化ダイバーシティによる実世界のローカルパスプランナーの訓練

Train a Real-world Local Path Planner in One Hour via Partially Decoupled Reinforcement Learning and Vectorized Diversity ( http://arxiv.org/abs/2305.04180v2 )

ライセンス: Link先を確認
Jinghao Xin, Jinwoo Kim, Zhi Li, and Ning Li(参考訳) 深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。 しかし、DRLの訓練効率と一般化能力の不足により、現実世界でのそのような応用は極めて限られている。 これら2つの問題を緩和するために、アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowからなるColorというソリューションが提案されている。 具体的には、ASLはDRLアルゴリズムのトレーニング効率を改善することを目的としている。 データ取得の迅速化、マルチスレッディングによるモデル最適化からデータ収集を分離するベクタライズドデータ収集(vdc)モードを採用し、時間フィードバック機構(tfm)を利用して2つの手順を部分的に接続し、データの使用過多を回避する。 一方、Sparrowシミュレータは、2Dグリッドベースの世界、単純化されたキネマティクス、変換不要のデータフローを利用して軽量な設計を実現している。 明度はベクトル化の多様性を促進し、ベクトル化された環境の広いコピーにまたがる多様なシミュレーション設定を可能にし、DRLアルゴリズムの一般化能力の顕著な向上をもたらす。 57 DRL ベンチマーク環境,32 のシミュレーション,36 の実世界の LPP シナリオからなる総合的な実験を行い,効率と一般化の観点から,本手法の優位性を実証した。 この論文のコードとビデオはhttps://github.com/xinjinghao/color.comで閲覧できます。

Deep Reinforcement Learning (DRL) has exhibited efficacy in resolving the Local Path Planning (LPP) problem. However, such application in the real world is immensely limited due to the deficient training efficiency and generalization capability of DRL. To alleviate these two issues, a solution named Color is proposed, which consists of an Actor-Sharer-Learner (ASL) training framework and a mobile robot-oriented simulator Sparrow. Specifically, the ASL intends to improve the training efficiency of DRL algorithms. It employs a Vectorized Data Collection (VDC) mode to expedite data acquisition, decouples the data collection from model optimization by multithreading, and partially connects the two procedures by harnessing a Time Feedback Mechanism (TFM) to evade data underuse or overuse. Meanwhile, the Sparrow simulator utilizes a 2D grid-based world, simplified kinematics, and conversion-free data flow to achieve a lightweight design. The lightness facilitates vectorized diversity, allowing diversified simulation setups across extensive copies of the vectorized environments, resulting in a notable enhancement in the generalization capability of the DRL algorithm being trained. Comprehensive experiments, comprising 57 DRL benchmark environments, 32 simulated and 36 real-world LPP scenarios, have been conducted to corroborate the superiority of our method in terms of efficiency and generalization. The code and the video of this paper are accessible at https://github.com/XinJingHao/Color.
翻訳日:2024-01-18 21:37:30 公開日:2024-01-17
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v7 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Sijing Liu, Haozhe Chi, Xindi Hu, Kejuan Yue, Lei Li, Vicente Grau, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 様々な自然画像分割タスクで印象的な結果が得られた。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールのため、医療画像セグメンテーション(MIS)はより困難である。 SAMのパフォーマンスを医療データで完全に検証するために、53のオープンソースデータセットを収集して分類し、18のモダリティ、84のオブジェクト、125のオブジェクトとモダリティのペアターゲット、1050Kの2Dイメージ、6033Kマスクを備えた大規模な医療セグメンテーションデータセットを構築した。 いわゆるcosmos 1050kデータセット上で,様々なモデルと戦略を総合的に解析した。 主な知見は以下のとおりである。 1)SAMは特定の対象において顕著な性能を示したが,他の状況では不安定,不完全,あるいは完全に失敗した。 2) 大きなViT-Hを持つSAMは、小さなViT-Bよりも全体的な性能が良好であった。 3)SAMは,手動ヒント,特にボックスで,Everythモードよりも優れていた。 4)SAMは高いラベル付け品質と少ない時間で人間のアノテーションに役立つ。 5)SAMは中心点のランダム性や密箱のプロンプトに敏感であり,性能低下に悩まされる恐れがあった。 6)SAMは1点または数点の対話的手法よりも優れた性能を示したが,点数が増加するにつれて性能が向上する。 7)SAMの性能は,境界複雑性や強度差など,異なる要因と相関していた。 8)特定の医療タスクにおけるSAMの微細化は,平均DICE性能を4.39%,ViT-BとViT-Hの6.68%向上させる可能性がある。 この総合的なレポートは、研究者がMISにおけるSAMアプリケーションの可能性を探究し、SAMを適切に利用し開発する方法をガイドするのに役立つと期待している。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging because of the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. To fully validate SAM's performance on medical data, we collected and sorted 53 open-source datasets and built a large medical segmentation dataset with 18 modalities, 84 objects, 125 object-modality paired targets, 1050K 2D images, and 6033K masks. We comprehensively analyzed different models and strategies on the so-called COSMOS 1050K dataset. Our findings mainly include the following: 1) SAM showed remarkable performance in some specific objects but was unstable, imperfect, or even totally failed in other situations. 2) SAM with the large ViT-H showed better overall performance than that with the small ViT-B. 3) SAM performed better with manual hints, especially box, than the Everything mode. 4) SAM could help human annotation with high labeling quality and less time. 5) SAM was sensitive to the randomness in the center point and tight box prompts, and may suffer from a serious performance drop. 6) SAM performed better than interactive methods with one or a few points, but will be outpaced as the number of points increases. 7) SAM's performance correlated to different factors, including boundary complexity, intensity differences, etc. 8) Finetuning the SAM on specific medical tasks could improve its average DICE performance by 4.39% and 6.68% for ViT-B and ViT-H, respectively. We hope that this comprehensive report can help researchers explore the potential of SAM applications in MIS, and guide how to appropriately use and develop SAM.
翻訳日:2024-01-18 21:36:22 公開日:2024-01-17
# Deep Attention Unet:グローバルな特徴認識能力を持つネットワークモデル

Deep Attention Unet: A Network Model with Global Feature Perception Ability ( http://arxiv.org/abs/2304.10829v2 )

ライセンス: Link先を確認
Jiacheng Li(参考訳) リモートセンシング画像分割は、リモートセンシング画像解釈の特定のタスクである。 良質なリモートセンシングイメージセグメンテーションアルゴリズムは、環境保護、農業生産、都市建設のためのガイダンスを提供することができる。 本稿では,チャネル自己注意機構と残差接続に基づく新しいタイプのunet画像分割アルゴリズムを提案する。 私の実験では、新しいネットワークモデルは、FoodNetデータセット上の従来のUNetと比較して、mIOUを2.48%改善しました。 本論文で提案する画像分割アルゴリズムは,画像内の異なる項目間の内部接続を強化し,咬合を伴うリモートセンシング画像の分割精度を向上させる。

Remote sensing image segmentation is a specific task of remote sensing image interpretation. A good remote sensing image segmentation algorithm can provide guidance for environmental protection, agricultural production, and urban construction. This paper proposes a new type of UNet image segmentation algorithm based on channel self attention mechanism and residual connection called . In my experiment, the new network model improved mIOU by 2.48% compared to traditional UNet on the FoodNet dataset. The image segmentation algorithm proposed in this article enhances the internal connections between different items in the image, thus achieving better segmentation results for remote sensing images with occlusion.
翻訳日:2024-01-18 21:35:51 公開日:2024-01-17
# VertiBench: 垂直的フェデレート学習ベンチマークにおける特徴分散の多様性向上

VertiBench: Advancing Feature Distribution Diversity in Vertical Federated Learning Benchmarks ( http://arxiv.org/abs/2307.02040v2 )

ライセンス: Link先を確認
Zhaomin Wu, Junyi Hou, Bingsheng He(参考訳) Vertical Federated Learning(VFL)は、機能分割分散データ上で機械学習モデルをトレーニングするための重要なパラダイムである。 しかしながら、プライバシの制限のため、アルゴリズム評価のためのパブリックな実世界のvflデータセットはほとんど存在せず、機能分布が限られている。 既存のベンチマークは、グローバルな集合から任意の特徴分割から派生した合成データセットを利用することが多く、特徴分布のサブセットのみをキャプチャし、アルゴリズムのパフォーマンス評価が不十分になる。 本稿では,vflの性能に影響する2つの重要な要因 - 特徴の重要性と特徴相関 - を導入し,関連する評価指標とデータセット分割手法を提案する。 さらに、画像イメージのVFLシナリオの欠点に対応するために、実際のVFLデータセットを導入する。 最先端VFLアルゴリズムの包括的評価は,今後の研究に有用な知見を提供する。

Vertical Federated Learning (VFL) is a crucial paradigm for training machine learning models on feature-partitioned, distributed data. However, due to privacy restrictions, few public real-world VFL datasets exist for algorithm evaluation, and these represent a limited array of feature distributions. Existing benchmarks often resort to synthetic datasets, derived from arbitrary feature splits from a global set, which only capture a subset of feature distributions, leading to inadequate algorithm performance assessment. This paper addresses these shortcomings by introducing two key factors affecting VFL performance - feature importance and feature correlation - and proposing associated evaluation metrics and dataset splitting methods. Additionally, we introduce a real VFL dataset to address the deficit in image-image VFL scenarios. Our comprehensive evaluation of cutting-edge VFL algorithms provides valuable insights for future research in the field.
翻訳日:2024-01-18 21:29:20 公開日:2024-01-17
# スクロールタイム: 絵画が歴史の窓として現れることの追跡

ScrollTimes: Tracing the Provenance of Paintings as a Window into History ( http://arxiv.org/abs/2306.08834v2 )

ライセンス: Link先を確認
Wei Zhang, Wong Kam-Kwai, Yitian Chen, Ailing Jia, Luwei Wang, Jian-Wei Zhang, Lechao Cheng, Huamin Qu, and Wei Chen(参考訳) 考古学や美術史において、文化遺産の遺物、遺産の相続と保存の研究が重要である。 現代の技術はこの分野を進歩させてきたが、様々な情報源からの証拠の認識、社会文化の文脈の統合、総合的証明分析のためのインタラクティブな自動化の強化など、課題は続いている。 美術史家らと共同で、歴史資料の豊富な資料と、文化的アーティファクトを通して歴史を探求するユニークな機会を提供する伝統的な中国の絵画形式である「ハンズクロル」を調査した。 本報告では,ハンドクロルのための「バイオグラフィー」を作成するために,アーティファクト,コンテキスト,証明レベルを含む3段階の方法論を提案する。 本手法は,様々な文化遺産データベースを用いてハンズロール内の要素を抽出,検証,拡張するための画像処理技術と言語モデルの応用を取り入れている。 非連続抽出要素の効率的な解析を容易にするために,特徴的レイアウトを開発した。 さらに,美術史家たちが興味に合ったバイオグラフィーをインタラクティブに作成できるように,手錠の3段階分析を支援する視覚分析システムであるScrrollTimesを紹介した。 ケーススタディと専門家のインタビューを通じて検証され、我々のアプローチは歴史の窓口を提供し、ハンドクロルの出所と歴史的意義の全体的理解を促進する。

The study of cultural artifact provenance, tracing ownership and preservation, holds significant importance in archaeology and art history. Modern technology has advanced this field, yet challenges persist, including recognizing evidence from diverse sources, integrating sociocultural context, and enhancing interactive automation for comprehensive provenance analysis. In collaboration with art historians, we examined the handscroll, a traditional Chinese painting form that provides a rich source of historical data and a unique opportunity to explore history through cultural artifacts. We present a three-tiered methodology encompassing artifact, contextual, and provenance levels, designed to create a "Biography" for handscroll. Our approach incorporates the application of image processing techniques and language models to extract, validate, and augment elements within handscroll using various cultural heritage databases. To facilitate efficient analysis of non-contiguous extracted elements, we have developed a distinctive layout. Additionally, we introduce ScrollTimes, a visual analysis system tailored to support the three-tiered analysis of handscroll, allowing art historians to interactively create biographies tailored to their interests. Validated through case studies and expert interviews, our approach offers a window into history, fostering a holistic understanding of handscroll provenance and historical significance.
翻訳日:2024-01-18 21:29:05 公開日:2024-01-17
# CoTran: コンパイラからのフィードバックとシンボル実行による強化学習を用いたLLMベースのコードトランスレータ

CoTran: An LLM-based Code Translator using Reinforcement Learning with Feedback from Compiler and Symbolic Execution ( http://arxiv.org/abs/2306.06755v3 )

ライセンス: Link先を確認
Prithwish Jana, Piyush Jha, Haoyang Ju, Gautham Kishore, Aryan Mahajan and Vijay Ganesh(参考訳) 本稿では,llmベースのコード変換手法と,それに関連するツールであるcotranを提案する。 現在のllmベースのコード翻訳手法は、翻訳されたコードが入力コードに相当な機能的等価性を確実にコンパイルまたは保持することを保証するためのトレーニングアプローチを欠いている。 本研究では,コンパイラのフィードバックとシンボリックな実行(symexec)に基づく等価性テストフィードバックを取り入れ,入力プログラムと出力プログラムの関数的等価性をチェックすることによって,LLMを強化学習によりトレーニングする。 このアイデアは、コンパイラとsymexecベースのテストフィードバックを通じて、LLMのトレーニングをガイドすることであり、完璧な翻訳からどのくらいの距離にあるのかを知ることができる。 我々は,CoTranを57,000以上のJava-Python等価ペアのベンチマークで,人間の手書きトランスパイラやLLMベースの翻訳ツール,ChatGPTを含む14のコード翻訳ツールと比較し,コンパイル精度(CompAcc)や関数同値精度(FEqAcc)などの関連指標で比較した。 例えば、私たちのツールは、PythonからJavaへの翻訳で48.68%のFEqAcc、76.98%のCompAccを実現しています。 また、CodeT5上に構築されたCoTranは、FEqAccが+11.23%、+14.89%改善され、+4.07%、+8.14%がCompAccがJava-to-PythonとPython-to-Javaに変換された。

In this paper, we present an LLM-based code translation method and an associated tool called CoTran, that translates whole-programs from one high-level programming language to another. Current LLM-based code translation methods lack a training approach to ensure that the translated code reliably compiles or bears substantial functional equivalence to the input code. In our work, we train an LLM via reinforcement learning, by modifying the fine-tuning process to incorporate compiler feedback and symbolic execution (symexec)-based equivalence testing feedback that checks for functional equivalence between the input and output programs. The idea is to guide an LLM-in-training, via compiler and symexec-based testing feedback, by letting it know how far it is from producing perfect translations. We report on extensive experiments comparing CoTran with 14 other code translation tools that include human-written transpilers, LLM-based translation tools, and ChatGPT over a benchmark of more than 57,000 Java-Python equivalent pairs, and we show that CoTran outperforms them on relevant metrics such as compilation accuracy (CompAcc) and functional equivalence accuracy (FEqAcc). For example, our tool achieves 48.68% FEqAcc, 76.98% CompAcc for Python-to-Java translation, whereas the nearest competing tool (PLBART-base) only gets 38.26% and 75.77% resp. Also, built upon CodeT5, CoTran achieves +11.23%, +14.89% improvement on FEqAcc and +4.07%, +8.14% on CompAcc for Java-to-Python and Python-to-Java translation resp.
翻訳日:2024-01-18 21:27:46 公開日:2024-01-17
# Intensity Profile Projection:動的ネットワークのための連続時間表現学習フレームワーク

Intensity Profile Projection: A Framework for Continuous-Time Representation Learning for Dynamic Networks ( http://arxiv.org/abs/2306.06155v3 )

ライセンス: Link先を確認
Alexander Modell, Ian Gallagher, Emma Ceccherini, Nick Whiteley and Patrick Rubin-Delanchy(参考訳) 連続時間動的ネットワークデータのための新しい表現学習フレームワークIntensity Profile Projectionを提案する。 2つのエンティティ(i,j$)間の時間スタンプ(t$)の相互作用を表すトリプル$(i,j,t)$を与えられた場合、我々の手順は各ノードに対して連続時間軌跡を返す。 このフレームワークは3つの段階から構成される:例えば、カーネルの滑らか化によるペアエント関数の推定、強度再構成誤差を最小化するプロジェクションの学習、学習されたプロジェクションを通して進化するノード表現の構築。 軌道は構造的コヒーレンスと時間的コヒーレンスという2つの性質を満たしており、これは信頼できる推論の基本的なものである。 さらに,推定軌跡の誤差を厳密に制御できる推定理論を考案し,ノイズに敏感な追従解析でもその表現が利用できることを示す。 この理論はまた、偏分散トレードオフとしての平滑化の役割を解明し、ネットワーク全体の「ボーリング強度」のアルゴリズムを考慮すると、信号対雑音比が増加するにつれて平滑化のレベルをいかに低減できるかを示す。

We present a new representation learning framework, Intensity Profile Projection, for continuous-time dynamic network data. Given triples $(i,j,t)$, each representing a time-stamped ($t$) interaction between two entities ($i,j$), our procedure returns a continuous-time trajectory for each node, representing its behaviour over time. The framework consists of three stages: estimating pairwise intensity functions, e.g. via kernel smoothing; learning a projection which minimises a notion of intensity reconstruction error; and constructing evolving node representations via the learned projection. The trajectories satisfy two properties, known as structural and temporal coherence, which we see as fundamental for reliable inference. Moreoever, we develop estimation theory providing tight control on the error of any estimated trajectory, indicating that the representations could even be used in quite noise-sensitive follow-on analyses. The theory also elucidates the role of smoothing as a bias-variance trade-off, and shows how we can reduce the level of smoothing as the signal-to-noise ratio increases on account of the algorithm `borrowing strength' across the network.
翻訳日:2024-01-18 21:27:08 公開日:2024-01-17
# フラッド検出における量子ボルツマンマシンによる教師なし異常検出の探索

Exploring Unsupervised Anomaly Detection with Quantum Boltzmann Machines in Fraud Detection ( http://arxiv.org/abs/2306.04998v3 )

ライセンス: Link先を確認
Jonas Stein, Dani\"elle Schuman, Magdalena Benkard, Thomas Holger, Wanja Sajko, Michael K\"olle, Jonas N\"u{\ss}lein, Leo S\"unkel, Olivier Salomon, Claudia Linnhoff-Popien(参考訳) エンドポイント検出・応答における異常検出(EDR)は,大企業のサイバーセキュリティプログラムにおいて重要な課題である。 データが急速に増加し、ゼロデイ攻撃が全滅する中、手動およびルールベースの検出技術は現実には適用できない。 この問題に対する古典的な機械学習アプローチは存在するが、悪質な異常と悪質な異常を区別する際の不満足なパフォーマンスをしばしば示す。 現在使われている機械学習技術よりも優れた一般化を実現するための有望なアプローチは量子生成モデルである。 利用可能な量子ハードウェア上で最大のデータ表現を実現するため,量子アニーリングに基づく量子ボルツマンマシン(QBM)について検討する。 本研究は,QBMを用いた異常検出問題に対する最初の教師なしアプローチであり,EDRによる合成データセットの性能評価を行う。 以上の結果から,qbmは,特殊ケースにおける結果品質やトレーニングステップにおいて,古典的アナログ(すなわち制限ボルツマン機械)を上回ることができることが示唆された。 D-Wave SystemsのQuantum Annealersを利用する場合、シミュレーション結果を量子ハードウェア上で再現するために必要となるハイパーパラメータ最適化を行うために、より正確な古典的シミュレータかQPU時間が必要であると結論付ける。

Anomaly detection in Endpoint Detection and Response (EDR) is a critical task in cybersecurity programs of large companies. With rapidly growing amounts of data and the omnipresence of zero-day attacks, manual and rule-based detection techniques are no longer eligible in practice. While classical machine learning approaches to this problem exist, they frequently show unsatisfactory performance in differentiating malicious from benign anomalies. A promising approach to attain superior generalization than currently employed machine learning techniques are quantum generative models. Allowing for the largest representation of data on available quantum hardware, we investigate Quantum Annealing based Quantum Boltzmann Machines (QBMs) for the given problem. We contribute the first fully unsupervised approach for the problem of anomaly detection using QBMs and evaluate its performance on an EDR inspired synthetic dataset. Our results indicate that QBMs can outperform their classical analog (i.e., Restricted Boltzmann Machines) in terms of result quality and training steps in special cases. When employing Quantum Annealers from D-Wave Systems, we conclude that either more accurate classical simulators or substantially more QPU time is needed to conduct the necessary hyperparameter optimization allowing to replicate our simulation results on quantum hardware.
翻訳日:2024-01-18 21:26:22 公開日:2024-01-17
# 極端量子性の正則基底

Orthonormal bases of extreme quantumness ( http://arxiv.org/abs/2306.00532v3 )

ライセンス: Link先を確認
Marcin Rudzi\'nski, Adam Burchardt, Karol \.Zyczkowski(参考訳) スピン反コヒーレント状態は最近最も「量子」状態として多くの注目を集めた。 いくつかのコヒーレントおよび反コヒーレントスピン状態は最適量子ロトセンサーとして知られている。 本研究では,スピン状態の正規直交基底に対する量子性の測度を,個々のベクトルとWehrlエントロピーの平均的反コヒーレンスによって決定する。 このようにして、最もコヒーレントで最も量子的な状態を特定し、極端量子度を直交的に測定する。 それらの対称性は、球面上の点による純粋状態の直感的な幾何学的表現を提供するマヨラナ星表象を用いて明らかにすることができる。 その結果、(2j$ qubits からなる多成分系の状態の 2^{2j}$ 次元空間の 2j+1 次元対称部分空間における最大(最小)絡み合った基底が導かれる。 いくつかの基底は同程度のスピンコヒーレンスを持つ全ての状態からなるため、アイソコヒーレントである。

Spin anticoherent states acquired recently a lot of attention as the most "quantum" states. Some coherent and anticoherent spin states are known as optimal quantum rotosensors. In this work, we introduce a measure of quantumness for orthonormal bases of spin states, determined by the average anticoherence of individual vectors and the Wehrl entropy. In this way, we identify the most coherent and most quantum states, which lead to orthogonal measurements of extreme quantumness. Their symmetries can be revealed using the Majorana stellar representation, which provides an intuitive geometrical representation of a pure state by points on a sphere. Results obtained lead to maximally (minimally) entangled bases in the $2j+1$ dimensional symmetric subspace of the $2^{2j}$ dimensional space of states of multipartite systems composed of $2j$ qubits. Some bases found are iso-coherent as they consist of all states of the same degree of spin-coherence.
翻訳日:2024-01-18 21:26:01 公開日:2024-01-17
# 自己監督型視覚マスキングによる画質予測の強化

Enhancing image quality prediction with self-supervised visual masking ( http://arxiv.org/abs/2305.19858v2 )

ライセンス: Link先を確認
U\u{g}ur \c{C}o\u{g}alan, Mojtaba Bemana, Hans-Peter Seidel, Karol Myszkowski(参考訳) フルリファレンス画像品質指標(FR-IQMs)は、人間の判断を正確に予測することを目的として、参照画像と歪画像の対の視覚的差異を測定することを目的としている。 しかし、既存のFR-IQMは、PSNRやSSIMのような従来のものや、HDR-VDP、LPIPS、disTSのような知覚的なものさえも、人間の知覚の複雑さやニュアンスを捉えるのに不足している。 本研究では,新しいIQMモデルを開発するのではなく,既存のFR-IQM手法の知覚的品質の向上を目指す。 局所的な画像内容の関数としての歪みに対する感度を変化させる人間の視覚システムの重要な特徴である視覚マスキングを考慮し、これを実現する。 具体的には、与えられたfr-iqmメトリックに対して、参照および歪んだ画像を可視性に基づいてペナライズする方法で変調する視覚マスキングモデルを予測することを提案する。 基底真理の視覚的マスクは入手が難しいため,fr-iqmデータセットから収集した平均意見スコア(mos)のみに基づいて,自己教師あり方式でそれらを導出する方法を実証する。 提案手法は, 視覚的および定量的に人間の予測に合致したfr-iqm指標を向上させる。

Full-reference image quality metrics (FR-IQMs) aim to measure the visual differences between a pair of reference and distorted images, with the goal of accurately predicting human judgments. However, existing FR-IQMs, including traditional ones like PSNR and SSIM and even perceptual ones such as HDR-VDP, LPIPS, and DISTS, still fall short in capturing the complexities and nuances of human perception. In this work, rather than devising a novel IQM model, we seek to improve upon the perceptual quality of existing FR-IQM methods. We achieve this by considering visual masking, an important characteristic of the human visual system that changes its sensitivity to distortions as a function of local image content. Specifically, for a given FR-IQM metric, we propose to predict a visual masking model that modulates reference and distorted images in a way that penalizes the visual errors based on their visibility. Since the ground truth visual masks are difficult to obtain, we demonstrate how they can be derived in a self-supervised manner solely based on mean opinion scores (MOS) collected from an FR-IQM dataset. Our approach results in enhanced FR-IQM metrics that are more in line with human prediction both visually and quantitatively.
翻訳日:2024-01-18 21:25:45 公開日:2024-01-17
# 1次元デクスター型励起位相相転移

One-dimensional Dexter-type excitonic topological phase transition ( http://arxiv.org/abs/2305.18299v4 )

ライセンス: Link先を確認
Jianhua Zhu, Ji Chen, and Wei Wu(参考訳) 近年、トポジカル・エクイティトンが注目されている。 しかし、1次元における励起子のトポロジカルな性質の研究はいまだに稀である。 ここでは、一般の1次元二量体励起子模型のzak位相を計算した。 関連するホッピングパラメータのチューニングは、従来のsu-shcrieffer-heegerモデルと異なり一様鎖の非自明な位相相、位相的に非自明なフラットバンド、エキゾチックな分数相を含む、物理学の豊富なスペクトルをもたらす。 計算のZak位相を$$\pi$と解釈するために ``composite chiral site' という新しい概念が開発された。 有限連鎖計算は位相的エッジ状態に準じ、その特性に関するより多くの情報を提供する。 最も重要なことは、初めてデクスター電子交換プロセスで補助される位相相転移が発見されたことである。

Recently topogical excitons have attracted much attention. However, studies on the topological properties of excitons in one dimension are still rare. Here we have computed the Zak phase for a generic one-dimensional dimerised excitonic model. Tuning relevant hopping parameters gives rise to a rich spectrum of physics, including non-trivial topological phase in uniform chain unlike the conventional Su-Shcrieffer-Heeger model, topologically nontrivial flat bands, and exotic fractional phase. a new concept of ``composite chiral site" was developed to interpret the Zak phase of $\pi$ in our calculations. Our finite-chain calculations substantiate topological edge states, providing more information about their characteristics. Most importantly, in the first time, a topological phase transition assisted by the Dexter electron exchange process has been found.
翻訳日:2024-01-18 21:25:21 公開日:2024-01-17
# 確率的画像テキスト表現の改善

Improved Probabilistic Image-Text Representations ( http://arxiv.org/abs/2305.18171v3 )

ライセンス: Link先を確認
Sanghyuk Chun(参考訳) 基本視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションに起因する固有の曖昧さに悩まされている。 決定論的関数はあいまいさを捉えるのに十分強力ではないため、挑戦に取り組む確率的埋め込みの探求が促進される。 しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。 そこで本論文では,PCME++ という名称の確率的クロスモーダル埋め込みを改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。 さらに、PCME++をさらに強化する2つの最適化手法が提案されている。第1に、偽陰性の下での損失飽和問題を防ぐために擬陽性を組み込むこと、第2に、確率的マッチングのための混合サンプルデータ拡張である。 MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。 さらに、ゼロショット分類のための自動プロンプトチューニングにおけるPCME++の適用可能性を示す。 コードはhttps://github.com/naver-ai/pcmeppで入手できる。

Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further: first, the incorporation of pseudo-positives to prevent the loss saturation problem under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt tuning for zero-shot classification is shown. The code is available at https://github.com/naver-ai/pcmepp.
翻訳日:2024-01-18 21:25:06 公開日:2024-01-17
# 因果成分分析

Causal Component Analysis ( http://arxiv.org/abs/2305.17225v3 )

ライセンス: Link先を確認
Liang Wendong, Armin Keki\'c, Julius von K\"ugelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Sch\"olkopf(参考訳) 独立成分分析(ICA)は、観測された混合物から独立潜伏変数を回収することを目的としている。 因果表現学習(crl)は、因果関係をエンコードする未知グラフとともに、因果関係(統計的に依存することが多い)の潜在変数を推論することを目的としている。 因果成分分析(CauCA)と呼ばれる中間問題を導入する。 CauCAはICAの一般化であり、潜伏成分間の因果依存性をモデル化し、CRLの特別な場合と見なすことができる。 CRLとは対照的に、因果グラフの知識を前提とし、未混合関数と因果機構の学習にのみ焦点をあてる。 CauCAにおける基底真理の回復に関するあらゆる不可能な結果は、CRLにも適用され、CRLの拡張のためのステップストーンとして機能する可能性がある。 潜在因果変数の異なる種類の介入によって生成された複数のデータセットからcaucaの識別性を特徴付ける。 この介入的な視点は、非線形ica -- 空グラフを持つcaucaの特別な場合 -- に対して、以前の結果よりも厳密に少ないデータセットを必要とする新しい識別可能性結果をもたらす。 本研究では,非混合関数と因果機構の両方を推定するために正規化フローを用いた可能性に基づくアプローチを導入し,CauCAおよびICA設定における広範囲な合成実験によりその効果を実証する。

Independent Component Analysis (ICA) aims to recover independent latent variables from observed mixtures thereof. Causal Representation Learning (CRL) aims instead to infer causally related (thus often statistically dependent) latent variables, together with the unknown graph encoding their causal relationships. We introduce an intermediate problem termed Causal Component Analysis (CauCA). CauCA can be viewed as a generalization of ICA, modelling the causal dependence among the latent components, and as a special case of CRL. In contrast to CRL, it presupposes knowledge of the causal graph, focusing solely on learning the unmixing function and the causal mechanisms. Any impossibility results regarding the recovery of the ground truth in CauCA also apply for CRL, while possibility results may serve as a stepping stone for extensions to CRL. We characterize CauCA identifiability from multiple datasets generated through different types of interventions on the latent causal variables. As a corollary, this interventional perspective also leads to new identifiability results for nonlinear ICA -- a special case of CauCA with an empty graph -- requiring strictly fewer datasets than previous results. We introduce a likelihood-based approach using normalizing flows to estimate both the unmixing function and the causal mechanisms, and demonstrate its effectiveness through extensive synthetic experiments in the CauCA and ICA setting.
翻訳日:2024-01-18 21:24:43 公開日:2024-01-17
# 拡散型逆試料生成によるステルス性および制御性の向上

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability ( http://arxiv.org/abs/2305.16494v3 )

ライセンス: Link先を確認
Haotian Xue, Alexandre Araujo, Bin Hu, Yongxin Chen(参考訳) ニューラルネットワークは、敵対的なサンプルに影響を受けやすいことが知られている。 デジタルシナリオや物理的シナリオでは勾配ベースの技術を使って簡単に生成できるが、自然画像の実際のデータ分布とは大きく異なり、強度とステルスネスのトレードオフをもたらす。 本稿では,Diffusion-based Projected Gradient Descent (Diff-PGD) と呼ばれる,現実的な対向サンプルを生成する新しいフレームワークを提案する。 拡散モデルで導かれる勾配を利用して、Diff-PGDは、逆サンプルが元のデータ分布に近づきながら有効性を維持する。 さらに,デジタルアタックや物理世界アタック,スタイルベースのアタックといった特定のタスクに対して,我々のフレームワークを簡単にカスタマイズできる。 従来の自然型逆解析法と比較して,他のサーロゲート損失(コンテンツ・スムースネス・スタイル損失など)から逆解析の最適化を分離し,より安定して制御可能とした。 最後に, Diff-PGD を用いて生成した試料は, 従来の勾配法よりも高い透過性, 抗精製能を有することを示した。 コードはhttps://github.com/xavihart/Diff-PGDでリリースされる

Neural networks are known to be susceptible to adversarial samples: small variations of natural examples crafted to deliberately mislead the models. While they can be easily generated using gradient-based techniques in digital and physical scenarios, they often differ greatly from the actual data distribution of natural images, resulting in a trade-off between strength and stealthiness. In this paper, we propose a novel framework dubbed Diffusion-Based Projected Gradient Descent (Diff-PGD) for generating realistic adversarial samples. By exploiting a gradient guided by a diffusion model, Diff-PGD ensures that adversarial samples remain close to the original data distribution while maintaining their effectiveness. Moreover, our framework can be easily customized for specific tasks such as digital attacks, physical-world attacks, and style-based attacks. Compared with existing methods for generating natural-style adversarial samples, our framework enables the separation of optimizing adversarial loss from other surrogate losses (e.g., content/smoothness/style loss), making it more stable and controllable. Finally, we demonstrate that the samples generated using Diff-PGD have better transferability and anti-purification power than traditional gradient-based methods. Code will be released in https://github.com/xavihart/Diff-PGD
翻訳日:2024-01-18 21:23:57 公開日:2024-01-17
# SummaryMixing: 音声認識と理解のための自己認識に代わる線形複雑度

SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding ( http://arxiv.org/abs/2307.07421v2 )

ライセンス: Link先を確認
Titouan Parcollet and Rogier van Dalen and Shucong Zhang and Sourav Bhattacharya(参考訳) 現代の音声処理システムは自己注意に依存している。 残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論が遅くなり、トレーニングが遅くなり、メモリ消費が増加する。 ASRの自己注意に代わる安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。 そこで本稿では,自己注意に代わる新しい線形時間法を提案する。 これは全ての時間ステップに対して平均オーバーベクターと発話を要約する。 この単一の要約は、時間固有の情報と組み合わせられる。 この手法を "summarymixing" と呼ぶ。 現状のASRモデルにおけるScriseMixingの導入により、トレーニングと推論時間を最大28$\%まで下げ、メモリ予算を2倍に削減しながら、従来の音声認識性能を維持または超えることが可能となる。 要約ミキシングの利点は、音声理解などの他の音声処理タスクにも一般化することができる。

Modern speech processing systems rely on self-attention. Unfortunately, token mixing with self-attention takes quadratic time in the length of the speech utterance, slowing down inference as well as training and increasing memory consumption. Cheaper alternatives to self-attention for ASR have been developed, but they fail to consistently reach the same level of accuracy. This paper, therefore, proposes a novel linear-time alternative to self-attention. It summarises an utterance with the mean over vectors for all time steps. This single summary is then combined with time-specific information. We call this method "SummaryMixing". Introducing SummaryMixing in state-of-the-art ASR models makes it feasible to preserve or exceed previous speech recognition performance while lowering the training and inference times by up to 28$\%$ and reducing the memory budget by a factor of two. The benefits of SummaryMixing can also be generalized to other speech-processing tasks, such as speech understanding.
翻訳日:2024-01-18 21:16:42 公開日:2024-01-17
# 量子セルオートマトンにおけるゼータ関数の絶対ゼータ関数

Absolute zeta functions for zeta functions of quantum cellular automata ( http://arxiv.org/abs/2307.07106v2 )

ライセンス: Link先を確認
Jir\^o Akahori, Norio Konno, Iwao Sato(参考訳) 前回の研究では, 相互作用粒子系(IPS)のゼータ関数, 量子セルオートマトン (QCA) を, ``IPS/Zeta 対応の研究の典型的なモデルとして扱った。 一方、絶対ゼータ函数は絶対自己形式を満たす関数によって定義されるF_1上のゼータ函数である。 本稿では, qca が与える新たなゼータ関数が, 構成空間の大きさに依存した絶対保型形式であることを示す。 例えば、テンソル型QCAの絶対ゼータ関数を計算し、それが多重ガンマ関数として表されることを示す。 さらに,多重正弦関数による関数式を得る。

Our previous work dealt with the zeta function for the interacting particle system (IPS) including quantum cellular automaton (QCA) as a typical model in the study of ``IPS/Zeta Correspondence". On the other hand, the absolute zeta function is a zeta function over F_1 defined by a function satisfying an absolute automorphy. This paper proves that a new zeta function given by QCA is an absolute automorphic form of weight depending on the size of the configuration space. As an example, we calculate an absolute zeta function for a tensor-type QCA, and show that it is expressed as the multiple gamma function. In addition, we obtain its functional equation by the multiple sine function.
翻訳日:2024-01-18 21:16:25 公開日:2024-01-17
# デュアルユニタリ回路における量子多体傷跡

Quantum Many-Body Scars in Dual-Unitary Circuits ( http://arxiv.org/abs/2307.06755v2 )

ライセンス: Link先を確認
Leonard Logari\'c, Shane Dooley, Silvia Pappalardi, John Goold(参考訳) デュアルユニタリ回路(英: Dual-unitary circuits)は、様々な量の正確な計算が可能となる量子系のクラスである。 既知の正確な結果の配列は、急速に熱化するシステムとしてデュアルユニタリ回路の説得力のあるイメージを描いている。 しかし,本論文では,回路が「最大カオス的」でエルゴード的,混合的でありながら,単純な初期状態が熱分解に失敗する二元系回路を構築する方法を提案する。 これは任意の大きさと局所ヒルベルト空間次元の回路に量子多体傷を埋め込むことによって達成される。 我々は,非scar初期状態と比較して,初期スカー状態からエンタングルメント成長速度の著しいコントラストを示す数値シミュレーションを用いて解析結果を支持する。 この結果は,回路レイアウトと現在のディジタル量子シミュレータのネイティブ構造との互換性から,実験実験に適している。

Dual-unitary circuits are a class of quantum systems for which exact calculations of various quantities are possible, even for circuits that are nonintegrable. The array of known exact results paints a compelling picture of dual-unitary circuits as rapidly thermalizing systems. However, in this Letter, we present a method to construct dual-unitary circuits for which some simple initial states fail to thermalize, despite the circuits being "maximally chaotic," ergodic and mixing. This is achieved by embedding quantum many-body scars in a circuit of arbitrary size and local Hilbert space dimension. We support our analytic results with numerical simulations showing the stark contrast in the rate of entanglement growth from an initial scar state compared to nonscar initial states. Our results are well suited to an experimental test, due to the compatibility of the circuit layout with the native structure of current digital quantum simulators.
翻訳日:2024-01-18 21:16:16 公開日:2024-01-17
# 画像背景は分散データの優れたプロキシとして機能する

Image Background Serves as Good Proxy for Out-of-distribution Data ( http://arxiv.org/abs/2307.00519v2 )

ライセンス: Link先を確認
Sen Pei(参考訳) out-of-distribution (ood) 検出は、オープンワールドにおける未知のデータを識別するために、クローズドイメージセットでトレーニングされたモデルを強化する。 多くの先行技術がこの研究の方向性に大きな改善をもたらしたが、2つの重要な障害が残っている。 第一に、先進的な芸術を個々のデザインで見るための統一的な視点はまだ提示されておらず、将来の仕事への洞察を提供するのに不可欠である。 第2に,OOD の明示的なサンプルを収集することなく,ID と OOD データ間のコンパクトな境界の生成を促進するために,十分な天然 OOD 監督を期待する。 これらの問題に対処するために,既存の多くのメソッドと OOD-data-free モデル,すなわち \textbf{S}elf-supervised \textbf{S}ampling for \textbf{O}OD \textbf{D}etection (SSOD)を提案する。 SSODは、畳み込みの局所特性に基づいて、IDデータから自然のOOD信号を効率的に活用する。 これらの監視により、OOD検出と従来のID分類をエンドツーエンドで共同で最適化する。 広範囲な実験により、ssodは多くの大規模ベンチマークで最先端のパフォーマンスを確立しており、従来の手法を大差で上回っており、 \eg, reporting \textbf{-6.28\%} fpr95 と \textbf{+0.77\%} auroc on imagenet, \textbf{-19.01\%} fpr95 と \textbf{+3.04\%} auroc on cifar-10 と hard ood datasets, \ie, imagenet-o and openimage-o の上位パフォーマンスを上回っている。

Out-of-distribution (OOD) detection empowers the model trained on the closed image set to identify unknown data in the open world. Though many prior techniques have yielded considerable improvements in this research direction, two crucial obstacles still remain. Firstly, a unified perspective has yet to be presented to view the developed arts with individual designs, which is vital for providing insights into future work. Secondly, we expect sufficient natural OOD supervision to promote the generation of compact boundaries between the in-distribution (ID) and OOD data without collecting explicit OOD samples. To tackle these issues, we propose a general probabilistic framework to interpret many existing methods and an OOD-data-free model, namely \textbf{S}elf-supervised \textbf{S}ampling for \textbf{O}OD \textbf{D}etection (SSOD). SSOD efficiently exploits natural OOD signals from the ID data based on the local property of convolution. With these supervisions, it jointly optimizes the OOD detection and conventional ID classification in an end-to-end manner. Extensive experiments reveal that SSOD establishes competitive state-of-the-art performance on many large-scale benchmarks, outperforming the best previous method by a large margin, \eg, reporting \textbf{-6.28\%} FPR95 and \textbf{+0.77\%} AUROC on ImageNet, \textbf{-19.01\%} FPR95 and \textbf{+3.04\%} AUROC on CIFAR-10, and top-ranked performance on hard OOD datasets, \ie, ImageNet-O and OpenImage-O.
翻訳日:2024-01-18 21:15:15 公開日:2024-01-17
# スコアベース音源分離とディジタル通信信号への応用

Score-based Source Separation with Applications to Digital Communication Signals ( http://arxiv.org/abs/2306.14411v3 )

ライセンス: Link先を確認
Tejas Jayashankar, Gary C.F. Lee, Alejandro Lancho, Amir Weiss, Yury Polyanskiy, Gregory W. Wornell(参考訳) 拡散型生成モデルを用いた重畳音源の分離手法を提案する。 本手法は,複数のガウス平滑化レベルにまたがって,後続推定の最大化によって導かれる新しい目的関数を確立するために,独立した情報源の個別に訓練された統計前置値のみに依存する。 無線周波数(RF)システムへの応用により、我々は、ビット誤り率(BER)によって測定された、興味のある信号からの離散特性と符号化ビットの回復の基盤となる情報源に興味を持っている。 RF混合実験の結果,従来の学習法と既存学習法を比べ,BERの95%削減効果が示された。 解析の結果,提案手法は離散分布のモードに漸近的にアプローチする解を導出することが示された。 さらに,本手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張として,条件付きサンプリング以外の用途に光を流し込むことができる。 プロジェクトwebページはhttps://alpha-rgs.github.ioで入手できる。

We propose a new method for separating superimposed sources using diffusion-based generative models. Our method relies only on separately trained statistical priors of independent sources to establish a new objective function guided by maximum a posteriori estimation with an $\alpha$-posterior, across multiple levels of Gaussian smoothing. Motivated by applications in radio-frequency (RF) systems, we are interested in sources with underlying discrete nature and the recovery of encoded bits from a signal of interest, as measured by the bit error rate (BER). Experimental results with RF mixtures demonstrate that our method results in a BER reduction of 95% over classical and existing learning-based methods. Our analysis demonstrates that our proposed method yields solutions that asymptotically approach the modes of an underlying discrete distribution. Furthermore, our method can be viewed as a multi-source extension to the recently proposed score distillation sampling scheme, shedding additional light on its use beyond conditional sampling. The project webpage is available at https://alpha-rgs.github.io
翻訳日:2024-01-18 21:14:27 公開日:2024-01-17
# 言語モデルのオンライン蒸留:自己生成ミスから学ぶ

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes ( http://arxiv.org/abs/2306.13649v3 )

ライセンス: Link先を確認
Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem(参考訳) 知識蒸留(KD)は、より小さな学生モデルを訓練することにより、推論コストとメモリフットプリントを減らすために教師モデルを圧縮するために広く用いられている。 しかし, 自己回帰系列モデルに対する現在のkd法は, 学習中の出力列と推論中の生徒の出力列の分布ミスマッチに苦しむ。 この問題に対処するため,一般知識蒸留(GKD)を導入する。 GKDは、固定された出力シーケンスにのみ依存するのではなく、教師からのフィードバックを利用して、学生を自己生成出力シーケンスで訓練する。 教師付きKDアプローチとは異なり、GKDは生徒と教師の間で代替の損失関数を利用する柔軟性を提供する。 さらに、GKDは蒸留とRL微細調整(RLHF)のシームレスな統合を促進する。 自動回帰言語モデルの蒸留におけるGKDの有効性を, 要約, 翻訳, 算術的推論タスク, タスク非依存蒸留による指導訓練における有効性を示す。

Knowledge distillation (KD) is widely used for compressing a teacher model to reduce its inference cost and memory footprint, by training a smaller student model. However, current KD methods for auto-regressive sequence models suffer from distribution mismatch between output sequences seen during training and those generated by the student during inference. To address this issue, we introduce Generalized Knowledge Distillation (GKD). Instead of solely relying on a fixed set of output sequences, GKD trains the student on its self-generated output sequences by leveraging feedback from the teacher on such sequences. Unlike supervised KD approaches, GKD also offers the flexibility to employ alternative loss functions between the student and teacher, which can be useful when the student lacks the expressivity to mimic the teacher's distribution. Furthermore, GKD facilitates the seamless integration of distillation with RL fine-tuning (RLHF). We demonstrate the efficacy of GKD for distilling auto-regressive language models on summarization, translation, and arithmetic reasoning tasks, and task-agnostic distillation for instruction-tuning.
翻訳日:2024-01-18 21:14:07 公開日:2024-01-17
# 高次元エンタングルメント上の可逆符号化は量子通信を改善する

Irreversible encoding on high-dimensional entanglement improves quantum communication ( http://arxiv.org/abs/2306.13495v2 )

ライセンス: Link先を確認
Yu Guo, Hao Tang, Jef Pauwels, Emmanuel Zambrini Cruzeiro, Xiao-Min Hu, Bi-Heng Liu, Yu-Feng Huang, Chuan-Feng Li, Guang-Can Guo, and Armin Tavakoli(参考訳) 共有絡み合いは、限られた量子チャネル上で相互作用するシステム間の古典的相関を著しく増幅することができる。 自然な道は、測定が行われるまでグローバルなコヒーレンスを保持するユニタリエンコーディングを可能にするため、チャネルと同じ次元のエンタングルメントを使用することである。 これとは対照的に、ここでは、可逆エンコーディング操作が任意のコヒーレンス保存プロトコルを上回ることができる、qubitチャネルに基づく分散タスクを示す。 これは、サブシステムの1つをキュービットに圧縮することで、高次元の絡み合いとエンコード情報の使用に対応する。 この現象を実証するには、4次元の極大絡み合い状態、つまり2つの量子ビットを1つに圧縮し、全てのモジュールをほぼ最適の忠実度で実行することが必要である。 本稿では, 単一光子の独立かつ独立に制御された経路において, 独立系を実現することにより, 優位性を示す実証実験について報告する。 本結果は,標準量子ビット伝送の通信能力を高めるために,高次元エンタングルメントと非単位演算の関連性を示す。

Shared entanglement can significantly amplify classical correlations between systems interacting over a limited quantum channel. A natural avenue is to use entanglement of the same dimension as the channel because this allows for unitary encodings, which preserve global coherence until a measurement is performed. Contrasting this, we here demonstrate a distributed task based on a qubit channel, for which irreversible encoding operations can outperform any possible coherence-preserving protocol. This corresponds to using high-dimensional entanglement and encoding information by compressing one of the subsystems into a qubit. Demonstrating this phenomenon requires the preparation of a four-dimensional maximally entangled state, the compression of two qubits into one and joint qubit-ququart entangled measurements, with all modules executed at near-optimal fidelity. We report on a proof-of-principle experiment that achieves the advantage by realizing separate systems in distinct and independently controlled paths of a single photon. Our result demonstrates the relevance of high-dimensional entanglement and non-unitary operations for enhancing the communication capabilities of standard qubit transmissions.
翻訳日:2024-01-18 21:13:48 公開日:2024-01-17
# 制約付きmdpのためのラストiterate convergent policy gradient primal-dual method

Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs ( http://arxiv.org/abs/2306.11700v2 )

ライセンス: Link先を確認
Dongsheng Ding and Chen-Yu Wei and Kaiqing Zhang and Alejandro Ribeiro(参考訳) 本研究では,無限水平割引制約付きマルコフ決定過程(制約付きMDP)の最適ポリシの計算問題について検討する。 実際にはラグランジアンベースの政策探索手法が普及しているにもかかわらず、これらの手法におけるポリシーの振動は十分に理解されておらず、制約違反やハイパーパラメータに対する感度といった問題が発生する。 このギャップを埋めるために、ラグランジアン法を用いて、最大/最小のプレイヤーがそれぞれ原始的/双対変数に対応する制約付きサドルポイント問題に制約付きMDPを投入し、それらのポリシーの漸近収束が最適な制約付きポリシーに反復する2つの単一時間スケールポリシーベースの原始双対アルゴリズムを開発する。 具体的には、まず、エントロピー正規化ポリシー勾配を用いてポリシーを更新する正規化ポリシー勾配最小二元(RPG-PD)法と、2次正規化ポリシー勾配の上昇による双対変数を同時に提案する。 我々は,rpg-pdの原理的二元的イテレートが準線形率で正規化されたサドル点に収束するのに対し,政策イテレートは最適制約付きポリシーに準線形に収束することを示す。 我々はさらに,政策パラメトリゼーションにおける関数近似を含め,rpg-pdを大きな状態や動作空間でインスタンス化し,同様のサブリニア・ラストイテレート・ポリシー収束を確立する。 第2に,楽観的勾配法を用いて一次/二重変数を同時に更新する楽観的方針勾配法(OPG-PD)を提案する。 我々は,opg-pdの原理的二元的イテレートが,線形率の最適制約付きポリシーを含む鞍点に収束することを証明する。 我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。

We study the problem of computing an optimal policy of an infinite-horizon discounted constrained Markov decision process (constrained MDP). Despite the popularity of Lagrangian-based policy search methods used in practice, the oscillation of policy iterates in these methods has not been fully understood, bringing out issues such as violation of constraints and sensitivity to hyper-parameters. To fill this gap, we employ the Lagrangian method to cast a constrained MDP into a constrained saddle-point problem in which max/min players correspond to primal/dual variables, respectively, and develop two single-time-scale policy-based primal-dual algorithms with non-asymptotic convergence of their policy iterates to an optimal constrained policy. Specifically, we first propose a regularized policy gradient primal-dual (RPG-PD) method that updates the policy using an entropy-regularized policy gradient, and the dual variable via a quadratic-regularized gradient ascent, simultaneously. We prove that the policy primal-dual iterates of RPG-PD converge to a regularized saddle point with a sublinear rate, while the policy iterates converge sublinearly to an optimal constrained policy. We further instantiate RPG-PD in large state or action spaces by including function approximation in policy parametrization, and establish similar sublinear last-iterate policy convergence. Second, we propose an optimistic policy gradient primal-dual (OPG-PD) method that employs the optimistic gradient method to update primal/dual variables, simultaneously. We prove that the policy primal-dual iterates of OPG-PD converge to a saddle point that contains an optimal constrained policy, with a linear rate. To the best of our knowledge, this work appears to be the first non-asymptotic policy last-iterate convergence result for single-time-scale algorithms in constrained MDPs.
翻訳日:2024-01-18 21:13:29 公開日:2024-01-17
# 強化学習におけるマルチレベルスキル階層の構築

Creating Multi-Level Skill Hierarchies in Reinforcement Learning ( http://arxiv.org/abs/2306.09980v2 )

ライセンス: Link先を確認
Joshua B. Evans and \"Ozg\"ur \c{S}im\c{s}ek(参考訳) 自律エージェントにとって有用なスキル階層とは何か? エージェントと環境との相互作用がどのように展開されるかのグラフィカルな表現に基づく回答を提案する。 提案手法では,モジュール性の最大化を中心的な組織原理として利用し,インタラクショングラフの構造を抽象化レベルで公開する。 結果として、さまざまな時間スケールで活動するスキルの集合が階層構造となり、より長い時間スケールで活動するスキルは、短い時間スケールで活動するスキルで構成されます。 スキル階層全体が自動的に生成され、人の介入なしに、スキル自体(呼び出される時の振る舞い、終了時の振る舞い)と、それらの間の階層的な依存関係構造を含む。 幅広い環境において、このアプローチは直感的に魅力的なスキル階層を生成し、エージェントの学習性能を大幅に向上させる。

What is a useful skill hierarchy for an autonomous agent? We propose an answer based on a graphical representation of how the interaction between an agent and its environment may unfold. Our approach uses modularity maximisation as a central organising principle to expose the structure of the interaction graph at multiple levels of abstraction. The result is a collection of skills that operate at varying time scales, organised into a hierarchy, where skills that operate over longer time scales are composed of skills that operate over shorter time scales. The entire skill hierarchy is generated automatically, with no human intervention, including the skills themselves (their behaviour, when they can be called, and when they terminate) as well as the hierarchical dependency structure between them. In a wide range of environments, this approach generates skill hierarchies that are intuitively appealing and that considerably improve the learning performance of the agent.
翻訳日:2024-01-18 21:12:47 公開日:2024-01-17
# 非対称対称性による非エルミート皮膚効果

Non-Hermitian skin effect enforced by nonsymmorphic symmetries ( http://arxiv.org/abs/2306.08923v3 )

ライセンス: Link先を確認
Yutaro Tanaka, Ryo Takahashi, and Ryo Okugawa(参考訳) 結晶対称性は非エルミートハミルトンのバンド構造において重要な役割を果たす。 本稿では,非対称対称性によって強制される非エルミート皮膚効果(NHSE)を提案する。 2次元非エルミート系が二重エルミートハミルトンの非対称性から導かれる条件を満たすと、nhse は必然的に発生する。 この nhse は時間反転対称性のない対称性クラスで起こる。 非対称対称性によって強制されるNHSEは常にゼロエネルギーにおける点ギャップの閉包と同時に起こる。 また、このような NHSE は、非同相対称性を持つ特定の3次元空間群で起こりうることを示す。

Crystal symmetries play an essential role in band structures of non-Hermitian Hamiltonian. In this paper, we propose a non-Hermitian skin effect (NHSE) enforced by nonsymmorphic symmetries. We show that the NHSE inevitably occurs if a two-dimensional non-Hermitian system satisfies conditions derived from the nonsymmorphic symmetry of the doubled Hermitian Hamiltonian. This NHSE occurs in symmetry classes with and without time-reversal symmetry. The NHSE enforced by nonsymmorphic symmetries always occurs simultaneously with the closing of the point gap at zero energy. We also show that such a NHSE can occur in specific three-dimensional space groups with nonsymmorphic symmetries.
翻訳日:2024-01-18 21:12:14 公開日:2024-01-17
# 内部的効用判断を伴う合理的意思決定エージェント

Rational Decision-Making Agent with Internalized Utility Judgment ( http://arxiv.org/abs/2308.12519v2 )

ライセンス: Link先を確認
Yining Ye, Xin Cong, Shizuo Tian, Yujia Qin, Chong Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun(参考訳) 大規模言語モデル(LLM)は目覚ましい進歩を示しており、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行することができるエージェントにLLMを開発するための重要な努力を惹きつけている。 LLMベースの意思決定への既存のアプローチは、主に手動で設計した外部パフォーマンスメトリクスに基づいて意思決定プロセスを導く。 しかし、実際のシナリオでは、事前として外部のパフォーマンスメトリクスに依存することは問題であり、そのような前処理が使用できない、欠陥がある、あるいは誤った場合さえある。 真の自律的意思決定では、エージェントが決定を独立に判断するために、後からの経験から合理性を開発することが不可欠である。 合理性の発展の中心は、各決定に数値的なユーティリティを割り当てることができる内部的なユーティリティ判断の構築である。 本稿では,経験探索と実用学習を含む反復的枠組みによる合理性の発達を促進するラダジェント(合理的意思決定エージェント)を提案する。 このフレームワークの中で、eloベースのユーティリティ構築は、eloスコアを個々の決定ステップに割り当て、ペアワイズ比較によってユーティリティを判断するために考案される。 その結果、これらのエロスコアは意思決定プロセスに最適な結果をもたらす。 toolbenchデータセットの実験結果は、radagentがベースラインよりも優れていることを示し、さまざまなタスクでパスレートを10%以上向上させた。 高品質なソリューションを提供し、コストを削減する(ChatGPT APIコール)。

Large language models (LLMs) have demonstrated remarkable advancements and have attracted significant efforts to develop LLMs into agents capable of executing intricate multi-step decision-making tasks beyond traditional NLP applications. Existing approaches to LLM-based decision-making predominantly build upon the manually-designed external performance metrics to guide the decision-making process. However, reliance on the external performance metrics as prior is problematic in real-world scenarios, where such prior may be unavailable, flawed, or even erroneous. For genuine autonomous decision making, it is imperative for the agent to develop its rationality from its posterior experiences to judge decisions independently. Central to the development of rationality is the construction of an internalized utility judgment, capable of assigning numerical utilities to each decision. This paper proposes RadAgent (Rational Decision-Making Agent), which fosters the development of its rationality through an iterative framework involving Experience Exploration and Utility Learning. Within this framework, Elo-based Utility Construction is devised to assign Elo scores to individual decision steps to judge their utilities via pairwise comparisons. Consequently, these Elo scores guide the decision-making process to derive optimal outcomes. Experimental results on the ToolBench dataset demonstrate RadAgent's superiority over baselines, achieving over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness and efficiency.
翻訳日:2024-01-18 21:05:36 公開日:2024-01-17
# 3体制約を伴うボース・ハバード模型の量子多体傷

Quantum many-body scars in the Bose-Hubbard model with a three-body constraint ( http://arxiv.org/abs/2308.12151v2 )

ライセンス: Link先を確認
Ryui Kaneko, Masaya Kunimi, Ippei Danshita(参考訳) ボース・ハッバード (BH) モデルにおいて, 量子多体散乱 (QMBS) 状態の正確な構成をモチーフとした3体制約の正確な熱水性固有状態が, S=1$$XY$モデルで発見された。 これらの状態は、2粒子消滅作用素の線形結合からなる$\rm SU(2)$ ladder演算子を完全占有状態に適用することによって生成される。 改良されたホルシュタイン・プリマコフ展開を用いて、$S=1$$XY$モデルのQMBS状態が、追加の相関ホッピング項を持つ制約付きBHモデルと等価であることを明らかにする。 また、制約付きBHモデルの強い結合限界において、QMBS状態は、高エネルギーセクターにおける有効モデルの最低エネルギー固有状態として存在する。 この事実により、ある断熱過程におけるQMBS状態の調製が可能となり、超低温原子実験で観察できる可能性が開ける。

We uncover the exact athermal eigenstates in the Bose-Hubbard (BH) model with a three-body constraint, motivated by the exact construction of quantum many-body scar (QMBS) states in the $S=1$ $XY$ model. These states are generated by applying an $\rm SU(2)$ ladder operator consisting of a linear combination of two-particle annihilation operators to the fully occupied state. By using the improved Holstein-Primakoff expansion, we clarify that the QMBS states in the $S=1$ $XY$ model are equivalent to those in the constrained BH model with additional correlated hopping terms. We also find that, in the strong-coupling limit of the constrained BH model, the QMBS state exists as the lowest-energy eigenstate of the effective model in the highest-energy sector. This fact enables us to prepare the QMBS states in a certain adiabatic process and opens up the possibility of observing them in ultracold-atom experiments.
翻訳日:2024-01-18 21:04:55 公開日:2024-01-17
# 確率的ゆらぎに基づく拡散モデルに対するメンバーシップ推論攻撃

A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models ( http://arxiv.org/abs/2308.12143v3 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang(参考訳) メンバーシップ推論攻撃(mia)は、モデルをクエリすることで、機械学習モデルのトレーニングセットにレコードが存在するかどうかを識別する。 古典的分類モデルのMIAはよく研究されており、最近の研究でMIAを生成モデルに移植する方法が研究されている。 本研究は,既存の生成モデル用に設計されたmiasが,主に対象モデルのオーバーフィットに依存することを示唆する。 しかし,従来のMIAでは性能が低かったため,様々な正規化手法を用いることでオーバーフィッティングを回避することができる。 オーバーフィッティングとは異なり、暗記はディープラーニングモデルが最適なパフォーマンスを達成するために必須であり、より一般的な現象である。 生成モデルにおける記憶化は、メンバーレコード周辺のレコード生成確率分布の増加に繋がる。 そこで本稿では,各レコードのゆらぎを解析し,これらの傾向を検知して会員を推測するブラックボックスMIAである確率変動評価メンバーシップ推論攻撃(PFAMI)を提案する。 複数の生成モデルとデータセットにわたる広範な実験を行い、PFAMIは最高のベースラインと比較して攻撃成功率(ASR)を約27.9%向上させることができることを示した。

Membership Inference Attack (MIA) identifies whether a record exists in a machine learning model's training set by querying the model. MIAs on the classic classification models have been well-studied, and recent works have started to explore how to transplant MIA onto generative models. Our investigation indicates that existing MIAs designed for generative models mainly depend on the overfitting in target models. However, overfitting can be avoided by employing various regularization techniques, whereas existing MIAs demonstrate poor performance in practice. Unlike overfitting, memorization is essential for deep learning models to attain optimal performance, making it a more prevalent phenomenon. Memorization in generative models leads to an increasing trend in the probability distribution of generating records around the member record. Therefore, we propose a Probabilistic Fluctuation Assessing Membership Inference Attack (PFAMI), a black-box MIA that infers memberships by detecting these trends via analyzing the overall probabilistic fluctuations around given records. We conduct extensive experiments across multiple generative models and datasets, which demonstrate PFAMI can improve the attack success rate (ASR) by about 27.9% when compared with the best baseline.
翻訳日:2024-01-18 21:04:38 公開日:2024-01-17
# kinspeak:半教師付き学習手法によるkinyarwandaの音声認識改善

KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods ( http://arxiv.org/abs/2308.11863v2 )

ライセンス: Link先を確認
Antoine Nzeyimana(参考訳) 近年,Kinyarwanda音声データが大規模に書き起こされているにもかかわらず,Kinyarwandaの頑健な音声認識はいまだに困難である。 本研究では,微調整中の簡単なカリキュラムスケジュールに従って,自己教師付き事前学習を行い,半教師付き学習を用いて大きなラベルなし音声データを活用することにより,kinyarwandaの音声認識性能が大幅に向上することを示す。 我々のアプローチはパブリックドメインデータのみを使うことに重点を置いている。 新しいスタジオ品質の音声データセットは、公開ウェブサイトから収集され、クリーンなベースラインモデルをトレーニングするために使用される。 クリーンベースラインモデルは、より多様で騒がしい公開データセットの例をランク付けするために使用され、単純なカリキュラムトレーニングスケジュールを定義する。 最後に,4世代連続の大規模未ラベルデータのラベル付けと学習に半教師付き学習を適用した。 私たちの最終的なモデルは、新しいデータセットで3.2%の単語誤り率(wer)、mozilla common voiceベンチマークで15.9%のwerを達成しています。 また,文字ベースのトークン化ではなく音節を用いることで,キニルワンダの音声認識性能が向上することを示す。

Despite recent availability of large transcribed Kinyarwanda speech data, achieving robust speech recognition for Kinyarwanda is still challenging. In this work, we show that using self-supervised pre-training, following a simple curriculum schedule during fine-tuning and using semi-supervised learning to leverage large unlabelled speech data significantly improve speech recognition performance for Kinyarwanda. Our approach focuses on using public domain data only. A new studio-quality speech dataset is collected from a public website, then used to train a clean baseline model. The clean baseline model is then used to rank examples from a more diverse and noisy public dataset, defining a simple curriculum training schedule. Finally, we apply semi-supervised learning to label and learn from large unlabelled data in four successive generations. Our final model achieves 3.2% word error rate (WER) on the new dataset and 15.9% WER on Mozilla Common Voice benchmark, which is state-of-the-art to the best of our knowledge. Our experiments also indicate that using syllabic rather than character-based tokenization results in better speech recognition performance for Kinyarwanda.
翻訳日:2024-01-18 21:04:18 公開日:2024-01-17
# DFB:データフリー、低予算、高効率なクリーンラベルバックドア攻撃

DFB: A Data-Free, Low-Budget, and High-Efficacy Clean-Label Backdoor Attack ( http://arxiv.org/abs/2308.09487v4 )

ライセンス: Link先を確認
Binhao Ma, Jiahui Wang, Dejun Wang, Bo Meng(参考訳) バックドア攻撃の領域では、基本的な検出機構を避けるために、注入されたデータの正確なラベリングが不可欠である。 このインペラティブはクリーンラベル攻撃の発展を触媒し、注入されたデータの元のラベルを保存していることから顕著に解明されている。 現在のクリーンラベル攻撃手法は主にトレーニングデータセットの広範な知識に依存している。 しかしながら、トレーニングデータセットは通常、さまざまな独立したソースからコンパイルされるため、このような包括的なデータセットアクセスは、しばしば達成不可能である。 従来のクリーンラベル攻撃法とは別に,データフリー,低予算,高効率なクリーンラベルバックドアアタックであるDFBを導入した。 DFBはデータアクセスの訓練から独立しており、特定のターゲットクラスの知識のみを必要とする。 CIFAR10、Tiny-ImageNet、TSRDで試験されたDFBは、それぞれ0.1%、0.025%、0.4%の最小中毒率で顕著な効果を示す。 これらのレートは、LC、HTBA、BadNets、Blendといった既存の方法よりも大幅に低いが、DFBはより優れた攻撃成功率を達成する。 さらに,dfbは4つの確立されたバックドア・ディフェンス・アルゴリズムに対して強固な課題を生じさせ,先進的クリーンラベル・アタック・ストラテジーの強固なツールとしての可能性を示した。

In the domain of backdoor attacks, accurate labeling of injected data is essential for evading rudimentary detection mechanisms. This imperative has catalyzed the development of clean-label attacks, which are notably more elusive as they preserve the original labels of the injected data. Current clean-label attack methodologies primarily depend on extensive knowledge of the training dataset. However, practically, such comprehensive dataset access is often unattainable, given that training datasets are typically compiled from various independent sources. Departing from conventional clean-label attack methodologies, our research introduces DFB, a data-free, low-budget, and high-efficacy clean-label backdoor Attack. DFB is unique in its independence from training data access, requiring solely the knowledge of a specific target class. Tested on CIFAR10, Tiny-ImageNet, and TSRD, DFB demonstrates remarkable efficacy with minimal poisoning rates of just 0.1%, 0.025%, and 0.4%, respectively. These rates are significantly lower than those required by existing methods such as LC, HTBA, BadNets, and Blend, yet DFB achieves superior attack success rates. Furthermore, our findings reveal that DFB poses a formidable challenge to four established backdoor defense algorithms, indicating its potential as a robust tool in advanced clean-label attack strategies.
翻訳日:2024-01-18 21:03:56 公開日:2024-01-17
# 高速決定論的ブラックボックス文脈自由文法推論

Fast Deterministic Black-box Context-free Grammar Inference ( http://arxiv.org/abs/2308.06163v2 )

ライセンス: Link先を確認
Mohammad Rifat Arefin, Suraj Shetiya, Zili Wang and Christoph Csallner(参考訳) ブラックボックスの文脈自由文法推論は難しい問題であり、多くの実用的な設定では限られた数のサンプルプログラムへのアクセスしかできない。 最先端のアプローチであるarvada heuristicは、フラットパース木から始まって文法規則を一般化し、異なる一般化列を探索する非決定論的である。 Arvadaの一般化手順の多くは、一般的な言語概念のネストルールに違反している。 そこで我々は,これらの入れ子規則に沿って入力プログラムを事前構成し,学習規則を帰納的に適用し,ブラックボックスの文脈自由文法推論を決定論的にする。 結果として、TreeVadaはより高速なランタイムとより高品質な文法を経験的に比較した。 TreeVadaのソースコード、スクリプト、評価パラメータ、トレーニングデータはオープンソースで公開されている(https://doi.org/10.6084/m9.figshare.23907738)。

Black-box context-free grammar inference is a hard problem as in many practical settings it only has access to a limited number of example programs. The state-of-the-art approach Arvada heuristically generalizes grammar rules starting from flat parse trees and is non-deterministic to explore different generalization sequences. We observe that many of Arvada's generalization steps violate common language concept nesting rules. We thus propose to pre-structure input programs along these nesting rules, apply learnt rules recursively, and make black-box context-free grammar inference deterministic. The resulting TreeVada yielded faster runtime and higher-quality grammars in an empirical comparison. The TreeVada source code, scripts, evaluation parameters, and training data are open-source and publicly available (https://doi.org/10.6084/m9.figshare.23907738).
翻訳日:2024-01-18 21:02:48 公開日:2024-01-17
# マイクロ波励起スピンフリップ遮断による中性原子中の量子論理ゲートの絡み込み

Entangling quantum logic gates in neutral atoms via the microwave-driven spin-flip blockade ( http://arxiv.org/abs/2307.16434v2 )

ライセンス: Link先を確認
Vikas Buchemmavari, Sivaprasad Omanakuttan, Yuan-Yu Jau, and Ivan Deutsch(参考訳) rydberg双極子ブロックは、中性原子量子ビット間の絡み合いを誘導する標準的なメカニズムとして登場した。 これらのプロトコルでは、Rydberg状態に量子状態を結合するレーザー場はエンタングゲートを実装するように変調される。 ここでは、Rydbergドレッシングおよびマイクロ波フィールド駆動スピンフリップブロッキング(Y.-Y. Jau et al, Nat. Phys. 12, 71 (2016))]を介してエンタングゲートを実装するための代替プロトコルを提案する。 セシウムの時計状態においてエンコードされた量子ビットの具体例を考える。 補助超微細状態は、部分的にRydberg文字を取得するために光学的に服装される。 したがって、リドベルク状態のプロキシとして機能し、非線形光シフトは封鎖強度の役割を果たす。 この服を着た補助状態に量子状態と結合するマイクロ波場を変調してエンタングゲートを実装することができる。 光レシエーションのために設計された論理ゲートプロトコルは、実験的な制御方法がより堅牢であるこのマイクロ波レシエーションにインポートすることができる。 ライドベルク実験で通常用いられる強い双極子-ブロック法とは異なり、中程度のスピン-フリップ-ブロック法ではより速いゲートとより小さなライドバーグ崩壊をもたらすことが示されている。 本研究では,高忠実度2ビットエンタングルゲートを発生し,解析的挙動を特徴付ける様々な操作条件について検討する。 マイクロ波制御の本質的なロバスト性に加えて、これらのゲートは、原子運動の熱的変動やレーザー振幅、および非定常背景場などのノイズ源に対してより堅牢に設計することができる。

The Rydberg dipole-blockade has emerged as the standard mechanism to induce entanglement between neutral atom qubits. In these protocols, laser fields that couple qubit states to Rydberg states are modulated to implement entangling gates. Here we present an alternative protocol to implement entangling gates via Rydberg dressing and a microwave-field-driven spin-flip blockade [Y.-Y. Jau et al, Nat. Phys. 12, 71 (2016)]. We consider the specific example of qubits encoded in the clock states states of cesium. An auxiliary hyperfine state is optically dressed so that it acquires partial Rydberg character. It thus acts as a proxy Rydberg state, with a nonlinear light-shift that plays the role of blockade strength. A microwave-frequency field coupling a qubit state to this dressed auxiliary state can be modulated to implement entangling gates. Logic gate protocols designed for the optical regime can be imported to this microwave regime, for which experimental control methods are more robust. We show that unlike the strong dipole-blockade regime usually employed in Rydberg experiments, going to a moderate-spin-flip-blockade regime results in faster gates and smaller Rydberg decay. We study various regimes of operations that can yield high-fidelity two-qubit entangling gates and characterize their analytical behavior. In addition to the inherent robustness of microwave control, we can design these gates to be more robust to thermal fluctuations in atomic motion as well to laser amplitude, and other noise sources such as stray background fields.
翻訳日:2024-01-18 21:02:03 公開日:2024-01-17
# AndroLibZoo: ソフトウェア依存分析に基づくライブラリの信頼性の高いデータセット

AndroLibZoo: A Reliable Dataset of Libraries Based on Software Dependency Analysis ( http://arxiv.org/abs/2307.12609v2 )

ライセンス: Link先を確認
Jordan Samhi, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) androidアプリ開発者はコード再利用を幅広く採用し、多くのサードパーティライブラリをアプリに組み込んでいる。 このような統合は開発者にとっては実用的だが、ライブラリがコードの大部分を占める場合、静的アナライザがスケーラビリティと精度を達成することは困難である。 直接の結果として、静的解析の間のみ開発者コードを検討することは、文献においてよくあることです -- 求める問題はライブラリではなく開発者コードにあると仮定します。 しかし、アナリストはライブラリと開発者コードを区別する必要がある。 現在、多くの静的解析はライブラリのホワイトリストに依存している。 しかし、これらのホワイトリストは信頼できず、不正確であり、ほとんど理解できない。 本稿では,ライブラリセットの正確かつ‘always up-date’を実現するための包括的かつ自動化されたソリューションの欠如に対処するための新しいアプローチを提案する。 まず,図書館のホワイトリストが引き続き必要であることを示す。 第2に,androlibzooと呼ばれるデータセットの形式で,正確かつ最新のサードパーティライブラリセットを生成するための自動アプローチを提案する。 私たちのデータセットはコミュニティで利用でき、現在34の813のライブラリが含まれており、進化を意図しています。

Android app developers extensively employ code reuse, integrating many third-party libraries into their apps. While such integration is practical for developers, it can be challenging for static analyzers to achieve scalability and precision when libraries account for a large part of the code. As a direct consequence, it is common practice in the literature to consider developer code only during static analysis --with the assumption that the sought issues are in developer code rather than the libraries. However, analysts need to distinguish between library and developer code. Currently, many static analyses rely on white lists of libraries. However, these white lists are unreliable, inaccurate, and largely non-comprehensive. In this paper, we propose a new approach to address the lack of comprehensive and automated solutions for the production of accurate and ``always up to date" sets of libraries. First, we demonstrate the continued need for a white list of libraries. Second, we propose an automated approach to produce an accurate and up-to-date set of third-party libraries in the form of a dataset called AndroLibZoo. Our dataset, which we make available to the community, contains to date 34 813 libraries and is meant to evolve.
翻訳日:2024-01-18 21:01:08 公開日:2024-01-17
# ベル対角状態の特異な絡み合い構造を示すワイル・ハイゼンベルクベル基底の特殊特性

Special features of the Weyl-Heisenberg Bell basis imply unusual entanglement structure of Bell-diagonal states ( http://arxiv.org/abs/2307.10727v2 )

ライセンス: Link先を確認
Christopher Popp and Beatrix C. Hiesmayr(参考訳) 最大絡み合いベル状態は、量子情報科学において絡み合いに基づく方法にとって重要である。 通常、ワイル・ハイゼンベルク作用素による完全正則ベル基底の標準構成を考える。 これらの演算子の群構造は、誤差補正スキームやベル対角状態の絡み合い構造に強い影響を与えることを示す。 特に、これはパウリチャネルとツワールチャネルの等価性を意味する。 興味深いことに、他の完全正則ベル基底は同値を破り、例えばPT交絡状態の共有において全く異なる絡み合い構造をもたらす。 詳しくは,標準ベル基底は,他のベル基底と比較して,PT状態とPTアンタングル状態の観測値が最も高いことがわかった。 結論として,標準ベル基底構造は,偏差を考慮した場合の量子情報理論プロトコルに強い意味を持つ,非常に特殊な構造を生かしている。

Maximally entangled Bell states are of crucial importance for entanglement based methods in quantum information science. Typically, a standard construction of a complete orthonormal Bell-basis by Weyl-Heisenberg operators is considered. We show that the group structure of these operators has strong implication on error correction schemes and on the entanglement structure within Bell-diagonal states. In particular, it implies a equivalence between a Pauli channel and a twirl channel. Interestingly, other complete orthonormal Bell-bases do break the equivalence and lead to a completely different entanglement structure, for instance in the share of PPT-entangled states. In detail, we find that the standard Bell basis has the highest observed share on PPT-states and PPT-entangled states compared to other Bell bases. In summary, our findings show that the standard Bell basis construction exploits a very special structure with strong implications to quantum information theoretic protocols if a deviation is considered.
翻訳日:2024-01-18 21:00:52 公開日:2024-01-17
# 空間的抽象化と時間的抽象化を併用した一般化計画

Combining Spatial and Temporal Abstraction in Planning for Better Generalization ( http://arxiv.org/abs/2310.00229v2 )

ライセンス: Link先を確認
Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio(参考訳) 人間の意識に基づく計画に着想を得て,時空間的抽象化を用いたモデルベース強化学習エージェントskipperを提案する。 これにより、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に分解し、環境の関連部分のスパース決定と集中した計算を可能にする。 これは有向グラフとして表される抽象プロキシ問題の抽出に依存しており、頂点と辺は後から端から端まで学習される。 我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチがどこに役立つかを確立する。 一般化にフォーカスした実験は、ゼロショット一般化におけるskipperの大きな利点を、既存の最先端の階層的計画法と比較して検証する。

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent utilizing spatio-temporal abstractions to generalize learned skills in novel situations. It automatically decomposes the given task into smaller, more manageable subtasks, and hence enables sparse decision-making and focused computation on the relevant parts of the environment. This relies on the extraction of an abstracted proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end from hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to existing state-of-the-art hierarchical planning methods.
翻訳日:2024-01-18 20:53:22 公開日:2024-01-17
# バイオ音響検出のための正規化コントラスト事前学習

Regularized Contrastive Pre-training for Few-shot Bioacoustic Sound Detection ( http://arxiv.org/abs/2309.08971v2 )

ライセンス: Link先を確認
Ilyass Moummad, Romain Serizel, Nicolas Farrugia(参考訳) バイオアコースティックな音響イベント検出は、動物の行動をよりよく理解し、オーディオによる生物多様性の監視を改善する。 ディープラーニングシステムは、この目標を達成するのに役立つが、これらのシステムをスクラッチからトレーニングするのに十分な注釈付きデータを取得するのは難しい。 この制限に対処するため、音響シーンとイベント(dcase)コミュニティの検出と分類は、少数の学習の枠組みの中で問題を再キャストし、5つの注釈付き例から動物音を検出するための毎年の課題を組織した。 本研究は、教師付きコントラスト事前学習を規則化し、訓練中に動物音が見えない新しい目標タスクにうまく伝達できる特徴を学習し、特徴適応が適用されない場合のFスコアは61.52%(0.48)、学習対象タスク毎にさらに適応する場合のFスコアは68.19%(0.75)となる。 本研究の目的は,オープンソースのコードも提供することにより,簡単な,かつ効果的なフレームワークを提案することで,バイオアコースティックな音のイベント検出を実現することにある。

Bioacoustic sound event detection allows for better understanding of animal behavior and for better monitoring biodiversity using audio. Deep learning systems can help achieve this goal, however it is difficult to acquire sufficient annotated data to train these systems from scratch. To address this limitation, the Detection and Classification of Acoustic Scenes and Events (DCASE) community has recasted the problem within the framework of few-shot learning and organize an annual challenge for learning to detect animal sounds from only five annotated examples. In this work, we regularize supervised contrastive pre-training to learn features that can transfer well on new target tasks with animal sounds unseen during training, achieving a high F-score of 61.52%(0.48) when no feature adaptation is applied, and an F-score of 68.19%(0.75) when we further adapt the learned features for each new target task. This work aims to lower the entry bar to few-shot bioacoustic sound event detection by proposing a simple and yet effective framework for this task, by also providing open-source code.
翻訳日:2024-01-18 20:52:50 公開日:2024-01-17
# 文脈的バンディットに対するwasserstein分布的ロバストなポリシー評価と学習

Wasserstein Distributionally Robust Policy Evaluation and Learning for Contextual Bandits ( http://arxiv.org/abs/2309.08748v3 )

ライセンス: Link先を確認
Yi Shen, Pan Xu, Michael M. Zavlanos(参考訳) オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことである。 多くの場合、データが収集される環境は、学習されたポリシーが適用される環境とは異なる。 学習・実行中の異なる環境の影響を考慮し,新しい環境の分布が不確実性集合内にあると仮定して,政策値の最悪のケース境界を計算する分散ロバスト最適化法(DRO)が開発されている。 通常、この不確実性集合はロギングデータセットから計算された経験的分布に関するKL分散に基づいて定義される。 しかし、KLの不確実性集合は様々な支持を持つ分布を包含できず、分布支援の幾何学的認識が欠如している。 その結果、klアプローチは実用的な環境ミスマッチに対処するのに不足し、最悪のシナリオへの過剰フィットにつながる。 これらの限界を克服するために、代わりにwasserstein距離を用いる新しいdroアプローチを提案する。 Wasserstein DRO は一般に KL DRO よりも計算コストが高いが,本手法は正規化手法と,その最適化を効率的に行う実践的(バイアス付き)確率勾配勾配法を提案する。 また,提案手法の有限標本複雑性と反復複雑性の理論的解析を行った。 さらに,ランダム化ストーク試験で記録された公開データセットを用いて,このアプローチを検証した。

Off-policy evaluation and learning are concerned with assessing a given policy and learning an optimal policy from offline data without direct interaction with the environment. Often, the environment in which the data are collected differs from the environment in which the learned policy is applied. To account for the effect of different environments during learning and execution, distributionally robust optimization (DRO) methods have been developed that compute worst-case bounds on the policy values assuming that the distribution of the new environment lies within an uncertainty set. Typically, this uncertainty set is defined based on the KL divergence around the empirical distribution computed from the logging dataset. However, the KL uncertainty set fails to encompass distributions with varying support and lacks awareness of the geometry of the distribution support. As a result, KL approaches fall short in addressing practical environment mismatches and lead to over-fitting to worst-case scenarios. To overcome these limitations, we propose a novel DRO approach that employs the Wasserstein distance instead. While Wasserstein DRO is generally computationally more expensive compared to KL DRO, we present a regularized method and a practical (biased) stochastic gradient descent method to optimize the policy efficiently. We also provide a theoretical analysis of the finite sample complexity and iteration complexity for our proposed method. We further validate our approach using a public dataset that was recorded in a randomized stoke trial.
翻訳日:2024-01-18 20:52:25 公開日:2024-01-17
# PoseFix:自然言語で3Dの人間を修正

PoseFix: Correcting 3D Human Poses with Natural Language ( http://arxiv.org/abs/2309.08480v2 )

ライセンス: Link先を確認
Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Gr\'egory Rogez(参考訳) 姿勢を変えるための指示を自動生成することで、パーソナライズされたコーチングや家庭内理学療法など、無限の応用への扉を開くことができる。 逆問題(すなわち自然言語のフィードバックに基づいて3Dポーズを書き換えること)に取り組むことは、3Dキャラクターのアニメーションやロボットの指導を支援するのに役立つ。 近年の研究では、自然言語と人間の3Dポーズの関連性について研究されているが、3Dボディを記述することには差はない。 本稿では,人間の3次元ポーズを自然言語で補正する問題に取り組む。 この目的のために、数千対の3Dポーズとそれに対応するテキストフィードバックからなるPoseFixデータセットを導入し、ターゲットポーズを得るためにソースポーズをどのように修正する必要があるかを説明する。 本研究は,(1)検索ポーズとテキスト修飾器を付与した補正された3Dボディポーズを生成するテキストベースのポーズ編集,(2)2つのボディポーズの違いに基づいて指示を生成する補正テキスト生成という2つのタスクにおいて,このデータセットの可能性を示す。

Automatically producing instructions to modify one's posture could open the door to endless applications, such as personalized coaching and in-home physical therapy. Tackling the reverse problem (i.e., refining a 3D pose based on some natural language feedback) could help for assisted 3D character animation or robot teaching, for instance. Although a few recent works explore the connections between natural language and 3D human pose, none focus on describing 3D body pose differences. In this paper, we tackle the problem of correcting 3D human poses with natural language. To this end, we introduce the PoseFix dataset, which consists of several thousand paired 3D poses and their corresponding text feedback, that describe how the source pose needs to be modified to obtain the target pose. We demonstrate the potential of this dataset on two tasks: (1) text-based pose editing, that aims at generating corrected 3D body poses given a query pose and a text modifier; and (2) correctional text generation, where instructions are generated based on the differences between two body poses.
翻訳日:2024-01-18 20:51:59 公開日:2024-01-17
# ストリーミング音声認識のためのチャンク型注意型エンコーダ・デコーダモデル

Chunked Attention-based Encoder-Decoder Model for Streaming Speech Recognition ( http://arxiv.org/abs/2309.08436v2 )

ライセンス: Link先を確認
Mohammad Zeineldeen and Albert Zeyer and Ralf Schl\"uter and Hermann Ney(参考訳) エンコーダとデコーダの両方がチャンクと呼ばれる予め定義された固定サイズのウィンドウで動作するストリーム可能な注意型エンコーダ/デコーダモデルについて検討する。 特別なEnd-of-chunk(EOC)シンボルは、あるチャンクから次のチャンクへと進化し、従来のEnd-of-sequenceシンボルを効果的に置き換える。 この修正は、小さながら、EOCが空白記号に対応するフレームの代わりにチャンクで動作するトランスデューサモデルと同等のものとして、我々のモデルを定めている。 さらに,標準トランスデューサとモデルとの相違点についても検討する。 さらに,長文音声の一般化,ビームサイズ,長さ正規化などの関連する側面についても検討する。 Librispeech と TED-Lium-v2 の実験、および長大な試行のために連続的なシーケンスを連結することにより、ストリーム可能なモデルは、非ストリーム可能な変種と比較して競争性能を維持し、長大な音声に対して非常によく一般化する。

We study a streamable attention-based encoder-decoder model in which either the decoder, or both the encoder and decoder, operate on pre-defined, fixed-size windows called chunks. A special end-of-chunk (EOC) symbol advances from one chunk to the next chunk, effectively replacing the conventional end-of-sequence symbol. This modification, while minor, situates our model as equivalent to a transducer model that operates on chunks instead of frames, where EOC corresponds to the blank symbol. We further explore the remaining differences between a standard transducer and our model. Additionally, we examine relevant aspects such as long-form speech generalization, beam size, and length normalization. Through experiments on Librispeech and TED-LIUM-v2, and by concatenating consecutive sequences for long-form trials, we find that our streamable model maintains competitive performance compared to the non-streamable variant and generalizes very well to long-form speech.
翻訳日:2024-01-18 20:51:39 公開日:2024-01-17
# DenseNetを用いた脳波を用いた聴覚空間注意の復号法

A DenseNet-based method for decoding auditory spatial attention with EEG ( http://arxiv.org/abs/2309.07690v2 )

ライセンス: Link先を確認
Xiran Xu, Bo Wang, Yujie Yan, Xihong Wu, Jing Chen(参考訳) 聴覚空間アテンション検出(ASAD)は,複数話者設定で脳波を用いて入場した空間位置を復号することを目的としている。 ASAD法は聴覚的空間的注意の処理における皮質神経応答の脳側方化にインスパイアされ、ニューラル記録を用いた聴覚的注意復号(AAD)タスクに有望な性能を示す。 これまでのasad法では,脳波電極の空間分布が十分に活用されていないため,その性能が低下する可能性がある。 本研究では,元の脳波チャンネルを2次元(2次元)空間トポロジマップに変換することにより,脳波データを時空間情報を含む3次元(3次元)配置に変換する。 そして、3Dディープ畳み込みニューラルネットワーク(DenseNet-3D)を使用して、参加する場所の神経表現の時間的および空間的特徴を抽出する。 その結果、提案手法は、広く使われているKUL(KUL)データセットに対して1秒の判定窓を持つ、最先端(SOTA)メソッド(XANetの90.6%と比較して94.3%)よりも高い復号精度を実現している。

Auditory spatial attention detection (ASAD) aims to decode the attended spatial location with EEG in a multiple-speaker setting. ASAD methods are inspired by the brain lateralization of cortical neural responses during the processing of auditory spatial attention, and show promising performance for the task of auditory attention decoding (AAD) with neural recordings. In the previous ASAD methods, the spatial distribution of EEG electrodes is not fully exploited, which may limit the performance of these methods. In the present work, by transforming the original EEG channels into a two-dimensional (2D) spatial topological map, the EEG data is transformed into a three-dimensional (3D) arrangement containing spatial-temporal information. And then a 3D deep convolutional neural network (DenseNet-3D) is used to extract temporal and spatial features of the neural representation for the attended locations. The results show that the proposed method achieves higher decoding accuracy than the state-of-the-art (SOTA) method (94.3% compared to XANet's 90.6%) with 1-second decision window for the widely used KULeuven (KUL) dataset, and the code to implement our work is available on Github: https://github.com/xuxiran/ASAD_DenseNet
翻訳日:2024-01-18 20:50:57 公開日:2024-01-17
# WASM-MUTATE:WebAssemblyの高速で効果的なバイナリの多様化

WASM-MUTATE: Fast and Effective Binary Diversification for WebAssembly ( http://arxiv.org/abs/2309.07638v2 )

ライセンス: Link先を確認
Javier Cabrera-Arteaga, Nicholas Fitzgerald, Martin Monperrus and Benoit Baudry(参考訳) WebAssemblyは公式に認められた4番目のウェブ言語である。 セキュリティを重視した効率性と設計によって認識されている。 しかし、急速に拡大するエコシステムには、堅牢なソフトウェア多様化システムがない。 WebAssembly用に特別に設計された多様化エンジンWASM-MUTATEを紹介する。 私たちのエンジンはいくつかの基本的な基準を満たす。 1) 機能的に同一だが、動作的に異なるWebAssemblyの亜種を迅速に生成する。 2) ソースコード言語によらず、あらゆるWebAssemblyプログラムに普遍的に適用できるようにする。 3) 生成した変種はサイドチャネルに対抗すべきである。 電子グラフデータ構造を利用して、WASM-MUTATEを高速かつ有効に実装する。 WASM-MUTATEを実世界の応用を含む404プログラムの実験により評価する。 WASM-MUTATEは、数分で何万ものユニークで効率的なWebAssemblyの変種を生成できる。 重要なことに、WASM-MUTATEはWebAssemblyバイナリをタイミングサイドチャネル攻撃、特にSpectreタイプの攻撃から保護することができる。

WebAssembly is the fourth officially endorsed Web language. It is recognized because of its efficiency and design, focused on security. Yet, its swiftly expanding ecosystem lacks robust software diversification systems. We introduce WASM-MUTATE, a diversification engine specifically designed for WebAssembly. Our engine meets several essential criteria: 1) To quickly generate functionally identical, yet behaviorally diverse, WebAssembly variants, 2) To be universally applicable to any WebAssembly program, irrespective of the source programming language, and 3) Generated variants should counter side-channels. By leveraging an e-graph data structure, WASM-MUTATE is implemented to meet both speed and efficacy. We evaluate WASM-MUTATE by conducting experiments on 404 programs, which include real-world applications. Our results highlight that WASM-MUTATE can produce tens of thousands of unique and efficient WebAssembly variants within minutes. Significantly, WASM-MUTATE can safeguard WebAssembly binaries against timing side-channel attacks,especially those of the Spectre type.
翻訳日:2024-01-18 20:50:29 公開日:2024-01-17
# mmsformer: 材料と意味セグメンテーションのためのマルチモーダルトランスフォーマー

MMSFormer: Multimodal Transformer for Material and Semantic Segmentation ( http://arxiv.org/abs/2309.04001v3 )

ライセンス: Link先を確認
Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif(参考訳) 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。 しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。 本稿では,異なるモードの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。 また,提案手法を組み込んだマルチモーダルセグメンテーショントランス(mmsformer)という新しいモデルを提案する。 MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。 1つの入力モダリティのみから始めると、追加のモダリティが組み込まれるにつれて、性能が徐々に向上し、多様な入力モダリティから有用な情報を組み合わせて融合ブロックの有効性を示す。 アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。 さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。 コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。

Leveraging information across diverse modalities is known to enhance performance on multimodal segmentation tasks. However, effectively fusing information from different modalities remains challenging due to the unique characteristics of each modality. In this paper, we propose a novel fusion strategy that can effectively fuse information from different modality combinations. We also propose a new model named Multi-Modal Segmentation TransFormer (MMSFormer) that incorporates the proposed fusion strategy to perform multimodal material and semantic segmentation tasks. MMSFormer outperforms current state-of-the-art models on three different datasets. As we begin with only one input modality, performance improves progressively as additional modalities are incorporated, showcasing the effectiveness of the fusion block in combining useful information from diverse input modalities. Ablation studies show that different modules in the fusion block are crucial for overall model performance. Furthermore, our ablation studies also highlight the capacity of different input modalities to improve performance in the identification of different types of materials. The code and pretrained models will be made available at https://github.com/csiplab/MMSFormer.
翻訳日:2024-01-18 20:49:54 公開日:2024-01-17
# 非エルミート準結晶中の絡み合い相転移

Entanglement phase transitions in non-Hermitian quasicrystals ( http://arxiv.org/abs/2309.00924v3 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 絡み合いエントロピーのスケーリング法則は、量子多体系の非単位進化の間に定性的変化を起こす可能性がある。 本研究では,そのような絡み合い相転移を一次元非エルミート準結晶(nhqcs)で解明する。 非エルミート効果と準周期ポテンシャルの相互作用により、異なるスケーリング法則と臨界挙動を持つ2種類の絡み合い遷移を同定する。 最初のタイプは典型的な体積法則から面積法則遷移を表し、PT対称性の破れと局所化遷移と共に起こる。 第2のタイプは、定常的絡み合いエントロピーにおけるボリュームロースケーリングを伴う臨界相によって媒介される、異常なログロー対領域ロー遷移である。 これらのエンタングリング相と遷移は、NHQCの2つの代表モデルで示される。 その結果,非エルミート乱数系の絡み合い遷移の研究が進み,さらにNHQCの絡み合いパターンが明らかにされた。

The scaling law of entanglement entropy could undergo qualitative changes during the nonunitary evolution of a quantum many-body system. In this work, we uncover such entanglement phase transitions in one-dimensional non-Hermitian quasicrystals (NHQCs). We identify two types of entanglement transitions with different scaling laws and critical behaviors due to the interplay between non-Hermitian effects and quasiperiodic potentials. The first type represents a typical volume-law to area-law transition, which happens together with a PT-symmetry breaking and a localization transition. The second type features an abnormal log-law to area-law transition, which is mediated by a critical phase with a volume-law scaling in the steady-state entanglement entropy. These entangling phases and transitions are demonstrated in two representative models of NHQCs. Our results thus advanced the study of entanglement transitions in non-Hermitian disordered systems and further disclosed the rich entanglement patterns in NHQCs.
翻訳日:2024-01-18 20:49:33 公開日:2024-01-17
# 一般化文字列ネットモデルにおける位相的および非位相的異質性

Topological and nontopological degeneracies in generalized string-net models ( http://arxiv.org/abs/2309.00343v3 )

ライセンス: Link先を確認
Anna Ritz-Zwilling, Jean-No\"el Fuchs, Steven H. Simon, Julien Vidal(参考訳) 一般化された文字列ネットモデルは、元の文字列ネット構成から生じるトポロジカル量子位相の集合を拡大するために最近提案されている。 本研究では, 頂点励起を考慮せず, 重要な同一性を満たすプラケット励起やフラクトンに制限する。 任意のユニタリ融合圏に付随する一般化文字列-ネットハミルトンのエネルギー準退化を計算する方法について説明する。 純粋に位相的である基底状態の退化とは対照的に、励起エネルギー準位は圏のドリンフェルト中心だけでなく、圏から定義されるチューブ代数から得られる内部乗法にも依存する。 非可換圏の場合、これらの内部多重性は超非位相的縮退をもたらす。 結果は任意の三価グラフと任意の向き付け可能な曲面に対して有効である。 非自明な例を例に紹介する。

Generalized string-net models have been recently proposed in order to enlarge the set of possible topological quantum phases emerging from the original string-net construction. In the present work, we do not consider vertex excitations and restrict to plaquette excitations, or fluxons, that satisfy important identities. We explain how to compute the energy-level degeneracies of the generalized string-net Hamiltonian associated to an arbitrary unitary fusion category. In contrast to the degeneracy of the ground state, which is purely topological, that of excited energy levels depends not only on the Drinfeld center of the category, but also on internal multiplicities obtained from the tube algebra defined from the category. For a noncommutative category, these internal multiplicities result in extra nontopological degeneracies. Our results are valid for any trivalent graph and any orientable surface. We illustrate our findings with nontrivial examples.
翻訳日:2024-01-18 20:49:16 公開日:2024-01-17
# 分光学における従来の知恵の定義:IBM量子のパワーナローイング

Defying Conventional Wisdom in Spectroscopy: Power Narrowing on IBM Quantum ( http://arxiv.org/abs/2308.14187v2 )

ライセンス: Link先を確認
Ivo S. Mihov and Nikolay V. Vitanov(参考訳) 運動場の振幅が増加するにつれて、2状態の量子遷移のスペクトル線プロファイルを拡大する$-$は、分光においてよく知られ、徹底的に検討された現象である。 典型的には連続波駆動で発生し、放射場の強度が遷移の飽和強度を超えると増加する。 パルス場励起では、矩形側方形状のパルスに対して線形電力拡大が発生する。 滑らかな形状のパルスは、ガウスのパルス形状の対数運動など、はるかに少ない電力幅を示すことが知られている。 実験的に証明されていないが、$\sim |t|^{-\lambda}$として消滅するパルス形状は、駆動パルスの振幅が増大するにつれて後パルス遷移線幅が減少する、$-$のパワーを狭める逆効果を示す。 本研究は、IBM Quantumプロセッサ ibmq_manila 上のパワーオブローレンツパルス形状のクラスに対して、電力絞り実験を行った。 電力拡張パラダイムの完全な反転において、パルス領域を$\pi$から$7\pi$に増やす際に、ライン幅を10倍以上減少させるのが観察される。 さらに, パルス翼の停止に関する徹底的な理論的, 実験的研究を行い, 明示的な解析式を導出する未知のカットオフ拡大効果に対して, 最大値が$-$ に達することを防止した(小さい)パワー幅の項を導入する。 他のパワー拡張機構がない場合、ローレンツパルスは十分小さい値で切断され、所望の狭いラインプロファイルが得られる。

Power broadening $-$ the broadening of the spectral line profile of a two-state quantum transition as the amplitude of the driving field increases $-$ is a well-known and thoroughly examined phenomenon in spectroscopy. It typically occurs in continuous-wave driving when the intensity of the radiation field increases beyond the saturation intensity of the transition. In pulsed-field excitation, linear power broadening occurs for a pulse of rectangular temporal shape. Pulses with smooth shapes are known to exhibit much less power broadening, e.g. logarithmic for a Gaussian pulse shape. It has been predicted, but never experimentally verified, that pulse shapes which vanish in time as $\sim |t|^{-\lambda}$ should exhibit the opposite effect $-$ power narrowing $-$ in which the post-pulse transition line width decreases as the amplitude of the driving pulse increases. In this work, power narrowing is demonstrated experimentally for a class of powers-of-Lorentzian pulse shapes on the IBM Quantum processor ibmq_manila. Reduction of the line width by a factor of over 10 is observed when increasing the pulse area from $\pi$ to $7\pi$, in a complete reversal of the power broadening paradigm. Moreover, thorough theoretical and experimental study is conducted on the truncation of the pulse wings which introduces a (small) power-broadened term which prevents power narrowing from reaching extreme values $-$ a hitherto unknown cut-off broadening effect for which an explicit analytical formula is derived. In the absence of other power broadening mechanisms, Lorentzian pulses truncated at sufficiently small values can achieve as narrow line profiles as desired.
翻訳日:2024-01-18 20:48:38 公開日:2024-01-17
# FairTune:医療画像解析におけるフェアネスのための最適パラメータ調整

FairTune: Optimizing Parameter Efficient Fine Tuning for Fairness in Medical Image Analysis ( http://arxiv.org/abs/2310.05055v3 )

ライセンス: Link先を確認
Raman Dutt, Ondrej Bohdal, Sotirios A. Tsaftaris, Timothy Hospedales(参考訳) 医用診断などの倫理的に敏感な応用分野において,頑健なグループフェアネス特性を持つトレーニングモデルは重要である。 AIにおける人口統計バイアスを最小化しようとする動きが増えているにもかかわらず、この問題は依然として困難である。 高容量のディープラーニングモデルは、すべてのトレーニングデータをほぼ完璧に適合させ、トレーニング中に完璧な公正性を示すことができます。 この場合、偏見は、部分群間で一般化性能が異なる場合にのみ現れる。 これは、公正な学習に対する二段階の最適化の視点を取る動機となる: 検証の公平性に基づいた学習戦略の最適化。 具体的には、パラメータ効率細調整(PEFT)技術を用いて、トレーニング済みモデルを下流の医療画像タスクに適応するワークフローを効果的に検討する。 より多くのパラメータの更新、関心のあるタスクへの適合性の向上、パラメータの削減、一般化のギャップの低減など、トレードオフがある。 このトレードオフを管理するために、フェアネスに関するPEFTパラメータの選択を最適化するフレームワークであるFairTuneを提案する。 FairTuneが医療画像データセットの公平性を改善することを実証的に示す。 コードはhttps://github.com/Raman1121/FairTuneで入手できる。

Training models with robust group fairness properties is crucial in ethically sensitive application areas such as medical diagnosis. Despite the growing body of work aiming to minimise demographic bias in AI, this problem remains challenging. A key reason for this challenge is the fairness generalisation gap: High-capacity deep learning models can fit all training data nearly perfectly, and thus also exhibit perfect fairness during training. In this case, bias emerges only during testing when generalisation performance differs across subgroups. This motivates us to take a bi-level optimisation perspective on fair learning: Optimising the learning strategy based on validation fairness. Specifically, we consider the highly effective workflow of adapting pre-trained models to downstream medical imaging tasks using parameter-efficient fine-tuning (PEFT) techniques. There is a trade-off between updating more parameters, enabling a better fit to the task of interest vs. fewer parameters, potentially reducing the generalisation gap. To manage this tradeoff, we propose FairTune, a framework to optimise the choice of PEFT parameters with respect to fairness. We demonstrate empirically that FairTune leads to improved fairness on a range of medical imaging datasets. The code is available at https://github.com/Raman1121/FairTune
翻訳日:2024-01-18 20:40:55 公開日:2024-01-17
# 連続学習における安定性と可塑性のバランス--活性化変化の読み出し分解(RDAC)フレームワーク

Balancing stability and plasticity in continual learning: the readout-decomposition of activation change (RDAC) framework ( http://arxiv.org/abs/2310.04741v4 )

ライセンス: Link先を確認
Daniel Anthes and Sushrut Thorat and Peter K\"onig and Tim C. Kietzmann(参考訳) 継続学習(CL)アルゴリズムは、事前情報を保持しながら新しい知識を獲得しようとする。 しかし、この安定性と可塑性のトレードオフは依然として大きな課題である。 本稿では、このトレードオフを識別するフレームワークを紹介し、CLアルゴリズムに関する貴重な洞察を提供する。 Readout-Decomposition of Activation Change (RDAC) フレームワークは、まず安定性・塑性ジレンマと破滅的な忘れ物との関係に対処する。 学習によって引き起こされる事前読み出し範囲の活性化変化と、安定性の度合いとヌル空間の可塑性の度合いに関するものである。 スプリット-cifar-110タスクに取り組むディープ非線形ネットワークにおいて、このフレームワークは、人気のある正規化アルゴリズムシナプス知能(si)、弾性重み強化(ewc)、学習無忘れ(lwf)、リプレイベースのアルゴリズム勾配エピソディックメモリ(gem)、データリプレイの安定性と可塑性のトレードオフを明確にする。 GEMとデータ再生は安定性と可塑性を保ち、SI、EWC、LwFは安定性のために可塑性を交換した。 可塑性を維持するための正規化アルゴリズムの欠如は、事前の読み出しのヌル空間におけるアクティベーションの変化を制限するものである。 さらに,単層線形ニューラルネットワークでは,事前読み出し範囲のみの活性化変化を制限し,可塑性を犠牲にすることなく高い安定性を維持する勾配分解アルゴリズムを考案した。 その結果, 可塑性損失を伴わない安定性が得られた。 RDACフレームワークは、既存のCLアルゴリズムの振る舞いを知らせ、新しいCLアプローチの道を開く。 最後に、学習によって引き起こされる活性化/表現の変化と安定性と可塑性のジレンマの関係に光を当て、生体システムの表現ドリフトに関する洞察を提供する。

Continual learning (CL) algorithms strive to acquire new knowledge while preserving prior information. However, this stability-plasticity trade-off remains a central challenge. This paper introduces a framework that dissects this trade-off, offering valuable insights into CL algorithms. The Readout-Decomposition of Activation Change (RDAC) framework first addresses the stability-plasticity dilemma and its relation to catastrophic forgetting. It relates learning-induced activation changes in the range of prior readouts to the degree of stability and changes in the null space to the degree of plasticity. In deep non-linear networks tackling split-CIFAR-110 tasks, the framework clarifies the stability-plasticity trade-offs of the popular regularization algorithms Synaptic intelligence (SI), Elastic-weight consolidation (EWC), and learning without Forgetting (LwF), and replay-based algorithms Gradient episodic memory (GEM), and data replay. GEM and data replay preserved stability and plasticity, while SI, EWC, and LwF traded off plasticity for stability. The inability of the regularization algorithms to maintain plasticity was linked to them restricting the change of activations in the null space of the prior readout. Additionally, for one-hidden-layer linear neural networks, we derived a gradient decomposition algorithm to restrict activation change only in the range of the prior readouts, to maintain high stability while not further sacrificing plasticity. Results demonstrate that the algorithm maintained stability without significant plasticity loss. The RDAC framework informs the behavior of existing CL algorithms and paves the way for novel CL approaches. Finally, it sheds light on the connection between learning-induced activation/representation changes and the stability-plasticity dilemma, also offering insights into representational drift in biological systems.
翻訳日:2024-01-18 20:40:35 公開日:2024-01-17
# ppt:効率的な視覚トランスフォーマーのためのトークンプルーニングとプール

PPT: Token Pruning and Pooling for Efficient Vision Transformers ( http://arxiv.org/abs/2310.01812v2 )

ライセンス: Link先を確認
Xinjian Wu, Fanhu Zeng, Xiudong Wang, Yunhe Wang, Xinghao Chen(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンの分野で強力なモデルとして登場し、様々なビジョンタスクで優れたパフォーマンスを提供する。 しかし、高い計算複雑性は現実のシナリオで実用的応用に重大な障壁をもたらす。 全てのトークンが最終予測に等しく寄与するわけではなく、より少ないトークンは計算コストを低減し、冗長トークンの削減はビジョントランスフォーマーを加速する主要なパラダイムとなっている。 しかし,トークンプルーニングによる不注意冗長性を低減するか,トークンマージによる重複冗長性を低減するかは最適ではない。 そこで本稿では,これら2種類の冗長性を異なる層で適応的に扱うための新しい加速フレームワーク,トークンプルーニングとプーリングトランスフォーマ(ppt)を提案する。 トレーニング可能なパラメータを追加せずに、トークンプルーニングとトークンプーリングの両方をViTsに統合することにより、PTは予測精度を維持しながら、モデルの複雑さを効果的に軽減する。 例えば、PPTは37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善している。 コードはhttps://github.com/xjwu1024/PPTとhttps://github.com/mindspore-lab/models/で入手できる。

Vision Transformers (ViTs) have emerged as powerful models in the field of computer vision, delivering superior performance across various vision tasks. However, the high computational complexity poses a significant barrier to their practical applications in real-world scenarios. Motivated by the fact that not all tokens contribute equally to the final predictions and fewer tokens bring less computational cost, reducing redundant tokens has become a prevailing paradigm for accelerating vision transformers. However, we argue that it is not optimal to either only reduce inattentive redundancy by token pruning, or only reduce duplicative redundancy by token merging. To this end, in this paper we propose a novel acceleration framework, namely token Pruning & Pooling Transformers (PPT), to adaptively tackle these two types of redundancy in different layers. By heuristically integrating both token pruning and token pooling techniques in ViTs without additional trainable parameters, PPT effectively reduces the model complexity while maintaining its predictive accuracy. For example, PPT reduces over 37% FLOPs and improves the throughput by over 45% for DeiT-S without any accuracy drop on the ImageNet dataset. The code is available at https://github.com/xjwu1024/PPT and https://github.com/mindspore-lab/models/
翻訳日:2024-01-18 20:39:14 公開日:2024-01-17
# 量子アニーリングに対するメタヒューリスティック統合QAOAのベンチマーク

Benchmarking Metaheuristic-Integrated QAOA against Quantum Annealing ( http://arxiv.org/abs/2309.16796v3 )

ライセンス: Link先を確認
Arul Rhik Mazumder, Anuvab Sen, Udayon Sen(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、合成最適化の解法において最も有望なノイズ中間量子アルゴリズムの一つである。 残念ながら、QAOAのパフォーマンスはパラメータの選択に依存しており、標準的なオプティマイザはこれらの最適化関数の複雑さとミステリーのために重要なパラメータを識別できないことが多い。 本稿では,古典的および量子的ヒューリスティックスに対してメタヒューリスティックオプティマイザで修正したQAOA回路をベンチマークし,QAOAパラメータを同定する。 実験結果から,量子アニーリングとメタヒューリスティック統合QAOAの両領域における強度と限界に関する知見が得られた。 以上の結果から,このハイブリッド手法は古典的最適化戦略を活用し,qaoaの解質向上と収束速度の向上,特に頑丈な景観問題や限られた量子資源問題に対して有効であることが示唆された。 さらに,本研究は最適化問題の具体的特徴に基づいて,最も適切なアプローチを選択するためのガイドラインを提供する。

The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising Noisy Intermediate Quantum Algorithms (NISQ) in solving combinatorial optimizations and displays potential over classical heuristic techniques. Unfortunately, QAOA performance depends on the choice of parameters and standard optimizers often fail to identify key parameters due to the complexity and mystery of these optimization functions. In this paper, we benchmark QAOA circuits modified with metaheuristic optimizers against classical and quantum heuristics to identify QAOA parameters. The experimental results reveal insights into the strengths and limitations of both Quantum Annealing and metaheuristic-integrated QAOA across different problem domains. The findings suggest that the hybrid approach can leverage classical optimization strategies to enhance the solution quality and convergence speed of QAOA, particularly for problems with rugged landscapes and limited quantum resources. Furthermore, the study provides guidelines for selecting the most appropriate approach based on the specific characteristics of the optimization problem at hand.
翻訳日:2024-01-18 20:38:50 公開日:2024-01-17
# 任意の潜在多様体上のベクトル場の入射ガウス過程表現

Implicit Gaussian process representation of vector fields over arbitrary latent manifolds ( http://arxiv.org/abs/2309.16746v2 )

ライセンス: Link先を確認
Robert L. Peach, Matteo Vinao-Carl, Nir Grossman, Michael David, Emma Mallas, David Sharp, Paresh A. Malhotra, Pierre Vandergheynst, Adam Gosztolai(参考訳) ガウス過程(GP)は、未知の関数を学習し、データの時空間不確実性を定量化するための一般的な非パラメトリック統計モデルである。 近年の研究では、コンピュータビジョン、力学系、神経科学などの多くの分野に現れる滑らかな多様体を含む、非ユークリッド領域に分布するスカラーとベクトル量をモデル化するためにGPを拡張している。 しかし、これらのアプローチは、データの基礎となる多様体が知られていると仮定し、実用性を制限する。 我々は、潜在リーマン多様体上のベクトル信号を学習するための GP の一般化である RVGP を紹介する。 本手法では,接束に付随する接続ラプラシアンの固有関数を用いた位置符号化を,共通グラフに基づくデータの近似から容易に導出する。 我々は rvgp が多様体上の大域的正則性を持つことを証明し、特異点を保ちながら超可解かつ無彩なベクトル場を許す。 さらに、健康な人やアルツハイマー病患者の低密度脳波記録から得られた高密度神経動態をRVGPを用いて再構築する。 ベクトル場特異性は重要な疾患マーカーであり,その再構成によって病状状態の分類精度が高密度記録に匹敵することを示した。 そこで本手法は,実験的,臨床的に重要な限界を克服する。

Gaussian processes (GPs) are popular nonparametric statistical models for learning unknown functions and quantifying the spatiotemporal uncertainty in data. Recent works have extended GPs to model scalar and vector quantities distributed over non-Euclidean domains, including smooth manifolds appearing in numerous fields such as computer vision, dynamical systems, and neuroscience. However, these approaches assume that the manifold underlying the data is known, limiting their practical utility. We introduce RVGP, a generalisation of GPs for learning vector signals over latent Riemannian manifolds. Our method uses positional encoding with eigenfunctions of the connection Laplacian, associated with the tangent bundle, readily derived from common graph-based approximation of data. We demonstrate that RVGP possesses global regularity over the manifold, which allows it to super-resolve and inpaint vector fields while preserving singularities. Furthermore, we use RVGP to reconstruct high-density neural dynamics derived from low-density EEG recordings in healthy individuals and Alzheimer's patients. We show that vector field singularities are important disease markers and that their reconstruction leads to a comparable classification accuracy of disease states to high-density recordings. Thus, our method overcomes a significant practical limitation in experimental and clinical applications.
翻訳日:2024-01-18 20:38:25 公開日:2024-01-17
# 言語モデルにおけるアクティベーションパッチングのベストプラクティスに向けて:メトリクスとメソッド

Towards Best Practices of Activation Patching in Language Models: Metrics and Methods ( http://arxiv.org/abs/2309.16042v2 )

ライセンス: Link先を確認
Fred Zhang and Neel Nanda(参考訳) 機械的な解釈可能性(mechanistic interpretability)は、マシンラーニングモデルの内部メカニズムを理解することを目的としている。 活性化パッチング(英: Activation patching)または因果トレース(英: causal Trace)またはインターチェンジ介入(英: exchange intervention)は、このタスクの標準技術(Vig et al., 2020)であるが、この文献にはハイパーパラメータや方法論の選択についてほとんど合意が得られていない多くの変種が含まれている。 本研究では,アクティベーションパッチ作成における方法論的詳細の影響を系統的に検討する。 言語モデルにおける局所化と回路探索のいくつかの設定において、これらのハイパーパラメータは異なる解釈可能性の結果をもたらす可能性がある。 経験的観察に支えられ、ある指標や方法が好まれる理由に関する概念的議論を行う。 最後に、私たちは、今後のアクティベーションパッチングのベストプラクティスについて推奨します。

Mechanistic interpretability seeks to understand the internal mechanisms of machine learning models, where localization -- identifying the important model components -- is a key step. Activation patching, also known as causal tracing or interchange intervention, is a standard technique for this task (Vig et al., 2020), but the literature contains many variants with little consensus on the choice of hyperparameters or methodology. In this work, we systematically examine the impact of methodological details in activation patching, including evaluation metrics and corruption methods. In several settings of localization and circuit discovery in language models, we find that varying these hyperparameters could lead to disparate interpretability results. Backed by empirical observations, we give conceptual arguments for why certain metrics or methods may be preferred. Finally, we provide recommendations for the best practices of activation patching going forwards.
翻訳日:2024-01-18 20:37:21 公開日:2024-01-17
# watch your language - 大規模言語モデルによるコンテンツモデレーションの調査

Watch Your Language: Investigating Content Moderation with Large Language Models ( http://arxiv.org/abs/2309.14517v2 )

ライセンス: Link先を確認
Deepak Kumar, Yousef AbuHashem, Zakir Durumeric(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクを実行する能力によって、人気が高まっている。 テキストベースのコンテンツモデレーションは、最近の熱意を受けたllmのユースケースの1つだが、コンテンツモデレーション設定におけるllmのパフォーマンスに関する研究はほとんどない。 本研究では,ルールに基づくコミュニティモデレーションと有害コンテンツ検出という2つの共通コンテンツモデレーションタスクにおいて,一連の商品llmを評価する。 ルールベースのコミュニティモデレーションでは、95のRedditサブコミュニティのルールでGPT-3.5を誘導することにより、95のサブコミュニティ固有のLCMをインスタンス化する。 その結果, GPT-3.5はルールベースのモデレーションに有効であり, 平均精度は64%, 平均精度は83%であった。 毒性検出のために, 市販LCM (GPT-3, GPT-3.5, GPT-4, Gemini Pro, LLAMA2) のスイートを評価し, LLMが現在広く普及している毒性分類器を著しく上回っていることを示す。 しかし、近年のモデルサイズの増加は毒性検出に限界的な利点しか与えず、毒性検出タスクにおけるllmの性能の高まりを示唆している。 我々は、LCMとコンテンツモデレーションの研究における今後の研究の道筋を概説する。

Large language models (LLMs) have exploded in popularity due to their ability to perform a wide array of natural language tasks. Text-based content moderation is one LLM use case that has received recent enthusiasm, however, there is little research investigating how LLMs perform in content moderation settings. In this work, we evaluate a suite of commodity LLMs on two common content moderation tasks: rule-based community moderation and toxic content detection. For rule-based community moderation, we instantiate 95 subcommunity specific LLMs by prompting GPT-3.5 with rules from 95 Reddit subcommunities. We find that GPT-3.5 is effective at rule-based moderation for many communities, achieving a median accuracy of 64% and a median precision of 83%. For toxicity detection, we evaluate a suite of commodity LLMs (GPT-3, GPT-3.5, GPT-4, Gemini Pro, LLAMA 2) and show that LLMs significantly outperform currently widespread toxicity classifiers. However, recent increases in model size add only marginal benefit to toxicity detection, suggesting a potential performance plateau for LLMs on toxicity detection tasks. We conclude by outlining avenues for future work in studying LLMs and content moderation.
翻訳日:2024-01-18 20:37:02 公開日:2024-01-17
# 借入問題に関するチャット:GPTに基づくテキスト正規化の研究

A Chat About Boring Problems: Studying GPT-based text normalization ( http://arxiv.org/abs/2309.13426v2 )

ライセンス: Link先を確認
Yang Zhang, Travis M. Bartley, Mariana Graterol-Fuenmayor, Vitaly Lavrukhin, Evelina Bakhturina, Boris Ginsburg(参考訳) テキスト正規化(英: text normalization)とは、伝統的に、言語モデルにおける不整形タスクであると考えられている。 この作品では、そうでなければ議論する。 数ショットシナリオにおけるテキスト正規化のためのLarge-Language Models (LLM) の能力を実証的に示す。 自己矛盾推論と言語型プロンプトエンジニアリングを組み合わせることで,llmに基づくテキスト正規化により,上位正規化システムよりも約40%低い誤り率を達成できることがわかった。 さらに,誤り解析を行う際に,従来のテキスト正規化タスクの設計において重要な制約を指摘する。 テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。 この新たなフレームワークにより、GPTベースのTNの長所と短所を特定し、今後の作業の機会を開くことができる。

Text normalization - the conversion of text from written to spoken form - is traditionally assumed to be an ill-formed task for language models. In this work, we argue otherwise. We empirically show the capacity of Large-Language Models (LLM) for text normalization in few-shot scenarios. Combining self-consistency reasoning with linguistic-informed prompt engineering, we find LLM based text normalization to achieve error rates around 40\% lower than top normalization systems. Further, upon error analysis, we note key limitations in the conventional design of text normalization tasks. We create a new taxonomy of text normalization errors and apply it to results from GPT-3.5-Turbo and GPT-4.0. Through this new framework, we can identify strengths and weaknesses of GPT-based TN, opening opportunities for future work.
翻訳日:2024-01-18 20:36:40 公開日:2024-01-17
# 意味的類似性予測は他の意味的類似性尺度よりも優れている

Semantic similarity prediction is better than other semantic similarity measures ( http://arxiv.org/abs/2309.12697v2 )

ライセンス: Link先を確認
Steffen Herbold(参考訳) 自然言語テキスト間の意味的類似性は通常、サブシーケンス間の重複(BLEUなど)を見るか、埋め込み(BERTScore、S-BERTなど)を使って測定される。 本稿では,意味的類似度のみを測ることに関心がある場合,その類似度を直接予測するために,微調整モデルを用いて予測した方がよいと論じる。 GLUEベンチマークから得られたセマンティックテキスト類似性ベンチマークタスク(STS-B)の微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他の手法よりも堅牢なセマンティック類似性尺度に対する期待に合致していることを示す。

Semantic similarity between natural language texts is typically measured either by looking at the overlap between subsequences (e.g., BLEU) or by using embeddings (e.g., BERTScore, S-BERT). Within this paper, we argue that when we are only interested in measuring the semantic similarity, it is better to directly predict the similarity using a fine-tuned model for such a task. Using a fine-tuned model for the Semantic Textual Similarity Benchmark tasks (STS-B) from the GLUE benchmark, we define the STSScore approach and show that the resulting similarity is better aligned with our expectations on a robust semantic similarity measure than other approaches.
翻訳日:2024-01-18 20:36:25 公開日:2024-01-17
# Stern-Gerlach干渉計におけるSchroedinger-Newton方程式の探索

Probing the Schroedinger-Newton equation in a Stern-Gerlach interferometer ( http://arxiv.org/abs/2310.18072v2 )

ライセンス: Link先を確認
Gabriel H. S. Aguiar and George E. A. Matsas(参考訳) 量子パラダイムの観点からマクロな物体の挙動を説明することは、今日1世紀にわたって科学界に挑戦してきた。 シュレーディンガー・ニュートン方程式(Schroedinger-Newton equation)と呼ばれる重力的自己相互作用のメカニズムは、その上に光を放つことを目的としている。 あらゆる努力にもかかわらず、このメカニズムは調査が困難であることが証明されている。 ここでは、簡単なStern-Gerlachのような実験を試す。 シュレーディンガー・ニュートン方程式は、特定の適切な条件下で解析的に解き、重力自己相互作用ポテンシャルによって引き起こされる脱落効果を計算することができる。

Explaining the behavior of macroscopic objects from the point of view of the quantum paradigm has challenged the scientific community for a century today. A mechanism of gravitational self-interaction, governed by the so-called Schroedinger-Newton equation, is among the proposals that aim to shed some light on it. Despite all efforts, this mechanism has been proven difficult to probe. Here, we consider a simple Stern-Gerlach-like experiment to try it out. The Schroedinger-Newton equation can be analytically solved under certain proper conditions, and a dephasing effect induced by the gravitational self-interacting potential can be calculated.
翻訳日:2024-01-18 20:28:33 公開日:2024-01-17
# Stanford-ORB: 現実世界の3Dオブジェクトの逆レンダリングベンチマーク

Stanford-ORB: A Real-World 3D Object Inverse Rendering Benchmark ( http://arxiv.org/abs/2310.16044v3 )

ライセンス: Link先を確認
Zhengfei Kuang, Yunzhi Zhang, Hong-Xing Yu, Samir Agarwala, Shangzhe Wu, Jiajun Wu(参考訳) 実世界の3Dオブジェクト逆レンダリングベンチマークであるStanford-ORBを紹介する。 最近の逆レンダリングの進歩により、3dコンテンツ生成における現実世界の幅広いアプリケーションが実現され、研究や商用のユースケースからコンシューマーデバイスへと急速に移行した。 結果は改善を続けているが、様々な逆レンダリングメソッドのパフォーマンスを定量的に評価し比較できる実世界のベンチマークは存在しない。 既存の現実世界のデータセットは、通常、オブジェクトの形状とマルチビューイメージのみで構成されており、素材の復元とオブジェクトのリライトの質を評価するには不十分である。 材料や照明を回収する手法は、しばしば合成データを用いて定量的評価を行うが、複雑な実環境への一般化は保証されない。 地上3Dスキャン,マルチビュー画像,環境照明など,様々な自然環境下で捉えた実世界のオブジェクトのデータセットを新たに導入する。 このデータセットを用いて,対象の逆レンダリングタスクの総合的な実世界評価ベンチマークを構築し,既存手法の性能を比較した。

We introduce Stanford-ORB, a new real-world 3D Object inverse Rendering Benchmark. Recent advances in inverse rendering have enabled a wide range of real-world applications in 3D content generation, moving rapidly from research and commercial use cases to consumer devices. While the results continue to improve, there is no real-world benchmark that can quantitatively assess and compare the performance of various inverse rendering methods. Existing real-world datasets typically only consist of the shape and multi-view images of objects, which are not sufficient for evaluating the quality of material recovery and object relighting. Methods capable of recovering material and lighting often resort to synthetic data for quantitative evaluation, which on the other hand does not guarantee generalization to complex real-world environments. We introduce a new dataset of real-world objects captured under a variety of natural scenes with ground-truth 3D scans, multi-view images, and environment lighting. Using this dataset, we establish the first comprehensive real-world evaluation benchmark for object inverse rendering tasks from in-the-wild scenes, and compare the performance of various existing methods.
翻訳日:2024-01-18 20:28:08 公開日:2024-01-17
# 非平衡温度測定のための強結合フェルミオンプローブ

Strongly coupled fermionic probe for nonequilibrium thermometry ( http://arxiv.org/abs/2310.14655v3 )

ライセンス: Link先を確認
Ricard Ravell Rodr\'iguez, Mohammad Mehboudi, Micha{\l} Horodecki, and Mart\'i Perarnau-Llobet(参考訳) 温度$T$のフェミオン浴の試料に強く結合した単一フェルミオン熱測定プローブの量子フィッシャー情報(QFI)により定量された測定感度を特徴付ける。 試料との平衡に達する前にプローブを計測する非平衡プロトコルについては、非マルコフダイナミクスに起因する測定感度の新しい振る舞いを見出す。 まず、QFIは、平衡まで単調に成長するマルコフのケースとは対照的に、時間内に非常に非単調な振る舞いを示すので、非マルコフの回復はより高いQFIに到達するために活用できる。 第2に、QFIレートは有限の尋問時間$t^*$で最大化され、これはマルコフ極限で知られている解$t^* \rightarrow 0$とは対照的である [Quantum 6, 869 (2022)]。 最後に、プローブは数個のフェルミオンで構成されており、測定精度の異なる集団的強化について論じる。

We characterise the measurement sensitivity, quantified by the Quantum Fisher Information (QFI), of a single-fermionic thermometric probe strongly coupled to the sample of interest, a fermionic bath, at temperature $T$. For nonequilibrium protocols, in which the probe is measured before reaching equilibrium with the sample, we find new behaviour of the measurement sensitivity arising due to non-Markovian dynamics. First, we show that the QFI displays a highly non-monotonic behaviour in time, in contrast to the Markovian case where it grows monotonically until equilibrium, so that non-Markovian revivals can be exploited to reach a higher QFI. Second, the QFI rate is maximised at a finite interrogation time $t^*$, which we characterize, in contrast to the solution $t^* \rightarrow 0$ known in the Markovian limit [Quantum 6, 869 (2022)]. Finally, we consider probes make up of few fermions and discuss different collective enhancements in the measurement precision.
翻訳日:2024-01-18 20:27:49 公開日:2024-01-17
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v5 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算のための1層トランスフォーマーモデルの詳細解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2024-01-18 20:27:10 公開日:2024-01-17
# オピニオン・チェンジまたはディファレンシャル・ターンアウト:予算フィードバックプロセスにおけるオースチン警察署の意見変更

Opinion Change or Differential Turnout: Changing Opinions on the Austin Police Department in a Budget Feedback Process ( http://arxiv.org/abs/2310.11643v2 )

ライセンス: Link先を確認
Lodewijk L. Gelauff and Ashish Goel(参考訳) 2020年、警察当局の手によるジョージ・フロイドの悲劇的な殺人は全国的な抗議活動に火をつけ、警察の資金提供と割り当ての変更を要求した。 テキサス州オースチンの住民が、当社のチームが設計したオンラインプラットフォーム上で、警察を含むさまざまな都市サービスエリアの予算について意見を交わすために招待された。 毎日の反応は100倍増加し、警察資金の削減を圧倒的に主張した「外因性ショック」の後に登録された。 この意見の転換は、我々の参加予算プラットフォーム上での他の14回の与党予算選挙よりもはるかに上回っており、反応人口の変動によって説明できない。 2021年のオースチン予算のフィードバック活動の結果の分析とその後の調査の結果から、2020年からの意見シフトは継続しており、警察の予算拡大に対する意見格差が続いていることが示されている。 我々は警察の資金提供に関する意見が実際に変わったと結論づけた。 本研究は,2020年のイベントや抗議活動が世論に持続する影響を浮き彫りにするだけでなく,調査主催者の評価ツールキットとして,団結した意見の分析の価値を示すものである。

In 2020 the tragic murder of George Floyd at the hands of law enforcement ignited and intensified nationwide protests, demanding changes in police funding and allocation. This happened during a budgeting feedback exercise where residents of Austin, Texas were invited to share opinions on the budgets of various city service areas, including the Police Department, on an online platform designed by our team. Daily responses increased by a hundredfold and responses registered after the "exogenous shock" overwhelmingly advocated for reducing police funding. This opinion shift far exceeded what we observed in 14 other Participatory Budgeting elections on our Participatory Budgeting Platform, and can't be explained by shifts in the respondent demographics. Analysis of the results from an Austin budgetary feedback exercise in 2021 and a follow-up survey indicates that the opinion shift from 2020 persisted, with the opinion gap on police funding widening. We conclude that there was an actual change of opinion regarding police funding. This study not only sheds light on the enduring impact of the 2020 events and protests on public opinion, but also showcases the value of analysis of clustered opinions as a tool in the evaluation toolkit of survey organizers.
翻訳日:2024-01-18 20:26:31 公開日:2024-01-17
# 対話LLM:会話における感情認識のための文脈・感情知識調整型大言語モデル

DialogueLLM: Context and Emotion Knowledge-Tuned Large Language Models for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.11374v4 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Youxi Wu, Prayag Tiwari, Qiuchi Li, Benyou Wang, Jing Qin(参考訳) 大規模言語モデル(LLM)とその変種は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示しており、NLPの開発に対する新たなビジョンを示している。 自然言語生成(NLG)における顕著な性能にもかかわらず、LLMは感情理解領域に明確な焦点をあてていない。 その結果、LLMを感情認識に使用すると、最適でない精度と不適切な精度が生じる可能性がある。 LLMのもうひとつの制限は、マルチモーダル情報を活用することなく訓練されることだ。 これらの制限を克服するために,13,638個のマルチモーダル(テキストとビデオ)感情対話を用いたLLaMAモデルを用いて,文脈と感情の知識を調整したLLMであるダイアログLLMを提案する。 視覚情報は、高品質な指示を構築するための補足的な知識と見なされる。 本稿では,会話(ERC)データセットにおける3つの感情認識のベンチマークモデルについて総合評価を行い,その結果をSOTAベースラインや他のSOTALLMと比較する。 さらに、DialogueLLM-7Bは、40GBのA100 GPU上で5時間でLoRAを使って簡単にトレーニングできる。

Large language models (LLMs) and their variants have shown extraordinary efficacy across numerous downstream natural language processing (NLP) tasks, which has presented a new vision for the development of NLP. Despite their remarkable performance in natural language generating (NLG), LLMs lack a distinct focus on the emotion understanding domain. As a result, using LLMs for emotion recognition may lead to suboptimal and inadequate precision. Another limitation of LLMs is that they are typical trained without leveraging multi-modal information. To overcome these limitations, we propose DialogueLLM, a context and emotion knowledge tuned LLM that is obtained by fine-tuning LLaMA models with 13,638 multi-modal (i.e., texts and videos) emotional dialogues. The visual information is considered as the supplementary knowledge to construct high-quality instructions. We offer a comprehensive evaluation of our proposed model on three benchmarking emotion recognition in conversations (ERC) datasets and compare the results against the SOTA baselines and other SOTA LLMs. Additionally, DialogueLLM-7B can be easily trained using LoRA on a 40GB A100 GPU in 5 hours, facilitating reproducibility for other researchers.
翻訳日:2024-01-18 20:25:49 公開日:2024-01-17
# 四元ウェーブレットネットワークによる医用画像表現の一般化

Generalizing Medical Image Representations via Quaternion Wavelet Networks ( http://arxiv.org/abs/2310.10224v3 )

ライセンス: Link先を確認
Luigi Sigillo, Eleonora Grassucci, Aurelio Uncini, Danilo Comminiello(参考訳) ニューラルネットワークの汎用性は、異なるソースからのデータセットとさまざまなタスクの可用性の増加により、幅広い研究分野になりつつある。 この問題は、メソジカルな基準の欠如が、異なるイメージングセンターによって提供されたり、様々なデバイスやコーファクターで取得されたりする、医療データの処理においてさらに広い。 これらの制約を克服するために,医療画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを導入する。 提案する四分法ウェーブレットネットワーク (quave) は, 既存の医用画像解析や合成タスクと容易に統合でき, 実, 四分法, またはハイパーコンプレックス値モデルと関わり, 単一チャネルデータへの採用を一般化することができる。 quaveはまず四元数ウェーブレット変換を通じて異なるサブバンドを抽出し、低周波/近似帯域と高周波/細粒度特性の両方をもたらす。 次に、画像処理のための他の神経モデルへの入力として、最も代表的なサブバンドのセットを重み付け、標準データサンプルを置き換える。 異なるデータセット、多様な画像解析、再構成、セグメンテーション、モダリティ翻訳を含む合成タスクを含む広範な実験的評価を行う。 また,実および四元価値モデルと組み合わせてクエーブを評価する。 その結果,提案フレームワークの有効性と汎用性が示され,ネットワーク性能が向上すると同時に,多様体シナリオに柔軟に適用でき,ドメインシフトに頑健である。 完全なコードは、https://github.com/ispamm/QWT.comで入手できる。

Neural network generalizability is becoming a broad research field due to the increasing availability of datasets from different sources and for various tasks. This issue is even wider when processing medical data, where a lack of methodological standards causes large variations being provided by different imaging centers or acquired with various devices and cofactors. To overcome these limitations, we introduce a novel, generalizable, data- and task-agnostic framework able to extract salient features from medical images. The proposed quaternion wavelet network (QUAVE) can be easily integrated with any pre-existing medical image analysis or synthesis task, and it can be involved with real, quaternion, or hypercomplex-valued models, generalizing their adoption to single-channel data. QUAVE first extracts different sub-bands through the quaternion wavelet transform, resulting in both low-frequency/approximation bands and high-frequency/fine-grained features. Then, it weighs the most representative set of sub-bands to be involved as input to any other neural model for image processing, replacing standard data samples. We conduct an extensive experimental evaluation comprising different datasets, diverse image analysis, and synthesis tasks including reconstruction, segmentation, and modality translation. We also evaluate QUAVE in combination with both real and quaternion-valued models. Results demonstrate the effectiveness and the generalizability of the proposed framework that improves network performance while being flexible to be adopted in manifold scenarios and robust to domain shifts. The full code is available at: https://github.com/ispamm/QWT.
翻訳日:2024-01-18 20:25:26 公開日:2024-01-17
# ラベル比率から学ぶ: 信念伝達による教師付き学習者のブートストラップ

Learning from Label Proportions: Bootstrapping Supervised Learners via Belief Propagation ( http://arxiv.org/abs/2310.08056v3 )

ライセンス: Link先を確認
Shreyas Havaldar, Navodita Sharma, Shubhi Sareen, Karthikeyan Shanmugam, Aravindan Raghuveer(参考訳) Label Proportions(LLP)からの学習(Learning from Label Proportions)は、トレーニング中のバッグと呼ばれるインスタンスのグループに対して、アグリゲートレベルのラベルしか利用できない学習問題である。 この設定は、プライバシー上の考慮から広告や医療といった領域で発生する。 そこで本研究では,2つの主要なステップを反復的に実行する新しいアルゴリズムフレームワークを提案する。 イテレーション毎に最初のステップ(Pseudo Labeling)として、バイナリインスタンスラベルを組み込んだGibbsディストリビューションを定義します。 a) 類似の共変量を持つインスタンスが類似のラベルを持つべきという制約により、共変量情報 b)バッグレベル集約ラベル。 次に,Belief Propagation (BP) を用いてギブス分布を疎外し,擬似ラベルを得る。 第2のステップ(改良の埋め込み)では、擬似ラベルを使用して学習者の監督を行い、よりよい埋め込みを得る。 さらに、第2ステップの埋め込みを次のイテレーションの新しい共変数として使用して、2つのステップを繰り返す。 最後のイテレーションでは、擬似ラベルを使用して分類器を訓練する。 本アルゴリズムは,表型および画像型のLLPバイナリ分類問題に対して,複数のSOTAベースライン(最大15%)に対して強い利得を示す。 我々は,100万個のサンプルであっても,Belief Propagationによる標準的な教師あり学習よりも計算オーバーヘッドが最小限に抑えられたこれらの改善を実現する。

Learning from Label Proportions (LLP) is a learning problem where only aggregate level labels are available for groups of instances, called bags, during training, and the aim is to get the best performance at the instance-level on the test data. This setting arises in domains like advertising and medicine due to privacy considerations. We propose a novel algorithmic framework for this problem that iteratively performs two main steps. For the first step (Pseudo Labeling) in every iteration, we define a Gibbs distribution over binary instance labels that incorporates a) covariate information through the constraint that instances with similar covariates should have similar labels and b) the bag level aggregated label. We then use Belief Propagation (BP) to marginalize the Gibbs distribution to obtain pseudo labels. In the second step (Embedding Refinement), we use the pseudo labels to provide supervision for a learner that yields a better embedding. Further, we iterate on the two steps again by using the second step's embeddings as new covariates for the next iteration. In the final iteration, a classifier is trained using the pseudo labels. Our algorithm displays strong gains against several SOTA baselines (up to 15%) for the LLP Binary Classification problem on various dataset types - tabular and Image. We achieve these improvements with minimal computational overhead above standard supervised learning due to Belief Propagation, for large bag sizes, even for a million samples.
翻訳日:2024-01-18 20:24:56 公開日:2024-01-17
# アダプタ再構成による大型視覚変圧器の効率的な適応

Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing ( http://arxiv.org/abs/2310.06234v2 )

ライセンス: Link先を確認
Wei Dong, Dawei Yan, Zhijun Lin, Peng Wang(参考訳) 高容量事前学習モデルの出現は、コンピュータビジョンにおける問題解決に革命をもたらし、タスク固有のモデルの訓練から事前学習モデルへの適応へと焦点を移した。 その結果,大規模な事前学習モデルによる下流作業の効率化が目覚ましい研究領域となっている。 既存のソリューションは主に軽量アダプタの設計と、事前訓練されたモデルとの相互作用に焦点を当てており、更新を必要とするパラメータの数を最小化することを目的としている。 本研究では,新しい視点からより効率的な事前学習モデル適応に対応する新しいアダプタ再合成(arc)戦略を提案する。 本稿では適応パラメータの再利用性を検討し,パラメータ共有方式を提案する。 具体的には、対称的なダウン/アッププロジェクションを利用して、レイヤ間で共有されるボトルネック操作を構築します。 低次元再スケーリング係数を学習することにより、層適応型アダプタを効果的に再構成することができる。 アダプタ設計におけるパラメータ共有戦略により、良好な性能を維持しつつ、新しいパラメータの数を著しく削減し、適応コストを圧縮するための有望なアプローチを提供する。 様々な視覚変換器を用いた24の下流画像分類タスクの実験を行い,その評価を行った。 その結果,本手法はパラメータ数を減らし,魅力的な伝達学習性能が得られることを示した。 私たちのコードは \href{https://github.com/DavidYanAnDe/ARC}{https://github.com/DavidYanAnDe/ARC} で利用可能です。

The advent of high-capacity pre-trained models has revolutionized problem-solving in computer vision, shifting the focus from training task-specific models to adapting pre-trained models. Consequently, effectively adapting large pre-trained models to downstream tasks in an efficient manner has become a prominent research area. Existing solutions primarily concentrate on designing lightweight adapters and their interaction with pre-trained models, with the goal of minimizing the number of parameters requiring updates. In this study, we propose a novel Adapter Re-Composing (ARC) strategy that addresses efficient pre-trained model adaptation from a fresh perspective. Our approach considers the reusability of adaptation parameters and introduces a parameter-sharing scheme. Specifically, we leverage symmetric down-/up-projections to construct bottleneck operations, which are shared across layers. By learning low-dimensional re-scaling coefficients, we can effectively re-compose layer-adaptive adapters. This parameter-sharing strategy in adapter design allows us to significantly reduce the number of new parameters while maintaining satisfactory performance, thereby offering a promising approach to compress the adaptation cost. We conduct experiments on 24 downstream image classification tasks using various Vision Transformer variants to evaluate our method. The results demonstrate that our approach achieves compelling transfer learning performance with a reduced parameter count. Our code is available at \href{https://github.com/DavidYanAnDe/ARC}{https://github.com/DavidYanAnDe/ARC}.
翻訳日:2024-01-18 20:24:31 公開日:2024-01-17
# ホック後のバイアススコーリングは公平な分類に最適

Post-hoc Bias Scoring Is Optimal For Fair Classification ( http://arxiv.org/abs/2310.05725v2 )

ライセンス: Link先を確認
Wenlong Chen, Yegor Klochkov, Yang Liu(参考訳) グループフェアネス制約の下での二分分類問題を考える。これは人口格差(dp)、等化機会(eop)、等化オッズ(eo)の1つである。 フェアネス制約下でのベイズ最適分類器の明示的な特徴付けを提案し, 制約のない分類器の簡単な修正規則であることが判明した。 すなわち、バイアススコアと呼ばれる新しいインスタンスレベルのバイアス尺度を導入し、修正規則は、有限量のバイアススコアの上に単純な線形ルールであり、この特徴に基づいて、高い精度を維持しながら公平性制約に適応できるポストホックなアプローチを開発する。 DPとEOpの制約の場合、修正規則は1つのバイアススコアをしきい値にし、EOの制約の場合、線形修正規則を2つのパラメータに適合させることが要求される。 この方法は、いくつかの感度特性を含むような複合グループフェアネス基準にも適用することができる。

We consider a binary classification problem under group fairness constraints, which can be one of Demographic Parity (DP), Equalized Opportunity (EOp), or Equalized Odds (EO). We propose an explicit characterization of Bayes optimal classifier under the fairness constraints, which turns out to be a simple modification rule of the unconstrained classifier. Namely, we introduce a novel instance-level measure of bias, which we call bias score, and the modification rule is a simple linear rule on top of the finite amount of bias scores.Based on this characterization, we develop a post-hoc approach that allows us to adapt to fairness constraints while maintaining high accuracy. In the case of DP and EOp constraints, the modification rule is thresholding a single bias score, while in the case of EO constraints we are required to fit a linear modification rule with 2 parameters. The method can also be applied for composite group-fairness criteria, such as ones involving several sensitive attributes.
翻訳日:2024-01-18 20:24:08 公開日:2024-01-17
# 効率的なデバイス非依存量子鍵分布

Efficient Device-Independent Quantum Key Distribution ( http://arxiv.org/abs/2311.09871v2 )

ライセンス: Link先を確認
Shih-Hsuan Chen, Chun-Hao Chang, Chih-Sung Chuu, Che-Ming Li(参考訳) デバイス非依存の量子鍵分布(DIQKD)は、セキュリティが量子物理学の法則に基づいているが、プロトコルで使用されるデバイスに関する仮定を一切必要としない鍵分布スキームである。 既存の絡み合いベースのDIQKDプロトコルのセキュリティはベルテストに依存している。 本稿では,ある参加者が状態を作成し,それを他の参加者に送信して測定する,デバイス非依存の量子鍵分布(ediqkd)プロトコルを提案する。 本プロトコルでは、セキュリティのためのプロセストモグラフィーに基づいて、参加者間の伝送過程を特徴付け、古典的な初期、送信、最終状態を用いて模倣を除外する。 集団攻撃に対するセキュリティを保証するために生鍵の最小ビット数を比較すると、ediqkdプロトコルの効率は、最大6.5\%の量子ビット誤り率を許容する信頼性のある鍵に対して、diqkdプロトコルの2桁以上である。 この利点により、参加者は絡み合ったペアの要求されたリソースと測定値を実質的に保存することができる。 最近の最新のフォトニクス実験において最も高い検出効率により、我々のプロトコルは非ゼロ鍵レートで実現でき、通常のDIQKDよりも効率的である。 我々のプロトコルとそのセキュリティ分析は、典型的な準備と測定の量子情報タスクをデバイスに依存しないシナリオで識別する上で有用な洞察を提供するかもしれない。

Device-independent quantum key distribution (DIQKD) is a key distribution scheme whose security is based on the laws of quantum physics but does not require any assumptions about the devices used in the protocol. The security of the existing entanglement-based DIQKD protocol relies on the Bell test. Here, we propose an efficient device-independent quantum key distribution (EDIQKD) protocol in which one participant prepares states and transmits them to another participant through a quantum channel to measure. In this prepare-and-measure protocol, the transmission process between participants is characterized according to the process tomography for security, ruling out any mimicry using the classical initial, transmission, and final state. Comparing the minimal number of bits of the raw key to guarantee security against collective attacks, the efficiency of the EDIQKD protocol is two orders of magnitude more than that of the DIQKD protocol for the reliable key of which quantum bit error rate is allowed up to 6.5\%. This advantage will enable participants to substantially conserve the entangled pair's demanded resources and the measurement. According to the highest detection efficiency in the recent most advanced photonic experiment, our protocol can be realized with a non-zero key rate and remains more efficient than usual DIQKD. Our protocol and its security analysis may offer helpful insight into identifying the typical prepare-and-measure quantum information tasks with the device-independent scenario.
翻訳日:2024-01-18 20:16:02 公開日:2024-01-17
# 表面状態対応によるホログラフィックエンタングルメント蒸留

Holographic Entanglement Distillation from the Surface State Correspondence ( http://arxiv.org/abs/2311.07649v2 )

ライセンス: Link先を確認
Ning Bao, Gun Suer(参考訳) 我々は, 絡み合う龍高柳表面の幾何学的部分因子間の相関について検討した。 表面状態対応とビットスレッドプログラムを用いて、サブファクタ間の相互情報と条件付き相互情報を計算することができる。 これにより、サブファクタ間の共有ベル対を数えることができ、SWAPゲートプロトコルを介してこれらのサブシステムに絡み合う蒸留手順を提案する。 マルチパーティの絡み合いへの拡張についてコメントする。

We study correlations between geometric subfactors living on the Ryu-Takayanagi surface that bounds the entanglement wedge. Using the surface-state correspondence and the bit threads program, we are able to calculate mutual information and conditional mutual information between subfactors. This enables us to count the shared Bell pairs between subfactors, and we propose an entanglement distillation procedure over these subsystems via a SWAP gate protocol. We comment on extending to multipartite entanglement.
翻訳日:2024-01-18 20:15:36 公開日:2024-01-17
# 長距離異方性ハイゼンベルク鎖における分解量子臨界

Deconfined Quantum Criticality in the long-range, anisotropic Heisenberg Chain ( http://arxiv.org/abs/2311.06350v2 )

ライセンス: Link先を確認
Anton Romen and Stefan Birnkammer and Michael Knap(参考訳) Deconfined quantum criticality はランダウ・ギンズバーグのパラダイムによって捉えられない連続相転移を記述する。 本稿では,長距離異方性ハイゼンベルク鎖の解圧量子臨界点について検討する。 行列積状態シミュレーションにより、モデルが原子価結合固体から反強磁性体への連続的な相転移を行うことを示す。 我々は遷移の臨界指数を抽出し、ボゾン化法から得られた有効場理論に接続する。 原子価結合位数を安定化するだけでなく、長距離相互作用は無関係であり、遷移は二重周波数シン・ゴルドンモデルによってよく説明される。 本研究では, 閉じ込めイオン量子シミュレータを用いて, 量子臨界現象を解明し, 探究する方法を提案する。

Deconfined quantum criticality describes continuous phase transitions that are not captured by the Landau-Ginzburg paradigm. Here, we investigate deconfined quantum critical points in the long-range, anisotropic Heisenberg chain. With matrix product state simulations, we show that the model undergoes a continuous phase transition from a valence bond solid to an antiferromagnet. We extract the critical exponents of the transition and connect them to an effective field theory obtained from bosonization techniques. We show that beyond stabilizing the valance bond order, the long-range interactions are irrelevant and the transition is well described by a double frequency sine-Gordon model. We propose how to realize and probe deconfined quantum criticality in our model with trapped-ion quantum simulators.
翻訳日:2024-01-18 20:15:29 公開日:2024-01-17
# 半教師型医用画像分割のための対角的階層的一貫性学習

Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.06031v4 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) 多くの臨床応用に欠かせない医療画像セグメンテーションは、データ駆動型ディープラーニング技術によってほぼ人間レベルのパフォーマンスを達成した。 それにもかかわらず、そのパフォーマンスは大量の医療画像に手動で注釈をつけるコストのかかるプロセスに基づいている。 そこで本研究では,対角階層整合学習(DiHC-Net)を用いた半教師付き医用画像分割のための新しいフレームワークを提案する。 まず、同一のマルチスケールアーキテクチャを持つ複数のサブモデルで構成され、アップサンプリングや正規化といった異なるサブレイヤを持つ。 第二に、相互整合性により、あるモデルの中間および最終予測と、他のモデルのソフト擬似ラベルの間に、対角的階層的な方法で新しい整合性正規化が実施される。 一連の実験によって、我々のシンプルなフレームワークの有効性が検証され、臓器と腫瘍に関する公開ベンチマークデータセットの以前のアプローチを上回っています。

Medical image segmentation, which is essential for many clinical applications, has achieved almost human-level performance via data-driven deep learning technologies. Nevertheless, its performance is predicated upon the costly process of manually annotating a vast amount of medical images. To this end, we propose a novel framework for robust semi-supervised medical image segmentation using diagonal hierarchical consistency learning (DiHC-Net). First, it is composed of multiple sub-models with identical multi-scale architecture but with distinct sub-layers, such as up-sampling and normalisation layers. Second, with mutual consistency, a novel consistency regularisation is enforced between one model's intermediate and final prediction and soft pseudo labels from other models in a diagonal hierarchical fashion. A series of experiments verifies the efficacy of our simple framework, outperforming all previous approaches on public benchmark dataset on organ and tumour.
翻訳日:2024-01-18 20:15:17 公開日:2024-01-17
# 親選択機構と突然変異における深層強化学習による遺伝的アルゴリズム : 置換フローショップスケジューリング問題の最小化

Genetic Algorithm enhanced by Deep Reinforcement Learning in parent selection mechanism and mutation : Minimizing makespan in permutation flow shop scheduling problems ( http://arxiv.org/abs/2311.05937v2 )

ライセンス: Link先を確認
Maissa Irmouli, Nourelhouda Benazzoug, Alaa Dania Adimi, Fatma Zohra Rezkellah, Imane Hamzaoui, Thanina Hamitouche, Malika Bessedik, Fatima Si Tayeb(参考訳) 本稿では,遺伝的アルゴリズム(GA)の設定と最適化に関わる課題に対処するための強化学習(RL)アプローチを提案する。 RL+GA法はフローショップスケジューリング問題(FSP)で特に試験された。 このハイブリッドアルゴリズムは、ニューラルネットワーク(NN)を組み込んでおり、親選択機構と突然変異の2つの主要な遺伝的アルゴリズム(GA)オペレータを制御するために、Qラーニング(Q-learning)法またはSarsa(0)法を用いる。 各世代において、RLエージェントの作用は、選択方法、親選択の確率、子孫突然変異の確率を決定することである。 これにより、RLエージェントは学習されたポリシーに基づいて選択と突然変異を動的に調整できる。 本研究の結果は,RL+GAアプローチがプリミティブGAの性能向上に有効であることを示す。 また、集団の多様性とソリューションの改善から学習し、適応する能力も示している。 この適応性は、進化過程を通じて集団の多様性を維持しつつ、静的パラメータの設定と比較してスケジューリングソリューションを改善する。

This paper introduces a reinforcement learning (RL) approach to address the challenges associated with configuring and optimizing genetic algorithms (GAs) for solving difficult combinatorial or non-linear problems. The proposed RL+GA method was specifically tested on the flow shop scheduling problem (FSP). The hybrid algorithm incorporates neural networks (NN) and uses the off-policy method Q-learning or the on-policy method Sarsa(0) to control two key genetic algorithm (GA) operators: parent selection mechanism and mutation. At each generation, the RL agent's action is determining the selection method, the probability of the parent selection and the probability of the offspring mutation. This allows the RL agent to dynamically adjust the selection and mutation based on its learned policy. The results of the study highlight the effectiveness of the RL+GA approach in improving the performance of the primitive GA. They also demonstrate its ability to learn and adapt from population diversity and solution improvements over time. This adaptability leads to improved scheduling solutions compared to static parameter configurations while maintaining population diversity throughout the evolutionary process.
翻訳日:2024-01-18 20:15:00 公開日:2024-01-17
# ウィザード・オブ・オズによる将来記憶とレジリエント位置通信のモデル化

Modelling prospective memory and resilient situated communications via Wizard of Oz ( http://arxiv.org/abs/2311.05268v2 )

ライセンス: Link先を確認
Yanzhe Li, Frank Broz, Mark Neerincx(参考訳) 本稿では,高齢者とロボットが介在するホーム環境での人間ロボット行動のシナリオを要約する。 このシナリオは、社会支援ロボット(SAR)とのコミュニケーションのためのメモリのモデル化を想定している。 このシナリオは、音声技術の障害に関するデータ収集と、音楽リスニング活動のような日々の活動中に発生する共有メモリを含む人間とロボットのコミュニケーションを可能にする。

This abstract presents a scenario for human-robot action in a home setting involving an older adult and a robot. The scenario is designed to explore the envisioned modelling of memory for communication with a socially assistive robots (SAR). The scenario will enable the gathering of data on failures of speech technology and human-robot communication involving shared memory that may occur during daily activities such as a music-listening activity.
翻訳日:2024-01-18 20:14:43 公開日:2024-01-17
# シンクホーンアルゴリズムの有界成長と指数収束の関数に対するヒルベルトの射影距離

Hilbert's projective metric for functions of bounded growth and exponential convergence of Sinkhorn's algorithm ( http://arxiv.org/abs/2311.04041v2 )

ライセンス: Link先を確認
Stephan Eckstein(参考訳) 非有界な環境でのエントロピー的最適輸送問題に動機づけられ、有界成長の可積分函数の空間に対するヒルベルトの射影計量のバージョンを研究した。 ヒルベルト計量のこれらのバージョンは、あるテスト函数に乗じて非負の積分値を持つすべての関数を含むという意味で、すべての非負関数の円錐の緩和である円錐に由来する。 カーネル積分作用素は、カーネルの零点への減衰が制御されることを条件として、零点から外れていないカーネルに対しても、そのようなメトリクスの適切な仕様に関する収縮であることを示す。 エントロピー最適輸送への応用として、コスト関数の増大に比較して、限界分布が十分な光尾を持つ設定において、シンクホーンのアルゴリズムの指数収束を示す。

Motivated by the entropic optimal transport problem in unbounded settings, we study versions of Hilbert's projective metric for spaces of integrable functions of bounded growth. These versions of Hilbert's metric originate from cones which are relaxations of the cone of all non-negative functions, in the sense that they include all functions having non-negative integral values when multiplied with certain test functions. We show that kernel integral operators are contractions with respect to suitable specifications of such metrics even for kernels which are not bounded away from zero, provided that the decay to zero of the kernel is controlled. As an application to entropic optimal transport, we show exponential convergence of Sinkhorn's algorithm in settings where the marginal distributions have sufficiently light tails compared to the growth of the cost function.
翻訳日:2024-01-18 20:14:35 公開日:2024-01-17
# ニューロハンド : 解釈可能な神経画像異常検出のための階層的注意ネットワーク

NEURO HAND: A weakly supervised Hierarchical Attention Network for interpretable neuroimaging abnormality Detection ( http://arxiv.org/abs/2311.02992v2 )

ライセンス: Link先を確認
David A. Wood(参考訳) 臨床神経画像データは自然に階層的である。 時系列内の異なる磁気共鳴イメージング(MRI)シーケンス、頭部を覆う異なるスライス、および各スライス内の異なる領域は、それぞれ異なる情報を参照する。 本稿では,臨床病院におけるmriスキャンを用いた異常検出のための階層的注意ネットワークを提案する。 提案するネットワークは,非体積データ(高分解能MRIスライススタック)に適しており,二値検査レベルのラベルからトレーニングすることができる。 この階層的アプローチによって分類が向上し, 粗い間およびスライス内異常局所化, あるいは異なるスライスやシーケンスに重要なスコアを与えることにより, 放射線学部門における自動トリアージシステムとしての使用に適したモデルが得られた。

Clinical neuroimaging data is naturally hierarchical. Different magnetic resonance imaging (MRI) sequences within a series, different slices covering the head, and different regions within each slice all confer different information. In this work we present a hierarchical attention network for abnormality detection using MRI scans obtained in a clinical hospital setting. The proposed network is suitable for non-volumetric data (i.e. stacks of high-resolution MRI slices), and can be trained from binary examination-level labels. We show that this hierarchical approach leads to improved classification, while providing interpretability through either coarse inter- and intra-slice abnormality localisation, or giving importance scores for different slices and sequences, making our model suitable for use as an automated triaging system in radiology departments.
翻訳日:2024-01-18 20:14:19 公開日:2024-01-17
# 汎用低ランクテンソル周波数帯域

Efficient Generalized Low-Rank Tensor Contextual Bandits ( http://arxiv.org/abs/2311.01771v3 )

ライセンス: Link先を確認
Qianxin Yi, Yiyang Yang, Shaojie Tang, Jiapeng Liu, Yao Wang(参考訳) 本稿では,多次元データのパワーと報奨関数の固有非線形性を十分に活用し,高可用性かつ説明可能な意思決定サービスを実現するbanditsアルゴリズムを構築することを目的とする。 この目的のために、3つの特徴ベクトルから作用が生成され、従ってテンソルで表現できる一般化された低ランクテンソル文脈帯域モデルを導入する。 この定式化において、報酬は、アクションの特徴テンソルの内積に適用される一般化線形関数と、低い管状ランクを持つ固定だが未知のパラメータテンソルによって決定される。 探索と搾取のトレードオフを効果的に達成するために,「一般化された低ランクテンソル探索部分空間を精製する」(g-lowtestr)という新しいアルゴリズムを導入する。 このアルゴリズムは、まず生データを収集し、決定シナリオに埋め込まれた本質的な低ランクテンソル部分空間情報を探索し、元の問題をほぼ低次元の一般化線形文脈帯域問題に変換する。 厳密な理論解析により、G-LowTESTRの後悔境界はベクトル化や行列化の場合よりも優れていることが示された。 我々は,g-lowtestrの有効性をさらに強調するために,一連のシミュレーションと実データ実験を実施し,低ランクテンソル構造を活用して強化学習を行う。

In this paper, we aim to build a novel bandits algorithm that is capable of fully harnessing the power of multi-dimensional data and the inherent non-linearity of reward functions to provide high-usable and accountable decision-making services. To this end, we introduce a generalized low-rank tensor contextual bandits model in which an action is formed from three feature vectors, and thus can be represented by a tensor. In this formulation, the reward is determined through a generalized linear function applied to the inner product of the action's feature tensor and a fixed but unknown parameter tensor with a low tubal rank. To effectively achieve the trade-off between exploration and exploitation, we introduce a novel algorithm called "Generalized Low-Rank Tensor Exploration Subspace then Refine" (G-LowTESTR). This algorithm first collects raw data to explore the intrinsic low-rank tensor subspace information embedded in the decision-making scenario, and then converts the original problem into an almost lower-dimensional generalized linear contextual bandits problem. Rigorous theoretical analysis shows that the regret bound of G-LowTESTR is superior to those in vectorization and matricization cases. We conduct a series of simulations and real data experiments to further highlight the effectiveness of G-LowTESTR, leveraging its ability to capitalize on the low-rank tensor structure for enhanced learning.
翻訳日:2024-01-18 20:14:02 公開日:2024-01-17
# Multilingual DistilWhisper:言語専門家によるマルチタスク音声モデルの効率的な蒸留

Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts ( http://arxiv.org/abs/2311.01070v2 )

ライセンス: Link先を確認
Thomas Palmeira Ferraz, Marcely Zanon Boito, Caroline Brun, Vassilina Nikoulina(参考訳) Whisperは99言語をカバーするマルチタスクおよび多言語音声モデルである。 圧縮可能な自動音声認識(ASR)は、その対象言語のサブセットとなるが、そのモデルは、より小さなモデルバージョンで悪化する問題である、非無視の数の非表現言語ではまだ性能が劣っている。 本稿では,asrの性能ギャップを橋渡しし,マルチタスクと多言語機能の利点を保ちつつ,asrの性能ギャップを橋渡しできる手法であるdistilwhisperを提案する。 提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。 この2つのアプローチにより、マルチタスクと多言語事前学習から受け継いだ堅牢性を保ちながら、ASRの性能を効果的に向上させることができる。 その結果,本手法は通常のファインチューニングやLoRAアダプタよりも有効であり,ドメイン内および外部テストセットのターゲット言語の性能を高めるとともに,推論時のパラメータオーバーヘッドを無視できるだけに抑えた。

Whisper is a multitask and multilingual speech model covering 99 languages. It yields commendable automatic speech recognition (ASR) results in a subset of its covered languages, but the model still underperforms on a non-negligible number of under-represented languages, a problem exacerbated in smaller model versions. In this work, we propose DistilWhisper, an approach able to bridge the performance gap in ASR for these languages while retaining the advantages of multitask and multilingual capabilities. Our approach involves two key strategies: lightweight modular ASR fine-tuning of whisper-small using language-specific experts, and knowledge distillation from whisper-large-v2. This dual approach allows us to effectively boost ASR performance while keeping the robustness inherited from the multitask and multilingual pre-training. Results demonstrate that our approach is more effective than standard fine-tuning or LoRA adapters, boosting performance in the targeted languages for both in- and out-of-domain test sets, while introducing only a negligible parameter overhead at inference.
翻訳日:2024-01-18 20:13:17 公開日:2024-01-17
# lindbladian sykにおける演算子ダイナミクス:krylov complexity perspective

Operator dynamics in Lindbladian SYK: a Krylov complexity perspective ( http://arxiv.org/abs/2311.00753v2 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Pratik Nandy, Tanay Pathak(参考訳) q$-body dissipative syk モデルにおける演算子の成長を研究するために、krylov の複雑性を用いており、そこでは散逸は線形かつランダムな $p$-body lindblad 演算子によってモデル化される。 大きな$q$極限において、任意のジェネリックジャンプ作用素に対する2つの係数の集合の線形成長を解析的に確立する。 我々は、リンドブラジアンを純粋三角形に変換するbi-lanczosアルゴリズムを実装してこれを数値的に検証する。 クリロフ複雑性は散逸強度と逆向きに飽和し,散逸時間スケールは対数的に増加する。 これは、他の$\mathfrak{q}$-complexity測度、すなわちout-of-time-order correlator (otoc) と演算子のサイズの挙動に似ている。 これらの観測を連続的な量子計測プロセスに結びつける。 さらに, 一般自己相関の極構造と散逸の存在下でのスペクトル関数の高周波挙動についても検討し, 散逸量子カオス系における作用素成長の一般的な原理を明らかにする。

We use Krylov complexity to study operator growth in the $q$-body dissipative SYK model, where the dissipation is modeled by linear and random $p$-body Lindblad operators. In the large $q$ limit, we analytically establish the linear growth of two sets of coefficients for any generic jump operators. We numerically verify this by implementing the bi-Lanczos algorithm, which transforms the Lindbladian into a pure tridiagonal form. We find that the Krylov complexity saturates inversely with the dissipation strength, while the dissipative timescale grows logarithmically. This is akin to the behavior of other $\mathfrak{q}$-complexity measures, namely out-of-time-order correlator (OTOC) and operator size, which we also demonstrate. We connect these observations to continuous quantum measurement processes. We further investigate the pole structure of a generic auto-correlation and the high-frequency behavior of the spectral function in the presence of dissipation, thereby revealing a general principle for operator growth in dissipative quantum chaotic systems.
翻訳日:2024-01-18 20:12:30 公開日:2024-01-17
# 学習パラメトリック確率モデルの確率的熱力学

Stochastic Thermodynamics of Learning Parametric Probabilistic Models ( http://arxiv.org/abs/2310.19802v5 )

ライセンス: Link先を確認
Shervin Sadat Parsi(参考訳) 我々は,PPM(Parametric Probabilistic Models)の時間進化として,本質的には熱力学過程を描画する機械学習問題を定式化した。 我々の主な動機は、情報の熱力学の豊富なツールボックスを活用し、確率モデルを学ぶ際の情報理論の内容を評価することである。 まず,記憶情報(m-info)と学習情報(l-info)の2つの情報理論指標を導入し,ppmの学習過程における情報の流れを追跡する。 そして,学習過程におけるL-infoの蓄積がエントロピー生成と関連し,パラメータが熱貯水池として機能し,M-infoの形で学習情報を収集することを示した。

We have formulated a family of machine learning problems as the time evolution of Parametric Probabilistic Models (PPMs), inherently rendering a thermodynamic process. Our primary motivation is to leverage the rich toolbox of thermodynamics of information to assess the information-theoretic content of learning a probabilistic model. We first introduce two information-theoretic metrics: Memorized-information (M-info) and Learned-information (L-info), which trace the flow of information during the learning process of PPMs. Then, we demonstrate that the accumulation of L-info during the learning process is associated with entropy production, and parameters serve as a heat reservoir in this process, capturing learned information in the form of M-info.
翻訳日:2024-01-18 20:11:43 公開日:2024-01-17
# プロパゲータのFeynman-Dyson図形摂動膨張の非収束性

Nonconvergence of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v5 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, J. V. Ortiz, Rodney J. Bartlett(参考訳) 分子の一般多体グリーン関数法を用いて、1粒子多体グリーン関数の電子プロパゲータとしてのFeynman-Dyson図形摂動膨張のいくつかの病理学的挙動を数値的に記述する。 (i)周波数依存性の自己エネルギーの摂動膨張は多くの周波数領域において正確な自己エネルギーに収束しない。 二) 奇摂次自己エネルギーは定性的に間違った形状であり、その結果、対応するダイソン方程式の多くの根は、極が複雑であるか、残基が一元を超えることができるという非物理的である。 3) 等階自己エネルギーを持つダイソン方程式は、電子相関効果を考慮に入れないゼロ階平均場理論の軌道エネルギー差にエネルギーが近づいた根を持つ。 (iv)頂点または辺修正による図形の無限部分和は、これらの問題を悪化させる。 これらの非コンバージェンスにより、多くの低次イオン化や高次電子結合根では役に立たない高次ファインマン・ダイソン図式摂動理論が実現されるだけでなく、全ての極と残基の知識を必要とする ans\"{a}tze と組み合わせた使用の妥当性も疑問視される。 このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン関数法、代数図形構成のモデルなどがある。

Using a general-order many-body Green's-function method for molecules, we numerically illustrate several pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron propagators, which are separate from the infrared/ultraviolet divergences or the Kohn-Luttinger nonconvergence. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, many roots of the corresponding Dyson equation are nonphysical in that the poles may be complex or the residues can exceed unity. (iii) The Dyson equation with an even-order self-energy has roots whose energies approach sheer orbital energy differences of the zeroth-order mean-field theory with little to no electron-correlation effects taken into account. (iv) Infinite partial summation of diagrams by vertex or edge modification exacerbates these problems. Not only do these nonconvergences render higher-order Feynman-Dyson diagrammatic perturbation theory useless for many lower-lying ionization or higher-lying electron-attachment roots, but they also call into question the validity of its combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, self-consistent Green's-function methods, and some models of the algebraic diagrammatic construction.
翻訳日:2024-01-18 20:04:58 公開日:2024-01-17
# メタ学習神経減衰場とハッシュエンコーディング正規化を用いた高速かつ高精度CBCT再構成

Fast and accurate sparse-view CBCT reconstruction using meta-learned neural attenuation field and hash-encoding regularization ( http://arxiv.org/abs/2312.01689v2 )

ライセンス: Link先を確認
Heejun Shin, Taehee Kim, Jongho Lee, Se Young Chun, Seungryung Cho, Dongmyung Shin(参考訳) コーンビームCT(CBCT)は、患者の内部解剖学的構造を可視化する新しい医療画像技術である。 CBCTスキャンでは、異なる角度やビューの投影画像を集合的に利用してトモグラフィ画像の再構成を行う。 しかし, 再構成画像の品質を維持しつつ, CBCTスキャンにおける投影数を減らすことは, 逆問題の性質から困難である。 近年, CBCT再構成のための新しい手法としてニューラル・ラジオアンス・フィールド・アルゴリズムを採用し, 50ビューで高速かつ有望な結果を示すニューラル・減衰場(NAF)法が提案されている。 しかし, 被曝電位を減少させるには投影数の減少が望ましいが, 典型的な走査時間を考えると, より早い再構成時間が必要となる。 そこで本研究では,最小のビュー取得数(50ビュー)において,より優れたコンストラクション品質と高速な最適化速度を実現するために,高速かつ高精度なsparse-view cbct reconstruction (fact) 法を提案する。 FACT法では,数個のスキャン(=15)を用いてニューラルネットワークとハッシュエンコーダをメタトレーニングし,新しい正規化手法を用いて解剖学的構造の詳細を再構築した。 その結果,異なる体部(胸部,頭部,腹部)とctベンダー(シーメンス,フィリップス,ge)のcbctスキャンに基づく他の従来のアルゴリズムと比較して,ファクト法がより良く,より高速に再構成できることがわかった。

Cone beam computed tomography (CBCT) is an emerging medical imaging technique to visualize the internal anatomical structures of patients. During a CBCT scan, several projection images of different angles or views are collectively utilized to reconstruct a tomographic image. However, reducing the number of projections in a CBCT scan while preserving the quality of a reconstructed image is challenging due to the nature of an ill-posed inverse problem. Recently, a neural attenuation field (NAF) method was proposed by adopting a neural radiance field algorithm as a new way for CBCT reconstruction, demonstrating fast and promising results using only 50 views. However, decreasing the number of projections is still preferable to reduce potential radiation exposure, and a faster reconstruction time is required considering a typical scan time. In this work, we propose a fast and accurate sparse-view CBCT reconstruction (FACT) method to provide better reconstruction quality and faster optimization speed in the minimal number of view acquisitions ($<$ 50 views). In the FACT method, we meta-trained a neural network and a hash-encoder using a few scans (= 15), and a new regularization technique is utilized to reconstruct the details of an anatomical structure. In conclusion, we have shown that the FACT method produced better, and faster reconstruction results over the other conventional algorithms based on CBCT scans of different body parts (chest, head, and abdomen) and CT vendors (Siemens, Phillips, and GE).
翻訳日:2024-01-18 20:04:07 公開日:2024-01-17
# テンソルネットワークによる対角線外固有状態熱化の探索

Probing Off-diagonal Eigenstate Thermalization with Tensor Networks ( http://arxiv.org/abs/2312.00736v2 )

ライセンス: Link先を確認
Maxine Luo, Rahul Trivedi, Mari Carmen Ba\~nuls and J. Ignacio Cirac(参考訳) 量子シミュレーションと組み合わせたエネルギーフィルタ法は、有限エネルギー密度の量子多体系の特性に効率的にアクセスすることができる[Lu et al. PRX Quantum 2, 020321 (2021)]。 このアルゴリズムをテンソルネットワークで古典的にシミュレートすることで、[yang et al. phys. rev. b 106, 024307 (2022)]に示されているように、大きなスピンチェーンのマイクロキャノニカル特性を調べることができる。 ここでは、この戦略を拡張して、熱化挙動と固有状態熱化仮説に根ざした、エネルギー固有ベイズにおける可観測物の外対角行列要素の性質を探求する。 本手法は,60地点までの可積分および非可積分スピンチェーンでテストし,正確な対角化によるアクセス性よりもはるかに大きい。 以上の結果から,外対角関数のスケールとエネルギー差について検討し,積分可能ケースと非可積分ケースの定量的差異を検証できる。

Energy filter methods in combination with quantum simulation can efficiently access the properties of quantum many-body systems at finite energy densities [Lu et al. PRX Quantum 2, 020321 (2021)]. Classically simulating this algorithm with tensor networks can be used to investigate the microcanonical properties of large spin chains, as recently shown in [Yang et al. Phys. Rev. B 106, 024307 (2022)]. Here we extend this strategy to explore the properties of off-diagonal matrix elements of observables in the energy eigenbasis, fundamentally connected to the thermalization behavior and the eigenstate thermalization hypothesis. We test the method on integrable and non-integrable spin chains of up to 60 sites, much larger than accessible with exact diagonalization. Our results allow us to explore the scaling of the off-diagonal functions with the size and energy difference, and to establish quantitative differences between integrable and non-integrable cases
翻訳日:2024-01-18 20:03:39 公開日:2024-01-17
# 非局所的ボックスの代数と通信複雑性の崩壊

Algebra of Nonlocal Boxes and the Collapse of Communication Complexity ( http://arxiv.org/abs/2312.00725v2 )

ライセンス: Link先を確認
Pierre Botteron, Anne Broadbent, Reda Chhaibi, Ion Nechita, and Cl\'ement Pellegrini(参考訳) 通信複雑性は、文字列X,Yがそれぞれ第1及び第2のコンピュータに分散される関数f(X,Y)を、可能な限りビット交換の制約の下で評価することが、2つの遠隔コンピュータにとってどれだけ難しいかを定量化する。 驚くべきことに、2つのコンピュータが共有するリソースであるいくつかの非ローカルボックスは、ブール関数 f を1ビットの通信の交換で正確に推定できるという意味で、通信複雑性の崩壊を可能にするほど強力である。 popescu-rohrlich(pr)ボックスは、そのような崩壊するリソースの例であるが、崩壊する非局所的なボックスの集合の包括的記述は、いまだに解明されていない。 本研究では,非局所的ボックスを接続する配線の構造に関する代数的研究を行い,ボックスの積"$P\boxtimes Q$"の概念を定義し,関連する連想性と可換性を示す。 これにより「箱の軌道」の概念が生まれ、蒸留箱のアライメントと平行性に関する驚くべき幾何学的性質が明らかになる。 この新しいフレームワークのパワーは、連続するボックスをつなぐ最善の方法に関する事前報告された数値観測を証明し、様々なタイプのノイズモデルで通信の複雑さを崩壊させる最近特定されたノイズprボックスを数値的かつ分析的に復元することを可能にすることである。

Communication complexity quantifies how difficult it is for two distant computers to evaluate a function f(X,Y) where the strings X and Y are distributed to the first and second computer, respectively and under the constraint of exchanging as few bits as possible. Surprisingly, some nonlocal boxes, which are resources shared by the two computers, are so powerful that they allow to collapse communication complexity, in the sense that any Boolean function f can be correctly estimated with the exchange of only one bit of communication. The Popescu-Rohrlich (PR) box is an example of such a collapsing resource, but a comprehensive description of the set of collapsing nonlocal boxes remains elusive. In this work, we carry out an algebraic study of the structure of wirings connecting nonlocal boxes, thus defining the notion of the "product of boxes" $P\boxtimes Q$, and we show related associativity and commutativity results. This gives rise to the notion of the "orbit of a box", unveiling surprising geometrical properties about the alignment and parallelism of distilled boxes. The power of this new framework is that it allows to prove previously-reported numerical observations concerning the best way to wire consecutive boxes, and to numerically and analytically recover recently-identified noisy PR boxes that collapse communication complexity for different types of noise models.
翻訳日:2024-01-18 20:03:19 公開日:2024-01-17
# ベル II における $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ の絡み合いとベルの不等式検証

Probing entanglement and testing Bell inequality violation with $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ at Belle II ( http://arxiv.org/abs/2311.17555v2 )

ライセンス: Link先を確認
Karl Ehat\"aht, Marco Fabbrichesi, Luca Marzola, Christian Veelken(参考訳) 我々は,$\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ の質量中心エネルギーが $\sqrt{s} = 10.579$ gev である過程において,量子の絡み合いとベルの不等式違反を調べるための実現可能性の研究を行う。 この分析の感度は、質量フレームの散乱角$\vartheta$を$\tau^{+}\tau^{-}$に選択することで向上する。 崩壊チャネル $\tau^{-} \rightarrow \pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{0}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$の組み合わせを用いて、両方のレプトンがハドロンに崩壊する事象を分析する。 これらの崩壊における$\tau$レプトンのスピン配向は、偏光度ベクトル法を用いて再構成される。 2億ドルの$\tau^{+}\tau^{-}$イベントのデータセットを仮定し、実験的な解決を考慮すれば、belle-ii実験による量子エンタングルメントとベルの不等式違反の観測が可能であり、標準偏差が5つ以上あると期待できる。

We present a feasibility study to probe quantum entanglement and Belle inequality violation in the process $\textrm{e}^{+}\textrm{e}^{-} \rightarrow \tau^{+}\tau^{-}$ at a center-of-mass energy of $\sqrt{s} = 10.579$ GeV. The sensitivity of the analysis is enhanced by applying a selection on the scattering angle $\vartheta$ in the $\tau^{+}\tau^{-}$ center-of-mass frame. We analyze events in which both $\tau$ leptons decay to hadrons, using a combination of decay channels $\tau^{-} \rightarrow \pi^{-}\nu_{\tau}$, $\tau^{-} \rightarrow \pi^{-}\pi^{0}\nu_{\tau}$, and $\tau^{-} \rightarrow \pi^{-}\pi^{+}\pi^{-}\nu_{\tau}$. The spin orientation of the $\tau$ leptons in these decays is reconstructed using the polarimeter-vector method. Assuming a dataset of $200$ million $\tau^{+}\tau^{-}$ events and accounting for experimental resolutions, we expect the observation of quantum entanglement and Bell inequality violation by the Belle-II experiment will be possible with a significance well in excess of five standard deviations.
翻訳日:2024-01-18 20:02:13 公開日:2024-01-17
# LQ-LoRA:効率的な言語モデルファインタニングのための低ランク・量子行列分解

LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning ( http://arxiv.org/abs/2311.12023v2 )

ライセンス: Link先を確認
Han Guo, Philip Greengard, Eric P. Xing, Yoon Kim(参考訳) 本稿では,事前学習言語モデルのメモリ効率向上のための簡単な手法を提案する。 本手法では,各行列を高精度低ランク成分とメモリ効率の良い量子化成分に分解する反復アルゴリズムを用いる。 微調整中、量子化コンポーネントは固定され、ローランクコンポーネントのみが更新される。 本稿では,各行列に対する量子化パラメータ(ビット幅,ブロックサイズなど)の動的構成を可能にする量子化成分の整数線形計画法について述べる。 本研究では,fisher情報行列の近似を用いて,行列分解時の復元目標の重み付けを行うアルゴリズムについて検討する。 RoBERTa と LLaMA-2 (7B, 70B) の微調整実験により,我々の低ランク+量子化行列分解法 (LQ-LoRA) が強い QLoRA と GPTQ-LoRA ベースラインを上回り,性能劣化の少ない sub-3 ビットへのアグレッシブ量子化を可能にすることを示した。 この設定では、2.75ビットのLLaMA-2-70Bモデル(低ランクのコンポーネントを含めると平均2.85ビットで、27GBのGPUメモリを必要とする)は16ビットのベースラインと比較してきちんと動作します。

We propose a simple approach for memory-efficient adaptation of pretrained language models. Our approach uses an iterative algorithm to decompose each pretrained matrix into a high-precision low-rank component and a memory-efficient quantized component. During finetuning, the quantized component remains fixed and only the low-rank component is updated. We present an integer linear programming formulation of the quantization component which enables dynamic configuration of quantization parameters (e.g., bit-width, block size) for each matrix given an overall target memory budget. We further explore a data-aware version of the algorithm which uses an approximation of the Fisher information matrix to weight the reconstruction objective during matrix decomposition. Experiments on finetuning RoBERTa and LLaMA-2 (7B and 70B) demonstrate that our low-rank plus quantized matrix decomposition approach (LQ-LoRA) outperforms strong QLoRA and GPTQ-LoRA baselines and enables aggressive quantization to sub-3 bits with only minor performance degradations. When finetuned on a language modeling calibration dataset, LQ-LoRA can also be used for model compression; in this setting our 2.75-bit LLaMA-2-70B model (which has 2.85 bits on average when including the low-rank components and requires 27GB of GPU memory) performs respectably compared to the 16-bit baseline.
翻訳日:2024-01-18 20:00:59 公開日:2024-01-17
# 混合交通制御下における非符号化実世界の交差点におけるエミッションとエネルギー効率の解析

Analyzing Emissions and Energy Efficiency at Unsignalized Real-world Intersections Under Mixed Traffic Control ( http://arxiv.org/abs/2311.11866v2 )

ライセンス: Link先を確認
Michael Villarreal, Dawei Wang, Jia Pan, Weizi Li(参考訳) 温室効果ガスの排出量は1900年代初期から劇的に増加し、アメリカ運輸省の排出量の28%を占めている。 そのため、輸送関連排出削減への関心が高まっている。 特に、交差点によって異なる交通の流れが交差し、方向を変えることができるため、サステナビリティの研究がシグナル化された交差点を中心に展開されている。 最近の研究は、信号交差点における混合交通制御エコ運転戦略を開発し、排出削減に寄与している。 しかし、信号化された交差点の固有構造は、頻繁な加速/減速イベント、渋滞による過剰なアイドル、ストップ・アンド・ゴー波を発生させることで、排出を増加させる。 したがって、無署名の交差点はさらなる持続可能性の改善の可能性を持っていると信じている。 本研究では,複合交通制御戦略をロボット車両(rvs)が採用する複雑な実世界のトポロジーと交通需要を有する無署名交差点の排出分析を行い,待ち時間と混雑を低減した。 RVの浸透率を10%以上とすると, RVは信号化交差点の27%, 27%, 28%, NOx排出量をそれぞれ減少させることがわかった。 少なくとも30%の RV では、CO と HC の排出量はそれぞれ 42% と 43% に減少する。 さらに、rvsは交差点で戦略を採るだけでネットワーク全体の排出量を削減できる。

Greenhouse gas emissions have dramatically risen since the early 1900s with U.S. transportation generating 28% of U.S. emissions. As such, there is interest in reducing transportation-related emissions. Specifically, sustainability research has sprouted around signalized intersections as intersections allow different streams of traffic to cross and change directions. Recent research has developed mixed traffic control eco-driving strategies at signalized intersections to decrease emissions. However, the inherent structure of a signalized intersection generates increased emissions by creating frequent acceleration/deceleration events, excessive idling from traffic congestion, and stop-and-go waves. Thus, we believe unsignalized intersections hold potential for further sustainability improvements. In this work, we provide an emissions analysis on unsignalized intersections with complex, real-world topologies and traffic demands where mixed traffic control strategies are employed by robot vehicles (RVs) to reduce wait times and congestion. We find with at least 10% RV penetration rate, RVs generate less fuel consumption, CO2 emissions, and NOx emissions than signalized intersections by up to 27%, 27% and 28%, respectively. With at least 30% RVs, CO and HC emissions are reduced by up to 42% and 43%, respectively. Additionally, RVs can reduce network-wide emissions despite only employing their strategies at intersections.
翻訳日:2024-01-18 20:00:32 公開日:2024-01-17
# FIKIT:カーネル同定による優先度に基づくリアルタイムGPUマルチタスクスケジューリング

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification ( http://arxiv.org/abs/2311.10359v3 )

ライセンス: Link先を確認
Wenqing Wu(参考訳) 機械学習トレーニングや推論、一般的なHPCタスクといった高度な並列処理は、GPUデバイスを使用して大幅に高速化される。 クラウドコンピューティングクラスタでは、マルチタスク共有を通じてgpuの計算能力を提供するには、利用可能なgpuの数よりもタスク要求が常に多いため、非常に要求される。 既存のGPU共有ソリューションでは、単一のGPUで競合する複数のジョブのタスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。 非停止計算要求は、異なる優先順位を持ち、gpuデバイスを共有するためにqosに非対称な影響を与える。 既存の作業はこの設定によってもたらされたカーネルレベルの最適化の機会を逃した。 そこで本研究では, FIKIT: Filling Inter-kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。 FIKITはタスクレベルの優先度情報、きめ細かいカーネル識別、カーネル計測を組み込んでおり、優先度の高いタスクのカーネル間アイドル時間内での優先度の低いタスクの実行を可能にする。 これにより、GPUのデバイスランタイムを完全に満たし、クラウドサービスに対する全体的なGPU共有の影響を低減することができる。 一連のMLモデル全体で、FIKITベースの推論システムは、GPU共有モードのJCTに比べて優先度の高いタスクを1.33倍から14.87倍に加速し、ケースの半数以上が3.5倍以上加速した。 あるいは、プリエンプティブ共有の下では、低優先度タスクはデフォルトのGPU共有モード JCTと同等で、0.84から1倍である。 さらにカーネル計測と実行時の細粒度カーネルスケジューリングのオーバーヘッドを10%未満に制限した。

Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing GPU sharing solutions focus on reducing task-level waiting time or task-level switching costs when multiple jobs competing for a single GPU. Non-stopped computation requests come with different priorities, having non-symmetric impact on QoS for sharing a GPU device. Existing work missed the kernel-level optimization opportunity brought by this setting. To address this problem, we present a novel kernel-level scheduling strategy called FIKIT: Filling Inter-kernel Idle Time. FIKIT incorporates task-level priority information, fine-grained kernel identification, and kernel measurement, allowing low priorities task's execution during high priority task's inter-kernel idle time. Thereby, filling the GPU's device runtime fully, and reduce overall GPU sharing impact to cloud services. Across a set of ML models, the FIKIT based inference system accelerated high priority tasks by 1.33 to 14.87 times compared to the JCT in GPU sharing mode, and more than half of the cases are accelerated by more than 3.5 times. Alternatively, under preemptive sharing, the low-priority tasks have a comparable to default GPU sharing mode JCT, with a 0.84 to 1 times ratio. We further limit the kernel measurement and runtime fine-grained kernel scheduling overhead to less than 10%.
翻訳日:2024-01-18 20:00:09 公開日:2024-01-17
# golangエコシステムにおける脆弱性ライフサイクルの実証分析

Empirical Analysis of Vulnerabilities Life Cycle in Golang Ecosystem ( http://arxiv.org/abs/2401.00515v2 )

ライセンス: Link先を確認
Jinchang Hu (1), Lyuye Zhang (2), Chengwei Liu (2), Sen Yang (3), Song Huang (1) and Yang Liu (2) ((1) College of Command and Control Engineering, Army Engineering University of PLA, NanJing, China. (2) Continental-NTU Corporate Lab, Nanyang Technological University, Singapore, Singapore. (3) Academy of Military Science, BeiJing, China.)(参考訳) オープンソースソフトウェア(OSS)は、開発者のプログラム開発を大いに促進します。 しかしながら、オープンソースソフトウェアの脆弱性の多さは、比較的新しいプログラミング言語であるGolangなど、大きな懸念事項である。 一般的なOSSパッケージマネージャとは対照的に,Golangでは,公式リリースへの統合前に依存性バージョンとしてコミットが広く使用されるという,ユニークな機能を備えている。 この属性は、リリース前にタイムリーにパッチコミットを実装することができるため、ユーザにとって有利である。 しかし、Golangは依存関係を管理するための分散メカニズムを採用しており、依存関係は個別のリポジトリで維持され、分散される。 このアプローチはパッチや未解決の脆弱性の拡散を遅らせる可能性がある。 上記の懸念に取り組むため,go言語における脆弱性のライフサイクルを総合的に調査し,導入から開始し,その修正に到達した。 この目的のために、さまざまなソースからデータを収集し、脆弱性パッチの遅延を計算するアルゴリズムを体系的に組み合わさったフレームワークが確立された。 golangエコシステムのモジュールの66.10%が脆弱性の影響を受けていることが判明した。 脆弱性のライフサイクル内では,脆弱性修正の伝播を妨げる2種類のラグが見つかった。 タグ付けされていない脆弱性やラベル付けされていない脆弱性の背後にある理由を分析することで、タイムリーリリースとインデックス化がエコシステムのセキュリティを著しく向上させる可能性がある。

Open-source software (OSS) greatly facilitates program development for developers. However, the high number of vulnerabilities in open-source software is a major concern, including in Golang, a relatively new programming language. In contrast to other commonly used OSS package managers, Golang presents a distinctive feature whereby commits are prevalently used as dependency versions prior to their integration into official releases. This attribute can prove advantageous to users, as patch commits can be implemented in a timely manner before the releases. However, Golang employs a decentralized mechanism for managing dependencies, whereby dependencies are upheld and distributed in separate repositories. This approach can result in delays in the dissemination of patches and unresolved vulnerabilities. To tackle the aforementioned concern, a comprehensive investigation was undertaken to examine the life cycle of vulnerability in Golang, commencing from its introduction and culminating with its rectification. To this end, a framework was established by gathering data from diverse sources and systematically amalgamating them with an algorithm to compute the lags in vulnerability patching. It turned out that 66.10% of modules in the Golang ecosystem were affected by vulnerabilities. Within the vulnerability life cycle, we found two kinds of lag impeding the propagation of vulnerability fixing. By analyzing reasons behind non-lagged and lagged vulnerabilities, timely releasing and indexing patch versions could significantly enhance ecosystem security.
翻訳日:2024-01-18 19:52:51 公開日:2024-01-17
# 監視系における絡み合いダイナミクスと量子ジャンプの役割

Entanglement Dynamics in Monitored Systems and the Role of Quantum Jumps ( http://arxiv.org/abs/2312.13419v2 )

ライセンス: Link先を確認
Youenn Le Gal, Xhek Turkeshi, Marco Schir\`o(参考訳) 監視された量子多体系は、この非ユニタリな設定に特有のエンタングルメントダイナミクスの豊かなパターンを示す。 この研究は、決定論的非エルミート進化に対応する無クリック極限を超える絡み合い力学に対する量子ジャンプの効果を研究する。 観測されたSSHモデルと量子イジングチェーンの2つの例を考えると、ジャンプは待ち時間分布でエンコードされた統計と同じ統計を持つにもかかわらず、アンタングルメントに著しく異なる効果を示す。 この違いを理解するために,ジャンプと非エルミット進化による絡み合いの利得と損失の統計を新たに導入する。 この洞察により、部分的なリセットを伴うランダムウォークの単純な確率モデルを構築し、エンタングルメントダイナミクスを再現し、エンタングルメントスケーリングにおけるジャンプと非ヘルミット進化の相互の役割を分断することができる。 非クリック限界からのかなりの偏差は、弱い監視におけるsshモデルや大きな横磁場におけるイジング連鎖の場合のように、量子ジャンプが非エルミート力学を強く再正規化するときに生じる。 一方,イジング鎖の弱い監視相は,弱再正規化非エルミート力学によるロバストなサブボリューム対数相をもたらすことを示した。

Monitored quantum many-body systems display a rich pattern of entanglement dynamics, which is unique to this non-unitary setting. This work studies the effect of quantum jumps on the entanglement dynamics beyond the no-click limit corresponding to a deterministic non-Hermitian evolution. We consider two examples, a monitored SSH model and a quantum Ising chain, for which we show the jumps have remarkably different effects on the entanglement despite having the same statistics as encoded in their waiting-time distribution. To understand this difference, we introduce a new metric, the statistics of entanglement gain and loss due to jumps and non-Hermitian evolution. This insight allows us to build a simple stochastic model of a random walk with partial resetting, which reproduces the entanglement dynamics, and to dissect the mutual role of jumps and non-Hermitian evolution on the entanglement scaling. We demonstrate that significant deviations from the no-click limit arise whenever quantum jumps strongly renormalize the non-Hermitian dynamics, as in the case of the SSH model at weak monitoring or in the Ising chain at large transverse field. On the other hand, we show that the weak monitoring phase of the Ising chain leads to a robust sub-volume logarithmic phase due to weakly renormalized non-Hermitian dynamics.
翻訳日:2024-01-18 19:52:05 公開日:2024-01-17
# PPEA-Depth:自己監督単眼深度推定のためのプログレッシブパラメータ効率適応

PPEA-Depth: Progressive Parameter-Efficient Adaptation for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2312.13066v2 )

ライセンス: Link先を確認
Yue-Jiang Dong, Yuan-Chen Guo, Ying-Tian Liu, Fang-Lue Zhang, Song-Hai Zhang(参考訳) 自己教師付き単眼深度推定は、自動運転とロボティクスにまたがるアプリケーションにおいて非常に重要である。 しかし、自己スーパービジョンへの依存は、実世界のほとんどの状況で一般的である動的シーンにおける最適なパフォーマンスを達成する上での課題となる、強い静的-シーンの仮定をもたらす。 これらの問題に対処するために,自己監督深度推定のための事前学習画像モデルを転送するためのプログレッシブパラメータ効率適応手法PPEA-Depthを提案する。 トレーニングは主に静的シーンで構成されたデータセットでトレーニングされた初期フェーズと、動的シーンを含むより複雑なデータセットへの拡張である。 このプロセスを容易にするために、パラメータ効率の良いチューニングを可能にするために、コンパクトエンコーダとデコーダアダプタを設計し、ネットワークを効果的に適応させる。 事前訓練された画像モデルから一般化されたパターンを保持するだけでなく、前フェーズから得られた知識を後フェーズに保持する。 大規模な実験では、PPEA-DepthがKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成した。

Self-supervised monocular depth estimation is of significant importance with applications spanning across autonomous driving and robotics. However, the reliance on self-supervision introduces a strong static-scene assumption, thereby posing challenges in achieving optimal performance in dynamic scenes, which are prevalent in most real-world situations. To address these issues, we propose PPEA-Depth, a Progressive Parameter-Efficient Adaptation approach to transfer a pre-trained image model for self-supervised depth estimation. The training comprises two sequential stages: an initial phase trained on a dataset primarily composed of static scenes, succeeded by an expansion to more intricate datasets involving dynamic scenes. To facilitate this process, we design compact encoder and decoder adapters to enable parameter-efficient tuning, allowing the network to adapt effectively. They not only uphold generalized patterns from pre-trained image models but also retain knowledge gained from the preceding phase into the subsequent one. Extensive experiments demonstrate that PPEA-Depth achieves state-of-the-art performance on KITTI, CityScapes and DDAD datasets.
翻訳日:2024-01-18 19:51:42 公開日:2024-01-17
# k$-可換性と期待値の測定値の低減

$k$-commutativity and measurement reduction for expectation values ( http://arxiv.org/abs/2312.11840v2 )

ライセンス: Link先を確認
Ben DalFavero, Rahul Sarkar, Daan Camps, Nicolas Sawaya, Ryan LaRose(参考訳) テンソル積空間上の作用素同士の可換性の概念、すなわち qubits 上のポーリ弦は、qubit-wise 可換性と (full) 可換性の間に補間される。 我々は、量子回路における可観測物の期待値の測定に$k$-commutativity(英語版)と呼ぶこの概念を適用し、回路深度の増加による測定回数の減少を示す。 最後に、n$-キュービットハミルトニアンのいくつかの族に対して、k$-可換性の漸近的測定の複雑さについて論じ、例えば、$o(1)$、$o(\sqrt{n})$、$o(n)$スケーリングを示す。

We introduce a notion of commutativity between operators on a tensor product space, nominally Pauli strings on qubits, that interpolates between qubit-wise commutativity and (full) commutativity. We apply this notion, which we call $k$-commutativity, to measuring expectation values of observables in quantum circuits and show a reduction in the number measurements at the cost of increased circuit depth. Last, we discuss the asymptotic measurement complexity of $k$-commutativity for several families of $n$-qubit Hamiltonians, showing examples with $O(1)$, $O(\sqrt{n})$, and $O(n)$ scaling.
翻訳日:2024-01-18 19:51:24 公開日:2024-01-17
# データサイロ - AIOpsの障害

Data Silos A Roadblock for AIOps ( http://arxiv.org/abs/2312.10039v2 )

ライセンス: Link先を確認
Subhadip Kumar(参考訳) 人工知能を使ってIT運用を管理するAIOpsは、近年、多くの関心と期待を集めているトレンドだ。 ITオペレーションの課題は、破壊することなく定常的なオペレーションを実行することであり、アジリティをサポートすること"は、"ITオペレーションは、安定性をサポートしながら、定常的なオペレーションを維持するという課題に直面している"と表現できる。 AIOpsは、IT運用の需要と、その需要を満たす人間の能力のギャップを埋めるのを支援する。 しかし、現在の組織環境でAIOpsを適用するのは容易ではない。 Cisco [1]による最近の調査によると、データ集中化はAIOpsを採用する上での大きな障害である。 この調査では、500人以上の従業員を抱える組織から8,161人のシニアビジネスリーダが参加し、その81%が、自身のデータが組織内のさまざまなサイロに分散していることを認めた。 本稿では、データサイロ、その原因、結果、解決策について説明する。

Using artificial intelligence to manage IT operations, also known as AIOps, is a trend that has attracted a lot of interest and anticipation in recent years. The challenge in IT operations is to run steady-state operations without disruption as well as support agility" can be rephrased as "IT operations face the challenge of maintaining steady-state operations while also supporting agility [11]. AIOps assists in bridging the gap between the demand for IT operations and the ability of humans to meet that demand. However, it is not easy to apply AIOps in current organizational settings. Data Centralization is a major obstacle for adopting AIOps, according to a recent survey by Cisco [1]. The survey, which involved 8,161 senior business leaders from organizations with more than 500 employees, found that 81% of them acknowledged that their data was scattered across different silos within their organizations. This paper illustrates the topic of data silos, their causes, consequences, and solutions.
翻訳日:2024-01-18 19:50:41 公開日:2024-01-17
# スピンナカー2型ニューロモルフィックチップの言語モデル

Language Modeling on a SpiNNaker 2 Neuromorphic Chip ( http://arxiv.org/abs/2312.09084v2 )

ライセンス: Link先を確認
Khaleelulla Khan Nazeer, Mark Sch\"one, Rishav Mukherji, Bernhard Vogginger, Christian Mayr, David Kappel, Anand Subramoney(参考訳) 大きな言語モデルが急速にスケールし続けるにつれて、それらを実行するのに必要な計算能力も向上する。 ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。 しかし、これまでのところ、スパイクニューラルネットワーク(SNN)を含むニューロモルフィックなハードウェア上で動作可能なイベントベースのネットワークのほとんどは、言語モデリングのLSTMモデルと同等のタスク性能を達成できていない。 その結果、ニューロモルフィックデバイス上での言語モデリングは、遠い未来に思えた。 本稿では,ニューロモルフィックデバイス,特に最近発表されたイベントベースアーキテクチャであるEGRUをベースにしたSpiNNaker 2チップ上での言語モデルの実装を実演する。 SpiNNaker 2は大規模非同期処理用に設計された多コアニューロモルフィックチップであり、EGRUは競争力のあるタスク性能を維持しながら、これらのハードウェアを効率的に活用するように設計されている。 この実装は、ニューロモルフィック言語モデルがLSTMと初めて一致し、タスクパフォーマンスを大きな言語モデルのレベルに引き上げるためのステージを設定する。 また,dvsカメラからの入力に基づいてジェスチャ認識タスクの結果を示す。 全体として,このニューロインスパイアされたニューラルネットワークのハードウェアにおける実現可能性を示し,単一バッチ推論の一般的なユースケースにおいて,従来のハードウェアに比べてエネルギー効率が大幅に向上していることを強調した。

As large language models continue to scale in size rapidly, so too does the computational power required to run them. Event-based networks on neuromorphic devices offer a potential way to reduce energy consumption for inference significantly. However, to date, most event-based networks that can run on neuromorphic hardware, including spiking neural networks (SNNs), have not achieved task performance even on par with LSTM models for language modeling. As a result, language modeling on neuromorphic devices has seemed a distant prospect. In this work, we demonstrate the first-ever implementation of a language model on a neuromorphic device - specifically the SpiNNaker 2 chip - based on a recently published event-based architecture called the EGRU. SpiNNaker 2 is a many-core neuromorphic chip designed for large-scale asynchronous processing, while the EGRU is architected to leverage such hardware efficiently while maintaining competitive task performance. This implementation marks the first time a neuromorphic language model matches LSTMs, setting the stage for taking task performance to the level of large language models. We also demonstrate results on a gesture recognition task based on inputs from a DVS camera. Overall, our results showcase the feasibility of this neuro-inspired neural network in hardware, highlighting significant gains versus conventional hardware in energy efficiency for the common use case of single batch inference.
翻訳日:2024-01-18 19:50:27 公開日:2024-01-17
# TiMix:効果的なビジョンランゲージ事前学習のためのテキスト対応画像ミキシング

TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training ( http://arxiv.org/abs/2312.08846v2 )

ライセンス: Link先を確認
Chaoya Jiang, Wei ye, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang(参考訳) 自己教師型マルチモーダル・コントラシティブ・ラーニング(SMCL)は、視覚的・言語的モダリティを整合させることにより、現代のビジョンランゲージ・プレトレーニング(VLP)モデルを大幅に進歩させる。 しかし、ウェブハーベストテキストイメージペアのノイズのため、SMCLにおけるトレーニングデータボリュームのスケールアップは、計算コストとデータ非効率の点でかなりの障害となる。 本稿では,vlpにおけるデータ効率を向上させるために,ミックスベースデータ拡張技術をsmclに統合したテキスト認識画像混合(timix)を提案する。 本稿では,相互情報(MI)の観点からTiMixの理論的解析を行い,相互学習のための混合データサンプルが,対照損失の正則化として暗黙的に機能していることを示す。 実験の結果,timoxは既存の手法に対してベンチマークを行った場合,トレーニングデータの量が少なく,トレーニング時間が短い場合でも,下流タスクで同等のパフォーマンスを示すことがわかった。 この研究は、データ効率と計算可能なVLPのためのデータ混合の可能性を実証的かつ理論的に実証し、実用シナリオにおけるより広範なVLPモデルの採用に寄与する。

Self-supervised Multi-modal Contrastive Learning (SMCL) remarkably advances modern Vision-Language Pre-training (VLP) models by aligning visual and linguistic modalities. Due to noises in web-harvested text-image pairs, however, scaling up training data volume in SMCL presents considerable obstacles in terms of computational cost and data inefficiency. To improve data efficiency in VLP, we propose Text-aware Image Mixing (TiMix), which integrates mix-based data augmentation techniques into SMCL, yielding significant performance improvements without significantly increasing computational overhead. We provide a theoretical analysis of TiMixfrom a mutual information (MI) perspective, showing that mixed data samples for cross-modal contrastive learning implicitly serve as a regularizer for the contrastive loss. The experimental results demonstrate that TiMix exhibits a comparable performance on downstream tasks, even with a reduced amount of training data and shorter training time, when benchmarked against existing methods. This work empirically and theoretically demonstrates the potential of data mixing for data-efficient and computationally viable VLP, benefiting broader VLP model adoption in practical scenarios.
翻訳日:2024-01-18 19:50:04 公開日:2024-01-17
# MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング

MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness ( http://arxiv.org/abs/2312.04960v2 )

ライセンス: Link先を確認
Xiaoyun Xu, Shujian Yu, Jingzheng Wu, Stjepan Picek(参考訳) 視覚トランスフォーマー (vits) は畳み込みニューラルネットワーク (cnns) と比較して様々なタスクで優れた性能を発揮するが、vitsは逆攻撃にも弱い。 敵の訓練は、堅牢なCNNモデルを構築する最も成功した方法の1つである。 そこで,近年の研究では,vitsとcnnの違い,例えばトレーニング戦略の改善,シングルブロックへの注意の集中の防止,低アテンション埋め込みの破棄などに基づいて,vitsの敵対的トレーニングのための新しい手法が検討されている。 しかし、これらの手法は従来型の教師付き対人訓練の設計に従い、ViTの対人訓練の可能性を制限する。 本稿では,新しい防御法であるmimirを提案し,プレトレーニング時のマスク画像モデリングを活用し,異なる対向訓練手法の構築を目指す。 我々は、逆例を入力として受け入れるオートエンコーダを作成するが、クリーン例をモデリング対象とする。 次に、情報ボトルネックの考え方に従って相互情報(mi)ペナルティを作成する。 2つの情報ソース入力と対応する対向的摂動のうち、モデリング対象の制約により摂動情報が排除される。 次に,miペナルティの限界を用いたmimirの理論的解析を行う。 また、敵がMIMIRの防御に気付いていれば2つのアダプティブアタックを設計し、MIMIRの動作が良好であることを示す。 実験の結果、MIMIRはベースラインに比べてCIFAR-10では4.19%、ImageNet-1Kでは5.52%の精度で(自然と敵の)精度が向上した。 Tiny-ImageNetでは, 自然精度が2.99\%向上し, 対逆精度が向上した。 私たちのコードとトレーニングされたモデルは、https://github.com/xiaoyunxxy/MIMIR.comで公開されています。

Vision Transformers (ViTs) achieve superior performance on various tasks compared to convolutional neural networks (CNNs), but ViTs are also vulnerable to adversarial attacks. Adversarial training is one of the most successful methods to build robust CNN models. Thus, recent works explored new methodologies for adversarial training of ViTs based on the differences between ViTs and CNNs, such as better training strategies, preventing attention from focusing on a single block, or discarding low-attention embeddings. However, these methods still follow the design of traditional supervised adversarial training, limiting the potential of adversarial training on ViTs. This paper proposes a novel defense method, MIMIR, which aims to build a different adversarial training methodology by utilizing Masked Image Modeling at pre-training. We create an autoencoder that accepts adversarial examples as input but takes the clean examples as the modeling target. Then, we create a mutual information (MI) penalty following the idea of the Information Bottleneck. Among the two information source inputs and corresponding adversarial perturbation, the perturbation information is eliminated due to the constraint of the modeling target. Next, we provide a theoretical analysis of MIMIR using the bounds of the MI penalty. We also design two adaptive attacks when the adversary is aware of the MIMIR defense and show that MIMIR still performs well. The experimental results show that MIMIR improves (natural and adversarial) accuracy on average by 4.19% on CIFAR-10 and 5.52% on ImageNet-1K, compared to baselines. On Tiny-ImageNet, we obtained improved natural accuracy of 2.99\% on average and comparable adversarial accuracy. Our code and trained models are publicly available https://github.com/xiaoyunxxy/MIMIR.
翻訳日:2024-01-18 19:49:42 公開日:2024-01-17
# 現代社会におけるアルゴリズムの識別とその関連性:スコーピング研究から

Exposing Algorithmic Discrimination and Its Consequences in Modern Society: Insights from a Scoping Study ( http://arxiv.org/abs/2312.04832v2 )

ライセンス: Link先を確認
Ramandeep Singh Dehal, Mehak Sharma, Ronnie de Souza Santos(参考訳) アルゴリズムによる差別は、人種、人種、性別、性的指向、宗教、年齢、障害、その他の個人的特性などの属性に基づいて、データ駆動ソフトウェアがユーザーを不公平に扱うときに生じる条件である。 現在、機械学習が普及するにつれて、アルゴリズムによる差別の事例がいくつかの文脈で報告されている。 この研究は、アルゴリズム的差別を報告している長年にわたる様々な研究を掘り下げている。 我々は,この問題の鍵となる特徴を議論することで,この問題に対処するソフトウェア工学研究者や実践者を支援することを目的とする。

Algorithmic discrimination is a condition that arises when data-driven software unfairly treats users based on attributes like ethnicity, race, gender, sexual orientation, religion, age, disability, or other personal characteristics. Nowadays, as machine learning gains popularity, cases of algorithmic discrimination are increasingly being reported in several contexts. This study delves into various studies published over the years reporting algorithmic discrimination. We aim to support software engineering researchers and practitioners in addressing this issue by discussing key characteristics of the problem
翻訳日:2024-01-18 19:48:48 公開日:2024-01-17
# 幼児の視覚を形作る介護者トーク--dyadic playの計算的研究

Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic Play ( http://arxiv.org/abs/2312.04118v2 )

ライセンス: Link先を確認
Timothy Schauml\"offel, Arthur Aubret, Gemma Roig, Jochen Triesch(参考訳) 幼児は物体を認識し分類する能力が徐々に発達する。 人生の2年目は、より意味的な視覚表現の出現と、単語の意味のより深い理解が特徴である。 これは、言語入力が視覚的表現を形成する上で重要な役割を果たすことを示唆する。 しかし、dyadic play sessionのような単語学習に適した文脈であっても、養育者の発話はまばらで曖昧であり、しばしば子供が出席するものとは異なる対象を指す。 本稿では,介護者の発話が視覚表現をどの程度強化できるかを体系的に検討する。 そこで本研究では,ディヤドプレイにおける視覚表現学習の計算モデルを提案する。 本研究では,保育者の発話をキャプションとしてモデル化しながら,家庭環境の異なる場所でおもちゃの物体を移動・回転させる幼児エージェントが認識するエゴ中心画像の合成データセットを提案する。 幼児の学習を同時表現としてモデル化することを提案する。 1)クローズインタイム画像 2)画像と発話の共起。 実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。 分析の結果,オブジェクト関連命名頻度の減少/増加が学習表現に大きな影響を及ぼすことが明らかとなった。 これは発話中のオブジェクト名への注意に影響を与え、効率的なビズー言語的アライメントに必要となる。 全体として,介護者の命名発話が幼児の視覚表現を改善できるという仮説を支持する。

Infants' ability to recognize and categorize objects develops gradually. The second year of life is marked by both the emergence of more semantic visual representations and a better understanding of word meaning. This suggests that language input may play an important role in shaping visual representations. However, even in suitable contexts for word learning like dyadic play sessions, caregivers utterances are sparse and ambiguous, often referring to objects that are different from the one to which the child attends. Here, we systematically investigate to what extent caregivers' utterances can nevertheless enhance visual representations. For this we propose a computational model of visual representation learning during dyadic play. We introduce a synthetic dataset of ego-centric images perceived by a toddler-agent that moves and rotates toy objects in different parts of its home environment while hearing caregivers' utterances, modeled as captions. We propose to model toddlers' learning as simultaneously aligning representations for 1) close-in-time images and 2) co-occurring images and utterances. We show that utterances with statistics matching those of real caregivers give rise to representations supporting improved category recognition. Our analysis reveals that a small decrease/increase in object-relevant naming frequencies can drastically impact the learned representations. This affects the attention on object names within an utterance, which is required for efficient visuo-linguistic alignment. Overall, our results support the hypothesis that caregivers' naming utterances can improve toddlers' visual representations.
翻訳日:2024-01-18 19:48:38 公開日:2024-01-17
# 時系列予測における拡散モデルの台頭

The Rise of Diffusion Models in Time-Series Forecasting ( http://arxiv.org/abs/2401.03006v2 )

ライセンス: Link先を確認
Caspar Meijer and Lydia Y. Chen(参考訳) 本調査は,時系列予測における拡散モデルの適用について考察する。 拡散モデルは、生成AIの様々な分野で最先端の結果を示している。 本論文は拡散モデルに関する包括的背景情報を含み,その条件付け手法を詳述し,時系列予測におけるそれらの利用について概説する。 分析は11の特定の時系列実装、その背後にある直観と理論、異なるデータセットの有効性、相互比較をカバーする。 この研究の主な貢献は、時系列予測における拡散モデルの応用の徹底的な探索と、これらのモデルの時系列的概観である。 さらに、本論文は、この領域における最先端技術に関する洞察に富んだ議論を行い、今後の研究の方向性について概説する。 これはaiと時系列分析の研究者にとって貴重な資源となり、拡散モデルの最新の進歩と将来の可能性を明確に示す。

This survey delves into the application of diffusion models in time-series forecasting. Diffusion models are demonstrating state-of-the-art results in various fields of generative AI. The paper includes comprehensive background information on diffusion models, detailing their conditioning methods and reviewing their use in time-series forecasting. The analysis covers 11 specific time-series implementations, the intuition and theory behind them, the effectiveness on different datasets, and a comparison among each other. Key contributions of this work are the thorough exploration of diffusion models' applications in time-series forecasting and a chronologically ordered overview of these models. Additionally, the paper offers an insightful discussion on the current state-of-the-art in this domain and outlines potential future research directions. This serves as a valuable resource for researchers in AI and time-series analysis, offering a clear view of the latest advancements and future potential of diffusion models.
翻訳日:2024-01-18 19:41:09 公開日:2024-01-17
# MLLM-Protector:HurtingパフォーマンスのないMLLMの安全性を保証する

MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance ( http://arxiv.org/abs/2401.02906v2 )

ライセンス: Link先を確認
Renjie Pi, Tianyang Han, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang(参考訳) マルチモーダルな大規模言語モデル(MLLM)の展開は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を生み出した。 我々はこのような攻撃に対してMLLMを防衛するという新しい挑戦を掘り下げる。 画像はアライメント中に考慮されない「外国語」として機能し,mllmが有害な反応を生じやすいことを発見した。 残念なことに、テキストベースのLLMで考慮された離散トークンとは異なり、画像信号の連続的な性質は重要なアライメント課題を示しており、起こりうるシナリオを完全にカバーすることが困難である。 この脆弱性は、オープンソースのMLLMが、広範囲のテキストベースの事前学習コーパスよりもはるかに少ない制限された画像テキストペアに対して、主に微調整されているという事実によって悪化する。 これらの課題に対処するために,軽量なハーモ検出器と応答除毒器を組み合わせたプラグアンドプレイ戦略であるMLLM-Protectorを導入する。 害検知器の役割は、MLLMから潜在的に有害な出力を識別することであり、一方、除毒剤はこれらの出力を補正し、その応答が安全基準に規定されていることを保証する。 このアプローチは、モデル全体のパフォーマンスを損なうことなく、悪意のある視覚入力によって引き起こされるリスクを効果的に軽減する。 MLLM-Protectorは,MLLMセキュリティの未適応な側面に対して,堅牢なソリューションを提供することを示す。

The deployment of multimodal large language models (MLLMs) has brought forth a unique vulnerability: susceptibility to malicious attacks through visual inputs. We delve into the novel challenge of defending MLLMs against such attacks. We discovered that images act as a "foreign language" that is not considered during alignment, which can make MLLMs prone to producing harmful responses. Unfortunately, unlike the discrete tokens considered in text-based LLMs, the continuous nature of image signals presents significant alignment challenges, which poses difficulty to thoroughly cover the possible scenarios. This vulnerability is exacerbated by the fact that open-source MLLMs are predominantly fine-tuned on limited image-text pairs that is much less than the extensive text-based pretraining corpus, which makes the MLLMs more prone to catastrophic forgetting of their original abilities during explicit alignment tuning. To tackle these challenges, we introduce MLLM-Protector, a plug-and-play strategy combining a lightweight harm detector and a response detoxifier. The harm detector's role is to identify potentially harmful outputs from the MLLM, while the detoxifier corrects these outputs to ensure the response stipulates to the safety standards. This approach effectively mitigates the risks posed by malicious visual inputs without compromising the model's overall performance. Our results demonstrate that MLLM-Protector offers a robust solution to a previously unaddressed aspect of MLLM security.
翻訳日:2024-01-18 19:40:54 公開日:2024-01-17
# フーリエニューラル演算子を用いた双曲保存則の近似数値フラックス

Approximating Numerical Fluxes Using Fourier Neural Operators for Hyperbolic Conservation Laws ( http://arxiv.org/abs/2401.01783v3 )

ライセンス: Link先を確認
Taeyoung Kim and Myungjoo Kang(参考訳) 伝統的に、計算手法を用いて偏微分方程式(PDE)を解くために古典的な数値スキームが用いられている。 近年,ニューラルネットワークに基づく手法が出現している。 これらの進歩にもかかわらず、物理情報ニューラルネットワーク(PINN)やニューラル演算子のようなニューラルネットワークベースの手法は、堅牢性と一般化の欠陥を示す。 これらの問題に対処するため、多くの研究が従来の数値手法の一部にニューラルネットワークを組み込んだ古典的数値フレームワークと機械学習技術を統合している。 本研究では,従来の数値フラックスをニューラルネットワークに置き換え,双曲的保存則に着目した。 そこで我々は,保存法則とFNOを用いた近似数値フラックスに関する確立された数値スキームから着想を得た損失関数を開発した。 実験により,従来の数値スキームとfnosの強みを組み合わせることにより,標準fno法をいくつかの点で上回った。 例えば,本手法はロバストであり,分解能不変性を有し,データ駆動型手法として実現可能であることを示す。 特に,本手法は時間とともに連続的な予測を行い,既存のニューラル演算子手法が直面する課題であるout-of-distribution (ood) サンプルを用いて,優れた一般化能力を示す。

Traditionally, classical numerical schemes have been employed to solve partial differential equations (PDEs) using computational methods. Recently, neural network-based methods have emerged. Despite these advancements, neural network-based methods, such as physics-informed neural networks (PINNs) and neural operators, exhibit deficiencies in robustness and generalization. To address these issues, numerous studies have integrated classical numerical frameworks with machine learning techniques, incorporating neural networks into parts of traditional numerical methods. In this study, we focus on hyperbolic conservation laws by replacing traditional numerical fluxes with neural operators. To this end, we developed loss functions inspired by established numerical schemes related to conservation laws and approximated numerical fluxes using Fourier neural operators (FNOs). Our experiments demonstrated that our approach combines the strengths of both traditional numerical schemes and FNOs, outperforming standard FNO methods in several respects. For instance, we demonstrate that our method is robust, has resolution invariance, and is feasible as a data-driven method. In particular, our method can make continuous predictions over time and exhibits superior generalization capabilities with out-of-distribution (OOD) samples, which are challenges that existing neural operator methods encounter.
翻訳日:2024-01-18 19:40:12 公開日:2024-01-17
# AIRI:人工知能を用いた保存指標とその不確かさの予測

AIRI: Predicting Retention Indices and their Uncertainties using Artificial Intelligence ( http://arxiv.org/abs/2401.01506v2 )

ライセンス: Link先を確認
Lewis Y. Geer, Stephen E. Stein, William Gary Mallard, Douglas J. Slotta(参考訳) Kov\'ats Retention Index (RI) はガスクロマトグラフィーを用いて測定され、化学構造の同定によく用いられる。 観測されたRI値のライブラリを作成することは面倒な作業であるため、標準的なセミポーラ列の構造からRI値を予測するためのディープニューラルネットワークの利用について検討する。 このネットワークは、平均絶対誤差が15.1で予測し、誤差分布のテールの定量化において、95%の絶対誤差が46.5である。 人工知能保持指標(AIRI)ネットワークの精度のため、NIST EI-MSスペクトルライブラリのRI値を予測するために使用された。 これらのRI値は、化学同定法とライブラリの品質を向上させるために使用される。 予測モデルを使用する場合、不確実性の推定は重要な実用的必要性である。 個々の予測毎にネットワークの不確かさを定量化するため,各RI値の予測値に対して,予測標準偏差を計算するために8ネットワークのアンサンブルの出力を用いた。 この標準偏差は観測値と予測値の誤差に従うように補正された。 これらの標準偏差を用いたzスコアは、平均ri値42.6に対応する標準偏差1.52と95%の絶対zスコアであった。

The Kov\'ats Retention index (RI) is a quantity measured using gas chromatography and commonly used in the identification of chemical structures. Creating libraries of observed RI values is a laborious task, so we explore the use of a deep neural network for predicting RI values from structure for standard semipolar columns. This network generated predictions with a mean absolute error of 15.1 and, in a quantification of the tail of the error distribution, a 95th percentile absolute error of 46.5. Because of the Artificial Intelligence Retention Indices (AIRI) network's accuracy, it was used to predict RI values for the NIST EI-MS spectral libraries. These RI values are used to improve chemical identification methods and the quality of the library. Estimating uncertainty is an important practical need when using prediction models. To quantify the uncertainty of our network for each individual prediction, we used the outputs of an ensemble of 8 networks to calculate a predicted standard deviation for each RI value prediction. This predicted standard deviation was corrected to follow the error between observed and predicted RI values. The Z scores using these predicted standard deviations had a standard deviation of 1.52 and a 95th percentile absolute Z score corresponding to a mean RI value of 42.6.
翻訳日:2024-01-18 19:39:47 公開日:2024-01-17
# 分割型市場におけるユーザとクリエーターのマッチング

Matching of Users and Creators in Two-Sided Markets with Departures ( http://arxiv.org/abs/2401.00313v2 )

ライセンス: Link先を確認
Daniel Huttenlocher, Hannah Li, Liang Lyu, Asuman Ozdaglar and James Siderius(参考訳) ソーシャルメディアサイトを含む今日の多くのオンラインプラットフォームは、コンテンツクリエーターとユーザーを橋渡しする二面市場だ。 プラットフォームレコメンデーションアルゴリズムに関する既存の文献のほとんどは、ユーザの好みと意思決定に重点を置いており、クリエーターのインセンティブを同時に扱うものではない。 コンテンツレコメンデーションのモデルでは,ユーザとクリエーターの双方が十分なエンゲージメントを得られなければ,プラットフォームを永久に離脱できるという新たな性質から,ユーザとコンテンツのマッチングのダイナミクスを明示的に重視する。 私たちのモデルでは、各プレイヤーは、現在のマッチから派生したユーティリティに基づいて各タイムステップに参加することを決定します。 著者の離脱を考慮しないユーザ中心の欲望アルゴリズムは,2面離脱を考慮しながら総エンゲージメントを最大化するアルゴリズムと比較して,任意に総エンゲージメントを低下させる可能性がある。 さらに,ユーザのみ,あるいはクリエーターのみがプラットフォームを離れる場合とは対照的に,任意の定数係数内で最大総エンゲージメントを近似する2面離脱がnpハードであることを証明する。 本稿では,ユーザの好みを軽度に仮定して性能保証を行う2つの実用的なアルゴリズムを提案する。

Many online platforms of today, including social media sites, are two-sided markets bridging content creators and users. Most of the existing literature on platform recommendation algorithms largely focuses on user preferences and decisions, and does not simultaneously address creator incentives. We propose a model of content recommendation that explicitly focuses on the dynamics of user-content matching, with the novel property that both users and creators may leave the platform permanently if they do not experience sufficient engagement. In our model, each player decides to participate at each time step based on utilities derived from the current match: users based on alignment of the recommended content with their preferences, and creators based on their audience size. We show that a user-centric greedy algorithm that does not consider creator departures can result in arbitrarily poor total engagement, relative to an algorithm that maximizes total engagement while accounting for two-sided departures. Moreover, in stark contrast to the case where only users or only creators leave the platform, we prove that with two-sided departures, approximating maximum total engagement within any constant factor is NP-hard. We present two practical algorithms, one with performance guarantees under mild assumptions on user preferences, and another that tends to outperform algorithms that ignore two-sided departures in practice.
翻訳日:2024-01-18 19:38:54 公開日:2024-01-17
# TRIAD: 人工物間の遷移リンクの2段階的推論に基づく自動トレーサビリティ回復

TRIAD: Automated Traceability Recovery based on Biterm-enhanced Deduction of Transitive Links among Artifacts ( http://arxiv.org/abs/2312.16854v2 )

ライセンス: Link先を確認
Hui Gao, Hongyu Kuang, Wesley K. G. Assun\c{c}\~ao, Christoph Mayr-Dorn, Guoping Rong, He Zhang, Xiaoxing Ma, Alexander Egyed(参考訳) トレーサビリティ(traceability)は、ソフトウェアライフサイクルにまたがって導入されたソフトウェアアーチファクト間のトレースリンクを抽出し、理解し、ソフトウェアエンジニアリングタスクに重要なサポートを提供する。 実績のあるメリットにもかかわらず、ソフトウェアのトレーサビリティは手作業で回復と維持が難しい。 したがって、自動トレーサビリティに対する多くのアプローチが提案されている。 ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。 しかしながら、異なる抽象レベルのアーティファクトは、通常異なるテキスト記述を持ち、IRベースのアプローチのパフォーマンスを著しく阻害する(例えば、自然言語の要件は、Javaクラスと小さなテキストの類似性を持つ)。 本研究では, 中間アーティファクトに基づく合意的二項関係と推移的関係(内部および外部推移的リンク)を利用して, 赤外線トレーサビリティの回復を図る。 まず、すべてのソース、中間、およびターゲットアーティファクトから二項を抽出およびフィルタリングします。 次に、中間アーティファクトと対象アーティファクトの両方のバイターを拡張するために、中間アーティファクトからの合意バイターを使用し、最終的に外部および内部推移的リンクを推論し、ソースと対象アーティファクト間のテキスト類似性を調整する。 我々は,他の文献で広く使用されている5つのシステムに基づく総合的な実証評価を行い,我々のアプローチが4つの最先端アプローチを上回り,その性能がソース,中間,ターゲットアーティファクトの異なる条件にどのように影響するかを示した。 その結果,本手法はAPのベースラインアプローチを15%以上,MAPを10%以上上回る結果が得られた。

Traceability allows stakeholders to extract and comprehend the trace links among software artifacts introduced across the software life cycle, to provide significant support for software engineering tasks. Despite its proven benefits, software traceability is challenging to recover and maintain manually. Hence, plenty of approaches for automated traceability have been proposed. Most rely on textual similarities among software artifacts, such as those based on Information Retrieval (IR). However, artifacts in different abstraction levels usually have different textual descriptions, which can greatly hinder the performance of IR-based approaches (e.g., a requirement in natural language may have a small textual similarity to a Java class). In this work, we leverage the consensual biterms and transitive relationships (i.e., inner- and outer-transitive links) based on intermediate artifacts to improve IR-based traceability recovery. We first extract and filter biterms from all source, intermediate, and target artifacts. We then use the consensual biterms from the intermediate artifacts to extend the biterms of both source and target artifacts, and finally deduce outer and inner-transitive links to adjust text similarities between source and target artifacts. We conducted a comprehensive empirical evaluation based on five systems widely used in other literature to show that our approach can outperform four state-of-the-art approaches, and how its performance is affected by different conditions of source, intermediate, and target artifacts. The results indicate that our approach can outperform baseline approaches in AP over 15% and MAP over 10% on average.
翻訳日:2024-01-18 19:37:58 公開日:2024-01-17
# 平均場下減衰ランゲヴィンダイナミクスとその時空離散化

Mean-field underdamped Langevin dynamics and its spacetime discretization ( http://arxiv.org/abs/2312.16360v3 )

ライセンス: Link先を確認
Qiang Fu, Ashia Wilson(参考訳) 確率測度空間上で定義された非線形汎函数の特殊クラスを最適化するN-粒子アンダーダム化ランゲヴィンアルゴリズムを提案する。 この定式化に関する問題の例としては、平均場ニューラルネットワークのトレーニング、最大平均離散性最小化、カーネルスタイン離散性最小化などがある。 我々のアルゴリズムは、平均場下にあるランゲヴィン力学の時空離散化に基づいており、新しい高速混合保証を提供する。 さらに,本アルゴリズムは全変動距離においてグローバルに収束し,ダイナミクスと実用的実装との理論的ギャップを橋渡しすることを示した。

We propose a new method called the N-particle underdamped Langevin algorithm for optimizing a special class of non-linear functionals defined over the space of probability measures. Examples of problems with this formulation include training mean-field neural networks, maximum mean discrepancy minimization and kernel Stein discrepancy minimization. Our algorithm is based on a novel spacetime discretization of the mean-field underdamped Langevin dynamics, for which we provide a new, fast mixing guarantee. In addition, we demonstrate that our algorithm converges globally in total variation distance, bridging the theoretical gap between the dynamics and its practical implementation.
翻訳日:2024-01-18 19:37:27 公開日:2024-01-17
# パラ言語学による音声対話の大規模言語モデリング

Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue ( http://arxiv.org/abs/2312.15316v2 )

ライセンス: Link先を確認
Guan-Ting Lin, Prashanth Gurunath Shivakumar, Ankur Gandhe, Chao-Han Huck Yang, Yile Gu, Shalini Ghosh, Andreas Stolcke, Hung-yi Lee, Ivan Bulyko(参考訳) 大規模言語モデル(llm)はチャット、推論、質問応答といったタスクにおいて優れた能力を示している。 しかし、標準的なLLMは、感情、感情、話し方などの重要なパラ言語情報を無視し、特に音響的手がかりによってそのような情報が伝達されるとき、自然な人間的な会話を達成するのに不可欠である。 そこで本研究では,音声対話の言語内容や言語特性のモデル化にテキスト・音声モダリティを用いたllmであるparalinguistics-enhanced generative pretrained transformer (paralingpt)を提案する。 このモデルは、テキスト、音声埋め込み、パラ言語属性の会話的コンテキストを、シリアライズされたマルチタスクマルチモーダルフレームワーク内の入力プロンプトとして取ります。 具体的には,現在のパラ言語属性予測,応答パラ言語属性予測,自己回帰条件付き応答テキスト生成の順にタスクをシリアライズする。 音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。 提案手法は,現在および応答の感情分類において典型的なシーケンス分類手法よりも優れていることを示す。 さらに、会話コンテキストと音声埋め込みを活用することで、応答テキスト生成と感情予測の両方が大幅に改善される。 提案手法は,6.7%,12.0%,3.5%の現在の感情精度,反応感情精度,応答テキストBLEUスコアを相対的に向上させる。

Large Language Models (LLMs) have demonstrated superior abilities in tasks such as chatting, reasoning, and question-answering. However, standard LLMs may ignore crucial paralinguistic information, such as sentiment, emotion, and speaking style, which are essential for achieving natural, human-like spoken conversation, especially when such information is conveyed by acoustic cues. We therefore propose Paralinguistics-enhanced Generative Pretrained Transformer (ParalinGPT), an LLM that utilizes text and speech modalities to better model the linguistic content and paralinguistic attributes of spoken dialogue. The model takes the conversational context of text, speech embeddings, and paralinguistic attributes as input prompts within a serialized multitasking multimodal framework. Specifically, our framework serializes tasks in the order of current paralinguistic attribute prediction, response paralinguistic attribute prediction, and response text generation with autoregressive conditioning. We utilize the Switchboard-1 corpus, including its sentiment labels as the paralinguistic attribute, as our spoken dialogue dataset. Experimental results indicate the proposed serialized multitasking method outperforms typical sequence classification techniques on current and response sentiment classification. Furthermore, leveraging conversational context and speech embeddings significantly improves both response text generation and sentiment prediction. Our proposed framework achieves relative improvements of 6.7%, 12.0%, and 3.5% in current sentiment accuracy, response sentiment accuracy, and response text BLEU score, respectively.
翻訳日:2024-01-18 19:36:42 公開日:2024-01-17
# 多項集合に対する排他的有限時間相関関数:量子輸送と熱力学の理論的枠組みの連結

Exact finite-time correlation functions for multi-terminal setups: Connecting theoretical frameworks for quantum transport and thermodynamics ( http://arxiv.org/abs/2312.15065v2 )

ライセンス: Link先を確認
Gianmichele Blasi, Shishir Khandelwal, and G\'eraldine Haack(参考訳) 開量子系における輸送は、量子マスター方程式、散乱行列、ハイゼンベルク運動方程式など、様々な理論的な枠組みを通して研究することができる。 フレームワークの選択は、インタラクションの存在、システムと環境の結合力、定常的あるいは一時的なレジームに焦点を当てているかどうかといった要因に依存する。 既存の文献はこれらの枠組みを独立して扱い、統一的な視点を欠いている。 本研究は,電圧および温度バイアス下での2段階設定において,最小レベルの量子ドットモデルを用いて,これらのアプローチの役割と現状を明らかにすることで,このギャップに対処する。 粒子およびエネルギー電流の解析式と定常状態と過渡状態の両方における変動を導出する。 ハイゼンベルク方程式の正確な結果は、それぞれの有効範囲内で散乱行列とマスター方程式のアプローチと一致することが示されている。 まず,弱結合限界のプロトコルを確立し,ハイゼンベルクとの弱結合におけるマスター方程式の適用可能性や任意の結合強度での散乱行列アプローチを橋渡しする。

Transport in open quantum systems can be explored through various theoretical frameworks, including the quantum master equation, scattering matrix, and Heisenberg equation of motion. The choice of framework depends on factors such as the presence of interactions, the coupling strength between the system and environment, and whether the focus is on steady-state or transient regimes. Existing literature treats these frameworks independently, lacking a unified perspective. Our work addresses this gap by clarifying the role and status of these approaches using a minimal single-level quantum dot model in a two-terminal setup under voltage and temperature biases. We derive analytical expressions for particle and energy currents and their fluctuations in both steady-state and transient regimes. Exact results from the Heisenberg equation are shown to align with scattering matrix and master equation approaches within their respective validity regimes. Crucially, we establish a protocol for the weak-coupling limit, bridging the applicability of master equations at weak-coupling with Heisenberg or scattering matrix approaches at arbitrary coupling strength.
翻訳日:2024-01-18 19:36:17 公開日:2024-01-17
# OptVerse AIソルバーの内部に機械学習 - 設計原則と応用

Machine Learning Insides OptVerse AI Solver: Design Principles and Applications ( http://arxiv.org/abs/2401.05960v2 )

ライセンス: Link先を確認
Xijun Li, Fangzhou Zhu, Hui-Ling Zhen, Weilin Luo, Meng Lu, Yimin Huang, Zhenan Fan, Zirui Zhou, Yufei Kuang, Zhihai Wang, Zijie Geng, Yang Li, Haoyang Liu, Zhiwu An, Muming Yang, Jianshu Li, Jie Wang, Junchi Yan, Defeng Sun, Tao Zhong, Yong Zhang, Jia Zeng, Mingxuan Yuan, Jianye Hao, Jun Yao, Kun Mao(参考訳) デジタルユビキティの時代には、効率的な資源管理と意思決定が多くの産業で最重要である。 そこで、本研究では、機械学習(ml)技術をhuawei cloudのoptiverse ai solverに統合することに関する包括的研究を行い、実世界の数学プログラミングインスタンスの不足を軽減し、従来の最適化技術の能力を超えることを目的としている。 本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATおよびMILPインスタンスを生成する手法を紹介する。 さらに,動的環境における解法の有効性を維持するために,拡張ポリシーを活用した学習フレームワークを提案する。 データ生成と拡張に加えて、我々はパーソナライズされた問題解決戦略のための新しいML主導のポリシーも提案し、初期ベース選択のためのグラフ畳み込みネットワークや高度な事前解法とカット選択のための強化学習などの応用に重点を置いている。 さらに,ソルバ性能を著しく向上させる最先端パラメータチューニングアルゴリズムの導入について詳述する。 CplexやSCIPのような従来の解法と比較すると、MLに強化されたOpsVerse AI Solverは、確立されたベンチマークと実世界のシナリオの両方において、より優れたスピードと精度を示し、数学的プログラミングの解法における機械学習技術の実践的命令性と有効性を補強します。

In an era of digital ubiquity, efficient resource management and decision-making are paramount across numerous industries. To this end, we present a comprehensive study on the integration of machine learning (ML) techniques into Huawei Cloud's OptVerse AI Solver, which aims to mitigate the scarcity of real-world mathematical programming instances, and to surpass the capabilities of traditional optimization techniques. We showcase our methods for generating complex SAT and MILP instances utilizing generative models that mirror multifaceted structures of real-world problem. Furthermore, we introduce a training framework leveraging augmentation policies to maintain solvers' utility in dynamic environments. Besides the data generation and augmentation, our proposed approaches also include novel ML-driven policies for personalized solver strategies, with an emphasis on applications like graph convolutional networks for initial basis selection and reinforcement learning for advanced presolving and cut selection. Additionally, we detail the incorporation of state-of-the-art parameter tuning algorithms which markedly elevate solver performance. Compared with traditional solvers such as Cplex and SCIP, our ML-augmented OptVerse AI Solver demonstrates superior speed and precision across both established benchmarks and real-world scenarios, reinforcing the practical imperative and effectiveness of machine learning techniques in mathematical programming solvers.
翻訳日:2024-01-18 19:29:09 公開日:2024-01-17
# ミスバウンドオンライン学習におけるフィードバックの価格に関する考察

Bounds on the price of feedback for mistake-bounded online learning ( http://arxiv.org/abs/2401.05794v2 )

ライセンス: Link先を確認
Jesse Geneson and Linus Tang(参考訳) 各種オンライン学習シナリオ(Auer and Long, Machine Learning, 1999)の最悪のケース境界を改善した。 特に,2因子による遅延曖昧な強化学習のための上界と2.41因子による関数の族組成の学習のための上界を抽出した。 また、関数の族$k$の合成を$\Theta(\ln{k})$の係数で学習するために同じ論文から下界を改良し、上界を定数因子に合わせる。 さらに,マルチクラス学習における標準的なフィードバックに対するバンディットフィードバックの価格(長期,理論計算機科学,2020)の問題点を解決し,(feng et al., theoretical computer science, 2023) の上限を,r$-input delay ambiguous reinforcement learning の価格を,同じ論文から先行項までの下限と一致する$r$ で改善する。

We improve several worst-case bounds for various online learning scenarios from (Auer and Long, Machine Learning, 1999). In particular, we sharpen an upper bound for delayed ambiguous reinforcement learning by a factor of 2 and an upper bound for learning compositions of families of functions by a factor of 2.41. We also improve a lower bound from the same paper for learning compositions of $k$ families of functions by a factor of $\Theta(\ln{k})$, matching the upper bound up to a constant factor. In addition, we solve a problem from (Long, Theoretical Computer Science, 2020) on the price of bandit feedback with respect to standard feedback for multiclass learning, and we improve an upper bound from (Feng et al., Theoretical Computer Science, 2023) on the price of $r$-input delayed ambiguous reinforcement learning by a factor of $r$, matching a lower bound from the same paper up to the leading term.
翻訳日:2024-01-18 19:28:43 公開日:2024-01-17
# 自己拡張型畳み込みニューラルネットワーク

Self Expanding Convolutional Neural Networks ( http://arxiv.org/abs/2401.05686v2 )

ライセンス: Link先を確認
Blaise Appolinary, Alex Deaconu, Sophia Yang, Qingze (Eric) Li(参考訳) 本稿では,学習中の畳み込みニューラルネットワーク(CNN)を動的に拡張する新しい手法を提案する。 我々のアプローチは、SENN(Self-Expanding Neural Networks)に関する基礎研究から導かれ、深層畳み込みニューラルネットワークにおける過度パラメータ化の共通問題に対処するための拡張基準として自然拡張スコアを用いて、モデルの複雑さがタスクの特定のニーズに合わせて微調整されることを保証する。 この方法の大きな利点は、異なる大きさの複数のモデルを訓練する必要がなくなるため、環境にやさしい性質である。 我々は,1つのモデルが動的に拡張される戦略を採用し,様々な複雑性レベルでのチェックポイントの抽出を容易にし,計算資源利用とエネルギー消費を効果的に削減するとともに,単一のトレーニングセッションから多様なモデルの複雑さを提供することにより,開発サイクルを高速化する。 提案手法をcifar-10データセット上で評価し,本手法の有効性を実験的に検証し,cnn性能の向上と拡張基準の有効性を検証した。 このアプローチは、適応的でスケーラブルで環境に配慮したニューラルネットワークアーキテクチャを開発する上で大きな進歩を示し、ディープラーニングの分野における重要な課題に対処している。

In this paper, we present a novel method for dynamically expanding Convolutional Neural Networks (CNNs) during training, aimed at meeting the increasing demand for efficient and sustainable deep learning models. Our approach, drawing from the seminal work on Self-Expanding Neural Networks (SENN), employs a natural expansion score as an expansion criteria to address the common issue of over-parameterization in deep convolutional neural networks, thereby ensuring that the model's complexity is finely tuned to the task's specific needs. A significant benefit of this method is its eco-friendly nature, as it obviates the necessity of training multiple models of different sizes. We employ a strategy where a single model is dynamically expanded, facilitating the extraction of checkpoints at various complexity levels, effectively reducing computational resource use and energy consumption while also expediting the development cycle by offering diverse model complexities from a single training session. We evaluate our method on the CIFAR-10 dataset and our experimental results validate this approach, demonstrating that dynamically adding layers not only maintains but also improves CNN performance, underscoring the effectiveness of our expansion criteria. This approach marks a considerable advancement in developing adaptive, scalable, and environmentally considerate neural network architectures, addressing key challenges in the field of deep learning.
翻訳日:2024-01-18 19:28:19 公開日:2024-01-17
# ロボットインタラクションにおける大規模言語モデルのマインド能力の理論 : 幻想か?

Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? ( http://arxiv.org/abs/2401.05302v2 )

ライセンス: Link先を確認
Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati(参考訳) 大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。 しかしながら、失敗事例に対する擬人化と寛大さは、大きな言語モデルの創発的能力、特に大きな言語モデルにおける心の理論(tom)能力に関する議論を促している。 他者のメンタルモデルを推論し,維持する能力を検証するために,いくつかの偽信テストが存在するが,高い利害関係を持ち,おそらくは不可逆的な結果をもたらすToM能力の特別な応用について検討する。 本研究では,ロボットがLarge Language Model (LLM) を用いてロボットが生成する振る舞いを人間の観察者に似た方法で評価する,知覚的行動認識の課題について検討する。 我々は,解釈可能なロボット行動の合成に広く用いられている4つの行動タイプ,すなわち,説明可能,正当性,予測可能,難読性の4つの行動タイプに着目した。 LLMの目標は、エージェントに対する人間の代理であり、例えば「ロボットの行動 X をすれば、人間の観察者はそれを説明可能であるか?」といった、あるエージェントの動作がループ内でどのように認識されるかに答えることである。 我々は,5つの領域にわたるキュレートされた状況(ロボットの設定と計画)において,ユーザがそのような質問に正しく答えられることを確認するために,人間の被験者による研究を行う。 信念テストの最初の分析は、ToM能力を有するLSMの期待を膨らませる極めて肯定的な結果をもたらす。 次に,この錯覚を破る一連の摂動テスト,すなわち矛盾する信念,非形式的文脈,信念テストを提案する。 結論として,バニラプロンプトにおけるLLMの高得点は,HRI設定におけるその可能性を示すが,LLMが欠落する文脈における自明なあるいは無関係な摂動に対するToM要求には相違がある。

Large Language Models have shown exceptional generative abilities in various natural language and generation tasks. However, possible anthropomorphization and leniency towards failure cases have propelled discussions on emergent abilities of Large Language Models especially on Theory of Mind (ToM) abilities in Large Language Models. While several false-belief tests exists to verify the ability to infer and maintain mental models of another entity, we study a special application of ToM abilities that has higher stakes and possibly irreversible consequences : Human Robot Interaction. In this work, we explore the task of Perceived Behavior Recognition, where a robot employs a Large Language Model (LLM) to assess the robot's generated behavior in a manner similar to human observer. We focus on four behavior types, namely - explicable, legible, predictable, and obfuscatory behavior which have been extensively used to synthesize interpretable robot behaviors. The LLMs goal is, therefore to be a human proxy to the agent, and to answer how a certain agent behavior would be perceived by the human in the loop, for example "Given a robot's behavior X, would the human observer find it explicable?". We conduct a human subject study to verify that the users are able to correctly answer such a question in the curated situations (robot setting and plan) across five domains. A first analysis of the belief test yields extremely positive results inflating ones expectations of LLMs possessing ToM abilities. We then propose and perform a suite of perturbation tests which breaks this illusion, i.e. Inconsistent Belief, Uninformative Context and Conviction Test. We conclude that, the high score of LLMs on vanilla prompts showcases its potential use in HRI settings, however to possess ToM demands invariance to trivial or irrelevant perturbations in the context which LLMs lack.
翻訳日:2024-01-18 19:27:54 公開日:2024-01-17
# AUTOACT: セルフプランニングによるスクラッチからの自動エージェント学習

AUTOACT: Automatic Agent Learning from Scratch via Self-Planning ( http://arxiv.org/abs/2401.05268v2 )

ライセンス: Link先を確認
Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen(参考訳) 言語エージェントは、様々な複雑なタスクでかなりのパフォーマンスを達成した。 この分野での絶え間ない探究にもかかわらず、既存の言語エージェントシステムはいまだにコストのかかる、再現不能なデータ依存に苦しんでおり、複数の機能に対して単一のモデルを引き付けるという課題に直面している。 そこで本研究では,大規模アノテートデータや,クローズドソースモデル(GPT-4など)からの合成トラジェクトリに依存しない自動エージェント学習フレームワークであるAutoActを紹介する。 ツールライブラリによる限られたデータから、AutoActはまず、人間や強力なクローズドソースモデルの助けなしに、計画トラジェクトリを自動で合成する。 次に、AutoActは、作業の分割戦略を利用して、目標とするタスク情報と軌跡を自動で識別し、タスクを完了するサブエージェントグループを生成する。 我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能を示す。 Llama-2-13bモデルを使用すると、AutoActはゼロショットGPT-3.5-Turboエージェントに匹敵する性能が得られることに気づきました。 コードはhttps://github.com/zjunlp/autoactで入手できる。

Language agents have achieved considerable performance on various complex tasks. Despite the incessant exploration in this field, existing language agent systems still struggle with costly, non-reproducible data reliance and face the challenge of compelling a single model for multiple functions. To this end, we introduce AutoAct, an automatic agent learning framework that does not rely on large-scale annotated data and synthetic trajectories from closed-source models (e.g., GPT-4). Given limited data with a tool library, AutoAct first automatically synthesizes planning trajectories without any assistance from humans or strong closed-source models. Then, AutoAct leverages a division-of-labor strategy to automatically differentiate based on the target task information and synthesized trajectories, producing a sub-agent group to complete the task. We conduct comprehensive experiments with different LLMs, which demonstrates that AutoAct yields better or parallel performance compared to various strong baselines. We even notice that AutoAct, when using the Llama-2-13b model, can achieve performance comparable to that of the zero-shot GPT-3.5-Turbo agent. Code will be available at https://github.com/zjunlp/AutoAct.
翻訳日:2024-01-18 19:27:21 公開日:2024-01-17
# 非参照画像品質評価モデルの脆弱性探索:クエリに基づくブラックボックス法

Exploring Vulnerabilities of No-Reference Image Quality Assessment Models: A Query-Based Black-Box Method ( http://arxiv.org/abs/2401.05217v2 )

ライセンス: Link先を確認
Chenxi Yang, Yujia Liu, Dingquan Li, Tingting Jiang(参考訳) No-Reference Image Quality Assessment (NR-IQA) は、プリスタン参照画像に頼ることなく、人間の知覚と整合した画像品質スコアを予測することを目的としており、様々な視覚タスクにおいて重要な要素となっている。 NR-IQA法の堅牢性を保証することは,様々な画像処理技術と一貫したユーザエクスペリエンスの信頼性比較に不可欠である。 NR-IQAの攻撃方法は、NR-IQAの堅牢性をテストする強力な手段を提供する。 しかし、現在のNR-IQAの攻撃方法はNR-IQAモデルの勾配に大きく依存しており、勾配情報が利用できない場合に制限が生じる。 本稿では,NR-IQA法に対するクエリベースのブラックボックス攻撃について述べる。 スコア境界の概念を提案し,複数のスコア境界を用いた適応的反復的アプローチを提案する。 一方、初期攻撃方向はヒューマン・ビジュアル・システム(HVS)の特性を活用するように設計されている。 実験の結果,本手法は従来のブラックボックス手法よりもはるかに優れていることがわかった。 実効的な NR-IQA モデル DBCNN はSpearman の階数相関係数 (SROCC) が 0.6381 に低下し, NR-IQA モデルのブラックボックス攻撃に対する脆弱性を明らかにする。 提案手法はまた、NR-IQAロバスト性をさらに探究するための強力なツールを提供する。

No-Reference Image Quality Assessment (NR-IQA) aims to predict image quality scores consistent with human perception without relying on pristine reference images, serving as a crucial component in various visual tasks. Ensuring the robustness of NR-IQA methods is vital for reliable comparisons of different image processing techniques and consistent user experiences in recommendations. The attack methods for NR-IQA provide a powerful instrument to test the robustness of NR-IQA. However, current attack methods of NR-IQA heavily rely on the gradient of the NR-IQA model, leading to limitations when the gradient information is unavailable. In this paper, we present a pioneering query-based black box attack against NR-IQA methods. We propose the concept of score boundary and leverage an adaptive iterative approach with multiple score boundaries. Meanwhile, the initial attack directions are also designed to leverage the characteristics of the Human Visual System (HVS). Experiments show our method outperforms all compared state-of-the-art attack methods and is far ahead of previous black-box methods. The effective NR-IQA model DBCNN suffers a Spearman's rank-order correlation coefficient (SROCC) decline of 0.6381 attacked by our method, revealing the vulnerability of NR-IQA models to black-box attacks. The proposed attack method also provides a potent tool for further exploration into NR-IQA robustness.
翻訳日:2024-01-18 19:26:59 公開日:2024-01-17
# 基本信号対雑音比が向上しない例外点センサ

Exceptional-point Sensors Offer No Fundamental Signal-to-Noise Ratio Enhancement ( http://arxiv.org/abs/2401.04825v2 )

ライセンス: Link先を確認
Hudson A. Loughlin and Vivishek Sudhir(参考訳) 例外点(EP)センサは、外乱に応じて正方根共振周波数分岐によって特徴付けられる。 これにより、これらのシステムをアプリケーションセンシングに使用するための多くの提案が導かれている。 しかし、この感度の利点がシステム内の追加ノイズによって否定されるかどうかについては、議論がある。 一般化力の測定におけるEPセンサの精度は,EPに近接する操作点から独立していることを示す。 これは、センサーの基本的な起源である周波数ノイズ(量子的および熱的ゆらぎによる)がEP近傍での共鳴周波数感度の増加の恩恵を正確にキャンセルする方法で増加するためである。 したがって、EPセンサの利点は、技術ノイズによって感知が制限される体制に限られる。 最後に,基本ノイズに制限されても有利な位相感応利得を持つepセンサについて概説する。

Exceptional-point (EP) sensors are characterized by a square-root resonant frequency bifurcation in response to an external perturbation. This has lead numerous suggestions for using these systems for sensing applications. However, there is an open debate as to whether or not this sensitivity advantage is negated by additional noise in the system. We show that an EP sensor's imprecision in measuring a generalized force is independent of its operating point's proximity to the EP. That is because frequency noises of fundamental origin in the sensor -- due to quantum and thermal fluctuations -- increase in a manner that exactly cancels the benefit of increased resonant frequency sensitivity near the EP. So the benefit of EP sensors is limited to the regime where sensing is limited by technical noises. Finally, we outline an EP sensor with phase-sensitive gain that does have an advantage even if limited by fundamental noises.
翻訳日:2024-01-18 19:26:09 公開日:2024-01-17
# Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル

Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v3 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam(参考訳) zero/few-shot学習のための大規模事前学習モデルは、言語領域や視覚領域で優れているが、多変量時系列(ts)での課題に遭遇する。 その結果、ts予測にトークン適応を用いた事前学習型大型言語モデル(llms)の利用が近年急増している。 これらのアプローチはクロスドメイン転送学習を採用しており、驚くべき結果をもたらす。 しかし、これらのモデルは典型的には非常に遅く大きく(数十億のパラメータ)、チャネル間の相関を考慮しない。 そこで本稿では,軽量tsmixerアーキテクチャに基づく非常に小型のモデルであるtiny time mixer (ttm)を提案する。 TTMは、パブリックTSデータセットにのみトレーニングされた高速で小さな一般トレーニング済みモデル(<1Mパラメータ)を開発し、予測に効果的な転送学習機能を備えた最初の成功である。 時間分解能の異なる複数のデータセットにおける事前トレーニングの複雑さに対処するために,適応パッチ処理,ダウンサンプリングによるデータセット拡張,解像度プレフィックスチューニングなど,いくつかの新機能を導入する。 さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠ける重要な機能である微調整時に外因性シグナルを注入するためのマルチレベルモデリング手法を用いる。 TTMは、少数/ゼロショットの予測において、人気のあるベンチマークよりも大幅に精度が向上している(12-38\%)。 また、llm-ts法と比較して、学習可能なパラメータを14倍削減し、合計パラメータを106倍削減し、微調整(65倍)と推論時間(54倍)を大幅に削減した。 実際、ttmのゼロショットは、多くの人気のあるベンチマークで数少ない結果を超え、我々のアプローチの有効性を強調しています。 コードと事前訓練されたモデルはオープンソースになる。

Large pre-trained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pre-training data. Consequently, there has been a recent surge in utilizing pre-trained large language models (LLMs) with token adaptations for TS forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large (~billion parameters) and do not consider cross-channel correlations. To address this, we present Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing fast and tiny general pre-trained models (<1M parameters), exclusively trained on public TS datasets, with effective transfer learning capabilities for forecasting. To tackle the complexity of pre-training on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and infuse exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM shows significant accuracy gains (12-38\%) over popular benchmarks in few/zero-shot forecasting. It also drastically reduces the compute needs as compared to LLM-TS methods, with a 14X cut in learnable parameters, 106X less total parameters, and substantial reductions in fine-tuning (65X) and inference time (54X). In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and pre-trained models will be open-sourced.
翻訳日:2024-01-18 19:25:17 公開日:2024-01-17
# 3次元産業異常検出のための自己教師付き特徴適応

Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection ( http://arxiv.org/abs/2401.03145v2 )

ライセンス: Link先を確認
Yuanpeng Tu, Boshen Zhang, Liang Liu, Yuxi Li, Xuhai Chen, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao(参考訳) 産業異常検出は一般に、通常のトレーニングサンプルのみで欠陥を見つけることを目的とした教師なしのタスクとして扱われる。 近年,多くの2次元異常検出手法が提案され,有望な結果が得られたが,入力として2次元RGBデータのみを用いることで,知覚不能な幾何学的表面異常を識別するには不十分である。 そこで本研究では,マルチモーダル異常検出に焦点をあてる。 具体的には,大規模ビジュアルデータセット,すなわちimagenet上で事前トレーニングされたモデルを用いて特徴データベースを構築する初期マルチモーダルアプローチについて検討する。 そして、これらの事前訓練されたモデルを直接使用するのが最適ではなく、微妙な欠陥を検出したり、異常な特徴を通常のモデルと間違えたりすることを実証的に発見します。 This may be attributed to the domain gap between target industrial data and source data.Towards this problem, we propose a Local-to-global Self-supervised Feature Adaptation (LSFA) method to finetune the adaptors and learn task-oriented representation toward anomaly detection.Both intra-modal adaptation and cross-modal alignment are optimized from a local-to-global perspective in LSFA to ensure the representation quality and consistency in the inference stage.Extensive experiments demonstrate that our method not only brings a significant performance boost to feature embedding based approaches, but also outperforms previous State-of-The-Art (SoTA) methods prominently on both MVTec-3D AD and Eyecandies datasets, e.g., LSFA achieves 97.1% I-AUROC on MVTec-3D, surpass previous SoTA by +3.4%.

Industrial anomaly detection is generally addressed as an unsupervised task that aims at locating defects with only normal training samples. Recently, numerous 2D anomaly detection methods have been proposed and have achieved promising results, however, using only the 2D RGB data as input is not sufficient to identify imperceptible geometric surface anomalies. Hence, in this work, we focus on multi-modal anomaly detection. Specifically, we investigate early multi-modal approaches that attempted to utilize models pre-trained on large-scale visual datasets, i.e., ImageNet, to construct feature databases. And we empirically find that directly using these pre-trained models is not optimal, it can either fail to detect subtle defects or mistake abnormal features as normal ones. This may be attributed to the domain gap between target industrial data and source data.Towards this problem, we propose a Local-to-global Self-supervised Feature Adaptation (LSFA) method to finetune the adaptors and learn task-oriented representation toward anomaly detection.Both intra-modal adaptation and cross-modal alignment are optimized from a local-to-global perspective in LSFA to ensure the representation quality and consistency in the inference stage.Extensive experiments demonstrate that our method not only brings a significant performance boost to feature embedding based approaches, but also outperforms previous State-of-The-Art (SoTA) methods prominently on both MVTec-3D AD and Eyecandies datasets, e.g., LSFA achieves 97.1% I-AUROC on MVTec-3D, surpass previous SoTA by +3.4%.
翻訳日:2024-01-18 19:24:07 公開日:2024-01-17
# 量子ldpc符号のための結合符号と信念伝達デコーダ設計

A Joint Code and Belief Propagation Decoder Design for Quantum LDPC Codes ( http://arxiv.org/abs/2401.06874v2 )

ライセンス: Link先を確認
Sisi Miao, Jonathan Mandelbaum, Holger J\"akel, and Laurent Schmalen(参考訳) 量子低密度パリティチェック(QLDPC)符号は、将来の量子誤り訂正スキームの最も有望な候補の一つである。 しかし、短長から中長のQLDPC符号は限定的に設計されており、その復号性能はタナーグラフの避けられない短周期のため、第4の信念伝搬(BP)デコーダと準最適である。 本稿では,QLDPC符号のための新しいジョイントコードとデコーダ設計を提案する。 構築された符号は、ブロック長の平方根あたりの最小距離を有する。 さらに、私たちの知る限りでは、BPデコーディングが長さ4の短いサイクルで障害を受けない最初のQLDPCコードファミリーである。 これは、組み立てた短周期の影響を緩和するアンサンブルBPデコーダを用いて達成される。 古典的準巡回符号と有限幾何符号に基づく2つの符号構成法について概説する。 数値実験により,脱分極チャネル上でのデコード性能が著しく向上した。

Quantum low-density parity-check (QLDPC) codes are among the most promising candidates for future quantum error correction schemes. However, a limited number of short to moderate-length QLDPC codes have been designed and their decoding performance is sub-optimal with a quaternary belief propagation (BP) decoder due to unavoidable short cycles in their Tanner graphs. In this paper, we propose a novel joint code and decoder design for QLDPC codes. The constructed codes have a minimum distance of about the square root of the block length. In addition, it is, to the best of our knowledge, the first QLDPC code family where BP decoding is not impaired by short cycles of length 4. This is achieved by using an ensemble BP decoder mitigating the influence of assembled short cycles. We outline two code construction methods based on classical quasi-cyclic codes and finite geometry codes. Numerical results demonstrate outstanding decoding performance over depolarizing channels.
翻訳日:2024-01-18 19:12:30 公開日:2024-01-17
# 言語モデルのためのきめ細かい幻覚検出と編集

Fine-grained Hallucination Detection and Editing for Language Models ( http://arxiv.org/abs/2401.06855v2 )

ライセンス: Link先を確認
Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi(参考訳) 大規模言語モデル(LM)は、様々な事実的不正確な文を生成する傾向がある。 現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。 本稿では,新しい課題である細粒度幻覚自動検出法を提案し,階層的に定義された6種類の幻覚を包含する包括的分類法を提案する。 評価を容易にするため,各領域にまたがる2つのLM出力に対する人間の微粒化判定を含む新しいベンチマークを導入する。 分析の結果,chatgpt と llama 2-chat はそれぞれ60% と 75% で幻覚を呈し,その幻覚の大部分は未熟なカテゴリに分類されることがわかった。 これに対処する最初のステップとして,合成データ生成を慎重に設計し,細粒度幻覚の検出と修正を行い,検索型lmであるfavaを訓練する。 評価の結果,FAVAはChatGPTよりも高い精度で高感度の幻覚検出を行うことができたが,今後の改善の余地は大きい。 favaの提案する編集ではlm生成テキストの事実性も改善され、ファクトスコアが5~10%向上した。

Large language models (LMs) are prone to generate diverse factually incorrect statements, which are widely called hallucinations. Current approaches predominantly focus on coarse-grained automatic hallucination detection or editing, overlooking nuanced error levels. In this paper, we propose a novel task -- automatic fine-grained hallucination detection -- and present a comprehensive taxonomy encompassing six hierarchically defined types of hallucination. To facilitate evaluation, we introduce a new benchmark that includes fine-grained human judgments on two LM outputs across various domains. Our analysis reveals that ChatGPT and Llama 2-Chat exhibit hallucinations in 60% and 75% of their outputs, respectively, and a majority of these hallucinations fall into categories that have been underexplored. As an initial step to address this, we train FAVA, a retrieval-augmented LM by carefully designing synthetic data generations to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT on fine-grained hallucination detection by a large margin though a large room for future improvement still exists. FAVA's suggested edits also improve the factuality of LM-generated text, resulting in 5-10% FActScore improvements.
翻訳日:2024-01-18 19:12:14 公開日:2024-01-17
# LightHouse: AGI幻覚に関する調査

LightHouse: A Survey of AGI Hallucination ( http://arxiv.org/abs/2401.06792v2 )

ライセンス: Link先を確認
Feng Wang(参考訳) 人工知能の発展に伴い、大規模モデルはますますインテリジェントになっている。 しかし、多くの研究は、これらの大きなモデル内の幻覚がAI研究の発展を妨げるボトルネックであることを示している。 強力な人工知能を達成するために、AGI(Artificial General Intelligence)幻覚研究に多大な研究努力が注がれている。 LLM (Large Language Models) における幻覚の研究は, 従来から行われている。 マルチモーダルAGIについては、幻覚の研究はまだ初期段階にある。 幻覚現象の領域における研究の進展をさらに進めるため,AGIにおける幻覚の鳥眼図を提示し,現在のAGI幻覚研究を要約し,今後の研究に向けていくつかの方向性を提案する。

With the development of artificial intelligence, large-scale models have become increasingly intelligent. However, numerous studies indicate that hallucinations within these large models are a bottleneck hindering the development of AI research. In the pursuit of achieving strong artificial intelligence, a significant volume of research effort is being invested in the AGI (Artificial General Intelligence) hallucination research. Previous explorations have been conducted in researching hallucinations within LLMs (Large Language Models). As for multimodal AGI, research on hallucinations is still in an early stage. To further the progress of research in the domain of hallucinatory phenomena, we present a bird's eye view of hallucinations in AGI, summarizing the current work on AGI hallucinations and proposing some directions for future research.
翻訳日:2024-01-18 19:11:52 公開日:2024-01-17
# DeLF: 基礎モデルによる学習環境の設計

DeLF: Designing Learning Environments with Foundation Models ( http://arxiv.org/abs/2401.08936v1 )

ライセンス: Link先を確認
Aida Afshar, Wenchao Li(参考訳) 強化学習(RL)は、基本的なシーケンシャルな意思決定問題に対して有能で直感な構造を提供する。 驚くべきブレークスルーにもかかわらず、多くの単純なアプリケーションで実際にRLを採用するのは難しい。 本稿では,ユーザの意図したアプリケーションに対して,RL環境のコンポーネントを設計する手法を導入することにより,この問題に対処する。 我々は,観測空間と動作空間の良質な表現を設計することに集中する,rlコンポーネント設計の問題に対する初期形式化を提案する。 本研究では,ユーザが意図する学習シナリオの設計と体系化のために,大規模言語モデルを用いた基礎モデルを用いた学習環境の設計手法であるdelfを提案する。 本手法を4つの異なる学習環境上でテストすることにより,DeLFが対応するRL問題に対して実行可能な環境コードを得ることができることを示す。

Reinforcement learning (RL) offers a capable and intuitive structure for the fundamental sequential decision-making problem. Despite impressive breakthroughs, it can still be difficult to employ RL in practice in many simple applications. In this paper, we try to address this issue by introducing a method for designing the components of the RL environment for a given, user-intended application. We provide an initial formalization for the problem of RL component design, that concentrates on designing a good representation for observation and action space. We propose a method named DeLF: Designing Learning Environments with Foundation Models, that employs large language models to design and codify the user's intended learning scenario. By testing our method on four different learning environments, we demonstrate that DeLF can obtain executable environment codes for the corresponding RL problems.
翻訳日:2024-01-18 17:28:01 公開日:2024-01-17
# 対称視覚注意ネットワークによる高能率画像超解像

Efficient Image Super-Resolution via Symmetric Visual Attention Network ( http://arxiv.org/abs/2401.08913v1 )

ライセンス: Link先を確認
Chengxu Wu, Qinrui Fan, Shu Hu, Xi Wu, Xin Wang, Jing Hu(参考訳) SISR(Single-Image Super-Resolution)アルゴリズムの重要な開発方向は、アルゴリズムの効率を改善することである。 近年、効率的な超解法(SR)研究は、モデル複雑性の低減と、より深いカーネルの畳み込みの改善による効率の向上に焦点が当てられている。 大きなカーネルの畳み込みによって得られる大きな受容場は画像の品質を大幅に向上させるが、計算コストは高すぎる。 本研究では,高効率な超解像再構成の再構成詳細を改善するため,大きな受容場を適用し,対称視覚注意ネットワーク (svan) を提案する。 SVANは、大きなカーネルの畳み込みを、畳み込み操作の3つの異なる組み合わせに分解し、これらをアテンション機構と組み合わせて、SVANの基本成分である奥行き特徴を効果的に抽出するために、畳み込み組み合わせにおける受容野の大きさによってボトルネック構造を有する対称アテンションブロックを形成するシンメトリ大カーネルアテンションブロック(SLKAB)を形成する。 我々のネットワークは、パラメータの最小化とモデルの知覚能力の向上を図りながら、大きな受容場を得る。 実験の結果,既存のSOTA手法のパラメータの約30%を用いて,高品質な超解像再構成結果が得られることがわかった。

An important development direction in the Single-Image Super-Resolution (SISR) algorithms is to improve the efficiency of the algorithms. Recently, efficient Super-Resolution (SR) research focuses on reducing model complexity and improving efficiency through improved deep small kernel convolution, leading to a small receptive field. The large receptive field obtained by large kernel convolution can significantly improve image quality, but the computational cost is too high. To improve the reconstruction details of efficient super-resolution reconstruction, we propose a Symmetric Visual Attention Network (SVAN) by applying large receptive fields. The SVAN decomposes a large kernel convolution into three different combinations of convolution operations and combines them with an attention mechanism to form a Symmetric Large Kernel Attention Block (SLKAB), which forms a symmetric attention block with a bottleneck structure by the size of the receptive field in the convolution combination to extract depth features effectively as the basic component of the SVAN. Our network gets a large receptive field while minimizing the number of parameters and improving the perceptual ability of the model. The experimental results show that the proposed SVAN can obtain high-quality super-resolution reconstruction results using only about 30% of the parameters of existing SOTA methods.
翻訳日:2024-01-18 17:27:48 公開日:2024-01-17
# 分布シフト下における教師なし精度推定の勾配評価

Characterising Gradients for Unsupervised Accuracy Estimation under Distribution Shift ( http://arxiv.org/abs/2401.08909v1 )

ライセンス: Link先を確認
Renchunzi Xie, Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko, Jianfeng Zhang, Bo An(参考訳) さまざまなテスト環境下での地味なテストラベルへのアクセスなしにテスト精度を推定することは、機械学習アルゴリズムの安全なデプロイにおいて難しいが極めて重要な問題である。 既存の作品では、ニューラルネットワークの出力または抽出された特徴からの情報を頼りに、地上テスト精度に関連する推定スコアを定式化している。 本稿では,分布シフト時においても,勾配による情報提供が地中試験精度の予測にどのように寄与するかを実験的および理論的に検討する。 具体的には,テストデータ上の1段階のみの勾配の後に,クロスエントロピー損失から逆転する分類層勾配のノルムを用いる。 我々のキーとなる考え方は、分布シフトを伴うテストデータセットに一般化しない場合、モデルがより高次勾配で調整されるべきであるということです。 このようなアプローチの主な要素として,経験的成功を保証するための理論的洞察を提供する。 多様な分布シフトとモデル構造に関する広範囲な実験により,本手法が最先端アルゴリズムを著しく上回ることを示した。

Estimating test accuracy without access to the ground-truth test labels under varying test environments is a challenging, yet extremely important problem in the safe deployment of machine learning algorithms. Existing works rely on the information from either the outputs or the extracted features of neural networks to formulate an estimation score correlating with the ground-truth test accuracy. In this paper, we investigate--both empirically and theoretically--how the information provided by the gradients can be predictive of the ground-truth test accuracy even under a distribution shift. Specifically, we use the norm of classification-layer gradients, backpropagated from the cross-entropy loss after only one gradient step over test data. Our key idea is that the model should be adjusted with a higher magnitude of gradients when it does not generalize to the test dataset with a distribution shift. We provide theoretical insights highlighting the main ingredients of such an approach ensuring its empirical success. Extensive experiments conducted on diverse distribution shifts and model structures demonstrate that our method significantly outperforms state-of-the-art algorithms.
翻訳日:2024-01-18 17:27:23 公開日:2024-01-17
# LLaMaS: OSモジュールとしてLLMを使用する

Herding LLaMaS: Using LLMs as an OS Module ( http://arxiv.org/abs/2401.08908v1 )

ライセンス: Link先を確認
Aditya K Kamath and Sujay Yadalam(参考訳) 新しいメモリ技術やコンピュータ装置の出現に伴い、コンピュータシステムはますます異質になりつつある。 CPUと並行してGPUが一般的になり、CXLはクラウドシステムのメインステイとなる。 オペレーティングシステムはこれらのハードウェアリソースを管理する責任を持ち、新しいデバイスがリリースされる度に修正を必要とする。 長年の研究と開発は、新しい異種デバイスごとに高いパフォーマンスのためにOSをチューニングするために日没する。 最近のメモリ技術とドメイン固有のアクセラレーターの爆発により、新しいデバイスに高いパフォーマンスを提供するOSが大きな努力を払わずに提供されることは有益である。 我々は新しいデバイスに容易に適応できるラマを提案する。 LLaMaSはLarge Language Models(LLM)を使用して、テキスト記述から新しいデバイスの有用な機能を抽出し、これらの機能を使用して実行時にオペレーティングシステムの決定を行う。 新しいデバイスに対するLLaMaSのサポートの追加は、システムと新しいデバイスプロパティを平文で記述するのと同じくらい単純である。 LLaMaSはシステム管理者の負担を軽減し、新しいデバイスをプロダクションシステムに簡単に統合できるようにする。 ChatGPTを用いた予備評価では、LLMはテキストからデバイス特徴を抽出し、それらの特徴に基づいて正しいOS決定を行うことができる。

Computer systems are becoming increasingly heterogeneous with the emergence of new memory technologies and compute devices. GPUs alongside CPUs have become commonplace and CXL is poised to be a mainstay of cloud systems. The operating system is responsible for managing these hardware resources, requiring modification every time a new device is released. Years of research and development are sunk into tuning the OS for high performance with each new heterogeneous device. With the recent explosion in memory technologies and domain-specific accelerators, it would be beneficial to have an OS that could provide high performance for new devices without significant effort. We propose LLaMaS which can adapt to new devices easily. LLaMaS uses Large Language Models (LLMs) to extract the useful features of new devices from their textual description and uses these features to make operating system decisions at runtime. Adding support to LLaMaS for a new device is as simple as describing the system and new device properties in plaintext. LLaMaS reduces the burden on system administrators to enable easy integration of new devices into production systems. Preliminary evaluation using ChatGPT shows that LLMs are capable of extracting device features from text and make correct OS decisions based on those features.
翻訳日:2024-01-18 17:27:07 公開日:2024-01-17
# PPR:顔認識システムにおける偽装攻撃の維持とドーピング攻撃の強化

PPR: Enhancing Dodging Attacks while Maintaining Impersonation Attacks on Face Recognition Systems ( http://arxiv.org/abs/2401.08903v1 )

ライセンス: Link先を確認
Fengfan Zhou, Heifei Ling(参考訳) 顔認識に対する敵対的攻撃(FR)は、偽装攻撃と回避攻撃の2つのタイプを含む。 我々は, FRに対する偽装攻撃を成功させることが, ブラックボックス設定において, FRに対する偽装攻撃を成功させるとは限らないことを観察した。 本研究では, PPR (Pre-training Pruning Restoration Attack) と呼ばれる新たな攻撃手法を導入し, 偽装攻撃の防止を図りつつ, ドッジ攻撃の性能向上を図る。 提案手法は,攻撃性能を維持しつつ,敵の摂動の一部をゼロに設定できる,敵のサンプルプルーニングを用いる。 敵の例を刈り取ることで、事前訓練された敵の例を刈り取ることができ、特定の敵の摂動を選択的に解放することができる。 その後, プルーニング領域に対向性摂動を埋め込み, 対向性面の実例のドッジ性能を高める。 提案手法の有効性を実験により実証し,その優れた性能を示す。

Adversarial Attacks on Face Recognition (FR) encompass two types: impersonation attacks and evasion attacks. We observe that achieving a successful impersonation attack on FR does not necessarily ensure a successful dodging attack on FR in the black-box setting. Introducing a novel attack method named Pre-training Pruning Restoration Attack (PPR), we aim to enhance the performance of dodging attacks whilst avoiding the degradation of impersonation attacks. Our method employs adversarial example pruning, enabling a portion of adversarial perturbations to be set to zero, while tending to maintain the attack performance. By utilizing adversarial example pruning, we can prune the pre-trained adversarial examples and selectively free up certain adversarial perturbations. Thereafter, we embed adversarial perturbations in the pruned area, which enhances the dodging performance of the adversarial face examples. The effectiveness of our proposed attack method is demonstrated through our experimental results, showcasing its superior performance.
翻訳日:2024-01-18 17:26:46 公開日:2024-01-17
# 類似しているが高速:テンポ予測と探索のための音楽音声埋め込みにおけるテンポ操作

Similar but Faster: Manipulation of Tempo in Music Audio Embeddings for Tempo Prediction and Search ( http://arxiv.org/abs/2401.08902v1 )

ライセンス: Link先を確認
Matthew C. McCallum, Florian Henkel, Jaehun Kim, Samuel E. Sandberg, Matthew E. P. Davies(参考訳) オーディオ埋め込みは、検索やレコメンデーションなどのアプリケーションにおけるオーディオファイルの類似性に関する大規模な比較を可能にする。 オーディオ類似性の主観性のため、オーディオが類似しているだけでなく、どのような方法で類似しているか(例えば、テンポ、ムード、ジャンルなど)に答えるシステムの設計が望ましい。 以前の研究では、特定の、しかしおそらく相関性のある属性を表す部分空間が下流タスクでそれらの属性を強調するために重み付けられるような、不等角埋め込み空間を提案している。 しかし、類似しているが特定の方法で異なるトラックを検索するために、これらの部分空間の独立性や操作についての研究は行われていない。 ここでは、この目標に向けてのケーススタディとして、埋め込み空間におけるテンポの操作について検討する。 本稿では,既存の埋め込み空間におけるテンポの効率的な操作を可能にするとともに,ジャンルなどの他の特性を維持できるテンポ翻訳関数を提案する。 この翻訳はテンポ特有のものであるため、類似しているが特にテンポが異なるトラックを検索することができる。 このような関数は,下流のテンポ予測器を訓練するための効率的なデータ拡張戦略として利用でき,テンポに依存しない特性の近接検索を改善することができる。

Audio embeddings enable large scale comparisons of the similarity of audio files for applications such as search and recommendation. Due to the subjectivity of audio similarity, it can be desirable to design systems that answer not only whether audio is similar, but similar in what way (e.g., wrt. tempo, mood or genre). Previous works have proposed disentangled embedding spaces where subspaces representing specific, yet possibly correlated, attributes can be weighted to emphasize those attributes in downstream tasks. However, no research has been conducted into the independence of these subspaces, nor their manipulation, in order to retrieve tracks that are similar but different in a specific way. Here, we explore the manipulation of tempo in embedding spaces as a case-study towards this goal. We propose tempo translation functions that allow for efficient manipulation of tempo within a pre-existing embedding space whilst maintaining other properties such as genre. As this translation is specific to tempo it enables retrieval of tracks that are similar but have specifically different tempi. We show that such a function can be used as an efficient data augmentation strategy for both training of downstream tempo predictors, and improved nearest neighbor retrieval of properties largely independent of tempo.
翻訳日:2024-01-18 17:26:27 公開日:2024-01-17
# グローバルニュースにおける生成AIのランドスケープ:トピック、センチメント、時空間分析

Landscape of Generative AI in Global News: Topics, Sentiments, and Spatiotemporal Analysis ( http://arxiv.org/abs/2401.08899v1 )

ライセンス: Link先を確認
Lu Xian, Lingyao Li, Yiwei Xu, Ben Zefeng Zhang, Libby Hemphill(参考訳) ジェネレーティブAIは、様々な産業や公共生活を変革する大きな可能性を秘めている。 生成的AIに関するニュースメディアの報道の役割は、この重要な技術革新に対する大衆の認識と判断を形作る上で重要である。 本稿では、最新の新興技術である世代AIに焦点を当てたグローバルニュースの話題、感情、実体的テーマの時間的および空間的分布に関する詳細な分析と豊富な洞察を提供する。 私たちはニュース記事の包括的なデータセット(2018年1月から2023年11月、N = 24,827)を収集しました。 トピックモデリングでは,BERTopic手法と定性的な符号化を組み合わせてセマンティックテーマを同定した。 その後,RoBERTaベースモデルを用いて感情分析を行った。 データにおける時間的パターンの分析は、ビジネス、企業技術開発、規制とセキュリティ、教育など、主要なトピックのカバー範囲における顕著な多様性を明らかにし、主要なAI開発や政策に関する議論と一致する記事が急増している。 センチメント分析は、主にポジティブなメディアスタンスに中立であり、ビジネス関連の記事はよりポジティブな感情を示し、規制やセキュリティの記事は、ネガティブな感情に中立である。 本研究は,グローバルニュースの話題を調査し,新興技術に関連するニュース態度やテーマを評価するための貴重な枠組みを提供する。

Generative AI has exhibited considerable potential to transform various industries and public life. The role of news media coverage of generative AI is pivotal in shaping public perceptions and judgments about this significant technological innovation. This paper provides in-depth analysis and rich insights into the temporal and spatial distribution of topics, sentiment, and substantive themes within global news coverage focusing on the latest emerging technology --generative AI. We collected a comprehensive dataset of news articles (January 2018 to November 2023, N = 24,827). For topic modeling, we employed the BERTopic technique and combined it with qualitative coding to identify semantic themes. Subsequently, sentiment analysis was conducted using the RoBERTa-base model. Analysis of temporal patterns in the data reveals notable variability in coverage across key topics--business, corporate technological development, regulation and security, and education--with spikes in articles coinciding with major AI developments and policy discussions. Sentiment analysis shows a predominantly neutral to positive media stance, with the business-related articles exhibiting more positive sentiment, while regulation and security articles receive a reserved, neutral to negative sentiment. Our study offers a valuable framework to investigate global news discourse and evaluate news attitudes and themes related to emerging technologies.
翻訳日:2024-01-18 17:26:07 公開日:2024-01-17
# ブリッジング状態と歴史表現:自己予測的RLを理解する

Bridging State and History Representations: Understanding Self-Predictive RL ( http://arxiv.org/abs/2401.08898v1 )

ライセンス: Link先を確認
Tianwei Ni, Benjamin Eysenbach, Erfan Seyedsalehi, Michel Ma, Clement Gehring, Aditya Mahajan, Pierre-Luc Bacon(参考訳) 表現は、マルコフ決定プロセス(MDP)と部分的に観察可能なマルコフ決定プロセス(POMDP)の両方のための、すべての深層強化学習(RL)手法の中核にある。 効果的な表現を構成するものを理解するために,多くの表現学習手法や理論フレームワークが開発されている。 しかし,これらの方法と共有特性の関係はいまだ不明である。 本稿では, 状態と歴史を抽象化するための一見異なる手法やフレームワークの多くは, 自己予測的抽象化という共通の概念に基づいていることを示す。 さらに, 自己予測表現の学習において, 停止段階的手法など, 広く採用されている目標と最適化に関する理論的知見を提供する。 これらの発見は、状態と履歴の自己予測表現を学ぶための最小主義的アルゴリズムをもたらす。 我々は,我々の理論を,標準のMDP,イントラクタ付きMDP,スパース報酬付きPMDPに適用することで検証する。 これらの知見は,RL実践者のための実践的ガイドラインのセットにまとめられる。

Representations are at the core of all deep reinforcement learning (RL) methods for both Markov decision processes (MDPs) and partially observable Markov decision processes (POMDPs). Many representation learning methods and theoretical frameworks have been developed to understand what constitutes an effective representation. However, the relationships between these methods and the shared properties among them remain unclear. In this paper, we show that many of these seemingly distinct methods and frameworks for state and history abstractions are, in fact, based on a common idea of self-predictive abstraction. Furthermore, we provide theoretical insights into the widely adopted objectives and optimization, such as the stop-gradient technique, in learning self-predictive representations. These findings together yield a minimalist algorithm to learn self-predictive representations for states and histories. We validate our theories by applying our algorithm to standard MDPs, MDPs with distractors, and POMDPs with sparse rewards. These findings culminate in a set of practical guidelines for RL practitioners.
翻訳日:2024-01-18 17:25:45 公開日:2024-01-17
# CFASL: 変分オートエンコーダの絡み合いに対する複合因子適応対称性学習

CFASL: Composite Factor-Aligned Symmetry Learning for Disentanglement in Variational AutoEncoder ( http://arxiv.org/abs/2401.08897v1 )

ライセンス: Link先を確認
Hee-Jun Jung, Jaehyoung Jeong and Kangil Kim(参考訳) 入力ベクトルと潜伏ベクトルの対称性は、VAEにおける不整合学習に有用な洞察を与えてきたが、教師なしの手法としていくつかの研究が提案され、これらの研究でさえ、トレーニングデータに既知の因子情報を必要とする。 本稿では,教師なし学習における非教師あり学習における対称性に基づく不等角性学習のためのvaesに統合した合成因子整合対称性学習(cfasl)を提案する。cfaslは対称性に基づく異角性学習のための3つの新しい特徴を取り入れている。 1) ラテントベクトル次元を明示的に学習可能な対称性コードブック内の因子整列対称性に整合させる誘導バイアス注入 2 コードブック内の因子整合対称性の学習による2つのランダムサンプル間の未知の因子変化を表現するための合成対称性の学習 3) 群同変エンコーダとデコーダの2つの条件でVAEを訓練する。 さらに,vaesにおける絡み合い評価と比較し,多因子変化に対する拡張評価指標を提案する。 cfaslは量的・奥行きの質的分析において,単因子変化のばらつき,多因子変化条件の有意な改善を,最先端法と比較して示している。

Symmetries of input and latent vectors have provided valuable insights for disentanglement learning in VAEs.However, only a few works were proposed as an unsupervised method, and even these works require known factor information in training data. We propose a novel method, Composite Factor-Aligned Symmetry Learning (CFASL), which is integrated into VAEs for learning symmetry-based disentanglement in unsupervised learning without any knowledge of the dataset factor information.CFASL incorporates three novel features for learning symmetry-based disentanglement: 1) Injecting inductive bias to align latent vector dimensions to factor-aligned symmetries within an explicit learnable symmetry codebook 2) Learning a composite symmetry to express unknown factors change between two random samples by learning factor-aligned symmetries within the codebook 3) Inducing group equivariant encoder and decoder in training VAEs with the two conditions. In addition, we propose an extended evaluation metric for multi-factor changes in comparison to disentanglement evaluation in VAEs. In quantitative and in-depth qualitative analysis, CFASL demonstrates a significant improvement of disentanglement in single-factor change, and multi-factor change conditions compared to state-of-the-art methods.
翻訳日:2024-01-18 17:25:27 公開日:2024-01-17
# cedar: 構成可能で最適化された機械学習入力データパイプライン

cedar: Composable and Optimized Machine Learning Input Data Pipelines ( http://arxiv.org/abs/2401.08895v1 )

ライセンス: Link先を確認
Mark Zhao, Emanuel Adamiak, Christos Kozyrakis(参考訳) 入力データパイプラインは、各機械学習(ML)トレーニングジョブの重要なコンポーネントである。 大量のトレーニングデータを読み込んで、複雑な変換を使ってサンプルのバッチを処理し、低レイテンシと高スループットでトレーニングノードにロードする責務を負う。 パフォーマンスの高い入力データシステムは、データボリュームの急増とスループットのトレーニング要求によって、ますます重要になっています。 残念なことに、現在の入力データシステムは、重要なパフォーマンス最適化を完全に活用できないため、膨大なリソースを必要とする非常に非効率なインフラストラクチャーが、高価なアクセラレーターを過小に活用している。 これらの要求に対処するために、ユーザは入力データパイプラインを簡単に構築、最適化、実行できるプログラミングモデルとフレームワークであるcedarを紹介します。 ユーザーは任意のMLフレームワークとライブラリをサポートする構成可能な演算子を使って入力データパイプラインを定義できる。 一方、シーダーは複雑で拡張可能な最適化技術(例えば、オフロード、キャッシュ、プリフェッチ、フュージョン、再順序付け)を透過的に適用する。 そして、ユーザ入力なしで処理性能と効率を最大化するために、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。 6つの多様な入力データパイプラインで平均して、cedarは、それぞれtf.data、tf.dataサービス、Ray Data、PyTorchのDataLoaderと比較して2.49x、1.87x、2.18x、2.74倍高いパフォーマンスを達成する。

The input data pipeline is an essential component of each machine learning (ML) training job. It is responsible for reading massive amounts of training data, processing batches of samples using complex of transformations, and loading them onto training nodes at low latency and high throughput. Performant input data systems are becoming increasingly critical, driven by skyrocketing data volumes and training throughput demands. Unfortunately, current input data systems cannot fully leverage key performance optimizations, resulting in hugely inefficient infrastructures that require significant resources -- or worse -- underutilize expensive accelerators. To address these demands, we present cedar, a programming model and framework that allows users to easily build, optimize, and execute input data pipelines. cedar presents an easy-to-use programming interface, allowing users to define input data pipelines using composable operators that support arbitrary ML frameworks and libraries. Meanwhile, cedar transparently applies a complex and extensible set of optimization techniques (e.g., offloading, caching, prefetching, fusion, and reordering). It then orchestrates processing across a customizable set of local and distributed compute resources in order to maximize processing performance and efficiency, all without user input. On average across six diverse input data pipelines, cedar achieves a 2.49x, 1.87x, 2.18x, and 2.74x higher performance compared to tf.data, tf.data service, Ray Data, and PyTorch's DataLoader, respectively.
翻訳日:2024-01-18 17:25:04 公開日:2024-01-17
# MADA: 高度劣化によるメタ適応最適化

MADA: Meta-Adaptive Optimizers through hyper-gradient Descent ( http://arxiv.org/abs/2401.08893v1 )

ライセンス: Link先を確認
Kaan Ozkara, Can Karakus, Parameswaran Raman, Mingyi Hong, Shoham Sabach, Branislav Kveton, Volkan Cevher(参考訳) adamの導入以来、ディープラーニングのための新しい適応最適化器がいくつか提案されている。 これらのオプティマイザは一般的にいくつかのタスクで優れるが、すべてのタスクでAdamを均一に上回るものではない。 本稿では,複数の既知のオプティマイザを一般化し,トレーニング中に最も適したオプティマイザを動的に学習する,統一オプティマイザフレームワークであるメタ適応オプティマイザ(MADA)を紹介する。 MADAのキーとなるアイデアは、最適化の空間をパラメータ化して、過勾配の降下を使って探索することだ。 MADAは最適化されたハイパーパラメータに対して頑健であり、最適化されたハイパーパラメータでさえもデフォルトのハイパーパラメータではAdam、Lion、Adanを上回っている。 また,最大演算子を平均演算子に置き換えた AMSGrad の変種である AVGrad を提案し,MADA での性能が向上することを確認した。 最後に、最適化器(具体的にはAVGradとAdam)の補間が誤差境界(定数まで)を改善できることを示す収束解析を行い、メタ最適化の利点を示唆する。

Since Adam was introduced, several novel adaptive optimizers for deep learning have been proposed. These optimizers typically excel in some tasks but may not outperform Adam uniformly across all tasks. In this work, we introduce Meta-Adaptive Optimizers (MADA), a unified optimizer framework that can generalize several known optimizers and dynamically learn the most suitable one during training. The key idea in MADA is to parameterize the space of optimizers and search through it using hyper-gradient descent. Numerical results suggest that MADA is robust against sub-optimally tuned hyper-parameters, and outperforms Adam, Lion, and Adan with their default hyper-parameters, often even with optimized hyper-parameters. We also propose AVGrad, a variant of AMSGrad where the maximum operator is replaced with averaging, and observe that it performs better within MADA. Finally, we provide a convergence analysis to show that interpolation of optimizers (specifically, AVGrad and Adam) can improve their error bounds (up to constants), hinting at an advantage for meta-optimizers.
翻訳日:2024-01-18 17:24:36 公開日:2024-01-17
# 完全自己教師付きバイナリ分類としてのテンポ推定

Tempo estimation as fully self-supervised binary classification ( http://arxiv.org/abs/2401.08891v1 )

ライセンス: Link先を確認
Florian Henkel, Jaehun Kim, Matthew C. McCallum, Samuel E. Sandberg, Matthew E. P. Davies(参考訳) 本稿では,グローバルなテンポ推定の問題に対処する。 テンポの注釈は時間を要するため、特定の音楽的専門知識を必要とするため、このタスクのために機械学習モデルをトレーニングするための公開データソースはほとんど存在しない。 この問題を軽減するために,人間ラベルデータに依存しない完全自己監督型アプローチを提案する。 提案手法は,総称的(音楽)オーディオ組込みが,テンポに関する情報を含む様々なプロパティを既にエンコードしており,下流タスクに容易に適応できるという事実に基づいている。 教師付き分類器の訓練に使用されたテンポ固有表現の学習を目的とした,近年の自己教師型テンポ推定における研究は,対象トラックが参照と異なるテンポを持つか否かを予測する二分分類問題に再編成されている。 前者は最終分類モデルにラベル付きトレーニングデータを必要とするが,モデルトレーニングには任意のラベル付き音楽データと,モデルトレーニングのための時間拡張と,最終テンポを予測するための合成された参照サンプルの組み合わせを用いる。 提案手法を最先端技術と比較すると, 正確なテンポオクターブを求める制約が緩和された場合に高い競争性能を示す。

This paper addresses the problem of global tempo estimation in musical audio. Given that annotating tempo is time-consuming and requires certain musical expertise, few publicly available data sources exist to train machine learning models for this task. Towards alleviating this issue, we propose a fully self-supervised approach that does not rely on any human labeled data. Our method builds on the fact that generic (music) audio embeddings already encode a variety of properties, including information about tempo, making them easily adaptable for downstream tasks. While recent work in self-supervised tempo estimation aimed to learn a tempo specific representation that was subsequently used to train a supervised classifier, we reformulate the task into the binary classification problem of predicting whether a target track has the same or a different tempo compared to a reference. While the former still requires labeled training data for the final classification model, our approach uses arbitrary unlabeled music data in combination with time-stretching for model training as well as a small set of synthetically created reference samples for predicting the final tempo. Evaluation of our approach in comparison with the state-of-the-art reveals highly competitive performance when the constraint of finding the precise tempo octave is relaxed.
翻訳日:2024-01-18 17:24:13 公開日:2024-01-17
# 音楽音声表現のコントラスト学習における局所埋め込み特性に対するデータ提示の影響について

On the Effect of Data-Augmentation on Local Embedding Properties in the Contrastive Learning of Music Audio Representations ( http://arxiv.org/abs/2401.08889v1 )

ライセンス: Link先を確認
Matthew C. McCallum, Matthew E. P. Davies, Florian Henkel, Jaehun Kim, Samuel E. Sandberg(参考訳) オーディオ埋め込みは、音楽の大きなカタログを理解する上で重要なツールである。 通常、埋め込みは幅広い下流タスクで提供される性能に基づいて評価されるが、音楽検索やレコメンデーションで一般的に用いられる隣り合うアルゴリズムにおいて重要な埋め込み空間自体の局所的特性について研究する研究はほとんどない。 本研究では、コントラスト学習による音楽データセットの音声表現の学習において、トラック内で典型的に均質な音楽特性(例えば、キーとテンポ)が埋め込み空間内の近傍の局所性に反映されることを示す。 適切なデータ拡張戦略を適用することで、そのようなプロパティのローカライズを削減できるだけでなく、他の属性のローカライズも向上する。 例えば、非熟練のリスナーにはあまり関係のないピッチやテンポといった特徴の局所性は、ジャンルやムードといったよりサルエントな特徴の局所性を改善しつつ緩和され、最も近い近隣の検索精度で最先端のパフォーマンスを達成することができる。 同様に,音楽音声組込みのコントラスト学習におけるデータ拡張戦略の最適選択は,下流課題に依存しており,これを重要な組込み設計決定として強調する。

Audio embeddings are crucial tools in understanding large catalogs of music. Typically embeddings are evaluated on the basis of the performance they provide in a wide range of downstream tasks, however few studies have investigated the local properties of the embedding spaces themselves which are important in nearest neighbor algorithms, commonly used in music search and recommendation. In this work we show that when learning audio representations on music datasets via contrastive learning, musical properties that are typically homogeneous within a track (e.g., key and tempo) are reflected in the locality of neighborhoods in the resulting embedding space. By applying appropriate data augmentation strategies, localisation of such properties can not only be reduced but the localisation of other attributes is increased. For example, locality of features such as pitch and tempo that are less relevant to non-expert listeners, may be mitigated while improving the locality of more salient features such as genre and mood, achieving state-of-the-art performance in nearest neighbor retrieval accuracy. Similarly, we show that the optimal selection of data augmentation strategies for contrastive learning of music audio embeddings is dependent on the downstream task, highlighting this as an important embedding design decision.
翻訳日:2024-01-18 17:23:51 公開日:2024-01-17
# 任意の多ビットユニタリに対するトフォリ最適量子回路の合成

Synthesizing Toffoli-optimal quantum circuits for arbitrary multi-qubit unitaries ( http://arxiv.org/abs/2401.08950v1 )

ライセンス: Link先を確認
Priyanka Mukhopadhyay(参考訳) 本稿では,clifford+toffoliユニバーサルフォールトトレラントゲートセットについて検討する。 このゲートセットで実装可能な任意のユニタリを表現するために生成集合を導入し、これにより任意のマルチキュービットユニタリのトフォリー数に境界を導出する。 生成集合のチャネル表現を解析し、その助けを借りて $|\mathcal{J}_n^{Tof}|<|\mathcal{J}_n^T|$, where $\mathcal{J}_n^{Tof}$ と $\mathcal{J}_n^T$ をそれぞれClifford+Toffoli と Clifford+T gate set で正確に実装可能なユニタリの集合とする。 ほぼかつ正確に実装可能なマルチキュービットユニタリのためのToffoli-count最適合成アルゴリズムを開発した。 これらの助けを借りて、$|\mathcal{J}_n^{Tof}|=|\mathcal{J}_n^{CS}|$を証明し、$\mathcal{J}_n^{CS}$はクリフォード+CSゲートセットによって正確に実装可能なユニタリの集合である。

In this paper we study the Clifford+Toffoli universal fault-tolerant gate set. We introduce a generating set in order to represent any unitary implementable by this gate set and with this we derive a bound on the Toffoli-count of arbitrary multi-qubit unitaries. We analyse the channel representation of the generating set elements, with the help of which we infer $|\mathcal{J}_n^{Tof}|<|\mathcal{J}_n^T|$, where $\mathcal{J}_n^{Tof}$ and $\mathcal{J}_n^T$ are the set of unitaries exactly implementable by the Clifford+Toffoli and Clifford+T gate set, respectively. We develop Toffoli-count optimal synthesis algorithms for both approximately and exactly implementable multi-qubit unitaries. With the help of these we prove $|\mathcal{J}_n^{Tof}|=|\mathcal{J}_n^{CS}|$, where $\mathcal{J}_n^{CS}$ is the set of unitaries exactly implementable by the Clifford+CS gate set.
翻訳日:2024-01-18 17:17:12 公開日:2024-01-17
# AntiPhishStack: 最適化フィッシングURL検出のためのLSTMベーススタック一般化モデル

AntiPhishStack: LSTM-based Stacked Generalization Model for Optimized Phishing URLs Detection ( http://arxiv.org/abs/2401.08947v1 )

ライセンス: Link先を確認
Saba Aslam, Hafsa Aslam, Arslan Manzoor, Chen Hui, Abdur Rasool(参考訳) 革命的なオンラインウェブサービスへの依存が拡大し、セキュリティリスクが高まった。 従来のフィッシングシステムは、機械学習と手動機能に依存しており、進化する戦術に苦しむ。 ディープラーニングの最近の進歩は、新しいフィッシングチャレンジと悪意のあるurlに取り組むための有望な手段を提供する。 本稿では,フィッシングサイトを検出するための2相スタック一般化モデルであるAntiPhishStackを提案する。 このモデルは、URLと文字レベルのTF-IDF特徴の学習を対称的に活用し、新たなフィッシング脅威に対処する能力を高める。 フェーズIでは、特徴をベース機械学習分類器でトレーニングし、強靭な平均予測にK倍のクロスバリデーションを用いる。 フェーズIIでは、動的コンパイルのための5つの適応オプティマイザを備えた2層スタックベースのLSTMネットワークが採用され、これらの特徴のプレミア予測が保証されている。 さらに、両方の位相からの対称予測は最適化され、メタXGBoost分類器を訓練するために統合され、最終的な堅牢な予測に寄与する。 この作業の重要性は、以前のフィッシング固有の機能知識なしで運用するAntiPhishStackによるフィッシング検出の進行にある。 良性およびフィッシングまたは悪意のあるurlを含む2つのベンチマークデータセットの実験的検証は、モデルの例外的なパフォーマンスを示し、既存の研究と比較して96.04%の精度を達成している。 本研究は、情報セキュリティにおける対称性と非対称性に関する議論に価値を付加し、サイバー脅威の進展に直面したネットワークセキュリティを強化するための先進的なソリューションを提供する。

The escalating reliance on revolutionary online web services has introduced heightened security risks, with persistent challenges posed by phishing despite extensive security measures. Traditional phishing systems, reliant on machine learning and manual features, struggle with evolving tactics. Recent advances in deep learning offer promising avenues for tackling novel phishing challenges and malicious URLs. This paper introduces a two-phase stack generalized model named AntiPhishStack, designed to detect phishing sites. The model leverages the learning of URLs and character-level TF-IDF features symmetrically, enhancing its ability to combat emerging phishing threats. In Phase I, features are trained on a base machine learning classifier, employing K-fold cross-validation for robust mean prediction. Phase II employs a two-layered stacked-based LSTM network with five adaptive optimizers for dynamic compilation, ensuring premier prediction on these features. Additionally, the symmetrical predictions from both phases are optimized and integrated to train a meta-XGBoost classifier, contributing to a final robust prediction. The significance of this work lies in advancing phishing detection with AntiPhishStack, operating without prior phishing-specific feature knowledge. Experimental validation on two benchmark datasets, comprising benign and phishing or malicious URLs, demonstrates the model's exceptional performance, achieving a notable 96.04% accuracy compared to existing studies. This research adds value to the ongoing discourse on symmetry and asymmetry in information security and provides a forward-thinking solution for enhancing network security in the face of evolving cyber threats.
翻訳日:2024-01-18 17:16:37 公開日:2024-01-17
# 量子絡み合い強化のための最適局所フィルタリング演算

Optimal local filtering operation for enhancing quantum entanglement ( http://arxiv.org/abs/2401.08944v1 )

ライセンス: Link先を確認
Zhaofeng Su, Nina Sukhodoeva(参考訳) 量子エンタングルメントは多くの重要な量子情報処理タスクに必須のリソースである。 したがって、より絡み合いの少ない資源からより多くの絡み合いを蒸留することは実用上重要な課題であり、何十年も研究されてきた。 The literature [Verstraete \textit{et al}. https://link.aps.org/doi/10.1103/PhysRevA.64.0101}{Phys A 64, 010101(2001)} は局所フィルタリング操作により絡み合いを増大させるシナリオを考察し, 絡み合いの分散関係を定性的に導出した。 フィルタ処理の最適戦略を見つけるために,一般的な2ビット資源を用いてシナリオを考察する。 エンタングルメント増加率の上界を求め,対応する最適局所フィルタリング演算を求め,最大比率を得る。 解析の結果,局所的ブロッホベクトルの長さで上界比が増大する一方,成功確率は減少することがわかった。 さらに, 一般計測を考慮し, 最適な計測戦略を検討するための研究をさらに拡大する。 その結果,局所的な測定では量子エンタングルメントの期待値が高まることはできず,局所演算では量子エンタングルメントが生成できないという既知の事実に対する解析的な証拠が得られている。

Quantum entanglement is an indispensable resource for many significant quantum information processing tasks. Thus, distilling more entanglement from less entangled resource is a task of practical significance and has been investigated for decades. The literature [Verstraete \textit{et al}., \href{https://link.aps.org/doi/10.1103/PhysRevA.64.010101}{Phys. Rev. A 64, 010101(2001)}] considered a scenario to increase the entanglement by local filtering operation and qualitatively derived the variance relation of entanglement. We investigate the scenario with general two-qubit resources to find the optimal strategy of filtering operations. We obtain the upper bound for the ratio of entanglement increase and find the corresponding optimal local filtering operation to achieve the maximal ratio. Our analysis shows that the upper bound ratio grows with the length of local Bloch vector while the success probability decrease with it. We further extend the research to investigate the optimal measurement strategy by considering general measurement. Our result shows that local measurement can not increase the expectation of quantum entanglement, which gives more analytical evidence to the well known fact that local operation can not create quantum entanglement.
翻訳日:2024-01-18 17:15:50 公開日:2024-01-17
# エッジデバイス上での信頼性および適応分散推論のための流体動的DNN

Fluid Dynamic DNNs for Reliable and Adaptive Distributed Inference on Edge Devices ( http://arxiv.org/abs/2401.08943v1 )

ライセンス: Link先を確認
Lei Xun, Mingyu Hu, Hengrui Zhao, Amit Kumar Singh, Jonathon Hare, Geoff V. Merrett(参考訳) 分散推論は、エッジでの効率的なDNN推論のための一般的なアプローチである。 しかし、従来の静的および動的dnnは分散に優しいものではなく、システムの信頼性と適応性の問題を引き起こす。 本稿では,分散推論に適したFluid Dynamic DNN(Fluid DyDNN)を提案する。 静的および動的dnnとは異なり、fluid dydnnsは、新しいネスト化インクリメンタルトレーニングアルゴリズムを使用して、サブネットワークの独立および組み合わせ操作を可能にし、システムの信頼性と適応性を高める。 DNNモデルとMNISTデータセットによる組込みArm CPUの評価では、単一デバイス障害のシナリオでは、Fluid DyDNNは継続推論を保証し、静的および動的DNNは失敗する。 デバイスが完全に動作している場合、流体dydnnは高精度モードのいずれかで動作でき、静的dnnと同等の精度を達成でき、また高スループットモードでも2.5倍と2倍のスループットを達成できる。

Distributed inference is a popular approach for efficient DNN inference at the edge. However, traditional Static and Dynamic DNNs are not distribution-friendly, causing system reliability and adaptability issues. In this paper, we introduce Fluid Dynamic DNNs (Fluid DyDNNs), tailored for distributed inference. Distinct from Static and Dynamic DNNs, Fluid DyDNNs utilize a novel nested incremental training algorithm to enable independent and combined operation of its sub-networks, enhancing system reliability and adaptability. Evaluation on embedded Arm CPUs with a DNN model and the MNIST dataset, shows that in scenarios of single device failure, Fluid DyDNNs ensure continued inference, whereas Static and Dynamic DNNs fail. When devices are fully operational, Fluid DyDNNs can operate in either a High-Accuracy mode and achieve comparable accuracy with Static DNNs, or in a High-Throughput mode and achieve 2.5x and 2x throughput compared with Static and Dynamic DNNs, respectively.
翻訳日:2024-01-18 17:15:12 公開日:2024-01-17
# cel:弾力的重み統合によるドメイン適応による疾病発生予測のための連続学習モデル

CEL: A Continual Learning Model for Disease Outbreak Prediction by Leveraging Domain Adaptation via Elastic Weight Consolidation ( http://arxiv.org/abs/2401.08940v1 )

ライセンス: Link先を確認
Saba Aslam, Abdur Rasool, Hongyan Wu, Xiaoli Li(参考訳) 連続学習は、モデルが過去の知識を忘れずに時間とともに学習する能力であり、そのため、新しいデータに適応することが、病気の発生予測のような動的分野において最重要である。 深層ニューラルネットワーク、すなわちLSTMは、破滅的な忘れ物のためにエラーを起こしやすい。 本研究では,EWC(Elastic Weight Consolidation)による領域適応を利用した連続学習のための新しいCELモデルを提案する。 このモデルは、ドメインインクリメンタルな設定における破滅的な忘れ現象を軽減することを目的としている。 Fisher Information Matrix (FIM) はEWCで構築され、重要なパラメータ、すなわち重要な過去の知識に変化をペナライズする正規化用語を開発する。 CELのパフォーマンスは、インフルエンザ、Mpox、麻疹の3つの異なる疾患で異なる指標で評価されている。 評価と再評価における高いR二乗値は、いくつかの文脈において他の最先端モデルよりも優れており、CELがインクリメンタルデータによく適応していることを示している。 CELの堅牢性と信頼性は、既存のベンチマーク研究と比較して65%の忘れ込み率と18%のメモリ安定性で裏付けられている。 本研究は、CELの疾病発生予測における汎用性を強調し、時間的パターンで進化するデータに対処する。 正確なタイムリーな予測で、プロアクティブな疾患管理のための貴重なモデルを提供する。

Continual learning, the ability of a model to learn over time without forgetting previous knowledge and, therefore, be adaptive to new data, is paramount in dynamic fields such as disease outbreak prediction. Deep neural networks, i.e., LSTM, are prone to error due to catastrophic forgetting. This study introduces a novel CEL model for continual learning by leveraging domain adaptation via Elastic Weight Consolidation (EWC). This model aims to mitigate the catastrophic forgetting phenomenon in a domain incremental setting. The Fisher Information Matrix (FIM) is constructed with EWC to develop a regularization term that penalizes changes to important parameters, namely, the important previous knowledge. CEL's performance is evaluated on three distinct diseases, Influenza, Mpox, and Measles, with different metrics. The high R-squared values during evaluation and reevaluation outperform the other state-of-the-art models in several contexts, indicating that CEL adapts to incremental data well. CEL's robustness and reliability are underscored by its minimal 65% forgetting rate and 18% higher memory stability compared to existing benchmark studies. This study highlights CEL's versatility in disease outbreak prediction, addressing evolving data with temporal patterns. It offers a valuable model for proactive disease control with accurate, timely predictions.
翻訳日:2024-01-18 17:14:11 公開日:2024-01-17
# ICON:ジョイントポーズとラジアンスフィールド最適化のためのインクリメンタルコンフィデンス

ICON: Incremental CONfidence for Joint Pose and Radiance Field Optimization ( http://arxiv.org/abs/2401.08937v1 )

ライセンス: Link先を確認
Weiyao Wang, Pierre Gleize, Hao Tang, Xingyu Chen, Kevin J Liang, Matt Feiszli(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は2次元画像のセットを与えられたノベルビュー合成(NVS)において顕著な性能を示す。 しかし、NeRFトレーニングは、通常、Structure-from-Motion (SfM)パイプラインによって得られる、入力ビュー毎に正確なカメラポーズを必要とする。 最近の作品は、この制約を緩和しようと試みているが、多くの場合、洗練できる適切な初期ポーズに頼っている。 ここでは,ポーズ初期化の要件を取り除こうとする。 Incremental Confidence (ICON) は2次元ビデオフレームからNeRFをトレーニングするための最適化手法である。 ICONはスムーズなカメラの動きしか想定していない。 さらに、ICONでは、"`confidence"というモデル品質の適応的な尺度を導入しています。 ICONは、NeRFを学ぶために高信頼のポーズ、(NeRFによって符号化された)高信頼の3D構造を使ってポーズを学ぶ。 ICON は,初期化前のポーズを伴わず,CO3D と HO3D の両方において,SfM のポーズを用いた手法よりも優れた性能を示すことを示す。

Neural Radiance Fields (NeRF) exhibit remarkable performance for Novel View Synthesis (NVS) given a set of 2D images. However, NeRF training requires accurate camera pose for each input view, typically obtained by Structure-from-Motion (SfM) pipelines. Recent works have attempted to relax this constraint, but they still often rely on decent initial poses which they can refine. Here we aim at removing the requirement for pose initialization. We present Incremental CONfidence (ICON), an optimization procedure for training NeRFs from 2D video frames. ICON only assumes smooth camera motion to estimate initial guess for poses. Further, ICON introduces ``confidence": an adaptive measure of model quality used to dynamically reweight gradients. ICON relies on high-confidence poses to learn NeRF, and high-confidence 3D structure (as encoded by NeRF) to learn poses. We show that ICON, without prior pose initialization, achieves superior performance in both CO3D and HO3D versus methods which use SfM pose.
翻訳日:2024-01-18 17:13:12 公開日:2024-01-17
# ノイズラベルを用いたリモートセンシング画像における雲と雪の検出

Learning to detect cloud and snow in remote sensing images from noisy labels ( http://arxiv.org/abs/2401.08932v1 )

ライセンス: Link先を確認
Zili Liu, Hao Chen, Wenyuan Li, Keyan Chen, Zipeng Qi, Chenyang Liu, Zhengxia Zou, Zhenwei Shi(参考訳) リモートセンシング画像における雲や雪の検出は、リモートセンシング画像に不可欠な前処理作業である。 コンピュータビジョンにおけるセマンティックセグメンテーションモデルからインスピレーションを得ており、ほとんどの研究は検出性能を向上させるためにモデルアーキテクチャの改善に焦点を当てている。 しかし、自然画像とは異なり、シーンの複雑さとリモートセンシング画像におけるクラウドタイプの多様性は、クラウドやスノー検出データセットに多くの不正確なラベルをもたらし、トレーニングやテストプロセスに不要なノイズをもたらす。 新たなデータセットを構築し,カリキュラム学習パラダイムを用いた新たなトレーニング戦略を提案することにより,ノイズラベルへの過度な適合を抑えるモデルを導出する。 さらに,ノイズラベルによる性能評価バイアスを軽減するため,より適切なモデル性能評価手法を設計する。 unet と segformer を用いたモデル実験を行い,提案手法の有効性を検証した。 本稿では,リモートセンシング画像におけるラベルノイズが雲や雪の検出に与える影響を最初に検討した。

Detecting clouds and snow in remote sensing images is an essential preprocessing task for remote sensing imagery. Previous works draw inspiration from semantic segmentation models in computer vision, with most research focusing on improving model architectures to enhance detection performance. However, unlike natural images, the complexity of scenes and the diversity of cloud types in remote sensing images result in many inaccurate labels in cloud and snow detection datasets, introducing unnecessary noises into the training and testing processes. By constructing a new dataset and proposing a novel training strategy with the curriculum learning paradigm, we guide the model in reducing overfitting to noisy labels. Additionally, we design a more appropriate model performance evaluation method, that alleviates the performance assessment bias caused by noisy labels. By conducting experiments on models with UNet and Segformer, we have validated the effectiveness of our proposed method. This paper is the first to consider the impact of label noise on the detection of clouds and snow in remote sensing images.
翻訳日:2024-01-18 17:12:53 公開日:2024-01-17
# 拡散合成による3次元ポーズ解析

3D Human Pose Analysis via Diffusion Synthesis ( http://arxiv.org/abs/2401.08930v1 )

ライセンス: Link先を確認
Haorui Ji, Hongdong Li(参考訳) 拡散モデルは生成モデルにおいて顕著な成功を収めた。 本稿では,統合パイプラインによる3次元ポーズ解析における様々な課題に対処する新しいフレームワークであるPADS(Pose Analysis by Diffusion Synthesis)を提案する。 パッドの中心は2つの異なる戦略です 一 拡散合成プロセスを用いて、人間のポーズデータの運動的制約を効果的に捉えて、タスクに依存しないポーズを学習すること。 二 逆問題の例として、推定、完了、弁別等の複数のポーズ分析タスクを統合すること。 学習済みのポーズは、タスク固有の制約を規定する正規化として扱われ、一連の条件付き記述ステップを通じて最適化プロセスを導く。 PADSは、逆問題フレームワーク内での一般的な3次元ポーズ解析に取り組むための、初めての拡散ベースのフレームワークである。 その性能は異なるベンチマークで検証され、パイプラインの適応性と堅牢性を示している。

Diffusion models have demonstrated remarkable success in generative modeling. In this paper, we propose PADS (Pose Analysis by Diffusion Synthesis), a novel framework designed to address various challenges in 3D human pose analysis through a unified pipeline. Central to PADS are two distinctive strategies: i) learning a task-agnostic pose prior using a diffusion synthesis process to effectively capture the kinematic constraints in human pose data, and ii) unifying multiple pose analysis tasks like estimation, completion, denoising, etc, as instances of inverse problems. The learned pose prior will be treated as a regularization imposing on task-specific constraints, guiding the optimization process through a series of conditional denoising steps. PADS represents the first diffusion-based framework for tackling general 3D human pose analysis within the inverse problem framework. Its performance has been validated on different benchmarks, signaling the adaptability and robustness of this pipeline.
翻訳日:2024-01-18 17:12:35 公開日:2024-01-17
# 不確かさを意識したクラウド品質評価

Uncertainty-aware No-Reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2401.08926v1 )

ライセンス: Link先を確認
Songlin Fan, Zixuan Guo, Wei Gao, Ge Li(参考訳) 圧縮および拡張アルゴリズムの進化は、ポイントクラウドの正確な品質評価を必要とする。 従来の研究は、ポイントクラウド品質評価(PCQA)をMOS回帰問題として一貫して考慮し、主観的なテストからMOSを生成する確率性を無視した決定論的マッピングを考案した。 また,主観試験における3次元点雲の視点切り換えは,従来の画像と比較して異なる被験者の確率性が強くなる。 この研究は、既存のデータセットのラベル付けプロセスによって動機付けられた、非参照PCQAのための最初の確率的アーキテクチャを示す。 提案手法は,条件付き変分オートエンコーダ(CVAE)を用いて被験者の確率性判定品質をモデル化し,複数の中間品質評価を行う。 これらの中間格付けは、異なる被験者の判断をシミュレートし、その後、基底真理MOSの生成過程を模倣して正確な品質予測に統合する。 具体的には, 先行モジュール, 後方モジュール, 品質評価生成器を組み込んで, 前者2つのモジュールを主観的テストにおける判定確率性をモデル化し, 後者は多様な品質評価を生成するために開発された。 広範な実験は,従来の最先端手法よりも大きなマージンで勝っており,データ間ロバスト性が満足できることを示す。

The evolution of compression and enhancement algorithms necessitates an accurate quality assessment for point clouds. Previous works consistently regard point cloud quality assessment (PCQA) as a MOS regression problem and devise a deterministic mapping, ignoring the stochasticity in generating MOS from subjective tests. Besides, the viewpoint switching of 3D point clouds in subjective tests reinforces the judging stochasticity of different subjects compared with traditional images. This work presents the first probabilistic architecture for no-reference PCQA, motivated by the labeling process of existing datasets. The proposed method can model the quality judging stochasticity of subjects through a tailored conditional variational autoencoder (CVAE) and produces multiple intermediate quality ratings. These intermediate ratings simulate the judgments from different subjects and are then integrated into an accurate quality prediction, mimicking the generation process of a ground truth MOS. Specifically, our method incorporates a Prior Module, a Posterior Module, and a Quality Rating Generator, where the former two modules are introduced to model the judging stochasticity in subjective tests, while the latter is developed to generate diverse quality ratings. Extensive experiments indicate that our approach outperforms previous cutting-edge methods by a large margin and exhibits gratifying cross-dataset robustness.
翻訳日:2024-01-18 17:12:21 公開日:2024-01-17
# solid-immersion diffractive optical processorを用いたサブ波長イメージング

Subwavelength Imaging using a Solid-Immersion Diffractive Optical Processor ( http://arxiv.org/abs/2401.08923v1 )

ライセンス: Link先を確認
Jingtian Hu, Kun Liao, Niyazi Ulas Dinc, Carlo Gigli, Bijie Bai, Tianyi Gan, Xurong Li, Hanlong Chen, Xilin Yang, Yuhang Li, Cagatay Isil, Md Sadman Sakib Rahman, Jingxi Li, Xiaoyong Hu, Mona Jarrahi, Demetri Psaltis, and Aydogan Ozcan(参考訳) フェーズイメージングは、バイオメディカルイメージング、センシング、材料特性などの分野で広く用いられている。 しかし,サブ波長分解能を持つ位相物体の直接イメージングは依然として課題である。 本稿では,全光回折エンコーディングとデコードに基づく位相・振幅オブジェクトのサブ波長イメージングを示す。 物体のサブ波長特性を解決するため、差分撮像装置は、薄い高インデックスの固体浸漬層を用いて、入力の高周波情報を空気を介して伝送するための低周波空間モードに変換する空間最適化回折エンコーダにオブジェクトの高周波情報を伝送する。 その後の拡散型デコーダ層(空気中)は、ディープラーニングに基づく最適化を用いてエンコーダと共同で設計され、エンコーダ層と通信して、その出力で入力オブジェクトの拡大画像を作成し、回折限界のために洗い流されるサブ波長の特徴を明らかにする。 拡散型固体浸漬エンコーダと空気中の次のデコーダ層との全光学的協調により、入力対象のサブ波長位相と振幅特性を極めてコンパクトな設計で解決できることを実証する。 その概念実証を実験的に実証するため,テラヘルツ放射を用い,モノリシックな多層回折プロセッサの製作法を開発した。 モノリシックに作製した回折エンコーダ-デコーダペアを用いて、入力オブジェクトの位相-強度変換と全光的に再構成されたサブ波長位相特性を、直接出力時に拡大強度特徴に変換して示す。 この固体浸漬型回折撮像装置はコンパクトでコスト効率のよい設計であり、バイオイメージング、内視鏡、センシング、材料キャラクタリゼーションにおいて幅広い応用が期待できる。

Phase imaging is widely used in biomedical imaging, sensing, and material characterization, among other fields. However, direct imaging of phase objects with subwavelength resolution remains a challenge. Here, we demonstrate subwavelength imaging of phase and amplitude objects based on all-optical diffractive encoding and decoding. To resolve subwavelength features of an object, the diffractive imager uses a thin, high-index solid-immersion layer to transmit high-frequency information of the object to a spatially-optimized diffractive encoder, which converts/encodes high-frequency information of the input into low-frequency spatial modes for transmission through air. The subsequent diffractive decoder layers (in air) are jointly designed with the encoder using deep-learning-based optimization, and communicate with the encoder layer to create magnified images of input objects at its output, revealing subwavelength features that would otherwise be washed away due to diffraction limit. We demonstrate that this all-optical collaboration between a diffractive solid-immersion encoder and the following decoder layers in air can resolve subwavelength phase and amplitude features of input objects in a highly compact design. To experimentally demonstrate its proof-of-concept, we used terahertz radiation and developed a fabrication method for creating monolithic multi-layer diffractive processors. Through these monolithically fabricated diffractive encoder-decoder pairs, we demonstrated phase-to-intensity transformations and all-optically reconstructed subwavelength phase features of input objects by directly transforming them into magnified intensity features at the output. This solid-immersion-based diffractive imager, with its compact and cost-effective design, can find wide-ranging applications in bioimaging, endoscopy, sensing and materials characterization.
翻訳日:2024-01-18 17:11:55 公開日:2024-01-17
# ソフトウェア企業におけるポスト・パンデミック・ハイブリット・ワーク : 産業事例研究から

Post-Pandemic Hybrid Work in Software Companies: Findings from an Industrial Case Study ( http://arxiv.org/abs/2401.08922v1 )

ライセンス: Link先を確認
Ronnie de Souza Santos, Willian Grillo, Djafran Cabral, Catarina de Castro, Nicole Albuquerque, Cesar Fran\c{c}a(参考訳) コンテキスト。 ソフトウェアプロフェッショナルはパンデミックの間、仕事のほとんどをリモートで行うことができるという経験から学んだ。そして今やソフトウェア企業は、より柔軟性とワークライフバランスを必要とする有能なプロフェッショナルの辞任を避けるために、ハイブリッドなワークモデルを採用することが期待されている。 しかしながら、ハイブリッドワークはフレキシブルなワークアレンジメントのスペクトルであり、現在、パンデミック後の時代に追従すべき確立されたハイブリッドワークアレンジメントは存在しない。 ゴール。 ソフトウェア技術者がパンデミック後のハイブリッドな作業環境をどのように経験しているかを調査し,リモートワークと社内ワークの選択に影響する要因を理解することを目的とした。 方法。 現在、個人とチームの要求に合わせたさまざまなハイブリッド作業アレンジメントをナビゲートしている545人のソフトウェア専門家から、定量的で質的なデータを収集して、大きな南米企業を調査した。 発見。 私たちの研究は、個人の好み、仕事と生活のバランス、通勤時間、社会的相互作用、生産性など、ソフトウェア業界におけるハイブリッドワークに大きな影響を及ぼす要因を明らかにしました。 チームのダイナミクス、プロジェクト要求、クライアントの期待、組織戦略も、ソフトウェアエンジニアリングにおけるハイブリッドな作業構成の複雑な状況を形成する上で重要な役割を果たします。 結論だ まとめると、ハイブリッドワークモデルの成功は、個人の好み、チームのダイナミクス、組織戦略のバランスに依存する。 私たちの研究は、ソフトウェア産業におけるハイブリッドな仕事に対して、現在、一大の個人的アプローチは存在しないことを示した。

Context. Software professionals learned from their experience during the pandemic that most of their work can be done remotely, and now software companies are expected to adopt hybrid work models to avoid the resignation of talented professionals who require more flexibility and work-life balance. However, hybrid work is a spectrum of flexible work arrangements, and currently, there are no well-established hybrid work configurations to be followed in the post-pandemic period. Goal. We investigated how software engineers are experiencing the post-pandemic hybrid work landscape, aiming to understand the factors that influence their choices between remote and in-office work. Method. We explored a large South American company by collecting quantitative and qualitative data from 545 software professionals who are currently navigating diverse hybrid work arrangements tailored to their individual and team requirements. Findings. Our study revealed an array of factors that significantly impact hybrid work within the software industry, including individual preferences, work-life balance, commute time, social interactions, productivity, and more. Team dynamics, project demands, client expectations, and organizational strategies also play an important role in shaping the complex landscape of hybrid work configurations in software engineering. Conclusions. In summary, the success of hybrid work models depends on balancing individual preferences, team dynamics, and organizational strategies. Our study demonstrated that, at present, there is no one-size-fits-all individual approach to hybrid work in the software industry.
翻訳日:2024-01-18 17:11:26 公開日:2024-01-17
# イデムポテンスと知覚的画像圧縮

Idempotence and Perceptual Image Compression ( http://arxiv.org/abs/2401.08920v1 )

ライセンス: Link先を確認
Tongda Xu, Ziran Zhu, Dailan He, Yanghao Li, Lina Guo, Yuanyuan Wang, Zhe Wang, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang(参考訳) Idempotenceはイメージコーデックの再圧縮に対する安定性である。 一見すると、知覚的画像圧縮とは無関係である。 しかし、理論的には、 1)条件付き生成モデルに基づく知覚コーデックは、等性を満たす。 2) 等化制約付き無条件生成モデルは条件生成コーデックと等価である。 この新たな等価性に基づいて,等化制約のある非条件生成モデルを反転させることにより,知覚的イメージコーデックの新しいパラダイムを提案する。 我々のコーデックは理論的には条件付き生成コーデックと等価であり、新しいモデルの訓練を必要としない。 代わりに、訓練済みの平均二乗エラーコーデックと無条件生成モデルのみを必要とする。 実験により,提案手法は,Fr'echet Inception Distance (FID) の観点から,HiFiCやILLMといった最先端手法よりも優れていることを示す。 ソースコードはhttps://github.com/tongdaxu/Idempotence-and-Perceptual-Image-Compressionにある。

Idempotence is the stability of image codec to re-compression. At the first glance, it is unrelated to perceptual image compression. However, we find that theoretically: 1) Conditional generative model-based perceptual codec satisfies idempotence; 2) Unconditional generative model with idempotence constraint is equivalent to conditional generative codec. Based on this newfound equivalence, we propose a new paradigm of perceptual image codec by inverting unconditional generative model with idempotence constraints. Our codec is theoretically equivalent to conditional generative codec, and it does not require training new models. Instead, it only requires a pre-trained mean-square-error codec and unconditional generative model. Empirically, we show that our proposed approach outperforms state-of-the-art methods such as HiFiC and ILLM, in terms of Fr\'echet Inception Distance (FID). The source code is provided in https://github.com/tongdaxu/Idempotence-and-Perceptual-Image-Compression.
翻訳日:2024-01-18 17:10:58 公開日:2024-01-17
# 部分的発音:文脈コントラスト推論アプローチ

Partial Diacritization: A Context-Contrastive Inference Approach ( http://arxiv.org/abs/2401.08919v1 )

ライセンス: Link先を確認
Muhammad ElNokrashy, Badr AlKhamissi(参考訳) 読解は読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を果たしている。 これまでの努力は、すべての適格な文字(完全な発音)をマークすることに集中してきた。 比較的に見落とされ、部分弁別(PD)は必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。 過度なダイアクリティカルマークは、読み速度と正確さを損なう、熟練した読者を阻害する可能性がある。 行動実験を行い, 部分的にマークされたテキストは, 完全にマークされたテキストよりも読みやすく, 時には平文よりも読みやすいことを示す。 本稿では,既存のアラビア語発音システムとシームレスに統合されたPDに対する新しいアプローチとして,文脈コントラスト部分発音法(CCPD)を導入する。 CCPDは各単語を2回、文脈で1回、文脈なしで1回処理し、2つの推論に違いがある文字のみを分類する。 さらに,これを機械学習タスクとして確立するために不可欠な,部分的発音品質(SR,PDER,HDER,ERE)を測定するための新しい指標を導入する。 最後に,提案手法では,提案手法では,提案手法と他のシステムとは大きく異なるフォルマンスプロファイルを提供するトランスフォーマタントモデルであるtd2を紹介する。

Diacritization plays a pivotal role in improving readability and disambiguating the meaning of Arabic texts. Efforts have so far focused on marking every eligible character (Full Diacritization). Comparatively overlooked, Partial Diacritzation (PD) is the selection of a subset of characters to be marked to aid comprehension where needed. Research has indicated that excessive diacritic marks can hinder skilled readers--reducing reading speed and accuracy. We conduct a behavioral experiment and show that partially marked text is often easier to read than fully marked text, and sometimes easier than plain text. In this light, we introduce Context-Contrastive Partial Diacritization (CCPD)--a novel approach to PD which integrates seamlessly with existing Arabic diacritization systems. CCPD processes each word twice, once with context and once without, and diacritizes only the characters with disparities between the two inferences. Further, we introduce novel indicators for measuring partial diacritization quality (SR, PDER, HDER, ERE), essential for establishing this as a machine learning task. Lastly, we introduce TD2, a Transformer-variant of an established model which offers a markedly different per formance profile on our proposed indicators compared to all other known systems.
翻訳日:2024-01-18 17:10:43 公開日:2024-01-17
# 交通機関の専門家は、交通機関におけるAIアプリケーションの影響をどう捉えますか? 潜在クラスクラスタ分析

How do transportation professionals perceive the impacts of AI applications in transportation? A latent class cluster analysis ( http://arxiv.org/abs/2401.08915v1 )

ライセンス: Link先を確認
Yiheng Qian, Tejaswi Polimetla, Thomas W. Sanchez, Xiang Yan(参考訳) 近年では、輸送における人工知能(AI)の応用が増えている。 新しい新興技術として、aiが輸送目標を前進させ、交通セクターへの影響を最大限に発揮する可能性はまだよく分かっていない。 輸送コミュニティがこれらのトピックを探求するにつれ、AIトランスポーテーションアプリケーションの原動力である交通専門家が、AIの潜在的な効率性とエクイティの影響をどう認識するかを理解することが不可欠である。 この目標に向けて,米国の運輸専門家を対象に調査を行い,合計354の回答を得た。 調査回答に基づき,記述的分析と潜在クラスクラスタ分析(LCCA)を行った。 前者は輸送専門家の一般的な態度を概説し、後者はAIに対する潜在的な態度に基づいて、異なるセグメントの識別を可能にする。 我々は、AIが輸送の多くの側面を改善する可能性(効率性、コスト削減、旅行者体験など)について広範囲に楽観的であることを発見した。 さらに、多くの回答者は、AI倫理が輸送コミュニティではよく理解されておらず、輸送におけるAIの使用が既存の不平等を誇張するのではないかと懸念している。 LCCAを通じて、AI Neutral、AI Optimist、AI Pessimist、AI Skepticの4つの潜在セグメントを特定しました。 潜在クラスのメンバーシップは、回答者の年齢、教育レベル、AI知識レベルと大きく関連している。 全体として、研究結果は、輸送コミュニティ全体がAIシステムを活用して現在のプラクティスを変革し、ターゲットとする教育に通知し、輸送専門家のAI理解を改善する準備が整っているかを明らかにした。

Recent years have witnessed an increasing number of artificial intelligence (AI) applications in transportation. As a new and emerging technology, AI's potential to advance transportation goals and the full extent of its impacts on the transportation sector is not yet well understood. As the transportation community explores these topics, it is critical to understand how transportation professionals, the driving force behind AI Transportation applications, perceive AI's potential efficiency and equity impacts. Toward this goal, we surveyed transportation professionals in the United States and collected a total of 354 responses. Based on the survey responses, we conducted both descriptive analysis and latent class cluster analysis (LCCA). The former provides an overview of prevalent attitudes among transportation professionals, while the latter allows the identification of distinct segments based on their latent attitudes toward AI. We find widespread optimism regarding AI's potential to improve many aspects of transportation (e.g., efficiency, cost reduction, and traveler experience); however, responses are mixed regarding AI's potential to advance equity. Moreover, many respondents are concerned that AI ethics are not well understood in the transportation community and that AI use in transportation could exaggerate existing inequalities. Through LCCA, we have identified four latent segments: AI Neutral, AI Optimist, AI Pessimist, and AI Skeptic. The latent class membership is significantly associated with respondents' age, education level, and AI knowledge level. Overall, the study results shed light on the extent to which the transportation community as a whole is ready to leverage AI systems to transform current practices and inform targeted education to improve the understanding of AI among transportation professionals.
翻訳日:2024-01-18 17:10:20 公開日:2024-01-17
# 離散時間量子ウォークにおけるパロンドのパラドックス

Scouring Parrondo's Paradox in Discrete-Time Quantum Walks ( http://arxiv.org/abs/2401.08983v1 )

ライセンス: Link先を確認
Gururaj Kadiri(参考訳) コインベースの量子ウォークに基づく量子ゲームを提案する。 コインポジション合成空間上の量子ウォークとエルミート作用素が与えられたとき、このゲームに勝つには、与えられた量子ウォークが与えられたエルミート作用素の期待値が一定の値より大きい合成状態に至るような初期コイン状態を選択する必要がある。 パロンドのパラドックスは、敗戦戦略の組み合わせが勝利戦略となる現象である。 量子ステップの集合が与えられたとき、これらのステップのみを個別に構成する全ての量子ウォークで損失状態にある初期コイン状態が識別されるが、シーケンスで取られたすべてのステップからなる量子ウォークの勝利状態であることが判明するという意味で、ゲームにおけるパロンドのパラドックスを識別するための決定論的スキームを与える。 コイントウの結果に基づいて等等等級の前方および後方のステップを許容する従来の量子ステップとは異なり、ここで用いられる量子ウォークのステップは、コイントウにはまだ従属するが、ストライドが不等級であり、必ずしも反対方向ではない。 ここで提示された結果は、量子ウォークにおける観測可能物の期待値の進化の深い理解に寄与し、新しい量子アルゴリズムの開発を促進するだろう。

We propose a quantum game based on coin-based quantum walks. Given a quantum walk and a Hermitian operator on the coin-position composite space, winning this game involves choosing an initial coin state such that the given quantum walk leads to a composite state in which the expectation value of the given Hermitian operator is greater than a certain value. Parrondo's paradox is a phenomenon where a combination of losing strategies becomes a winning strategy. We give a deterministic scheme for identifying Parrondo's paradox in our game, in the sense that, given a collection of distinct quantum steps, we identify initial coin states which happen to be losing states for all quantum walks comprising solely of these steps individually, but turn out to be winning states for a quantum walk comprising of all the given steps taken in a sequence. Unlike traditional quantum steps that allow for equal magnitude forward and backward strides based on the outcome of the coin-toss, the steps of the quantum walks employed here, though still contingent upon coin-toss, permit the strides to be of unequal magnitude, and not necessarily in opposite directions. We believe the results presented here will contribute to a deeper understanding of evolution of expectation values of observables in quantum walks, and facilitate the development of novel quantum algorithms.
翻訳日:2024-01-18 17:03:38 公開日:2024-01-17
# 非パラメトリック学習における依存度と複雑性のトレードオフ - 経験的プロセスアプローチ

Trade-off Between Dependence and Complexity for Nonparametric Learning -- an Empirical Process Approach ( http://arxiv.org/abs/2401.08978v1 )

ライセンス: Link先を確認
Nabarun Deb and Debarghya Mukherjee(参考訳) i.d.観測のための経験的プロセス理論は、様々な統計問題の一般化特性を理解するためのユビキタスツールとして登場した。 しかし、データが時間的依存性(金融、医用画像、気象予報など)を示す多くのアプリケーションでは、対応する経験的プロセスがあまり理解されていない。 この観測により、標準的な$\beta/\rho$-mixingの仮定の下で、経験的過程の期待上限に一般化する。 ほとんどの先行研究と異なり、この結果は長期依存と短期依存の両方をカバーしている。 本研究の主な結果は,基礎となる関数クラスの複雑性と観察間の依存性との非自明なトレードオフが,非パラメトリック問題の学習率を特徴付けることを示した。 このトレードオフは、函数クラスが十分複雑であれば、長距離依存下であっても、i.d.設定と同じ速度を達成できるという新しい現象を明らかにしている。 固定次元および成長次元の様々な統計的推定器を解析することにより,本研究の意義を実証する。 主な例は,固定された平滑度クラス上の非パラメトリック回帰における一般化誤差境界の包括的ケーススタディ,ニューラルネットを用いた拡大次元,形状制限付き多変量凸回帰,2つの確率分布間の最適輸送(wasserstein)距離の推定,mammen-tsybakovマージン条件下での分類などである。 この過程では、l_r$ ($1\le r\le 2$)-ローカライズされた経験的プロセスの境界を従属観察で開発し、より速いレートを得るために活用する。 (a)チューニングなし適応、及び (b)設定型学習問題。

Empirical process theory for i.i.d. observations has emerged as a ubiquitous tool for understanding the generalization properties of various statistical problems. However, in many applications where the data exhibit temporal dependencies (e.g., in finance, medical imaging, weather forecasting etc.), the corresponding empirical processes are much less understood. Motivated by this observation, we present a general bound on the expected supremum of empirical processes under standard $\beta/\rho$-mixing assumptions. Unlike most prior work, our results cover both the long and the short-range regimes of dependence. Our main result shows that a non-trivial trade-off between the complexity of the underlying function class and the dependence among the observations characterizes the learning rate in a large class of nonparametric problems. This trade-off reveals a new phenomenon, namely that even under long-range dependence, it is possible to attain the same rates as in the i.i.d. setting, provided the underlying function class is complex enough. We demonstrate the practical implications of our findings by analyzing various statistical estimators in both fixed and growing dimensions. Our main examples include a comprehensive case study of generalization error bounds in nonparametric regression over smoothness classes in fixed as well as growing dimension using neural nets, shape-restricted multivariate convex regression, estimating the optimal transport (Wasserstein) distance between two probability distributions, and classification under the Mammen-Tsybakov margin condition -- all under appropriate mixing assumptions. In the process, we also develop bounds on $L_r$ ($1\le r\le 2$)-localized empirical processes with dependent observations, which we then leverage to get faster rates for (a) tuning-free adaptation, and (b) set-structured learning problems.
翻訳日:2024-01-18 17:03:12 公開日:2024-01-17
# FedLoGe: 長期データに基づくローカルとジェネリックのフェデレーションラーニング

FedLoGe: Joint Local and Generic Federated Learning under Long-tailed Data ( http://arxiv.org/abs/2401.08977v1 )

ライセンス: Link先を確認
Zikai Xiao, Zihan Chen, Liyinglan Liu, Yang Feng, Jian Wu, Wanlu Liu, Joey Tianyi Zhou, Howard Hao Yang, Zuozhu Liu(参考訳) 分散型長期学習(Federated Long-Tailed Learning, Fed-LT)は、分散化されたローカルクライアントから収集したデータが、グローバルに普及している長期分布を示すパラダイムであり、近年注目されている。 Fed-LTの文脈では、既存の研究は主にデータ不均衡の問題に対処し、局所レベルでの性能を無視しながら、ジェネリックグローバルモデルの有効性を高めることに集中している。 対照的に、従来のパーソナライズド・フェデレート・ラーニング(pFL)技術は主に、バランスの取れたグローバルなデータ分布を前提として、パーソナライズされたローカルモデルを最適化するために考案されている。 本稿では,federated local and generic model training in fed-lt(federated local and generic model training in fed-lt, fedloge)という手法を提案する。 本研究は、グローバルトレンドを包含するための基盤的フレームワークとして共有バックボーンを採用することの実現可能性を明らかにし、同時に各クライアントのローカルな特徴から生じる異なる細分化をカプセル化するために個別の分類器を併用する。 この発見に基づいて、我々は、自然に外因性ノイズの特徴を誘発し、強力なデータ表現の獲得を促進する神経崩壊原理にインスパイアされた静的スパース等角フレーム分類器(SSE-C)を確立する。 さらに、不均衡な神経崩壊の分類基準パターンからの洞察を活用し、補助的グローバル分類器とユークリッド標準転送を用いてグローバル特徴をクライアントの好みと整合させるグローバル・ローカル適応特徴調整(GLA-FR)を開発する。 CIFAR-10/100-LT, ImageNet, iNaturalistの大規模な実験結果から, 最先端のpFLおよびFed-LTアプローチに対する本手法の利点が示された。

Federated Long-Tailed Learning (Fed-LT), a paradigm wherein data collected from decentralized local clients manifests a globally prevalent long-tailed distribution, has garnered considerable attention in recent times. In the context of Fed-LT, existing works have predominantly centered on addressing the data imbalance issue to enhance the efficacy of the generic global model while neglecting the performance at the local level. In contrast, conventional Personalized Federated Learning (pFL) techniques are primarily devised to optimize personalized local models under the presumption of a balanced global data distribution. This paper introduces an approach termed Federated Local and Generic Model Training in Fed-LT (FedLoGe), which enhances both local and generic model performance through the integration of representation learning and classifier alignment within a neural collapse framework. Our investigation reveals the feasibility of employing a shared backbone as a foundational framework for capturing overarching global trends, while concurrently employing individualized classifiers to encapsulate distinct refinements stemming from each client's local features. Building upon this discovery, we establish the Static Sparse Equiangular Tight Frame Classifier (SSE-C), inspired by neural collapse principles that naturally prune extraneous noisy features and foster the acquisition of potent data representations. Furthermore, leveraging insights from imbalance neural collapse's classifier norm patterns, we develop Global and Local Adaptive Feature Realignment (GLA-FR) via an auxiliary global classifier and personalized Euclidean norm transfer to align global features with client preferences. Extensive experimental results on CIFAR-10/100-LT, ImageNet, and iNaturalist demonstrate the advantage of our method over state-of-the-art pFL and Fed-LT approaches.
翻訳日:2024-01-18 17:02:38 公開日:2024-01-17
# ACT-GAN: ACTブロックを持つ生成逆ネットワークに基づく無線地図構築

ACT-GAN: Radio map construction based on generative adversarial networks with ACT blocks ( http://arxiv.org/abs/2401.08976v1 )

ライセンス: Link先を確認
Chen Qi, Yang Jingjing, Huang Ming, Zhou Qiang(参考訳) 電波マップは、電磁空間特性の視覚的表現として機能し、無線通信ネットワークの評価と無線監視のカバレッジにおいて重要な役割を果たす。 本稿では、現在の無線地図構築における低精度の課題に対処するため、AOTブロック、CBAMブロック、T-Convブロックを発生器に適用し、ACT-GANと命名した、生成逆数ネットワーク(GAN)に基づく新しい無線地図構築手法を提案する。 ラジオ地図の再現精度と局所テクスチャを大幅に向上させる。 ACT-GANの3つの異なるシナリオにおける性能を示す。 実験結果から, 離散観測の少ないシナリオでは, 提案手法は最先端モデルと比較して, 根平均二乗誤差(RMSE)を14.6%削減することがわかった。 離散的な観測の少ないシナリオでは、RMSEは13.2%減少する。 さらに, 提案モデルの予測結果から, 電磁場分布のより明快な表現が得られた。 無線地図構築作業におけるこのモデルの普遍性を検証するため,未知の電波源のシナリオを調査した。 その結果,提案モデルがロバストな電波マップ構成であり,放射源の位置を予測できることがわかった。

The radio map, serving as a visual representation of electromagnetic spatial characteristics, plays a pivotal role in assessment of wireless communication networks and radio monitoring coverage. Addressing the issue of low accuracy existing in the current radio map construction, this paper presents a novel radio map construction method based on generative adversarial network (GAN) in which the Aggregated Contextual-Transformation (AOT) block, Convolutional Block Attention Module (CBAM), and Transposed Convolution (T-Conv) block are applied to the generator, and we name it as ACT-GAN. It significantly improves the reconstruction accuracy and local texture of the radio maps. The performance of ACT-GAN across three different scenarios is demonstrated. Experiment results reveal that in the scenario without sparse discrete observations, the proposed method reduces the root mean square error (RMSE) by 14.6% in comparison to the state-of-the-art models. In the scenario with sparse discrete observations, the RMSE is diminished by 13.2%. Furthermore, the predictive results of the proposed model show a more lucid representation of electromagnetic spatial field distribution. To verify the universality of this model in radio map construction tasks, the scenario of unknown radio emission source is investigated. The results indicate that the proposed model is robust radio map construction and accurate in predicting the location of the emission source.
翻訳日:2024-01-18 17:02:03 公開日:2024-01-17
# OCTO+:複合現実感におけるオープン語彙オブジェクトの自動配置のためのスイート

OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality ( http://arxiv.org/abs/2401.08973v1 )

ライセンス: Link先を確認
Aditya Sharma, Luke Yoffe, Tobias H\"ollerer(参考訳) Augmented Realityの重要な課題は、自然の場所に仮想コンテンツを置くことだ。 既存の自動化技術のほとんどは、クローズド・ボカブラリーで固定されたオブジェクトセットでのみ機能する。 本稿では,近年のオープン語彙視覚言語モデルによるオブジェクトの自動配置手法を紹介し,評価する。 多面的評価により,新しい最先端手法OCTO+を同定する。 また,拡張現実における仮想物体の位置を自動的に評価するベンチマークも導入し,コストのかかるユーザ研究の必要性を緩和する。 これにより、OCTO+は、人間の評価に加えて、70%以上の有効領域にオブジェクトを配置し、様々な指標で他の手法よりも優れていることが分かる。

One key challenge in Augmented Reality is the placement of virtual content in natural locations. Most existing automated techniques can only work with a closed-vocabulary, fixed set of objects. In this paper, we introduce and evaluate several methods for automatic object placement using recent advances in open-vocabulary vision-language models. Through a multifaceted evaluation, we identify a new state-of-the-art method, OCTO+. We also introduce a benchmark for automatically evaluating the placement of virtual objects in augmented reality, alleviating the need for costly user studies. Through this, in addition to human evaluations, we find that OCTO+ places objects in a valid region over 70% of the time, outperforming other methods on a range of metrics.
翻訳日:2024-01-18 17:01:39 公開日:2024-01-17
# 1対1会話における表情の聴覚損失検出

Hearing Loss Detection from Facial Expressions in One-on-one Conversations ( http://arxiv.org/abs/2401.08972v1 )

ライセンス: Link先を確認
Yufeng Yin, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Stavros Petridis, Yu-Hsiang Wu, Christi Miller(参考訳) 聴覚障害のある人は、特に騒々しい環境では会話が困難である。 この困難はしばしば行動の変化として現れ、不快感や疲労の表現のような表情で捉えられる。 本研究は、このアイデアに基づいて、会話中の個人の表情から聴覚障害を検出する問題を提起する。 聴覚関連の表情変化を表現できる機械学習モデルの構築は難しい課題である。 さらに、モデルは聴覚による表現から年齢関連の急激な相関関係を解き放つ必要がある。 そこで本研究では,表現変動のモデル化に適した自己教師付き事前学習戦略を提案する。 また,年齢バイアスを軽減するために,対向表現学習を用いる。 本研究では,難聴者を含む現実の会話シナリオを持つ大規模自我中心型データセットに対するアプローチを評価し,聴力障害検出手法がベースラインよりも優れた性能を実現することを示す。

Individuals with impaired hearing experience difficulty in conversations, especially in noisy environments. This difficulty often manifests as a change in behavior and may be captured via facial expressions, such as the expression of discomfort or fatigue. In this work, we build on this idea and introduce the problem of detecting hearing loss from an individual's facial expressions during a conversation. Building machine learning models that can represent hearing-related facial expression changes is a challenge. In addition, models need to disentangle spurious age-related correlations from hearing-driven expressions. To this end, we propose a self-supervised pre-training strategy tailored for the modeling of expression variations. We also use adversarial representation learning to mitigate the age bias. We evaluate our approach on a large-scale egocentric dataset with real-world conversational scenarios involving subjects with hearing loss and show that our method for hearing loss detection achieves superior performance over baselines.
翻訳日:2024-01-18 17:01:27 公開日:2024-01-17
# COCOは、ビジュアルインストラクションの微調整に必要な「すべて」

COCO is "ALL'' You Need for Visual Instruction Fine-tuning ( http://arxiv.org/abs/2401.08968v1 )

ライセンス: Link先を確認
Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang(参考訳) MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。 ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。 高品質で多様なデータに基づく命令が、この微調整プロセスの鍵となる。 近年の研究では、既存のデータセットをルールベースのテンプレートで変換し、アノテーションの書き直しにGPT-4を、ビジュアルデータセットの擬似ラベルにGPT-4Vを活用する、多面的アプローチによる視覚IFTデータセットの構築が提案されている。 LLaVA-1.5も同様のアプローチを採用し、LLaVA-mix-665kを構築した。 特に、このデータセットを適切に微調整すると、MLLMはいくつかのベンチマークで最先端のパフォーマンスを達成できる。 しかし、このデータセットでトレーニングされたモデルは、マルチラウンドダイアログで適切にユーザー指示に従うのに苦労していることに気付きました。 さらに, 従来のキャプションとVQA評価ベンチマークは, そのクローズドフォーム評価構造とともに, 現代のオープンエンド生成MLLMの能力を評価するために完全には装備されていない。 この問題はLLaVA-mix-665kデータセットに固有のものではないが、画像キャプションやVQAソースから構築された全てのIFTデータセットで潜在的な問題となる可能性がある。 MLLMのIFTには,アノテーションによる多様で高品質な詳細な命令を持つデータセットが不可欠である。 本研究では,COCOデータセットから取得した画像と,より多様なインストラクションを備えた新しいIFTデータセットを確立する。 提案したデータセットを微調整すると,MLLMは単一ラウンドおよび複数ラウンドのダイアログ設定において,オープンエンド評価ベンチマークの性能が向上することを示す。

Multi-modal Large Language Models (MLLMs) are increasingly prominent in the field of artificial intelligence. Visual instruction fine-tuning (IFT) is a vital process for aligning MLLMs' output with user's intentions. High-quality and diversified instruction following data is the key to this fine-tuning process. Recent studies propose to construct visual IFT datasets through a multifaceted approach: transforming existing datasets with rule-based templates, employing GPT-4 for rewriting annotations, and utilizing GPT-4V for visual dataset pseudo-labeling. LLaVA-1.5 adopted similar approach and construct LLaVA-mix-665k, which is one of the simplest, most widely used, yet most effective IFT datasets today. Notably, when properly fine-tuned with this dataset, MLLMs can achieve state-of-the-art performance on several benchmarks. However, we noticed that models trained with this dataset often struggle to follow user instructions properly in multi-round dialog. In addition, tradition caption and VQA evaluation benchmarks, with their closed-form evaluation structure, are not fully equipped to assess the capabilities of modern open-ended generative MLLMs. This problem is not unique to the LLaVA-mix-665k dataset, but may be a potential issue in all IFT datasets constructed from image captioning or VQA sources, though the extent of this issue may vary. We argue that datasets with diverse and high-quality detailed instruction following annotations are essential and adequate for MLLMs IFT. In this work, we establish a new IFT dataset, with images sourced from the COCO dataset along with more diverse instructions. Our experiments show that when fine-tuned with out proposed dataset, MLLMs achieve better performance on open-ended evaluation benchmarks in both single-round and multi-round dialog setting.
翻訳日:2024-01-18 17:01:15 公開日:2024-01-17
# ReFT:強化ファインチューニングによる推論

ReFT: Reasoning with Reinforced Fine-Tuning ( http://arxiv.org/abs/2401.08967v1 )

ライセンス: Link先を確認
Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li(参考訳) LLM(Large Language Models)の推論能力を高める方法の1つは、Chain-of-Thought(CoT)アノテーションを使用して、Supervised Fine-Tuning(SFT)を実行することである。 このアプローチは、与えられたCoTデータのみに依存するため、十分に強力な一般化能力を示すものではない。 例えば、数学の問題解決では、通常、トレーニングデータには各質問に対する注釈付き推論パスが1つしかない。 直観的には、アルゴリズムが与えられた質問に対して、複数の注釈付き推論パスから学ぶ方がよいでしょう。 この問題に対処するため,我々は,数学問題解決を例に,推論のための学習用llmの一般化可能性を高めるための強化微調整(reft)と呼ばれる,単純かつ効果的な手法を提案する。 reft氏はまず、モデルをsftでウォームアップし、その後、オンライン強化学習(特に本論文のppoアルゴリズム)を使用して、質問に対して大量の推論パスが自動的にサンプリングされ、報酬が自然に地上の回答から得られるモデルをさらに微調整する。 GSM8K、MathQA、SVAMPデータセットの大規模な実験により、ReFTはSFTを著しく上回り、多数決や再選といった推論時戦略を組み合わせることで、パフォーマンスをさらに向上させることができる。 reftは、追加のトレーニング質問や追加のトレーニング質問に頼ることなく、sftと同じトレーニング質問から学習することで改善を得る。 これはReFTの優れた一般化能力を示している。

One way to enhance the reasoning capability of Large Language Models (LLMs) is to conduct Supervised Fine-Tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong generalization ability, however, because the training only relies on the given CoT data. In math problem-solving, for example, there is usually only one annotated reasoning path for each question in the training data. Intuitively, it would be better for the algorithm to learn from multiple annotated reasoning paths given a question. To address this issue, we propose a simple yet effective approach called Reinforced Fine-Tuning (ReFT) to enhance the generalizability of learning LLMs for reasoning, with math problem-solving as an example. ReFT first warmups the model with SFT, and then employs on-line reinforcement learning, specifically the PPO algorithm in this paper, to further fine-tune the model, where an abundance of reasoning paths are automatically sampled given the question and the rewards are naturally derived from the ground-truth answers. Extensive experiments on GSM8K, MathQA, and SVAMP datasets show that ReFT significantly outperforms SFT, and the performance can be potentially further boosted by combining inference-time strategies such as majority voting and re-ranking. Note that ReFT obtains the improvement by learning from the same training questions as SFT, without relying on extra or augmented training questions. This indicates a superior generalization ability for ReFT.
翻訳日:2024-01-18 17:00:46 公開日:2024-01-17
# 曲面上のスピン軌道トルク

Spin Orbit Torque on a Curved Surface ( http://arxiv.org/abs/2401.08966v1 )

ライセンス: Link先を確認
Seng Ghee Tan, Che Chun Huang, Mansoor B.A.Jalil, Zhuobin Siu(参考訳) 2次元曲面上のスピン軌道結合の一般的な定式化を提供する。 スピノル系凝縮体物理学におけるスピン軌道効果の幅広い応用性を考えると、一般スピン軌道定式化はスピントロニクス、ディラックグラフェン、トポロジカルシステム、曲面上の量子情報の研究に役立つかもしれない。 特に注目されるのは、スピン軌道トルクとして知られる重要なスピン軌道量の開発である。 デバイスが次元が小さくなるにつれて、スピン軌道トルク上の局所幾何学の物理学が無視されることはない。 曲面のスピン軌道異方性場の一般表現を導出し,球面,円筒面,平面座標の特別な文脈で明示解を与えた。 我々の式はスピン軌道の異方性場を許容し、したがってスピン軌道トルクは任意の形状のデバイスの表面全体にわたって計算できる。

We provide a general formulation of the spin-orbit coupling on a 2D curved surface. Considering the wide applicability of spin-orbit effect in spinor-based condensed matter physics, a general spin-orbit formulation could aid the study of spintronics, Dirac graphene, topological systems, and quantum information on curved surfaces. Particular attention is then devoted to the development of an important spin-orbit quantity known as the spin-orbit torque. As devices trend smaller in dimension, the physics of local geometries on spin-orbit torque, hence spin and magnetic dynamics shall not be neglected. We derived the general expression of a spin-orbit anisotropy field for the curved surfaces and provided explicit solutions in the special contexts of the spherical, cylindrical and flat coordinates. Our expressions allow spin-orbit anisotropy fields and hence spin-orbit torque to be computed over the entire surfaces of devices of any geometry.
翻訳日:2024-01-18 17:00:18 公開日:2024-01-17
# モバイル/組み込みデバイス上での効率的な推論のための動的DNNと実行管理

Dynamic DNNs and Runtime Management for Efficient Inference on Mobile/Embedded Devices ( http://arxiv.org/abs/2401.08965v1 )

ライセンス: Link先を確認
Lei Xun, Jonathon Hare, Geoff V. Merrett(参考訳) レイテンシ、プライバシ、常時オンの可用性にいくつかの大きなメリットがあるため、モバイルおよび組み込みプラットフォームでは、ディープニューラルネットワーク(DNN)推論がますます実行されている。 しかし、限られたコンピューティングリソースのため、モバイルおよび組み込みプラットフォームでの効率的なDNNデプロイメントは困難である。 多くのハードウェアアクセラレータと静的モデル圧縮手法が以前の研究によって提案されたが、システムランタイムでは、複数のアプリケーションが並列に実行され、ハードウェアリソースと競合することが多い。 これにより、実行時ハードウェアアベイラビリティと実行時アプリケーション変数という2つの大きな課題が提起される。 これまでの研究は、異なるパフォーマンストレードオフを持つサブネットワークを含む動的ニューラルネットワークや、実行時のハードウェアリソース管理を通じて、これらの課題に対処してきた。 そこで本論文では,dnnの性能トレードオフ管理のためのシステムとして,動的に変化するアプリケーション性能目標とハードウェア制約をリアルタイムに満たすために,アルゴリズムとハードウェアの両方のランタイムトレードオフを組み合わせる手法を提案する。 ヘテロジニアスハードウェアプラットフォーム上でのランタイムシステムレベルの性能とエネルギー効率を最大化する新しいDynamic Super-Networksを共同開発した。 SOTAと比較すると、Jetson Xavier NXのGPU上でのImageNetを用いた実験結果は、類似のImageNet Top-1精度で2.4倍、類似のレイテンシで5.1%高速であることを示している。 また、動的ニューラルネットワークとDVFSの両方を実行時にチューニングする階層型ランタイムリソースマネージャも設計しました。 Linux DVFS Governor schedutilと比較して、我々のランタイムアプローチは、単一モデルデプロイメントシナリオで19%のエネルギー削減と9%のレイテンシ削減を実現し、2つの並列モデルデプロイメントシナリオで89%のエネルギー削減と23%のレイテンシ削減を実現しています。

Deep neural network (DNN) inference is increasingly being executed on mobile and embedded platforms due to several key advantages in latency, privacy and always-on availability. However, due to limited computing resources, efficient DNN deployment on mobile and embedded platforms is challenging. Although many hardware accelerators and static model compression methods were proposed by previous works, at system runtime, multiple applications are typically executed concurrently and compete for hardware resources. This raises two main challenges: Runtime Hardware Availability and Runtime Application Variability. Previous works have addressed these challenges through either dynamic neural networks that contain sub-networks with different performance trade-offs or runtime hardware resource management. In this thesis, we proposed a combined method, a system was developed for DNN performance trade-off management, combining the runtime trade-off opportunities in both algorithms and hardware to meet dynamically changing application performance targets and hardware constraints in real time. We co-designed novel Dynamic Super-Networks to maximise runtime system-level performance and energy efficiency on heterogeneous hardware platforms. Compared with SOTA, our experimental results using ImageNet on the GPU of Jetson Xavier NX show our model is 2.4x faster for similar ImageNet Top-1 accuracy, or 5.1% higher accuracy at similar latency. We also designed a hierarchical runtime resource manager that tunes both dynamic neural networks and DVFS at runtime. Compared with the Linux DVFS governor schedutil, our runtime approach achieves up to a 19% energy reduction and a 9% latency reduction in single model deployment scenario, and an 89% energy reduction and a 23% latency reduction in a two concurrent model deployment scenario.
翻訳日:2024-01-18 17:00:00 公開日:2024-01-17
# DOO-RE: 活動認識のための会議室における環境センサのデータセット

DOO-RE: A dataset of ambient sensors in a meeting room for activity recognition ( http://arxiv.org/abs/2401.08962v1 )

ライセンス: Link先を確認
Hyunju Kim and Geon Kim and Taehoon Lee and Kisoo Kim and Dongman Lee(参考訳) iot技術の進歩により、マシンラーニングメソッドによるユーザアクティビティの認識は、ユーザにさまざまなスマートサービスを提供する有望な方法である。 プライバシー保護を備えた高品質なデータは、そのようなサービスを現実世界に展開する上で不可欠である。 周囲のセンサーからのデータストリームは、その要件に適しています。 既存の環境センサデータセットは制約付きプライベートスペースのみをサポートしており、その研究への関心が高まりつつも、パブリックスペース向けのデータセットはまだ検討されていない。 このニーズを満たすために,環境センサを備えた会議室から収集したデータセットを構築する。 データセットであるDOO-REには、SoundやProjectorなど、さまざまな環境センサタイプのデータストリームが含まれている。 各センサデータストリームはアクティビティユニットにセグメント化され、複数アノテータはクロスバリデーションアノテーションプロセスを通じてアクティビティラベルを提供し、アノテーションの品質を向上させる。 最終的に9種類の活動を得る。 私たちの知る限りでは、DOO-REは信頼できるアノテーションを備えた実際の会議室で、シングルアクティビティとグループアクティビティの両方の認識をサポートする最初のデータセットです。

With the advancement of IoT technology, recognizing user activities with machine learning methods is a promising way to provide various smart services to users. High-quality data with privacy protection is essential for deploying such services in the real world. Data streams from surrounding ambient sensors are well suited to the requirement. Existing ambient sensor datasets only support constrained private spaces and those for public spaces have yet to be explored despite growing interest in research on them. To meet this need, we build a dataset collected from a meeting room equipped with ambient sensors. The dataset, DOO-RE, includes data streams from various ambient sensor types such as Sound and Projector. Each sensor data stream is segmented into activity units and multiple annotators provide activity labels through a cross-validation annotation process to improve annotation quality. We finally obtain 9 types of activities. To our best knowledge, DOO-RE is the first dataset to support the recognition of both single and group activities in a real meeting room with reliable annotations.
翻訳日:2024-01-18 16:59:29 公開日:2024-01-17
# カスケード強化学習

Cascading Reinforcement Learning ( http://arxiv.org/abs/2401.08961v1 )

ライセンス: Link先を確認
Yihan Du, R. Srikant, Wei Chen(参考訳) cascading banditsは、レコメンデーションシステムやオンライン広告に適用できるため、近年人気を集めている。 カスケーディング・バンディット・モデルでは、各段階においてエージェントはアイテムのプールからアイテムの順序付きサブセット(アイテムリストと呼ばれる)を推奨し、それぞれが未知のアトラクション確率に関連付けられている。 そして、ユーザがリストを調べて、最初の魅力的なアイテム(もしあれば)をクリックし、その後、エージェントは報酬を受け取る。 エージェントの目標は、期待される累積報酬を最大化することです。 しかし、カスケードの盗賊に関する以前の文献は、セッションが進むにつれて、レコメンデーションや状態の変化に対するユーザー状態(例えば歴史的な行動)の影響を無視している。 この事実を動機として,ユーザ状態と状態遷移が意思決定に与える影響を考慮し,一般化されたカスケードRLフレームワークを提案する。 カスケードRLでは、大きなアトラクション確率を持つだけでなく、優れた後継状態につながる項目を選択する必要がある。 これは組合せ作用空間のために大きな計算上の困難を課す。 この課題に対処するため、我々は値関数の特性を調べ、最適な項目リストを効率的に見つけるためにBestPermを設計します。 BestPermを組み込んだCascadingVIとCascadingBPIの2つのアルゴリズムを開発した。 さらに,既存のrlアルゴリズムの直接適応と比較して,アルゴリズムの計算効率およびサンプル効率が向上することを示す実験を行った。

Cascading bandits have gained popularity in recent years due to their applicability to recommendation systems and online advertising. In the cascading bandit model, at each timestep, an agent recommends an ordered subset of items (called an item list) from a pool of items, each associated with an unknown attraction probability. Then, the user examines the list, and clicks the first attractive item (if any), and after that, the agent receives a reward. The goal of the agent is to maximize the expected cumulative reward. However, the prior literature on cascading bandits ignores the influences of user states (e.g., historical behaviors) on recommendations and the change of states as the session proceeds. Motivated by this fact, we propose a generalized cascading RL framework, which considers the impact of user states and state transition into decisions. In cascading RL, we need to select items not only with large attraction probabilities but also leading to good successor states. This imposes a huge computational challenge due to the combinatorial action space. To tackle this challenge, we delve into the properties of value functions, and design an oracle BestPerm to efficiently find the optimal item list. Equipped with BestPerm, we develop two algorithms CascadingVI and CascadingBPI, which are both computationally-efficient and sample-efficient, and provide near-optimal regret and sample complexity guarantees. Furthermore, we present experiments to show the improved computational and sample efficiencies of our algorithms compared to straightforward adaptations of existing RL algorithms in practice.
翻訳日:2024-01-18 16:59:12 公開日:2024-01-17
# ユーザ調査からテレメトリ駆動エージェントへ:パーソナライズされた生産性ソリューションの可能性を探る

From User Surveys to Telemetry-Driven Agents: Exploring the Potential of Personalized Productivity Solutions ( http://arxiv.org/abs/2401.08960v1 )

ライセンス: Link先を確認
Subigya Nepal, Javier Hernandez, Talie Massachi, Kael Rowan, Judith Amores, Jina Suh, Gonzalo Ramos, Brian Houck, Shamsi T. Iqbal, Mary Czerwinski(参考訳) aiベースの生産性エージェントの好みを理解し,ユーザのニーズに合わせてパーソナライズしたソリューションを開発するための,包括的でユーザ中心のアプローチを提案する。 まず,2段階の手法を用いて,生産性,コミュニケーションスタイル,エージェントアプローチ,パーソナライゼーション特性,パーソナライゼーション,プライバシのさまざまな側面を調査し,363名の参加者を対象に調査を行った。 調査結果に基づいて,情報労働者から収集したテレメトリデータを利用して,GPT-4を活用した個人化された生産性エージェントを開発した。 40名の参加者を対象に,そのパフォーマンスをダッシュボードやナラティブといった生産性向上ツールと比較した。 本研究は,ai支援生産性ツールにおけるユーザ中心のデザイン,適応性,パーソナライゼーションとプライバシのバランスの重要性を浮き彫りにする。 私たちの研究から得られた洞察に基づいて、我々の研究が将来の研究を可能にし、生産性ソリューションをさらに強化し、最終的には情報労働者の効率とユーザーエクスペリエンスを最適化できると信じています。

We present a comprehensive, user-centric approach to understand preferences in AI-based productivity agents and develop personalized solutions tailored to users' needs. Utilizing a two-phase method, we first conducted a survey with 363 participants, exploring various aspects of productivity, communication style, agent approach, personality traits, personalization, and privacy. Drawing on the survey insights, we developed a GPT-4 powered personalized productivity agent that utilizes telemetry data gathered via Viva Insights from information workers to provide tailored assistance. We compared its performance with alternative productivity-assistive tools, such as dashboard and narrative, in a study involving 40 participants. Our findings highlight the importance of user-centric design, adaptability, and the balance between personalization and privacy in AI-assisted productivity tools. By building on the insights distilled from our study, we believe that our work can enable and guide future research to further enhance productivity solutions, ultimately leading to optimized efficiency and user experiences for information workers.
翻訳日:2024-01-18 16:58:44 公開日:2024-01-17
# 人的フィードバックによるランク付け政策の非政策強化学習に向けて

Towards Off-Policy Reinforcement Learning for Ranking Policies with Human Feedback ( http://arxiv.org/abs/2401.08959v1 )

ライセンス: Link先を確認
Teng Xiao, Suhang Wang(参考訳) ランク付けのための確率論的学習(LTR)は、ランク付け基準を最適化するための支配的なアプローチであるが、長期的な報酬を最大化することはできない。 逐次的な意思決定問題として推奨を定式化することで,ユーザの長期報酬を最大化する強化学習モデルが提案されているが,オンラインインタラクションの欠如やランキングの特徴から,LTRに比べて精度が劣っている。 本稿では,ユーザの長期報酬を同時に最大化し,評価基準をオフラインに最適化し,統一期待値最大化(EM)フレームワークでサンプル効率を向上させるための新しいオフポリチック値ランキング(VR)アルゴリズムを提案する。 理論的および実証的に、emプロセスがリーンポリシーを導くことによって、将来の報酬とランク付け指標の統合のメリットを享受し、オンラインインタラクションなしで学習できることを示します。 大規模なオフラインおよびオンライン実験により,本手法の有効性が示された。

Probabilistic learning to rank (LTR) has been the dominating approach for optimizing the ranking metric, but cannot maximize long-term rewards. Reinforcement learning models have been proposed to maximize user long-term rewards by formulating the recommendation as a sequential decision-making problem, but could only achieve inferior accuracy compared to LTR counterparts, primarily due to the lack of online interactions and the characteristics of ranking. In this paper, we propose a new off-policy value ranking (VR) algorithm that can simultaneously maximize user long-term rewards and optimize the ranking metric offline for improved sample efficiency in a unified Expectation-Maximization (EM) framework. We theoretically and empirically show that the EM process guides the leaned policy to enjoy the benefit of integration of the future reward and ranking metric, and learn without any online interactions. Extensive offline and online experiments demonstrate the effectiveness of our methods.
翻訳日:2024-01-18 16:58:24 公開日:2024-01-17
# SWBT:ロボットマニピュレーションのための不完全なデモによる類似重み付き動作変換器

SWBT: Similarity Weighted Behavior Transformer with the Imperfect Demonstration for Robotic Manipulation ( http://arxiv.org/abs/2401.08957v1 )

ライセンス: Link先を確認
Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che, Zhiyuan Xu, Qinru Qiu, Jian Tang(参考訳) 模倣学習(il)は,ロボット操作タスクにおいて最適な制御方針を学習することを目的としている。 しかし、従来のIL手法では、高価な専門家によるデモンストレーションのみを使用し、不完全なデモを省略するか、環境とのインタラクションやオンライン体験からの学習に依存していた。 ロボット操作の文脈では,上記の2つの課題を克服し,類似度重み付け動作変換器(swbt)と呼ばれる新しい枠組みを提案する。 SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。 我々は,フォワードや逆ダイナミクスといった不完全なデモンストレーションが,実りある情報を学習することでネットワークを著しく強化することを明らかにする。 我々の知る限りでは、ロボット操作タスクのためのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みは、私たちは初めてである。 高精度サピエンシミュレータと実世界のロボット操作タスクで構築されたmaniskill2ベンチマークの広範な実験により、提案手法は優れた特徴を抽出し、すべてのタスクの成功率を向上させることができることが示された。 私たちのコードは論文を受理して公表します。

Imitation learning (IL), aiming to learn optimal control policies from expert demonstrations, has been an effective method for robot manipulation tasks. However, previous IL methods either only use expensive expert demonstrations and omit imperfect demonstrations or rely on interacting with the environment and learning from online experiences. In the context of robotic manipulation, we aim to conquer the above two challenges and propose a novel framework named Similarity Weighted Behavior Transformer (SWBT). SWBT effectively learn from both expert and imperfect demonstrations without interaction with environments. We reveal that the easy-to-get imperfect demonstrations, such as forward and inverse dynamics, significantly enhance the network by learning fruitful information. To the best of our knowledge, we are the first to attempt to integrate imperfect demonstrations into the offline imitation learning setting for robot manipulation tasks. Extensive experiments on the ManiSkill2 benchmark built on the high-fidelity Sapien simulator and real-world robotic manipulation tasks demonstrated that the proposed method can extract better features and improve the success rates for all tasks. Our code will be released upon acceptance of the paper.
翻訳日:2024-01-18 16:58:05 公開日:2024-01-17
# 完全準同型暗号

Exact Homomorphic Encryption ( http://arxiv.org/abs/2401.09027v1 )

ライセンス: Link先を確認
Zheng-Yao Su and Ming-Chung Tsai(参考訳) 本稿では, フォールトトレランス量子計算の概念に着想を得て, 事前復号化を必要とせずに, 暗号化データの正確な計算を可能にする, Exact Homomorphic Encryption, EHEというフレームワークを提案する。 量子ゲートの導入は、メッセージ暗号化とフレームワーク内の計算暗号化を構築する上で重要なステップである。 重要な点は、両暗号化はそれぞれ量子ゲートによって生成される多変量多項式集合で達成されるということである。 量子ゲートの2つの基本的な特性、可逆性と非可換性はeheの成功を確立する。 非可逆ゲートの使用により、暗号化されたメッセージと暗号化された計算の両方の正確な復号化が可能になる。 暗号化計算は、その暗号化変換が可逆ゲートで実行されるため、正確である。 応用量子ゲート間の非可換性の第二の特徴は、2つの暗号化のセキュリティをもたらす。 メッセージ暗号化において、非交換ゲートの積がランダムに選択した多項式セットを介して、平文を暗号文に符号化する。 計算暗号化に向けて、所望の演算を非可換ゲートの別の積によって生成される暗号化多項式集合に符号化する。 暗号化された計算は暗号文上の暗号化された多項式集合の評価であり、暗号評価と呼ばれる。 eheは量子コンピュータだけでなく、従来のコンピューティング環境でも簡単に実現できます。 量子レジリエンスの標準的なセキュリティ2^128を越えると、暗号は提案されたしきい値2^1024以上のセキュリティに達し、超量子レジリエントとして特徴づけられる。 量子ゲートの2つの本質的な特徴により、この枠組みは非可換暗号の概念の最初の有形な表現と見なすことができる。

Inspired by the concept of fault tolerance quantum computation, this article proposes a framework dubbed Exact Homomorphic Encryption, EHE, enabling exact computations on encrypted data without the need for pre-decryption. The introduction of quantum gates is a critical step in constructing the message encryption and the computation encryption within the framework. Of significance is that both encryptions are respectively accomplished in a multivariate polynomial set generated by quantum gates. Two fundamental traits of quantum gates, the invertibility and the noncommutativity, establish the success of EHE. The employment of invertible gates allows exact decryptions for both an encrypted message and encrypted computation. The encrypted computation is exact as well because its encryption transformation is conducted with invertible gates. The second trait of noncommutativity among applied quantum gates brings forth the security for the two encryptions. In the message encryption, a plaintext is encoded into a ciphertext via a polynomial set generated by a product of noncommuting gates randomly chosen. Toward the computation encryption, a desired operation is encoded into an encrypted polynomial set generated by another product of noncommuting gates. The encrypted computation is then the evaluation of the encrypted polynomial set on the ciphertext and is referred to as the cryptovaluation. EHE is not only attainable on quantum computers, but also straightforwardly realizable on traditional computing environments. Surpassing the standard security 2^128 of quantum resilience, both the encryptions further reach a security greater than the suggested threshold 2^1024 and are characterized as hyper quantum-resilient. Thanks to the two essential traits of quantum gates, this framework can be regarded as the initial tangible manifestation of the concept noncommutative cryptography.
翻訳日:2024-01-18 16:52:38 公開日:2024-01-17
# ユニタリ作用素に埋め込まれた任意の有界作用素の量子特異値変換

Quantum singular value transformation for an arbitrary bounded operator embedded in a unitary operator ( http://arxiv.org/abs/2401.09007v1 )

ライセンス: Link先を確認
Chusei Kiumi, Akito Suzuki(参考訳) この研究は、無限次元ヒルベルト空間上のユニタリ作用素に埋め込まれた一般有界作用素に対する量子特異値変換(QSVT)を拡張する。 深い数学的探索を通じて,我々はqsvtの操作論的理解を洗練し,より合理的なアプローチへと導いてきた。 重要な発見の1つは、QSVT における多項式変換が、特定の基底の選択に付随するのではなく、本質的に作用素全体に適用されることである。 この研究は、量子情報処理の幅広い問題にこれらの洞察を応用し、量子ウォークのような量子力学の分析ツールを提供することを期待する。

This research extends quantum singular value transformation (QSVT) for general bounded operators embedded in unitary operators on possibly infinite-dimensional Hilbert spaces. Through in-depth mathematical exploration, we have achieved a refined operator-theoretic understanding of QSVT, leading to a more streamlined approach. One of the key discoveries is that polynomial transformations in QSVT inherently apply to the entire operator, rather than being contingent on the selection of a specific basis. We expect that this research will pave the way for applying these insights to a broader range of problems in quantum information processing and provide analytical tools for quantum dynamics, such as quantum walks.
翻訳日:2024-01-18 16:52:13 公開日:2024-01-17
# de-spoofing face generatorによる顔のライブネス検出

Generalized Face Liveness Detection via De-spoofing Face Generator ( http://arxiv.org/abs/2401.09006v1 )

ライセンス: Link先を確認
Xingming Long, Shiguang Shan and Jie Zhang(参考訳) 以前のface anti-spoofing (fas) は、未発見の領域を一般化するという課題に直面している。 大きな問題の1つは、既存のFASデータセットが比較的小さく、データの多様性が欠けていることである。 しかし,これまでのfasでは無視された様々な条件下で容易に達成できる実顔が多数存在することが判明した。 本稿では,現実の顔を活用してデスプーフィングフェイスジェネレータ(DFG)によるモデル一般化を改善する,Anomalous cue Guided FAS(AG-FAS)手法を提案する。 具体的には、実顔のみに訓練されたdfgは、実顔がどんなものであるかの知識を得て、任意の入力顔に対応する「実顔」バージョンを生成することができる。 生成された「現実」の顔と入力面との差は、下流のfasタスクに異常な手がかりを与えることができる。 次に,Anomalous cue Guided FAS feature extract Network (AG-Net)を提案する。 9つの公開データセットの総合的な実験により、未知のシナリオと未知のプレゼンテーションアタックを用いたクロスドメイン評価により、最先端の結果が得られた。

Previous Face Anti-spoofing (FAS) works face the challenge of generalizing in unseen domains. One of the major problems is that most existing FAS datasets are relatively small and lack data diversity. However, we find that there are numerous real faces that can be easily achieved under various conditions, which are neglected by previous FAS works. In this paper, we conduct an Anomalous cue Guided FAS (AG-FAS) method, which leverages real faces for improving model generalization via a De-spoofing Face Generator (DFG). Specifically, the DFG trained only on the real faces gains the knowledge of what a real face should be like and can generate a "real" version of the face corresponding to any given input face. The difference between the generated "real" face and the input face can provide an anomalous cue for the downstream FAS task. We then propose an Anomalous cue Guided FAS feature extraction Network (AG-Net) to further improve the FAS feature generalization via a cross-attention transformer. Extensive experiments on a total of nine public datasets show our method achieves state-of-the-art results under cross-domain evaluations with unseen scenarios and unknown presentation attacks.
翻訳日:2024-01-18 16:52:01 公開日:2024-01-17
# 反復質問合成による数学語問題の拡張

Augmenting Math Word Problems via Iterative Question Composing ( http://arxiv.org/abs/2401.09003v1 )

ライセンス: Link先を確認
Haoxiong Liu, Andrew Chi-Chih Yao(参考訳) 近年,大規模言語モデル(LLM)の数学的推論能力の向上が進んでいるが,外部ツールを使わずに競合レベルの数学問題を解くことは,オープンソースのLCMでは難しい課題である。 本研究では,Webデータと合成質問応答ペアを組み合わせたMMIQCデータセットを導入し,より優れた数学的推論技術を備えたベースモデルを提案する。 mistral-7b-mmiqcは、mmiqcでmistral-7b(arxiv:2310.06825)を微調整したモデルで、数学(arxiv:2103.03874)において36.0\%の精度を実現している。 また, 提案手法であるIQC (Iterative Question Composing) の改良属性の大部分が, LLMに対して与えられた種子問題から新たな質問を反復的に作成し, 他のLPMからの拒絶サンプリングを行うものであることを示す。 MMIQCはhttps://huggingface.co/datasets/Vivacem/MMIQCでリリースされた。

Despite recent progress in improving the mathematical reasoning ability of large language models(LLMs), solving competition-level math problems without the use of external tools remains challenging for open-source LLMs. In this work, we introduce the MMIQC dataset, a mixture of processed web data and synthetic question-response pairs, to equip base models with better mathematical reasoning skills. Mistral-7B-MMIQC, the model obtained by fine-tuning Mistral-7B(arXiv:2310.06825) on MMIQC, achieves 36.0\% accuracy on MATH(arXiv:2103.03874), 5.8\% higher than the previous (model size $\sim$7B) SOTA. Our experiments also show that a large part of the improvement attributes to our novel augmentation method IQC(Iterative Question Composing), where we iteratively ask an LLM to compose new questions from the given seed problems and do rejection sampling from another LLM. MMIQC has now been released on https://huggingface.co/datasets/Vivacem/MMIQC.
翻訳日:2024-01-18 16:51:42 公開日:2024-01-17
# AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法

AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models ( http://arxiv.org/abs/2401.09002v1 )

ライセンス: Link先を確認
Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang(参考訳) 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。 本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。 それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。 さらに,ジェイルブレイクタスク用に特別に調整した包括的基底真理データセットを開発した。 このデータセットは、現在の研究にとって重要なベンチマークとなるだけでなく、将来の研究のための基礎的なリソースを確立し、この進化分野における一貫性と比較分析を可能にします。 従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。 Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。

In our research, we pioneer a novel approach to evaluate the effectiveness of jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2, diverging from traditional robustness-focused binary evaluations. Our study introduces two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework, using a scoring range from 0 to 1, offers a unique perspective, enabling a more comprehensive and nuanced evaluation of attack effectiveness and empowering attackers to refine their attack prompts with greater understanding. Furthermore, we have developed a comprehensive ground truth dataset specifically tailored for jailbreak tasks. This dataset not only serves as a crucial benchmark for our current study but also establishes a foundational resource for future research, enabling consistent and comparative analyses in this evolving field. Upon meticulous comparison with traditional evaluation methods, we discovered that our evaluation aligns with the baseline's trend while offering a more profound and detailed assessment. We believe that by accurately evaluating the effectiveness of attack prompts in the Jailbreak task, our work lays a solid foundation for assessing a wider array of similar or even more complex tasks in the realm of prompt injection, potentially revolutionizing this field.
翻訳日:2024-01-18 16:51:16 公開日:2024-01-17
# ソフトウェア開発者とユーザインタラクションにおける共感の担い手と障壁:混合手法によるケーススタディ

Enablers and Barriers of Empathy in Software Developer and User Interaction: A Mixed Methods Case Study ( http://arxiv.org/abs/2401.09001v1 )

ライセンス: Link先を確認
Hashini Gunatilake, John Grundy, Rashina Hoda, Ingo Mueller(参考訳) ソフトウェアエンジニアリング(se)は、開発者が利害関係者と協力することを必要とし、彼らの感情や視点を理解することは、しばしば不可欠である。 共感とは、他人の感情を理解し、共有する能力を特徴づける概念である。 しかし、共感はSEにおける未研究の人間の側面であり続けている。 混合手法のケーススタディを用いて,開発者とエンドユーザの共感の実践方法を検討した。 我々は共感テスト、観察とインタビューをデータ収集に利用し、社会技術基盤理論と記述統計を用いてデータを分析した。 我々は共感を誘発するために必要な認識の性質と共感の実現者を特定した。 共感の障壁と、これらの障壁を克服するための潜在的な戦略を発見した。 我々は、新たな関係に関する洞察を報告し、ソフトウェア実践者やse研究者に共感とseに関する一連の推奨と将来的な取り組みを提示する。

Software engineering (SE) requires developers to collaborate with stakeholders, and understanding their emotions and perspectives is often vital. Empathy is a concept characterising a person's ability to understand and share the feelings of another. However, empathy continues to be an under-researched human aspect in SE. We studied how empathy is practised between developers and end users using a mixed methods case study. We used an empathy test, observations and interviews to collect data, and socio technical grounded theory and descriptive statistics to analyse data. We identified the nature of awareness required to trigger empathy and enablers of empathy. We discovered barriers to empathy and a set of potential strategies to overcome these barriers. We report insights on emerging relationships and present a set of recommendations and potential future works on empathy and SE for software practitioners and SE researchers.
翻訳日:2024-01-18 16:50:53 公開日:2024-01-17
# 連続時間空間ホメオスタティック強化学習(CTCS-HRRL) : 生物自律エージェントを目指して

Continuous Time Continuous Space Homeostatic Reinforcement Learning (CTCS-HRRL) : Towards Biological Self-Autonomous Agent ( http://arxiv.org/abs/2401.08999v1 )

ライセンス: Link先を確認
Hugo Laurencon, Yesoda Bhargava, Riddhi Zantye, Charbel-Rapha\"el S\'egerie, Johann Lussange, Veeky Baths, Boris Gutkin(参考訳) ホメオスタシスは生物が内部バランスを維持する生物学的プロセスである。 以前の研究では、ホメオスタシスは学習行動であることが示された。 最近導入されたHRRLフレームワークは、ドライブ削減理論と強化学習をリンクすることで、この学習されたホメオスタティックな振る舞いを説明する。 この結合は離散時間空間では証明されているが、連続時間空間では証明されていない。 本研究では,HRRL フレームワークを連続時間空間環境に進化させ,CTCS-HRRL (Continuous Time Continuous Space HRRL) フレームワークを検証する。 実世界の生物学的エージェントのホメオスタティック機構を模倣するモデルを設計してこれを実現する。 このモデルはハミルトン・ヤコビアンベルマン方程式とニューラルネットワークと強化学習に基づく関数近似を用いる。 シミュレーションに基づく実験により、このモデルの有効性を実証し、連続的に変化する内部状態の緩和において、ホメオスタシスを支持する政策を動的に選択するエージェントの能力に関連する証拠を明らかにする。 実験の結果,CTCS環境下でのホメオスタティックな動作を学習し,CTCS-HRRLを動物動態と意思決定のモデルとして有望な枠組みとした。

Homeostasis is a biological process by which living beings maintain their internal balance. Previous research suggests that homeostasis is a learned behaviour. Recently introduced Homeostatic Regulated Reinforcement Learning (HRRL) framework attempts to explain this learned homeostatic behavior by linking Drive Reduction Theory and Reinforcement Learning. This linkage has been proven in the discrete time-space, but not in the continuous time-space. In this work, we advance the HRRL framework to a continuous time-space environment and validate the CTCS-HRRL (Continuous Time Continuous Space HRRL) framework. We achieve this by designing a model that mimics the homeostatic mechanisms in a real-world biological agent. This model uses the Hamilton-Jacobian Bellman Equation, and function approximation based on neural networks and Reinforcement Learning. Through a simulation-based experiment we demonstrate the efficacy of this model and uncover the evidence linked to the agent's ability to dynamically choose policies that favor homeostasis in a continuously changing internal-state milieu. Results of our experiments demonstrate that agent learns homeostatic behaviour in a CTCS environment, making CTCS-HRRL a promising framework for modellng animal dynamics and decision-making.
翻訳日:2024-01-18 16:50:38 公開日:2024-01-17
# アンラーニングのアタックとリセット:パラメータ再初期化による機械学習への敵対的ノイズの活用

Attack and Reset for Unlearning: Exploiting Adversarial Noise toward Machine Unlearning through Parameter Re-initialization ( http://arxiv.org/abs/2401.08998v1 )

ライセンス: Link先を確認
Yoonhwa Jung and Ikhyun Cho and Shun-Hsiang Hsu and Julia Hockenmaier(参考訳) プライバシと規制の遵守に関する懸念が高まり、機械学習の概念は有名になり、訓練されたモデルから特定の学習情報を選択的に忘れたり、消去することを目指している。 このような重要なニーズに応えて、我々はAttack-and-Reset for Unlearning (ARU)と呼ばれる新しいアプローチを導入する。 このアルゴリズムは、巧妙に製作された対向ノイズを利用してパラメータマスクを生成し、特定のパラメータを効果的にリセットし、それらを学習不能にする。 ARUは、MUFACとMUCACの2つの顔機械学習ベンチマークデータセットにおいて、最先端の結果を上回っている。 特に,ネットワークパラメータを戦略的にフィルタし再初期化する攻撃とマスキングに関するステップについて述べる。 私たちの研究は、逆雑音を利用してマスクを作ることで、パラメータの再初期化を通じてディープラーニングモデルに展開不能なデータレンダリングの大幅な進歩を示しています。

With growing concerns surrounding privacy and regulatory compliance, the concept of machine unlearning has gained prominence, aiming to selectively forget or erase specific learned information from a trained model. In response to this critical need, we introduce a novel approach called Attack-and-Reset for Unlearning (ARU). This algorithm leverages meticulously crafted adversarial noise to generate a parameter mask, effectively resetting certain parameters and rendering them unlearnable. ARU outperforms current state-of-the-art results on two facial machine-unlearning benchmark datasets, MUFAC and MUCAC. In particular, we present the steps involved in attacking and masking that strategically filter and re-initialize network parameters biased towards the forget set. Our work represents a significant advancement in rendering data unexploitable to deep learning models through parameter re-initialization, achieved by harnessing adversarial noise to craft a mask.
翻訳日:2024-01-18 16:50:15 公開日:2024-01-17
# MicroNAS: MCUのゼロショットニューラルネットワーク検索

MicroNAS: Zero-Shot Neural Architecture Search for MCUs ( http://arxiv.org/abs/2401.08996v1 )

ライセンス: Link先を確認
Ye Qiao, Haocheng Xu, Yifan Zhang, Sitao Huang(参考訳) ニューラルネットワーク探索(NAS)は、特に精度最適化のために、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを効果的に発見する。 しかし、以前のアプローチではスーパーネットワークのリソース集約的なトレーニングや、実用的な応用を制限した広範なアーキテクチャ評価が必要となることが多い。 これらの課題に対処するために,エッジコンピューティングにおけるマイクロコントローラユニット(MCU)用に設計されたハードウェア対応ゼロショットNASフレームワークであるMicroNASを提案する。 micronasは探索中にターゲットのハードウェアの最適性を考慮し、高い計算コストなしで最適なニューラルネットワークを識別するために特別な性能指標を利用する。 以前の研究と比較すると、MicroNASは探索効率を最大1104倍改善し、3.23倍高速なMCU推論モデルを発見しながら、類似の精度を維持している。

Neural Architecture Search (NAS) effectively discovers new Convolutional Neural Network (CNN) architectures, particularly for accuracy optimization. However, prior approaches often require resource-intensive training on super networks or extensive architecture evaluations, limiting practical applications. To address these challenges, we propose MicroNAS, a hardware-aware zero-shot NAS framework designed for microcontroller units (MCUs) in edge computing. MicroNAS considers target hardware optimality during the search, utilizing specialized performance indicators to identify optimal neural architectures without high computational costs. Compared to previous works, MicroNAS achieves up to 1104x improvement in search efficiency and discovers models with over 3.23x faster MCU inference while maintaining similar accuracy
翻訳日:2024-01-18 16:49:58 公開日:2024-01-17
# Wikipediaにおけるジェンダー完全性の推定

Estimating Gender Completeness in Wikipedia ( http://arxiv.org/abs/2401.08993v1 )

ライセンス: Link先を確認
Hrishikesh Patel, Tianwa Chen, Ivano Bongiovanni, Gianluca Demartini(参考訳) Wikipediaコンテンツにおけるジェンダーの不均衡は、編集者コミュニティが積極的に取り組んでいる既知の課題である。 本論文の目的は、ウィキペディアコミュニティに、ウィキペディアの異なるエンティティタイプ(クラスとも呼ばれる)の問題の大きさを推定する手段を提供することである。 この目的のために,性別属性に基づくクラス完全性推定手法を適用する。 以上の結果から,ウィキペディアでは,異なるサブクラスの人に対してどのジェンダーが一般的かだけでなく,異なるジェンダーとサブクラスの人に対するカバー範囲の完全性についても考察した。

Gender imbalance in Wikipedia content is a known challenge which the editor community is actively addressing. The aim of this paper is to provide the Wikipedia community with instruments to estimate the magnitude of the problem for different entity types (also known as classes) in Wikipedia. To this end, we apply class completeness estimation methods based on the gender attribute. Our results show not only which gender for different sub-classes of Person is more prevalent in Wikipedia, but also an idea of how complete the coverage is for difference genders and sub-classes of Person.
翻訳日:2024-01-18 16:49:34 公開日:2024-01-17
# ストリーミング多言語asrにおける末尾言語の効率的なアダプタ微調整

Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR ( http://arxiv.org/abs/2401.08992v1 )

ライセンス: Link先を確認
Junwen Bai, Bo Li, Qiujia Li, Tara N. Sainath, Trevor Strohman(参考訳) エンドツーエンドのASRモデルは、デプロイが容易で、強力な基礎モデルのような事前訓練された音声モデルの恩恵を受けることができるため、ストリーミングマルチ言語シナリオでしばしば望まれる。 一方、異なる言語の異種性や不均衡なデータ量によってパフォーマンスが低下し、トレーニング中、特に尾の言語では非同期ピーク性能が向上する可能性がある。 プライバシー保護が強化された結果、データ自体が利用できない場合もあります。 既存の作業はモデルのサイズを大きく増やしたり、言語固有のデコーダを学習したりして、それぞれの言語を別々に扱う傾向がある。 本研究では,ストリーミング多言語ASRにおける尾語に対する教師の擬似ラベル付けにより強化されたカスケードコンバータトランスデューサフレームワークを用いて,単純で効果的な言語依存型アダプタ(LDA)の微調整について検討する。 アダプタは言語ごとのモデル全体の0.4%を占めるのみである。 フリーズファンデーションモデルにプラグインされ、ノイズの多い学生のトレーニングを施したファインタニングプロセスで唯一トレーニング可能なモジュールである。 最後のモデルは、異なる言語に対する異なるチェックポイントからアダプタパラメータをマージする。 モデルのパフォーマンスは、ラテン語、ギリシア語、アラビア語などの39のテール言語を含む、挑戦的な多言語述語データセット上で検証される。 提案手法では,単語誤り率を平均12.2%,単一ロケールで最大37.5%削減する。 さらに、パラメータ効率のよいLDAは、フルモデルファインタニングの品質と一致し、非同期ピーク性能の問題を大幅に軽減できることを示す。

The end-to-end ASR model is often desired in the streaming multilingual scenario since it is easier to deploy and can benefit from pre-trained speech models such as powerful foundation models. Meanwhile, the heterogeneous nature and imbalanced data abundance of different languages may cause performance degradation, leading to asynchronous peak performance for different languages during training, especially on tail ones. Sometimes even the data itself may become unavailable as a result of the enhanced privacy protection. Existing work tend to significantly increase the model size or learn language-specific decoders to accommodate each language separately. In this study, we explore simple yet effective Language-Dependent Adapter (LDA) finetuning under a cascaded Conformer transducer framework enhanced by teacher pseudo-labeling for tail languages in the streaming multilingual ASR. The adapter only accounts for 0.4% of the full model per language. It is plugged into the frozen foundation model and is the only trainable module during the finetuning process with noisy student training. The final model merges the adapter parameters from different checkpoints for different languages. The model performance is validated on a challenging multilingual dictation dataset, which includes 39 tail languages across Latin, Greek, Arabic, etc. Our proposed method brings 12.2% word error rate reduction on average and up to 37.5% on a single locale. Furthermore, we show that our parameter-efficient LDA can match the quality of the full model finetuning, thus greatly alleviating the asynchronous peak performance issue.
翻訳日:2024-01-18 16:49:17 公開日:2024-01-17
# 量子コンピュータにおける2次非拘束二項最適化モデルの解法

Five Starter Problems: Solving Quadratic Unconstrained Binary Optimization Models on Quantum Computers ( http://arxiv.org/abs/2401.08989v1 )

ライセンス: Link先を確認
Arul Mazumder and Sridhar Tayur(参考訳) ゲート/サーキットモデル(および量子近似最適化アルゴリズム、QAOA)、AQC(Adiabatic Quantum Computing)、QA(Quantum Annealing)など、いくつかの論文や書籍が量子コンピューティングの概念を適切にカバーしている。 しかし、通常は量子ハードウェアへのアクセスを停止し、数値的な問題を解く。 このチュートリアルでは、現在利用可能な量子コンピュータ上での擬似非制約バイナリ最適化(QUBO)問題の簡単な紹介を提供する。 IBMはゲート/回路アーキテクチャを使用し、D-Waveは量子アニールである。 本稿では,3つの標準問題 (Number Partitioning, Max-Cut, Minimum Vertex Cover) の例と,実践的応用(それぞれ癌ゲノム学およびヘッジファンドポートフォリオマネージャ)の2つのモデルについて述べる。 関連するGitHubリポジトリは、5つのノートブックにコードを提供している。 本論文は、計算集約的な分野の学部生や大学院生を対象に、短期量子アプリケーションの可能性を探究する産業専門家にもリーチすることを目的とする。

Several articles and books adequately cover quantum computing concepts, such as gate/circuit model (and Quantum Approximate Optimization Algorithm, QAOA), Adiabatic Quantum Computing (AQC), and Quantum Annealing (QA). However, they typically stop short of accessing quantum hardware and solve numerical problem instances. This tutorial offers a quick hands-on introduction to solving Quadratic Unconstrained Binary Optimization (QUBO) problems on currently available quantum computers. We cover both IBM and D-Wave machines: IBM utilizes a gate/circuit architecture, and D-Wave is a quantum annealer. We provide examples of three canonical problems (Number Partitioning, Max-Cut, Minimum Vertex Cover), and two models from practical applications (from cancer genomics and a hedge fund portfolio manager, respectively). An associated GitHub repository provides the codes in five companion notebooks. Catering to undergraduate and graduate students in computationally intensive disciplines, this article also aims to reach working industry professionals seeking to explore the potential of near-term quantum applications.
翻訳日:2024-01-18 16:48:36 公開日:2024-01-17
# 量子暗号アプローチ:セキュア通信のための量子鍵和解プロトコルの可能性

The Quantum Cryptography Approach: Unleashing the Potential of Quantum Key Reconciliation Protocol for Secure Communication ( http://arxiv.org/abs/2401.08987v1 )

ライセンス: Link先を確認
Neha Sharma and Vikas Saxena(参考訳) 量子暗号 (quantum cryptography) は、量子チャネルを横断する秘密通信の研究である。 近年、量子鍵分布(qkd)は量子暗号において最も重要なブレークスルーと認識されている。 このプロセスは、物理的法則に基づいたセキュアなコミュニケーションの共有を促進する。 BB84プロトコルは1984年に開発され、BB92、Ekert91、COW、SARG04プロトコルの中で最も広く使われている。 しかし、QKDと不完全なデバイスとの実際のセキュリティは広く議論されており、QKDが生成したキーが依然として無条件のセキュリティを提供することを保証する方法は数多くある。 本稿では,セキュアな鍵を生成すると同時に,データの漏洩を伴わずに送信をセキュアにするための新しい手法を提案する。 このアプローチでは,受信機も侵入機も基本基盤の知識を得られないため,Eveの検出には多項式補間も重要な検証手法として用いられる。 IBM量子コンピュータが提供する量子コンピューティング機能を完全に活用するために、このプロトコルは45キュービットのQiskitバックエンドを用いて実行される。 本稿は、アルファ(盗聴の強度)に対する%誤差のプロットについて論じる。 その結果、異なる種類のノイズが含まれており、所望の鍵ビットの成功確率が決定されている。 さらに、異なる量子ビット数に対して、除極雑音による成功確率を説明できるが、少なくとも、印加雑音が最大容量まで増大しても、成功鍵発生確率の50%が実験で観測される。

Quantum cryptography is the study of delivering secret communications across a quantum channel. Recently, Quantum Key Distribution (QKD) has been recognized as the most important breakthrough in quantum cryptography. This process facilitates two distant parties to share secure communications based on physical laws. The BB84 protocol was developed in 1984 and remains the most widely used among BB92, Ekert91, COW, and SARG04 protocols. However the practical security of QKD with imperfect devices have been widely discussed, and there are many ways to guarantee that generated key by QKD still provides unconditional security. This paper proposed a novel method that allows users to communicate while generating the secure keys as well as securing the transmission without any leakage of the data. In this approach sender will never reveal her basis, hence neither the receiver nor the intruder will get knowledge of the fundamental basis.Further to detect Eve, polynomial interpolation is also used as a key verification technique. In order to fully utilize the quantum computing capabilities provided by IBM quantum computers, the protocol is executed using the Qiskit backend for 45 qubits. This article discusses a plot of % error against alpha (strength of eavesdropping). As a result, different types of noise have been included, and the success probability of the desired key bits has been determined. Furthermore, the success probability under depolarizing noise is explained for different qubit counts.Last but not least, even when the applied noise is increased to maximum capacity, a 50% probability of successful key generation is still observed in an experiment.
翻訳日:2024-01-18 16:47:32 公開日:2024-01-17
# 等変楕円-パラボロイド界面予測によるリギドタンパク質-プロテインドッキング

Rigid Protein-Protein Docking via Equivariant Elliptic-Paraboloid Interface Prediction ( http://arxiv.org/abs/2401.08986v1 )

ライセンス: Link先を確認
Ziyang Yu, Wenbing Huang, Yang Liu(参考訳) 硬質タンパク質ドッキングの研究は、薬物設計やタンパク質工学といった様々なタスクにおいて重要な役割を果たす。 近年,これらの手法よりも高速なドッキング速度を示す学習ベース手法が提案されている。 本稿では,タンパク質-タンパク質ドッキングインタフェースを表現するために,楕円型パラボロイドを予測するElliDockという新しい学習手法を提案する。 具体的には、2つの入力タンパク質の楕円型パラボロイド界面をそれぞれ推定し、2つの界面を一致させることでドッキングのロート翻訳変換を得る。 その設計により、ellidockはタンパク質の任意の回転/翻訳に関して独立に同値であり、ドッキングプロセスの一般化を保証するために欠かせない性質である。 実験により,ElliDockは比較手法の中で最も高速な推論時間を達成し,DiffDock-PPやMultimerといった最先端の学習モデルと強く競合することが示された。

The study of rigid protein-protein docking plays an essential role in a variety of tasks such as drug design and protein engineering. Recently, several learning-based methods have been proposed for the task, exhibiting much faster docking speed than those computational methods. In this paper, we propose a novel learning-based method called ElliDock, which predicts an elliptic paraboloid to represent the protein-protein docking interface. To be specific, our model estimates elliptic paraboloid interfaces for the two input proteins respectively, and obtains the roto-translation transformation for docking by making two interfaces coincide. By its design, ElliDock is independently equivariant with respect to arbitrary rotations/translations of the proteins, which is an indispensable property to ensure the generalization of the docking process. Experimental evaluations show that ElliDock achieves the fastest inference time among all compared methods and is strongly competitive with current state-of-the-art learning-based models such as DiffDock-PP and Multimer particularly for antibody-antigen docking.
翻訳日:2024-01-18 16:46:32 公開日:2024-01-17
# 垂直フェデレート学習における異常検出に対するgan型データ中毒フレームワーク

A GAN-based data poisoning framework against anomaly detection in vertical federated learning ( http://arxiv.org/abs/2401.08984v1 )

ライセンス: Link先を確認
Xiaolin Chen, Daoguang Zan, Wei Li, Bei Guan, Yongji Wang(参考訳) 垂直連合学習(VFL)では、商用エンティティがデータのプライバシを保持しながらモデルを協調的にトレーニングする。 しかし、悪意のある参加者の毒殺攻撃は、この協調モデルの性能を低下させる可能性がある。 毒殺攻撃を達成する上での最大の課題は、サーバーサイドのトップモデルへのアクセスの欠如であり、悪意のある参加者は明確なターゲットモデルを持たないままである。 この課題に対処するために、革新的なエンドツーエンド毒殺フレームワークP-GANを導入する。 具体的には、悪意のある参加者は、当初は準教師付き学習を使用して代理ターゲットモデルを訓練する。 その後、この参加者はganベースの手法を用いて逆摂動を生成し、サーロゲートモデルの性能を劣化させる。 最後に、VFL中毒用のジェネレータを取得し、調整する。 さらに,VFLシナリオに対して堅牢な防御機構を提供するディープオートエンコーダ(DAE)に基づく異常検出アルゴリズムを開発した。 広範な実験により,p-ganおよびdaeの有効性を評価し,その性能に影響を与える因子について検討した。

In vertical federated learning (VFL), commercial entities collaboratively train a model while preserving data privacy. However, a malicious participant's poisoning attack may degrade the performance of this collaborative model. The main challenge in achieving the poisoning attack is the absence of access to the server-side top model, leaving the malicious participant without a clear target model. To address this challenge, we introduce an innovative end-to-end poisoning framework P-GAN. Specifically, the malicious participant initially employs semi-supervised learning to train a surrogate target model. Subsequently, this participant employs a GAN-based method to produce adversarial perturbations to degrade the surrogate target model's performance. Finally, the generator is obtained and tailored for VFL poisoning. Besides, we develop an anomaly detection algorithm based on a deep auto-encoder (DAE), offering a robust defense mechanism to VFL scenarios. Through extensive experiments, we evaluate the efficacy of P-GAN and DAE, and further analyze the factors that influence their performance.
翻訳日:2024-01-18 16:46:14 公開日:2024-01-17
# DTMM:プルーニングで極薄のIoTデバイスにTinyMLモデルをデプロイする

DTMM: Deploying TinyML Models on Extremely Weak IoT Devices with Pruning ( http://arxiv.org/abs/2401.09068v1 )

ライセンス: Link先を確認
Lixiang Han, Zhen Xiao, Zhenjiang Li(参考訳) DTMMは、マイクロコントローラユニット(MCU)のような弱いIoTデバイス上での機械学習モデルの効率的なデプロイと実行のために設計されたライブラリである。 DTMMを設計する動機は、ユビキタスインテリジェンスを達成するために、マシンラーニングのリーチを多くのローエンドIoTデバイスに拡張することを検討する、小さな機械学習(TinyML)の新興分野から来ている。 組込み装置の弱い能力のため、展開前に十分な重量を刻むことでモデルを圧縮する必要がある。 多くのコンピューティングプラットフォームでプルーニングが広く研究されているが、プルーニング手法の2つの重要な問題はMCUで悪化している。 現在のソリューションは、これらの目標の1つしか達成していないが、両方ではない。 本稿では,prunedモデルがmcu上での効率的なデプロイと実行に非常に有益であることを示す。 そこで本研究では,pruning unit selection, pre-execution pruning optimizations, runtime acceleration, and post-execution low-cost storageを備えたdtmmを提案する。 商用のMLフレームワークに統合して実際のデプロイが可能で、プロトタイプシステムも開発されている。 様々なモデルに対する広範囲な実験は、最先端の手法と比較して有望な成果を示している。

DTMM is a library designed for efficient deployment and execution of machine learning models on weak IoT devices such as microcontroller units (MCUs). The motivation for designing DTMM comes from the emerging field of tiny machine learning (TinyML), which explores extending the reach of machine learning to many low-end IoT devices to achieve ubiquitous intelligence. Due to the weak capability of embedded devices, it is necessary to compress models by pruning enough weights before deploying. Although pruning has been studied extensively on many computing platforms, two key issues with pruning methods are exacerbated on MCUs: models need to be deeply compressed without significantly compromising accuracy, and they should perform efficiently after pruning. Current solutions only achieve one of these objectives, but not both. In this paper, we find that pruned models have great potential for efficient deployment and execution on MCUs. Therefore, we propose DTMM with pruning unit selection, pre-execution pruning optimizations, runtime acceleration, and post-execution low-cost storage to fill the gap for efficient deployment and execution of pruned models. It can be integrated into commercial ML frameworks for practical deployment, and a prototype system has been developed. Extensive experiments on various models show promising gains compared to state-of-the-art methods.
翻訳日:2024-01-18 16:39:41 公開日:2024-01-17
# 関係推論のためのllms: どこまであるのか?

LLMs for Relational Reasoning: How Far are We? ( http://arxiv.org/abs/2401.09042v1 )

ライセンス: Link先を確認
Zhiming Li, Yushi Cao, Xiufeng Xu, Junzhe Jiang, Xu Liu, Yon Shin Teo, Shang-wei Lin, Yang Liu(参考訳) 大規模言語モデル(LLM)は多くの分野(自然言語処理、ソフトウェア工学など)に革命をもたらし、広範囲の下流タスクで最先端のパフォーマンスを達成する。 堅牢で汎用的な人工知能の実現を目指して、LLMの推論能力の研究への関心が高まっている。 従来の研究で採用したテキスト推論と数値推論のベンチマークは比較的浅く単純なものであるが、これらのベンチマークで単に肯定的な結果を得るだけで、LSMは強い推論能力を持っていると結論付けるのは難しい。 近年,強化学習ベンチマークの性能評価により,共通感覚計画を必要とする逐次的意思決定問題に対するllmの問題点が指摘されている。 本研究では,独立系および同分布系(IID)および外分布系(OOD)テストサンプルに対するロバストな推論を実現するために,厳密な因果効果論理を導出する必要があるため,論理プログラムの帰納/合成システムを評価するための代表的かつ困難な測定方法として広く認識されているILPベンチマークに基づいて,最先端のLLMの推論能力を詳細に評価する。 本評価は, モデルサイズがはるかに小さいニューラルプログラム誘導システムと比較して, 自然言語のプロンプトや真理値行列のプロンプトを用いて, より低い性能と一般化を達成し, 推論能力において最先端のLCMの方がはるかに劣っていることを示す。

Large language models (LLMs) have revolutionized many areas (e.g. natural language processing, software engineering, etc.) by achieving state-of-the-art performance on extensive downstream tasks. Aiming to achieve robust and general artificial intelligence, there has been a surge of interest in investigating the reasoning ability of the LLMs. Whereas the textual and numerical reasoning benchmarks adopted by previous works are rather shallow and simple, it is hard to conclude that the LLMs possess strong reasoning ability by merely achieving positive results on these benchmarks. Recent efforts have demonstrated that the LLMs are poor at solving sequential decision-making problems that require common-sense planning by evaluating their performance on the reinforcement learning benchmarks. In this work, we conduct an in-depth assessment of several state-of-the-art LLMs' reasoning ability based on the inductive logic programming (ILP) benchmark, which is broadly recognized as a representative and challenging measurement for evaluating logic program induction/synthesis systems as it requires inducing strict cause-effect logic to achieve robust deduction on independent and identically distributed (IID) and out-of-distribution (OOD) test samples. Our evaluations illustrate that compared with the neural program induction systems which are much smaller in model size, the state-of-the-art LLMs are much poorer in terms of reasoning ability by achieving much lower performance and generalization using either natural language prompting or truth-value matrix prompting.
翻訳日:2024-01-18 16:39:17 公開日:2024-01-17
# 大集合のテキスト要約 : 汎用的アプローチに向けて

Textual Summarisation of Large Sets: Towards a General Approach ( http://arxiv.org/abs/2401.09041v1 )

ライセンス: Link先を確認
Kittipitch Kuptavanich, Ehud Reiter, Kees Van Deemter, Advaith Siddharthan(参考訳) オブジェクトの集合の要約記述を生成する技術を開発している。 本稿では,学術論文における文献参照の集合を要約するルールベースNLG手法を提案し,評価する。 これは、消費者製品の集合の要約に関するこれまでの作業を拡張し、我々のモデルがこれらの2つの非常に異なる領域をどのように一般化しているかを示す。

We are developing techniques to generate summary descriptions of sets of objects. In this paper, we present and evaluate a rule-based NLG technique for summarising sets of bibliographical references in academic papers. This extends our previous work on summarising sets of consumer products and shows how our model generalises across these two very different domains.
翻訳日:2024-01-18 16:38:47 公開日:2024-01-17
# 非クリフォードゲートにおける擬似トワイリングコヒーレント誤差緩和による深い量子回路

Deeper quantum circuits via pseudo-twirling coherent errors mitigation in non-Clifford gates ( http://arxiv.org/abs/2401.09040v1 )

ライセンス: Link先を確認
Jader dos Santos, Ben Bar, Raam Uzdin(参考訳) 任意の量子回路を構成するために限られた数のゲートを利用する従来の回路パラダイムは、大きなノイズオーバーヘッドによって妨げられる。 例えば、標準ゲートパラダイムでは、回転角が非常に小さい場合でも、量子フーリエ変換における部分的なZZ回転のために2つのCNOTゲートを用いる。 対照的に、IBMのクロス共振デバイスのような特定のデバイスは、ネイティブな相互作用を使って直接このような操作を実装できるため、小さな回転角に対してかなり短く、ノイズが少ない。 残念なことに、ノイズ(コヒーレントエラー)を超えて、クビットクロストークとキャリブレーションの不完全性に起因するコヒーレントエラーは、これらの実装を非現実的にする。 CNOT のようなクリフォードゲートでは、これらの誤りは Pauli twirling (ランダム化コンパイルとも呼ばれる) を通して対処することができる。 しかし、このテクニックは、上記の短い非cliffordネイティブ実装には適用できない。 本研究は,一般ゲートと回路のコヒーレントエラーに対処するための擬似twirlingと呼ばれる手法を紹介し,解析し,実験的に実証する。 さらに、擬似ツイリングと適応KIKと呼ばれる量子誤差緩和法を組み合わせることで、非クリフォードゲートにおけるノイズとコヒーレントエラーを同時に緩和できることを示す。 この進歩は、かつてないほど大きな回路におけるエラー軽減の道を開く。

The conventional circuit paradigm, utilizing a limited number of gates to construct arbitrary quantum circuits, is hindered by significant noise overhead. For instance, the standard gate paradigm employs two CNOT gates for the partial ZZ rotation in the quantum Fourier transform, even when the rotation angle is very small. In contrast, certain devices, such as IBM cross-resonance-based devices, can directly implement such operations using their native interaction, resulting in considerably shorter and less noisy implementations for small rotation angles. Unfortunately, beyond noise (incoherent errors), coherent errors stemming from qubit crosstalk and calibration imperfections render these implementations impractical. In Clifford gates such as the CNOT, these errors can be addressed through Pauli twirling (also known as randomized compiling). However, this technique is not applicable to the short non-Clifford native implementations described above. The present work introduces, analyzes, and experimentally demonstrates a technique called Pseudo Twirling to address coherent errors in general gates and circuits. Additionally, we experimentally showcase that integrating pseudo twirling with a quantum error mitigation method called adaptive KIK enables the simultaneous mitigation of both noise and coherent errors in non-Clifford gates. This advancement paves the way for error mitigation in larger circuits than ever before.
翻訳日:2024-01-18 16:38:41 公開日:2024-01-17
# UOEP:Recommenderシステムにおける長期ユーザーエクスペリエンス向上のためのユーザ指向探索ポリシー

UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems ( http://arxiv.org/abs/2401.09034v1 )

ライセンス: Link先を確認
Changshuo Zhang, Sirui Chen, Xiao Zhang, Sunhao Dai, Weijie Yu, Jun Xu(参考訳) 強化学習(Reinforcement Learning, RL)は, 利用者の興味を効果的に探求することで, 推薦システムにおける長期体験の向上に寄与している。 しかし、現代のレコメンデータシステムでは、何千万もの項目で異なるユーザ行動パターンが示されており、探索の難しさが増している。 例えば、異なるアクティビティレベルを持つユーザの振る舞いは、さまざまな調査の強度を必要とするが、以前の研究では、この側面を見落とし、すべてのユーザに対して統一的な探索戦略を適用することが多かった。 これらの課題に対処するために,ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。 まず,ユーザからの累積報酬フィードバックの量的レベルが変化し,行動レベルが変化したユーザグループを代表して,ポリシーの最適化を可能にする分散批評家を構築した。 この批評家に導かれ、各ユーザーグループ内の効果的かつ詳細な探索を目的とした、異なる俳優の集団を考案する。 調査過程での多様性と安定性を同時に向上するため,人口レベルの多様性規則化用語と監督モジュールを導入する。 パブリックレコメンデーションデータセットによる実験結果から,我々のアプローチは長期的パフォーマンスにおいて他のすべてのベースラインよりも優れており,ユーザ指向探索の有効性が検証されている。 一方,低能率ユーザに対するパフォーマンス向上によるアプローチのメリットと,ユーザ間の公平性の向上が,さらなる分析によって明らかにされている。

Reinforcement learning (RL) has gained traction for enhancing user long-term experiences in recommender systems by effectively exploring users' interests. However, modern recommender systems exhibit distinct user behavioral patterns among tens of millions of items, which increases the difficulty of exploration. For example, user behaviors with different activity levels require varying intensity of exploration, while previous studies often overlook this aspect and apply a uniform exploration strategy to all users, which ultimately hurts user experiences in the long run. To address these challenges, we propose User-Oriented Exploration Policy (UOEP), a novel approach facilitating fine-grained exploration among user groups. We first construct a distributional critic which allows policy optimization under varying quantile levels of cumulative reward feedbacks from users, representing user groups with varying activity levels. Guided by this critic, we devise a population of distinct actors aimed at effective and fine-grained exploration within its respective user group. To simultaneously enhance diversity and stability during the exploration process, we further introduce a population-level diversity regularization term and a supervision module. Experimental results on public recommendation datasets demonstrate that our approach outperforms all other baselines in terms of long-term performance, validating its user-oriented exploration effectiveness. Meanwhile, further analyses reveal our approach's benefits of improved performance for low-activity users as well as increased fairness among users.
翻訳日:2024-01-18 16:38:18 公開日:2024-01-17
# 拡散モデルに対するデータ帰属:時間ステップによる影響推定バイアス

Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation ( http://arxiv.org/abs/2401.09031v1 )

ライセンス: Link先を確認
Tong Xie, Haoyu Li, Andrew Bai, Cho-Jui Hsieh(参考訳) データアトリビューションメソッドはモデルの振る舞いをトレーニングデータセットにトレースし、‘black-box’のニューラルネットワークをより理解するための効果的なアプローチを提供する。 モデル出力とトレーニングデータのさまざまな設定における定量化可能なリンクが先行研究で確立されているが、トレーニングサンプルに関する拡散モデル出力の解釈は未検討のままである。 特に拡散モデルは、過去の文脈における即時的な入出力関係の代わりに一連のタイムステップで動作し、既存のフレームワークを直接拡散モデルに拡張する上で大きな課題となる。 特にDiffusion-TracInは、この時間力学を取り入れ、サンプルの損失勾配ノルムが時間ステップに大きく依存しているのを観察する。 この傾向は影響推定に顕著なバイアスをもたらし、特に大きなノルム誘導時間ステップで訓練されたサンプルに顕著であり、一般に影響がある。 この効果を緩和するため,我々は,興味のあるテストサンプルをよりターゲットとしたトレーニングサンプルの検索を可能にする再正規化適応として拡散再帰法を導入し,影響の局所的測定とより直感的な可視化を可能にした。 提案手法の有効性を,様々な評価指標と補助課題を用いて実証し,一般的な影響サンプルの量を,元の量の$\frac{1}{3}$に削減した。

Data attribution methods trace model behavior back to its training dataset, offering an effective approach to better understand ``black-box'' neural networks. While prior research has established quantifiable links between model output and training data in diverse settings, interpreting diffusion model outputs in relation to training samples remains underexplored. In particular, diffusion models operate over a sequence of timesteps instead of instantaneous input-output relationships in previous contexts, posing a significant challenge to extend existing frameworks to diffusion models directly. Notably, we present Diffusion-TracIn that incorporates this temporal dynamics and observe that samples' loss gradient norms are highly dependent on timestep. This trend leads to a prominent bias in influence estimation, and is particularly noticeable for samples trained on large-norm-inducing timesteps, causing them to be generally influential. To mitigate this effect, we introduce Diffusion-ReTrac as a re-normalized adaptation that enables the retrieval of training samples more targeted to the test sample of interest, facilitating a localized measurement of influence and considerably more intuitive visualization. We demonstrate the efficacy of our approach through various evaluation metrics and auxiliary tasks, reducing the amount of generally influential samples to $\frac{1}{3}$ of its original quantity.
翻訳日:2024-01-18 16:37:51 公開日:2024-01-17
# デュアルアテンションを用いた多モード学習によるMRI脳腫瘍の診断

Cross-modality Guidance-aided Multi-modal Learning with Dual Attention for MRI Brain Tumor Grading ( http://arxiv.org/abs/2401.09029v1 )

ライセンス: Link先を確認
Dunyuan Xu, Xi Wang, Jinyue Cai and Pheng-Ann Heng(参考訳) 脳腫瘍は、世界で最も致命的ながんの1つであり、子供や高齢者によく見られる。 早期の腫瘍の種類と分類の正確さは, 治療計画の選択において重要な役割を担っている。 異なる配列の磁気共鳴イメージング(MRI)プロトコルは、腫瘍領域を特定するために重要な矛盾情報を提供する。 しかし、大量のデータと脳腫瘍の多様性のため、手動による評価は時間がかかり、エラーを起こしやすい。 したがって、MRIによる脳腫瘍の自動診断は必要ではない。 一様性モデルの予測能力は限定的であり、その性能は様々に変化しており、一般的に用いられるモダリティ融合法は潜在的なノイズを生じさせ、性能劣化をもたらす。 これらの課題を克服するために,MRI脳腫瘍グレーディングの課題に対処するために,新しいマルチモーダル学習法を提案する。 モデル効率と有効性のトレードオフのバランスをとるために,特徴抽出のバックボーンネットワークとしてResNet Mix Convolutionを用いる。 また、空間次元とスライス次元における意味的相互依存性をそれぞれ捉えるために二重注意が適用される。 モーダル間の情報相互作用を容易にするため,訓練期間中に一次モーダルが他の二次モーダルを誘導するクロスモーダル誘導支援モジュールを設計し,異なるMRIモーダルの補完情報を効果的に活用し,その間に可能なノイズの影響を軽減する。

Brain tumor represents one of the most fatal cancers around the world, and is very common in children and the elderly. Accurate identification of the type and grade of tumor in the early stages plays an important role in choosing a precise treatment plan. The Magnetic Resonance Imaging (MRI) protocols of different sequences provide clinicians with important contradictory information to identify tumor regions. However, manual assessment is time-consuming and error-prone due to big amount of data and the diversity of brain tumor types. Hence, there is an unmet need for MRI automated brain tumor diagnosis. We observe that the predictive capability of uni-modality models is limited and their performance varies widely across modalities, and the commonly used modality fusion methods would introduce potential noise, which results in significant performance degradation. To overcome these challenges, we propose a novel cross-modality guidance-aided multi-modal learning with dual attention for addressing the task of MRI brain tumor grading. To balance the tradeoff between model efficiency and efficacy, we employ ResNet Mix Convolution as the backbone network for feature extraction. Besides, dual attention is applied to capture the semantic interdependencies in spatial and slice dimensions respectively. To facilitate information interaction among modalities, we design a cross-modality guidance-aided module where the primary modality guides the other secondary modalities during the process of training, which can effectively leverage the complementary information of different MRI modalities and meanwhile alleviate the impact of the possible noise.
翻訳日:2024-01-18 16:37:26 公開日:2024-01-17
# 聴覚障害者の聴覚障害に対する音楽体験の多様性を探る

Exploring the Diversity of Music Experiences for Deaf and Hard of Hearing People ( http://arxiv.org/abs/2401.09025v1 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Weirui Peng, Yuhan Liu, Rachel F. Adler(参考訳) 難聴者や難聴者(DHH)が音楽を聴いたり、作曲したりするための感覚置換や強化技術が提案されている。 しかし、これらの技法がDHHの人々の音楽体験をいかに向上させるかについてはほとんど分かっていない。 聴覚障害は、DHHの人々の音楽に対する好みや知覚と同様にスペクトルであるので、音楽との相互作用をより確実に理解する必要がある。 この人口の音楽体験を理解するため,Redditコミュニティの聴覚障害と聴覚障害の両面において,質的・定量的にソーシャルメディア分析を行った。 内容分析の結果,DHHの人々は手話や視覚的/触覚的手がかりを利用して音楽を感じ,親しみやすく,非リアリカルで,楽器を重く,大声で楽しんだ。 さらに、補聴器は音楽用にカスタマイズされず、発達した視覚的/触覚的技法はDHHの人々によって広く採用されず、その準最適音楽体験へと繋がった。 DHHコミュニティは、音楽愛好家の相互支援を具現化し、アクティブな情報共有と音楽と聴力喪失に関するQ&Aによって証明された。 我々は、DHHの人々の音楽体験に対するデザインの正義を反映し、よりアクセシブルな音楽体験を生み出すために、実用的なデザインの意義を提案する。

Sensory substitution or enhancement techniques have been proposed to enable deaf or hard of hearing (DHH) people to listen to and even compose music. However, little is known about how such techniques enhance DHH people's music experience. Since deafness is a spectrum -- as are DHH people's preferences and perceptions of music -- a more situated understanding of their interaction with music is needed. To understand the music experience of this population, we conducted social media analyses, both qualitatively and quantitatively, in the deaf and hard of hearing Reddit communities. Our content analysis revealed that DHH people leveraged sign language and visual/haptic cues to feel the music and preferred familiar, non-lyrical, instrument-heavy, and loud music. In addition, hearing aids were not customized for music, and the visual/haptic techniques developed were not widely adopted by DHH people, leading to their suboptimal music experiences. The DHH community embodied mutual support among music lovers, evidenced by active information sharing and Q&A around music and hearing loss. We reflect on design justice for DHH people's music experience and propose practical design implications to create a more accessible music experience for them.
翻訳日:2024-01-18 16:36:58 公開日:2024-01-17
# 自己いじめの説明: 感情がサイバーいじめの検出を助けた理由

Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with Explanation ( http://arxiv.org/abs/2401.09023v1 )

ライセンス: Link先を確認
Krishanu Maity, Prince Jha, Raghav Jain, Sriparna Saha, Pushpak Bhattacharyya(参考訳) サイバーいじめは、さまざまなソーシャルメディアネットワークやオンラインコミュニケーションアプリの人気で大きな問題になっている。 モノリンガル言語によるサイバーいじめ検出のためのより良いモデルの開発は、多くの研究が進んでいるが、コード混在言語とサイバーいじめの説明可能性に関する研究はほとんどない。 一般データ保護規則の「説明の権利」のような最近の法律は、パフォーマンスよりも解釈可能なモデルを開発する研究を刺激している。 そこで本研究では,複数のタスクを同時に解くことができるコード混合言語からの自動サイバーバブル検出のための,最初の解釈可能なマルチタスクモデルである {\em mExCB} を開発した。 コード混合言語におけるサイバーいじめ検出のための最初のベンチマークデータセットである {\em bullyexplain} を導入した。 データセットのそれぞれの投稿には4つのラベル、すなわち、いじめラベル、感情ラベル、目標と合理性(説明可能性)、すなわち、どのフレーズがいじめとして投稿に注釈を付けるのかという注釈が付けられている。 CNN と GRU をベースとしたマルチタスクフレームワーク (mExCB) はワード・サブ文(SS) レベルでの注目度が,.em BullyExplain} データセットに適用した場合に,いくつかのベースラインや技術モデルの状態を上回り得る。

Cyberbullying has become a big issue with the popularity of different social media networks and online communication apps. While plenty of research is going on to develop better models for cyberbullying detection in monolingual language, there is very little research on the code-mixed languages and explainability aspect of cyberbullying. Recent laws like "right to explanations" of General Data Protection Regulation, have spurred research in developing interpretable models rather than focusing on performance. Motivated by this we develop the first interpretable multi-task model called {\em mExCB} for automatic cyberbullying detection from code-mixed languages which can simultaneously solve several tasks, cyberbullying detection, explanation/rationale identification, target group detection and sentiment analysis. We have introduced {\em BullyExplain}, the first benchmark dataset for explainable cyberbullying detection in code-mixed language. Each post in {\em BullyExplain} dataset is annotated with four labels, i.e., {\em bully label, sentiment label, target and rationales (explainability)}, i.e., which phrases are being responsible for annotating the post as a bully. The proposed multitask framework (mExCB) based on CNN and GRU with word and sub-sentence (SS) level attention is able to outperform several baselines and state of the art models when applied on {\em BullyExplain} dataset.
翻訳日:2024-01-18 16:36:34 公開日:2024-01-17
# 光リモートセンシング画像とSegment Anything Model(SAM)による地図データ間の変化検出

Change Detection Between Optical Remote Sensing Imagery and Map Data via Segment Anything Model (SAM) ( http://arxiv.org/abs/2401.09019v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Jian Song and Naoto Yokoya(参考訳) 教師なしマルチモーダル変化検出は、時間に敏感なタスクと総合的なマルチテンポラル地球モニタリングに重要である。 本研究では、光高解像度画像とOpenStreetMap(OSM)データという、2つの主要なリモートセンシングデータソース間の教師なしマルチモーダル変化検出について検討する。 具体的には,視覚基盤モデルセグメンテーション・アプライシング・モデル (SAM) を用いて課題に対処することを提案する。 SAMの例外的なゼロショット転送機能を活用することで、光学画像の高品質なセグメンテーションマップを得ることができる。 したがって、この2つの異種データ形式をいわゆるセグメンテーション領域で直接比較することができる。 次に、SAMのセグメンテーションプロセスを導くための2つの戦略、すなわち'no-prompt'と'box/mask prompt'メソッドを紹介します。 この2つの戦略は、一般的なシナリオで土地被覆の変化を検出し、既存の背景の中で新しい土地被覆オブジェクトを識別するために設計されている。 3つのデータセットに対する実験結果から,提案手法は教師なしマルチモーダル変化検出法と比較して,より競争力のある結果が得られることが示された。

Unsupervised multimodal change detection is pivotal for time-sensitive tasks and comprehensive multi-temporal Earth monitoring. In this study, we explore unsupervised multimodal change detection between two key remote sensing data sources: optical high-resolution imagery and OpenStreetMap (OSM) data. Specifically, we propose to utilize the vision foundation model Segmentation Anything Model (SAM), for addressing our task. Leveraging SAM's exceptional zero-shot transfer capability, high-quality segmentation maps of optical images can be obtained. Thus, we can directly compare these two heterogeneous data forms in the so-called segmentation domain. We then introduce two strategies for guiding SAM's segmentation process: the 'no-prompt' and 'box/mask prompt' methods. The two strategies are designed to detect land-cover changes in general scenarios and to identify new land-cover objects within existing backgrounds, respectively. Experimental results on three datasets indicate that the proposed approach can achieve more competitive results compared to representative unsupervised multimodal change detection methods.
翻訳日:2024-01-18 16:36:07 公開日:2024-01-17
# 残差アライメント:残差ネットワークのメカニズムを明らかにする

Residual Alignment: Uncovering the Mechanisms of Residual Networks ( http://arxiv.org/abs/2401.09018v1 )

ライセンス: Link先を確認
Jianing Li, Vardan Papyan(参考訳) resnetアーキテクチャは、単純なスキップ接続の使用によるパフォーマンスの大幅な向上によって、ディープラーニングに広く採用されているが、その成功に至る基盤となるメカニズムはほとんど不明である。 本稿では,残留ヤコビアンを用いた残差ブロックの線形化と特異値分解の測定により,分類タスクにおけるResNetアーキテクチャの徹底的な実証的研究を行う。 Our measurements reveal a process called Residual Alignment (RA) characterized by four properties: (RA1) intermediate representations of a given input are equispaced on a line, embedded in high dimensional space, as observed by Gai and Zhang [2021]; (RA2) top left and right singular vectors of Residual Jacobians align with each other and across different depths; (RA3) Residual Jacobians are at most rank C for fully-connected ResNets, where C is the number of classes; and (RA4) top singular values of Residual Jacobians scale inversely with depth. RAは、完全に接続されたアーキテクチャと畳み込みアーキテクチャの両方において、テストされたすべてのベンチマークデータセットにおいて、様々な数のクラスに対して、様々な深さと幅で、よく一般化するモデルで一貫して発生するが、スキップ接続が削除されると、停止する。 これは、我々が提案する新しい数学的モデルでも確実に発生する。 この現象は、resnet(ra2+4)の残枝間の強いアライメントを示し、ネットワーク(ra1)を通って最終層まで直線的に進行する中間表現に高度に剛性のある幾何学的構造を与え、そこで神経崩壊が起こる。

The ResNet architecture has been widely adopted in deep learning due to its significant boost to performance through the use of simple skip connections, yet the underlying mechanisms leading to its success remain largely unknown. In this paper, we conduct a thorough empirical study of the ResNet architecture in classification tasks by linearizing its constituent residual blocks using Residual Jacobians and measuring their singular value decompositions. Our measurements reveal a process called Residual Alignment (RA) characterized by four properties: (RA1) intermediate representations of a given input are equispaced on a line, embedded in high dimensional space, as observed by Gai and Zhang [2021]; (RA2) top left and right singular vectors of Residual Jacobians align with each other and across different depths; (RA3) Residual Jacobians are at most rank C for fully-connected ResNets, where C is the number of classes; and (RA4) top singular values of Residual Jacobians scale inversely with depth. RA consistently occurs in models that generalize well, in both fully-connected and convolutional architectures, across various depths and widths, for varying numbers of classes, on all tested benchmark datasets, but ceases to occur once the skip connections are removed. It also provably occurs in a novel mathematical model we propose. This phenomenon reveals a strong alignment between residual branches of a ResNet (RA2+4), imparting a highly rigid geometric structure to the intermediate representations as they progress linearly through the network (RA1) up to the final layer, where they undergo Neural Collapse.
翻訳日:2024-01-18 16:35:48 公開日:2024-01-17
# イソペリメトリーによる高速並列サンプリング

Fast parallel sampling under isoperimetry ( http://arxiv.org/abs/2401.09016v1 )

ライセンス: Link先を確認
Nima Anari, Sinho Chewi, Thuy-Duong Vuong(参考訳) 対数ソボレフの不等式を満たす分布 $\pi$ over $\mathbb R^d$ から並列にサンプリングする方法を示し、Langevin (resp. underdamed Langevin) アルゴリズムを並列化することにより、スムーズな対数密度を持つ。 提案アルゴリズムは,Kullback--Leibler (KL) の分散(resp) における$\pi$に近い分布からサンプルを出力する。 total variation (TV) distance, while using only $\log(d)^{O(1)}$ parallel rounds and $\widetilde{O}(d)$ (resp). $\widetilde O(\sqrt d)$) Gragient Evaluations in total。 これはテレビ距離保証を備えた最初の並列サンプリングアルゴリズムを構成する。 本論文では,本アルゴリズムのテレビジョン距離保証を先行研究と組み合わせる方法を示し,指数的傾きの下で閉ざされ有界共分散を持つ超立方体$\{\pm 1\}^n$ 上の離散分布系に対するrncサンプリング・ツー・カウンティング低減法を提案する。 そこで,本研究では,有向オイラー旅行と非対称行列点過程に対して,先行研究で提起された問題を解くためのrncサンプラーを得る。

We show how to sample in parallel from a distribution $\pi$ over $\mathbb R^d$ that satisfies a log-Sobolev inequality and has a smooth log-density, by parallelizing the Langevin (resp. underdamped Langevin) algorithms. We show that our algorithm outputs samples from a distribution $\hat\pi$ that is close to $\pi$ in Kullback--Leibler (KL) divergence (resp. total variation (TV) distance), while using only $\log(d)^{O(1)}$ parallel rounds and $\widetilde{O}(d)$ (resp. $\widetilde O(\sqrt d)$) gradient evaluations in total. This constitutes the first parallel sampling algorithms with TV distance guarantees. For our main application, we show how to combine the TV distance guarantees of our algorithms with prior works and obtain RNC sampling-to-counting reductions for families of discrete distribution on the hypercube $\{\pm 1\}^n$ that are closed under exponential tilts and have bounded covariance. Consequently, we obtain an RNC sampler for directed Eulerian tours and asymmetric determinantal point processes, resolving open questions raised in prior works.
翻訳日:2024-01-18 16:35:18 公開日:2024-01-17
# 人工知能システムのための帰納的モデルは、十分な説明なしで不十分である

Inductive Models for Artificial Intelligence Systems are Insufficient without Good Explanations ( http://arxiv.org/abs/2401.09011v1 )

ライセンス: Link先を確認
Udesh Habaraduwa(参考訳) 本稿では、複雑な関数の近似に有効な機械学習(ML)、特に深層ニューラルネットワーク(ANN)の限界について論じる。 過去の観察が将来の出来事を必ずしも予測しないという哲学的な問題、新しい、目に見えないデータに遭遇した時にMLモデルが直面する課題である。 論文は、単に予測を行うだけでなく、良い説明を提供することの重要性を論じている。 AIが進むためには、単に予測だけでなく、洞察と説明を提供するモデルを探さなければなりません。

This paper discusses the limitations of machine learning (ML), particularly deep artificial neural networks (ANNs), which are effective at approximating complex functions but often lack transparency and explanatory power. It highlights the `problem of induction' : the philosophical issue that past observations may not necessarily predict future events, a challenge that ML models face when encountering new, unseen data. The paper argues for the importance of not just making predictions but also providing good explanations, a feature that current models often fail to deliver. It suggests that for AI to progress, we must seek models that offer insights and explanations, not just predictions.
翻訳日:2024-01-18 16:34:51 公開日:2024-01-17
# 畳み込みニューラルネットワークにおける回折とスペクトルプールのハイブリッド化

Hybrid of DiffStride and Spectral Pooling in Convolutional Neural Networks ( http://arxiv.org/abs/2401.09008v1 )

ライセンス: Link先を確認
Sulthan Rafif, Mochamad Arfan Ravy Wahyu Pratama, Mohammad Faris Azhar, Ahmad Mustafidul Ibad, Lailil Muflikhah, Novanto Yudistira(参考訳) ストライドは、フィルタが入力を横切るときに隣接するフィルタ位置間の距離を決定する。 固定ストライドは、画像に含まれる重要な情報をキャプチャできないので、重要な情報が分類されない。 そこで, 従来の研究では, ディフストライド法が適用され, 独自のストライド値が学習できるストレート畳み込み法が適用された。 保存情報に対する厳密な量子化と制約的な下限は、Max Pooling Downsampling Methodによって生じる。 スペクトルプーリングは、周波数領域における表現を切断することで、保存情報に対する制約の下限を減らす。 本研究では,バックプロパゲーションとスペクトルプール技術を組み合わせたダウンサンプリング学習ストライド技術を用いてCNNモデルを提案する。 DiffstrideとSpectral Poolingの技術は、画像に含まれる情報のほとんどを維持することが期待されている。 本研究では,ResNet 18上でのDiffStride実装であるBaseline Methodに対して,スペクトルプールとDiffStrideの併用実装であるHybrid Methodを比較した。 DiffStrideとSpectral Poolingの組み合わせの精度は、ベースライン法であるDiffStrideよりも0.0094向上する。 これにより、周波数領域の表現を切断し、バックプロパゲーションにより学習結果のストライドを決定することにより、情報の大半をハイブリッド方式で保持できることを示す。

Stride determines the distance between adjacent filter positions as the filter moves across the input. A fixed stride causes important information contained in the image can not be captured, so that important information is not classified. Therefore, in previous research, the DiffStride Method was applied, namely the Strided Convolution Method with which it can learn its own stride value. Severe Quantization and a constraining lower bound on preserved information are arises with Max Pooling Downsampling Method. Spectral Pooling reduce the constraint lower bound on preserved information by cutting off the representation in the frequency domain. In this research a CNN Model is proposed with the Downsampling Learnable Stride Technique performed by Backpropagation combined with the Spectral Pooling Technique. Diffstride and Spectral Pooling techniques are expected to maintain most of the information contained in the image. In this study, we compare the Hybrid Method, which is a combined implementation of Spectral Pooling and DiffStride against the Baseline Method, which is the DiffStride implementation on ResNet 18. The accuracy result of the DiffStride combination with Spectral Pooling improves over DiffStride which is baseline method by 0.0094. This shows that the Hybrid Method can maintain most of the information by cutting of the representation in the frequency domain and determine the stride of the learning result through Backpropagation.
翻訳日:2024-01-18 16:34:41 公開日:2024-01-17
# PIN-SLAM:グローバルマップ整合性獲得のための点ベース命令型ニューラル表現を用いたLiDAR SLAM

PIN-SLAM: LiDAR SLAM Using a Point-Based Implicit Neural Representation for Achieving Global Map Consistency ( http://arxiv.org/abs/2401.09101v1 )

ライセンス: Link先を確認
Yue Pan, Xingguang Zhong, Louis Wiesmann, Thorbj\"orn Posewsky, Jens Behley, and Cyrill Stachniss(参考訳) 正確な位置決めとマッピングは、ほとんどの自律ロボットにとって不可欠な要素である。 本稿では,PIN-SLAMと呼ばれる,弾性的かつコンパクトな点ベース暗黙的ニューラルマップ表現に基づくグローバルな一貫したマップ構築のためのSLAMシステムを提案する。 範囲測定を入力として,局所的暗黙的符号付き距離場の漸進学習と,対応のない点間モデル登録を用いた現在の局所写像によるポーズ推定を交互に行う。 私たちの暗黙の地図は、ループを閉じる際のグローバルなポーズ調整によって本質的に弾性的かつ変形可能な、スパース最適化可能な神経点に基づいている。 ループもニューラルポイント機能を使用して検出される。 広範囲な実験により、PIN-SLAMは様々な環境に対して堅牢であり、LiDARやRGB-Dカメラのような様々な範囲のセンサーに汎用性があることが確認された。 PIN-SLAMは、最先端のLiDARオドメトリーやSLAMシステムと同等以上のポーズ推定精度を達成し、より一貫性があり、高精度かつ完全なメッシュとして再構築可能な、非常にコンパクトな暗黙マップを維持しながら、最近のニューラル暗示SLAMアプローチより優れている。 最後に、効率的なニューラルポイントインデックス作成のためのボクセルハッシュと、近点関連のない高速な暗黙マップベースの登録のおかげで、PIN-SLAMは適度なGPU上でセンサーフレームレートで実行できる。 コードは、https://github.com/PRBonn/PIN_SLAM.comから入手できる。

Accurate and robust localization and mapping are essential components for most autonomous robots. In this paper, we propose a SLAM system for building globally consistent maps, called PIN-SLAM, that is based on an elastic and compact point-based implicit neural map representation. Taking range measurements as input, our approach alternates between incremental learning of the local implicit signed distance field and the pose estimation given the current local map using a correspondence-free, point-to-implicit model registration. Our implicit map is based on sparse optimizable neural points, which are inherently elastic and deformable with the global pose adjustment when closing a loop. Loops are also detected using the neural point features. Extensive experiments validate that PIN-SLAM is robust to various environments and versatile to different range sensors such as LiDAR and RGB-D cameras. PIN-SLAM achieves pose estimation accuracy better or on par with the state-of-the-art LiDAR odometry or SLAM systems and outperforms the recent neural implicit SLAM approaches while maintaining a more consistent, and highly compact implicit map that can be reconstructed as accurate and complete meshes. Finally, thanks to the voxel hashing for efficient neural points indexing and the fast implicit map-based registration without closest point association, PIN-SLAM can run at the sensor frame rate on a moderate GPU. Codes will be available at: https://github.com/PRBonn/PIN_SLAM.
翻訳日:2024-01-18 16:28:10 公開日:2024-01-17
# 大規模言語モデルのコードシミュレーション問題

Code Simulation Challenges for Large Language Models ( http://arxiv.org/abs/2401.09074v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge(参考訳) 本稿では,Large Language Models (LLM) がコンピュータコードやアルゴリズムの実行をシミュレートできる範囲について検討する。 まず、直線的なプログラムを見て、現在のllmがこのような単純なプログラムでもパフォーマンスの低下を示していることを示します。 次に、クリティカルパスと冗長命令を含むプログラムをシミュレートするLLMの能力について検討する。 また、ソートアルゴリズムとネストループを用いた直線プログラムシミュレーションを超越し、ルーチンの計算複雑性がLCMの実行をシミュレートする能力に直接影響を与えることを示す。 我々はLLMが命令を逐次実行し、短いプログラムや標準手順でのみエラーマージンが低いことを観察する。 llmsのコードシミュレーションは、パターン認識と記憶能力との緊張状態にある: 記憶が有害なタスクでは、コード実行ラインを1行ずつシミュレートする新しいプロンプト手法を提案する。 経験的に、新しい連鎖シミュレーション(cosm)法は、記憶の落とし穴を避けることによって思考促進アプローチの標準連鎖を改善する。

We investigate the extent to which Large Language Models (LLMs) can simulate the execution of computer code and algorithms. We begin by looking straight line programs, and show that current LLMs demonstrate poor performance even with such simple programs -- performance rapidly degrades with the length of code. We then investigate the ability of LLMs to simulate programs that contain critical paths and redundant instructions. We also go beyond straight line program simulation with sorting algorithms and nested loops, and we show the computational complexity of a routine directly affects the ability of an LLM to simulate its execution. We observe that LLMs execute instructions sequentially and with a low error margin only for short programs or standard procedures. LLMs' code simulation is in tension with their pattern recognition and memorisation capabilities: on tasks where memorisation is detrimental, we propose a novel prompting method to simulate code execution line by line. Empirically, our new Chain of Simulation (CoSm) method improves on the standard Chain of Thought prompting approach by avoiding the pitfalls of memorisation.
翻訳日:2024-01-18 16:27:43 公開日:2024-01-17
# 固定予算別個人別ベストアーム識別

Fixed-Budget Differentially Private Best Arm Identification ( http://arxiv.org/abs/2401.09073v1 )

ライセンス: Link先を確認
Zhirui Chen, P. N. Karthik, Yeow Meng Chee, and Vincent Y. F. Tan(参考訳) 本研究は,固定予算体制における線形バンディットにおける最良アーム識別(bai)について,単位間隔でアーム報酬が支持される場合のプライバシー制約下で検討する。 有限予算の$t$とプライバシパラメータ$\varepsilon>0$が与えられると、決定メーカーのポリシーが特定の$\varepsilon$-differential privacy} (\varepsilon$-dp) 制約を満たすという制約の下で、$t$サンプリングラウンドの後に最大の平均でアームを見つける際のエラー確率を最小化することが目標となる。 我々は, "em maximum absolute determinants} の原理を提唱することで,$\varepsilon$-dp 制約("sc dp-bai}")を満たす方針を構築し,その誤差確率の上限を導出する。 さらに、誤差確率の最小値下限を導出し、下限と上限が指数関数的に$t$で崩壊し、2つの値下限の指数が順番に一致することを証明する。 (a)腕の準最適ギャップ。 (b)$\varepsilon$、および (c) 標準的な固定予算BAIの複雑さ(プライバシー制約なしで)を特徴付ける2項の和として表現可能な問題複雑性と、$\varepsilon$-DP制約を考慮に入れること。 さらに,誤差確率に対する下界の導出に寄与する補助的な結果を示す。 これらの結果は独立な関心を持ち、他のいくつかのバンドイット問題における誤差確率の低限界を証明するのに有用であると考えられる。 プライバシー制約のない固定予算体制におけるBAIの成果や、プライバシー制約のない固定予算体制におけるBAIの成果とは対照的に、我々は、$\varepsilon$-DP制約の下での固定予算体制におけるBAIの成果を提供することで、文献のギャップを埋める。

We study best arm identification (BAI) in linear bandits in the fixed-budget regime under differential privacy constraints, when the arm rewards are supported on the unit interval. Given a finite budget $T$ and a privacy parameter $\varepsilon>0$, the goal is to minimise the error probability in finding the arm with the largest mean after $T$ sampling rounds, subject to the constraint that the policy of the decision maker satisfies a certain {\em $\varepsilon$-differential privacy} ($\varepsilon$-DP) constraint. We construct a policy satisfying the $\varepsilon$-DP constraint (called {\sc DP-BAI}) by proposing the principle of {\em maximum absolute determinants}, and derive an upper bound on its error probability. Furthermore, we derive a minimax lower bound on the error probability, and demonstrate that the lower and the upper bounds decay exponentially in $T$, with exponents in the two bounds matching order-wise in (a) the sub-optimality gaps of the arms, (b) $\varepsilon$, and (c) the problem complexity that is expressible as the sum of two terms, one characterising the complexity of standard fixed-budget BAI (without privacy constraints), and the other accounting for the $\varepsilon$-DP constraint. Additionally, we present some auxiliary results that contribute to the derivation of the lower bound on the error probability. These results, we posit, may be of independent interest and could prove instrumental in proving lower bounds on error probabilities in several other bandit problems. Whereas prior works provide results for BAI in the fixed-budget regime without privacy constraints or in the fixed-confidence regime with privacy constraints, our work fills the gap in the literature by providing the results for BAI in the fixed-budget regime under the $\varepsilon$-DP constraint.
翻訳日:2024-01-18 16:27:25 公開日:2024-01-17
# 空間適応フィルタを用いたスペクトルグラフニューラルネットワークの再考

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering ( http://arxiv.org/abs/2401.09071v1 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Zixian Su, and Rui Zhang(参考訳) スペクトルグラフニューラルネットワーク (gnn) は理論的にスペクトル領域において十分に基礎づけられているが、多項式近似への実用的な依存は空間領域への深い結合を意味する。 これまでの研究では、空間的な観点からスペクトルgnnを調べることは滅多にないが、空間領域の解釈可能性は不明であり、例えば、空間領域内のスペクトルgnnによって本質的にエンコードされる情報は何か? 本稿では,スペクトルフィルタリングと空間アグリゲーションの理論的関係を確立し,スペクトルフィルタリングが空間アグリゲーションのために明示的に計算されたオリジナルのグラフを適応した新しいグラフに暗黙的に導く本質的な相互作用を明らかにする。 理論的および実証的研究の両方で、適応された新しいグラフは非局所性を示すだけでなく、ノード間のラベルの一貫性を反映する符号付きエッジウェイトも備えていることが明らかになった。 これらの結果は、空間領域におけるスペクトルGNNの解釈可能な役割を強調し、グローバル情報を無視した固定順序多項式以外のグラフスペクトルフィルタを再考するきっかけとなった。 理論的な知見に基づいて,最先端のスペクトルgnnを再検討し,補助的非局所アグリゲーションのためのスペクトルフィルタリングにより適応した新しいグラフを利用する空間適応フィルタ(saf)フレームワークを提案する。 特に,提案したSAFは,ノードの類似性と相似性の両方を大域的観点から包括的にモデル化し,長距離依存やグラフヘテロフィリーに関連するGNNの持続的欠陥を緩和する。 13個のノード分類ベンチマークを用いた広範な実験により,提案手法の最先端モデルに対する優位性が示された。

Whilst spectral Graph Neural Networks (GNNs) are theoretically well-founded in the spectral domain, their practical reliance on polynomial approximation implies a profound linkage to the spatial domain. As previous studies rarely examine spectral GNNs from the spatial perspective, their spatial-domain interpretability remains elusive, e.g., what information is essentially encoded by spectral GNNs in the spatial domain? In this paper, to answer this question, we establish a theoretical connection between spectral filtering and spatial aggregation, unveiling an intrinsic interaction that spectral filtering implicitly leads the original graph to an adapted new graph, explicitly computed for spatial aggregation. Both theoretical and empirical investigations reveal that the adapted new graph not only exhibits non-locality but also accommodates signed edge weights to reflect label consistency between nodes. These findings thus highlight the interpretable role of spectral GNNs in the spatial domain and inspire us to rethink graph spectral filters beyond the fixed-order polynomials, which neglect global information. Built upon the theoretical findings, we revisit the state-of-the-art spectral GNNs and propose a novel Spatially Adaptive Filtering (SAF) framework, which leverages the adapted new graph by spectral filtering for an auxiliary non-local aggregation. Notably, our proposed SAF comprehensively models both node similarity and dissimilarity from a global perspective, therefore alleviating persistent deficiencies of GNNs related to long-range dependencies and graph heterophily. Extensive experiments over 13 node classification benchmarks demonstrate the superiority of our proposed framework to the state-of-the-art models.
翻訳日:2024-01-18 16:26:43 公開日:2024-01-17
# 知識ピラミッド: 一般化知識増強と推論のための新しい階層的推論構造

Knowledge Pyramid: A Novel Hierarchical Reasoning Structure for Generalized Knowledge Augmentation and Inference ( http://arxiv.org/abs/2401.09070v1 )

ライセンス: Link先を確認
Qinghua Huang, Yongzhen Wang(参考訳) 知識グラフ(KG)に基づく推論はセマンティックネットワークの分析に有効な手段であり,情報検索,レコメンデーション,意思決定,人間と機械の相互作用の領域において非常に有用であると考えられる。 推薦、意思決定、質問応答、検索、その他の分野で広く使われている。 しかし、以前の研究では主にKGの低レベルの知識を推論に用いており、一般化が不十分で推論の堅牢性が劣る可能性がある。 そこで本研究では,KGの一般化能力を向上させるために,知識増強戦略を用いた新たな推論手法を提案する。 このフレームワークは,低レベルの知識から高レベルのピラミッド的知識を抽出し,知識ピラミッドと呼ばれる多レベルの階層的KGの推論に適用する。 提案手法を用いていくつかの医療データセットを検証した結果,提案した知識ピラミッドは,知識推論性能を向上し,より一般化された。 特にトレーニングサンプルが少ない場合には、推論精度が大幅に向上する可能性がある。

Knowledge graph (KG) based reasoning has been regarded as an effective means for the analysis of semantic networks and is of great usefulness in areas of information retrieval, recommendation, decision-making, and man-machine interaction. It is widely used in recommendation, decision-making, question-answering, search, and other fields. However, previous studies mainly used low-level knowledge in the KG for reasoning, which may result in insufficient generalization and poor robustness of reasoning. To this end, this paper proposes a new inference approach using a novel knowledge augmentation strategy to improve the generalization capability of KG. This framework extracts high-level pyramidal knowledge from low-level knowledge and applies it to reasoning in a multi-level hierarchical KG, called knowledge pyramid in this paper. We tested some medical data sets using the proposed approach, and the experimental results show that the proposed knowledge pyramid has improved the knowledge inference performance with better generalization. Especially, when there are fewer training samples, the inference accuracy can be significantly improved.
翻訳日:2024-01-18 16:26:13 公開日:2024-01-17
# HSIC-Bottleneck直交化と等角埋め込みによるDesiderata連続学習に向けて

Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding ( http://arxiv.org/abs/2401.09067v1 )

ライセンス: Link先を確認
Depeng Li, Tianqi Wang, Junwei Chen, Qining Ren, Kenji Kawaguchi, Zhigang Zeng(参考訳) ディープニューラルネットワークは、シーケンシャルなタスクでトレーニングされた場合、壊滅的な忘れがちである。 様々な連続学習(cl)手法は、モデルの安定性と可塑性のバランスをとるために、例示バッファやネットワーク拡張に依存することが多いが、プライバシやメモリ上の懸念から実用的価値を損なう。 そこで本稿では,従来のタスクからのトレーニングデータが利用できず,モデルサイズが比較的一定であるような,厳密で現実的な設定を考える。 そこで,このようなデシデラタを実現するために,レイヤーワイズパラメータのオーバーライトと決定境界の歪みを忘れることを属性として,概念的に単純かつ効果的な手法を提案する。 HSIC-Bottleneck Orthogonalization (HBO)は直交空間におけるHilbert-Schmidt独立基準を介する非上書きパラメータ更新を実装し、EquiAngular Embedding (EAE)は、予め定義された基底ベクトルを持つ古いタスクと新しいタスク間の決定境界適応を強化する。 広範な実験により,ゼロエクセプラーバッファと1.02倍のベースモデルでも,性能の面での競争力が得られた。

Deep neural networks are susceptible to catastrophic forgetting when trained on sequential tasks. Various continual learning (CL) methods often rely on exemplar buffers or/and network expansion for balancing model stability and plasticity, which, however, compromises their practical value due to privacy and memory concerns. Instead, this paper considers a strict yet realistic setting, where the training data from previous tasks is unavailable and the model size remains relatively constant during sequential training. To achieve such desiderata, we propose a conceptually simple yet effective method that attributes forgetting to layer-wise parameter overwriting and the resulting decision boundary distortion. This is achieved by the synergy between two key components: HSIC-Bottleneck Orthogonalization (HBO) implements non-overwritten parameter updates mediated by Hilbert-Schmidt independence criterion in an orthogonal space and EquiAngular Embedding (EAE) enhances decision boundary adaptation between old and new tasks with predefined basis vectors. Extensive experiments demonstrate that our method achieves competitive accuracy performance, even with absolute superiority of zero exemplar buffer and 1.02x the base model.
翻訳日:2024-01-18 16:25:57 公開日:2024-01-17
# オープンソースシミュレータとエキスパート軌道を用いた自律カテーテル化

Autonomous Catheterization with Open-source Simulator and Expert Trajectory ( http://arxiv.org/abs/2401.09059v1 )

ライセンス: Link先を確認
Tudor Jianu, Baoru Huang, Tuan Vo, Minh Nhat Vu, Jingxuan Kang, Hoan Nguyen, Olatunji Omisore, Pierre Berthet-Rayne, Sebastiano Fichera, Anh Nguyen(参考訳) 血管内ロボットは学術と産業の両方で活発に開発されている。 しかし, 自動カテーテル化への進歩は, クローズドソースシミュレータや物理ファントムの普及によって妨げられることが多い。 さらに、機械学習アルゴリズムを血管内ロボットで訓練するための大規模データセットの取得は、通常、高価な医療手順のために実現不可能である。 本章では,これらの制限に対処する世界初の血管内介入シミュレータであるCathSimを紹介する。 CathSimはリアルタイムのパフォーマンスを強調し、学習アルゴリズムの迅速な開発とテストを可能にする。 実ロボットに対してCathSimを検証し,本シミュレータが実ロボットの動作を模倣できることを示す。 CathSimをベースとして,マルチモーダル・エキスパートナビゲーションネットワークを開発し,下流血管ナビゲーションタスクの有効性を実証する。 集中的な実験結果は、CathSimが自律カテーテル分野の研究を著しく加速する可能性を示唆している。 私たちのプロジェクトはhttps://github.com/airvlab/cathsimで公開されています。

Endovascular robots have been actively developed in both academia and industry. However, progress toward autonomous catheterization is often hampered by the widespread use of closed-source simulators and physical phantoms. Additionally, the acquisition of large-scale datasets for training machine learning algorithms with endovascular robots is usually infeasible due to expensive medical procedures. In this chapter, we introduce CathSim, the first open-source simulator for endovascular intervention to address these limitations. CathSim emphasizes real-time performance to enable rapid development and testing of learning algorithms. We validate CathSim against the real robot and show that our simulator can successfully mimic the behavior of the real robot. Based on CathSim, we develop a multimodal expert navigation network and demonstrate its effectiveness in downstream endovascular navigation tasks. The intensive experimental results suggest that CathSim has the potential to significantly accelerate research in the autonomous catheterization field. Our project is publicly available at https://github.com/airvlab/cathsim.
翻訳日:2024-01-18 16:25:30 公開日:2024-01-17
# 位置ベース量子暗号のセキュリティはホログラフィによるハミルトンシミュレーションを制限する

Security of position-based quantum cryptography limits Hamiltonian simulation via holography ( http://arxiv.org/abs/2401.09058v1 )

ライセンス: Link先を確認
Harriet Apel, Toby Cubitt, Patrick Hayden, Tamara Kohler, David P\'erez-Garc\'ia(参考訳) 本研究では,[mps19]で確立された位置に基づく量子暗号(pbqc)とホログラフィの関係を,ホログラフィック量子誤り訂正符号を玩具モデルとして検討する。 もしAdS計量の「時間的」スケーリングがハミルトン相互作用強度を介しておもちゃモデルに手で挿入されると、一貫した因果構造を持つおもちゃモデルを復元する。 位置ベースの暗号が小さな絡み合いを持つ攻撃に対して安全ならば、一方のハミルトン人が別の量子情報をシミュレートするために必要なリソースに対して、新たな基本的な下位境界が存在する。

We investigate the link between position-based quantum cryptography (PBQC) and holography established in [MPS19] using holographic quantum error correcting codes as toy models. If the "temporal" scaling of the AdS metric is inserted by hand into the toy model via the bulk Hamiltonian interaction strength we recover a toy model with consistent causality structure. This leads to an interesting implication between two topics in quantum information: if position-based cryptography is secure against attacks with small entanglement then there are new fundamental lower bounds for resources required for one Hamiltonian to simulate another.
翻訳日:2024-01-18 16:25:17 公開日:2024-01-17
# crossvideo: 自己教師付きクロスモーダルコントラスト学習によるポイントクラウドビデオ理解

CrossVideo: Self-supervised Cross-modal Contrastive Learning for Point Cloud Video Understanding ( http://arxiv.org/abs/2401.09057v1 )

ライセンス: Link先を確認
Yunze Liu, Changxi Chen, Zifan Wang, Li Yi(参考訳) 本稿では,ポイントクラウドビデオ理解分野における自己教師型クロスモーダルコントラスト学習の強化を目的とした,CrossVideoという新しいアプローチを提案する。 従来の教師付き学習手法は、データ不足とラベル取得の課題のために制限を受ける。 そこで本研究では,ポイントクラウド映像と画像映像の相互モーダル関係を利用して有意義な特徴表現を得る自己教師付き学習手法を提案する。 イントラモーダルおよびクロスモーダルコントラスト学習技術は、ポイントクラウドビデオの効果的な理解を促進するために用いられる。 また,両様相に対する多レベルコントラストアプローチを提案する。 提案手法が従来の最先端手法を大幅に上回っており,提案手法の有効性を検証するために包括的アブレーション研究を実施している。

This paper introduces a novel approach named CrossVideo, which aims to enhance self-supervised cross-modal contrastive learning in the field of point cloud video understanding. Traditional supervised learning methods encounter limitations due to data scarcity and challenges in label acquisition. To address these issues, we propose a self-supervised learning method that leverages the cross-modal relationship between point cloud videos and image videos to acquire meaningful feature representations. Intra-modal and cross-modal contrastive learning techniques are employed to facilitate effective comprehension of point cloud video. We also propose a multi-level contrastive approach for both modalities. Through extensive experiments, we demonstrate that our method significantly surpasses previous state-of-the-art approaches, and we conduct comprehensive ablation studies to validate the effectiveness of our proposed designs.
翻訳日:2024-01-18 16:25:06 公開日:2024-01-17
# consistent3d: 決定論的サンプリングを先行した一貫性のある高忠実度テキストから3d生成に向けて

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior ( http://arxiv.org/abs/2401.09050v1 )

ライセンス: Link先を確認
Zike Wu, Pan Zhou, Xuanyu Yi, Xiaoding Yuan, Hanwang Zhang(参考訳) スコア蒸留サンプリング(sds)とその変種は、テキストから3d生成の発展を大きく促進しているが、幾何の崩壊やテクスチャの貧弱さにはまだ弱い。 この問題を解決するために、まずSDSを深く分析し、その蒸留サンプリングプロセスが、確率微分方程式(SDE)の軌跡サンプリング(SDE: SDS sample along a SDE trajectory)と実際に一致することを発見した。 しかし、SDEサンプリングのランダム性は、しばしば多様で予測不可能なサンプルをもたらすため、常にノイズが少なく、したがってSDSの脆弱性を説明する一貫した正しいガイダンスではない。 任意のSDEに対して、軌道サンプリングがSDEとして所望の目標点に決定的かつ一貫して収束する通常の微分方程式(ODE)が存在するので、テキストから3D生成に先立ってODE決定性サンプリングを探索する新しい「一貫性3D」手法を提案する。 具体的には,3dモデルによるレンダリング画像が与えられた各トレーニングイテレーションにおいて,事前学習した2次元拡散モデルを用いて所望の3dスコア関数を推定し,軌道サンプリングのためのodeを構築する。 次に, ode軌道に沿った試料から隣接する試料を2つ生成する一貫性蒸留サンプリング損失を設計, ノイズの少ない試料を用いてよりノイズの少ない試料を誘導して, 決定論的に3dモデルに蒸留する。 実験結果から,高忠実度・多彩な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。 コードはhttps://github.com/sail-sg/ consistent3dで入手できる。

Score distillation sampling (SDS) and its variants have greatly boosted the development of text-to-3D generation, but are vulnerable to geometry collapse and poor textures yet. To solve this issue, we first deeply analyze the SDS and find that its distillation sampling process indeed corresponds to the trajectory sampling of a stochastic differential equation (SDE): SDS samples along an SDE trajectory to yield a less noisy sample which then serves as a guidance to optimize a 3D model. However, the randomness in SDE sampling often leads to a diverse and unpredictable sample which is not always less noisy, and thus is not a consistently correct guidance, explaining the vulnerability of SDS. Since for any SDE, there always exists an ordinary differential equation (ODE) whose trajectory sampling can deterministically and consistently converge to the desired target point as the SDE, we propose a novel and effective "Consistent3D" method that explores the ODE deterministic sampling prior for text-to-3D generation. Specifically, at each training iteration, given a rendered image by a 3D model, we first estimate its desired 3D score function by a pre-trained 2D diffusion model, and build an ODE for trajectory sampling. Next, we design a consistency distillation sampling loss which samples along the ODE trajectory to generate two adjacent samples and uses the less noisy sample to guide another more noisy one for distilling the deterministic prior into the 3D model. Experimental results show the efficacy of our Consistent3D in generating high-fidelity and diverse 3D objects and large-scale scenes, as shown in Fig. 1. The codes are available at https://github.com/sail-sg/Consistent3D.
翻訳日:2024-01-18 16:24:51 公開日:2024-01-17
# オフセットシーケンスを用いた悪天候下でのlidarに基づく物体検出の高速化

Enhancing Lidar-based Object Detection in Adverse Weather using Offset Sequences in Time ( http://arxiv.org/abs/2401.09049v1 )

ライセンス: Link先を確認
Raphael van Kempen, Tim Rehbronn, Abin Jose, Johannes Stegmaier, Bastian Lampe, Timo Woopen and Lutz Eckstein(参考訳) 自動走行車は安全で効率的な運転のために周囲の正確な認識を必要とする。 ライダーを用いた物体検出は環境認識に広く用いられている手法であるが、その性能は雨や霧などの悪天候の影響が大きい。 本研究では,ライダーセンサによる連続データサンプルの処理により,ライダーによる物体検出の堅牢性を高めるための様々な戦略について検討する。 提案手法では,追加のフィルタリングや前処理を必要とせず,lidarオブジェクト検出モデルを改善するために時間情報を活用する。 トレーニング中のシーケンスのフレーム間の時間的オフセットを導入する新たな拡張戦略を含む,ポイントクラウドシーケンスを処理する10ドルの異なるニューラルネットワークアーキテクチャを比較し,実験を通じて悪天候下でのライダーポイントクラウド上のすべての戦略の有効性を評価する。 本研究は,NuScenes,Dense,Canadian Adverse Driving Conditions Datasetなどの公開データセットを用いて評価したシーケンシャルデータを用いて,ライダーによる物体検出の信頼性に及ぼす悪天候の影響を緩和する有効な方法に関する総合的研究である。 提案手法は,ランダム化フレームスキップによる時間的オフセット増大を伴い,ベースラインモデル(Pillar-based Object Detection)と比較してオブジェクト検出精度を向上させるとともに,拡張しない。

Automated vehicles require an accurate perception of their surroundings for safe and efficient driving. Lidar-based object detection is a widely used method for environment perception, but its performance is significantly affected by adverse weather conditions such as rain and fog. In this work, we investigate various strategies for enhancing the robustness of lidar-based object detection by processing sequential data samples generated by lidar sensors. Our approaches leverage temporal information to improve a lidar object detection model, without the need for additional filtering or pre-processing steps. We compare $10$ different neural network architectures that process point cloud sequences including a novel augmentation strategy introducing a temporal offset between frames of a sequence during training and evaluate the effectiveness of all strategies on lidar point clouds under adverse weather conditions through experiments. Our research provides a comprehensive study of effective methods for mitigating the effects of adverse weather on the reliability of lidar-based object detection using sequential data that are evaluated using public datasets such as nuScenes, Dense, and the Canadian Adverse Driving Conditions Dataset. Our findings demonstrate that our novel method, involving temporal offset augmentation through randomized frame skipping in sequences, enhances object detection accuracy compared to both the baseline model (Pillar-based Object Detection) and no augmentation.
翻訳日:2024-01-18 16:24:16 公開日:2024-01-17
# 合成と克服:拡散に基づく3次元奥行き認識合成

Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis ( http://arxiv.org/abs/2401.09048v1 )

ライセンス: Link先を確認
Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong(参考訳) テキスト条件拡散モデルにおける正確なレイアウト表現の源としてテキストの制限に対処するため、多くの研究は生成した画像内で特定の属性を条件付けるために追加の信号を含む。 成功したが、以前の作品は3次元平面に拡張されたそれらの属性の特定の局在を考慮していない。 本稿では,複数の画像から大域的スタイリスト意味論の異方性表現と三次元物体配置の制御を統合する条件拡散モデルを提案する。 具体的には,対象物の相対的深度を推定器として活用するために,まず,合成画像三重項を用いて未知物体の絶対位置を同定するために,<textit{depth disentanglement training}を導入する。 また,追加のローカライゼーションを使わずに,対象領域にグローバルセマンティクスを付与する手法である \textit{soft guidance} についても紹介する。 我々の統合フレームワークである \textsc{Compose and Conquer (CnC)} はこれらの手法を統一し、複数の条件をアンタングル的にローカライズする。 本手法は,局所化された対象を異なるグローバルセマンティクスで構成するための汎用フレームワークを提供しながら,異なる深さで物体を知覚できることを示す。 コード: https://github.com/tomtom1103/compose-and-conquer/

Addressing the limitations of text as a source of accurate layout representation in text-conditional diffusion models, many works incorporate additional signals to condition certain attributes within a generated image. Although successful, previous works do not account for the specific localization of said attributes extended into the three dimensional plane. In this context, we present a conditional diffusion model that integrates control over three-dimensional object placement with disentangled representations of global stylistic semantics from multiple exemplar images. Specifically, we first introduce \textit{depth disentanglement training} to leverage the relative depth of objects as an estimator, allowing the model to identify the absolute positions of unseen objects through the use of synthetic image triplets. We also introduce \textit{soft guidance}, a method for imposing global semantics onto targeted regions without the use of any additional localization cues. Our integrated framework, \textsc{Compose and Conquer (CnC)}, unifies these techniques to localize multiple conditions in a disentangled manner. We demonstrate that our approach allows perception of objects at varying depths while offering a versatile framework for composing localized objects with different global semantics. Code: https://github.com/tomtom1103/compose-and-conquer/
翻訳日:2024-01-18 16:23:53 公開日:2024-01-17
# VideoCrafter2: 高品質ビデオ拡散モデルのためのデータ制限の克服

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models ( http://arxiv.org/abs/2401.09047v1 )

ライセンス: Link先を確認
Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan(参考訳) テキストからビデオへの生成は、あるプロンプトに基づいてビデオを作成することを目的としている。 近年、いくつかの商用ビデオモデルは、最小限のノイズ、優れた詳細、高い美的スコアで可塑性ビデオを生成することができる。 しかし、これらのモデルは、コミュニティにはアクセスできない大規模でフィルターのとれた高品質なビデオに依存している。 低品質のWebVid-10Mデータセットを使用してモデルをトレーニングする既存の研究の多くは、モデルがWebVid-10Mに適合するように最適化されているため、高品質なビデオを生成するのに苦労している。 本研究では,安定拡散から拡張された映像モデルのトレーニングスキームを調査し,低品質映像と高画質映像の合成による高品質映像モデルの実現可能性について検討する。 まず,ビデオモデルの時間的モジュールと時間的モジュール間の接続と,低品質ビデオへの配信シフトを解析した。 すべてのモジュールの完全なトレーニングは、時間的モジュールのみをトレーニングするよりも、空間的モジュールと時間的モジュールの結合が強くなる。 この強結合に基づき、空間モジュールを高品質の画像で微調整することにより、動作劣化のない高品質な映像モデルに分布をシフトさせる。 提案手法の優位性,特に画質,動き,概念構成において評価を行った。

Text-to-video generation aims to produce a video based on a given prompt. Recently, several commercial video models have been able to generate plausible videos with minimal noise, excellent details, and high aesthetic scores. However, these models rely on large-scale, well-filtered, high-quality videos that are not accessible to the community. Many existing research works, which train models using the low-quality WebVid-10M dataset, struggle to generate high-quality videos because the models are optimized to fit WebVid-10M. In this work, we explore the training scheme of video models extended from Stable Diffusion and investigate the feasibility of leveraging low-quality videos and synthesized high-quality images to obtain a high-quality video model. We first analyze the connection between the spatial and temporal modules of video models and the distribution shift to low-quality videos. We observe that full training of all modules results in a stronger coupling between spatial and temporal modules than only training temporal modules. Based on this stronger coupling, we shift the distribution to higher quality without motion degradation by finetuning spatial modules with high-quality images, resulting in a generic high-quality video model. Evaluations are conducted to demonstrate the superiority of the proposed method, particularly in picture quality, motion, and concept composition.
翻訳日:2024-01-18 16:23:29 公開日:2024-01-17
# Google検索におけるバイアスのアルゴリズムによる増幅

Algorithmic amplification of biases on Google Search ( http://arxiv.org/abs/2401.09044v1 )

ライセンス: Link先を確認
Hussam Habib, Ryan Stoldt, Andrew High, Brian Ekdale, Ashley Peterson, Katy Biddle, Javie Ssozi, and Rishab Nithyanand(参考訳) Googleのような検索エンジンが推進する情報検索プロセスの進化は、人々の持つ情報へのアクセスを変革した。 本稿では,個人の既存態度が現代の情報探索プロセス,特にGoogle検索の結果にどのように影響するかを考察する。 中絶の話題に焦点を当てた調査と情報探索タスクに関する総合的研究を通じて、本論文は4つの重要な洞察を提供する。 1)中絶に対する反対姿勢の人は異なる検索結果を受け取る。 2)個人は,検索クエリの定式化に使用される語彙の選択に対する信念を表現し,検索の結果を形作る。 3) ユーザの検索履歴は, 反対の態度を持つ者の間で異なる結果をもたらす。 4)Google検索エンジンは、検索結果の既存の信念を強化する。 概して、この研究は人間のバイアスとアルゴリズムプロセスの間の相互作用に関する洞察を提供し、現代の情報探索プロセスにおける情報分極の可能性を強調している。

The evolution of information-seeking processes, driven by search engines like Google, has transformed the access to information people have. This paper investigates how individuals' preexisting attitudes influence the modern information-seeking process, specifically the results presented by Google Search. Through a comprehensive study involving surveys and information-seeking tasks focusing on the topic of abortion, the paper provides four crucial insights: 1) Individuals with opposing attitudes on abortion receive different search results. 2) Individuals express their beliefs in their choice of vocabulary used in formulating the search queries, shaping the outcome of the search. 3) Additionally, the user's search history contributes to divergent results among those with opposing attitudes. 4) Google Search engine reinforces preexisting beliefs in search results. Overall, this study provides insights into the interplay between human biases and algorithmic processes, highlighting the potential for information polarization in modern information-seeking processes.
翻訳日:2024-01-18 16:22:51 公開日:2024-01-17
# SM$^3$: 人工物体の多視点2次元画像を用いた自己監督型マルチタスクモデリング

SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects ( http://arxiv.org/abs/2401.09133v1 )

ライセンス: Link先を確認
Haowen Wang, Zhen Zhao, Zhao Jin, Zhengping Che, Liang Qiao, Yakun Huang, Zhipeng Fan, Xiuquan Qiao, and Jian Tang(参考訳) 現実世界のオブジェクトを再構築し、その可動ジョイント構造を推定することは、ロボティクスの分野において重要な技術である。 これまでの研究は主に教師付きアプローチに重点を置いており、限定されたカテゴリ内のarticulated objectをモデル化するために、広範囲に注釈付きデータセットに依存している。 しかし、このアプローチは現実世界に存在する多様性に効果的に対応できない。 そこで本研究では,対話の前後に撮影された多視点のrgb画像を活用した自己教師付き対話知覚法であるsm$^3$を提案する。 取得した2次元画像から3次元のジオメトリとテクスチャを構築することで、SM$^3$は再構築プロセス中に可動部と関節パラメータの統合最適化を実現し、アノテーションの必要性を回避できる。 さらに,多様なカテゴリにまたがる多視点および多モードなオブジェクトデータを含む,PartNet-Mobilityの拡張であるMMArtデータセットを導入する。 SM$^3$は様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオでの適応性は十分に検証されている。

Reconstructing real-world objects and estimating their movable joint structures are pivotal technologies within the field of robotics. Previous research has predominantly focused on supervised approaches, relying on extensively annotated datasets to model articulated objects within limited categories. However, this approach falls short of effectively addressing the diversity present in the real world. To tackle this issue, we propose a self-supervised interaction perception method, referred to as SM$^3$, which leverages multi-view RGB images captured before and after interaction to model articulated objects, identify the movable parts, and infer the parameters of their rotating joints. By constructing 3D geometries and textures from the captured 2D images, SM$^3$ achieves integrated optimization of movable part and joint parameters during the reconstruction process, obviating the need for annotations. Furthermore, we introduce the MMArt dataset, an extension of PartNet-Mobility, encompassing multi-view and multi-modal data of articulated objects spanning diverse categories. Evaluations demonstrate that SM$^3$ surpasses existing benchmarks across various categories and objects, while its adaptability in real-world scenarios has been thoroughly validated.
翻訳日:2024-01-18 16:15:25 公開日:2024-01-17
# 照明付きオブジェクト:オブジェクトのリライトの再構成とレンダリングを評価するための現実世界のデータセット

Objects With Lighting: A Real-World Dataset for Evaluating Reconstruction and Rendering for Object Relighting ( http://arxiv.org/abs/2401.09126v1 )

ライセンス: Link先を確認
Benjamin Ummenhofer, Sanskar Agrawal, Rene Sepulveda, Yixing Lao, Kai Zhang, Tianhang Cheng, Stephan Richter, Shenlong Wang, German Ros(参考訳) 写真からオブジェクトを再構成し、仮想的に新しい環境に置くことは、オブジェクトの外観が新しい視点に適応するだけでなく、新しい照明条件や、新しいビュー合成データや簡易な合成データセットに依存する逆レンダリング手法の評価にも適応する必要があるため、標準的な新しいビュー合成タスクを超越している。 本研究は,オブジェクトの復元とレンダリングを測定するための実世界のデータセットを提案する。 この目的のために,同一の物体の環境照明画像と地上の真理画像を複数の環境においてキャプチャし,一つの環境に撮影された画像から物体を再構築し,目に見えない照明環境のレンダリングビューの品質を定量化する。 さらに,既製メソッドからなる単純なベースラインを導入し,リライトタスクにおける最先端メソッドをいくつかテストし,新しいビュー合成は,パフォーマンスを測定するための信頼性の高いプロキシではないことを示す。 コードとデータセットはhttps://github.com/isl-org/objects-with-lightingで入手できる。

Reconstructing an object from photos and placing it virtually in a new environment goes beyond the standard novel view synthesis task as the appearance of the object has to not only adapt to the novel viewpoint but also to the new lighting conditions and yet evaluations of inverse rendering methods rely on novel view synthesis data or simplistic synthetic datasets for quantitative analysis. This work presents a real-world dataset for measuring the reconstruction and rendering of objects for relighting. To this end, we capture the environment lighting and ground truth images of the same objects in multiple environments allowing to reconstruct the objects from images taken in one environment and quantify the quality of the rendered views for the unseen lighting environments. Further, we introduce a simple baseline composed of off-the-shelf methods and test several state-of-the-art methods on the relighting task and show that novel view synthesis is not a reliable proxy to measure performance. Code and dataset are available at https://github.com/isl-org/objects-with-lighting .
翻訳日:2024-01-18 16:14:59 公開日:2024-01-17
# グラフニューラルネットワークのヘテロフォリー理解

Understanding Heterophily for Graph Neural Networks ( http://arxiv.org/abs/2401.09125v1 )

ライセンス: Link先を確認
Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang(参考訳) ヘテロフィリーグラフはグラフニューラルネットワーク(GNN)の難解なシナリオとみなされており、ノードは様々なパターンを通じて異種隣人と接続されている。 本稿では,多種多様なヘテロフィリーパターンに対応可能な一般ランダムグラフモデルであるhsbm(heterphilous stochastic block model)を用いて,グラフ畳み込み(gc)演算を完全連結ネットワークに組み込むことにより,gnnの異なるヘテロフィアパターンの影響を理論的に理解する。 第一に、GC演算を適用することにより、分離性ゲインは、近傍分布のユークリッド距離と$\sqrt{\mathbb{E}\left[\operatorname{deg}\right]}$、$\mathbb{E}\left[\operatorname{deg}\right]$の2つの因子によって決定される。 ヘテロフィリーが分類に与える影響は、平均ノード次数とともに評価する必要がある。 第二に、トポロジカルノイズが分離性に有害な影響を与えることを示し、これは$\mathbb{e}\left[\operatorname{deg}\right]$ の劣化と同値である。 最後に,複数のGC演算を適用すると,$l$の近傍分布の正規化距離によって分離性ゲインが決定されることを示す。 ノードがいまだに分離性を持っていることを示しており、$l$は広範囲のレシエーションにおいて無限に進む。 合成データと実世界データの両方に関する広範な実験により,本理論の有効性が検証された。

Graphs with heterophily have been regarded as challenging scenarios for Graph Neural Networks (GNNs), where nodes are connected with dissimilar neighbors through various patterns. In this paper, we present theoretical understandings of the impacts of different heterophily patterns for GNNs by incorporating the graph convolution (GC) operations into fully connected networks via the proposed Heterophilous Stochastic Block Models (HSBM), a general random graph model that can accommodate diverse heterophily patterns. Firstly, we show that by applying a GC operation, the separability gains are determined by two factors, i.e., the Euclidean distance of the neighborhood distributions and $\sqrt{\mathbb{E}\left[\operatorname{deg}\right]}$, where $\mathbb{E}\left[\operatorname{deg}\right]$ is the averaged node degree. It reveals that the impact of heterophily on classification needs to be evaluated alongside the averaged node degree. Secondly, we show that the topological noise has a detrimental impact on separability, which is equivalent to degrading $\mathbb{E}\left[\operatorname{deg}\right]$. Finally, when applying multiple GC operations, we show that the separability gains are determined by the normalized distance of the $l$-powered neighborhood distributions. It indicates that the nodes still possess separability as $l$ goes to infinity in a wide range of regimes. Extensive experiments on both synthetic and real-world data verify the effectiveness of our theory.
翻訳日:2024-01-18 16:14:40 公開日:2024-01-17
# 非相互準ループ電気ネットワークのファドデーフ・ジャッキー量子化

Faddeev-Jackiw quantisation of nonreciprocal quasi-lumped electrical networks ( http://arxiv.org/abs/2401.09120v1 )

ライセンス: Link先を確認
A. Parra-Rodriguez and I. L. Egusquiza(参考訳) Parra-Rodriguez et al. (2023) で導入された一貫した幾何学的記述に続いて、非線形で非相反的な準ループ電気ネットワークの正準定量的なハミルトン記述を得るための正確な方法を提案する。 Faddeev-Jackiw 法を再び利用し、一般準ループ要素ネットワークのハミルトン的記述の探求から生じるすべての特異点を特定し、分類し、それらを体系的に解決する(正準回路量子化の文脈における大きな課題)。 したがって、解は還元された古典回路状態多様体、すなわちフラックス場と電荷場と関数の混合の正しい同定に依存する。 伝送線路の幾何学的記述から始まり、一ポートの集中要素ネットワークに結合された線と非線形集中要素ネットワークに接続された複数の線を含む完全なプログラムを提供する。 そこで本研究では,実効循環器などの周波数依存非相互線形系を介し,伝送線路の正準量子化を自然に拡張する。 さらに,本手法が一般の非相互・散逸的線形環境の特性をシームレスに促進することを示す。 これはカルデイラ・レゲット形式を延長し、一連のイミタンス行列の連続極限を利用することによって達成される。 この研究は、電気回路の解析と設計、特に超伝導ネットワークの正準量子化の文脈において有用なツールになることを期待している。 例えば、この研究は、例えば導波路QEDプラットフォーム内の非相互デバイスの存在において、正確な入出力理論のための確かな基盤を提供する。

Following a consistent geometrical description previously introduced in Parra-Rodriguez et al. (2023), we present an exact method for obtaining canonically quantisable Hamiltonian descriptions of nonlinear, nonreciprocal quasi-lumped electrical networks. Utilising the Faddeev-Jackiw method once more, we identify and classify all possible singularities arising in the quest for Hamiltonian descriptions of general quasi-lumped element networks, and we offer systematic solutions to them--a major challenge in the context of canonical circuit quantisation. Accordingly, the solution relies on the correct identification of the reduced classical circuit-state manifold, i.e., a mix of flux and charge fields and functions. Starting from the geometrical description of the transmission line, we provide a complete program including lines coupled to one-port lumped-element networks, as well as multiple lines connected to nonlinear lumped-element networks. On the way, we naturally extend the canonical quantisation of transmission lines coupled through frequency-dependent, nonreciprocal linear systems, such as practical circulators. Additionally, we demonstrate how our method seamlessly facilitates the characterisation of general nonreciprocal, dissipative linear environments. This is achieved by extending the Caldeira-Leggett formalism, utilising continuous limits of series of immittance matrices. We expect this work to become a useful tool in the analysis and design of electrical circuits and of special interest in the context of canonical quantisation of superconducting networks. For instance, this work will provide a solid ground for a precise input-output theory in the presence of nonreciprocal devices, e.g., within waveguide QED platforms.
翻訳日:2024-01-18 16:14:10 公開日:2024-01-17
# ベクトル化HDマップ構築のためのストリームクエリDenoising

Stream Query Denoising for Vectorized HD Map Construction ( http://arxiv.org/abs/2401.09112v1 )

ライセンス: Link先を確認
Shuo Wang, Fan Jia, Yingfei Liu, Yucheng Zhao, Zehui Chen, Tiancai Wang, Chi Zhang, Xiangyu Zhang, Feng Zhao(参考訳) 自律運転の領域における複雑で広範なシナリオにおける知覚性能を高めるために、特にストリーミング手法に焦点を当てた時間的モデリングに注目が集まっている。 ストリーミングモデルにおける一般的なトレンドは、時間情報の伝搬にストリームクエリを利用することである。 このアプローチが普及しているにもかかわらず、ベクトル化ハイデフィニションマップ(HD-maps)の構築へのストリーミングパラダイムの直接的な適用は、時間情報の固有ポテンシャルを完全に活用することができない。 本稿では,HDマップ構築における時間的モデリングのための新しいアプローチとして,ストリームクエリデノイング(SQD)戦略を紹介する。 SQDはストリーミングモデル内のマップ要素間の時間的一貫性の学習を容易にするように設計されている。 提案手法は,前のフレームからの接地情報に対するノイズの追加によりゆるめられたクエリを特徴付けるものである。 このノイズ除去プロセスは、現在のフレームの基底情報を再構築し、ストリームクエリに固有の予測プロセスをシミュレートすることを目的としている。 SQD戦略は、時間的モデリングを強化するために、ストリーミングメソッド(StreamMapNetなど)に適用することができる。 提案されているSQD-MapNetはSQDを備えたStreamMapNetである。 ヌッセンとアルゴバース2を広範囲に実験した結果,近距離と遠距離のすべての設定において,既存の手法よりも優れた方法が得られた。 コードはもうすぐ入手できる。

To enhance perception performance in complex and extensive scenarios within the realm of autonomous driving, there has been a noteworthy focus on temporal modeling, with a particular emphasis on streaming methods. The prevailing trend in streaming models involves the utilization of stream queries for the propagation of temporal information. Despite the prevalence of this approach, the direct application of the streaming paradigm to the construction of vectorized high-definition maps (HD-maps) fails to fully harness the inherent potential of temporal information. This paper introduces the Stream Query Denoising (SQD) strategy as a novel approach for temporal modeling in high-definition map (HD-map) construction. SQD is designed to facilitate the learning of temporal consistency among map elements within the streaming model. The methodology involves denoising the queries that have been perturbed by the addition of noise to the ground-truth information from the preceding frame. This denoising process aims to reconstruct the ground-truth information for the current frame, thereby simulating the prediction process inherent in stream queries. The SQD strategy can be applied to those streaming methods (e.g., StreamMapNet) to enhance the temporal modeling. The proposed SQD-MapNet is the StreamMapNet equipped with SQD. Extensive experiments on nuScenes and Argoverse2 show that our method is remarkably superior to other existing methods across all settings of close range and long range. The code will be available soon.
翻訳日:2024-01-18 16:13:37 公開日:2024-01-17
# テクスチャバイアスに閉じ込められた? 深部インスタンスセグメンテーションの大規模比較

Trapped in texture bias? A large scale comparison of deep instance segmentation ( http://arxiv.org/abs/2401.09109v1 )

ライセンス: Link先を確認
Johannes Theodoridis, Jessica Hofmann, Johannes Maucher, Andreas Schilling(参考訳) ディープラーニングモデル、例えばセグメンテーションは、体系的な方法で新しいオブジェクトに一般化するのか? 分類に関して、そのような行動は疑問視されている。 本研究では,フレームワークやアーキテクチャ,事前学習といった設計決定が,インスタンスセグメンテーションの意味的理解に寄与するかどうかを理解することを目的とする。 この問題に対処するために、我々は、厳密さの特別な事例を考察し、オブジェクト中心の分布外テクスチャのための挑戦的なベンチマークで事前学習されたモデルと比較する。 この作業には別の方法を導入しません。 代わりに、私たちは一歩後退して、幅広い既存の文献を評価します。 これには Cascade と Mask R-CNN, Swin Transformer, BMask, YOLACT(++), DETR, BCNet, SOTR, SOLOv2 が含まれる。 YOLACT++、SOTR、SOLOv2は、他のフレームワークよりも、配布外テクスチャに対してはるかに堅牢である。 さらに,より深い動的アーキテクチャではロバスト性が向上するが,トレーニングスケジュールやデータ拡張,事前トレーニングでは影響が小さい。 要約すると, 61バージョンのMS COCOを68モデル評価し, 合計4148評価を行った。

Do deep learning models for instance segmentation generalize to novel objects in a systematic way? For classification, such behavior has been questioned. In this study, we aim to understand if certain design decisions such as framework, architecture or pre-training contribute to the semantic understanding of instance segmentation. To answer this question, we consider a special case of robustness and compare pre-trained models on a challenging benchmark for object-centric, out-of-distribution texture. We do not introduce another method in this work. Instead, we take a step back and evaluate a broad range of existing literature. This includes Cascade and Mask R-CNN, Swin Transformer, BMask, YOLACT(++), DETR, BCNet, SOTR and SOLOv2. We find that YOLACT++, SOTR and SOLOv2 are significantly more robust to out-of-distribution texture than other frameworks. In addition, we show that deeper and dynamic architectures improve robustness whereas training schedules, data augmentation and pre-training have only a minor impact. In summary we evaluate 68 models on 61 versions of MS COCO for a total of 4148 evaluations.
翻訳日:2024-01-18 16:13:16 公開日:2024-01-17
# RWKV-TS: 時系列タスクのための従来のリカレントニューラルネットワークを超えて

RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks ( http://arxiv.org/abs/2401.09093v1 )

ライセンス: Link先を確認
Haowen Hou and F. Richard Yu(参考訳) LSTMやGRUのような従来のリカレントニューラルネットワーク(RNN)アーキテクチャは、時系列タスクにおいて歴史的に優位性を保持してきた。 しかし、近年は様々な時系列タスクにおいて支配的な地位が低下している。 結果として、最近の時系列予測の進歩は、トランスフォーマー、MPP、CNNといった代替アーキテクチャへと顕著に変化した。 従来のRNNの限界を超えて、RWKV-TSと呼ばれる時系列タスクのための効率的なRNNベースモデルを設計する。 (i)$O(L)$時間複雑性とメモリ使用量で特徴付けられる新しいRNNアーキテクチャ。 (II)従来のRNNと比較して長期的シーケンス情報をキャプチャする能力の強化。 (iii)高い計算効率と効果的にスケールアップできる能力とを併せ持つ。 提案したRWKV-TSモデルは, 最先端のTransformerベースモデルやCNNベースモデルと比較して, 競争性能を示す。 特に、RWKV-TSは同等のパフォーマンスを示すだけでなく、レイテンシとメモリ使用量の削減を示す。 RWKV-TSの成功は、時系列の領域内でRNNベースのアプローチを活用する上で、さらなる探索と革新を促進する。 競合性能、低レイテンシ、効率的なメモリ使用量の組み合わせにより、RWKV-TSは時系列タスクにおける将来の研究の道のりとなる。 コードは以下の通り。\href{https://github.com/howard-hou/RWKV-TS}{ https://github.com/howard-hou/RWKV-TS}

Traditional Recurrent Neural Network (RNN) architectures, such as LSTM and GRU, have historically held prominence in time series tasks. However, they have recently seen a decline in their dominant position across various time series tasks. As a result, recent advancements in time series forecasting have seen a notable shift away from RNNs towards alternative architectures such as Transformers, MLPs, and CNNs. To go beyond the limitations of traditional RNNs, we design an efficient RNN-based model for time series tasks, named RWKV-TS, with three distinctive features: (i) A novel RNN architecture characterized by $O(L)$ time complexity and memory usage. (ii) An enhanced ability to capture long-term sequence information compared to traditional RNNs. (iii) High computational efficiency coupled with the capacity to scale up effectively. Through extensive experimentation, our proposed RWKV-TS model demonstrates competitive performance when compared to state-of-the-art Transformer-based or CNN-based models. Notably, RWKV-TS exhibits not only comparable performance but also demonstrates reduced latency and memory utilization. The success of RWKV-TS encourages further exploration and innovation in leveraging RNN-based approaches within the domain of Time Series. The combination of competitive performance, low latency, and efficient memory usage positions RWKV-TS as a promising avenue for future research in time series tasks. Code is available at:\href{https://github.com/howard-hou/RWKV-TS}{ https://github.com/howard-hou/RWKV-TS}
翻訳日:2024-01-18 16:12:56 公開日:2024-01-17
# 地中エネルギー推定のための雑音耐性量子アルゴリズム

Noise-Tolerant Quantum Algorithm for Ground State Energy Estimation ( http://arxiv.org/abs/2401.09091v1 )

ライセンス: Link先を確認
Erenay Karacan, Christian B. Mendl, Yanbin Chen(参考訳) 量子コンピュータの最も有望な応用の1つは、量子力学システムをシミュレートし、それらの固有量子挙動を利用して古典計算に利点をもたらすことである。 本研究では, 地盤状態エネルギー推定のための雑音耐性ハミルトンシミュレーションアルゴリズムを実現するための新しい手法を提案する。 このアルゴリズムは、任意の目標精度に到達可能な数値で基底状態エネルギーの桁を推定するために、ファジィ二断面探索の適応セットに基づいている。 単位行列の量子固有値変換(QETU)アルゴリズムに基づいており、特にTFIM(Transverse-Field Ising Model)において1e-3までの量子非偏極確率を持つシミュレーションにおいて優れた近似を提供する。 我々は,ibm qiskit上で異なるシステムハミルトン, システムサイズ, 時間発展エンコーディング手法を用いたシミュレーションを行い, 本研究における重要な結果を示し, 他の既存手法との比較を行った。

One of the most promising applications of quantum computers is to simulate quantum mechanical systems and deliver an advantage to classical computation by leveraging their inherent quantum behaviour. In this work, we present a new approach to achieve a noise tolerant Hamiltonian simulation algorithm for ground state energy estimation which also surmounts stochastic limitations most of its counterparts face. This algorithm is based on an adaptive set of fuzzy bisection searches to estimate the ground state energy digit by digit that can get to any arbitrary target precision. It builds upon the Quantum Eigenvalue Transformation of Unitary Matrices (QETU) algorithm and it delivers good approximations in simulations with quantum depolarizing probability up to 1e-3, particularly for the Transverse-Field Ising Model (TFIM). We ran simulations with different system Hamiltonians, system sizes and time evolution encoding methods on IBM Qiskit and we demonstrate the key results in this work, as well as compare the performance with other existing methods.
翻訳日:2024-01-18 16:12:37 公開日:2024-01-17
# 医療における大規模言語モデルを用いた公衆の関心事と選択の理解

Understanding the concerns and choices of public when using large language models for healthcare ( http://arxiv.org/abs/2401.09090v1 )

ライセンス: Link先を確認
Yunpeng Xiao, Kyrie Zhixuan Zhou, Yueqing Liang, Kai Shu(参考訳) 大規模言語モデル(llm)は生物医学の分野でその可能性を示している。 しかし、医学的Q&A、自己診断、日々の医療情報検索などの医療目的にどのように使用されるかはまだ解明されていない。 本稿では,医療にLLMをどのように利用しているかを調査するために,調査(N=167)と面接(N=17)を含む混合メソッドアプローチを採用する。 医療ツールとしてのLLMは人気があり、検索エンジンやオンラインヘルスコミュニティといった他の情報チャネルと組み合わせて情報品質を最適化することが多い。 LLMは従来のチャネルと比較して、より正確な情報と、より便利なインタラクション/サービスモデルを提供します。 LLMは、特に日々の医療問題において、誤情報を減らすためのより良い仕事をする。 診断にLSMを使用する医師は、医療記録を書くなどの補助的な仕事ほど受け入れられない。 本研究は,医療におけるLLMの倫理的・効果的な活用を反映し,今後の研究方向性を提案する。

Large language models (LLMs) have shown their potential in biomedical fields. However, how the public uses them for healthcare purposes such as medical Q\&A, self-diagnosis, and daily healthcare information seeking is under-investigated. In this paper, we adopt a mixed-methods approach, including surveys (N=167) and interviews (N=17) to investigate how and why the public uses LLMs for healthcare. LLMs as a healthcare tool have gained popularity, and are often used in combination with other information channels such as search engines and online health communities to optimize information quality. LLMs provide more accurate information and a more convenient interaction/service model compared to traditional channels. LLMs also do a better job of reducing misinformation, especially in daily healthcare questions. Doctors using LLMs for diagnosis is less acceptable than for auxiliary work such as writing medical records. Based on the findings, we reflect on the ethical and effective use of LLMs for healthcare and propose future research directions.
翻訳日:2024-01-18 16:12:19 公開日:2024-01-17
# UniVG: UNIfied-modal Video Generationを目指して

UniVG: Towards UNIfied-modal Video Generation ( http://arxiv.org/abs/2401.09084v1 )

ライセンス: Link先を確認
Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao(参考訳) 拡散に基づくビデオ生成は広く注目され、学術と産業の両方でかなりの成功を収めている。 しかし、現在の取り組みは主に、テキストによる生成、画像による生成、テキストと画像の組み合わせなど、単一目的または単一タスクのビデオ生成に集中している。 これは現実世界のアプリケーションシナリオのニーズを完全に満たすことはできない。ユーザーは画像とテキストの条件を個別に、あるいは組み合わせて、柔軟に入力することができる。 そこで本研究では,テキストと画像のモダリティ間で複数のビデオ生成タスクを処理できるUnified-modal Video Genearationシステムを提案する。 この目的のために,我々は生成自由の観点から,システム内の様々なビデオ生成タスクを再検討し,それらを高自由度かつ低自由度ビデオ生成カテゴリに分類する。 高自由度ビデオ生成には,入力画像やテキストのセマンティクスに合致した映像を生成するために,マルチコンディショニングクロスアテンションを用いる。 低自由度ビデオ生成には、純粋なランダムなガウスノイズを置き換えるためにバイアスドガウスノイズを導入し、入力条件の内容の保存に役立てる。 本手法は,公開学術ベンチマーク msr-vtt で最低の fr\'echet video distance (fvd) を達成し,人間評価における現在のオープンソース手法を上回り,現在のクローズソース法 gen2 と同等である。 詳しくはhttps://univg-baidu.github.ioをご覧ください。

Diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by text, by image, or by a combination of text and image. This cannot fully meet the needs of real-world application scenarios, as users are likely to input images and text conditions in a flexible manner, either individually or in combination. To address this, we propose a Unified-modal Video Genearation system that is capable of handling multiple video generation tasks across text and image modalities. To this end, we revisit the various video generation tasks within our system from the perspective of generative freedom, and classify them into high-freedom and low-freedom video generation categories. For high-freedom video generation, we employ Multi-condition Cross Attention to generate videos that align with the semantics of the input images or text. For low-freedom video generation, we introduce Biased Gaussian Noise to replace the pure random Gaussian Noise, which helps to better preserve the content of the input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD) on the public academic benchmark MSR-VTT, surpasses the current open-source methods in human evaluations, and is on par with the current close-source method Gen2. For more samples, visit https://univg-baidu.github.io.
翻訳日:2024-01-18 16:12:03 公開日:2024-01-17
# リモートセンシングChatGPT:ChatGPTとビジュアルモデルによるリモートセンシングタスクの解決

Remote Sensing ChatGPT: Solving Remote Sensing Tasks with ChatGPT and Visual Models ( http://arxiv.org/abs/2401.09083v1 )

ライセンス: Link先を確認
Haonan Guo, Xin Su, Chen Wu, Bo Du, Liangpei Zhang, Deren Li(参考訳) 近年,言語理解,推論,インタラクションにおいて,言語モデル(特にChatGPT)が優れており,複数の分野や領域からユーザや研究者を引き寄せている。 llmは自然言語と自然画像で人間のようなタスクを成し遂げる能力を示したが、リモートセンシングの解釈タスクを扱う可能性はまだ十分に検討されていない。 さらに、リモートセンシングタスク計画における自動化の欠如は、リモートセンシング解釈技術のアクセシビリティを阻害する。 この目的のために我々は、ChatGPTを利用して複雑な解釈タスクを解決するために、さまざまなAIベースのリモートセンシングモデルを接続するLLMエージェントであるRemote Sensing ChatGPTを提案する。 具体的には,ユーザの要求とリモートセンシング画像から,chatgptを用いてユーザの要求を理解し,タスクの機能に応じてタスク計画を行い,各サブタスクを反復的に実行し,各サブタスクの出力に応じて最終応答を生成する。 LLMは自然言語で訓練されており、リモートセンシング画像に含まれる視覚概念を直接知覚することができないことから、ChatGPTに視覚情報を注入する視覚的手がかりを設計した。 Remote Sensing ChatGPTを使用すると、ユーザは対応するリクエストでリモートセンシングイメージを送信し、Remote Sensing ChatGPTからの言語フィードバックだけでなく、解釈結果を取得することができる。 実験や例は、リモートセンシングチャットgptが幅広いリモートセンシングタスクに取り組み、リモートセンシング基盤モデルのようなより洗練されたモデルでより多くのタスクに拡張できることを示しています。 Remote Sensing ChatGPTのコードとデモはhttps://github.com/HaonanGuo/Remote-Sensing-ChatGPTで公開されている。

Recently, the flourishing large language models(LLM), especially ChatGPT, have shown exceptional performance in language understanding, reasoning, and interaction, attracting users and researchers from multiple fields and domains. Although LLMs have shown great capacity to perform human-like task accomplishment in natural language and natural image, their potential in handling remote sensing interpretation tasks has not yet been fully explored. Moreover, the lack of automation in remote sensing task planning hinders the accessibility of remote sensing interpretation techniques, especially to non-remote sensing experts from multiple research fields. To this end, we present Remote Sensing ChatGPT, an LLM-powered agent that utilizes ChatGPT to connect various AI-based remote sensing models to solve complicated interpretation tasks. More specifically, given a user request and a remote sensing image, we utilized ChatGPT to understand user requests, perform task planning according to the tasks' functions, execute each subtask iteratively, and generate the final response according to the output of each subtask. Considering that LLM is trained with natural language and is not capable of directly perceiving visual concepts as contained in remote sensing images, we designed visual cues that inject visual information into ChatGPT. With Remote Sensing ChatGPT, users can simply send a remote sensing image with the corresponding request, and get the interpretation results as well as language feedback from Remote Sensing ChatGPT. Experiments and examples show that Remote Sensing ChatGPT can tackle a wide range of remote sensing tasks and can be extended to more tasks with more sophisticated models such as the remote sensing foundation model. The code and demo of Remote Sensing ChatGPT is publicly available at https://github.com/HaonanGuo/Remote-Sensing-ChatGPT .
翻訳日:2024-01-18 16:11:37 公開日:2024-01-17
# 良い」社交俳優に何をもたらすか。 レンズとしての敬意を用いた言語エージェントとのインタラクション評価

What makes for a 'good' social actor? Using respect as a lens to evaluate interactions with language agents ( http://arxiv.org/abs/2401.09082v1 )

ライセンス: Link先を確認
Lize Alberts, Geoff Keeling and Amanda McCroskery(参考訳) 大規模言語モデル(LLM)に基づく対話エージェントの普及に伴い、彼らの行動が倫理的かつ適切であることを確実にする方法を見つけるために緊急の注意が向けられている。 これらは主に、アウトプットをより有益で正直にし、有害な(バイアス、毒性、不正確な)ステートメントを避けるという「hhh」の基準で解釈される。 この意味論的な焦点は、llmエージェントを単なる情報メディアとして見るという観点からは有用であるが、異なる社会的状況において、同じ発話を多かれ少なかれ攻撃的あるいは無力に感じさせるような実用的要因を考慮できない。 本研究では,関係性や状況的要因を中心にした倫理的アプローチを提案し,社会的アクターとしてのシステムの意味を探求し,個人を(一連の)インタラクションにおいて尊重する。 我々の研究は、位置する相互作用のレベルで、ほとんど探索されていないリスクのセットを予想し、LLM技術が「良い」社会的アクターとして振る舞うことを助けるための実践的な提案を提供し、人々を敬意をもって扱う。

With the growing popularity of dialogue agents based on large language models (LLMs), urgent attention has been drawn to finding ways to ensure their behaviour is ethical and appropriate. These are largely interpreted in terms of the 'HHH' criteria: making outputs more helpful and honest, and avoiding harmful (biased, toxic, or inaccurate) statements. Whilst this semantic focus is useful from the perspective of viewing LLM agents as mere mediums for information, it fails to account for pragmatic factors that can make the same utterance seem more or less offensive or tactless in different social situations. We propose an approach to ethics that is more centred on relational and situational factors, exploring what it means for a system, as a social actor, to treat an individual respectfully in a (series of) interaction(s). Our work anticipates a set of largely unexplored risks at the level of situated interaction, and offers practical suggestions to help LLM technologies behave as 'good' social actors and treat people respectfully.
翻訳日:2024-01-18 16:11:06 公開日:2024-01-17
# 量子コンピュータシミュレーションソフトウェアパッケージのベンチマーク

Benchmarking quantum computer simulation software packages ( http://arxiv.org/abs/2401.09076v1 )

ライセンス: Link先を確認
Amit Jamadagni, Andreas M. L\"auchli and Cornelius Hempel(参考訳) 量子コンピューティング技術の急速な進歩は、アルゴリズム設計と量子ハードウェアから得られる結果の検証を可能にするソフトウェアシミュレータの必要性が高まっている。 これには、量子コンピュータが同じタスクで古典的コンピュータを上回る量子優位のレジームを見つけることを目的とした計算が含まれる。 高性能コンピューティング(HPC)プラットフォームは、今日の量子デバイスが、強力なワークステーションがモデル化できる限界を超えてすでに到達しているため、重要な役割を担っている。 本技術レビューでは,hpc機能に着目し,量子力学をシミュレート可能なソフトウェアパッケージをいくつかベンチマークする。 我々は、異なる並列化機能を用いて、ローカルHPCクラスタ上で大規模なシミュレーションパッケージをベンチマークするコンテナ化されたツールチェーンを開発し、3つのパラダイム量子コンピューティングタスクのパフォーマンスとシステムサイズを比較検討した。 この結果は,シミュレーションタスクに適したパッケージを見つける上で有効であり,既存および新たに開発されたシミュレーションパッケージの今後のバージョンをベンチマークし,検証するための,体系的なコミュニティ活動の基礎となる。

Rapid advances in quantum computing technology lead to an increasing need for software simulators that enable both algorithm design and the validation of results obtained from quantum hardware. This includes calculations that aim at probing regimes of quantum advantage, where a quantum computer outperforms a classical computer in the same task. High performance computing (HPC) platforms play a crucial role as today's quantum devices already reach beyond the limits of what powerful workstations can model, but a systematic evaluation of the individual performance of the many offered simulation packages is lacking so far. In this Technical Review, we benchmark several software packages capable of simulating quantum dynamics with a special focus on HPC capabilities. We develop a containerized toolchain for benchmarking a large set of simulation packages on a local HPC cluster using different parallelisation capabilities, and compare the performance and system size-scaling for three paradigmatic quantum computing tasks. Our results can help finding the right package for a given simulation task and lay the foundation for a systematic community effort to benchmark and validate upcoming versions of existing and also newly developed simulation packages.
翻訳日:2024-01-18 16:10:44 公開日:2024-01-17
# シープ衣服におけるGPT : カスタマイズGPTのリスク

GPT in Sheep's Clothing: The Risk of Customized GPTs ( http://arxiv.org/abs/2401.09075v1 )

ライセンス: Link先を確認
Sagiv Antebi, Noam Azulay, Edan Habler, Ben Ganon, Asaf Shabtai, Yuval Elovici(参考訳) 2023年11月、openaiはモデルの振る舞いをガイドするために特定の指示と知識を使用して、ユーザがカスタムバージョンのchatgpt(gpts)を作成できる新しいサービスを導入した。 我々は、GPTが悪意ある使用が可能であることへの認識を高め、プライバシーとセキュリティ上のリスクをユーザに与えることを目指している。

In November 2023, OpenAI introduced a new service allowing users to create custom versions of ChatGPT (GPTs) by using specific instructions and knowledge to guide the model's behavior. We aim to raise awareness of the fact that GPTs can be used maliciously, posing privacy and security risks to their users.
翻訳日:2024-01-18 16:10:25 公開日:2024-01-17
# 反フォーゲッティングを超えて:正のフォワード転送を伴うマルチモーダル連続命令チューニング

Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer ( http://arxiv.org/abs/2401.09181v1 )

ライセンス: Link先を確認
Junhao Zheng, Qianli Ma, Zhen Liu, Binquan Wu, Huawen Feng(参考訳) MCIT(Multimodal Continual Instruction Tuning)は、Multimodal Large Language Models(MLLM)が、高価なリトレーニングなしで継続的な要求を満たすことを可能にする。 MCITは、破滅的な忘れ(古い知識が忘れられる)と負の転送(将来のタスクのパフォーマンスが劣化する)という2つの大きな障害に直面します。 既存の手法は壊滅的な記憶を大幅に緩和しているが、それでも負の前方移動に苦しむ。 入力埋め込みにおいて特異値分解(SVD)を行うことにより、異なる入力埋め込みにおいて大きな相違を見出す。 この不一致は、古いタスクと事前訓練されたタスクの無関係な学習をもたらし、破滅的な忘れ込みと負の転送につながる。 そこで本稿では,タスク間の干渉を最小限に抑え,事前学習済みの知識を再利用するための事前学習済み部分空間にプロンプト勾配を投影するプロンプトベース手法であるfwd-promptを提案する。 実験により,Fwd-Promptは,少ないパラメータを更新し,古いサンプルを必要とせず,最先端の性能を実現することを示した。 本研究は,命令チューニングパラダイムの下でMLLMを新たなタスクに継続的に適用する可能性に注目し,今後のMCITの探索を奨励するものである。 コードはまもなく公開される予定だ。

Multimodal Continual Instruction Tuning (MCIT) enables Multimodal Large Language Models (MLLMs) to meet continuously emerging requirements without expensive retraining. MCIT faces two major obstacles: catastrophic forgetting (where old knowledge is forgotten) and negative forward transfer (where the performance of future tasks is degraded). Although existing methods have greatly alleviated catastrophic forgetting, they still suffer from negative forward transfer. By performing singular value decomposition (SVD) on input embeddings, we discover a large discrepancy in different input embeddings. The discrepancy results in the model learning irrelevant information for old and pre-trained tasks, which leads to catastrophic forgetting and negative forward transfer. To address these issues, we propose Fwd-Prompt, a prompt-based method projecting prompt gradient to the residual space to minimize the interference between tasks and to the pre-trained subspace for reusing pre-trained knowledge. Our experiments demonstrate that Fwd-Prompt achieves state-of-the-art performance while updating fewer parameters and requiring no old samples. Our research sheds light on the potential of continuously adapting MLLMs to new tasks under the instruction tuning paradigm and encourages future studies to explore MCIT. The code will soon be publicly available.
翻訳日:2024-01-18 16:03:47 公開日:2024-01-17
# 変分オートエンコーダにおける非教師なし多重ドメイン変換

Unsupervised Multiple Domain Translation through Controlled Disentanglement in Variational Autoencoder ( http://arxiv.org/abs/2401.09180v1 )

ライセンス: Link先を確認
Almud\'evar Antonio and Mariotte Th\'eo and Ortega Alfonso and Tahon Marie(参考訳) 教師なし多重ドメイン変換(unsupervised multiple domain translation)は、1つのドメインから別のドメインにデータを変換するタスクである。 通常、GAN(Generative Adversarial Networks)に基づく手法がこの課題に対処するために用いられる。 しかし,提案手法は変分オートエンコーダの修正版にのみ依存する。 この修正は、2つの潜在変数を設計によって制御された方法で分離することから成り立っている。 この潜伏変数の1つはドメインにのみ依存するように強制され、もう1つはデータの他の変数因子に依存しなければならない。 さらに、ドメイン潜在変数に課される条件は、潜在空間の制御と理解をより良くすることができる。 我々のアプローチが異なるビジョンデータセットで動作し、他のよく知られた方法のパフォーマンスを改善することを実証的に実証する。 最後に、潜在変数の1つはドメインに関連するすべての情報を格納し、もう1つはドメイン情報を含んでいないことを証明します。

Unsupervised Multiple Domain Translation is the task of transforming data from one domain to other domains without having paired data to train the systems. Typically, methods based on Generative Adversarial Networks (GANs) are used to address this task. However, our proposal exclusively relies on a modified version of a Variational Autoencoder. This modification consists of the use of two latent variables disentangled in a controlled way by design. One of this latent variables is imposed to depend exclusively on the domain, while the other one must depend on the rest of the variability factors of the data. Additionally, the conditions imposed over the domain latent variable allow for better control and understanding of the latent space. We empirically demonstrate that our approach works on different vision datasets improving the performance of other well known methods. Finally, we prove that, indeed, one of the latent variables stores all the information related to the domain and the other one hardly contains any domain information.
翻訳日:2024-01-18 16:03:21 公開日:2024-01-17
# ADCNet : 抗体ドラッグ共役体の活性を予測する統一的フレームワーク

ADCNet: a unified framework for predicting the activity of antibody-drug conjugates ( http://arxiv.org/abs/2401.09176v1 )

ライセンス: Link先を確認
Liye Chen, Biaoshun Li, Yihao Chen, Mujie Lin, Shipeng Zhang, Chenxin Li, Yu Pang and Ling Wang(参考訳) 抗体ドラッグ共役薬(ADC)は、がん細胞を正確に標的にし、非常に効果的な薬物を放出する能力により、精密医療の時代におけるがん治療の分野に革命をもたらした。 しかし, ADCの合理的設計の実現は, 構造と活動の関係を理解するのが難しいため, 極めて困難である。 本研究では,ADCNetと呼ばれる統合型ディープラーニングフレームワークを導入し,ADCの設計を支援する。 ADCNetは、タンパク質表現学習言語モデルESM-2と小分子表現学習言語モデルFG-BERTを高度に統合し、ADCの抗原および抗体タンパク質配列、リンカーおよびペイロードのSMILES文字列、薬物抗体比(DAR)値から有意義な特徴を学習することで、活性予測を実現する。 慎重に設計され手動で調整されたADCデータセットに基づいて、広範囲な評価結果から、ADCNetは全ての評価指標のベースライン機械学習モデルと比較して、テストセット上で最高のパフォーマンスを示すことが明らかになった。 例えば、平均予測精度は87.12%、バランス精度は0.8689、受信機の動作特性曲線は0.9293である。 さらに、クロスバリデーション、アブレーション実験、外部独立試験の結果は、ADCNetアーキテクチャの安定性、進歩、堅牢性をさらに証明している。 コミュニティの便宜のために、最適なADCNetモデルに基づくADCsアクティビティの予測のための最初のオンラインプラットフォーム(https://ADCNet.idruglab.cn)を開発し、ソースコードはhttps://github.com/idrugLab/ADCNetで公開されている。

Antibody-drug conjugate (ADC) has revolutionized the field of cancer treatment in the era of precision medicine due to their ability to precisely target cancer cells and release highly effective drug. Nevertheless, the realization of rational design of ADC is very difficult because the relationship between their structures and activities is difficult to understand. In the present study, we introduce a unified deep learning framework called ADCNet to help design potential ADCs. The ADCNet highly integrates the protein representation learning language model ESM-2 and small-molecule representation learning language model FG-BERT models to achieve activity prediction through learning meaningful features from antigen and antibody protein sequences of ADC, SMILES strings of linker and payload, and drug-antibody ratio (DAR) value. Based on a carefully designed and manually tailored ADC data set, extensive evaluation results reveal that ADCNet performs best on the test set compared to baseline machine learning models across all evaluation metrics. For example, it achieves an average prediction accuracy of 87.12%, a balanced accuracy of 0.8689, and an area under receiver operating characteristic curve of 0.9293 on the test set. In addition, cross-validation, ablation experiments, and external independent testing results further prove the stability, advancement, and robustness of the ADCNet architecture. For the convenience of the community, we develop the first online platform (https://ADCNet.idruglab.cn) for the prediction of ADCs activity based on the optimal ADCNet model, and the source code is publicly available at https://github.com/idrugLab/ADCNet.
翻訳日:2024-01-18 16:03:07 公開日:2024-01-17
# QAnswer: ウェブサイト上での検索に対する質問

QAnswer: Towards Question Answering Search over Websites ( http://arxiv.org/abs/2401.09175v1 )

ライセンス: Link先を確認
Kunpeng Guo, Clement Defretiere, Dennis Diefenbach, Christophe Gravier, Antoine Gourru(参考訳) QA ( Question Answering) は、検索エンジンがエンドユーザに結果を提供するためにますます利用されているが、現在検索機能にQA技術を使用しているウェブサイトはほとんどない。 ウェブサイト検索実践者にとってのQA技術の可能性を説明するために、知識グラフ上のQAと無料テキスト上のQAを組み合わせたWeb検索をデモする。 また、Webサイト検索における両方のアプローチの利点と欠点についても論じる。 ウィキメディア財団(ウィキメディア財団)が主催するウェブサイト(ウィキペディアとウィキデータ)のケーススタディを利用する。 検索エンジン(google、bingなど)とは違って、データはインデクシングされ、サブセットのみをインデックス化せず、インデックス化される。

Question Answering (QA) is increasingly used by search engines to provide results to their end-users, yet very few websites currently use QA technologies for their search functionality. To illustrate the potential of QA technologies for the website search practitioner, we demonstrate web searches that combine QA over knowledge graphs and QA over free text -- each being usually tackled separately. We also discuss the different benefits and drawbacks of both approaches for web site searches. We use the case studies made of websites hosted by the Wikimedia Foundation (namely Wikipedia and Wikidata). Differently from a search engine (e.g. Google, Bing, etc), the data are indexed integrally, i.e. we do not index only a subset, and they are indexed exclusively, i.e. we index only data available on the corresponding website.
翻訳日:2024-01-18 16:02:28 公開日:2024-01-17
# 低アノテーション予算制約下におけるドメイン特化質問応答の微調整戦略

Fine-tuning Strategies for Domain Specific Question Answering under Low Annotation Budget Constraints ( http://arxiv.org/abs/2401.09168v1 )

ライセンス: Link先を確認
Kunpeng Guo, Dennis Diefenbach, Antoine Gourru, Christophe Gravier(参考訳) 事前訓練された言語モデルとその微調整によって導入された進歩は、ほとんどの下流のNLPタスクに大きな改善をもたらした。 言語モデルの教師なしトレーニングと、さらに標的となるタスクの微調整が、標準的なQA微調整手順となっている。 本稿では,この戦略が,特に低QAアノテーション予算の下での微調整QAモデルに準最適であることを実証する。 我々は,異なるQAデータセット上での逐次微調整戦略の代替案の性能を徹底的に分析することにより,結論を導いた。 実験結果から,低予算環境でQAモデルを微調整する最善の方法は,事前学習言語モデル(PLM)を用いて,目標データセットとSQuADデータセットからなるデータセットを用いた微調整PLMを行うことであることがわかった。 追加のアノテーションを使わずに、最良の戦略は標準戦略を2.28%から6.48%に上回っている。 本実験は,QAシステムを低予算で微調整する方法に関する最初の調査の1つであり,QA実践者にとって最も実践的な関心事である。

The progress introduced by pre-trained language models and their fine-tuning has resulted in significant improvements in most downstream NLP tasks. The unsupervised training of a language model combined with further target task fine-tuning has become the standard QA fine-tuning procedure. In this work, we demonstrate that this strategy is sub-optimal for fine-tuning QA models, especially under a low QA annotation budget, which is a usual setting in practice due to the extractive QA labeling cost. We draw our conclusions by conducting an exhaustive analysis of the performance of the alternatives of the sequential fine-tuning strategy on different QA datasets. Based on the experiments performed, we observed that the best strategy to fine-tune the QA model in low-budget settings is taking a pre-trained language model (PLM) and then fine-tuning PLM with a dataset composed of the target dataset and SQuAD dataset. With zero extra annotation effort, the best strategy outperforms the standard strategy by 2.28% to 6.48%. Our experiments provide one of the first investigations on how to best fine-tune a QA system under a low budget and are therefore of the utmost practical interest to the QA practitioners.
翻訳日:2024-01-18 16:02:14 公開日:2024-01-17
# DK-SLAM: 適応学習,追跡,ループクローズ機能を備えた単眼視覚SLAM

DK-SLAM: Monocular Visual SLAM with Deep Keypoints Adaptive Learning, Tracking and Loop-Closing ( http://arxiv.org/abs/2401.09160v1 )

ライセンス: Link先を確認
Hao Qu, Lilian Zhang, Jun Mao, Junbo Tie, Xiaofeng He, Xiaoping Hu, Yifei Shi, Changhao Chen(参考訳) 手作り機能における信頼できない特徴抽出とマッチングは、複雑な実世界のシナリオにおける視覚SLAMのパフォーマンスを損なう。 局所的な特徴を学習し、cnnを活用し、ハイレベルな情報をキャプチャする能力を示し、ベンチマークのマッチングに優れる一方で、連続的なモーションシーンにおける課題に遭遇し、一般化が悪く、ループ検出精度に影響を及ぼす。 これらの問題に対処するために,適応的な深部局所特徴を持つ単眼視覚SLAMシステムDK-SLAMを提案する。 MAMLはこれらの特徴のトレーニングを最適化し、粗い特徴追跡手法を導入する。 最初は、連続するフレーム間の相対的なポーズを近似し、続いて精巧なポーズ推定のための特徴マッチング手法を用いる。 累積位置決めエラーに対抗するために、新しいオンラインラーニングバイナリ機能ベースのオンラインループクロージャモジュールは、シーケンス内のループノードを識別する。 DK-SLAMの有効性を評価した結果、ORB-SLAM3のような代表的なSLAMソリューションを公開データセットで上回る結果となった。

Unreliable feature extraction and matching in handcrafted features undermine the performance of visual SLAM in complex real-world scenarios. While learned local features, leveraging CNNs, demonstrate proficiency in capturing high-level information and excel in matching benchmarks, they encounter challenges in continuous motion scenes, resulting in poor generalization and impacting loop detection accuracy. To address these issues, we present DK-SLAM, a monocular visual SLAM system with adaptive deep local features. MAML optimizes the training of these features, and we introduce a coarse-to-fine feature tracking approach. Initially, a direct method approximates the relative pose between consecutive frames, followed by a feature matching method for refined pose estimation. To counter cumulative positioning errors, a novel online learning binary feature-based online loop closure module identifies loop nodes within a sequence. Experimental results underscore DK-SLAM's efficacy, outperforms representative SLAM solutions, such as ORB-SLAM3 on publicly available datasets.
翻訳日:2024-01-18 16:01:55 公開日:2024-01-17
# 2次元量子多体基底状態のバンバン-バン--2次元テンソルネットワークを用いたアルゴリズムの最適化

Bang-bang preparation of quantum many-body ground states in two dimensions: optimization of the algorithm with a two-dimensional tensor network ( http://arxiv.org/abs/2401.09158v1 )

ライセンス: Link先を確認
Yintai Zhang and Jacek Dziarmaga(参考訳) バンバン(BB)アルゴリズムは、初期積状態が$H_1$と$H_2$の間で交互に変化することによって、2次元(2次元)量子多体ハミルトンの基底状態を作成する。 近傍テンソル更新を用いて、BB進化を無限対絡み状態(iPEPS)でシミュレートする。 交代シーケンスはコスト関数として最終エネルギーで最適化される。 エネルギーは、その安定性のために接空間法で計算される。 この方法は、ipepの変分最適化により得られた基底状態に対する量子臨界点近傍の2次元横磁場量子イジングモデルでベンチマークされる。 最適BB配列は、基底状態の量子アニールまたは断熱処理(AP)をシミュレートする配列と非摂動的に異なる。 最適bbエネルギーは、最適なapエネルギーよりもはるかに速いバン数に収束する。

A bang-bang (BB) algorithm prepares the ground state of a two-dimensional (2D) quantum many-body Hamiltonian $H=H_1+H_2$ by evolving an initial product state alternating between $H_1$ and $H_2$. We use the neighborhood tensor update to simulate the BB evolution with an infinite pair-entangled projected state (iPEPS). The alternating sequence is optimized with the final energy as a cost function. The energy is calculated with the tangent space methods for the sake of their stability. The method is benchmarked in the 2D transverse field quantum Ising model near its quantum critical point against a ground state obtained by variational optimization of the iPEPS. The optimal BB sequence differs non-perturbatively from a sequence simulating quantum annealing or adiabatic preparation (AP) of the ground state. The optimal BB energy converges with the number of bangs much faster than the optimal AP energy.
翻訳日:2024-01-18 16:01:35 公開日:2024-01-17
# 橋渡し研究と読者 : マルチモーダル自動学術論文解釈システム

Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System ( http://arxiv.org/abs/2401.09150v1 )

ライセンス: Link先を確認
Feng Jiang, Kuang Wang, Haizhou Li(参考訳) 大規模言語モデルの出現によって著しく加速された現代情報時代において、科学文献の拡散は前例のない水準に達している。 研究者は、学術論文の読解と要約、重要な科学文献の解明、多様な解釈方法論を用いた効率的なツールを必要としている。 この急激な需要に対応するために、自動科学文献解釈システムの役割が最重要である。 しかし、商用とオープンソースの両方で普及しているモデルは、しばしばマルチモーダルデータを見落とし、長大なテキストを要約し、多様なユーザーインターフェイスを欠いているという、顕著な課題に直面している。 そこで本研究では,3段階のプロセスステージを持つマルチモーダル自動学術論文解釈システム (mmapis) を提案する。 本システムではまず,文書からプレーンテキストや表,図形を別々に抽出するために,ハイブリッドなモーダル前処理とアライメントモジュールを用いている。 そして、その情報が属するセクション名に基づいて調整され、同一のセクション名を持つデータが同じセクションで分類されることを保証する。 次に,階層型談話認識要約法を提案する。 抽出されたセクション名を短いテキストセグメントに分割し、特定のプロンプトを持つLSMを通してセクション内とセクション間の特定の要約を容易にする。 最後に,様々なシナリオに適用可能な,紙推薦,マルチモーダルq\&a,音声放送,解釈ブログという4種類の多様なユーザインタフェースを設計した。 我々の質的・定量的評価は、特に科学的な要約において、GPT-4にのみ依存する解よりも優れるシステムの優位性を示している。

In the contemporary information era, significantly accelerated by the advent of Large-scale Language Models, the proliferation of scientific literature is reaching unprecedented levels. Researchers urgently require efficient tools for reading and summarizing academic papers, uncovering significant scientific literature, and employing diverse interpretative methodologies. To address this burgeoning demand, the role of automated scientific literature interpretation systems has become paramount. However, prevailing models, both commercial and open-source, confront notable challenges: they often overlook multimodal data, grapple with summarizing over-length texts, and lack diverse user interfaces. In response, we introduce an open-source multi-modal automated academic paper interpretation system (MMAPIS) with three-step process stages, incorporating LLMs to augment its functionality. Our system first employs the hybrid modality preprocessing and alignment module to extract plain text, and tables or figures from documents separately. It then aligns this information based on the section names they belong to, ensuring that data with identical section names are categorized under the same section. Following this, we introduce a hierarchical discourse-aware summarization method. It utilizes the extracted section names to divide the article into shorter text segments, facilitating specific summarizations both within and between sections via LLMs with specific prompts. Finally, we have designed four types of diversified user interfaces, including paper recommendation, multimodal Q\&A, audio broadcasting, and interpretation blog, which can be widely applied across various scenarios. Our qualitative and quantitative evaluations underscore the system's superiority, especially in scientific summarization, where it outperforms solutions relying solely on GPT-4.
翻訳日:2024-01-18 16:01:21 公開日:2024-01-17
# 1次元光学超格子における物質波ソリトンの励起制御

Controlled pumping of matter-wave solitons in a one-dimensional optical superlattice ( http://arxiv.org/abs/2401.09148v1 )

ライセンス: Link先を確認
Xiaoxiao Hu, Zhiqiang Li, Ai-Xi Chen, and Xiaobing Luo(参考訳) ボース・アインシュタイン凝縮体(BEC)で形成される物質波ソリトンを、格子の一方が他方に対して動く光学超格子に装填された魅力的な原子間相互作用で励起する。 浅い格子と深い格子の両方において、ソリトンは極めて類似したポンプ特性を示しており、同じソリトンが最初に励起されたとき、単に格子パラメータを調整するだけで整数(屈折)ポンプとトラップの切り替えが可能となる。 さらに, 半無限帯域ギャップにおいて, 最低エネルギー帯域から分岐するギャップソリトンも, この格子パラメータ依存性のポンプとトラップを示すことがわかった。 運動の中心方程式が有効である古典粒子としてのソリトンの治療は、このパラメータ依存の整数(屈折)ポンピングとソリトンのトラップングをうまく記述する。

We study the pumping of matter-wave solitons formed in Bose-Einstein condensates (BECs) with attractive atomic interactions that are loaded into optical superlattices in which one of the lattices is moving with respect to the other. We find that solitons exhibit the remarkably similar pumping properties in both shallow and deep lattices, and that for exactly the same soliton initially excited, switching between integer (fractional) pumping and trapping can be achieved by simply adjusting the lattice parameters. In addition, we find that the gap solitons, which bifurcate from the lowest energy band in a semi-infinite band gap, also exhibit this lattice-parameter-dependent pumping and trapping. The treatment of solitons as classical particles with effective centre-of-mass equations of motion provides a good description of this parameter-dependent integer (fractional) pumping and trapping of solitons.
翻訳日:2024-01-18 16:00:51 公開日:2024-01-17
# 画像アニメーションのための連続的ピースワイズアフィン動作モデル

Continuous Piecewise-Affine Based Motion Model for Image Animation ( http://arxiv.org/abs/2401.09146v1 )

ライセンス: Link先を確認
Hexiang Wang, Fengqi Liu, Qianyu Zhou, Ran Yi, Xin Tan, Lizhuang Ma(参考訳) 画像アニメーションは、動画の運転に応じて静止画を生かし、アニメーション、エンターテイメント、教育などの様々な目的に使用できる魅力的な視覚コンテンツを作成することを目的としている。 最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。 しかし、使用する変換の表現力によって制限されたこれらの手法は、駆動フレーム内の運動とソース画像とのギャップが大きい場合、常に悪い結果をもたらす。 この問題に対処するために,高表現型微分同相空間において,音源画像から駆動フレームへの移動をモデル化する。 まず,動きをモデル化するためにcpab変換を連続的に導入し,制御キーポイントからcpab変換を生成するためのよく設計された推論アルゴリズムを提案する。 次に,鍵点抽出プロセスの制約をさらに緩和し,ソース上の対応するキー点と駆動画像とのセマンティック一貫性を向上させるために,SAM誘導鍵点意味損失を提案する。 最後に,運転および生成画像から抽出した構造関連特徴を整合させる構造アライメント損失を設計すれば,運転動作に一貫性のある結果を生成することができる。 4つのデータセットに対する大規模な実験は、最先端の競合相手に対する手法の有効性を定量的に定性的に実証している。 コードは、https://github.com/DevilPG/AAAI2024-CPABMMで公開される。

Image animation aims to bring static images to life according to driving videos and create engaging visual content that can be used for various purposes such as animation, entertainment, and education. Recent unsupervised methods utilize affine and thin-plate spline transformations based on keypoints to transfer the motion in driving frames to the source image. However, limited by the expressive power of the transformations used, these methods always produce poor results when the gap between the motion in the driving frame and the source image is large. To address this issue, we propose to model motion from the source image to the driving frame in highly-expressive diffeomorphism spaces. Firstly, we introduce Continuous Piecewise-Affine based (CPAB) transformation to model the motion and present a well-designed inference algorithm to generate CPAB transformation from control keypoints. Secondly, we propose a SAM-guided keypoint semantic loss to further constrain the keypoint extraction process and improve the semantic consistency between the corresponding keypoints on the source and driving images. Finally, we design a structure alignment loss to align the structure-related features extracted from driving and generated images, thus helping the generator generate results that are more consistent with the driving action. Extensive experiments on four datasets demonstrate the effectiveness of our method against state-of-the-art competitors quantitatively and qualitatively. Code will be publicly available at: https://github.com/DevilPG/AAAI2024-CPABMM.
翻訳日:2024-01-18 16:00:35 公開日:2024-01-17
# リモート光胸腺撮影とサーモグラフィーで隠れた精神状態を検出する

Your blush gives you away: detecting hidden mental states with remote photoplethysmography and thermal imaging ( http://arxiv.org/abs/2401.09145v1 )

ライセンス: Link先を確認
Ivan Liu, Fangyuan Liu, Qi Zhong, Fei Ma, Shiguang Ni(参考訳) マルチモーダル感情認識技術は、精神状態の評価にますます不可欠である。 しかし、画像に基づく手法は、主に過度な視覚的手がかりに焦点を当て、しばしば微妙な精神状態の変化を見落としている。 精神生理学的研究は、HRと皮膚温度がANS活動の検出に有効であることを示し、これらの微妙な変化を明らかにしている。 しかし、従来のHRツールは一般的に高価で携帯性も低いが、皮膚の温度分析は通常広範囲な手動処理を必要とする。 これらの問題に対処するために, 遠隔ppgおよび自動熱roi検出アルゴリズムが開発されているが, 実用化における精度は限られている。 本研究では,r-PPGと熱画像を統合し,予測性能を向上させることにより,このギャップを埋めることを目的とする。 9人の参加者が20分間のアンケートで認知的ストレスを誘発し、その後に道徳的高揚を求める映画を見た。 その結果,r-PPGと熱画像の組み合わせが感情変化を効果的に検出できることが示唆された。 r-ppgのみを用いた場合, svmで求めた認知ストレスは77%, モラル上昇は61%であった。 熱画像だけで認知ストレスの79%、モラル上昇の78%がrfアルゴリズムを用いて達成された。 これらのモダリティの早期融合戦略は精度を著しく向上させ,認知ストレス87%,道徳的上昇83%をRFを用いて達成した。 さらに、統計メトリクスとSHAPを含む説明可能な機械学習手法を利用した分析では、重要な特徴を強調し、心臓反応と顔の温度変化の関係を明らかにする。 特にr-ppgモデルから得られた心血管的特徴は,温熱画像解析における予測精度が高いにもかかわらず,データ融合に顕著に影響を及ぼした。

Multimodal emotion recognition techniques are increasingly essential for assessing mental states. Image-based methods, however, tend to focus predominantly on overt visual cues and often overlook subtler mental state changes. Psychophysiological research has demonstrated that HR and skin temperature are effective in detecting ANS activities, thereby revealing these subtle changes. However, traditional HR tools are generally more costly and less portable, while skin temperature analysis usually necessitates extensive manual processing. Advances in remote-PPG and automatic thermal ROI detection algorithms have been developed to address these issues, yet their accuracy in practical applications remains limited. This study aims to bridge this gap by integrating r-PPG with thermal imaging to enhance prediction performance. Ninety participants completed a 20-minute questionnaire to induce cognitive stress, followed by watching a film aimed at eliciting moral elevation. The results demonstrate that the combination of r-PPG and thermal imaging effectively detects emotional shifts. Using r-PPG alone, the prediction accuracy was 77% for cognitive stress and 61% for moral elevation, as determined by SVM. Thermal imaging alone achieved 79% accuracy for cognitive stress and 78% for moral elevation, utilizing a RF algorithm. An early fusion strategy of these modalities significantly improved accuracies, achieving 87% for cognitive stress and 83% for moral elevation using RF. Further analysis, which utilized statistical metrics and explainable machine learning methods including SHAP, highlighted key features and clarified the relationship between cardiac responses and facial temperature variations. Notably, it was observed that cardiovascular features derived from r-PPG models had a more pronounced influence in data fusion, despite thermal imaging's higher predictive accuracy in unimodal analysis.
翻訳日:2024-01-18 16:00:11 公開日:2024-01-17
# プラットフォームデータストリームのための機械学習予測の監視

Monitoring Machine Learning Forecasts for Platform Data Streams ( http://arxiv.org/abs/2401.09144v1 )

ライセンス: Link先を確認
Jeroen Rombouts and Ines Wilms(参考訳) データストリーム予測は、デジタルプラットフォームにおける意思決定に不可欠な入力である。 機械学習アルゴリズムは、そのような予測を生成する候補者にアピールしている。 しかし、デジタルプラットフォームには、突然のパフォーマンス低下に柔軟に対応できる大規模な予測フレームワークが必要です。 MLアルゴリズムを新しいデータバッチが入力するのと同じ速度で再トレーニングすることは、通常、計算コストが高すぎる。 一方、頻繁な再訓練には再訓練頻度の指定が必要であり、予測劣化の重大なコストが伴う。 正確で安定した予測を保証するため,MLアルゴリズムを再学習する際の疑問に答える,シンプルなデータ駆動型監視手法を提案する。 データストリームの不安定性を調べる代わりに、入ってくるストリーミング予測損失バッチが明確に定義された参照バッチと異なるかどうかをテストする。 ロンドンで運用されているオンデマンドロジスティクスプラットフォームから15分間の周波数データストリームを構成する新しいデータセットを用いて、ランダムフォレスト、XGBoost、Lassoを含む一般的なMLアルゴリズムにモニタリング手順を適用する。 モニタによる再トレーニングは,計算可能性を維持しながら,実行可能なベンチマークよりも正確な予測を生成することを示す。 さらに、監視手順の選択はMLアルゴリズムの選択よりも重要であり、提案した監視手順とお気に入りの予測アルゴリズムを組み合わせることができる。

Data stream forecasts are essential inputs for decision making at digital platforms. Machine learning algorithms are appealing candidates to produce such forecasts. Yet, digital platforms require a large-scale forecast framework that can flexibly respond to sudden performance drops. Re-training ML algorithms at the same speed as new data batches enter is usually computationally too costly. On the other hand, infrequent re-training requires specifying the re-training frequency and typically comes with a severe cost of forecast deterioration. To ensure accurate and stable forecasts, we propose a simple data-driven monitoring procedure to answer the question when the ML algorithm should be re-trained. Instead of investigating instability of the data streams, we test if the incoming streaming forecast loss batch differs from a well-defined reference batch. Using a novel dataset constituting 15-min frequency data streams from an on-demand logistics platform operating in London, we apply the monitoring procedure to popular ML algorithms including random forest, XGBoost and lasso. We show that monitor-based re-training produces accurate forecasts compared to viable benchmarks while preserving computational feasibility. Moreover, the choice of monitoring procedure is more important than the choice of ML algorithm, thereby permitting practitioners to combine the proposed monitoring procedure with one's favorite forecasting algorithm.
翻訳日:2024-01-18 15:59:37 公開日:2024-01-17
# 非剛性マルチパースペクティブカメラの相対的ポーズ:静的ケース

Relative Pose for Nonrigid Multi-Perspective Cameras: The Static Case ( http://arxiv.org/abs/2401.09140v1 )

ライセンス: Link先を確認
Min Li, Jiaqi Yang and Laurent Kneip(参考訳) 重複しない視野を持つマルチパースペクティブカメラは、インテリジェントな車両、ドローン、複合現実感ヘッドセットなど、多くのアプリケーションにおいて、極端なセンシングモダリティとして重要なものとなっている。 本研究では,これらのシナリオにおける基本的な前提のひとつとして,マルチカメラリグの厳格性に挑戦する。 より具体的には、系の重力の影響を考慮して、静的な非剛性リグ間の相対的な姿勢を異なる空間配向で推定する問題を考察している。 各カメラと体中心間の変形可能な物理的接続は、単純なカンチレバーモデルにより近似され、一般化された極性制約に挿入される。 以上の結果から,変形モデルの潜在パラメータ,すなわち両ビューの重力ベクトルが観測可能であるという重要な知見が得られた。 本稿では,2つの異なるアルゴリズムに対して,ノイズ,外周,剛性に基づく全変数の可観測性を簡潔に解析する。 1つは視覚のみの代替であり、もう1つは重力測定を応用している。 結論として,実例で重力を感知する能力を示し,実用的意義について考察する。

Multi-perspective cameras with potentially non-overlapping fields of view have become an important exteroceptive sensing modality in a number of applications such as intelligent vehicles, drones, and mixed reality headsets. In this work, we challenge one of the basic assumptions made in these scenarios, which is that the multi-camera rig is rigid. More specifically, we are considering the problem of estimating the relative pose between a static non-rigid rig in different spatial orientations while taking into account the effect of gravity onto the system. The deformable physical connections between each camera and the body center are approximated by a simple cantilever model, and inserted into the generalized epipolar constraint. Our results lead us to the important insight that the latent parameters of the deformation model, meaning the gravity vector in both views, become observable. We present a concise analysis of the observability of all variables based on noise, outliers, and rig rigidity for two different algorithms. The first one is a vision-only alternative, while the second one makes use of additional gravity measurements. To conclude, we demonstrate the ability to sense gravity in a real-world example, and discuss practical implications.
翻訳日:2024-01-18 15:59:17 公開日:2024-01-17
# 言語モデリングのための非同期ローカルSGDトレーニング

Asynchronous Local-SGD Training for Language Modeling ( http://arxiv.org/abs/2401.09135v1 )

ライセンス: Link先を確認
Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei A. Rusu, Jiajun Shen, Arthur Szlam, Marc'Aurelio Ranzato(参考訳) 局所確率勾配降下(英: local stochasticgradient descent, local-sgd)は、各デバイスが通信毎に複数のsgd更新を行う分散最適化へのアプローチである。 本研究は,各作業者がsgdステップを完了するとすぐにグローバルパラメータを更新することを目的とした,言語モデルの学習のためのローカルsgdに関する実証研究である。 我々は,作業者のハードウェアの不均一性,モデルサイズ,作業者数,オプティマイザが学習性能に与える影響について,包括的な調査を行う。 単純な実装では、非同期のローカルSGDは、(グローバル)モデルのパラメータを頻繁に更新するにもかかわらず、同期よりも多くのイテレーションを収束させる。 労働者勾配が安定している場合のグローバルパラメータの運動量加速度を重要課題とする。 本稿では,遅れネステロフ運動量更新を活用し,その計算速度に基づいて作業者のローカルトレーニングステップを調整する新しい手法を提案する。 このアプローチは、C4データセット上の最大1億5000万のパラメータで評価され、更新ステップ毎のパープレキシティの観点から同期ローカルSGDのパフォーマンスと一致し、ウォールクロック時間ではかなり上回る。

Local stochastic gradient descent (Local-SGD), also referred to as federated averaging, is an approach to distributed optimization where each device performs more than one SGD update per communication. This work presents an empirical study of {\it asynchronous} Local-SGD for training language models; that is, each worker updates the global parameters as soon as it has finished its SGD steps. We conduct a comprehensive investigation by examining how worker hardware heterogeneity, model size, number of workers, and optimizer could impact the learning performance. We find that with naive implementations, asynchronous Local-SGD takes more iterations to converge than its synchronous counterpart despite updating the (global) model parameters more frequently. We identify momentum acceleration on the global parameters when worker gradients are stale as a key challenge. We propose a novel method that utilizes a delayed Nesterov momentum update and adjusts the workers' local training steps based on their computation speed. This approach, evaluated with models up to 150M parameters on the C4 dataset, matches the performance of synchronous Local-SGD in terms of perplexity per update step, and significantly surpasses it in terms of wall clock time.
翻訳日:2024-01-18 15:58:57 公開日:2024-01-17
# 量子コンピュータにおける動的冷却

Dynamic Cooling on Contemporary Quantum Computers ( http://arxiv.org/abs/2401.09134v1 )

ライセンス: Link先を確認
Lindsay Bassman Oftelie, Antonella De Pasquale, and Michele Campisi(参考訳) 我々は,大域的ユニタリ演算を用いて,N-1$以上の同一量子ビットを加熱することにより,ターゲット量子ビットを冷却する動的冷却の問題を研究する。 標準のバック・オブ・ザ・エンベロープ高温推定では、目標の量子ビット温度は最大で1/\sqrt{n}$でのみ動的に冷却できる。 ここでは、ターゲットの量子ビットを冷却できる最小の温度の正確な表現を提供し、スケーリングが実際に1/\sqrt{n}$である高初期温度レジームから、より高速な1/n$のスケーリングが発生する低初期温度レジームへのクロスオーバーがあることを明らかにする。 この遅い1/\sqrt{N}$スケールは、初期の高温NMR量子コンピュータと関係があり、20年ほど前に動的冷却が非効率であると否定された理由である。 さらに, 低温環境下では, 冷却の作業コストが指数関数的に有利であることを示す。 最後に, 量子回路の複雑性と動的冷却の最適実装について考察し, 短期量子コンピュータの冷却におけるノイズの影響について検討する。

We study the problem of dynamic cooling whereby a target qubit is cooled at the expense of heating up $N-1$ further identical qubits, by means of a global unitary operation. A standard back-of-the-envelope high temperature estimate establishes that the target qubit temperature can only be dynamically cooled by at most a factor of $1/\sqrt{N}$. Here, we provide the exact expression for the smallest temperature to which the target qubit can be cooled and reveal that there is a crossover from the high initial temperature regime where the scaling is in fact $1/\sqrt{N}$ to a low initial temperature regime where a much faster scaling of $1/N$ occurs. This slow $1/\sqrt{N}$ scaling, relevant for early high-temperature NMR quantum computers, is the reason dynamic cooling was dismissed as ineffectual around 20 years ago; the fact that current low-temperature quantum computers fall in the fast $1/N$ scaling regime, reinstates the appeal of dynamic cooling today. We further show that the associated work cost of cooling is exponentially more advantageous in the low temperature regime. Finally, we discuss the quantum circuit complexity and optimal implementation of dynamic cooling, and examine the effects of noise on cooling in near-term quantum computers.
翻訳日:2024-01-18 15:58:34 公開日:2024-01-17
# 深層予測符号化ネットワークにおける分類と再構成過程:敵対者か味方か?

Classification and Reconstruction Processes in Deep Predictive Coding Networks: Antagonists or Allies? ( http://arxiv.org/abs/2401.09237v1 )

ライセンス: Link先を確認
Jan Rathjens and Laurenz Wiskott(参考訳) ビジュアルコンピューティングのための予測符号化に触発されたディープネットワークは、共有中間層における分類と再構成プロセスを統合する。 これらのプロセス間の相乗効果は一般的に仮定されるが、まだ説得力のある実証は行われていない。 本研究では,ディープラーニングアーキテクチャにおける分類と再構成の相互作用について批判的に考察する。 本手法は,オートエンコーダを想起させるモデルアーキテクチャ群を汎用的に設計し,それぞれにエンコーダ,デコーダ,分類ヘッドを備え,モジュールや複合性を特徴とする。 我々は、モデルアーキテクチャの共有潜在層内で、分類および再構成駆動の情報がシームレスに共存できる範囲を慎重に分析する。 分類駆動情報は中間層の共有表現における再構成駆動情報を減少させ,その逆も減少させる。 共有表現の次元を拡大したり、ネットワークの複雑さを増大させたりすることで、このトレードオフ効果が軽減される一方で、予測符号化における仮定に挑戦し、深層ネットワークにおける予測符号化概念の今後の反復に関するガイダンスを提供する。

Predictive coding-inspired deep networks for visual computing integrate classification and reconstruction processes in shared intermediate layers. Although synergy between these processes is commonly assumed, it has yet to be convincingly demonstrated. In this study, we take a critical look at how classifying and reconstructing interact in deep learning architectures. Our approach utilizes a purposefully designed family of model architectures reminiscent of autoencoders, each equipped with an encoder, a decoder, and a classification head featuring varying modules and complexities. We meticulously analyze the extent to which classification- and reconstruction-driven information can seamlessly coexist within the shared latent layer of the model architectures. Our findings underscore a significant challenge: Classification-driven information diminishes reconstruction-driven information in intermediate layers' shared representations and vice versa. While expanding the shared representation's dimensions or increasing the network's complexity can alleviate this trade-off effect, our results challenge prevailing assumptions in predictive coding and offer guidance for future iterations of predictive coding concepts in deep networks.
翻訳日:2024-01-18 15:51:18 公開日:2024-01-17
# 点的活性化を持つ同変ネットワークに対するキャラクタリゼーション定理

A Characterization Theorem for Equivariant Networks with Point-wise Activations ( http://arxiv.org/abs/2401.09235v1 )

ライセンス: Link先を確認
Marco Pacini, Xiaowen Dong, Bruno Lepri and Gabriele Santin(参考訳) 同変ニューラルネットワークは、対称領域におけるパフォーマンス、表現性、およびサンプル複雑性を改善した。 しかし、特定の対称性、表現、座標の選択については、ReLUのような最も一般的な点の活性化は同変ではないため、等変ニューラルネットワークの設計には適用できない。 本論文で提示する定理は,有限次元表現,座標の選択,等変層を得るための点的活性化のあらゆる組み合わせについて記述し,既存の特徴付けを一般化・強化するものである。 実践的関連性の顕著な事例は、概要として論じられる。 実際、回転同変ネットワークは連結コンパクト群に対して同変である任意のネットワークに対してのみ不変であることを示す。 そこで,同変ネットワークの重要事例に適用した場合の本研究の意義について考察する。 まず,不変グラフネットワークの非線形性や幾何学的類似性などの置換同変ネットワークを完全に特徴付けし,表現力や性能が未だ不明なモデルが多数存在することを浮き彫りにする。 第二に、非絡み合い可能な畳み込みニューラルネットワークの特徴空間は自明な表現であることを示す。

Equivariant neural networks have shown improved performance, expressiveness and sample complexity on symmetrical domains. But for some specific symmetries, representations, and choice of coordinates, the most common point-wise activations, such as ReLU, are not equivariant, hence they cannot be employed in the design of equivariant neural networks. The theorem we present in this paper describes all possible combinations of finite-dimensional representations, choice of coordinates and point-wise activations to obtain an exactly equivariant layer, generalizing and strengthening existing characterizations. Notable cases of practical relevance are discussed as corollaries. Indeed, we prove that rotation-equivariant networks can only be invariant, as it happens for any network which is equivariant with respect to connected compact groups. Then, we discuss implications of our findings when applied to important instances of exactly equivariant networks. First, we completely characterize permutation equivariant networks such as Invariant Graph Networks with point-wise nonlinearities and their geometric counterparts, highlighting a plethora of models whose expressive power and performance are still unknown. Second, we show that feature spaces of disentangled steerable convolutional neural networks are trivial representations.
翻訳日:2024-01-18 15:50:57 公開日:2024-01-17
# 文脈テキストブロック検出のための動的関係変換器

Dynamic Relation Transformer for Contextual Text Block Detection ( http://arxiv.org/abs/2401.09232v1 )

ライセンス: Link先を確認
Jiawei Wang, Shunchi Zhang, Kai Hu, Chixiang Ma, Zhuoyao Zhong, Lei Sun, Qiang Huo(参考訳) 文脈的テキストブロック検出(ctbd)は、自然シーンの複雑さの中で一貫性のあるテキストブロックを識別するタスクである。 従来の手法では、CTBDはコンピュータビジョンにおける視覚的関係抽出問題や、自然言語処理の観点からのシーケンスモデリング問題として扱われてきた。 グラフ生成問題として CTBD をフレーム化する新しいフレームワークを提案する。 この手法は、個々のテキスト単位をグラフノードとして識別し、これらの単位間のシーケンシャルな読み込み順序関係をグラフエッジとして識別する2つの重要な手順から構成される。 ノード検出のためのdq-detrの最先端機能を活用することで,新たなメカニズムである動的関係トランスフォーマ(drformer)をエッジ生成専用に統合することで,さらなる革新を実現する。 drformerは、動的グラフ構造の改良プロセスを完全に管理するデュアルインタラクティブトランスフォーマデコーダを組み込んでいる。 この反復的プロセスを通じて、このモデルはグラフの忠実度を体系的に向上し、最終的に文脈テキストブロックの検出精度が向上する。 SCUT-CTW-Context と ReCTS-Context の2つのデータセットを用いた総合的な実験的評価により,CTBD の分野を推し進める上でのグラフ生成フレームワークの有効性と可能性を明らかにする。

Contextual Text Block Detection (CTBD) is the task of identifying coherent text blocks within the complexity of natural scenes. Previous methodologies have treated CTBD as either a visual relation extraction challenge within computer vision or as a sequence modeling problem from the perspective of natural language processing. We introduce a new framework that frames CTBD as a graph generation problem. This methodology consists of two essential procedures: identifying individual text units as graph nodes and discerning the sequential reading order relationships among these units as graph edges. Leveraging the cutting-edge capabilities of DQ-DETR for node detection, our framework innovates further by integrating a novel mechanism, a Dynamic Relation Transformer (DRFormer), dedicated to edge generation. DRFormer incorporates a dual interactive transformer decoder that deftly manages a dynamic graph structure refinement process. Through this iterative process, the model systematically enhances the graph's fidelity, ultimately resulting in improved precision in detecting contextual text blocks. Comprehensive experimental evaluations conducted on both SCUT-CTW-Context and ReCTS-Context datasets substantiate that our method achieves state-of-the-art results, underscoring the effectiveness and potential of our graph generation framework in advancing the field of CTBD.
翻訳日:2024-01-18 15:50:38 公開日:2024-01-17
# 局所オプティマネットワークにおける情報の流れとラプラシアンダイナミクス

Information flow and Laplacian dynamics on local optima networks ( http://arxiv.org/abs/2401.09229v1 )

ライセンス: Link先を確認
Hendrik Richter and Sarah L. Thomson(参考訳) 我々は,ローカルオプティマネットワーク(lons)を探索する新しい手法を提案する。 ノードは局所最適であり、エッジはそれらの間の検索遷移である。 LONで計算された多くの指標が提案され、メタヒューリスティックな探索困難と結びついていることが示されている。 これらは典型的には、LONを静的構造を記述するものと見なしている。 これとは対照的に、ラプラシア力学(LD)は、ネットワーク間の情報フローを動的プロセスとして考えるアプローチである。 我々はLDをLONの文脈に適用する。 テストベッドとして、二次代入問題(QAP)ライブラリのインスタンスを考える。 LDに関連するメトリクスを提案し,既存のLONメトリクスと比較した。 その結果,特定のLD指標が局所探索とタブ検索の反復においてメタヒューリスティックな性能の強い予測因子であることが示唆された。

We propose a new way of looking at local optima networks (LONs). LONs represent fitness landscapes; the nodes are local optima, and the edges are search transitions between them. Many metrics computed on LONs have been proposed and shown to be linked to metaheuristic search difficulty. These have typically considered LONs as describing static structures. In contrast to this, Laplacian dynamics (LD) is an approach to consider the information flow across a network as a dynamical process. We adapt and apply LD to the context of LONs. As a testbed, we consider instances from the quadratic assignment problem (QAP) library. Metrics related to LD are proposed and these are compared with existing LON metrics. The results show that certain LD metrics are strong predictors of metaheuristic performance for iterated local search and tabu search.
翻訳日:2024-01-18 15:50:14 公開日:2024-01-17
# 多重ボソニックまたはフェルミオン環境に対する拡張系-バス絡み合い定理

Extended system-bath entanglement theorem for multiple bosonic or fermionic environments ( http://arxiv.org/abs/2401.09228v1 )

ライセンス: Link先を確認
Yu Su, Hao-Yang Qi, Zi-Hao Chen, Yao Wang, Rui-Xue Xu, YiJing Yan(参考訳) システムバス絡み合い定理 (SBET) は線形応答関数 (J. Chem. Phys. 152, 034102 (2020)) で確立され、我々の以前の研究で相関関数 (arXiv: 2312.13618 (2023)) に一般化された。 この定理は、絡み合った系バスの性質を局所系と素浴に結びつける。 本研究では,まずSBETを,異なる温度で複数のボソニック・ガウス環境を持つ場状条件に拡張する。 システムだけでなく環境も、実際のように光学的偏光性を持つと考えられている。 ここで開発された拡張スベットの助けにより、ポンププローブなどの非線形分光の評価のために、ある量子散逸法によるシステム進化の低減により、絡み合ったシステム・バスの寄与が得られる。 フィールド自由条件における拡張SBETと古典的極限における拡張SBETも提示される。 フェルミオン環境のためのSBETは、完全性のための輸送シナリオの中で詳しく説明されている。

The system-bath entanglement theorem (SBET) was established in terms of linear response functions [J. Chem. Phys. 152, 034102 (2020)] and generalized to correlation functions [arXiv: 2312.13618 (2023)] in our previous works. This theorem connects the entangled system-bath properties to the local system and bare bath ones. In this work, firstly we extend the SBET to field-dressed conditions with multiple bosonic Gaussian environments at different temperatures. Not only the system but also environments are considered to be of optical polarizability, as in reality. With the aid of the extended SBET developed here, for the evaluation of the nonlinear spectroscopy such as the pump-probe, the entangled system-bath contributions can be obtained upon reduced system evolutions via certain quantum dissipative methods. The extended SBET in the field-free condition and its counterpart in the classical limit is also presented. The SBET for fermionic environments is elaborated within the transport scenarios for completeness.
翻訳日:2024-01-18 15:50:00 公開日:2024-01-17
# UniVIE:フォーム状文書からの視覚情報抽出のための統一ラベル空間アプローチ

UniVIE: A Unified Label Space Approach to Visual Information Extraction from Form-like Documents ( http://arxiv.org/abs/2401.09220v1 )

ライセンス: Link先を確認
Kai Hu, Jiawei Wang, Weihong Lin, Zhuoyao Zhong, Lei Sun, Qiang Huo(参考訳) 形式的な文書から既存の視覚情報抽出(VIE)手法は、通常、そのプロセスをキー情報抽出、キー値ペア抽出、選択群抽出など、別々のサブタスクに分割する。 しかし、これらのアプローチは、階層的なキー-値対や階層的な選択群を含む形式文書の階層構造をしばしば見落としている。 これらの制約に対処するため、我々はVIEを関係予測問題とみなし、異なるタスクのラベルを単一のラベル空間に統一する新しい視点を示す。 この統一的なアプローチにより、様々な関係型を定義することができ、形式的文書における階層的関係を効果的に取り扱うことができる。 この観点から、我々は、VIE問題に包括的に対処する統一モデルUniVIEを提案する。 UniVIE は粗い戦略を用いて機能する。 当初はツリー提案ネットワークを通じてツリー提案を生成し、その後リレーショナルデコーダモジュールによって階層木に洗練される。 UniVIEの関係予測能力を高めるために,木面の注意マスクと木面の埋め込みという2つの新しい木制約を関係デコーダに組み込んだ。 社内データセット HierForms と公開データセット SIBR を総合的に評価した結果,本手法が最先端の成果を達成し,VIE の分野を前進させる上での統一的アプローチの有効性と可能性を実証した。

Existing methods for Visual Information Extraction (VIE) from form-like documents typically fragment the process into separate subtasks, such as key information extraction, key-value pair extraction, and choice group extraction. However, these approaches often overlook the hierarchical structure of form documents, including hierarchical key-value pairs and hierarchical choice groups. To address these limitations, we present a new perspective, reframing VIE as a relation prediction problem and unifying labels of different tasks into a single label space. This unified approach allows for the definition of various relation types and effectively tackles hierarchical relationships in form-like documents. In line with this perspective, we present UniVIE, a unified model that addresses the VIE problem comprehensively. UniVIE functions using a coarse-to-fine strategy. It initially generates tree proposals through a tree proposal network, which are subsequently refined into hierarchical trees by a relation decoder module. To enhance the relation prediction capabilities of UniVIE, we incorporate two novel tree constraints into the relation decoder: a tree attention mask and a tree level embedding. Extensive experimental evaluations on both our in-house dataset HierForms and a publicly available dataset SIBR, substantiate that our method achieves state-of-the-art results, underscoring the effectiveness and potential of our unified approach in advancing the field of VIE.
翻訳日:2024-01-18 15:49:40 公開日:2024-01-17
# youtube の veganism 談話における集団行動の物語

Narratives of Collective Action in YouTube's Discourse on Veganism ( http://arxiv.org/abs/2401.09210v1 )

ライセンス: Link先を確認
Arianna Pera and Luca Maria Aiello(参考訳) ナラティブは、気候変動のような社会的問題を推し進めるための強力なツールとなり得る。 社会科学理論は、集団運動の中で起こる物語を理解するための枠組みを提供するが、これらは、世論の形成や集団行動の動員に重要な役割を果たすソーシャルメディアプラットフォームから得られる膨大なデータに適用されることは滅多にない。 オンライン物語の実証的評価におけるこのギャップは、公共の反応との関係の理解を制限する。 本研究では,植物性食を環境保護行動の一形態として重視し,自然言語処理を応用し,ヴィーガン運動に特有の道徳的ナラティブの理論的枠組みを運用する。 この枠組みを、Veganuary、Meatless March、No Meat Mayといった環境イニシアチブを促進するYouTubeビデオで見られる物語に適用する。 分析の結果,理論によって定義された複数の物語型がデータ中に経験的に存在することが明らかとなった。 肯定的な公的なエンゲージメントを引き出す可能性のある物語を識別するために,我々はテキスト処理を用いて,物語型間の集団行動を支持するコメントの割合を推定した。 抗議であれ他人を大義に変える努力であれ、社会的闘争を提唱するビデオ物語は、それぞれのコメントの中で集団的行動のより強い感覚と関連付けられる。 これらのナラティブタイプは、メッセージと公開応答の間の意味的コヒーレンスとアライメントの増大も示しており、典型的には集団行動の成功に結びついたマーカーである。 本研究は,集団行動の出現に影響を及ぼす複雑な要因について新たな知見を与え,社会運動における効果的なコミュニケーション戦略の展開を知らせる。

Narratives can be powerful tools for inspiring action on pressing societal issues such as climate change. While social science theories offer frameworks for understanding the narratives that arise within collective movements, these are rarely applied to the vast data available from social media platforms, which play a significant role in shaping public opinion and mobilizing collective action. This gap in the empirical evaluation of online narratives limits our understanding of their relationship with public response. In this study, we focus on plant-based diets as a form of pro-environmental action and employ natural language processing to operationalize a theoretical framework of moral narratives specific to the vegan movement. We apply this framework to narratives found in YouTube videos promoting environmental initiatives such as Veganuary, Meatless March, and No Meat May. Our analysis reveals that several narrative types, as defined by the theory, are empirically present in the data. To identify narratives with the potential to elicit positive public engagement, we used text processing to estimate the proportion of comments supporting collective action across narrative types. Video narratives advocating social fight, whether through protest or through efforts to convert others to the cause, are associated with a stronger sense of collective action in the respective comments. These narrative types also demonstrate increased semantic coherence and alignment between the message and public response, markers typically associated with successful collective action. Our work offers new insights into the complex factors that influence the emergence of collective action, thereby informing the development of effective communication strategies within social movements.
翻訳日:2024-01-18 15:49:15 公開日:2024-01-17
# クロマと音声特徴を用いた歌唱演奏のためのリアルタイム歌詞アライメントシステム

A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features For Classical Vocal Performance ( http://arxiv.org/abs/2401.09200v1 )

ライセンス: Link先を確認
Jiyun Park, Sangeon Yong, Taegyun Kwon, and Juhan Nam(参考訳) リアルタイム歌詞アライメントの目的は、ライブ歌唱音声を入力とし、与えられた歌詞内の正確な位置をオンザフライで特定することである。 このタスクは、ライブコンサートやオペラの自動サブタイトのような現実世界のアプリケーションに役立つ。 しかしながら、リアルタイムモデルの設計は、過去の入力のみを使用し、最小限のレイテンシで運用するという制約のため、大きな課題となる。 さらに、歌詞アライメントのためのリアルタイムモデルのためのデータセットの欠如により、以前の研究は主にプライベートな社内データセットで評価されており、標準的な評価方法が欠如している。 本稿では,クラシックな声楽演奏のためのリアルタイム歌詞アライメントシステムについて述べる。 まず,歌唱音声の旋律的特徴と音韻的特徴をそれぞれ捉えたクロマグラムと音韻後音図(ppg)の最適な組み合わせを見出すことにより,歌詞アライメントアルゴリズムを改善する。 第2に、リアルタイムの歌詞アライメントの評価セットとして、同じ曲の複数の演奏リフレクションを含むSchubert Winterreise Dataset (SWD) をリキャストする。

The goal of real-time lyrics alignment is to take live singing audio as input and to pinpoint the exact position within given lyrics on the fly. The task can benefit real-world applications such as the automatic subtitling of live concerts or operas. However, designing a real-time model poses a great challenge due to the constraints of only using past input and operating within a minimal latency. Furthermore, due to the lack of datasets for real-time models for lyrics alignment, previous studies have mostly evaluated with private in-house datasets, resulting in a lack of standard evaluation methods. This paper presents a real-time lyrics alignment system for classical vocal performances with two contributions. First, we improve the lyrics alignment algorithm by finding an optimal combination of chromagram and phonetic posteriorgram (PPG) that capture melodic and phonetics features of the singing voice, respectively. Second, we recast the Schubert Winterreise Dataset (SWD) which contains multiple performance renditions of the same pieces as an evaluation set for the real-time lyrics alignment.
翻訳日:2024-01-18 15:48:47 公開日:2024-01-17
# 部分観測による空間・時間連続物理シミュレーション

Space and Time Continuous Physics Simulation From Partial Observations ( http://arxiv.org/abs/2401.09198v1 )

ライセンス: Link先を確認
Janny Steeven, Nadri Madiha, Digne Julie, Wolf Christian(参考訳) 物理シミュレーションの最新の技術は、精度と複雑性のトレードオフに対処する数値スキームとメッシュリファインメント法に依存しているが、これらの手作りのソリューションは面倒で高い計算力を必要とする。 大規模機械学習に基づくデータ駆動方式は、より直接的かつ効率的に長距離依存関係を統合することにより、高い適応性を実現する。 本研究では,流体力学に焦点をあて,正則あるいは不規則な格子の形での計算と予測の固定的なサポートに基づく,文献の大部分の欠点に対処した。 本研究では,空間的・時間的領域の連続的な予測を行うための新しい手法を提案する。 本稿では,この課題を二重観測問題として定式化し,それぞれスパース位置と連続領域の2つの相互結合力学系を持つ解を提案し,初期状態からの解の予測と補間を可能にする。 我々の実践的な実装は、繰り返しGNNと任意の場所で解を補間できる時空間注意オブザーバを含む。 我々のモデルは(標準の自己回帰モデルのように)新しい初期条件に一般化するだけでなく、任意の空間と時間の位置で評価を行う。 流体力学の標準データセットを3つ評価し、古典的設定と連続予測を必要とする拡張された新しいタスクの両方において優れたベースラインと比較した。

Modern techniques for physical simulations rely on numerical schemes and mesh-refinement methods to address trade-offs between precision and complexity, but these handcrafted solutions are tedious and require high computational power. Data-driven methods based on large-scale machine learning promise high adaptivity by integrating long-range dependencies more directly and efficiently. In this work, we focus on fluid dynamics and address the shortcomings of a large part of the literature, which are based on fixed support for computations and predictions in the form of regular or irregular grids. We propose a novel setup to perform predictions in a continuous spatial and temporal domain while being trained on sparse observations. We formulate the task as a double observation problem and propose a solution with two interlinked dynamical systems defined on, respectively, the sparse positions and the continuous domain, which allows to forecast and interpolate a solution from the initial condition. Our practical implementation involves recurrent GNNs and a spatio-temporal attention observer capable of interpolating the solution at arbitrary locations. Our model not only generalizes to new initial conditions (as standard auto-regressive models do) but also performs evaluation at arbitrary space and time locations. We evaluate on three standard datasets in fluid dynamics and compare to strong baselines, which are outperformed both in classical settings and in the extended new task requiring continuous predictions.
翻訳日:2024-01-18 15:48:26 公開日:2024-01-17
# 事前学習拡散モデルによる無訓練セマンティックビデオ合成

Training-Free Semantic Video Composition via Pre-trained Diffusion Model ( http://arxiv.org/abs/2401.09195v1 )

ライセンス: Link先を確認
Jiaqi Guo, Sitong Su, Junchen Zhu, Lianli Gao, Jingkuan Song(参考訳) ビデオ合成タスクは、異なるビデオからの特定の前景と背景を調和したコンポジットに統合することを目的としている。 現在のアプローチは、主に前景の色や照明を調整したビデオで訓練されており、ドメインギャップのような表面的な調整以上の深い意味的格差に対処するのに苦労している。 そこで本研究では,意味的事前知識を付与した事前学習された拡散モデルを用いて,複合映像をより広い意味的差異で処理可能なトレーニングフリーパイプラインを提案する。 具体的には,ビデオフレームをカスケード方式で処理し,拡散モデルを用いて各フレームを2つのプロセスで処理する。 逆転過程において、可逆性と変調性のバランスを保った初期点を生成するためにバランス部分逆転法を提案する。 そして, 生成過程において, フレーム間の連続性を高めるために, フレーム間拡張注意を提案する。 実験の結果,本パイプラインは,出力の視覚的調和とフレーム間コヒーレンスを良好に確保でき,幅広い意味的差異の管理に有効性が示された。

The video composition task aims to integrate specified foregrounds and backgrounds from different videos into a harmonious composite. Current approaches, predominantly trained on videos with adjusted foreground color and lighting, struggle to address deep semantic disparities beyond superficial adjustments, such as domain gaps. Therefore, we propose a training-free pipeline employing a pre-trained diffusion model imbued with semantic prior knowledge, which can process composite videos with broader semantic disparities. Specifically, we process the video frames in a cascading manner and handle each frame in two processes with the diffusion model. In the inversion process, we propose Balanced Partial Inversion to obtain generation initial points that balance reversibility and modifiability. Then, in the generation process, we further propose Inter-Frame Augmented attention to augment foreground continuity across frames. Experimental results reveal that our pipeline successfully ensures the visual harmony and inter-frame coherence of the outputs, demonstrating efficacy in managing broader semantic disparities.
翻訳日:2024-01-18 15:48:02 公開日:2024-01-17
# gnn-lofi:局所的特徴量に基づくヒストグラム交叉による新しいグラフニューラルネットワーク

GNN-LoFI: a Novel Graph Neural Network through Localized Feature-based Histogram Intersection ( http://arxiv.org/abs/2401.09193v1 )

ライセンス: Link先を確認
Alessandro Bicciato, Luca Cosmo, Giorgia Minello, Luca Rossi, Andrea Torsello(参考訳) グラフニューラルネットワークは、グラフベースの機械学習の選択フレームワークになりつつある。 本稿では,従来のメッセージパッシングに代えて,ノード特徴の局所分布の解析を行うグラフニューラルネットワークアーキテクチャを提案する。 この目的のために,各地域のエゴネットの特徴分布を抽出し,ヒストグラム交叉カーネルを用いて学習されたラベル分布と比較する。 類似性情報はネットワーク内の他のノードに伝播し、その特徴のアンサンブルによってメッセージが決定されるメッセージパッシングのようなメカニズムを効果的に生成する。 ハイパーパラメータの異なる選択下でネットワークの性能を評価するため,アブレーション実験を行った。 最後に、標準グラフ分類と回帰ベンチマークでモデルをテストすることで、グラフカーネルとグラフニューラルネットワークの両方を含む、広く使われている代替アプローチよりも優れていることが分かりました。

Graph neural networks are increasingly becoming the framework of choice for graph-based machine learning. In this paper, we propose a new graph neural network architecture that substitutes classical message passing with an analysis of the local distribution of node features. To this end, we extract the distribution of features in the egonet for each local neighbourhood and compare them against a set of learned label distributions by taking the histogram intersection kernel. The similarity information is then propagated to other nodes in the network, effectively creating a message passing-like mechanism where the message is determined by the ensemble of the features. We perform an ablation study to evaluate the network's performance under different choices of its hyper-parameters. Finally, we test our model on standard graph classification and regression benchmarks, and we find that it outperforms widely used alternative approaches, including both graph kernels and graph neural networks.
翻訳日:2024-01-18 15:47:45 公開日:2024-01-17
# 言語モデルによるプログレッシブトレーニングのための準備

Preparing Lessons for Progressive Training on Language Models ( http://arxiv.org/abs/2401.09192v1 )

ライセンス: Link先を確認
Yu Pan, Ye Yuan, Yichun Yin, Jiaxin Shi, Zenglin Xu, Ming Zhang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 人工知能におけるトランスフォーマーの急速な進歩は、モデルサイズの増加による資源消費の増大と温室効果ガス排出の増大によるコストを伴っている。 事前の作業は、トレーニング効率を改善するために事前訓練された小さなモデルを使うことを推奨するが、このアプローチは新しいモデル構造には適さないかもしれない。 一方、スクラッチからのトレーニングは遅くなり、層を段階的に積み重ねることはしばしば大きな加速を達成できない。 これらの課題に対処するために、我々は、低層トレーニング中の高テキストbf{l}ayer functi\textbf{o}nality によるex\textbf{p}anding \textbf{o}perationの授業をprep\textbf{a}resするapolloという新しい手法を提案する。 提案手法では,低値優先サンプリング (lvps) を用いて異なる深さと重み付けを訓練し,効率的な拡張を促進する。 また,安定なモデル深度拡張のための補間法を提案する。 実験の結果、アポロ計画が最先端の加速比を達成し、事前訓練されたモデルを使った方法に匹敵する結果となり、時間、財政、環境コストを削減しながら深層モデルのトレーニングを行うための普遍的で効率的なソリューションとなった。

The rapid progress of Transformers in artificial intelligence has come at the cost of increased resource consumption and greenhouse gas emissions due to growing model sizes. Prior work suggests using pretrained small models to improve training efficiency, but this approach may not be suitable for new model structures. On the other hand, training from scratch can be slow, and progressively stacking layers often fails to achieve significant acceleration. To address these challenges, we propose a novel method called Apollo, which prep\textbf{a}res lessons for ex\textbf{p}anding \textbf{o}perations by \textbf{l}earning high-\textbf{l}ayer functi\textbf{o}nality during training of low layers. Our approach involves low-value-prioritized sampling (LVPS) to train different depths and weight sharing to facilitate efficient expansion. We also introduce an interpolation method for stable model depth extension. Experiments demonstrate that Apollo achieves state-of-the-art acceleration ratios, even rivaling methods using pretrained models, making it a universal and efficient solution for training deep models while reducing time, financial, and environmental costs.
翻訳日:2024-01-18 15:47:30 公開日:2024-01-17
# 多クラス分類における逆訓練下限計算のための最適輸送法

An Optimal Transport Approach for Computing Adversarial Training Lower Bounds in Multiclass Classification ( http://arxiv.org/abs/2401.09191v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Matt Jacobs, Jakwang Kim, Matthew Werenski(参考訳) 深層学習に基づくアルゴリズムの成功にもかかわらず、ニューラルネットワークは堅牢性に欠ける可能性があることが広く知られている。 強靭性を強制する一般的なパラダイムは、敵対的訓練(AT)であるが、これは多くの計算的および理論的困難をもたらす。 最近の研究は、ATとマルチクラス分類設定(MOT)の接続を開発し、この問題を研究するための新しいツールセットをアンロックしている。 本稿では,mot接続を利用して,最適逆リスクの普遍下限を計算し,最適分類器を同定するための計算可能な数値アルゴリズムを提案する。 線形プログラミング(LP)とエントロピー正規化(シンクホーン)に基づく2つのアルゴリズムを提案する。 我々の重要な洞察は、クラス間の高次相互作用を無害に切り離すことができ、MOT問題でよく見られる組合せ実行時間を防止できるということです。 これらの結果をmnistとcifar-$10$の実験で検証し,提案手法の妥当性を実証した。

Despite the success of deep learning-based algorithms, it is widely known that neural networks may fail to be robust. A popular paradigm to enforce robustness is adversarial training (AT), however, this introduces many computational and theoretical difficulties. Recent works have developed a connection between AT in the multiclass classification setting and multimarginal optimal transport (MOT), unlocking a new set of tools to study this problem. In this paper, we leverage the MOT connection to propose computationally tractable numerical algorithms for computing universal lower bounds on the optimal adversarial risk and identifying optimal classifiers. We propose two main algorithms based on linear programming (LP) and entropic regularization (Sinkhorn). Our key insight is that one can harmlessly truncate the higher order interactions between classes, preventing the combinatorial run times typically encountered in MOT problems. We validate these results with experiments on MNIST and CIFAR-$10$, which demonstrate the tractability of our approach.
翻訳日:2024-01-18 15:47:00 公開日:2024-01-17
# 歯科放射線診断における畳み込みニューラルネットワーク(CNN)の役割を探る:包括的体系的文献レビュー

Exploring the Role of Convolutional Neural Networks (CNN) in Dental Radiography Segmentation: A Comprehensive Systematic Literature Review ( http://arxiv.org/abs/2401.09190v1 )

ライセンス: Link先を確認
Walid Brahmi and Imen Jdey and Fadoua Drira(参考訳) 歯科医療の分野では, 診断ツールの精度向上への需要が高まっており, CT, コーンビームCT, 磁気共鳴画像, 超音波, 従来の口腔内X線撮影などの高度な画像技術に焦点を当てている。 ディープラーニングはこの文脈において重要なツールとして現れており、重要な診断データを抽出するのに不可欠な自動セグメンテーション技術の実装を可能にしている。 この最先端技術の統合は、歯の状態を効果的に管理することの必要性に対処し、もし検出されていない場合、人間の健康に大きな影響を与える可能性がある。 歯医者を含むさまざまな分野にわたるディープラーニングの印象的な記録は、口腔健康問題の早期発見と治療に革命をもたらす可能性を強調している。 目的:診断と予測において重要な結果を示した深層畳み込みニューラルネットワーク(CNN)は、多分野研究の新たな分野である。 本研究の目的は,技術の現状を簡潔に概観し,現在の議論を標準化し,今後の研究のベースラインを確立することである。 方法: 本研究では, 歯科画像解析のための深層学習手法を特に研究する関連研究を同定し, 選定する手法として, 体系的な文献レビューが用いられている。 本研究は,データの体系的収集,統計解析,結果の拡散など,方法論的アプローチを明らかにする。 結論: この研究は, 画像解析にCNN(Convolutional Neural Networks)を用いて, 歯科病理診断に有効なツールであることを示す。 この研究はいくつかの限界を認めたが、cnnは歯のセグメンテーションや分類に利用し、全体のパフォーマンスの最高レベルを示した。

In the field of dentistry, there is a growing demand for increased precision in diagnostic tools, with a specific focus on advanced imaging techniques such as computed tomography, cone beam computed tomography, magnetic resonance imaging, ultrasound, and traditional intra-oral periapical X-rays. Deep learning has emerged as a pivotal tool in this context, enabling the implementation of automated segmentation techniques crucial for extracting essential diagnostic data. This integration of cutting-edge technology addresses the urgent need for effective management of dental conditions, which, if left undetected, can have a significant impact on human health. The impressive track record of deep learning across various domains, including dentistry, underscores its potential to revolutionize early detection and treatment of oral health issues. Objective: Having demonstrated significant results in diagnosis and prediction, deep convolutional neural networks (CNNs) represent an emerging field of multidisciplinary research. The goals of this study were to provide a concise overview of the state of the art, standardize the current debate, and establish baselines for future research. Method: In this study, a systematic literature review is employed as a methodology to identify and select relevant studies that specifically investigate the deep learning technique for dental imaging analysis. This study elucidates the methodological approach, including the systematic collection of data, statistical analysis, and subsequent dissemination of outcomes. Conclusion: This work demonstrates how Convolutional Neural Networks (CNNs) can be employed to analyze images, serving as effective tools for detecting dental pathologies. Although this research acknowledged some limitations, CNNs utilized for segmenting and categorizing teeth exhibited their highest level of performance overall.
翻訳日:2024-01-18 15:46:43 公開日:2024-01-17
# 深層学習モデルの2次元複雑度測定

A Two-Scale Complexity Measure for Deep Learning Models ( http://arxiv.org/abs/2401.09184v1 )

ライセンス: Link先を確認
Massimiliano Datres, Gian Paolo Leonardi, Alessio Figalli, David Sutter(参考訳) 有効次元に基づく統計モデルのための新しい容量尺度2sEDを導入する。 新しい量は、モデル上の穏やかな仮定の下で一般化誤差を確実に限定する。 さらに、標準データセットと一般的なモデルアーキテクチャのシミュレーションは、2sEDがトレーニングエラーとよく相関していることを示している。 マルコフモデルの場合、階層的な反復的アプローチによって、下から2sedを効率的に近似する方法を示し、多くのパラメータでディープラーニングモデルに取り組むことができる。 シミュレーションの結果、近似は異なる顕著なモデルやデータセットに適していることが示唆された。

We introduce a novel capacity measure 2sED for statistical models based on the effective dimension. The new quantity provably bounds the generalization error under mild assumptions on the model. Furthermore, simulations on standard data sets and popular model architectures show that 2sED correlates well with the training error. For Markovian models, we show how to efficiently approximate 2sED from below through a layerwise iterative approach, which allows us to tackle deep learning models with a large number of parameters. Simulation results suggest that the approximation is good for different prominent models and data sets.
翻訳日:2024-01-18 15:46:12 公開日:2024-01-17
# 不均一クライアントを用いたリスク認識型ワイヤレスフェデレーション学習

Risk-Aware Accelerated Wireless Federated Learning with Heterogeneous Clients ( http://arxiv.org/abs/2401.09267v1 )

ライセンス: Link先を確認
Mohamed Ads, Hesham ElSawy and Hossam S. Hassanein(参考訳) Wireless Federated Learning(FL)は、新興の分散機械学習パラダイムであり、特にモバイルクライアント上の機密データとプライベートデータを持つドメインで勢いを増している。 しかし、無線FLの収束速度と精度において、送信速度と送信誤差に対する感受性の点で、位置依存性能は大きな課題となる。 この課題は、クライアントのデータ品質とセキュリティプロファイルを認証するメトリクスを使わずに、敵対的な環境ではより深刻である。 本稿では,クライアントが保有するデータ量,送信速度,送信エラー,信頼度などの不均一性を考慮に入れた,新たなリスク認識型FLフレームワークを提案する。 顧客の位置依存的なパフォーマンスと信頼性のプロファイルに基づいてクライアントを分類し,クライアントが送信率の低下や信頼性の上昇を抑えるための動的リスク対応グローバルモデルアグリゲーション方式を提案する。 特に、伝達速度は、収束速度を加速するための初期ラウンドの主導的な参加基準である。 そこで本モデルでは,送信速度制限を段階的に緩和し,セルエッジクライアントでのトレーニングデータを増やす。 集約ラウンドには、送信エラーを考慮したデバイアス係数が組み込まれている。 基地局は、微調整段階で信頼できないクライアントを除外するバリデーションセットにより、リスクアウェアネスを有効にする。 提案されたスキームは、保守的なスキーム(信頼に値するデバイスのみを許可する)と攻撃的なスキーム(信頼基準に従わない)に対してベンチマークされる。 計算結果は,両ベンチマークと比較した場合の精度と収束速度の観点から,提案手法の優位性を強調した。

Wireless Federated Learning (FL) is an emerging distributed machine learning paradigm, particularly gaining momentum in domains with confidential and private data on mobile clients. However, the location-dependent performance, in terms of transmission rates and susceptibility to transmission errors, poses major challenges for wireless FL's convergence speed and accuracy. The challenge is more acute for hostile environments without a metric that authenticates the data quality and security profile of the clients. In this context, this paper proposes a novel risk-aware accelerated FL framework that accounts for the clients heterogeneity in the amount of possessed data, transmission rates, transmission errors, and trustworthiness. Classifying clients according to their location-dependent performance and trustworthiness profiles, we propose a dynamic risk-aware global model aggregation scheme that allows clients to participate in descending order of their transmission rates and an ascending trustworthiness constraint. In particular, the transmission rate is the dominant participation criterion for initial rounds to accelerate the convergence speed. Our model then progressively relaxes the transmission rate restriction to explore more training data at cell-edge clients. The aggregation rounds incorporate a debiasing factor that accounts for transmission errors. Risk-awareness is enabled by a validation set, where the base station eliminates non-trustworthy clients at the fine-tuning stage. The proposed scheme is benchmarked against a conservative scheme (i.e., only allowing trustworthy devices) and an aggressive scheme (i.e., oblivious to the trust metric). The numerical results highlight the superiority of the proposed scheme in terms of accuracy and convergence speed when compared to both benchmarks.
翻訳日:2024-01-18 15:39:26 公開日:2024-01-17
# P$^2$OT: 深い不均衡クラスタリングのためのプログレッシブ部分最適輸送

P$^2$OT: Progressive Partial Optimal Transport for Deep Imbalanced Clustering ( http://arxiv.org/abs/2401.09266v1 )

ライセンス: Link先を確認
Chuyu Zhang, Hui Ren, Xuming He(参考訳) ラベル情報なしで表現とセマンティッククラスタリングを学習するディープクラスタリングは、ディープラーニングベースのアプローチにおいて大きな課題となる。 近年の大きな進歩にもかかわらず、既存の手法の多くは一様分散データセットにフォーカスしており、その方法の実用的適用性が著しく制限されている。 本稿では,まず,下位クラスが不均衡分布を示す深層不均衡クラスタリングという,より実用的な問題設定を提案する。 この問題に対処するために,新しい擬似ラベル学習フレームワークを提案する。 本フレームワークは, 擬似ラベル生成を段階的部分的最適輸送問題として定式化し, 先行分布制約下で各サンプルを段階的に不均衡クラスタに輸送し, 疑似ラベルの生成と高信頼サンプルからの学習を行う。 さらに,初期定式化を拡張制約付き不均衡最適輸送問題に変換し,高速行列スケーリングアルゴリズムにより効率的に解くことができる。 CIFAR100、ImageNet-R、細粒度iNaturalist2018データセットの大規模サブセットなど、さまざまなデータセットの実験は、我々の方法の優位性を実証している。

Deep clustering, which learns representation and semantic clustering without labels information, poses a great challenge for deep learning-based approaches. Despite significant progress in recent years, most existing methods focus on uniformly distributed datasets, significantly limiting the practical applicability of their methods. In this paper, we first introduce a more practical problem setting named deep imbalanced clustering, where the underlying classes exhibit an imbalance distribution. To tackle this problem, we propose a novel pseudo-labeling-based learning framework. Our framework formulates pseudo-label generation as a progressive partial optimal transport problem, which progressively transports each sample to imbalanced clusters under prior distribution constraints, thus generating imbalance-aware pseudo-labels and learning from high-confident samples. In addition, we transform the initial formulation into an unbalanced optimal transport problem with augmented constraints, which can be solved efficiently by a fast matrix scaling algorithm. Experiments on various datasets, including a human-curated long-tailed CIFAR100, challenging ImageNet-R, and large-scale subsets of fine-grained iNaturalist2018 datasets, demonstrate the superiority of our method.
翻訳日:2024-01-18 15:39:00 公開日:2024-01-17
# MSHyper:長距離時系列予測のためのマルチスケールハイパーグラフ変換器

MSHyper: Multi-Scale Hypergraph Transformer for Long-Range Time Series Forecasting ( http://arxiv.org/abs/2401.09261v1 )

ライセンス: Link先を確認
Zongjiang Shang, Ling Chen(参考訳) 異なるスケールの時間パターン間の非神秘化相互作用は、精密な長距離時系列予測の基盤である。 しかし、以前の作品には高次相互作用をモデル化する能力が欠けている。 長距離時系列予測のためのより包括的なパターンインタラクションモデリングを促進するために,マルチスケールハイパーグラフトランスフォーマ(mshyper)フレームワークを提案する。 具体的には、高次パターンインタラクションをモデリングするための基盤を提供するために、マルチスケールハイパーグラフが導入された。 次に、ハイパーエッジをノードとして扱うことにより、ハイパーグラフモデリングを強化するハイパーエッジグラフを構築する。 さらに、3段階のメッセージパッシング機構を導入し、パターン情報を集約し、異なるスケールの時間パターン間の相互作用強度を学習する。 5つの実世界のデータセットに対する大規模な実験により、MSHyperは最先端のパフォーマンスを達成し、予測エラーを平均8.73%、MSEとMAEのベースラインで平均7.15%削減した。

Demystifying interactions between temporal patterns of different scales is fundamental to precise long-range time series forecasting. However, previous works lack the ability to model high-order interactions. To promote more comprehensive pattern interaction modeling for long-range time series forecasting, we propose a Multi-Scale Hypergraph Transformer (MSHyper) framework. Specifically, a multi-scale hypergraph is introduced to provide foundations for modeling high-order pattern interactions. Then by treating hyperedges as nodes, we also build a hyperedge graph to enhance hypergraph modeling. In addition, a tri-stage message passing mechanism is introduced to aggregate pattern information and learn the interaction strength between temporal patterns of different scales. Extensive experiments on five real-world datasets demonstrate that MSHyper achieves state-of-the-art performance, reducing prediction errors by an average of 8.73% and 7.15% over the best baseline in MSE and MAE, respectively.
翻訳日:2024-01-18 15:38:38 公開日:2024-01-17
# 機械学習強化ハイブリッドシミュレーションにおける分布変化の緩和

Mitigating distribution shift in machine learning-augmented hybrid simulation ( http://arxiv.org/abs/2401.09259v1 )

ライセンス: Link先を確認
Jiaxi Zhao and Qianxiao Li(参考訳) シミュレーションアルゴリズムの一部がデータ駆動サロゲートに置き換えられる機械学習拡張ハイブリッドシミュレーションにおいて,一般に発生する分布シフトの問題について検討する。 まず,機械学習によるハイブリッドシミュレーション問題の構造と,それに伴う分布変化の原因と影響を理解するための数学的枠組みを構築した。 分布シフトとシミュレーション誤差の相関関係を数値的および理論的に示す。 そこで本研究では,分布シフトを制御するための接空間正規化推定器に基づく簡易な手法を提案し,シミュレーション結果の長期精度を向上させる。 線形力学の場合、提案手法の有効性を定量化するための徹底的な理論的解析を提供する。 さらに, 部分的に知られている反応拡散方程式をシミュレートし, データ駆動型圧力解法を用いてナビエ・ストークス方程式を解くなど, 数値実験を行った。 いずれの場合も, 提案手法によるシミュレーション精度の向上は顕著であり, 特に, 比較的強い非線形反応機構を持つシステムや, 大規模なレイノルズ数でのフローなど, 分布シフトの度合いが高いシステムでは顕著である。

We study the problem of distribution shift generally arising in machine-learning augmented hybrid simulation, where parts of simulation algorithms are replaced by data-driven surrogates. We first establish a mathematical framework to understand the structure of machine-learning augmented hybrid simulation problems, and the cause and effect of the associated distribution shift. We show correlations between distribution shift and simulation error both numerically and theoretically. Then, we propose a simple methodology based on tangent-space regularized estimator to control the distribution shift, thereby improving the long-term accuracy of the simulation results. In the linear dynamics case, we provide a thorough theoretical analysis to quantify the effectiveness of the proposed method. Moreover, we conduct several numerical experiments, including simulating a partially known reaction-diffusion equation and solving Navier-Stokes equations using the projection method with a data-driven pressure solver. In all cases, we observe marked improvements in simulation accuracy under the proposed method, especially for systems with high degrees of distribution shift, such as those with relatively strong non-linear reaction mechanisms, or flows at large Reynolds numbers.
翻訳日:2024-01-18 15:38:22 公開日:2024-01-17
# コントロール・アウェア・アジュメンテーションとプリビレージ誘導蒸留によるビジュモータ政策の効率化

An Efficient Generalizable Framework for Visuomotor Policies via Control-aware Augmentation and Privilege-guided Distillation ( http://arxiv.org/abs/2401.09258v1 )

ライセンス: Link先を確認
Yinuo Zhao, Kun Wu, Tianjiao Yi, Zhiyuan Xu, Xiaozhu Ju, Zhengping Che, Qinru Qiu, Chi Harold Liu, Jian Tang(参考訳) 高次元視覚観察から直接制御機構を学習するビジュモータポリシーは、複雑な視覚変化を伴う新しい環境に適応する上での課題に直面する。 データ拡張は、データの多様性を豊かにすることで、これらの一般化ギャップをブリッジするための有望な方法として現れます。 しかし、直接的に観察全体を増強することは、政策学習に過度な負担を課し、パフォーマンスの低下につながる可能性がある。 本稿では,視覚運動政策の一般化能力の向上と,トレーニングの安定性の維持を両側面から提案する。 1)3つの補助的損失を伴う自己監督型再建作業を通じて制御意識マスクを学習し,マスクに基づく制御非関連領域にのみ強力な拡張を適用して一般化ギャップを低減させる。 2) 視覚強化学習(RL)におけるトレーニング不安定性問題に対処するため, 訓練済みのRLエキスパートによる低レベル環境状態処理から, 学生ビズモータ政策まで知識を抽出した。 ポリシーはその後、それ以上の微調整をすることなく、見えない環境にデプロイされる。 dmcontrol generalization benchmark (dmc-gb), enhanced robot manipulation distraction benchmark (rmdb), and a special long-horizontal drawer-opening robot task (dmc-gb) などのベンチマークで比較・アブレーションを行った。 実験結果より,dmc-gbの映像ハード設定において,従来の方法よりも17\%改善が見られた。

Visuomotor policies, which learn control mechanisms directly from high-dimensional visual observations, confront challenges in adapting to new environments with intricate visual variations. Data augmentation emerges as a promising method for bridging these generalization gaps by enriching data variety. However, straightforwardly augmenting the entire observation shall impose excessive burdens on policy learning and may even result in performance degradation. In this paper, we propose to improve the generalization ability of visuomotor policies as well as preserve training stability from two aspects: 1) We learn a control-aware mask through a self-supervised reconstruction task with three auxiliary losses and then apply strong augmentation only to those control-irrelevant regions based on the mask to reduce the generalization gaps. 2) To address training instability issues prevalent in visual reinforcement learning (RL), we distill the knowledge from a pretrained RL expert processing low-level environment states, to the student visuomotor policy. The policy is subsequently deployed to unseen environments without any further finetuning. We conducted comparison and ablation studies across various benchmarks: the DMControl Generalization Benchmark (DMC-GB), the enhanced Robot Manipulation Distraction Benchmark (RMDB), and a specialized long-horizontal drawer-opening robotic task. The extensive experimental results well demonstrate the effectiveness of our method, e.g., showing a 17\% improvement over previous methods in the video-hard setting of DMC-GB.
翻訳日:2024-01-18 15:38:04 公開日:2024-01-17
# 多目的biレベル最適化のための一階多段階アルゴリズム

A First-Order Multi-Gradient Algorithm for Multi-Objective Bi-Level Optimization ( http://arxiv.org/abs/2401.09257v1 )

ライセンス: Link先を確認
Feiyang Ye, Baijiong Lin, Xiaofeng Cao, Yu Zhang, Ivor Tsang(参考訳) 本稿では,上層サブプロブレムが多目的最適化問題であり,下層サブプロブレムがスカラー最適化問題であるMOBLO(Multi-Objective Bi-Level Optimization)問題について検討する。 既存の勾配に基づくMOBLOアルゴリズムはヘッセン行列を計算する必要があり、計算不効率な問題を引き起こす。 そこで本研究では,FOUMと呼ばれるMOBLOの高効率1次多段階化手法を提案する。 具体的には,MOBLO問題を値関数法による制約付き多目的最適化(MOO)問題として再構成する。 そこで本研究では,難解な制約付きmoo問題の解法を提案する。 理論的には,提案手法の効率と非漸近収束結果を示すための複雑性解析を行う。 実験的に、異なる学習問題において提案手法の有効性と効率を実証した。 特に、3つのマルチタスク学習ベンチマークデータセットで最先端のパフォーマンスを実現する。

In this paper, we study the Multi-Objective Bi-Level Optimization (MOBLO) problem, where the upper-level subproblem is a multi-objective optimization problem and the lower-level subproblem is for scalar optimization. Existing gradient-based MOBLO algorithms need to compute the Hessian matrix, causing the computational inefficient problem. To address this, we propose an efficient first-order multi-gradient method for MOBLO, called FORUM. Specifically, we reformulate MOBLO problems as a constrained multi-objective optimization (MOO) problem via the value-function approach. Then we propose a novel multi-gradient aggregation method to solve the challenging constrained MOO problem. Theoretically, we provide the complexity analysis to show the efficiency of the proposed method and a non-asymptotic convergence result. Empirically, extensive experiments demonstrate the effectiveness and efficiency of the proposed FORUM method in different learning problems. In particular, it achieves state-of-the-art performance on three multi-task learning benchmark datasets.
翻訳日:2024-01-18 15:37:36 公開日:2024-01-17
# 生成型量子固有ソルバ(gqe)とその基底状態探索への応用

The generative quantum eigensolver (GQE) and its application for ground state search ( http://arxiv.org/abs/2401.09253v1 )

ライセンス: Link先を確認
Kouhei Nakaji, Lasse Bj{\o}rn Kristensen, Jorge A. Campos-Gonzalez-Angulo, Mohammad Ghazi Vakili, Haozhe Huang, Mohsen Bagherimehrab, Christoph Gorgulla, FuTe Wong, Alex McCaskey, Jin-Sung Kim, Thien Nguyen, Pooja Rao, Alan Aspuru-Guzik(参考訳) 本稿では,量子シミュレーションに古典生成モデルを適用する新しい手法である生成量子固有ソルバ(gqe)を提案する。 gqeアルゴリズムは古典的な生成モデルを最適化し、望ましい特性を持つ量子回路を生成する。 本稿では,GPT-QE(Generative Pre-trained Transformer-based Quantum Eigensolver)と呼ばれるトランスフォーマーベースの実装を開発し,既存のデータセットの事前学習と事前知識のないトレーニングの両方を活用する。 電子構造ハミルトニアンの基底状態探索におけるGPT-QEのトレーニングおよび事前学習の有効性を示す。 GQE戦略はハミルトンシミュレーションの問題を超えて、量子コンピューティングの他の応用領域に拡張することができる。

We introduce the generative quantum eigensolver (GQE), a novel method for applying classical generative models for quantum simulation. The GQE algorithm optimizes a classical generative model to produce quantum circuits with desired properties. Here, we develop a transformer-based implementation, which we name the generative pre-trained transformer-based (GPT) quantum eigensolver (GPT-QE), leveraging both pre-training on existing datasets and training without any prior knowledge. We demonstrate the effectiveness of training and pre-training GPT-QE in the search for ground states of electronic structure Hamiltonians. GQE strategies can extend beyond the problem of Hamiltonian simulation into other application areas of quantum computing.
翻訳日:2024-01-18 15:37:24 公開日:2024-01-17
# 360$^\circ$画像からの3次元シーン形状の推定:サーベイ

3D Scene Geometry Estimation from 360$^\circ$ Imagery: A Survey ( http://arxiv.org/abs/2401.09252v1 )

ライセンス: Link先を確認
Thiago Lopes Trugillo da Silveira, Paulo Gamarra Lessa Pinto, Jeffri Erwin Murrugarra Llerena, Claudio Rosito Jung(参考訳) 本論文は,全方位光学下で撮影された1,2,複数画像に基づいて,先駆的かつ最先端の3次元シーン形状推定手法に関する包括的調査を行う。 まず、球面カメラモデルの基本概念を再考し、全方向(360$^\circ$、球面またはパノラマ)の画像やビデオに適した、最も一般的な取得技術と表現形式についてレビューする。 次に、単色レイアウトと深度推論のアプローチを調査し、球面データに適した学習ベースソリューションの最近の進歩を強調した。 古典的なステレオマッチングは球面領域で修正され、スパースや密度のある特徴を検出し記述するための方法論が重要となる。 ステレオマッチングの概念は、複数のビューカメラの設定のために外挿され、ライトフィールド、マルチビューステレオ、モーションからの構造(または視覚的同時ローカライゼーションとマッピング)に分類される。 また、一般に採用されているデータセットと各目的に示されるメリットの数字をコンパイルし、議論し、最新の結果の完全性についてリストアップする。 本稿は,現状と今後の傾向を指摘して結論づける。

This paper provides a comprehensive survey on pioneer and state-of-the-art 3D scene geometry estimation methodologies based on single, two, or multiple images captured under the omnidirectional optics. We first revisit the basic concepts of the spherical camera model, and review the most common acquisition technologies and representation formats suitable for omnidirectional (also called 360$^\circ$, spherical or panoramic) images and videos. We then survey monocular layout and depth inference approaches, highlighting the recent advances in learning-based solutions suited for spherical data. The classical stereo matching is then revised on the spherical domain, where methodologies for detecting and describing sparse and dense features become crucial. The stereo matching concepts are then extrapolated for multiple view camera setups, categorizing them among light fields, multi-view stereo, and structure from motion (or visual simultaneous localization and mapping). We also compile and discuss commonly adopted datasets and figures of merit indicated for each purpose and list recent results for completeness. We conclude this paper by pointing out current and future trends.
翻訳日:2024-01-18 15:37:11 公開日:2024-01-17
# 部分モジュラー最大化における一般凸集合とダウン閉凸集合のギャップの橋渡し

Bridging the Gap Between General and Down-Closed Convex Sets in Submodular Maximization ( http://arxiv.org/abs/2401.09251v1 )

ライセンス: Link先を確認
Loay Mualem, Murad Tukan, Moran Fledman(参考訳) dr-submodular関数の最適化は近年、非凸最適化(non-convex optimization)の領域において重要な発展を遂げている。 実世界のシナリオによって動機づけられた最近の研究は、一般(必ずしも閉鎖的ではない)凸集合の制約に対する非単調DR-部分モジュラ函数の最大化を探求している。 この時点まで、これらの研究はすべてパラメータとして任意の実現可能な解の最小$\ell_\infty$ノルムを使っていた。 残念なことに、mualem \& feldman~\cite{mualem2023resolving} による最近の硬さの結果は、このアプローチがダウンクローズド制約と非ダウンクローズド制約の間をスムーズに補間できないことを示している。 本研究では, 凸体制約を2つの異なる凸体に自然に分解することに基づく補間を, 閉凸体と一般凸体とで実現可能な, オフラインおよびオンラインアルゴリズムを提案する。 また、3つのオフラインおよび2つのオンラインアプリケーションにまたがる提案アルゴリズムの優位性を実証的に示す。

Optimization of DR-submodular functions has experienced a notable surge in significance in recent times, marking a pivotal development within the domain of non-convex optimization. Motivated by real-world scenarios, some recent works have delved into the maximization of non-monotone DR-submodular functions over general (not necessarily down-closed) convex set constraints. Up to this point, these works have all used the minimum $\ell_\infty$ norm of any feasible solution as a parameter. Unfortunately, a recent hardness result due to Mualem \& Feldman~\cite{mualem2023resolving} shows that this approach cannot yield a smooth interpolation between down-closed and non-down-closed constraints. In this work, we suggest novel offline and online algorithms that provably provide such an interpolation based on a natural decomposition of the convex body constraint into two distinct convex bodies: a down-closed convex body and a general convex body. We also empirically demonstrate the superiority of our proposed algorithms across three offline and two online applications.
翻訳日:2024-01-18 15:36:54 公開日:2024-01-17
# タスク指向文書群対話における感情・デモグラフィック情報・暗黙のユーザフィードバックからの学習

Learning from Emotions, Demographic Information and Implicit User Feedback in Task-Oriented Document-Grounded Dialogues ( http://arxiv.org/abs/2401.09248v1 )

ライセンス: Link先を確認
Dominic Petrak, Thy Thy Tran, Iryna Gurevych(参考訳) タスク指向対話システムとドキュメント接頭辞対話システムの成功は、それを受け入れて楽しむユーザに依存する。 これを実現するために、人間とコンピュータの相互作用の分野で最近発表された研究は、人口統計情報、ユーザ感情、発話中の暗黙のフィードバックから学ぶことの組み合わせが特に重要であることを示唆している。 しかし、これらの発見は自然言語処理の分野に移管されておらず、主に個別に研究されている。 そのため、十分な注釈付きデータセットは利用できない。 このギャップに対処するために、人口統計情報、ユーザ感情、暗黙のフィードバックを付加したタスク指向文書地上対話のための最初の英語対話データセットであるFEDIを紹介する。 FLAN-T5, GPT-2, LLaMA-2 を用いて行った実験から,これらのデータにより,タスク完了と実際の応答の整合性,ユーザの受容性が改善される可能性が示唆された。

The success of task-oriented and document-grounded dialogue systems depends on users accepting and enjoying using them. To achieve this, recently published work in the field of Human-Computer Interaction suggests that the combination of considering demographic information, user emotions and learning from the implicit feedback in their utterances, is particularly important. However, these findings have not yet been transferred to the field of Natural Language Processing, where these data are primarily studied separately. Accordingly, no sufficiently annotated dataset is available. To address this gap, we introduce FEDI, the first English dialogue dataset for task-oriented document-grounded dialogues annotated with demographic information, user emotions and implicit feedback. Our experiments with FLAN-T5, GPT-2 and LLaMA-2 show that these data have the potential to improve task completion and the factual consistency of the generated responses and user acceptance.
翻訳日:2024-01-18 15:36:31 公開日:2024-01-17
# セマンティックセグメンテーションの不確実性推定:自動クレーム処理における信頼性の向上

Uncertainty estimates for semantic segmentation: providing enhanced reliability for automated motor claims handling ( http://arxiv.org/abs/2401.09245v1 )

ライセンス: Link先を確認
Jan K\"uchler (1), Daniel Kr\"oll (1), Sebastian Schoenen (1), Andreas Witte (1) ((1) ControlExpert GmbH, Langenfeld, Germany)(参考訳) イメージセグメンテーションのためのディープニューラルネットワークモデルは、保険業界におけるモータークレーム処理プロセスを自動化する強力なツールとなり得る。 重要な側面は、請求人が損傷を文書化するために撮影した低画質の写真など、悪条件に直面した際のモデル出力の信頼性である。 自動車部品のセマンティックセグメンテーションのために訓練されたモデルにより予測されたセグメントの精度を評価するため,メタ分類モデルを用いて検討する。 セグメントの品質に相関する特徴の異なるセットを比較し,高品質セグメントと低品質セグメントを区別するためのAUROCスコア0.915を達成した。 低品質セグメントを除去することにより、セグメンテーション出力の平均miouを16パーセンテージ改善し、誤った予測セグメント数を77%削減する。

Deep neural network models for image segmentation can be a powerful tool for the automation of motor claims handling processes in the insurance industry. A crucial aspect is the reliability of the model outputs when facing adverse conditions, such as low quality photos taken by claimants to document damages. We explore the use of a meta-classification model to assess the precision of segments predicted by a model trained for the semantic segmentation of car body parts. Different sets of features correlated with the quality of a segment are compared, and an AUROC score of 0.915 is achieved for distinguishing between high- and low-quality segments. By removing low-quality segments, the average mIoU of the segmentation output is improved by 16 percentage points and the number of wrongly predicted segments is reduced by 77%.
翻訳日:2024-01-18 15:36:13 公開日:2024-01-17
# 言語間攻撃的言語検出:データセット,移動アプローチ,課題の体系的レビュー

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges ( http://arxiv.org/abs/2401.09244v1 )

ライセンス: Link先を確認
Aiqi Jiang, Arkaitz Zubiaga(参考訳) ソーシャルメディアにおける攻撃的言語の普及と急速な進化は、検出の複雑さを増幅し、特に様々な言語にまたがるコンテンツを特定することの難しさを強調している。 本調査は,ソーシャルメディアにおける攻撃的言語検出におけるCLTL(Cross-Lingual Transfer Learning)手法の体系的・包括的探索である。 我々の研究は、この領域における言語横断シナリオにのみ焦点をあてる最初の総合的な概要である。 67の関連論文を分析し,多言語データセットの特性,使用する言語間資源,実装されたcltl戦略など,様々な分野にわたる研究を分類した。 転送方法」によれば、CLTL転送の3つの主要なアプローチである、例、特徴、パラメータ転送についても要約する。 さらに、この分野における現在の課題と今後の研究機会についても触れた。 さらに,多言語データセットへの参照可能な2つの包括的なテーブルや,レビュー文献で使用されるcltlメソッドなど,調査リソースをオンラインで公開しました。

The growing prevalence and rapid evolution of offensive language in social media amplify the complexities of detection, particularly highlighting the challenges in identifying such content across diverse languages. This survey presents a systematic and comprehensive exploration of Cross-Lingual Transfer Learning (CLTL) techniques in offensive language detection in social media. Our study stands as the first holistic overview to focus exclusively on the cross-lingual scenario in this domain. We analyse 67 relevant papers and categorise these studies across various dimensions, including the characteristics of multilingual datasets used, the cross-lingual resources employed, and the specific CLTL strategies implemented. According to "what to transfer", we also summarise three main CLTL transfer approaches: instance, feature, and parameter transfer. Additionally, we shed light on the current challenges and future research opportunities in this field. Furthermore, we have made our survey resources available online, including two comprehensive tables that provide accessible references to the multilingual datasets and CLTL methods used in the reviewed literature.
翻訳日:2024-01-18 15:35:59 公開日:2024-01-17
# DiffClone: 拡散駆動政策学習によるロボットの行動クローン強化

DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning ( http://arxiv.org/abs/2401.09243v1 )

ライセンス: Link先を確認
Sabariswaran Mani, Abhranil Chandra, Sreyas Venkataraman, Adyan Rizvi, Yash Sirvi, Soumojit Bhattacharya, Aritra Hazra(参考訳) ロボット学習タスクは計算集約的でハードウェア固有のものだ。 このように、ロボット操作エージェントのトレーニングに使用できるオフラインデモの多様なデータセットを使用して、これらの課題に取り組む方法は非常に魅力的です。 Train-Offline-Test-Online (TOTO) Benchmarkは、専門家データと、一般的なオフラインRLと行動クローンエージェントのベンチマークスコアで構成される、オフライントレーニングのための、よく訓練されたオープンソースデータセットを提供する。 本稿では,拡散型ポリシー学習を用いた行動クローンエージェントのオフラインアルゴリズムdiffcloneを紹介し,実オンラインロボットにおける実時間の有効性を検証した。 これは、NeurIPS 2023で組織されたTrain-Offline-Test-Online (TOTO) Benchmark Challengeへの公式提出です。 事前学習した視覚表現とエージェントポリシーを実験した。 実験の結果,MOCOファインチューニングされたResNet50は,他のファインチューニングされた表現と比較して最高であることがわかった。 ゴール状態の条件付けと移行へのマッピングは、成功率と平均回帰をわずかに増加させた。 エージェントポリシーについては,条件拡散を利用した行動クローニング剤diffcloneを開発した。

Robot learning tasks are extremely compute-intensive and hardware-specific. Thus the avenues of tackling these challenges, using a diverse dataset of offline demonstrations that can be used to train robot manipulation agents, is very appealing. The Train-Offline-Test-Online (TOTO) Benchmark provides a well-curated open-source dataset for offline training comprised mostly of expert data and also benchmark scores of the common offline-RL and behaviour cloning agents. In this paper, we introduce DiffClone, an offline algorithm of enhanced behaviour cloning agent with diffusion-based policy learning, and measured the efficacy of our method on real online physical robots at test time. This is also our official submission to the Train-Offline-Test-Online (TOTO) Benchmark Challenge organized at NeurIPS 2023. We experimented with both pre-trained visual representation and agent policies. In our experiments, we find that MOCO finetuned ResNet50 performs the best in comparison to other finetuned representations. Goal state conditioning and mapping to transitions resulted in a minute increase in the success rate and mean-reward. As for the agent policy, we developed DiffClone, a behaviour cloning agent improved using conditional diffusion.
翻訳日:2024-01-18 15:35:42 公開日:2024-01-17
# 異種情報システムにおけるデータパイプライン確保のためのブロックチェーンモデル

A Blockchain-based Model for Securing Data Pipeline in a Heterogeneous Information System ( http://arxiv.org/abs/2401.09240v1 )

ライセンス: Link先を確認
MN Ramahlosi, Y Madani, A Akanbi(参考訳) 私たちのデジタル世界では、個人データと公開データへのアクセスは、セキュリティとプライバシの面で困難な問題になっている。 現代の情報システムには本質的に異質なセキュリティ脆弱性があり、接続されたエンドポイント間の通信データパイプラインが安全でないため、データインターセプションやデータ修正の影響を受けやすい。 本稿では,マルチハザード早期警報システム(mhews)を事例として,ヘテロジニアス情報システムにおけるデータパイプライン確保のためのブロックチェーンモデルを提案する。 提案モデルでは,ブロックチェーン技術固有のセキュリティ機能を活用して,データパイプラインで発生するセキュリティとプライバシの問題に対処する。 このモデルは、データの完全性、機密性、信頼性を分散的に保証するように設計されている。 このモデルは、プロトタイプ実装とシミュレーション実験を用いてハイブリッド環境で評価され、秘密台帳を用いたデータ信頼性と整合性のためのタンパーセーフで不変なデータパイプラインに対する従来のアプローチに対する利点を示す。

In our digital world, access to personal and public data has become an item of concern, with challenging security and privacy aspects. Modern information systems are heterogeneous in nature and have an inherent security vulnerability, which is susceptible to data interception and data modification due to unsecured communication data pipelines between connected endpoints. This re-search article presents a blockchain-based model for securing data pipelines in a heterogeneous information system using an integrated multi-hazard early warning system (MHEWS) as a case study. The proposed model utilizes the inherent security features of blockchain technology to address the security and privacy concerns that arise in data pipelines. The model is designed to ensure data integrity, confidentiality, and authenticity in a decentralized manner. The model is evaluated in a hybrid environment using a prototype implementation and simulation experiments with outcomes that demonstrate advantages over traditional approaches for a tamper-proof and immutable data pipeline for data authenticity and integrity using a confidential ledger.
翻訳日:2024-01-18 15:35:21 公開日:2024-01-17
# DaFoEs:最小侵襲ロボット手術における視覚状態深層学習力推定の一般化に向けた混合データセット

DaFoEs: Mixing Datasets towards the generalization of vision-state deep-learning Force Estimation in Minimally Invasive Robotic Surgery ( http://arxiv.org/abs/2401.09239v1 )

ライセンス: Link先を確認
Mikel De Iturrate Reyzabal, Mingcong Chen, Wei Huang, Sebastien Ourselin and Hongbin Liu(参考訳) 最小侵襲ロボット手術(MIRS)における安全な相互作用における接触力の正確な決定は、まだオープンな研究課題である。 手術後の定性解析から着想を得たクロスモダリティデータ駆動深層ニューラルネットワークモデルの利用は,センサレス力の傾向を予測する最新の手法の一つである。 しかし、これらのメソッドは、現在利用できない大きなデータセットと可変データセットが必要だった。 本稿では,深層神経モデルの学習のための可変ソフト環境を備えた新しい視覚触覚データセット(dafoes)を提案する。 単一データセットからのバイアスを低減するため、異なる設定の検証済みデータセットを使用して、混合データセットトレーニングのための異なるビジョンと状態データ入力を一般化するパイプラインを提示する。 最後に,単一入力や入力シーケンスを用いて腹腔鏡ツールが行う力を予測するための可変エンコーダデコーダアーキテクチャを提案する。 入力シーケンスには、プレフィックスRと命名された繰り返しデコーダと、ツールのアクセラレーションを表現するための新しい時間サンプリングを使用する。 トレーニング中、単一のデータセットトレーニングがトレーニングデータドメインに過度に適合する傾向があるが、新しいドメイン間で結果の変換が困難であることを示す。 しかしながら、データセット混合は、リカレントモデルと非リカレントモデルにおいて、平均相対的な推力誤差が5%と12%という良好な翻訳が得られる。 また,データ容量を150%増やすことにより,最大15%までの推力推定を行う変圧器の有効性をわずかに高めている。 結論として、MIRSにおける視覚状態力推定のための実験装置の混合が、問題の一般解へのアプローチであることを示す。

Precisely determining the contact force during safe interaction in Minimally Invasive Robotic Surgery (MIRS) is still an open research challenge. Inspired by post-operative qualitative analysis from surgical videos, the use of cross-modality data driven deep neural network models has been one of the newest approaches to predict sensorless force trends. However, these methods required for large and variable datasets which are not currently available. In this paper, we present a new vision-haptic dataset (DaFoEs) with variable soft environments for the training of deep neural models. In order to reduce the bias from a single dataset, we present a pipeline to generalize different vision and state data inputs for mixed dataset training, using a previously validated dataset with different setup. Finally, we present a variable encoder-decoder architecture to predict the forces done by the laparoscopic tool using single input or sequence of inputs. For input sequence, we use a recurrent decoder, named with the prefix R, and a new temporal sampling to represent the acceleration of the tool. During our training, we demonstrate that single dataset training tends to overfit to the training data domain, but has difficulties on translating the results across new domains. However, dataset mixing presents a good translation with a mean relative estimated force error of 5% and 12% for the recurrent and non-recurrent models respectively. Our method, also marginally increase the effectiveness of transformers for force estimation up to a maximum of ~15%, as the volume of available data is increase by 150%. In conclusion, we demonstrate that mixing experimental set ups for vision-state force estimation in MIRS is a possible approach towards the general solution of the problem.
翻訳日:2024-01-18 15:35:02 公開日:2024-01-17
# FIT-SLAM -- 漁業情報とトラバーサビリティ推定に基づく3次元環境探査のためのアクティブSLAM

FIT-SLAM -- Fisher Information and Traversability estimation-based Active SLAM for exploration in 3D environments ( http://arxiv.org/abs/2401.09322v1 )

ライセンス: Link先を確認
Suchetan Saravanan, Corentin Chauffaut, Caroline Chanel, Damien Vivet(参考訳) アクティブビジュアルSLAMは、GNSS-Denied sub-terrain環境と地上ロボットのための屋外環境に幅広い応用を見出す。 ロバストなローカライゼーションとマッピング精度を達成するためには、探索ミッション中に目標の選択や経路計画に知覚的考慮を組み込むことが不可欠である。 本研究では,無人地上車両(UGV)に適した新しい探査手法であるFIT-SLAM(Fisher Information and Traversability Estimation-based Active SLAM)を提案する。 このアプローチは、SLAMの精度を最適化しながら、効率的な探索率を維持するという2つの目的によって考案された。 当初は, トラバーサビリティに関する環境制約を考慮したグローバルなトラバーサビリティマップの推定を行った。 そこで本稿では,SLAMバックエンドのランドマークから得られる情報を考慮し,ロバストなローカライゼーションとパス実行を実現するための経路計画手法とともに,目標候補選択手法を提案する。 このアルゴリズムはまずシミュレーションされた3D世界でテストされ評価され、続いて実世界の環境が続き、既存の探査手法と比較される。 この評価で得られた結果は, 局在共分散を効果的に最小化しつつ, 探査率の著しい増加を示した。

Active visual SLAM finds a wide array of applications in GNSS-Denied sub-terrain environments and outdoor environments for ground robots. To achieve robust localization and mapping accuracy, it is imperative to incorporate the perception considerations in the goal selection and path planning towards the goal during an exploration mission. Through this work, we propose FIT-SLAM (Fisher Information and Traversability estimation-based Active SLAM), a new exploration method tailored for unmanned ground vehicles (UGVs) to explore 3D environments. This approach is devised with the dual objectives of sustaining an efficient exploration rate while optimizing SLAM accuracy. Initially, an estimation of a global traversability map is conducted, which accounts for the environmental constraints pertaining to traversability. Subsequently, we propose a goal candidate selection approach along with a path planning method towards this goal that takes into account the information provided by the landmarks used by the SLAM backend to achieve robust localization and successful path execution . The entire algorithm is tested and evaluated first in a simulated 3D world, followed by a real-world environment and is compared to pre-existing exploration methods. The results obtained during this evaluation demonstrate a significant increase in the exploration rate while effectively minimizing the localization covariance.
翻訳日:2024-01-18 15:28:55 公開日:2024-01-17
# インフレのクリロフ複雑性

Inflationary Krylov complexity ( http://arxiv.org/abs/2401.09307v1 )

ライセンス: Link先を確認
Tao Li and Lei-Hua Liu(参考訳) 本研究では,閉じたシステムとオープンシステムのアルゴリズムを用いて,インフレーションにおける修正分散関係のクリロフ複雑性を体系的に検討した。 多くの量子重力フレームワークはこの種の分散関係を修正できるため、我々の分析は弦宇宙論、ループ重力、$\it e.t.c$に適用できる。 lanczosアルゴリズムに従い、非常に初期の宇宙は無限多体、最大カオス系であることがわかった。 我々の数値は、標準分散関係のLanczos係数とLyapunov指数が主にスケール係数によって決定されることを示している。 修正された場合については、運動量によってほぼ決定される。 閉系の手法では、水平線が抜ける前にクリロフ複雑性が不規則な振動を示すことが分かる。 修正されたケースは、地平線が存在すればより高速な成長を示す。 開系のアプローチについては、Lanczos係数を$n$(主量子数)に比例させるだけで非常に堅牢な正確な波動関数を構築する。 これに基づいて、Krylov複雑性とKrylovエントロピーは、弱散逸近似の下で閉じた系の場合、十分に回復可能であることを発見し、この分析により、Krylov複雑性の進化は元の状況と変わらないことを示した。 一方、我々の数値は、クリロフの複雑さがインフレーション期間中に増加することを明らかに示しています。 しかし、小さなスケールでは、地平線が出てからピークとなるだろう。 分析の結果,背景の劇的な変化(インフレーション)がクリロフ複雑性の進化に大きく影響することが明らかとなった。 曲率摂動は古典レベルから量子レベルに遷移する。 このデコヒーレンスがインフレーション中のクリロフの複雑さに大きな影響を与えると期待できる。

In this work, we have systematically investigated the Krylov complexity of the modified dispersion relation in inflation, using the algorithm in closed system and open system. Since many quantum gravitational frameworks could lead to this kind of modified dispersion relation, our analysis could be applied to the string cosmology, loop gravity, $\it e.t.c$. Following the Lanczos algorithm, we find the very early universe is an infinite, many-body, and maximal chaotic system. Our numerics shows that the Lanczos coefficient and Lyapunov index of the standard dispersion relation are mainly determined by the scale factor. As for the modified case, it is nearly determined by the momentum. In a method of the closed system, we discover that the Krylov complexity will show irregular oscillation before the horizon exits. The modified case will present faster growth after the horizon exists. As for the approach of an open system, we construct the exact wave function which is very robust only requiring the Lanczos coefficient proportional to $n$ (main quantum number). Based on it, we find the Krylov complexity and Krylov entropy could nicely recover in the case of a closed system under the weak dissipative approximation, in which our analysis shows that the evolution of Krylov complexity will not be the same with the original situation. Meanwhile, our numerics clearly shows the Krylov complexity will grow during the whole inflationary period. But for the small scales, there will be a peak after the horizon exits. Our analysis reveals that the dramatic change in background (inflation) will significantly impact the evolution of Krylov complexity. Since the curvature perturbation will transit from the classical level to the quantum level. We could expect that the decoherence will highly impact the Krylov complexity during inflation.
翻訳日:2024-01-18 15:28:14 公開日:2024-01-17
# バイパルタイトネットワークにおける測定誘起非対称性

Measurement-induced asymmetry in bipartite networks ( http://arxiv.org/abs/2401.09304v1 )

ライセンス: Link先を確認
A. Lowe and E. Medina-Guerra(参考訳) ベイジアンゲーム理論の枠組みを通じて相互作用する2成分ネットワークを考察し,標準射影計測では存在しない固有非対称性を弱測定で導入することを示す。 これらの非対称性は、受刑者のジレンマのベイズ版に対する期待報酬で明らかにされ、ネットワークで実施される測定値に応じて、与えられたサブシステムに対して特定の利点が見つかることを証明している。 この設定により,各当事者の計測誘導制御が可能になることを実証する。

We consider an interacting bipartite network through a Bayesian game-theoretic framework and demonstrate that weak measurements introduce an inherent asymmetry that is not present when using standard projective measurements. These asymmetries are revealed in the expected payoff for a Bayesian version of Prisoner's dilemma, demonstrating that certain advantages can be found for given subsystems depending on the measurements performed in the network. We demonstrate that this setup allows measurement-induced control for one of the respective parties.
翻訳日:2024-01-18 15:27:28 公開日:2024-01-17
# 散逸駆動量子ビットにおける非マルコビアン性の動的シグネチャ

Dynamical signatures of non-Markovianity in a dissipative-driven qubit ( http://arxiv.org/abs/2401.09298v1 )

ライセンス: Link先を確認
Graziano Amati(参考訳) 散逸性ボゾン環境に結合した周期駆動量子ビットの力学における非マルコビアン性のシグネチャについて検討する。 数値的に厳密な階層的運動方程式を積分することにより、量子ビットの密度行列の縮小のダイナミクスを伝播する。 非マルコフ的特徴は、様々な相補的なアプローチから量子散逸への予測を比較することで量子化される。 特に、量子状態の微分可能性、ヒルベルト空間上の量子ビットにアクセスできる体積の減衰、一般化リンドブラッド方程式における正準率の負性、中島-ズワンジグ一般化量子マスター方程式におけるメモリカーネルの緩和について分析する。 散逸駆動動力学によって到達される非平衡定常限界と最大情報再生につながる共振駆動周波数の同定に関する数値的アプローチについて考察する。 外部駆動の周波数を変調することにより, 十分に小さな系-バスカップリングに対して永遠の非マルコフ性現象を観測し, 拡張する。 本研究は、オープン量子力学と量子情報の枠組みにおける量子制御に関する広範な理論的解析を提供する。

We investigate signatures of non-Markovianity in the dynamics of a periodically-driven qubit coupled to a dissipative bosonic environment. We propagate the dynamics of the reduced density matrix of the qubit by integrating the numerically exact hierarchical equations of motion. Non-Markovian features are quantified by comparing the prediction from diverse and complementary approaches to quantum dissipation. In particular, we analyze the distinguishability of quantum states, the decay of the volume accessible to the qubit on the Hilbert space, the negativity of the canonical rates in the generalized Lindblad equation and the relaxation of the memory kernels in the Nakajima-Zwanzig generalized quantum master equation. We discuss the out-of-equilbrium stationary limit reached by the dissipative-driven dynamics and a numerical approach to identify resonant driving frequencies leading to maximal information revival. We discuss that the phenomenon of eternal non-Markovianity can be observed for sufficiently small system--bath coupling and enhanced by modulating the frequency of the external drive. The present work provides a broad theoretical analysis on quantum control within the framework of open quantum dynamics and quantum information.
翻訳日:2024-01-18 15:27:14 公開日:2024-01-17
# 直接速度推定のためのイベントの高度融合と慣性測定

Tight Fusion of Events and Inertial Measurements for Direct Velocity Estimation ( http://arxiv.org/abs/2401.09296v1 )

ライセンス: Link先を確認
Wanting Xu, Xin Peng and Laurent Kneip(参考訳) 従来の視覚慣性状態推定は絶対的なカメラポーズや空間的ランドマークの位置を目標とし、一階キネマティクスは通常暗黙的に推定されるサブステートとして解決される。 しかし、これは速度に基づく制御シナリオのリスクを生じさせ、キネマティクスの推定の質は絶対カメラの安定性とランドマーク座標の推定に依存する。 この問題に対処するために,通常のカメラの代わりにダイナミック・ビジョン・センサを用いて,一階キネマティクスのレベルで直接ビジュアル・慣性融合を行う新しい手法を提案する。 より具体的には、三焦点テンソル幾何を利用して、イベントとカメラの速度に直接依存する入射関係を確立し、非常にダイナミックな状況における速度推定が短時間の間隔でどのように得られるかを実証する。 ノイズと降圧器はネストした2層RANSAC方式で処理される。 また、スライディングウインドウオプティマイザを用いた予め積分した慣性信号との密接な融合により、滑らかな速度信号が得られる。 シミュレーションデータと実データの両方の実験により、提案された厳密な事象-慣性融合が絶対座標とは無関係に高ダイナミックなシナリオにおいて連続的かつ信頼性の高い速度推定をもたらすことを示した。 さらに極端なケースでは、従来の点位置に基づく視覚慣性オドメトリよりも、より安定で正確な運動量の推定が可能となる。

Traditional visual-inertial state estimation targets absolute camera poses and spatial landmark locations while first-order kinematics are typically resolved as an implicitly estimated sub-state. However, this poses a risk in velocity-based control scenarios, as the quality of the estimation of kinematics depends on the stability of absolute camera and landmark coordinates estimation. To address this issue, we propose a novel solution to tight visual-inertial fusion directly at the level of first-order kinematics by employing a dynamic vision sensor instead of a normal camera. More specifically, we leverage trifocal tensor geometry to establish an incidence relation that directly depends on events and camera velocity, and demonstrate how velocity estimates in highly dynamic situations can be obtained over short time intervals. Noise and outliers are dealt with using a nested two-layer RANSAC scheme. Additionally, smooth velocity signals are obtained from a tight fusion with pre-integrated inertial signals using a sliding window optimizer. Experiments on both simulated and real data demonstrate that the proposed tight event-inertial fusion leads to continuous and reliable velocity estimation in highly dynamic scenarios independently of absolute coordinates. Furthermore, in extreme cases, it achieves more stable and more accurate estimation of kinematics than traditional, point-position-based visual-inertial odometry.
翻訳日:2024-01-18 15:26:11 公開日:2024-01-17
# T-FOLEY:時間事象誘導フォリー音合成のための制御可能な波形領域拡散モデル

T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis ( http://arxiv.org/abs/2401.09294v1 )

ライセンス: Link先を確認
Yoonjin Chung, Junwon Lee, Juhan Nam(参考訳) ビデオと同期して挿入される音声コンテンツであるフォリーサウンドは、マルチメディアコンテンツのユーザエクスペリエンスにおいて重要な役割を果たす。 近年,深部生成モデルの進歩を活かしたフォリー音合成の研究が活発に行われている。 しかし、これらは主に単一音節やテキストによる音声記述の複製に重点を置いており、フォリー音の実用化に欠かせない時間的情報を無視している。 フォリー音声合成のための時間イベント誘導波形生成モデルT-Foleyを提案する。 t-foleyはサウンドクラスとテンポラリイベント機能という2つの条件で高品質な音声を生成する。 時間的条件付けには、時間的事象の特徴とBlock-FiLMという新しい条件付け手法を考案する。 T-Foleyは,主観評価指標と主観評価指標の両方において優れた性能を示し,時間的事象とよく同期したFoley音を生成する。 さらに、T-Foleyの実践的応用、特に時間的イベント制御のための発声模倣を含むシナリオについて紹介する。 私たちはコンパニオンウェブサイトでデモを見せます。

Foley sound, audio content inserted synchronously with videos, plays a critical role in the user experience of multimedia content. Recently, there has been active research in Foley sound synthesis, leveraging the advancements in deep generative models. However, such works mainly focus on replicating a single sound class or a textual sound description, neglecting temporal information, which is crucial in the practical applications of Foley sound. We present T-Foley, a Temporal-event-guided waveform generation model for Foley sound synthesis. T-Foley generates high-quality audio using two conditions: the sound class and temporal event feature. For temporal conditioning, we devise a temporal event feature and a novel conditioning technique named Block-FiLM. T-Foley achieves superior performance in both objective and subjective evaluation metrics and generates Foley sound well-synchronized with the temporal events. Additionally, we showcase T-Foley's practical applications, particularly in scenarios involving vocal mimicry for temporal event control. We show the demo on our companion website.
翻訳日:2024-01-18 15:25:17 公開日:2024-01-17
# 可変制御率による展開型強化学習

Deployable Reinforcement Learning with Variable Control Rate ( http://arxiv.org/abs/2401.09286v1 )

ライセンス: Link先を確認
Dong Wang and Giovanni Beltrame(参考訳) 強化学習(RL)で訓練されたコントローラを現実のロボットに配置することは困難である: RLはエージェントのポリシーに依存してマルコフ決定プロセス(MDP)としてモデル化され、本質的に離散的な時間の経過を前提としている。 MDPの使用により、ほぼすべてのRLベースの制御システムは、通常、開発者の経験やアプリケーション環境の特定の特性に基づいて、一定期間(または時間ステップ)の制御戦略を採用することになる。 残念なことに、このシステムは安定性を確保するために最高かつ最悪の周波数で制御されなければならない。 リアクティブプログラミングの原則に従うことで、必要な時にのみコントロールアクションを適用することで、よりシンプルなハードウェアの使用が可能になり、エネルギー消費の削減に役立ちます。 可変制御率を持つRLの変種を提案することにより、固定周波数の仮定に挑戦する。 このアプローチでは、ポリシーはエージェントが行うべきアクションと、そのアクションに関連する時間ステップの期間を決定する。 我々の新しい設定では、Soft Elastic Actor-Critic (SEAC)アルゴリズムを導入し、可変制御率で最適なポリシーを計算するためにSoft Elastic Actor-Critic (SAC)を拡張した。 ニュートン運動学のエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。 実験の結果, 平均リターンが向上し, タスク完了時間が短縮され, 計算資源の削減が図られた。

Deploying controllers trained with Reinforcement Learning (RL) on real robots can be challenging: RL relies on agents' policies being modeled as Markov Decision Processes (MDPs), which assume an inherently discrete passage of time. The use of MDPs results in that nearly all RL-based control systems employ a fixed-rate control strategy with a period (or time step) typically chosen based on the developer's experience or specific characteristics of the application environment. Unfortunately, the system should be controlled at the highest, worst-case frequency to ensure stability, which can demand significant computational and energy resources and hinder the deployability of the controller on onboard hardware. Adhering to the principles of reactive programming, we surmise that applying control actions only when necessary enables the use of simpler hardware and helps reduce energy consumption. We challenge the fixed frequency assumption by proposing a variant of RL with variable control rate. In this approach, the policy decides the action the agent should take as well as the duration of the time step associated with that action. In our new setting, we expand Soft Actor-Critic (SAC) to compute the optimal policy with a variable control rate, introducing the Soft Elastic Actor-Critic (SEAC) algorithm. We show the efficacy of SEAC through a proof-of-concept simulation driving an agent with Newtonian kinematics. Our experiments show higher average returns, shorter task completion times, and reduced computational resources when compared to fixed rate policies.
翻訳日:2024-01-18 15:25:01 公開日:2024-01-17
# エチオピアにおける電気移動サービスによる農村農業価値連鎖の促進

Enhancing Rural Agricultural Value Chains through Electric Mobility Services in Ethiopia ( http://arxiv.org/abs/2401.09285v1 )

ライセンス: Link先を確認
Clemens Pizzinini, Philipp Rosner, David Ziegler, Markus Lienkamp(参考訳) 輸送は現代の経済におけるほとんどの供給と価値連鎖の憲法上の部分である。 エチオピアの農村部にある小作農は、供給と価値連鎖に沿って厳しい課題に直面している。 特に、適切な、手頃な価格で利用可能な輸送サービスは、高い需要がある。 コンテキスト固有の技術ソリューションを開発するために,技術とのインタラクションに基づく問題解決手法を開発した。 このアプローチにより,実証された輸送評価フレームワークと一般ユーザ中心技術とのギャップを埋める。 我々のアプローチの中心は、研究、開発、およびテストのための田園部サプライとバリューチェーンに実装される電気テスト車両です。 提案手法の目的と導出方法の要件に基づき,既存手法の組を選択する。 地域パートナーは、エチオピアのオロミア州Arsi Zoneにおいて、この研究活動の主要な部分を実行する組織フレームワークに統合されている。

Transportation is a constitutional part of most supply and value chains in modern economies. Smallholder farmers in rural Ethiopia face severe challenges along their supply and value chains. In particular, suitable, affordable, and available transport services are in high demand. To develop context-specific technical solutions, a problem-to-solution methodology based on the interaction with technology is developed. With this approach, we fill the gap between proven transportation assessment frameworks and general user-centered techniques. Central to our approach is an electric test vehicle that is implemented in rural supply and value chains for research, development, and testing. Based on our objective and the derived methodological requirements, a set of existing methods is selected. Local partners are integrated in an organizational framework that executes major parts of this research endeavour in Arsi Zone, Oromia Region, Ethiopia.
翻訳日:2024-01-18 15:24:36 公開日:2024-01-17
# コーンビームCTにおける高速かつ高精度な頭部運動補償法

A gradient-based approach to fast and accurate head motion compensation in cone-beam CT ( http://arxiv.org/abs/2401.09283v1 )

ライセンス: Link先を確認
Mareike Thies, Fabian Wagner, Noah Maul, Haijun Yu, Manuela Meier, Linda-Sophie Schneider, Mingxuan Gu, Siyuan Mei, Lukas Folle, Andreas Maier(参考訳) コーンビームCT(CBCT)システムとその可搬性は、特に急性脳卒中評価などの重要なシナリオにおいて、直接医療用医療画像撮影のための有望な道を示す。 しかし、cbctを臨床ワークフローに統合することは、主にスキャン期間が長く、スキャン中に患者の動きが引き起こされ、再構成されたボリュームの画質が低下する問題に直面している。 本稿では,コーンビームCT測地に対するバックプロジェクション演算子の一般化微分を利用する勾配最適化アルゴリズムを用いたCBCT運動推定の新しい手法を提案する。 それに基づいて、再構成空間における現在の運動推定の質を格付けする完全微分可能な目標関数が定式化される。 従来の手法に比べて19倍の速さで動き推定を劇的に高速化する。 さらに,品質メトリック回帰に使用されるネットワークのアーキテクチャを調査し,ボクセル単位の品質マップの予測を提案し,契約型ネットワークよりもオートエンコーダライクなアーキテクチャを好む。 この修正により勾配流は改善され、より正確な運動推定がもたらされる。 本手法は頭部解剖学の現実的な実験により評価した。 運動補償後の初期平均3mmから0.61mmへの再投射誤差の低減を実現し、既存の手法と比較して常に優れた性能を示す。 提案手法のコアとなる後方投射操作の解析的ジャコビアンが公開されている。 本稿では, 効率と正確性を高めるロバストな運動推定手法を提案し, 時間に敏感なシナリオにおける重大な課題に対処し, 臨床ワークフローへのcbct統合の進展に寄与する。

Cone-beam computed tomography (CBCT) systems, with their portability, present a promising avenue for direct point-of-care medical imaging, particularly in critical scenarios such as acute stroke assessment. However, the integration of CBCT into clinical workflows faces challenges, primarily linked to long scan duration resulting in patient motion during scanning and leading to image quality degradation in the reconstructed volumes. This paper introduces a novel approach to CBCT motion estimation using a gradient-based optimization algorithm, which leverages generalized derivatives of the backprojection operator for cone-beam CT geometries. Building on that, a fully differentiable target function is formulated which grades the quality of the current motion estimate in reconstruction space. We drastically accelerate motion estimation yielding a 19-fold speed-up compared to existing methods. Additionally, we investigate the architecture of networks used for quality metric regression and propose predicting voxel-wise quality maps, favoring autoencoder-like architectures over contracting ones. This modification improves gradient flow, leading to more accurate motion estimation. The presented method is evaluated through realistic experiments on head anatomy. It achieves a reduction in reprojection error from an initial average of 3mm to 0.61mm after motion compensation and consistently demonstrates superior performance compared to existing approaches. The analytic Jacobian for the backprojection operation, which is at the core of the proposed method, is made publicly available. In summary, this paper contributes to the advancement of CBCT integration into clinical workflows by proposing a robust motion estimation approach that enhances efficiency and accuracy, addressing critical challenges in time-sensitive scenarios.
翻訳日:2024-01-18 15:24:24 公開日:2024-01-17
# 浅層量子回路は、量子多体傷のロバストハンターである

Shallow quantum circuits are robust hunters for quantum many-body scars ( http://arxiv.org/abs/2401.09279v1 )

ライセンス: Link先を確認
Gabriele Cenedese, Maria Bondani, Alexei Andreanov, Matteo Carrega, Giuliano Benenti and Dario Rosa(参考訳) 現在、ノイズの多い中間スケール量子コンピュータは、大量の絡み合いを発生させることができない重要な技術的課題に直面している。 我々は、この技術的制約を資源として活用し、浅い変分固有ソルバを量子多体スカル状態をうまく標的にするように訓練できることを実証する。 傷跡は量子多体ハミルトニアンの領域則高エネルギー固有状態であり、体積則固有状態の海に散発的および没入する。 アルゴリズムは頑健であり、任意の物理系において量子多体傷を発見できる汎用診断ツールとして使用できることを示す。

Presently, noisy intermediate-scale quantum computers encounter significant technological challenges that make it impossible to generate large amounts of entanglement. We leverage this technological constraint as a resource and demonstrate that a shallow variational eigensolver can be trained to successfully target quantum many-body scar states. Scars are area-law high-energy eigenstates of quantum many-body Hamiltonians, which are sporadic and immersed in a sea of volume-law eigenstates. We show that the algorithm is robust and can be used as a versatile diagnostic tool to uncover quantum many-body scars in arbitrary physical systems.
翻訳日:2024-01-18 15:23:55 公開日:2024-01-17
# バンディットに対する適応的後悔:2つのクエリで十分

Adaptive Regret for Bandits Made Possible: Two Queries Suffice ( http://arxiv.org/abs/2401.09278v1 )

ライセンス: Link先を確認
Zhou Lu, Qiuyi Zhang, Xinyi Chen, Fred Zhang, David Woodruff, Elad Hazan(参考訳) 高速な変化状態や揮発性環境は、限られた観測の下で迅速な適応を行う必要があるオンライン最適化に重大な課題をもたらす。 本稿では,連続区間$i$ に対して最大後悔を計測する,強い適応的後悔という厳密な概念の下で,クエリと後悔の最適バンディットアルゴリズムを与える。 最悪の場合の性質のため、[Daniely el al, ICML 2015] 1ラウンドあたりのクエリしか許可されていない場合、ほとんど線形の$\Omega(|I|^{1-\epsilon})$ regret lower boundがある。 驚いたことに、1ラウンドに2つのクエリしか持たないStrongly Adaptive Bandit Learner (StABL)が$\tilde{O}(\sqrt{n|I|})$Adaptive regret for multi-armed bandits with $n$ arms。 境界は厳密であり、一般には改善できない。 本アルゴリズムは,様々な段数の乗法的更新方式と慎重に選択された観測分布を利用して分散を制御する。 さらに,この結果を拡張し,bandit convex最適化設定において最適なアルゴリズムを提供する。 最後に,過パラメータ最適化のためのアルゴリズム選択などの下流タスクにおいて,揮発性環境下でのアルゴリズムの優れた性能を実証する。

Fast changing states or volatile environments pose a significant challenge to online optimization, which needs to perform rapid adaptation under limited observation. In this paper, we give query and regret optimal bandit algorithms under the strict notion of strongly adaptive regret, which measures the maximum regret over any contiguous interval $I$. Due to its worst-case nature, there is an almost-linear $\Omega(|I|^{1-\epsilon})$ regret lower bound, when only one query per round is allowed [Daniely el al, ICML 2015]. Surprisingly, with just two queries per round, we give Strongly Adaptive Bandit Learner (StABL) that achieves $\tilde{O}(\sqrt{n|I|})$ adaptive regret for multi-armed bandits with $n$ arms. The bound is tight and cannot be improved in general. Our algorithm leverages a multiplicative update scheme of varying stepsizes and a carefully chosen observation distribution to control the variance. Furthermore, we extend our results and provide optimal algorithms in the bandit convex optimization setting. Finally, we empirically demonstrate the superior performance of our algorithms under volatile environments and for downstream tasks, such as algorithm selection for hyperparameter optimization.
翻訳日:2024-01-18 15:23:42 公開日:2024-01-17
# hot fix software: 専門用語、技術、応用に関する包括的レビュー

Hot Fixing Software: A Comprehensive Review of Terminology, Techniques, and Applications ( http://arxiv.org/abs/2401.09275v1 )

ライセンス: Link先を確認
Carol Hanna, David Clark, Federica Sarro, Justyna Petke(参考訳) ホットフィックスは、本番環境でソフトウェアシステムにデプロイされる特定の時間クリティカルな問題の改善である。 ホットフィックスはソフトウェアメンテナンスにおいて必須かつ一般的な活動であるが、調査活動として調査されたことはない。 したがって、このようなレビューは長く遅れている。 本稿では,熱間固定に関する研究について総合的な文献レビューを行う。 我々は,この話題に対処した分野,用語における不整合,文学のギャップ,今後の研究の方向性について強調する。 調査は2000年から2022年の間に91の論文で締めくくられた。 この論文には、ログ分析、ランタイムパッチ(ホットパッチとしても知られる)、自動修復、セキュリティ、モバイル、ビデオゲームといった様々なアプリケーションドメインなど、さまざまな研究領域が含まれている。 既存の用語の統合、ホットフィックスのベンチマークセットの確立、コストとホットフィックスの頻度の調査、検出、緩和、伝播のエンドツーエンド自動化の可能性の調査など、ホットフィックス研究を前進させるには多くの方向がある。 これらの道を詳細に議論して,ソフトウェアエンジニアリング活動としてのホットフィックスの体系化をコミュニティに促します。 本論文は,既存の業務を合理化し,今後の研究を進めることを願っている。

A hot fix is an improvement to a specific time-critical issue deployed to a software system in production. While hot fixing is an essential and common activity in software maintenance, it has never been surveyed as a research activity. Thus, such a review is long overdue. In this paper, we conduct a comprehensive literature review of work on hot fixing. We highlight the fields where this topic has been addressed, inconsistencies we identified in the terminology, gaps in the literature, and directions for future work. Our search concluded with 91 papers on the topic between the year 2000 and 2022. The papers found encompass many different research areas such as log analysis, runtime patching (also known as hot patching), and automated repair, as well as various application domains such as security, mobile, and video games. We find that there are many directions that can take hot fix research forward such as unifying existing terminology, establishing a benchmark set of hot fixes, researching costs and frequency of hot fixes, and researching the possibility of end-to-end automation of detection, mitigation, and propagation. We discuss these avenues in detail to inspire the community to systematize hot fixing as a software engineering activity. We hope that this paper streamlines the existing body of work and drives research in the area forward.
翻訳日:2024-01-18 15:23:14 公開日:2024-01-17
# 非凸正規化問題の厳密な鞍点を避ける

Avoiding strict saddle points of nonconvex regularized problems ( http://arxiv.org/abs/2401.09274v1 )

ライセンス: Link先を確認
Luwei Bai(参考訳) 我々は、$\ell_p$正規化関数に対する厳密なsaddleプロパティを導入し、$\ell_p$正規化問題を解くために反復的な$\ell_1$アルゴリズムを提案する。 アルゴリズムはランダムに初期化されると局所最小化器に収束することが保証される。 厳密なサドル特性は、これらのスパース最適化問題に一般性を示す。 これらの解析と提案アルゴリズムは一般の非凸正規化問題にも容易に拡張できる。

We introduce a strict saddle property for $\ell_p$ regularized functions, and propose an iterative reweighted $\ell_1$ algorithm to solve the $\ell_p$ regularized problems. The algorithm is guaranteed to converge only to local minimizers when randomly initialized. The strict saddle property is shown generic on these sparse optimization problems. Those analyses as well as the proposed algorithm can be easily extended to general nonconvex regularized problems.
翻訳日:2024-01-18 15:22:54 公開日:2024-01-17
# PixelDino: 永久凍土障害検出のための半監督セマンティックセマンティックセグメンテーション

PixelDINO: Semi-Supervised Semantic Segmentation for Detecting Permafrost Disturbances ( http://arxiv.org/abs/2401.09271v1 )

ライセンス: Link先を確認
Konrad Heidler, Ingmar Nitze, Guido Grosse, Xiao Xiang Zhu(参考訳) 北極永久凍土は、気候変動によって著しく変化している。 これらの領域はほとんどアクセスできないため、リモートセンシングは、ローカルスケールだけでなく、北極圏全体の基盤となるプロセスを理解する上で重要なルールとなっている。 本研究では,融解に伴う地すべりに匹敵する永久凍土障害であるrts(retrogressive thaw declines)の遠隔検出に着目した。 宇宙からの分析では、ディープラーニングは必須のツールになっていますが、正確なモデルのトレーニングには限定されたラベル付きトレーニングデータが必要になります。 追加ラベル付きデータを必要としない北極圏におけるモデル一般化を改善するため,RTS検出のためのセマンティックセグメンテーションモデルを訓練するための半教師付き学習手法を提案する。 当社のフレームワークであるpixeldinoはラベル付きデータだけでなくラベル付きデータも並行してトレーニングしています。 ラベルのないデータの場合、モデルは画像を自己学習した擬似クラスに分割し、トレーニング手順は入力データの強力な拡張を通してこれらの擬似クラスの一貫性を保証する。 実験の結果,pixeldinoは,教師ありベースライン法と,既存の半教師ありセマンティクスセグメンテーション法の両方で,モデル性能を向上させることができた。 この研究のためのコードやその他の資料を含むプロジェクトページは、 \url{https://khdlr.github.io/PixelDINO/} にある。

Arctic Permafrost is facing significant changes due to global climate change. As these regions are largely inaccessible, remote sensing plays a crucial rule in better understanding the underlying processes not just on a local scale, but across the Arctic. In this study, we focus on the remote detection of retrogressive thaw slumps (RTS), a permafrost disturbance comparable to landslides induced by thawing. For such analyses from space, deep learning has become an indispensable tool, but limited labelled training data remains a challenge for training accurate models. To improve model generalization across the Arctic without the need for additional labelled data, we present a semi-supervised learning approach to train semantic segmentation models to detect RTS. Our framework called PixelDINO is trained in parallel on labelled data as well as unlabelled data. For the unlabelled data, the model segments the imagery into self-taught pseudo-classes and the training procedure ensures consistency of these pseudo-classes across strong augmentations of the input data. Our experimental results demonstrate that PixelDINO can improve model performance both over supervised baseline methods as well as existing semi-supervised semantic segmentation approaches, highlighting its potential for training robust models that generalize well to regions that were not included in the training data. The project page containing code and other materials for this study can be found at \url{https://khdlr.github.io/PixelDINO/}.
翻訳日:2024-01-18 15:22:46 公開日:2024-01-17
# ケミカルモチベートされたシミュレーション問題は量子コンピュータで効率的に解ける

Chemically Motivated Simulation Problems are Efficiently Solvable by a Quantum Computer ( http://arxiv.org/abs/2401.09268v1 )

ライセンス: Link先を確認
Philipp Schleich, Lasse Bj{\o}rn Kristensen, Davide Avagliano, Mohsen Bagherimehrab, Abdulrahman Aldossary, Christoph Gorgulla, Joe Fitzsimons, and Al\'an Aspuru-Guzik(参考訳) シミュレーションコストはシステムサイズとともに指数関数的に増加するため、化学系のシミュレーションは非常に困難である。 量子コンピュータはこのボトルネックを克服する計算方法として提案されている。 近年、ほとんどの研究は化学系の基底状態の決定に費やされている。 ハードネスの結果と、初期状態生成のための効率的なヒューリスティックの欠如は、実現可能性に疑問を呈する。 本稿では,化学シミュレーションの問題を解くための本質的に効率的な手法を提案する。 もし一連の仮定が満たされるならば、このアプローチは散乱木における力学シミュレーションのために初期状態を組み立てることで良い初期状態を見つける。 本稿では, 反応などの量子シミュレーションにより, 初期状態の合成後, 様々な化学物質の興味を評価できることについて議論する。

Simulating chemical systems is highly sought after and computationally challenging, as the simulation cost exponentially increases with the system size. Quantum computers have been proposed as a computational means to overcome this bottleneck. Most efforts recently have been spent on determining the ground states of chemical systems. Hardness results and the lack of efficient heuristics for initial-state generation sheds doubt on the feasibility. Here we propose an inherently efficient approach for solving chemical simulation problems, meaning it requires quantum circuits of size scaling polynomially in relevant system parameters. If a set of assumptions can be satisfied, our approach finds good initial states by assembling initial states for dynamical simulation in a scattering tree. We discuss a variety of quantities of chemical interest that can be measured based on quantum simulation, e.g. of a reaction, succeeding the initial state preparation.
翻訳日:2024-01-18 15:22:19 公開日:2024-01-17
# ラベルなしデータのアンロック:オンラインおよび静的設定におけるパフォーマンス推定のためのHui-Walterパラダイムを用いたアンサンブル学習

Unlocking Unlabeled Data: Ensemble Learning with the Hui- Walter Paradigm for Performance Estimation in Online and Static Settings ( http://arxiv.org/abs/2401.09376v1 )

ライセンス: Link先を確認
Kevin Slote, Elaine Lee(参考訳) 機械学習と統計モデリングの領域では、実践者はしばしば、評価とトレーニングのためにアクセス可能で静的なラベル付きデータを前提として働く。 しかし、この仮定は、データがプライベート、暗号化、測定困難、ラベルなし、といった現実から逸脱することが多い。 本稿では,従来の疫学や医学に応用される手法であるhui-walterパラダイムを機械学習の分野に適用することで,このギャップを埋める。 このアプローチにより、根拠のないシナリオにおいて、偽陽性率、偽陰性率、事前値などの重要なパフォーマンス指標を推定できる。 オンラインデータを扱うこのパラダイムをさらに拡張し、動的データ環境の新たな可能性を開きます。 私たちの方法論は、データを潜在クラスに分割して複数のデータ集団をシミュレートし(もし自然集団が使えなければ)、独立したトレーニングモデルを使用して複数のテストを再現する。 アンサンブル分類子と複数の集団間でバイナリ結果のクロス集計を行うことで、gibbsサンプリングによって未知のパラメータを推定し、接地データやラベル付きデータの必要性をなくすことができる。 本稿では、動的かつ不確定なデータ条件下での正確なモデル評価を可能にすることにより、機械学習プラクティスを変革する手法の可能性を示す。

In the realm of machine learning and statistical modeling, practitioners often work under the assumption of accessible, static, labeled data for evaluation and training. However, this assumption often deviates from reality where data may be private, encrypted, difficult- to-measure, or unlabeled. In this paper, we bridge this gap by adapting the Hui-Walter paradigm, a method traditionally applied in epidemiology and medicine, to the field of machine learning. This approach enables us to estimate key performance metrics such as false positive rate, false negative rate, and priors in scenarios where no ground truth is available. We further extend this paradigm for handling online data, opening up new possibilities for dynamic data environments. Our methodology involves partitioning data into latent classes to simulate multiple data populations (if natural populations are unavailable) and independently training models to replicate multiple tests. By cross-tabulating binary outcomes across ensemble categorizers and multiple populations, we are able to estimate unknown parameters through Gibbs sampling, eliminating the need for ground-truth or labeled data. This paper showcases the potential of our methodology to transform machine learning practices by allowing for accurate model assessment under dynamic and uncertain data conditions.
翻訳日:2024-01-18 15:15:01 公開日:2024-01-17
# スウィング:より高帯域対応のショートカットリング

Swing: Short-cutting Rings for Higher Bandwidth Allreduce ( http://arxiv.org/abs/2401.09356v1 )

ライセンス: Link先を確認
Daniele De Sensi and Tommaso Bonato and David Saam and Torsten Hoefler(参考訳) allreduceの集団運用は、分散システム上で動作するワークロードのランタイムのかなりの部分を占めている。 その性能を決定する要因の1つは、通信ノード間の距離であり、特にトーラスのようなネットワークでは、高い距離は同一リンク上で複数のメッセージが転送されることを意味する。 トーラスネットワークは機械学習ワークロード(Google TPUやAmazon Trainiumデバイスなど)に最適化されたシステムや、Top500スーパーコンピュータで広く利用されている。 トーラスネットワーク上でのアレーダ性能を改善するために,トーラス方向を切り替えることで通信ノード間距離を低く抑える新しいアルゴリズムSwingを導入する。 解析および実験により,swingは32bから128mibまでのベクトルに対する最大3倍のallreduceアルゴリズムで,その形状や大きさに関わらず,トーラスやトーラスのような位相に勝ることを示した。

The allreduce collective operation accounts for a significant fraction of the runtime of workloads running on distributed systems. One factor determining its performance is the distance between communicating nodes, especially on networks like torus, where a higher distance implies multiple messages being forwarded on the same link, thus reducing the allreduce bandwidth. Torus networks are widely used on systems optimized for machine learning workloads (e.g., Google TPUs and Amazon Trainium devices), as well as on some of the Top500 supercomputers. To improve allreduce performance on torus networks we introduce Swing, a new algorithm that keeps a low distance between communicating nodes by swinging between torus directions. Our analysis and experimental evaluation show that Swing outperforms by up to 3x existing allreduce algorithms for vectors ranging from 32B to 128MiB, on different types of torus and torus-like topologies, regardless of their shape and size.
翻訳日:2024-01-18 15:14:37 公開日:2024-01-17
# 神経収縮力学系

Neural Contractive Dynamical Systems ( http://arxiv.org/abs/2401.09352v1 )

ライセンス: Link先を確認
Hadi Beik-Mohammadi, S{\o}ren Hauberg, Georgios Arvanitidis, Nadia Figueroa, Gerhard Neumann, and Leonel Rozo(参考訳) 完全自律型ロボットが望ましくない、あるいは潜在的に有害な行動を起こさないためには、安定性の保証が不可欠である。 残念ながら、データから学んだ動的システム、特に学習された力学がニューラルネットワークによって支配されている場合、グローバルな安定性を保証することは難しい。 ニューラル・コンダクティブ・ダイナミクスを学習するための新しい手法を提案し,そこではニューラル・アーキテクチャが収縮を確実にし,従って大域的安定性を保証している。 本手法を高次元力学系に効率的に拡張するために,デコード後の収縮安定性を維持しつつ低次元潜在表現空間のダイナミクスを学習する変分オートエンコーダの変種を開発した。 回転のリー群上の契約系学習への我々のアプローチをさらに拡張し、完全なエンドエフェクタ動的運動を考慮した。 その結果,障害回避機能を備えた契約的安定性保証を提供する,初めての,柔軟な学習アーキテクチャが実現した。 実験的に、我々の手法は現在の最先端技術よりもより正確に所望のダイナミクスを符号化し、安定性の保証がより少ないことを実証する。

Stability guarantees are crucial when ensuring a fully autonomous robot does not take undesirable or potentially harmful actions. Unfortunately, global stability guarantees are hard to provide in dynamical systems learned from data, especially when the learned dynamics are governed by neural networks. We propose a novel methodology to learn neural contractive dynamical systems, where our neural architecture ensures contraction, and hence, global stability. To efficiently scale the method to high-dimensional dynamical systems, we develop a variant of the variational autoencoder that learns dynamics in a low-dimensional latent representation space while retaining contractive stability after decoding. We further extend our approach to learning contractive systems on the Lie group of rotations to account for full-pose end-effector dynamic motions. The result is the first highly flexible learning architecture that provides contractive stability guarantees with capability to perform obstacle avoidance. Empirically, we demonstrate that our approach encodes the desired dynamics more accurately than the current state-of-the-art, which provides less strong stability guarantees.
翻訳日:2024-01-18 15:14:18 公開日:2024-01-17
# 高信頼レベル推論は並列確率最適化を用いてほぼ自由である

High Confidence Level Inference is Almost Free using Parallel Stochastic Optimization ( http://arxiv.org/abs/2401.09346v1 )

ライセンス: Link先を確認
Wanrong Zhu, Zhipeng Lou, Ziyang Wei, Wei Biao Wu(参考訳) オンライン環境における確率的最適化ソリューションによる推定の不確実性定量化が最近人気を集めている。 本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。 具体的には,少数の独立マルチランを用いて分布情報を取得し,tに基づく信頼区間を構築することを提案する。 提案手法では,推定値の標準更新よりも少ない計算量とメモリを必要とするため,推定プロセスはほぼ費用がかからない。 信頼区間の厳密な理論的保証を提供し,その範囲が明示的な収束率とほぼ正確に一致し,高い信頼レベル推定が可能となることを示す。 特に,オンライン推定者に対して,信頼区間のカバレッジ特性を相対誤差の観点から特徴付ける新たなガウス近似結果を開発した。 さらに,複数のコアを用いた計算を高速化するために並列計算を利用することもできる。 実装が容易で、複雑な修正を必要とせずに既存の確率アルゴリズムと統合することができる。

Uncertainty quantification for estimation through stochastic optimization solutions in an online setting has gained popularity recently. This paper introduces a novel inference method focused on constructing confidence intervals with efficient computation and fast convergence to the nominal level. Specifically, we propose to use a small number of independent multi-runs to acquire distribution information and construct a t-based confidence interval. Our method requires minimal additional computation and memory beyond the standard updating of estimates, making the inference process almost cost-free. We provide a rigorous theoretical guarantee for the confidence interval, demonstrating that the coverage is approximately exact with an explicit convergence rate and allowing for high confidence level inference. In particular, a new Gaussian approximation result is developed for the online estimators to characterize the coverage properties of our confidence intervals in terms of relative errors. Additionally, our method also allows for leveraging parallel computing to further accelerate calculations using multiple cores. It is easy to implement and can be integrated with existing stochastic algorithms without the need for complicated modifications.
翻訳日:2024-01-18 15:13:58 公開日:2024-01-17
# 効率的なスロットラベリング

Efficient slot labelling ( http://arxiv.org/abs/2401.09343v1 )

ライセンス: Link先を確認
Vladimir Vlasov(参考訳) スロットラベリングは対話システムにおいて不可欠な要素であり、ユーザのターン毎に重要な引数を見つけることを目的としている。 一般的なアプローチはBERTやRoBERTaのような大規模な事前学習言語モデル(PLM)であるが、高い計算要求や事前学習データへの依存といった課題に直面している。 そこで本研究では,従来のPLM法と同等以上の性能を示す軽量な手法を提案する。 これは、現実の産業シナリオに特に当てはまる。

Slot labelling is an essential component of any dialogue system, aiming to find important arguments in every user turn. Common approaches involve large pre-trained language models (PLMs) like BERT or RoBERTa, but they face challenges such as high computational requirements and dependence on pre-training data. In this work, we propose a lightweight method which performs on par or better than the state-of-the-art PLM-based methods, while having almost 10x less trainable parameters. This makes it especially applicable for real-life industry scenarios.
翻訳日:2024-01-18 15:13:42 公開日:2024-01-17
# フォトニックマイクロキャビティ内に埋め込まれた2つの量子ドットにおける協調2光子ラシング

Cooperative two-photon lasing in two Quantum Dots embedded inside Photonic microcavity ( http://arxiv.org/abs/2401.09341v1 )

ライセンス: Link先を確認
Lavakumar Addepalli, P. K. Pathak(参考訳) 単一モードフォトニック結晶空洞に結合した2つの量子ドットにおける協調2光子ラシングを提案する。 量子ドットはどちらも、外部ポンプを用いて不整合または整合的に駆動されると考えられる。 ポーラロン変換マスター方程式を用いてエキシトン-フォノンカップリングを行う。 量子レーザー理論を用いて, キャビティモードへの単一および多光子過剰放出(発光と吸収の差)について検討した。 単光子と2光子過剰放出は、主に空洞光子に寄与する。 ポンプ強度の変動は、正から正への単光子過剰放出変化を招き得るので、ポンプ強度の適切な選択により、単光子過剰放出を無視することができる。

We propose cooperative two-photon lasing in two quantum dots coupled to a single mode photonic crystal cavity. We consider both quantum dots are driven either incoherently or coherently using external pump. We incorporate exciton-phonon coupling using polaron transformed master equation. Using quantum laser theory, single and multi-photon excess emission (difference between emission and absorption) into cavity mode are investigated. The single and two-photon excess emission contribute to cavity photons, predominantly. Varying the pump strength can lead to single-photon excess emission change from negative to positive and thus by appropriately selecting pump strength single-photon excess emission can be made negligible.
翻訳日:2024-01-18 15:13:32 公開日:2024-01-17
# SceneVerse: 現場理解のための3次元視覚言語学習

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding ( http://arxiv.org/abs/2401.09340v1 )

ライセンス: Link先を確認
Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang(参考訳) 3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。 2dドメインの最近の進歩と比較すると、3dシーンの接地言語にはいくつかの大きな課題がある。 (i)多彩な物体構成、その豊かな属性、複雑な関係による3Dシーンの本質的な複雑さ。 (ii)地中学習を支援する3次元視覚言語データの不足 (iii)接地3dデータから知識を蒸留する統一学習フレームワークが存在しないこと。 本研究では,屋内環境における3次元視覚言語学習の体系的アップスケールの可能性を検討することで,これら3つの課題に対処することを目的とする。 約68Kの屋内シーンを包含し、人間のアノテーションとスケーラブルなシーングラフベースの生成アプローチの両方から2.5Mの視覚言語ペアから構成される。 このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワークであるGrounded Pre-training for Scenes(GPS)が実現可能であることを実証する。 広範にわたる実験を通じて,既存の3次元視覚的グラウンドのベンチマークに対して,最先端の性能を達成し,GPSの有効性を示す。 SceneVerseとGPSの膨大なポテンシャルは、難易度の高い3D視覚言語タスクにおけるゼロショット転送実験を通じて明らかにされている。 プロジェクトウェブサイト: https://scene-verse.github.io

3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io .
翻訳日:2024-01-18 15:13:23 公開日:2024-01-17
# マルコフ雑音を伴う2時間スケール確率近似の中央極限定理:理論と応用

Central Limit Theorem for Two-Timescale Stochastic Approximation with Markovian Noise: Theory and Applications ( http://arxiv.org/abs/2401.09339v1 )

ライセンス: Link先を確認
Jie Hu, Vishwaraj Doshi, Do Young Eun(参考訳) 2時間確率近似(TTSA)は反復確率アルゴリズムの最も一般的なフレームワークの一つである。 これには、SGD変種やバイレベルやミニマックス問題用に設計されたような確率的最適化手法や、勾配に基づく時間差分法(GTD)アルゴリズムのような強化学習が含まれる。 本稿では,中心極限定理 (CLT) により制御されたマルコフ雑音下でのTTSAの深部漸近解析を行い,その基礎となるマルコフ連鎖の影響を受けやすいTTSAの結合力学を明らかにする。 当社のcltを基盤として,分散学習における効率的なサンプリング戦略の応用範囲を,バニラsgdからより広いttsaコンテキストへと拡大し,huなど(2022年)の範囲を拡大した。 さらに,我々のCLT結果を利用して,マルコフサンプルを用いた非線形関数近似によるGTDアルゴリズムの統計的特性を推定し,その同種の漸近的性能,すなわち現在の有限時間境界から明らかでない視点を示す。

Two-timescale stochastic approximation (TTSA) is among the most general frameworks for iterative stochastic algorithms. This includes well-known stochastic optimization methods such as SGD variants and those designed for bilevel or minimax problems, as well as reinforcement learning like the family of gradient-based temporal difference (GTD) algorithms. In this paper, we conduct an in-depth asymptotic analysis of TTSA under controlled Markovian noise via central limit theorem (CLT), uncovering the coupled dynamics of TTSA influenced by the underlying Markov chain, which has not been addressed by previous CLT results of TTSA only with Martingale difference noise. Building upon our CLT, we expand its application horizon of efficient sampling strategies from vanilla SGD to a wider TTSA context in distributed learning, thus broadening the scope of Hu et al. (2022). In addition, we leverage our CLT result to deduce the statistical properties of GTD algorithms with nonlinear function approximation using Markovian samples and show their identical asymptotic performance, a perspective not evident from current finite-time bounds.
翻訳日:2024-01-18 15:12:59 公開日:2024-01-17
# 乳房DCE-MRIにおける非教師的キーポイント検出による治療適応型経時的治療

To deform or not: treatment-aware longitudinal registration for breast DCE-MRI during neoadjuvant chemotherapy via unsupervised keypoints detection ( http://arxiv.org/abs/2401.09336v1 )

ライセンス: Link先を確認
Luyi Han, Tao Tan, Tianyu Zhang, Yuan Gao, Xin Wang, Valentina Longo, Sof\'ia Ventura-D\'iaz, Anna D'Angelo, Jonas Teuwen, Ritse Mann(参考訳) 臨床医は新アジュバント化学療法(NAC)後の乳房DCE-MRIと前処置スキャンを比較してNACに対する反応を評価する。 腫瘍領域の変形を伴わない正確な経時的変形性登録は腫瘍変化の定量化の鍵である。 本稿では,教師なしキーポイント検出と選択的ボリューム保存に基づく条件付きピラミッド登録ネットワークを提案する。 そこで本研究では,DCE-MRIから構造キーポイントと異常キーポイントを抽出し,大変形を抑制するために登録アルゴリズムの構造キーポイントを適用し,異常キーポイントに基づくボリューム保存損失を用いて,登録後の腫瘍の体積を一定に保つ。 nac治療を施行した314例のmriスキャン1630例の臨床データを用いた。 以上の結果より, 腫瘍の保存性が向上し, 腫瘍の保存性も向上した。 さらに,提案手法に基づく局所的グローバル結合バイオマーカーは,腫瘍領域外に存在する予測情報を示す病的完全応答(pcr)予測において高い精度を実現する。 バイオマーカーは、特定の患者の不必要な手術を避けるために使用される可能性がある。 臨床医やコンピュータシステムにとって,本手法で登録した画像に対して,腫瘍の観察と反応予測を行うことは有用かもしれない。 我々のコードは \url{https://github.com/fiy2W/Treatment-aware-Longitudinal-Registration} で利用可能です。

Clinicians compare breast DCE-MRI after neoadjuvant chemotherapy (NAC) with pre-treatment scans to evaluate the response to NAC. Clinical evidence supports that accurate longitudinal deformable registration without deforming treated tumor regions is key to quantifying tumor changes. We propose a conditional pyramid registration network based on unsupervised keypoint detection and selective volume-preserving to quantify changes over time. In this approach, we extract the structural and the abnormal keypoints from DCE-MRI, apply the structural keypoints for the registration algorithm to restrict large deformation, and employ volume-preserving loss based on abnormal keypoints to keep the volume of the tumor unchanged after registration. We use a clinical dataset with 1630 MRI scans from 314 patients treated with NAC. The results demonstrate that our method registers with better performance and better volume preservation of the tumors. Furthermore, a local-global-combining biomarker based on the proposed method achieves high accuracy in pathological complete response (pCR) prediction, indicating that predictive information exists outside tumor regions. The biomarkers could potentially be used to avoid unnecessary surgeries for certain patients. It may be valuable for clinicians and/or computer systems to conduct follow-up tumor segmentation and response prediction on images registered by our method. Our code is available on \url{https://github.com/fiy2W/Treatment-aware-Longitudinal-Registration}.
翻訳日:2024-01-18 15:12:39 公開日:2024-01-17
# 大きな言語モデルは神経シンボリックな推論です

Large Language Models Are Neurosymbolic Reasoners ( http://arxiv.org/abs/2401.09334v1 )

ライセンス: Link先を確認
Meng Fang, Shilong Deng, Yudi Zhang, Zijing Shi, Ling Chen, Mykola Pechenizkiy, Jun Wang(参考訳) 幅広い実世界の応用は、その象徴的性質によって特徴づけられ、象徴的推論の強力な能力を必要とする。 本稿では,Large Language Models (LLM) の記号的推論への応用について検討する。 テキストベースのゲーム、自然言語能力を持つエージェントのための重要なベンチマーク、特に数学、地図読解、ソート、テキストベースの世界での常識の適用といった象徴的なタスクに重点を置いています。 これらのエージェントを容易にするために,シンボル的課題に対処し,ゲーム内での目的を達成するLLMエージェントを提案する。 まず LLM エージェントを初期化し,その役割を知らせることから始める。 エージェントは、特定のシンボルモジュールとともに、テキストベースのゲームから観測と有効なアクションのセットを受け取る。 これらの入力により、LLMエージェントはアクションを選択し、ゲーム環境と対話する。 提案手法は,シンボリック推論のための自動エージェントとしてのllmの能力を大幅に向上させ,シンボリックタスクを含むテキストベースのゲームにおいて有効であり,すべてのタスクで平均88%のパフォーマンスを達成することを実証した。

A wide range of real-world applications is characterized by their symbolic nature, necessitating a strong capability for symbolic reasoning. This paper investigates the potential application of Large Language Models (LLMs) as symbolic reasoners. We focus on text-based games, significant benchmarks for agents with natural language capabilities, particularly in symbolic tasks like math, map reading, sorting, and applying common sense in text-based worlds. To facilitate these agents, we propose an LLM agent designed to tackle symbolic challenges and achieve in-game objectives. We begin by initializing the LLM agent and informing it of its role. The agent then receives observations and a set of valid actions from the text-based games, along with a specific symbolic module. With these inputs, the LLM agent chooses an action and interacts with the game environments. Our experimental results demonstrate that our method significantly enhances the capability of LLMs as automated agents for symbolic reasoning, and our LLM agent is effective in text-based games involving symbolic tasks, achieving an average performance of 88% across all tasks.
翻訳日:2024-01-18 15:12:13 公開日:2024-01-17
# 機械は色を見る:大きなコーパスで異なる形の人種差別的言論を分類するためのガイドライン

Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora ( http://arxiv.org/abs/2401.09333v1 )

ライセンス: Link先を確認
Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera(参考訳) テキストで人種差別的言語を識別し分類する現在の手法は、人種差別的言説の過度な形式にのみ焦点をあてる小さなn質的アプローチや大規模nアプローチに依存している。 本稿では、大規模コーパスにおける異なる形態の人種差別的言説を識別し分類するためのステップバイステップの一般化可能なガイドラインを提供する。 このアプローチでは、人種差別とその異なる表現を概念化することから始めます。 次に、これらの人種差別的表現を時間と場所に文脈的に分類し、研究者がそれらの分散形式を識別できるようにする。 最後に,XLM-RoBERTa (XLM-R)を適用し,テキストの最先端文脈理解による教師付きテキスト分類モデルを提案する。 我々の事前学習モデルであるXLM-RとXLM-R-Racismoは、大規模なコーパスにおける人種差別の分類において、他の最先端のアプローチよりも優れていることを示す。 本稿は,2018年から2021年にかけてのエクアドル ind'igena コミュニティに関するツイートのコーパスを用いて,我々のアプローチを説明する。

Current methods to identify and classify racist language in text rely on small-n qualitative approaches or large-n approaches focusing exclusively on overt forms of racist discourse. This article provides a step-by-step generalizable guideline to identify and classify different forms of racist discourse in large corpora. In our approach, we start by conceptualizing racism and its different manifestations. We then contextualize these racist manifestations to the time and place of interest, which allows researchers to identify their discursive form. Finally, we apply XLM-RoBERTa (XLM-R), a cross-lingual model for supervised text classification with a cutting-edge contextual understanding of text. We show that XLM-R and XLM-R-Racismo, our pretrained model, outperform other state-of-the-art approaches in classifying racism in large corpora. We illustrate our approach using a corpus of tweets relating to the Ecuadorian ind\'igena community between 2018 and 2021.
翻訳日:2024-01-18 15:11:55 公開日:2024-01-17
# 非ホロノミック地上車両におけるイベントベースビジュアルオドメトリー

Event-Based Visual Odometry on Non-Holonomic Ground Vehicles ( http://arxiv.org/abs/2401.09331v1 )

ライセンス: Link先を確認
Wanting Xu, Si'ao Zhang, Li Cui, Xin Peng, Laurent Kneip(参考訳) 課題条件下では優れた性能が期待できるが、イベントストリームから安定した特徴を抽出・追跡することが難しいため、イベントベースの動作推定は依然として難しい課題である。 この推定を堅牢にするために、他のセンサーとの融合が要求事項であると考えられている。 本研究では,アッカーマンステアリングプラットフォームの非ホロノミックな運動モデルを用いて,平面地上車両上での信頼性,純粋にイベントベースの視覚計測を実証する。 正規フレームベースカメラの単一特徴n-線型性を準時間連続イベントトラックの場合まで拡張し,可変次テイラー展開による多項式形式を実現する。 複数のイベントトラックに対するロバスト平均化は、ヒストグラム投票によって達成される。 シミュレーションデータと実データの両方で示すように,本アルゴリズムは車両の瞬時回転速度の精度およびロバストな推定を実現し,通常の条件下でのフレームベースセンサによるデルタ回転に匹敵する結果を得た。 さらに,照明シナリオへの挑戦において,従来の選択肢を大きく上回っている。 コードは \url{https://github.com/gowanting/nhevo} で入手できる。

Despite the promise of superior performance under challenging conditions, event-based motion estimation remains a hard problem owing to the difficulty of extracting and tracking stable features from event streams. In order to robustify the estimation, it is generally believed that fusion with other sensors is a requirement. In this work, we demonstrate reliable, purely event-based visual odometry on planar ground vehicles by employing the constrained non-holonomic motion model of Ackermann steering platforms. We extend single feature n-linearities for regular frame-based cameras to the case of quasi time-continuous event-tracks, and achieve a polynomial form via variable degree Taylor expansions. Robust averaging over multiple event tracks is simply achieved via histogram voting. As demonstrated on both simulated and real data, our algorithm achieves accurate and robust estimates of the vehicle's instantaneous rotational velocity, and thus results that are comparable to the delta rotations obtained by frame-based sensors under normal conditions. We furthermore significantly outperform the more traditional alternatives in challenging illumination scenarios. The code is available at \url{https://github.com/gowanting/NHEVO}.
翻訳日:2024-01-18 15:11:29 公開日:2024-01-17
# ディープラーニングを用いたGroebner Basis Solversのオンライン安定性向上

Online Stability Improvement of Groebner Basis Solvers using Deep Learning ( http://arxiv.org/abs/2401.09328v1 )

ライセンス: Link先を確認
Wanting Xu, Lan Hu, Manolis C. Tsakiris and Laurent Kneip(参考訳) 過去10年にわたり、gr\"obner基底理論と自動解法生成は、幾何学的視覚問題に対する多くの解決策を生み出してきた。 事実上全てのケースにおいて、導出された解法は、gr\"obner基底を計算するために固定除去テンプレートを適用し、その結果、元の多項式制約のゼロ次元多様体を同定する。 しかし,異なる変数順序やモノミアル順序が異なる除去テンプレートをもたらすことは明らかであり,問題のある場合において,高い精度を示す可能性がある。 本論文には2つの貢献がある。 まず、幾何学的視界における一般的な問題のクラスについて、変数の順序付けは、単に初期係数行列の列の置換に変換され、その結果-- 結果として- 同一の消去テンプレートを異なる方法で再利用できることを示し、それぞれが潜在的に異なる精度をもたらす。 次に、元の係数集合は、よい解法のオンライン選択のための分類器を訓練するのに十分な情報を含む可能性があることを証明し、特に計算オーバーヘッドの小さいコストで証明する。 汎用的な多項式問題解法と幾何学的ビジョンによる具体的解法について,幅広い応用性を示す。

Over the past decade, the Gr\"obner basis theory and automatic solver generation have lead to a large number of solutions to geometric vision problems. In practically all cases, the derived solvers apply a fixed elimination template to calculate the Gr\"obner basis and thereby identify the zero-dimensional variety of the original polynomial constraints. However, it is clear that different variable or monomial orderings lead to different elimination templates, and we show that they may present a large variability in accuracy for a certain instance of a problem. The present paper has two contributions. We first show that for a common class of problems in geometric vision, variable reordering simply translates into a permutation of the columns of the initial coefficient matrix, and that -- as a result -- one and the same elimination template can be reused in different ways, each one leading to potentially different accuracy. We then prove that the original set of coefficients may contain sufficient information to train a classifier for online selection of a good solver, most notably at the cost of only a small computational overhead. We demonstrate wide applicability at the hand of generic dense polynomial problem solvers, as well as a concrete solver from geometric vision.
翻訳日:2024-01-18 15:11:12 公開日:2024-01-17
# siamese meets diffusion network: smdnetによる高解像度rs画像における変化検出

Siamese Meets Diffusion Network: SMDNet for Enhanced Change Detection in High-Resolution RS Imagery ( http://arxiv.org/abs/2401.09325v1 )

ライセンス: Link先を確認
Jia Jia, Geunho Lee, Zhibo Wang, Lyu Zhi, and Yuchu He(参考訳) 近年,リモートセンシング画像において,deep learning to change detection (cd) の応用が著しく進んでいる。 近年、CDタスクはCNNやTransformerのようなアーキテクチャを使ってこれらの変更を識別している。 しかし、これらのアーキテクチャは境界の詳細を表現するのに欠点があり、複雑な照明や気象条件下での誤報や発見の欠如が生じる。 そこで我々は,新たなネットワークであるSiamese Meets Diffusion Network (SMDNet)を提案する。 このネットワークは、Siam-U2Net Feature Differential Encoder (SU-FDE)とデノナイズ拡散暗黙モデルを組み合わせて、画像エッジ変化検出の精度を改善し、環境変化時のモデルの堅牢性を高める。 まず,時系列画像間の相違を捉え,特徴間の類似性を識別し,エッジディテール検出を強化するために,共有重み特徴を利用する革新的なSU-FDEモジュールを提案する。 さらに,モデルの感度と精度を向上させるために,重要な粗い特徴を識別するための注意機構を追加する。 最後に,プログレッシブサンプリングの拡散モデルを用いてキー粗い特徴を融合させ,拡散モデルのノイズ低減能力と画像データの確率分布を捉える利点を利用して,異なる環境におけるモデルの適応性を高める。 特徴抽出モデルと拡散モデルを組み合わせることで,リモートセンシング画像における変化検出の有効性を示す。 LEVIR-CD、DSIFN-CD、CDDデータセットにおけるSMDNetの性能評価は、それぞれ90.99%、88.40%、88.47%と評価されたF1スコアを得る。 これは、バリエーションと複雑な詳細を正確に識別する、我々のモデルの高度な能力を示しています。

Recently, the application of deep learning to change detection (CD) has significantly progressed in remote sensing images. In recent years, CD tasks have mostly used architectures such as CNN and Transformer to identify these changes. However, these architectures have shortcomings in representing boundary details and are prone to false alarms and missed detections under complex lighting and weather conditions. For that, we propose a new network, Siamese Meets Diffusion Network (SMDNet). This network combines the Siam-U2Net Feature Differential Encoder (SU-FDE) and the denoising diffusion implicit model to improve the accuracy of image edge change detection and enhance the model's robustness under environmental changes. First, we propose an innovative SU-FDE module that utilizes shared weight features to capture differences between time series images and identify similarities between features to enhance edge detail detection. Furthermore, we add an attention mechanism to identify key coarse features to improve the model's sensitivity and accuracy. Finally, the diffusion model of progressive sampling is used to fuse key coarse features, and the noise reduction ability of the diffusion model and the advantages of capturing the probability distribution of image data are used to enhance the adaptability of the model in different environments. Our method's combination of feature extraction and diffusion models demonstrates effectiveness in change detection in remote sensing images. The performance evaluation of SMDNet on LEVIR-CD, DSIFN-CD, and CDD datasets yields validated F1 scores of 90.99%, 88.40%, and 88.47%, respectively. This substantiates the advanced capabilities of our model in accurately identifying variations and intricate details.
翻訳日:2024-01-18 15:10:50 公開日:2024-01-17
# BENO:楕円型PDEのための境界埋め込み型ニューラル演算子

BENO: Boundary-embedded Neural Operators for Elliptic PDEs ( http://arxiv.org/abs/2401.09323v1 )

ライセンス: Link先を確認
Haixin Wang, Jiaxin Li, Anubhav Dwivedi, Kentaro Hara, Tailin Wu(参考訳) 楕円偏微分方程式(楕円偏微分方程式、英: Elliptic partial differential equations、PDE)は、流体力学、プラズマ物理学、固体力学などの多くの科学・工学分野において重要な役割を果たす時間非依存PDEの主要なクラスである。 近年、ニューラルネットワークは楕円型PDEをより効率的に解けるための有望な手法として出現している。 しかし、既存のネットワークは通常、現実世界に存在する複雑なジオメトリや不均一な境界値を扱うことができない。 ここでは、複雑なジオメトリと不均一境界値を楕円型PDEの解に埋め込む新しいニューラルネットワークアーキテクチャであるBundary-Embededed Neural Operators (BENO)を紹介する。 古典的グリーン関数にインスパイアされたBENOは、それぞれ内部ソース項と境界値のグラフニューラルネットワーク(GNN)の2つのブランチで構成されている。 さらに、Transformerエンコーダは、グローバル境界幾何学を、GNNの各メッセージパッシング層に影響を与える潜在ベクトルにマッピングする。 種々の境界条件を持つ楕円型PDEにおいて、我々のモデルを広範囲にテストする。 既存のベースライン手法がすべて解演算子を学習できないことを示す。 対照的に、我々のモデルは境界組込みアーキテクチャを備え、最先端のニューラル演算子と強いベースラインを平均60.96\%で上回る。 ソースコードはhttps://github.com/AI4Science-WestlakeU/beno.git.comにある。

Elliptic partial differential equations (PDEs) are a major class of time-independent PDEs that play a key role in many scientific and engineering domains such as fluid dynamics, plasma physics, and solid mechanics. Recently, neural operators have emerged as a promising technique to solve elliptic PDEs more efficiently by directly mapping the input to solutions. However, existing networks typically cannot handle complex geometries and inhomogeneous boundary values present in the real world. Here we introduce Boundary-Embedded Neural Operators (BENO), a novel neural operator architecture that embeds the complex geometries and inhomogeneous boundary values into the solving of elliptic PDEs. Inspired by classical Green's function, BENO consists of two branches of Graph Neural Networks (GNNs) for interior source term and boundary values, respectively. Furthermore, a Transformer encoder maps the global boundary geometry into a latent vector which influences each message passing layer of the GNNs. We test our model extensively in elliptic PDEs with various boundary conditions. We show that all existing baseline methods fail to learn the solution operator. In contrast, our model, endowed with boundary-embedded architecture, outperforms state-of-the-art neural operators and strong baselines by an average of 60.96\%. Our source code can be found https://github.com/AI4Science-WestlakeU/beno.git.
翻訳日:2024-01-18 15:10:21 公開日:2024-01-17
# 量子ビット数少ない大規模量子最適化解法に向けて

Towards large-scale quantum optimization solvers with few qubits ( http://arxiv.org/abs/2401.09421v1 )

ライセンス: Link先を確認
Marco Sciorilli, Lucas Borges, Taylor L. Patti, Diego Garc\'ia-Mart\'in, Giancarlo Camilo, Anima Anandkumar, and Leandro Aolita(参考訳) 我々は、$m=\mathcal{O}(n^k)$バイナリ変数に対して、$n$ qubitsのみを使用し、$k>1$でチューナブルな量子解法を導入する。 パラメータ数と回路深度はそれぞれ$m$の線形およびサブ線形のスケーリングを軽度に表示する。 さらに,特定量子ビット効率の符号化がバレン高原の超ポリノミカル緩和を内蔵特徴としてもたらすことを解析的に証明した。 これは前例のない量子ソルバ性能をもたらす。 $m=7000$の場合、数値シミュレーションは最先端の古典解法と競合する解を生成する。 逆に$m=2000$の場合、$n=17$トラップイオン量子ビットを用いた実験では、MaxCut近似比が0.941$を超えると見積もられた。 私たちの知る限り、これはそのようなサイズで実験的に得られた最高の品質です。 本研究は,量子インスパイアされたソルバに対する新しいヒューリスティックスと,近距離量子デバイス上での商業的に関連する問題を解決するための有望な経路を提供する。

We introduce a variational quantum solver for combinatorial optimizations over $m=\mathcal{O}(n^k)$ binary variables using only $n$ qubits, with tunable $k>1$. The number of parameters and circuit depth display mild linear and sublinear scalings in $m$, respectively. Moreover, we analytically prove that the specific qubit-efficient encoding brings in a super-polynomial mitigation of barren plateaus as a built-in feature. This leads to unprecedented quantum-solver performances. For $m=7000$, numerical simulations produce solutions competitive in quality with state-of-the-art classical solvers. In turn, for $m=2000$, an experiment with $n=17$ trapped-ion qubits featured MaxCut approximation ratios estimated to be beyond the hardness threshold $0.941$. To our knowledge, this is the highest quality attained experimentally on such sizes. Our findings offer a novel heuristics for quantum-inspired solvers as well as a promising route towards solving commercially-relevant problems on near term quantum devices.
翻訳日:2024-01-18 15:04:54 公開日:2024-01-17
# GARField: 放射界を持つグループ

GARField: Group Anything with Radiance Fields ( http://arxiv.org/abs/2401.09419v1 )

ライセンス: Link先を確認
Chung Min Kim, Mingxuan Wu, Justin Kerr, Ken Goldberg, Matthew Tancik, Angjoo Kanazawa(参考訳) 群れは本質的に不明瞭である。それは、複数の粒度の粒度がシーンを分解できるからである。掘削機の車輪は分離されたもの、あるいは全体の一部と見なすべきか? 本稿では,3次元シーンを画像入力から意味的に有意なグループの階層に分解する手法であるGARField(Group Anything with Radiance Fields)を提案する。 スケール条件付き3次元親和性特徴体を最適化することにより、世界の点は異なる大きさの異なる群に属することができる。 我々はこのフィールドを、異なる視点から相反するマスクを一貫して融合させるスケールを用いて、粗から細までの階層を尊重する方法で、セグメント・オール(sam)によって提供される2dマスクの集合から最適化する。 このフィールドから、自動ツリー構築やユーザインタラクションを通じて、グループ化可能な階層を導出することができます。 我々はGARFieldを様々なシーンで評価し、オブジェクトのクラスタ、オブジェクト、および様々なサブパートの様々なレベルのグループを効果的に抽出する。 GARFieldは本質的にマルチビュー一貫したグループを表現し、入力されたSAMマスクよりも高い忠実度グループを生成する。 GARFieldの階層的なグループ化は、3Dアセット抽出や動的シーン理解などの下流アプリケーションにエキサイティングな応用をもたらす可能性がある。 プロジェクトのwebサイトはhttps://www.garfield.studio/。

Grouping is inherently ambiguous due to the multiple levels of granularity in which one can decompose a scene -- should the wheels of an excavator be considered separate or part of the whole? We present Group Anything with Radiance Fields (GARField), an approach for decomposing 3D scenes into a hierarchy of semantically meaningful groups from posed image inputs. To do this we embrace group ambiguity through physical scale: by optimizing a scale-conditioned 3D affinity feature field, a point in the world can belong to different groups of different sizes. We optimize this field from a set of 2D masks provided by Segment Anything (SAM) in a way that respects coarse-to-fine hierarchy, using scale to consistently fuse conflicting masks from different viewpoints. From this field we can derive a hierarchy of possible groupings via automatic tree construction or user interaction. We evaluate GARField on a variety of in-the-wild scenes and find it effectively extracts groups at many levels: clusters of objects, objects, and various subparts. GARField inherently represents multi-view consistent groupings and produces higher fidelity groups than the input SAM masks. GARField's hierarchical grouping could have exciting downstream applications such as 3D asset extraction or dynamic scene understanding. See the project website at https://www.garfield.studio/
翻訳日:2024-01-18 15:04:40 公開日:2024-01-17
# Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model ( http://arxiv.org/abs/2401.09417v1 )

ライセンス: Link先を確認
Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang(参考訳) 近年,ハードウェアアウェアデザインの効率的な状態空間モデル(ssms)が,長いシーケンスモデリングにおいて大きな可能性を示している。 効率的で汎用的なビジョンバックボーンを構築することは魅力的な方向です。 しかし,視覚データの位置感応性や視覚理解のためのグローバルコンテキストの必要性から,ssmでは視覚的データの表現が困難である。 本稿では,視覚表現学習の自己注意への依存は不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた新たな汎用視覚バックボーンを提案する。 ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。 例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。 その結果、vimは高解像度画像のトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服でき、vision foundationモデルの次世代バックボーンとなる可能性を秘めている。 コードはhttps://github.com/hustvl/vimで入手できる。

Recently the state space models (SSMs) with efficient hardware-aware designs, i.e., Mamba, have shown great potential for long sequence modeling. Building efficient and generic vision backbones purely upon SSMs is an appealing direction. However, representing visual data is challenging for SSMs due to the position-sensitivity of visual data and the requirement of global context for visual understanding. In this paper, we show that the reliance of visual representation learning on self-attention is not necessary and propose a new generic vision backbone with bidirectional Mamba blocks (Vim), which marks the image sequences with position embeddings and compresses the visual representation with bidirectional state space models. On ImageNet classification, COCO object detection, and ADE20k semantic segmentation tasks, Vim achieves higher performance compared to well-established vision transformers like DeiT, while also demonstrating significantly improved computation & memory efficiency. For example, Vim is 2.8$\times$ faster than DeiT and saves 86.8% GPU memory when performing batch inference to extract features on images with a resolution of 1248$\times$1248. The results demonstrate that Vim is capable of overcoming the computation & memory constraints on performing Transformer-style understanding for high-resolution images and it has great potential to become the next-generation backbone for vision foundation models. Code is available at https://github.com/hustvl/Vim.
翻訳日:2024-01-18 15:04:20 公開日:2024-01-17
# texturedreamer:geometry-aware diffusionによる画像誘導型テクスチャ合成

TextureDreamer: Image-guided Texture Synthesis through Geometry-aware Diffusion ( http://arxiv.org/abs/2401.09416v1 )

ライセンス: Link先を確認
Yu-Ying Yeh, Jia-Bin Huang, Changil Kim, Lei Xiao, Thu Nguyen-Phuoc, Numair Khan, Cheng Zhang, Manmohan Chandraker, Carl S Marshall, Zhao Dong, Zhengqin Li(参考訳) 本稿では,少数の入力画像(3~5)から光沢のあるテクスチャを伝達し,任意のカテゴリにまたがる3次元形状を目標とする新しい画像誘導テクスチャ合成手法であるTextureDreamerを提案する。 テクスチャ作成は視覚とグラフィックスにおいて重要な課題である。 工業企業は経験豊富なアーティストを雇い、手動で3Dアセットのテクスチャを作る。 古典的な手法では、厳密にサンプリングされたビューと正確に整列された幾何学を必要とし、学習ベースの手法はデータセット内のカテゴリ固有の形状に限られる。 対照的に、TextureDreamerは、現実世界の環境から、わずかにカジュアルにキャプチャされた画像だけで、複雑なテクスチャを任意のオブジェクトに転送することができる。 私たちのコアなアイデアであるパーソナライズドジオメトリ・アウェアスコア蒸留(pgsd)は、テクスチャ情報抽出のためのパーソナライズドモデリング、詳細な外観合成のための変分スコア蒸留、コントロールネットによる明示的なジオメトリ指導など、最近の拡散モデルの発展からインスピレーションを得ています。 私たちの統合といくつかの重要な変更は、テクスチャの品質を大幅に改善します。 異なるカテゴリにまたがる実画像実験では、テクスチャドリーマーは、よりリアルで意味のあるテクスチャを任意のオブジェクトに移すことができ、以前の最先端の視覚品質を上回っています。

We present TextureDreamer, a novel image-guided texture synthesis method to transfer relightable textures from a small number of input images (3 to 5) to target 3D shapes across arbitrary categories. Texture creation is a pivotal challenge in vision and graphics. Industrial companies hire experienced artists to manually craft textures for 3D assets. Classical methods require densely sampled views and accurately aligned geometry, while learning-based methods are confined to category-specific shapes within the dataset. In contrast, TextureDreamer can transfer highly detailed, intricate textures from real-world environments to arbitrary objects with only a few casually captured images, potentially significantly democratizing texture creation. Our core idea, personalized geometry-aware score distillation (PGSD), draws inspiration from recent advancements in diffuse models, including personalized modeling for texture information extraction, variational score distillation for detailed appearance synthesis, and explicit geometry guidance with ControlNet. Our integration and several essential modifications substantially improve the texture quality. Experiments on real images spanning different categories show that TextureDreamer can successfully transfer highly realistic, semantic meaningful texture to arbitrary objects, surpassing the visual quality of previous state-of-the-art.
翻訳日:2024-01-18 15:03:55 公開日:2024-01-17
# 幾何学的滑らかな運動量を持つランダム化カッツマルツ

Randomized Kaczmarz with geometrically smoothed momentum ( http://arxiv.org/abs/2401.09415v1 )

ライセンス: Link先を確認
Seth J. Alderman, Roan W. Luikart, Nicholas F. Marshall(参考訳) 本稿では, 線形最小二乗損失関数上の確率勾配勾配の例であるランダム化Kaczmarzアルゴリズムに幾何的に滑らかな運動量を加える効果について検討する。 最小二乗損失を定義する行列の特異ベクトルの方向における期待誤差に関する結果を示す。 結果の有用性を示す数値例をいくつか提示し,いくつかの疑問を提起する。

This paper studies the effect of adding geometrically smoothed momentum to the randomized Kaczmarz algorithm, which is an instance of stochastic gradient descent on a linear least squares loss function. We prove a result about the expected error in the direction of singular vectors of the matrix defining the least squares loss. We present several numerical examples illustrating the utility of our result and pose several questions.
翻訳日:2024-01-18 15:03:26 公開日:2024-01-17
# Vlogger: 夢をVlogにする

Vlogger: Make Your Dream A Vlog ( http://arxiv.org/abs/2401.09414v1 )

ライセンス: Link先を確認
Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu Qiao, Yali Wang(参考訳) 本稿では,ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムであるVloggerを紹介する。 数秒の短いビデオとは違って、vlogは様々なシーンを持つ複雑なストーリーラインを含むことが多く、既存のビデオ生成アプローチでは難しい。 このボトルネックを克服するために、当社のvloggerは、大規模な言語モデル(llm)をディレクターとして活用し、vlogの長いビデオ生成タスクを4つの重要なステージに分解します。 このような人間を模倣する設計により、我々のvloggerはトップダウン計画とボトムアップ撮影の協力によりvlogを生成することができる。 さらに,映像拡散モデルであるShowMakerを導入し,撮影シーンの映像スニペットを生成するために,Vloggerでビデオグラファーとして機能する。 ScriptとActorをテキストおよびビジュアルプロンプトとして注意深く組み込むことで、スニペットにおける空間的時間的コヒーレンスを効果的に向上させることができる。 さらに、ShowMakerのための簡潔な混合トレーニングパラダイムを設計し、T2V生成と予測の両方の能力を高める。 最後に,本手法がゼロショットT2V生成および予測タスクにおける最先端性能を実現することを示す。 さらに重要なことに、vloggerは、スクリプトやアクタによるビデオコヒーレンスを失うことなく、オープンワールド記述から5分以上のvlogを生成することができる。 コードとモデルは、すべてhttps://github.com/zhuangshaobin/vloggerで入手できる。

In this work, we present Vlogger, a generic AI system for generating a minute-level video blog (i.e., vlog) of user descriptions. Different from short videos with a few seconds, vlog often contains a complex storyline with diversified scenes, which is challenging for most existing video generation approaches. To break through this bottleneck, our Vlogger smartly leverages Large Language Model (LLM) as Director and decomposes a long video generation task of vlog into four key stages, where we invoke various foundation models to play the critical roles of vlog professionals, including (1) Script, (2) Actor, (3) ShowMaker, and (4) Voicer. With such a design of mimicking human beings, our Vlogger can generate vlogs through explainable cooperation of top-down planning and bottom-up shooting. Moreover, we introduce a novel video diffusion model, ShowMaker, which serves as a videographer in our Vlogger for generating the video snippet of each shooting scene. By incorporating Script and Actor attentively as textual and visual prompts, it can effectively enhance spatial-temporal coherence in the snippet. Besides, we design a concise mixed training paradigm for ShowMaker, boosting its capacity for both T2V generation and prediction. Finally, the extensive experiments show that our method achieves state-of-the-art performance on zero-shot T2V generation and prediction tasks. More importantly, Vlogger can generate over 5-minute vlogs from open-world descriptions, without loss of video coherence on script and actor. The code and model is all available at https://github.com/zhuangshaobin/Vlogger.
翻訳日:2024-01-18 15:03:19 公開日:2024-01-17
# POP-3D: 画像からのオープンボキャブラリ3次元活動予測

POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images ( http://arxiv.org/abs/2401.09413v1 )

ライセンス: Link先を確認
Antonin Vobecky and Oriane Sim\'eoni and David Hurych and Spyros Gidaris and Andrei Bursuc and Patrick P\'erez and Josef Sivic(参考訳) 本稿では,自由形式言語クエリの3次元接地,セグメンテーション,検索を可能にするため,入力2次元画像から開放的3次元意味ボクセル占有マップを予測する手法について述べる。 これは、2D-3Dの曖昧さと、3Dで注釈付きトレーニングデータを取得することの難しさから、難しい問題である。 この作品の貢献は3倍である。 まず、オープンな3Dセマンティック占有予測のための新しいモデルアーキテクチャを設計する。 アーキテクチャは2d-3dエンコーダと占有率予測と3d言語ヘッドで構成されている。 出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。 次に,三様相を利用した自己教師付き学習アルゴリズムを開発した。 (i)画像 (ii)言語・言語 3)LiDARポイントクラウドは、3Dマニュアル言語アノテーションを必要とせずに、強力な事前学習された視覚言語モデルを用いて提案されたアーキテクチャをトレーニングすることができる。 最後に、既存のデータセットを用いたゼロショット3Dセマンティックセマンティックセグメンテーション(Zero-shot 3D semantic segmentation)、nuScenesの拡張として提案する小さなデータセットを用いて、自由形式の言語クエリのグラウンドと検索を行う。 プロジェクトページはhttps://vobecant.github.io/pop3d。

We describe an approach to predict open-vocabulary 3D semantic voxel occupancy map from input 2D images with the objective of enabling 3D grounding, segmentation and retrieval of free-form language queries. This is a challenging problem because of the 2D-3D ambiguity and the open-vocabulary nature of the target tasks, where obtaining annotated training data in 3D is difficult. The contributions of this work are three-fold. First, we design a new model architecture for open-vocabulary 3D semantic occupancy prediction. The architecture consists of a 2D-3D encoder together with occupancy prediction and 3D-language heads. The output is a dense voxel map of 3D grounded language embeddings enabling a range of open-vocabulary tasks. Second, we develop a tri-modal self-supervised learning algorithm that leverages three modalities: (i) images, (ii) language and (iii) LiDAR point clouds, and enables training the proposed architecture using a strong pre-trained vision-language model without the need for any 3D manual language annotations. Finally, we demonstrate quantitatively the strengths of the proposed model on several open-vocabulary tasks: Zero-shot 3D semantic segmentation using existing datasets; 3D grounding and retrieval of free-form language queries, using a small dataset that we propose as an extension of nuScenes. You can find the project page here https://vobecant.github.io/POP3D.
翻訳日:2024-01-18 15:02:46 公開日:2024-01-17
# 展望ガラスを通して:エンタープライズAI知識システムにおける透明性含意と課題

Through the Looking-Glass: Transparency Implications and Challenges in Enterprise AI Knowledge Systems ( http://arxiv.org/abs/2401.09410v1 )

ライセンス: Link先を確認
Karina Corti\~nas-Lorenzo, Si\^an Lindley, Ida Larsen-Ledet and Bhaskar Mitra(参考訳) 知識は人から引き離すことはできない。 aiの知識システムが大量の仕事関連のデータを発掘するにつれ、抽出され、表面化される知識は、それを作成したり使ったりする人々と本質的に結びついています。 これらのシステムが組織的な設定に埋め込まれると、フォアグラウンドに持ち込まれた情報と、周辺にプッシュされた情報は、個人がお互いを見る方法や、職場で自分自身を見る方法に影響を与えます。 本稿では、外観ガラスのメタファーを提示し、AI知識システムを反射・歪曲するシステムとして概念化し、透明性要件、含意、課題に対する私たちの見解を広げる。 透明性は、システムの能力、限界、行動を明らかにするシステムや、システムを通して労働者の自身の貢献や組織内の他者に対する認識を形作るシステムなど、さまざまな見方を形作る上で重要な仲介者として定式化します。 これらのシステムの社会学的性質を認識し,ai知識システムの価値を実現するために必要な3つの透明性次元,すなわちシステムの透明性,手続き的透明性,成果の透明性を明らかにする。 我々は,これらの形態の透明性の実現を妨げる重要な課題について論じ,社会技術的ギャップの拡大と今後のコンピュータ支援協同作業(CSCW)研究の方向性を明らかにする。

Knowledge can't be disentangled from people. As AI knowledge systems mine vast volumes of work-related data, the knowledge that's being extracted and surfaced is intrinsically linked to the people who create and use it. When these systems get embedded in organizational settings, the information that is brought to the foreground and the information that's pushed to the periphery can influence how individuals see each other and how they see themselves at work. In this paper, we present the looking-glass metaphor and use it to conceptualize AI knowledge systems as systems that reflect and distort, expanding our view on transparency requirements, implications and challenges. We formulate transparency as a key mediator in shaping different ways of seeing, including seeing into the system, which unveils its capabilities, limitations and behavior, and seeing through the system, which shapes workers' perceptions of their own contributions and others within the organization. Recognizing the sociotechnical nature of these systems, we identify three transparency dimensions necessary to realize the value of AI knowledge systems, namely system transparency, procedural transparency and transparency of outcomes. We discuss key challenges hindering the implementation of these forms of transparency, bringing to light the wider sociotechnical gap and highlighting directions for future Computer-supported Cooperative Work (CSCW) research.
翻訳日:2024-01-18 15:02:21 公開日:2024-01-17
# テキスト認証の解読:人間対機械生成テキスト検出のための大言語セマンティクスのレンズによる一般化戦略

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text ( http://arxiv.org/abs/2401.09407v1 )

ライセンス: Link先を確認
Mazal Bethany, Brandon Wherry, Emet Bethany, Nishant Vishwamitra, Peyman Najafirad(参考訳) 近年の大規模言語モデル(llms)の普及に伴い、機械生成テキストを検出するツールの需要が高まっている。 機械生成テキストの効果的な検出は、まず、gpt-4やdollyなど、さまざまなジェネレータによって機械生成テキストが生成され、学術的な原稿からソーシャルメディアのポストまで、さまざまな領域にまたがる現実のシナリオに対して、かなり制限されている。 第二に、既存の検出手法は、LLMが生成するテキストを制限されたバイナリ分類レンズで処理し、異なるLLMが生成するアーティファクトの微妙な多様性を無視している。 本研究では,実世界のシナリオにおける機械生成テキストの検出に関する体系的研究を行う。 まず,最先端手法の有効性について検討し,実世界の多様な生成元やドメインが生成するテキストに対して著しく制限されていることを見出した。 さらに、事前訓練されたLLMエンコーダからの埋め込みのt-SNE可視化は、人間と機械生成したテキストを確実に区別できないことを示す。 そこで本研究では,実世界の多種多様なジェネレータやドメインが生成するテキストに対応するために,LLMと組込みサブクラスタリングを組み合わせた事前学習されたT5エンコーダを用いた機械生成テキスト検出システムT5LLMCipherを提案する。 提案手法は,9つのマシン生成テキストシステムと9つのドメインにまたがるアプローチを評価し,本手法が最先端の一般化機能を提供し,未発見のジェネレータとドメインで19.6\%のマシン生成テキストのf1スコアを平均的に増加させ,既存のアプローチを実行しているトップと比較し,93.6\%の精度でテキスト生成者を正しく識別する。

With the recent proliferation of Large Language Models (LLMs), there has been an increasing demand for tools to detect machine-generated text. The effective detection of machine-generated text face two pertinent problems: First, they are severely limited in generalizing against real-world scenarios, where machine-generated text is produced by a variety of generators, including but not limited to GPT-4 and Dolly, and spans diverse domains, ranging from academic manuscripts to social media posts. Second, existing detection methodologies treat texts produced by LLMs through a restrictive binary classification lens, neglecting the nuanced diversity of artifacts generated by different LLMs. In this work, we undertake a systematic study on the detection of machine-generated text in real-world scenarios. We first study the effectiveness of state-of-the-art approaches and find that they are severely limited against text produced by diverse generators and domains in the real world. Furthermore, t-SNE visualizations of the embeddings from a pretrained LLM's encoder show that they cannot reliably distinguish between human and machine-generated text. Based on our findings, we introduce a novel system, T5LLMCipher, for detecting machine-generated text using a pretrained T5 encoder combined with LLM embedding sub-clustering to address the text produced by diverse generators and domains in the real world. We evaluate our approach across 9 machine-generated text systems and 9 domains and find that our approach provides state-of-the-art generalization ability, with an average increase in F1 score on machine-generated text of 19.6\% on unseen generators and domains compared to the top performing existing approaches and correctly attributes the generator of text with an accuracy of 93.6\%.
翻訳日:2024-01-18 15:01:37 公開日:2024-01-17
# Greenberger-Horne-Zeilinger相関に対する未来入力依存モデル

A Future-Input Dependent model for Greenberger-Horne-Zeilinger correlations ( http://arxiv.org/abs/2401.09398v1 )

ライセンス: Link先を確認
Izhar Neder and Nathan Argaman(参考訳) ベルの定理により、量子現象は局所実在論モデルと矛盾すると広く評価されている。 この文脈では、局所性は局所因果性を指し、したがって、内部的には時間的因果的矢印に反するモデルで量子予測を再現する可能性があり、それ以外は関連する局所性条件に従う。 これまでのところ、この可能性はおもちゃのモデルレベルでのみ実証されており、1つまたは2つのスピン(または光子)を含むシステムでのみ実証されている。 本研究は、これらのモデルの1つを3つ以上のスピン間の量子相関に拡張し、グリーンベルガー=ホルン=ザイリンガー状態に絡み合う。

It is widely appreciated, due to Bell's theorem, that quantum phenomena are inconsistent with local-realist models. In this context, locality refers to local causality, and there is thus an open possibility for reproducing the quantum predictions with models which internally violate the causal arrow of time, while otherwise adhering to the relevant locality condition. So far, this possibility has been demonstrated only at a toy-model level, and only for systems involving one or two spins (or photons). The present work extends one of these models to quantum correlations between three or more spins which are entangled in the Greenberger-Horne-Zeilinger state.
翻訳日:2024-01-18 15:01:00 公開日:2024-01-17
# AGI Summitから遠く離れた「数理のクイックサンド」に見る--オントロジー誘導摂動によるLLMの数学的能力の評価

Stuck in the Quicksand of Numeracy, Far from AGI Summit: Evaluating LLMs' Mathematical Competency through Ontology-guided Perturbations ( http://arxiv.org/abs/2401.09395v1 )

ライセンス: Link先を確認
Pengfei Hong, Deepanway Ghosal, Navonil Majumder, Somak Aditya, Rada Mihalcea, Soujanya Poria(参考訳) 近年のLLM(Large Language Models)の進歩は、既存の論理的推論ベンチマークにおいて顕著な結果を示しており、一部のモデルは人的性能を超えている。 しかし、数学的な推論タスクにおいて、彼らの能力と強固さの真の深さは、まだ未解決の問題である。 これに応えて、我々は (i)数学の問題の摂動のオントロジー。 (ii)半自動摂動法、及び (iii)数学推論タスクにおけるllm能力の限界を調査するための摂動数学問題のデータセット。 これらの制御された摂動は、数学問題の構造的および表現的側面の複数のファイン次元にまたがる。 GPT-4を用いて,GSM8Kからランダムに選択した5つの種質問を摂動することでMOREデータセットを生成した。 このプロセスはオントロジーによってガイドされ、完全な自動および手動によるフィルタリングプロセスが関与し、216の数学問題を生み出した。 我々はMORE上で,オープンソースLLMとオープンソースLLMの総合評価を行った。 結果は、すべてのモデルにおいて、混乱した質問に対する大幅なパフォーマンス低下を示します。 これは、現在のLLMには堅牢な数学的スキルと深い推論能力がないことを強く示唆している。 この研究は、現在のモデルの能力の複数のギャップを識別するだけでなく、将来の発展に向けた複数の潜在的方向性も強調する。 私たちのデータセットはhttps://huggingface.co/datasets/declare-lab/GSM8k_MOREで公開されます。

Recent advancements in Large Language Models (LLMs) have showcased striking results on existing logical reasoning benchmarks, with some models even surpassing human performance. However, the true depth of their competencies and robustness, in mathematical reasoning tasks, remains an open question. In response, we develop (i) an ontology of perturbations of maths questions, (ii) a semi-automatic method of perturbation, and (iii) a dataset of perturbed maths questions to probe the limits of LLM capabilities in mathematical reasoning tasks. These controlled perturbations span across multiple fine dimensions of the structural and representational aspects of maths questions. Using GPT-4, we generated the MORE dataset by perturbing randomly selected five seed questions from GSM8K. This process was guided by our ontology and involved a thorough automatic and manual filtering process, yielding a set of 216 maths problems. We conducted comprehensive evaluation of both closed-source and open-source LLMs on MORE. The results show a significant performance drop across all the models against the perturbed questions. This strongly suggests that current LLMs lack robust mathematical skills and deep reasoning abilities. This research not only identifies multiple gaps in the capabilities of current models, but also highlights multiple potential directions for future development. Our dataset will be made publicly available at https://huggingface.co/datasets/declare-lab/GSM8k_MORE.
翻訳日:2024-01-18 15:00:28 公開日:2024-01-17
# \'eliv\'agar:効率的な量子回路探索による分類

\'Eliv\'agar: Efficient Quantum Circuit Search for Classification ( http://arxiv.org/abs/2401.09393v1 )

ライセンス: Link先を確認
Sashwat Anagolum, Narges Alavisamani, Poulami Das, Moinuddin Qureshi, Eric Kessler, Yunong Shi(参考訳) 量子機械学習(QML)の高性能回路とノイズロスト回路の設計は困難であり、設計空間は回路サイズと指数関数的にスケールする。 最近の量子回路探索(qcs)法は、ハードウェアノイズにも頑健な高性能qml回路を探索しようとするが、量子ハードウェアのユニークな制約とミスマッチした古典的なニューラルネットワークサーチ(nas)の設計を直接採用し、高い検索オーバーヘッドと深刻なパフォーマンスボトルネックをもたらす。 本稿では,新しい資源効率,ノイズ誘導型QCSフレームワークである'Eliv\'agarを紹介する。 \'Eliv\'agarは、QCSの3つの主要な側面 -- 検索空間、探索アルゴリズム、候補評価戦略 -- を革新し、現在の古典的に着想を得たQCSメソッドの設計上の欠陥に対処する。 \'eliv\'agarはハードウェア効率を実現し、ノイズやデバイスのトポロジー認識候補生成による高価な回路マッピング共同探索を回避する。 2つの安価で計算可能な予測器、clifford noise resilienceとrepresentational capacityを導入することで、ノイズロバスト性と性能の評価を分離し、低忠実性回路を早期に拒否し、回路評価コストを削減できる。 リソース効率のため、 \'Eliv\'agar はデータの埋め込みをさらに検索でき、性能が大幅に向上する。 12の実際の量子デバイスと9つのqmlアプリケーションにおける \'eliv\'agarの包括的評価に基づいて、\'eliv\'agarは5.3%の精度と271$\times$の高速化を達成している。

Designing performant and noise-robust circuits for Quantum Machine Learning (QML) is challenging -- the design space scales exponentially with circuit size, and there are few well-supported guiding principles for QML circuit design. Although recent Quantum Circuit Search (QCS) methods attempt to search for performant QML circuits that are also robust to hardware noise, they directly adopt designs from classical Neural Architecture Search (NAS) that are misaligned with the unique constraints of quantum hardware, resulting in high search overheads and severe performance bottlenecks. We present \'Eliv\'agar, a novel resource-efficient, noise-guided QCS framework. \'Eliv\'agar innovates in all three major aspects of QCS -- search space, search algorithm and candidate evaluation strategy -- to address the design flaws in current classically-inspired QCS methods. \'Eliv\'agar achieves hardware-efficiency and avoids an expensive circuit-mapping co-search via noise- and device topology-aware candidate generation. By introducing two cheap-to-compute predictors, Clifford noise resilience and Representational capacity, \'Eliv\'agar decouples the evaluation of noise robustness and performance, enabling early rejection of low-fidelity circuits and reducing circuit evaluation costs. Due to its resource-efficiency, \'Eliv\'agar can further search for data embeddings, significantly improving performance. Based on a comprehensive evaluation of \'Eliv\'agar on 12 real quantum devices and 9 QML applications, \'Eliv\'agar achieves 5.3% higher accuracy and a 271$\times$ speedup compared to state-of-the-art QCS methods.
翻訳日:2024-01-18 15:00:01 公開日:2024-01-17
# ミルバーン形式主義における内在的デコヒーレンスに関する研究

A survey on the intrinsic decoherence in the Milburn formalism ( http://arxiv.org/abs/2401.09391v1 )

ライセンス: Link先を確認
S. V. Mousavi, S. Miret-Art\'es(参考訳) 本研究では、固有デコヒーレンス(intrinsic decoherence)として知られるものを制御するパラメータによって制御されるミルバーン方程式の異なる理論的側面と単純な応用について考察する。 主な目的は、外部デコヒーレンスを考慮する際にも観察される類似点を示すことである。 純粋性、エーレンフェスト関係、確率密度電流、ウィグナー表現、およびリンブラジアンマスター方程式との関係は、この本質的非一貫性の観点から分析され、ミルバーン力学に関する新たな洞察に繋がる。 この観点から,2つのウェーブパケットの干渉,トンネルおよびバウンスボールの問題も解析した。

In this work, we consider different theoretical aspects and simple applications of the Milburn equation, which is governed by a parameter controlling what is known as intrinsic decoherence. The main goal is to show some similarities observed also when external decoherence is considered. Purity, Ehrenfest relations, probability density current, the Wigner representation as well as the relation to a Linbladian master equation are analyzed in terms of this intrinsic decoherence, leading to new insights on the Milburn dynamics. Interference of two wave packets, tunneling and the bouncing ball problem are also analyzed under this perspective.
翻訳日:2024-01-18 14:59:28 公開日:2024-01-17
# Tri$^{2}$-plane: Feature Pyramid を用いたボリュームアバター再構成

Tri$^{2}$-plane: Volumetric Avatar Reconstruction with Feature Pyramid ( http://arxiv.org/abs/2401.09386v1 )

ライセンス: Link先を確認
Luchuan Song, Pinxin Liu, Lele Chen, Celong Liu, Chenliang Xu(参考訳) 近年, 神経ボリュームレンダリングによる顔面アバター再建の成果が見られた。 顕著な進歩にもかかわらず、単眼ビデオからの複雑でダイナミックな頭部の動きの再構築は、細かな詳細を捉えて復元するのに苦しむ。 本研究では,単眼型フォトリアリスティックな頭部アバター再構成のためのtri$^2$-planeという新しいアプローチを提案する。 動的顔モデリングのための1つの三面体変形場に依存する既存の研究とは違い、提案されたTri$^2$-planeは、特徴ピラミッドと3つの上下方向接続三面体の原理を利用して細部の改善を行う。 顔の詳細を複数のスケールでサンプリングし、顔全体から特定の地域へ、さらに洗練されたサブリージョンへ遷移させる。 さらに,カメラを用いた幾何認識スライディングウインドウ法をトレーニングの強化として取り入れ,正準空間を越えたロバスト性の向上,特にクロスアイデンティティ生成能力の向上を実現した。 実験結果から、Tri$^2$-planeは既存の方法論を超越するだけでなく、測定値と定性的評価の両方で優れた性能が得られることが示唆された。

Recent years have witnessed considerable achievements in facial avatar reconstruction with neural volume rendering. Despite notable advancements, the reconstruction of complex and dynamic head movements from monocular videos still suffers from capturing and restoring fine-grained details. In this work, we propose a novel approach, named Tri$^2$-plane, for monocular photo-realistic volumetric head avatar reconstructions. Distinct from the existing works that rely on a single tri-plane deformation field for dynamic facial modeling, the proposed Tri$^2$-plane leverages the principle of feature pyramids and three top-to-down lateral connections tri-planes for details improvement. It samples and renders facial details at multiple scales, transitioning from the entire face to specific local regions and then to even more refined sub-regions. Moreover, we incorporate a camera-based geometry-aware sliding window method as an augmentation in training, which improves the robustness beyond the canonical space, with a particular improvement in cross-identity generation capabilities. Experimental outcomes indicate that the Tri$^2$-plane not only surpasses existing methodologies but also achieves superior performance across both quantitative metrics and qualitative assessments through experiments.
翻訳日:2024-01-18 14:59:13 公開日:2024-01-17
# 3次元形状創製のためのディバース部品合成

Diverse Part Synthesis for 3D Shape Creation ( http://arxiv.org/abs/2401.09384v1 )

ライセンス: Link先を確認
Yanran Guan, Oliver van Kaick(参考訳) ニューラルネットワークを用いて3次元形状を部分ベース表現の形で合成する手法がここ数年で導入されている。 これらの手法は、形状を部品のグラフや階層として表現し、形状サンプリングや再構成などの様々な応用を可能にする。 しかし、現在の手法では、ユーザの好みに応じて個々の形状部品を容易に再生することはできない。 本稿では,個々の部品に対して多様な提案を複数生成できる手法について検討する。 具体的には,形状部品の多種多様な提案をサンプリングできるマルチモーダル深層生成モデルの実験を行い,これまでの形状合成の研究で考慮されていないモデルに着目した。 これらの手法の比較研究のために,3次元形状を部分的表現で合成する方法を提案し,この合成手法におけるすべての部分提案手法を評価する。 先行研究に触発された本手法では, 形状は, 空間に配置して最終的な形状を形成する暗黙的関数の形で, 部分の集合として表現される。 この表現の合成は、暗黙のデコーダと空間変換器に基づくニューラルネットワークアーキテクチャによって実現される。 複数モーダル生成モデルの比較を行い,その性能評価を行った。 本研究は,マルチモーダル部品生成のための新手法のうち,どの新手法が最良かを質的かつ定量的に評価し,トップパフォーミング技術に基づく合成手法により,形状復元時の形状忠実性を維持しつつ,3次元形状に発生する部品をより細かく制御できることを示すことを目的とする。

Methods that use neural networks for synthesizing 3D shapes in the form of a part-based representation have been introduced over the last few years. These methods represent shapes as a graph or hierarchy of parts and enable a variety of applications such as shape sampling and reconstruction. However, current methods do not allow easily regenerating individual shape parts according to user preferences. In this paper, we investigate techniques that allow the user to generate multiple, diverse suggestions for individual parts. Specifically, we experiment with multimodal deep generative models that allow sampling diverse suggestions for shape parts and focus on models which have not been considered in previous work on shape synthesis. To provide a comparative study of these techniques, we introduce a method for synthesizing 3D shapes in a part-based representation and evaluate all the part suggestion techniques within this synthesis method. In our method, which is inspired by previous work, shapes are represented as a set of parts in the form of implicit functions which are then positioned in space to form the final shape. Synthesis in this representation is enabled by a neural network architecture based on an implicit decoder and a spatial transformer. We compare the various multimodal generative models by evaluating their performance in generating part suggestions. Our contribution is to show with qualitative and quantitative evaluations which of the new techniques for multimodal part generation perform the best and that a synthesis method based on the top-performing techniques allows the user to more finely control the parts that are generated in the 3D shapes while maintaining high shape fidelity when reconstructing shapes.
翻訳日:2024-01-18 14:58:51 公開日:2024-01-17
# 拡散モデル多様体における逆例

Adversarial Examples are Misaligned in Diffusion Model Manifolds ( http://arxiv.org/abs/2401.06637v3 )

ライセンス: Link先を確認
Peter Lorenz and Ricard Durall and Janis Keuper(参考訳) 近年、拡散モデル(dms)は、データ分布の近似化に成功し、最先端の成果をもたらすという大きな注目を集めている。 それにもかかわらず、これらのモデルの汎用性は、画像インペインティング、セグメンテーション、敵対的ロバスト性など、様々な視覚応用を包含する生成能力を超えている。 本研究は拡散モデルのレンズを通しての対向攻撃の研究に焦点をあてる。 しかし,画像分類器の対角的堅牢性の向上は関与しない。 その代わり、画像に対するこれらの攻撃によって引き起こされる異常を検出し分析するために拡散モデルを活用することに重点を置いている。 そこで本研究では,拡散モデルを用いた変換過程に従えば,逆例の分布のアラインメントを体系的に検討する。 このアプローチの有効性はcifar-10とimagenetデータセットで評価され、後者の画像サイズも異なる。 その結果、良性画像と攻撃画像とを効果的に識別できる顕著な能力が示され、敵のインスタンスがDMの学習多様体と一致しないことが証明された。

In recent years, diffusion models (DMs) have drawn significant attention for their success in approximating data distributions, yielding state-of-the-art generative results. Nevertheless, the versatility of these models extends beyond their generative capabilities to encompass various vision applications, such as image inpainting, segmentation, adversarial robustness, among others. This study is dedicated to the investigation of adversarial attacks through the lens of diffusion models. However, our objective does not involve enhancing the adversarial robustness of image classifiers. Instead, our focus lies in utilizing the diffusion model to detect and analyze the anomalies introduced by these attacks on images. To that end, we systematically examine the alignment of the distributions of adversarial examples when subjected to the process of transformation using diffusion models. The efficacy of this approach is assessed across CIFAR-10 and ImageNet datasets, including varying image sizes in the latter. The results demonstrate a notable capacity to discriminate effectively between benign and attacked images, providing compelling evidence that adversarial instances do not align with the learned manifold of the DMs.
翻訳日:2024-01-18 11:34:51 公開日:2024-01-17
# ユニバーサルディープフェイク検出のための周波数マスキング

Frequency Masking for Universal Deepfake Detection ( http://arxiv.org/abs/2401.06506v3 )

ライセンス: Link先を確認
Chandler Timm Doloriel, Ngai-Man Cheung(参考訳) ユニバーサルディープフェイク検出について検討する。 我々の目標は、さまざまな生成aiアプローチ、特にdeepfake検出器のトレーニング中に目に見えない新興aiから合成画像を検出することです。 ユニバーサルディープフェイク検出には優れた一般化能力が必要である。 自己教師付き事前学習において優れた一般化を示した最近提案されたマスク画像モデリングに動機づけられ,ユニバーサルディープフェイク検出のためのマスク画像モデリングを初めて検討する。 深度検知器の空間・周波数領域マスキングについて検討した。 実験分析に基づいて,周波数マスキングによる新しいディープフェイク検出器を提案する。 周波数領域の焦点は、主に空間領域検出を対象とする多数派とは異なる。 比較分析の結果,既存手法に比べて性能が大幅に向上した。 コードとモデルは公開されている。

We study universal deepfake detection. Our goal is to detect synthetic images from a range of generative AI approaches, particularly from emerging ones which are unseen during training of the deepfake detector. Universal deepfake detection requires outstanding generalization capability. Motivated by recently proposed masked image modeling which has demonstrated excellent generalization in self-supervised pre-training, we make the first attempt to explore masked image modeling for universal deepfake detection. We study spatial and frequency domain masking in training deepfake detectors. Based on empirical analysis, we propose a novel deepfake detector via frequency masking. Our focus on frequency domain is different from the majority, which primarily target spatial domain detection. Our comparative analyses reveal substantial performance gains over existing methods. Code and models are publicly available.
翻訳日:2024-01-18 11:34:33 公開日:2024-01-17
# 超高速二階非線形フォトニクス-古典物理学から非ガウス量子力学へ

Ultrafast second-order nonlinear photonics -- from classical physics to non-Gaussian quantum dynamics ( http://arxiv.org/abs/2401.06265v3 )

ライセンス: Link先を確認
Marc Jankowski, Ryotatsu Yanagimoto, Edwin Ng, Ryan Hamerly, Timothy P. McKenna, Hideo Mabuchi, and M. M. Fejer(参考訳) 2階(\chi^{(2)}$)の非線形性を持つフォトニック集積回路は急速に低電力に拡大している。 このとき、最先端のデバイスは連続波レーザーによって駆動される際に数千個の光子と飽和な非線形相互作用を達成し、超高速パルスによって実現されるこれらのエネルギー要求のさらなる削減は、すぐに非線形光学を単光子非線形性の領域に押し込むかもしれない。 本稿では、超高速非線形フォトニクスにおける最近の展開を概観し、極小光子非線形相互作用を実現するための設計戦略を論じ、古典的振る舞いから極小光子スケールまでスムーズに補間する枠組みを用いて超高速量子非線形光学を統一的に扱うことを提案する。 これらの量子光学用プラットフォームは、多数の結合光学モードのために空洞量子力学の典型的な実現と根本的に異なる。 古典的には、多重モードの挙動は非線形光学においてよく研究されており、ソリトン形成や超連続生成などの有名な例がある。 対照的に、マルチモード量子系はより多様な振る舞いを示すが、閉形式解は古典的解よりもさらにスパースである。 超高速量子光学の枠組みを開発する際には、古典的から量子的デバイスへどのような行動が受け継がれるのか、どんな直観を捨てるべきなのか、超高速および量子非線形光学の交点に新しい機会が存在するのかを識別する。 この記事では、$\chi^{(2)}$ の非線形性を持つデバイスの古典的および量子的挙動の接続を確立することに焦点を当てるが、ここで開発されたフレームワークは一般に、第三次($\chi^{(3)}$)非線形性に基づく動的過程の記述に容易に拡張できる。

Photonic integrated circuits with second-order ($\chi^{(2)}$) nonlinearities are rapidly scaling to remarkably low powers. At this time, state-of-the-art devices achieve saturated nonlinear interactions with thousands of photons when driven by continuous-wave lasers, and further reductions in these energy requirements enabled by the use of ultrafast pulses may soon push nonlinear optics into the realm of single-photon nonlinearities. This tutorial reviews these recent developments in ultrafast nonlinear photonics, discusses design strategies for realizing few-photon nonlinear interactions, and presents a unified treatment of ultrafast quantum nonlinear optics using a framework that smoothly interpolates from classical behaviors to the few-photon scale. These emerging platforms for quantum optics fundamentally differ from typical realizations in cavity quantum electrodynamics due to the large number of coupled optical modes. Classically, multimode behaviors have been well studied in nonlinear optics, with famous examples including soliton formation and supercontinuum generation. In contrast, multimode quantum systems exhibit a far greater variety of behaviors, and yet closed-form solutions are even sparser than their classical counterparts. In developing a framework for ultrafast quantum optics, we will identify what behaviors carry over from classical to quantum devices, what intuition must be abandoned, and what new opportunities exist at the intersection of ultrafast and quantum nonlinear optics. While this article focuses on establishing connections between the classical and quantum behaviors of devices with $\chi^{(2)}$ nonlinearities, the frameworks developed here are general and are readily extended to the description of dynamical processes based on third-order ($\chi^{(3)}$) nonlinearities.
翻訳日:2024-01-18 11:34:22 公開日:2024-01-17
# mobileagent: ヒューマンマシンインタラクションとsop統合によるモバイル制御の強化

MobileAgent: enhancing mobile control via human-machine interaction and SOP integration ( http://arxiv.org/abs/2401.04124v3 )

ライセンス: Link先を確認
Tinghe Ding(参考訳) 大規模言語モデル(LLM)を中心としたエージェントは、ユーザのためのモバイルデバイス操作を自動化することができる。 ユーザのモバイル操作を微調整した後、これらのエージェントはオンラインで高レベルのユーザ指示に従うことができる。 最終目的を達成するまで、目標分解、サブゴールのシークエンシング、インタラクティブな環境探索といったタスクを実行する。 しかし、パーソナライズされたユーザデータに関するプライバシーの懸念は、モバイル操作中に発生し、ユーザ確認を必要とする。 さらに、ユーザの実世界の操作は探索的であり、アクションデータは複雑で冗長であり、エージェント学習の課題となる。 これらの問題に対処するために,我々は,エージェントと人間間の対話的なタスクを設計し,機密情報を識別し,パーソナライズされたユーザニーズに対応する。 さらに,モデルのコンテキスト内学習に標準運用手順(sop)情報を統合し,エージェントの複雑なタスク実行に対する理解を深めた。 提案手法は,アプリケーション操作,Web検索,Webショッピングなど多段階のタスクにまたがる,30万のユニークな命令を含む新しいデバイス制御ベンチマークであるAitWを用いて評価した。 実験の結果,SOPをベースとしたエージェントは,推算コストを伴わずにLLMの最先端性能を実現し,全体の動作成功率は66.92\%であった。 コードとデータのサンプルはhttps://github.com/alipay/mobile-agentで入手できる。

Agents centered around Large Language Models (LLMs) are now capable of automating mobile device operations for users. After fine-tuning to learn a user's mobile operations, these agents can adhere to high-level user instructions online. They execute tasks such as goal decomposition, sequencing of sub-goals, and interactive environmental exploration, until the final objective is achieved. However, privacy concerns related to personalized user data arise during mobile operations, requiring user confirmation. Moreover, users' real-world operations are exploratory, with action data being complex and redundant, posing challenges for agent learning. To address these issues, in our practical application, we have designed interactive tasks between agents and humans to identify sensitive information and align with personalized user needs. Additionally, we integrated Standard Operating Procedure (SOP) information within the model's in-context learning to enhance the agent's comprehension of complex task execution. Our approach is evaluated on the new device control benchmark AitW, which encompasses 30K unique instructions across multi-step tasks, including application operation, web searching, and web shopping. Experimental results show that the SOP-based agent achieves state-of-the-art performance in LLMs without incurring additional inference costs, boasting an overall action success rate of 66.92\%. The code and data examples are available at https://github.com/alipay/mobile-agent.
翻訳日:2024-01-18 11:33:52 公開日:2024-01-17
# ニューラルネットワークを用いた量子場理論のマルチ格子サンプリング

Multi-Lattice Sampling of Quantum Field Theories via Neural Operator-based Flows ( http://arxiv.org/abs/2401.00828v3 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) 我々は、ボルツマン分布から離散体構成をサンプリングする問題を$\phi$, $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theoryとする。 そのような密度は、基礎となる汎函数密度 $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$ の近似として生じるので、演算子学習の例としてタスクをフレーム化する。 特に、時間積分が自由理論 $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]} の函数分布と対象理論 $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]} の写像を与える時間依存作用素 $\mathcal V_t$ を近似することを提案する。 特定の格子が選択されると、作用素 $\mathcal v_t$ は有限次元の時間依存ベクトル場 $v_t$ に離散化され、これは選択された格子上の有限次元分布の間の連続正規化フローを誘導する。 この流れは、離散化された自由理論と対象理論である $[d\phi] z_0^{-1} e^{-s_{0}[\phi]}$, $[d\phi] z^{-1}e^{-s[\phi]}$ の間の二相化として訓練することができる。 このような演算子ベースのフローアーキテクチャが、トレーニングされていない格子サイズにどの程度一般化するかを探索するために、$\phi^4$-theoryで実験を行い、より小さな格子に対する事前トレーニングが、ターゲット格子サイズのみのトレーニングよりも高速になることを示す。

We consider the problem of sampling discrete field configurations $\phi$ from the Boltzmann distribution $[d\phi] Z^{-1} e^{-S[\phi]}$, where $S$ is the lattice-discretization of the continuous Euclidean action $\mathcal S$ of some quantum field theory. Since such densities arise as the approximation of the underlying functional density $[\mathcal D\phi(x)] \mathcal Z^{-1} e^{-\mathcal S[\phi(x)]}$, we frame the task as an instance of operator learning. In particular, we propose to approximate a time-dependent operator $\mathcal V_t$ whose time integral provides a mapping between the functional distributions of the free theory $[\mathcal D\phi(x)] \mathcal Z_0^{-1} e^{-\mathcal S_{0}[\phi(x)]}$ and of the target theory $[\mathcal D\phi(x)]\mathcal Z^{-1}e^{-\mathcal S[\phi(x)]}$. Whenever a particular lattice is chosen, the operator $\mathcal V_t$ can be discretized to a finite dimensional, time-dependent vector field $V_t$ which in turn induces a continuous normalizing flow between finite dimensional distributions over the chosen lattice. This flow can then be trained to be a diffeormorphism between the discretized free and target theories $[d\phi] Z_0^{-1} e^{-S_{0}[\phi]}$, $[d\phi] Z^{-1}e^{-S[\phi]}$. We run experiments on the $\phi^4$-theory to explore to what extent such operator-based flow architectures generalize to lattice sizes they were not trained on and show that pretraining on smaller lattices can lead to speedup over training only a target lattice size.
翻訳日:2024-01-18 11:33:26 公開日:2024-01-17
# Diff-PCR:点クラウド登録のための二重確率行列空間での拡散対応検索

Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration ( http://arxiv.org/abs/2401.00436v4 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang(参考訳) 点雲間の最適な対応を効果的に見つけることは、剛性および非剛性の両方の点雲登録問題を解決するために重要である。 既存の手法はしばしば幾何学的あるいは意味的な特徴の埋め込みに依存して対応を確立し、変換や流れ場を推定する。 近年、最先端の手法ではRAFTライクな反復的更新を用いてソリューションを洗練している。 しかし、これらの方法には一定の制限がある。 第一に、反復的な改善設計は透明性を欠き、反復的な更新は改良プロセス中に固定された経路を辿り、最適以下の結果をもたらす可能性がある。 第二に、これらの手法は変換や流れ場を解く前駆体として対応(あるいはマッチング行列)の精製や最適化の重要性を見落としている。 それらは通常、点特徴空間内の距離に基づいて候補対応を計算する。 しかし、彼らは候補マッチング行列をシンクホーン演算またはデュアルソフトマックス演算で一度だけある行列空間に射影し、最終的な対応を得る。 このワンショット射影マッチング行列はグローバル最適行列とは程遠い可能性があり、これらのアプローチは対象マッチング行列の分布を考慮しない。 本稿では,2次確率行列空間内の最適マッチング行列の探索勾配を予測するために,デノイング拡散モデルを用いた新しい手法を提案する。 逆復調過程において,本手法は,この復調勾配に沿った解を反復的に探索し,ターゲットマッチング行列の最大極性方向を指し示す。 提案手法は,オンラインバックボーンやホワイトノイズによって提供される任意の初期マッチング行列から検索を開始できるようにする。 3DMatch/3DLoMatchと4DMatch/4DLoMatchデータセットの実験的評価により,新たに設計されたフレームワークの有効性が示された。

Efficiently finding optimal correspondences between point clouds is crucial for solving both rigid and non-rigid point cloud registration problems. Existing methods often rely on geometric or semantic feature embedding to establish correspondences and estimate transformations or flow fields. Recently, state-of-the-art methods have employed RAFT-like iterative updates to refine the solution. However, these methods have certain limitations. Firstly, their iterative refinement design lacks transparency, and their iterative updates follow a fixed path during the refinement process, which can lead to suboptimal results. Secondly, these methods overlook the importance of refining or optimizing correspondences (or matching matrices) as a precursor to solving transformations or flow fields. They typically compute candidate correspondences based on distances in the point feature space. However, they only project the candidate matching matrix into some matrix space once with Sinkhorn or dual softmax operations to obtain final correspondences. This one-shot projected matching matrix may be far from the globally optimal one, and these approaches do not consider the distribution of the target matching matrix. In this paper, we propose a novel approach that exploits the Denoising Diffusion Model to predict a searching gradient for the optimal matching matrix within the Doubly Stochastic Matrix Space. During the reverse denoising process, our method iteratively searches for better solutions along this denoising gradient, which points towards the maximum likelihood direction of the target matching matrix. Our method offers flexibility by allowing the search to start from any initial matching matrix provided by the online backbone or white noise. Experimental evaluations on the 3DMatch/3DLoMatch and 4DMatch/4DLoMatch datasets demonstrate the effectiveness of our newly designed framework.
翻訳日:2024-01-18 11:32:39 公開日:2024-01-17
# 探索と利用の分離による効率的強化学習

Efficient Reinforcemen Learning via Decoupling Exploration and Utilization ( http://arxiv.org/abs/2312.15965v3 )

ライセンス: Link先を確認
Jingpu Yang, Qirui Zhao, Helin Wang, Yuxiao Huang, Zirui Song, Miao Fang(参考訳) deep neural network(dnn)の一般化は、既存のデータセットの保守的処理に対する現在のオフライン強化学習技術への過度な依存によって制限される。 この手法は、特定のデータセットにのみ適応する最適でない解に落ち着くアルゴリズムをしばしば生み出す。 同様に、オンライン強化学習において、以前に課せられた懲罰的悲観主義は、その探索可能性のモデルを奪う。 本研究は,OPARL(Optimistic and Pessimistic Actor Reinforcement Learning)の新たな枠組みを提案する。 OPARLは、探索に特化した楽観的なアクターと、利用に焦点を当てた悲観的なアクターと、探索と利用戦略を効果的に区別する、ユニークなデュアルアクターアプローチを採用している。 この強化学習手法の独特な組み合わせは、よりバランスよく効率的なアプローチを促進する。 悲観的な利用戦略を通じて高い報酬をもたらす行動に焦点をあてる政策の最適化を可能にすると同時に、楽観的な探索を通じて広範な国家のカバレッジを確保することができる。 実験と理論的研究は、OPARLが応用と探索のためのエージェントの能力を改善することを示した。 DMControlベンチマークとMujoco環境のほとんどのタスクにおいて、OPARLは最先端の手法よりも優れている。 私たちのコードはhttps://github.com/yydsok/OPARLでリリースされました。

Deep neural network(DNN) generalization is limited by the over-reliance of current offline reinforcement learning techniques on conservative processing of existing datasets. This method frequently results in algorithms that settle for suboptimal solutions that only adjust to a certain dataset. Similarly, in online reinforcement learning, the previously imposed punitive pessimism also deprives the model of its exploratory potential. Our research proposes a novel framework, Optimistic and Pessimistic Actor Reinforcement Learning (OPARL). OPARL employs a unique dual-actor approach: an optimistic actor dedicated to exploration and a pessimistic actor focused on utilization, thereby effectively differentiating between exploration and utilization strategies. This unique combination in reinforcement learning methods fosters a more balanced and efficient approach. It enables the optimization of policies that focus on actions yielding high rewards through pessimistic utilization strategies, while also ensuring extensive state coverage via optimistic exploration. Experiments and theoretical study demonstrates OPARL improves agents' capacities for application and exploration. In the most tasks of DMControl benchmark and Mujoco environment, OPARL performed better than state-of-the-art methods. Our code has released on https://github.com/yydsok/OPARL
翻訳日:2024-01-18 11:32:10 公開日:2024-01-17
# CLadder: 言語モデルにおける因果推論の評価

CLadder: Assessing Causal Reasoning in Language Models ( http://arxiv.org/abs/2312.04350v3 )

ライセンス: Link先を確認
Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 因果推論を行う能力は、インテリジェンスの中核的な特徴であると考えられている。 本研究では,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。 自然言語処理(nlp)における既存の研究の多くは、llmにおける共通意味因果推論の評価に焦点を当てているため、モデルが明確に定義された形式規則のセットに従って因果推論を行うことができるかどうかの評価に失敗している。 そこで我々は,judea pearlらによって提唱された"causal inference engine"に触発された自然言語における因果推論という新しいnlpタスクを提案する。 因果グラフとクエリ(連想グラフ、介入グラフ、反事実グラフ)のコレクションに基づいて、10Kのサンプルを用いて大規模なデータセットCLadderを構成する。 これらは自然言語に翻訳される。 我々はデータセット上で複数のLCMを評価し,提案手法であるCausalCoTの導入と評価を行った。 LLMの因果推論能力についてより深い知見を得るため,本研究の課題は LLM にとって極めて困難であることを示す。 私たちのデータはhttps://huggingface.co/datasets/causalNLP/cladderでオープンソース化されています。

The ability to perform causal reasoning is widely considered a core feature of intelligence. In this work, we investigate whether large language models (LLMs) can coherently reason about causality. Much of the existing work in natural language processing (NLP) focuses on evaluating commonsense causal reasoning in LLMs, thus failing to assess whether a model can perform causal inference in accordance with a set of well-defined formal rules. To address this, we propose a new NLP task, causal inference in natural language, inspired by the "causal inference engine" postulated by Judea Pearl et al. We compose a large dataset, CLadder, with 10K samples: based on a collection of causal graphs and queries (associational, interventional, and counterfactual), we obtain symbolic questions and ground-truth answers, through an oracle causal inference engine. These are then translated into natural language. We evaluate multiple LLMs on our dataset, and we introduce and evaluate a bespoke chain-of-thought prompting strategy, CausalCoT. We show that our task is highly challenging for LLMs, and we conduct an in-depth analysis to gain deeper insights into the causal reasoning abilities of LLMs. Our data is open-sourced at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found at https://github.com/causalNLP/cladder.
翻訳日:2024-01-18 11:31:53 公開日:2024-01-17
# 電力系統における動的故障特性評価

Dynamic Fault Characteristics Evaluation in Power Grid ( http://arxiv.org/abs/2311.16522v3 )

ライセンス: Link先を確認
Hao Pei, Si Lin, Chuanfu Li, Che Wang, Haoming Chen, Sizhe Li(参考訳) 運転・保守におけるインテリジェンス度を高めるため,電力系統における故障検出手法を提案する。 提案手法は,まず,ナレッジグラフを結合した特徴抽出手法を用いて障害ノードを識別する。 時間データを組み込むことで、前および後続のノードの状態を利用して、現在の故障検出を支援する。 ノード特性の有効性を検証するために,各ノードからの出力特性の相関解析を行った。 実験の結果,本手法は予測精度の高いシミュレーションシナリオにおいて,故障ノードを正確に検出できることがわかった。 さらに、グラフニューラルネットワークに基づく機能モデリングは、障害がノードにどのように広がるかの質的検証を可能にし、障害ノードの分析に有用な洞察を提供する。

To enhance the intelligence degree in operation and maintenance, a novel method for fault detection in power grids is proposed. The proposed GNN-based approach first identifies fault nodes through a specialized feature extraction method coupled with a knowledge graph. By incorporating temporal data, the method leverages the status of nodes from preceding and subsequent time periods to help current fault detection. To validate the effectiveness of the node features, a correlation analysis of the output features from each node was conducted. The results from experiments show that this method can accurately locate fault nodes in simulation scenarios with a remarkable accuracy. Additionally, the graph neural network based feature modeling allows for a qualitative examination of how faults spread across nodes, which provides valuable insights for analyzing fault nodes.
翻訳日:2024-01-18 11:31:28 公開日:2024-01-17
# 知識グラフに基づく変電所の動的故障解析

Dynamic Fault Analysis in Substations Based on Knowledge Graphs ( http://arxiv.org/abs/2311.13708v3 )

ライセンス: Link先を確認
Weiwei Li, Xing Liu, Wei Wang, Lu Chen, Sizhe Li, Hui Fan(参考訳) 未構造化テキストからサブステーションの隠れ危険を特定することの課題に対処するために,新しい動的解析手法を提案する。 まず、構造化されていないテキストから関連情報を抽出し、Elastic-Search上に構築された柔軟な分散検索エンジンを利用してデータを処理する。 その後、エンジン内のデータをトレーニングするために隠れマルコフモデルが使用される。 viterbiアルゴリズムは隠れた状態シーケンスを解読するために統合され、隠れた危険に関連するエンティティのセグメンテーションとラベル付けが容易になる。 最後のステップでは、neo4jグラフデータベースを使用して、変電所内の隠れた危険を可視化するナレッジグラフを動的に作成する。 提案手法の有効性は,テキスト記録に隠れた危険のある特定の変電所からのケース解析によって実証される。

To address the challenge of identifying hidden danger in substations from unstructured text, a novel dynamic analysis method is proposed. We first extract relevant information from the unstructured text, and then leverages a flexible distributed search engine built on Elastic-Search to handle the data. Following this, the hidden Markov model is employed to train the data within the engine. The Viterbi algorithm is integrated to decipher the hidden state sequences, facilitating the segmentation and labeling of entities related to hidden dangers. The final step involves using the Neo4j graph database to dynamically create a knowledge graph that visualizes hidden dangers in the substation. The effectiveness of the proposed method is demonstrated through a case analysis from a specific substation with hidden dangers revealed in the text records.
翻訳日:2024-01-18 11:31:16 公開日:2024-01-17
# 赤外線小ターゲット検出用変圧器を用いた高密度ネスト注意ネットワークの改良

Improved Dense Nested Attention Network Based on Transformer for Infrared Small Target Detection ( http://arxiv.org/abs/2311.08747v3 )

ライセンス: Link先を確認
Chun Bao, Jie Cao, Yaqian Ning, Tianhua Zhao, Zhijun Li, Zechen Wang, Li Zhang, and Qun Hao(参考訳) ディープラーニングに基づく赤外線小目標検出は、小目標を複雑でダイナミックな背景から分離するユニークな利点を提供する。 しかし、畳み込みニューラルネットワーク(CNN)の深さが増加するにつれて、赤外線小ターゲットの特徴は徐々に弱まる。 そこで本研究では,このトランスフォーマアーキテクチャに基づく高密度ネストアテンションネットワーク (IDNANet) と呼ばれる赤外線小ターゲット検出手法を提案する。 我々は,高密度ネステッドアテンションネットワーク(DNANet)の高密度ネスト構造を保持し,特徴抽出段階においてスウィン変換器を導入し,特徴の連続性を高める。 さらに,acmixアテンション構造を密集したネスト構造に統合し,中間層の特徴を高める。 さらに,重み付きダイス二元クロスエントロピー(wd-bce)損失関数の設計を行い,試料中の前後不均衡の負の影響を緩和した。 さらに、BIT-SIRSTと呼ばれる、赤外線小ターゲット専用のデータセットを開発する。 データセットには、大量の現実世界のターゲットと手動で注釈付けされたラベル、合成データと対応するラベルが含まれている。 提案手法の有効性を,公開データセットを用いた実験により評価した。 他の最先端手法と比較して、我々の手法は検出の確率(P_d$)、偽アラームレート(F_a$)、および結合の平均交わり(mIoU$)において優れています。 mIoU$ は NUDT-SIRST データセットで 90.89 %、SIRST データセットで 79.72 % に達する。 BIT-SIRSTデータセットとコードは、 \href{https://github.com/EdwardBao1006/bit\_sirst}{\color[HTML]{B22222}{https://github.com/EdwardBao1006/bit\_sirst}}で公開されている。

Infrared small target detection based on deep learning offers unique advantages in separating small targets from complex and dynamic backgrounds. However, the features of infrared small targets gradually weaken as the depth of convolutional neural network (CNN) increases. To address this issue, we propose a novel method for detecting infrared small targets called improved dense nested attention network (IDNANet), which is based on the transformer architecture. We preserve the dense nested structure of dense nested attention network (DNANet) and introduce the Swin-transformer during feature extraction stage to enhance the continuity of features. Furthermore, we integrate the ACmix attention structure into the dense nested structure to enhance the features of intermediate layers. Additionally, we design a weighted dice binary cross-entropy (WD-BCE) loss function to mitigate the negative impact of foreground-background imbalance in the samples. Moreover, we develop a dataset specifically for infrared small targets, called BIT-SIRST. The dataset comprises a significant amount of real-world targets and manually annotated labels, as well as synthetic data and corresponding labels. We have evaluated the effectiveness of our method through experiments conducted on public datasets. In comparison to other state-of-the-art methods, our approach outperforms in terms of probability of detection ($P_d$), false-alarm rate ($F_a$), and mean intersection of union ($mIoU$). The $mIoU$ reaches 90.89\% on the NUDT-SIRST dataset and 79.72\% on the SIRST dataset. The BIT-SIRST dataset and codes are available openly at \href{https://github.com/EdwardBao1006/bit\_sirst}{\color[HTML]{B22222}{https://github.com/EdwardBao1006/bit\_sirst}}.
翻訳日:2024-01-18 11:31:05 公開日:2024-01-17
# コントラストモーションクラスタリングによるオンライン教師なしビデオオブジェクトセグメンテーション

Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering ( http://arxiv.org/abs/2306.12048v3 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, Zhengguo Li(参考訳) オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。 主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。 本研究では、オンラインUVOSに対して、同じ動きパターンを持つ場合、視覚的要素が群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラスト型モーションクラスタリングアルゴリズムを提案する。 移動パターンの非学習可能な原型的ベースを反復的に要約するために,単純かつ効果的なオートエンコーダを構築し,そのベースが組込みネットワークの表現を学ぶのに役立つ。 さらに、境界事前に基づくコントラスト学習戦略を開発し、表現学習段階における前景と背景特徴の識別を改善する。 提案アルゴリズムは任意のスケールのデータ、すなわちフレーム、クリップ、データセットに最適化され、オンライン形式で実行される。 $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, $\textit{SegTrackV2}$データセットでの実験では、我々のメソッドの精度が、それぞれ0.8%、2.9%、および1.1%の差で、以前の最先端(SoTA)オンラインUVOSメソッドを上回っていることが示されている。 さらに,オンラインの深層空間クラスタリングを用いてモーショングルーピングに取り組み,SoTAのオンラインUVOS法と比較して3/times$高速な推定時間を実現し,有効性と効率の良好なトレードオフを実現する。 私たちのコードはhttps://github.com/xilin1991/clusternetで利用可能です。

Online unsupervised video object segmentation (UVOS) uses the previous frames as its input to automatically separate the primary object(s) from a streaming video without using any further manual annotation. A major challenge is that the model has no access to the future and must rely solely on the history, i.e., the segmentation mask is predicted from the current frame as soon as it is captured. In this work, a novel contrastive motion clustering algorithm with an optical flow as its input is proposed for the online UVOS by exploiting the common fate principle that visual elements tend to be perceived as a group if they possess the same motion pattern. We build a simple and effective auto-encoder to iteratively summarize non-learnable prototypical bases for the motion pattern, while the bases in turn help learn the representation of the embedding network. Further, a contrastive learning strategy based on a boundary prior is developed to improve foreground and background feature discrimination in the representation learning stage. The proposed algorithm can be optimized on arbitrarily-scale data i.e., frame, clip, dataset) and performed in an online fashion. Experiments on $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, and $\textit{SegTrackV2}$ datasets show that the accuracy of our method surpasses the previous state-of-the-art (SoTA) online UVOS method by a margin of 0.8%, 2.9%, and 1.1%, respectively. Furthermore, by using an online deep subspace clustering to tackle the motion grouping, our method is able to achieve higher accuracy at $3\times$ faster inference time compared to SoTA online UVOS method, and making a good trade-off between effectiveness and efficiency. Our code is available at https://github.com/xilin1991/ClusterNet.
翻訳日:2024-01-18 11:30:33 公開日:2024-01-17
# 実験用混合モデル推論の高速化のための層間エキスパート親和性

Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference ( http://arxiv.org/abs/2401.08383v2 )

ライセンス: Link先を確認
Jinghan Yao, Quentin Anthony, Aamir Shafi, Hari Subramoni, Dhabaleswar K. (DK) Panda(参考訳) Generative Pre-trained Transformerのような大規模言語モデルでは、Mixture of Expertsパラダイムがモデル表現性と精度を高める強力なテクニックとして登場した。 しかし、分散システム上の並列推論のためのGPT MoEモデルをデプロイすることは、主にエキスパートのルーティングとアグリゲーションに必要なAlltoall通信が広範なため、大きな課題となる。 この通信ボトルネックは、既に複雑な計算環境を悪化させ、高性能コンピューティングリソースの効率的な利用を妨げる。 本稿では,これらのMoEモデルの推論を大幅に高速化する,ExFlowと呼ばれる軽量な最適化手法を提案する。 我々は、層間の専門家親和性を利用して通信オーバーヘッドを軽減する新しい視点を採っている。 従来の方法とは異なり,本手法は微調整や精度劣化を伴わずに,事前学習したMoEモデルに直接適用することができる。 分散システムにコンテキストコヒーレントな専門家並列性を提案することで、我々の設計では、1つのAlltoall通信のみを使用して同じ機能を提供する一方、以前のメソッドはすべて2つのAlltoallが必要です。 複数の層にまたがるトークンのルーティングにおける条件付き確率を慎重に調べることで、事前学習したGPT MoEモデルが強い層間専門家親和性を示すことを示した。 次に、これらの特徴を捉えるために効率的な整数プログラミングモデルを設計し、対応するGPUに専門家を適切に配置することで、最大67%のクロスGPUルーティングレイテンシを削減できることを示す。 我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。 さらに,このモデルが極めて初期のトレーニング段階において,暗黙的にこのエキスパート親和性を獲得する方法と,その親和性がトレーニング中にどのように発展し安定化するかについて,詳細な研究を行った。

In large language models like the Generative Pre-trained Transformer, the Mixture of Experts paradigm has emerged as a powerful technique for enhancing model expressiveness and accuracy. However, deploying GPT MoE models for parallel inference on distributed systems presents significant challenges, primarily due to the extensive Alltoall communication required for expert routing and aggregation. This communication bottleneck exacerbates the already complex computational landscape, hindering the efficient utilization of high-performance computing resources. In this paper, we propose a lightweight optimization technique called ExFlow, to largely accelerate the inference of these MoE models. We take a new perspective on alleviating the communication overhead by exploiting the inter-layer expert affinity. Unlike previous methods, our solution can be directly applied to pre-trained MoE models without any fine-tuning or accuracy degradation. By proposing a context-coherent expert parallelism on distributed systems, our design only uses one Alltoall communication to deliver the same functionality while previous methods all require two Alltoalls. By carefully examining the conditional probability in tokens' routing across multiple layers, we proved that pre-trained GPT MoE models implicitly exhibit a strong inter-layer expert affinity. We then design an efficient integer programming model to capture such features and show that by properly placing the experts on corresponding GPUs, we can reduce up to 67% cross-GPU routing latency. Our solution beats the cutting-edge MoE implementations with experts from 8 to 64, with up to 2.2x improvement in inference throughput. We further provide a detailed study of how the model implicitly acquires this expert affinity at the very early training stage and how this affinity evolves and stabilizes during training.
翻訳日:2024-01-18 11:16:15 公開日:2024-01-17
# Salute the Classic: 大規模言語モデルの時代における機械翻訳の課題の再考

Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models ( http://arxiv.org/abs/2401.08350v2 )

ライセンス: Link先を確認
Jianhui Pang, Fanghua Ye, Longyue Wang, Dian Yu, Derek F. Wong, Shuming Shi, Zhaopeng Tu(参考訳) ニューラルネットワーク翻訳(NMT)の進化は、6つのコア課題(KoehnとKnowles, 2017)の影響を受けており、この分野の進歩のベンチマークとして機能している。 本研究はこれらの課題を再考し、ドメインミスマッチ、並列データの量、希少な単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、および準最適ビーム探索といった、先進的な大規模言語モデル(LLM)の文脈におけるそれらの関連性についての洞察を提供する。 実験の結果,LLMは事前学習段階における主要言語への並列データへの依存を効果的に軽減することが示された。 さらに,LLMに基づく翻訳システムにより,約80語を含む長文の翻訳が大幅に向上し,最大512語までの文書翻訳が可能となった。 しかし、これらの大きな改善にもかかわらず、ドメインミスマッチとレアワードの予測の課題は続いている。 単語アライメントとビーム探索の課題は、特にnmtに関連づけられるが、翻訳タスクにおけるllmの新たな課題は、推論効率、事前学習段階における低リソース言語の翻訳、人間によるアライメント評価である。 データセットとモデルはhttps://github.com/pangjh3/LLM4MTで公開される。

The evolution of Neural Machine Translation (NMT) has been significantly influenced by six core challenges (Koehn and Knowles, 2017), which have acted as benchmarks for progress in this field. This study revisits these challenges, offering insights into their ongoing relevance in the context of advanced Large Language Models (LLMs): domain mismatch, amount of parallel data, rare word prediction, translation of long sentences, attention model as word alignment, and sub-optimal beam search. Our empirical findings indicate that LLMs effectively lessen the reliance on parallel data for major languages in the pretraining phase. Additionally, the LLM-based translation system significantly enhances the translation of long sentences that contain approximately 80 words and shows the capability to translate documents of up to 512 words. However, despite these significant improvements, the challenges of domain mismatch and prediction of rare words persist. While the challenges of word alignment and beam search, specifically associated with NMT, may not apply to LLMs, we identify three new challenges for LLMs in translation tasks: inference efficiency, translation of low-resource languages in the pretraining phase, and human-aligned evaluation. The datasets and models are released at https://github.com/pangjh3/LLM4MT.
翻訳日:2024-01-18 11:15:45 公開日:2024-01-17
# 生成的脱離蒸留:高濃度予測のための効率的な知識伝達を誘導する単純な確率的雑音

Generative Denoise Distillation: Simple Stochastic Noises Induce Efficient Knowledge Transfer for Dense Prediction ( http://arxiv.org/abs/2401.08332v2 )

ライセンス: Link先を確認
Zhaoge Liu, Xiaohao Xu, Yunkang Cao, Weiming Shen(参考訳) 知識蒸留は、より強力な大きなモデル(教師)からより単純なモデル(学生)に知識を伝達する過程である。 現在の多くのアプローチでは、生徒が直接教師の知識を模倣する。 しかし、冗長性は、各空間的位置の特徴を無差別に学習する傾向があるこれらの一般的な方法を通じて、学習された表現の中にまだ存在する。 教師からよりコンパクトな表現(概念的特徴)を導き、人間の認知に触発されて、学習者の概念に確率的ノイズを加えて浅層ネットワークから生成されたインスタンス特徴に組み込むという、GDD(Generative Denoise Distillation)と呼ばれる革新的な手法を提案する。 そして、生成されたインスタンス機能は、教師からのインスタンスの知識と一致します。 提案手法の汎用性と有効性を示すために,オブジェクト検出,インスタンス分割,セマンティクスセグメンテーションを広範囲に実験した。 特に、GDDは上記のタスクで新しい最先端のパフォーマンスを達成する。 PspNetとDeepLabV3はResNet-18をベースとして,それぞれ74.67点,77.69点のmIoUスコアを,Cityscapesの20カテゴリのデータセットで69.85点,73.20点を突破し,セマンティックセグメンテーションの大幅な改善を実現した。 ソースコードはhttps://github.com/ZhgLiu/GDDで入手できる。

Knowledge distillation is the process of transferring knowledge from a more powerful large model (teacher) to a simpler counterpart (student). Numerous current approaches involve the student imitating the knowledge of the teacher directly. However, redundancy still exists in the learned representations through these prevalent methods, which tend to learn each spatial location's features indiscriminately. To derive a more compact representation (concept feature) from the teacher, inspired by human cognition, we suggest an innovative method, termed Generative Denoise Distillation (GDD), where stochastic noises are added to the concept feature of the student to embed them into the generated instance feature from a shallow network. Then, the generated instance feature is aligned with the knowledge of the instance from the teacher. We extensively experiment with object detection, instance segmentation, and semantic segmentation to demonstrate the versatility and effectiveness of our method. Notably, GDD achieves new state-of-the-art performance in the tasks mentioned above. We have achieved substantial improvements in semantic segmentation by enhancing PspNet and DeepLabV3, both of which are based on ResNet-18, resulting in mIoU scores of 74.67 and 77.69, respectively, surpassing their previous scores of 69.85 and 73.20 on the Cityscapes dataset of 20 categories. The source code is available at https://github.com/ZhgLiu/GDD.
翻訳日:2024-01-18 11:15:19 公開日:2024-01-17
# マルチアベル音声セグメンテーションのための説明可能なプロキシモデル

An Explainable Proxy Model for Multiabel Audio Segmentation ( http://arxiv.org/abs/2401.08268v2 )

ライセンス: Link先を確認
Th\'eo Mariotte and Antonio Almud\'evar and Marie Tahon and Alfonso Ortega(参考訳) 音声信号のセグメンテーションは自動音声インデクシングの重要なタスクである。 信号中のクラス均質セグメントの境界を検出することで構成される。 多くのアプリケーションにおいて、説明可能なAIは、機械学習による意思決定の透明性にとって重要なプロセスである。 本稿では、音声活動(SAD)、音楽(MD)、ノイズ(ND)、重複音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。 このプロキシは非負行列分解(NMF)を使用してセグメンテーションに使用される埋め込みを周波数領域にマッピングする。 2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。 具体的には、決定に使用される周波数ビンは、セグメントレベル(ローカル説明)とグローバルレベル(クラスプロトタイプ)の両方で容易に識別できる。

Audio signal segmentation is a key task for automatic audio indexing. It consists of detecting the boundaries of class-homogeneous segments in the signal. In many applications, explainable AI is a vital process for transparency of decision-making with machine learning. In this paper, we propose an explainable multilabel segmentation model that solves speech activity (SAD), music (MD), noise (ND), and overlapped speech detection (OSD) simultaneously. This proxy uses the non-negative matrix factorization (NMF) to map the embedding used for the segmentation to the frequency domain. Experiments conducted on two datasets show similar performances as the pre-trained black box model while showing strong explainability features. Specifically, the frequency bins used for the decision can be easily identified at both the segment level (local explanations) and global level (class prototypes).
翻訳日:2024-01-18 11:14:51 公開日:2024-01-17
# ハイパーグラフによる行列補完:シャープ閾値と効率的なアルゴリズム

Matrix Completion with Hypergraphs:Sharp Thresholds and Efficient Algorithms ( http://arxiv.org/abs/2401.08197v2 )

ライセンス: Link先を確認
Zhongtian Ma, Qiaosheng Zhang and Zhen Wang(参考訳) 本稿では,ソーシャルグラフやハイパーグラフだけでなく,サブサンプル行列のエントリにもとづく評価行列の完成問題を考察する。 評価行列を完全完了させるタスクのサンプル確率に \emph{sharp threshold} が存在することを示す。 サンプル確率がしきい値以上であればそのタスクは達成可能であり、それ以外の場合は不可能である - 位相遷移現象を示す。 閾値はハイパーグラフの `quality'' の関数として表すことができ、ハイパーグラフの利用によるサンプル確率の減少の量を \emph{quantify} することができる。 これはまた、行列補完問題におけるハイパーグラフの有用性を強調する。 シャープしきい値を発見するために,観測されたグラフやハイパーグラフを効果的に活用する計算効率の良い行列補完アルゴリズムを開発した。 理論的解析により,サンプル確率が上記しきい値を超える限り,本アルゴリズムは高い確率で成功し,この理論結果は合成実験によりさらに検証された。 さらに、実際のソーシャルネットワークデータセット(グラフとハイパーグラフの両方)における実験では、アルゴリズムは他の最先端の行列補完アルゴリズムよりも優れています。

This paper considers the problem of completing a rating matrix based on sub-sampled matrix entries as well as observed social graphs and hypergraphs. We show that there exists a \emph{sharp threshold} on the sample probability for the task of exactly completing the rating matrix -- the task is achievable when the sample probability is above the threshold, and is impossible otherwise -- demonstrating a phase transition phenomenon. The threshold can be expressed as a function of the ``quality'' of hypergraphs, enabling us to \emph{quantify} the amount of reduction in sample probability due to the exploitation of hypergraphs. This also highlights the usefulness of hypergraphs in the matrix completion problem. En route to discovering the sharp threshold, we develop a computationally efficient matrix completion algorithm that effectively exploits the observed graphs and hypergraphs. Theoretical analyses show that our algorithm succeeds with high probability as long as the sample probability exceeds the aforementioned threshold, and this theoretical result is further validated by synthetic experiments. Moreover, our experiments on a real social network dataset (with both graphs and hypergraphs) show that our algorithm outperforms other state-of-the-art matrix completion algorithms.
翻訳日:2024-01-18 11:14:38 公開日:2024-01-17
# ROI重み付き歪みとビットアロケーションによる学習画像圧縮

Learned Image Compression with ROI-Weighted Distortion and Bit Allocation ( http://arxiv.org/abs/2401.08154v2 )

ライセンス: Link先を確認
Wei Jiang, Yongqi Zhai, Hangyu Li, Ronggang Wang(参考訳) 本稿では,画像圧縮の追跡方法について述べる。 より優れた知覚品質を実現するために,現実的なテクスチャを生成するために対向損失を用い,関心領域(ROI)マスクを用いて異なる領域のビット割り当てを誘導する。 私たちのチーム名はTLICです。

This one page paper describes our method for the track of image compression. To achieve better perceptual quality, we use the adversarial loss to generate realistic textures, use region of interest (ROI) mask to guide the bit allocation for different regions. Our Team name is TLIC.
翻訳日:2024-01-18 11:14:19 公開日:2024-01-17
# トランスフォーマーにおけるアルゴリズムの伝達

Carrying over algorithm in transformers ( http://arxiv.org/abs/2401.07993v2 )

ライセンス: Link先を確認
Jorrit Kruthoff(参考訳) 加算はおそらく最も単純な算術的タスクの1つであり、通常、キャッシングオーバーアルゴリズムを用いて実行される。 このアルゴリズムは2つのタスクから成り、同じ位置に数字を追加し、必要に応じて1つの数字を運ぶ。 本研究では、トランスモデルがこのアルゴリズムをどのように実装し、上記の2つのタスクをネットワークの異なる部分に割り当てるかを検討する。 まず,2層エンコーダのみのモデルに注目し,乗換アルゴリズムがモジュール方式で実装されていることを示す。 第1層は、主に同じ位置に数字を追加する責任がある。 第2の層は、まず、どの位置が搬送されるかに注意して決定し、次に最終MLPで搬送する。 我々は、そのタスクにどのニューロンが責任を持つのかを正確に識別する簡単な方法を提供する。 このキャリングオーバーアルゴリズムの実装は、2つのハイパーパラメーターと3層のモデルの範囲にわたって行われる。 小型デコーダのみのモデルでは、同じ実装を観察し、3つの7B大言語モデルにその存在を示唆する証拠を提供する。

Addition is perhaps one of the simplest arithmetic tasks one can think of and is usually performed using the carrying over algorithm. This algorithm consists of two tasks: adding digits in the same position and carrying over a one whenever necessary. We study how transformer models implement this algorithm and how the two aforementioned tasks are allocated to different parts of the network. We first focus on two-layer encoder-only models and show that the carrying over algorithm is implemented in a modular fashion. The first layer is mostly responsible for adding digits in the same position. The second layer first decides, in the attention, which positions need a carried one or not, and then performs the carrying of the one in the final MLP. We provide a simple way of precisely identifying which neurons are responsible for that task. This implementation of the carrying over algorithm occurs across a range of hyperparameters for two as well as three-layer models. For small decoder-only models, we observe the same implementation and provide suggestive evidence for its existence in three 7B large language models.
翻訳日:2024-01-18 11:14:13 公開日:2024-01-17
# 人工知能を用いた血管組織における表現型石灰化

Phenotyping calcification in vascular tissues using artificial intelligence ( http://arxiv.org/abs/2401.07825v2 )

ライセンス: Link先を確認
Mehdi Ramezanpour, Anne M. Robertson, Yasutaka Tobe, Xiaowei Jia, Juan R. Cebral(参考訳) 血管石灰化は、心臓発作や脳卒中を含む大血管障害(MACE)において重要な要因である。 血管石灰化の多様な形態を臨床リスク評価ツールに統合する方法については議論が続いている。 冠状動脈のカルシウムスコアは、全石灰化と正の相関を仮定するが、これは重要な矛盾点である。 多様な石灰化表現型によってリスクがどのように影響を受けるかを決定するには、基本的な研究が必要である。 しかし,画像データセットの石灰化を分類するための高スループット,客観的,非破壊的なツールが欠如していることから,これらの研究は妨げられている。 本稿では, 半自動的非破壊的パイプラインを用いて, 動脈硬化組織においてもこれらの表現型を識別する新しい分類システムを提案する。 このパイプラインには、ノイズの多いマイクロCTイメージで脂質プールをセグメント化するディープラーニングベースのフレームワークと、サイズ、クラスタリング、トポロジーに基づいて石灰化を分類する教師なしクラスタリングフレームワークが含まれている。 このアプローチは5つの血管標本に対して説明され、数千の石灰化粒子を7時間以内で3200枚の画像に表現できる。 組織および脂質プールの平均サイコロ類似度係数は 0.96 と 0.87 であり, 組織内の異種性が高いにもかかわらず, 13 枚の画像でトレーニングと検証が必要であった。 表現型石灰化の効率的かつ包括的なアプローチを導入することで、大規模な研究により、心臓血管系イベントのリスクのより信頼性の高い指標が特定できる。

Vascular calcification is implicated as an important factor in major adverse cardiovascular events (MACE), including heart attack and stroke. A controversy remains over how to integrate the diverse forms of vascular calcification into clinical risk assessment tools. Even the commonly used calcium score for coronary arteries, which assumes risk scales positively with total calcification, has important inconsistencies. Fundamental studies are needed to determine how risk is influenced by the diverse calcification phenotypes. However, studies of these kinds are hindered by the lack of high-throughput, objective, and non-destructive tools for classifying calcification in imaging data sets. Here, we introduce a new classification system for phenotyping calcification along with a semi-automated, non-destructive pipeline that can distinguish these phenotypes in even atherosclerotic tissues. The pipeline includes a deep-learning-based framework for segmenting lipid pools in noisy micro-CT images and an unsupervised clustering framework for categorizing calcification based on size, clustering, and topology. This approach is illustrated for five vascular specimens, providing phenotyping for thousands of calcification particles across as many as 3200 images in less than seven hours. Average Dice Similarity Coefficients of 0.96 and 0.87 could be achieved for tissue and lipid pool, respectively, with training and validation needed on only 13 images despite the high heterogeneity in these tissues. By introducing an efficient and comprehensive approach to phenotyping calcification, this work enables large-scale studies to identify a more reliable indicator of the risk of cardiovascular events, a leading cause of global mortality and morbidity.
翻訳日:2024-01-18 11:13:55 公開日:2024-01-17
# トリガーリコメンデーションにおけるCTR予測のための深部進化的インスタントネットワーク

Deep Evolutional Instant Interest Network for CTR Prediction in Trigger-Induced Recommendation ( http://arxiv.org/abs/2401.07769v2 )

ライセンス: Link先を確認
Zhibo Xiao, Luwei Yang, Tao Zhang, Wen Jiang, Wei Ning and Yujiu Yang(参考訳) この勧告は、eコマース、ストリーミングメディア、ソーシャルメディアなど、多くの業界で重要な役割を果たしている。 最近、トリガーによるリコメンデーション(tir)と呼ばれる新しいレコメンデーションシナリオが、ユーザーがトリガーアイテムを通じて即座に興味を表現できるようになり、alibaba.comやamazonなど、多くのeコマースプラットフォームにおいて重要な役割を担っている。 ユーザの興味を明示的にモデル化せずに、従来のレコメンデーションメソッドは通常、TIRで準最適結果を得る。 この問題を解決するためにトリガーとターゲットアイテムを同時に検討する手法はいくつかあるが、ユーザ行動の時間的情報、ユーザがスクロールダウンした際のユーザの瞬間的関心の変化、トリガーとターゲットアイテム間の相互作用を考慮に入れていない。 これらの問題に対処するために、TIRシナリオにおけるクリックスルーレート予測のための新しい手法、Deep Evolutional Instant Interest Network (DEI2N)を提案する。 具体的には,ユーザがスクロールダウンした瞬間関心の強度の動的変化を予測するために,ユーザインスタント関心モデリング層を設計する。 時間情報はユーザ行動モデリングに利用される。 さらに、トリガーとターゲットアイテム間のインタラクションを改善するために、Interaction Layerが導入された。 本手法を複数のオフラインおよび実世界の産業データセットで評価する。 実験の結果,提案したDEI2Nは最先端のベースラインよりも優れていた。 さらに、オンラインA/Bテストは、実運用環境における既存のベースラインよりも優れていることを示す。

The recommendation has been playing a key role in many industries, e.g., e-commerce, streaming media, social media, etc. Recently, a new recommendation scenario, called Trigger-Induced Recommendation (TIR), where users are able to explicitly express their instant interests via trigger items, is emerging as an essential role in many e-commerce platforms, e.g., Alibaba.com and Amazon. Without explicitly modeling the user's instant interest, traditional recommendation methods usually obtain sub-optimal results in TIR. Even though there are a few methods considering the trigger and target items simultaneously to solve this problem, they still haven't taken into account temporal information of user behaviors, the dynamic change of user instant interest when the user scrolls down and the interactions between the trigger and target items. To tackle these problems, we propose a novel method -- Deep Evolutional Instant Interest Network (DEI2N), for click-through rate prediction in TIR scenarios. Specifically, we design a User Instant Interest Modeling Layer to predict the dynamic change of the intensity of instant interest when the user scrolls down. Temporal information is utilized in user behavior modeling. Moreover, an Interaction Layer is introduced to learn better interactions between the trigger and target items. We evaluate our method on several offline and real-world industrial datasets. Experimental results show that our proposed DEI2N outperforms state-of-the-art baselines. In addition, online A/B testing demonstrates the superiority over the existing baseline in real-world production environments.
翻訳日:2024-01-18 11:13:27 公開日:2024-01-17
# CLSA-CIM: 計算メモリアーキテクチャのためのクロスレイヤスケジューリング手法

CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures ( http://arxiv.org/abs/2401.07671v2 )

ライセンス: Link先を確認
Rebecca Pelke, Jose Cubero-Cascante, Nils Bosbach, Felix Staudigl, Rainer Leupers, Jan Moritz Joseph(参考訳) 機械学習(ML)アクセラレーターの需要は急速に増加しており、抵抗ランダムアクセスメモリ(RRAM)ベースのタイル型コンピューティングインメモリ(CIM)アーキテクチャのような新しいコンピューティング概念が発展しつつある。 CIMはメモリユニット内での計算を可能にし、高速なデータ処理と消費電力削減を実現している。 効率的なコンパイラアルゴリズムは、タイル付きCIMアーキテクチャの可能性を活用するために不可欠である。 従来のMLコンパイラはCPU、GPU、フォン・ノイマンアーキテクチャのコード生成に重点を置いているが、CIMアーキテクチャをカバーするには適応が必要である。 CIMコアの利用が促進され、計算が高速化されるため、層間スケジューリングは有望なアプローチである。 同様の概念は以前の研究で暗黙的に使われているが、タイル付きCIMアーキテクチャの層間スケジューリングには明確で定量的なアルゴリズム定義がない。 このギャップを埋めるために,CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMを既存の重み付け戦略と統合し、最先端(SOTA)スケジューリングアルゴリズムと比較する。 CLSA-CIMは最大17.9倍の性能向上を実現し、SOTAと比較して総速度は29.2倍に向上した。

The demand for efficient machine learning (ML) accelerators is growing rapidly, driving the development of novel computing concepts such as resistive random access memory (RRAM)-based tiled computing-in-memory (CIM) architectures. CIM allows to compute within the memory unit, resulting in faster data processing and reduced power consumption. Efficient compiler algorithms are essential to exploit the potential of tiled CIM architectures. While conventional ML compilers focus on code generation for CPUs, GPUs, and other von Neumann architectures, adaptations are needed to cover CIM architectures. Cross-layer scheduling is a promising approach, as it enhances the utilization of CIM cores, thereby accelerating computations. Although similar concepts are implicitly used in previous work, there is a lack of clear and quantifiable algorithmic definitions for cross-layer scheduling for tiled CIM architectures. To close this gap, we present CLSA-CIM, a cross-layer scheduling algorithm for tiled CIM architectures. We integrate CLSA-CIM with existing weight-mapping strategies and compare performance against state-of-the-art (SOTA) scheduling algorithms. CLSA-CIM improves the utilization by up to 17.9 x , resulting in an overall speedup increase of up to 29.2 x compared to SOTA.
翻訳日:2024-01-18 11:12:31 公開日:2024-01-17
# E3x: $\mathrm{E}(3)$-Equivariant Deep Learning が簡単になった

E3x: $\mathrm{E}(3)$-Equivariant Deep Learning Made Easy ( http://arxiv.org/abs/2401.07595v2 )

ライセンス: Link先を確認
Oliver T. Unke and Hartmut Maennel(参考訳) この研究は、ユークリッド群$\mathrm{E}(3)$に対して同値なニューラルネットワークを構築するためのソフトウェアパッケージであるE3xを導入し、三次元空間の変換、回転、反射からなる。 通常のニューラルネットワークと比較して、$\mathrm{E}(3)$-equivariantモデルは、入力および/または出力データが三次元オブジェクトに関連付けられた量であるときに利益を約束する。 これは、そのような量の数値(例えば位置)が選択された座標系に依存するためである。 参照フレームの変換では、値が予測的に変化するが、基礎となるルールを通常の機械学習モデルで学ぶのは困難である。 組み込みの$\mathrm{E}(3)$-equivarianceでは、ニューラルネットワークは関連する変換規則を正確に満たすことが保証され、データ効率と精度が向上する。 E3xのコードはhttps://github.com/google-research/e3xから入手できる。

This work introduces E3x, a software package for building neural networks that are equivariant with respect to the Euclidean group $\mathrm{E}(3)$, consisting of translations, rotations, and reflections of three-dimensional space. Compared to ordinary neural networks, $\mathrm{E}(3)$-equivariant models promise benefits whenever input and/or output data are quantities associated with three-dimensional objects. This is because the numeric values of such quantities (e.g. positions) typically depend on the chosen coordinate system. Under transformations of the reference frame, the values change predictably, but the underlying rules can be difficult to learn for ordinary machine learning models. With built-in $\mathrm{E}(3)$-equivariance, neural networks are guaranteed to satisfy the relevant transformation rules exactly, resulting in superior data efficiency and accuracy. The code for E3x is available from https://github.com/google-research/e3x, detailed documentation and usage examples can be found on https://e3x.readthedocs.io.
翻訳日:2024-01-18 11:11:45 公開日:2024-01-17
# unseen: ノイズによるコンテキスト一貫性のある知識教育

See the Unseen: Better Context-Consistent Knowledge-Editing by Noises ( http://arxiv.org/abs/2401.07544v2 )

ライセンス: Link先を確認
Youcheng Huang, Wenqiang Lei, Zheng Zhang, Jiancheng Lv, Shuicheng Yan(参考訳) 知識編集は、大きな言語モデル(LLM)の知識を更新し、LLMの解釈可能性と応用に寄与する。 しかし、知識適用は文脈整合である: LLMは異なる文脈で同じ知識を思い出すことができる。 既存の作業はこの特性を無視し、編集には一般化が欠けている。 本稿では,異なる文脈が同じ知識を想起するLLMに与える影響がガウス的な分布に従うことを実証的に見出した。 次に,LLMの更新時に異なる文脈の影響をシミュレートするためにガウス雑音をサンプリングする。 これにより、編集された知識が適用される未認識のコンテキストをllmで見ることができるため、編集の一般化が改善される。 3つのLCM実験結果から,本手法の有効性を実証し,ノイズによる微調整LSMの他の方法と区別した。

Knowledge-editing updates knowledge of large language models (LLMs) and contributes to the interpretability and application of LLMs. However, knowledge applying is context-consistent: LLMs can recall the same knowledge in different contexts. Existing works ignore this property and the editing lacks generalization. In this paper, we empirically find that the effects of different contexts upon LLMs in recalling the same knowledge follow a Gaussian-like distribution. We then sample Gaussian noises to simulate the effects of different contexts when updating LLMs. By such, we can make LLMs see the unseen contexts where the edited knowledge will be applied, therefore improving the editing generalization. Experimental results on three LLMs demonstrate the effectiveness of our methods and also distinguish our methods from the others of fine-tuning LLMs by noises.
翻訳日:2024-01-18 11:11:24 公開日:2024-01-17
# $\mathcal{pt}$-symmetric量子力学の干渉幾何学的位相

Interferometric Geometric Phases of $\mathcal{PT}$-symmetric Quantum Mechanics ( http://arxiv.org/abs/2401.07442v2 )

ライセンス: Link先を確認
Xin Wang, Zheng Zhou, Jia-Chen Tang, Xu-Yang Hou, Hao Guo, and Chih-Chun Chien(参考訳) 我々は、干渉幾何学的位相 (IGP) のアプローチに基づいて、$\mathcal{PT}$-symmetric quantum mechanics (PTQM) において、幾何学的位相を純粋および熱状態に一般化する。 形式主義はまず量子状態の平行輸送条件を導入し、2つの幾何学的位相、$\theta^1$ と $\theta^2$ を並列輸送状態に従ってPTQMの純粋状態に対して明らかにする。 ptqm の非エルミートハミルトニアンのため、$\theta^1$ は複素であり、$\theta^2$ はその実部分である。 IGP を PTQM の熱状態に一般化する場合、$\theta^1$ の虚部は重要な役割を果たす。 一般化されたIGPは熱状態の熱分布を変化させ、有効温度を導入する。 ある臨界点において、一般化されたIGPは有限温度で離散的なジャンプを示し、幾何学的な位相遷移を示す。 PTQMの有限温度幾何相転移を2レベルシステムで実証し,その結果を可視化する。

We present a generalization of the geometric phase to pure and thermal states in $\mathcal{PT}$-symmetric quantum mechanics (PTQM) based on the approach of the interferometric geometric phase (IGP). The formalism first introduces the parallel-transport conditions of quantum states and reveals two geometric phases, $\theta^1$ and $\theta^2$, for pure states in PTQM according to the states under parallel-transport. Due to the non-Hermitian Hamiltonian in PTQM, $\theta^1$ is complex and $\theta^2$ is its real part. The imaginary part of $\theta^1$ plays an important role when we generalize the IGP to thermal states in PTQM. The generalized IGP modifies the thermal distribution of a thermal state, thereby introducing effective temperatures. At certain critical points, the generalized IGP exhibits discrete jumps at finite temperatures, signaling a geometric phase transition. We demonstrate the finite-temperature geometric phase transition in PTQM by a two-level system and visualize its results.
翻訳日:2024-01-18 11:11:08 公開日:2024-01-17
# 先行知識を用いた非観測変数付き因果加法モデルの発見とその時系列データへの応用

Use of Prior Knowledge to Discover Causal Additive Models with Unobserved Variables and its Application to Time Series Data ( http://arxiv.org/abs/2401.07231v2 )

ライセンス: Link先を確認
Takashi Nicholas Maeda, Shohei Shohei(参考訳) 本稿では,無観測変数 (CAM-UV) を持つ因果加法モデルの2つの手法を提案する。 CAM-UV は、因果関数が一般化加法モデルの形式をとり、潜在的共同設立者が存在すると仮定する。 まず,先行知識を活用した効率的な因果発見手法を提案する。 次に,時系列データの因果関係を推定する手法の拡張を提案する。 元のCAM-UVアルゴリズムは、観測変数間の因果順序を求めるのではなく、観測変数ごとに原因を特定することを目的としているという点で、既存の因果関数モデルとは異なる。 したがって,本論文で最初に提案する手法は,特定の変数が他の変数の原因になり得ないことを理解するなど,事前の知識を活用できる。 さらに,時間的影響に先行する先行知識を組み込むことで,時系列データにおける因果発見のための第1のアルゴリズムを第2の手法に拡張する。 提案手法をシミュレーションデータを用いて検証し,先行知識の蓄積に伴って因果発見の精度が向上することを示す。 さらに, シミュレーションデータと実世界データの両方を用いて, 既存の時系列因果発見法と比較し, 第二の手法を検証した。

This paper proposes two methods for causal additive models with unobserved variables (CAM-UV). CAM-UV assumes that the causal functions take the form of generalized additive models and that latent confounders are present. First, we propose a method that leverages prior knowledge for efficient causal discovery. Then, we propose an extension of this method for inferring causality in time series data. The original CAM-UV algorithm differs from other existing causal function models in that it does not seek the causal order between observed variables, but rather aims to identify the causes for each observed variable. Therefore, the first proposed method in this paper utilizes prior knowledge, such as understanding that certain variables cannot be causes of specific others. Moreover, by incorporating the prior knowledge that causes precedes their effects in time, we extend the first algorithm to the second method for causal discovery in time series data. We validate the first proposed method by using simulated data to demonstrate that the accuracy of causal discovery increases as more prior knowledge is accumulated. Additionally, we test the second proposed method by comparing it with existing time series causal discovery methods, using both simulated data and real-world data.
翻訳日:2024-01-18 11:10:48 公開日:2024-01-17
# IVIM-Morph: 拡散強調MRIによる機能的胎児肺成熟度評価のための運動補償定量ボクセル内不整脈運動(IVIM)解析

IVIM-Morph: Motion-compensated quantitative Intra-voxel Incoherent Motion (IVIM) analysis for functional fetal lung maturity assessment from diffusion-weighted MRI data ( http://arxiv.org/abs/2401.07126v2 )

ライセンス: Link先を確認
Noga Kertes, Yael Zaffrani-Reznikov, Onur Afacan, Sila Kurugol, Simon K. Warfield, Moti Freiman(参考訳) 拡散強調MRI(DWI)データにおける擬似拡散の定量的解析は、胎児の肺成熟度を評価し、貴重な画像バイオマーカーを生成する可能性を示している。 しかし、DWIデータの臨床的有用性は、取得時に避けられない胎児の動きによって妨げられる。 本稿では,IVIMモデルを用いたDWIデータの動作補正定量分析のための自己教師型ディープニューラルネットワークモデルIVIM-morphを提案する。 IVIM-morphは2つのサブネットワーク、登録サブネットワーク、IVIMモデル適合サブネットワークを組み合わせ、IVIMモデルパラメータと動きの同時推定を可能にする。 物理的に妥当な画像登録を促進するために,登録とモデルフィッティング品質を効果的にバランスさせる生体情報損失関数を導入する。 肺のIVIMモデルパラメータと妊娠年齢(GA)との相関を39例の胎児DWIデータを用いて確立し,IVIM形態の有効性を検証した。 ivim-morphは, 胎児肺dwiデータの経時的定量分析により, 妊娠年齢 (ga) との相関が著明に改善した。 IVIM-morphは、DWIデータによる胎児肺成熟度を非侵襲的に評価するための貴重なバイオマーカーの開発の可能性を示している。 さらに、その適応性は、定量的DWI分析に運動補償が不可欠である他の臨床文脈における潜在的な応用への扉を開く。 IVIM-morphのコードは、https://github.com/TechnionComputationalMRILab/qDWI-Morphで入手できる。

Quantitative analysis of pseudo-diffusion in diffusion-weighted magnetic resonance imaging (DWI) data shows potential for assessing fetal lung maturation and generating valuable imaging biomarkers. Yet, the clinical utility of DWI data is hindered by unavoidable fetal motion during acquisition. We present IVIM-morph, a self-supervised deep neural network model for motion-corrected quantitative analysis of DWI data using the Intra-voxel Incoherent Motion (IVIM) model. IVIM-morph combines two sub-networks, a registration sub-network, and an IVIM model fitting sub-network, enabling simultaneous estimation of IVIM model parameters and motion. To promote physically plausible image registration, we introduce a biophysically informed loss function that effectively balances registration and model-fitting quality. We validated the efficacy of IVIM-morph by establishing a correlation between the predicted IVIM model parameters of the lung and gestational age (GA) using fetal DWI data of 39 subjects. IVIM-morph exhibited a notably improved correlation with gestational age (GA) when performing in-vivo quantitative analysis of fetal lung DWI data during the canalicular phase. IVIM-morph shows potential in developing valuable biomarkers for non-invasive assessment of fetal lung maturity with DWI data. Moreover, its adaptability opens the door to potential applications in other clinical contexts where motion compensation is essential for quantitative DWI analysis. The IVIM-morph code is readily available at: https://github.com/TechnionComputationalMRILab/qDWI-Morph.
翻訳日:2024-01-18 11:10:27 公開日:2024-01-17