このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240129となっている論文です。

PDF登録状況(公開日: 20240129)

TitleAuthorsAbstract論文公表日・翻訳日
# 質的なシーン理解と説明を通しての信頼性の高い自動運転

Trustworthy Automated Driving through Qualitative Scene Understanding and Explanations ( http://arxiv.org/abs/2403.09668v1 )

ライセンス: Link先を確認
Nassim Belmecheri, Arnaud Gotlieb, Nadjib Lazaar, Helge Spieker, (参考訳) 本稿では,都市移動におけるシーン理解のための統一的シンボルと定性表現である定性説明可能グラフ(QXG)を提案する。 QXGは、センサーデータと機械学習モデルを使用して、自動車両環境の解釈を可能にする。 時空間グラフと定性的制約を活用して、LiDARやカメラデータなどの生センサ入力からシーンセマンティクスを抽出し、理解不能なシーンモデルを提供する。 重要なことは、QXGはリアルタイムでインクリメンタルに構築することができ、様々なセンサータイプにわたる車内説明やリアルタイム意思決定のための汎用的なツールとなる。 我々の研究は、QXGの変換可能性、特に自動走行の文脈において、グラフと車両の動作をリンクすることで意思決定の合理性を解明することを示した。 これらの説明は、乗客に通知したり、脆弱な道路利用者(VRU)に警告したり、以前の行動の分析後の分析を可能にするなど、様々な目的に役立ちます。

We present the Qualitative Explainable Graph (QXG): a unified symbolic and qualitative representation for scene understanding in urban mobility. QXG enables the interpretation of an automated vehicle's environment using sensor data and machine learning models. It leverages spatio-temporal graphs and qualitative constraints to extract scene semantics from raw sensor inputs, such as LiDAR and camera data, offering an intelligible scene model. Crucially, QXG can be incrementally constructed in real-time, making it a versatile tool for in-vehicle explanations and real-time decision-making across various sensor types. Our research showcases the transformative potential of QXG, particularly in the context of automated driving, where it elucidates decision rationales by linking the graph with vehicle actions. These explanations serve diverse purposes, from informing passengers and alerting vulnerable road users (VRUs) to enabling post-analysis of prior behaviours.
翻訳日:2024-03-25 08:06:28 公開日:2024-01-29
# フェデレーション・アンラーニングに関する調査 : 課題,方法,今後の方向性

A Survey on Federated Unlearning: Challenges, Methods, and Future Directions ( http://arxiv.org/abs/2310.20448v2 )

ライセンス: Link先を確認
Ziyao Liu, Yu Jiang, Jiyuan Shen, Minyi Peng, Kwok-Yan Lam, Xingliang Yuan, Xiaoning Liu, (参考訳) 近年、忘れられる権利(RTBF)の概念はデータプライバシ規制の基本的な要素へと発展し、個人がデジタルレコードから個人データの削除を要求できるようになっている。 その結果、データ集約型機械学習(ML)アルゴリズムが広く採用され、個人データプライバシ保護に対する懸念が高まり、機械学習(MU)の概念が注目されている。 MUはMLモデルに、トレーニングプロセス中に取得した機密または個人識別可能な情報を選択的に排除する権限を与える。 MUの基本原理から発展し、フェデレーションド・アンラーニング(FU)は、フェデレーションド・ラーニング(FL)設定領域におけるデータ消去の課題に直面している。 これにより、FLモデルは、分散学習プロセスの完全性を維持しながら、FLクライアントまたはクライアントに関連する識別可能な情報を解放することができる。 しかし、従来のMUとは異なり、連合学習の特徴はFU技術に固有の課題をもたらす。 これらの課題は、FUアルゴリズムを設計する際、調整された設計の必要性に繋がる。 したがって、この総合的な調査は、フェデレーション・アンラーニングの技法、方法論、そして最近の進歩を掘り下げるものである。 基本的な概念と原則の概要、既存のフェデレートされた未学習アルゴリズムの評価、フェデレーションされた学習に適した最適化のレビュー、実践的応用に関する議論、それらの制限の評価、将来の研究に向けた有望な方向性の概要を提供する。

In recent years, the notion of "the right to be forgotten" (RTBF) has evolved into a fundamental element of data privacy regulations, affording individuals the ability to request the removal of their personal data from digital records. Consequently, given the extensive adoption of data-intensive machine learning (ML) algorithms and increasing concerns for personal data privacy protection, the concept of machine unlearning (MU) has gained considerable attention. MU empowers an ML model to selectively eliminate sensitive or personally identifiable information it acquired during the training process. Evolving from the foundational principles of MU, federated unlearning (FU) has emerged to confront the challenge of data erasure within the domain of federated learning (FL) settings. This empowers the FL model to unlearn an FL client or identifiable information pertaining to the client while preserving the integrity of the decentralized learning process. Nevertheless, unlike traditional MU, the distinctive attributes of federated learning introduce specific challenges for FU techniques. These challenges lead to the need for tailored design when designing FU algorithms. Therefore, this comprehensive survey delves into the techniques, methodologies, and recent advancements in federated unlearning. It provides an overview of fundamental concepts and principles, evaluates existing federated unlearning algorithms, reviews optimizations tailored to federated learning, engages in discussions regarding practical applications, along with an assessment of their limitations, and outlines promising directions for future research.
翻訳日:2024-03-18 23:41:48 公開日:2024-01-29
# Yoneda Lemmaを用いた完全同型暗号スキームの構築

Constructing a fully homomorphic encryption scheme with the Yoneda Lemma ( http://arxiv.org/abs/2401.13255v2 )

ライセンス: Link先を確認
Rémy Tuyéras, (参考訳) 本稿では, Yoneda Lemmaの適用を通じて, 非対称暗号の同型暗号システムの基盤を再定義する。 これは、ElGamal、RSA、Benaloh、RegevのLWE、NTRUEncryptといった広く採用されているシステムが、Yoneda Lemmaの原則から直接派生していることを示している。 この合成により、Yoneda Encryption Schemeと呼ばれる全体論的同型暗号化フレームワークが生まれる。 このスキームの中では、暗号は Yoneda Lemma 同型(英語版)の単射写像を通して解明され、復号はこれらの写像の自然性からシームレスに従う。 この統合は統一モデル理論フレームワークの予想を示唆し、同型および完全同型暗号(FHE)スキームの推論の基礎を提供する。 実演として、スキャッシングやブートストレッピングといった追加の調整を必要とせず、暗号化された乗算と加算の任意の有限列を処理できるFHE方式を提案する。 このことは、提案された理論の進歩の実践的な意味を浮き彫りにするだけでなく、FHEスキームの設計を容易にするために、モデル理論と暗号の強制技術を活用する新たな可能性ももたらしている。

This paper redefines the foundations of asymmetric cryptography's homomorphic cryptosystems through the application of the Yoneda Lemma. It explicitly illustrates that widely adopted systems, including ElGamal, RSA, Benaloh, Regev's LWE, and NTRUEncrypt, directly derive from the principles of the Yoneda Lemma. This synthesis gives rise to a holistic homomorphic encryption framework named the Yoneda Encryption Scheme. Within this scheme, encryption is elucidated through the bijective maps of the Yoneda Lemma Isomorphism, and decryption seamlessly follows from the naturality of these maps. This unification suggests a conjecture for a unified model theory framework, providing a basis for reasoning about both homomorphic and fully homomorphic encryption (FHE) schemes. As a practical demonstration, the paper introduces an FHE scheme capable of processing arbitrary finite sequences of encrypted multiplications and additions without the need for additional tweaking techniques, such as squashing or bootstrapping. This not only underscores the practical implications of the proposed theoretical advancements but also introduces new possibilities for leveraging model theory and forcing techniques in cryptography to facilitate the design of FHE schemes.
翻訳日:2024-03-18 08:27:10 公開日:2024-01-29
# 将来のインターネットアーキテクチャにおけるサーベイランスと検閲のスペクター

The Spectre of Surveillance and Censorship in Future Internet Architectures ( http://arxiv.org/abs/2401.15828v1 )

ライセンス: Link先を確認
Michael Wrana, Diogo Barradas, N. Asokan, (参考訳) 最近、Future Internet Architectures (FIA) と呼ばれるイニシアチブは、インターネットを再設計し、パフォーマンス、スケーラビリティ、セキュリティを改善しようとしている。 しかし、一部の政府は、彼らの政治的地位に対する脅威としてインターネットアクセスを認識し、広範囲にわたるネットワーク監視と検閲に従事している。 本稿では、FIAが監視と検閲能力にどのように影響するかを理解するために、著名なFIAの設計を詳細に分析する。 次に、プライバシ向上技術のFIAへの適用性について調査する。 我々は、新しいFIAベースのプライバシー向上技術に関する今後の研究のガイドラインと、これらの技術の評価を導くための勧告を提供することで、結論付ける。

Recent initiatives known as Future Internet Architectures (FIAs) seek to redesign the Internet to improve performance, scalability, and security. However, some governments perceive Internet access as a threat to their political standing and engage in widespread network surveillance and censorship. In this paper, we provide an in-depth analysis into the designs of prominent FIAs, to help understand of how FIAs impact surveillance and censorship abilities. Then, we survey the applicability of privacy-enhancing technologies to FIAs. We conclude by providing guidelines for future research into novel FIA-based privacy-enhancing technologies, and recommendations to guide the evaluation of these technologies.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# パワーサイドチャネル攻撃による量子コンピュータ制御器の量子回路再構築

Quantum Circuit Reconstruction from Power Side-Channel Attacks on Quantum Computer Controllers ( http://arxiv.org/abs/2401.15869v1 )

ライセンス: Link先を確認
Ferhat Erata, Chuanqi Xu, Ruzica Piskac, Jakub Szefer, (参考訳) 近年,量子コンピューティングへの関心が急速に高まり,量子回路の確保の重要性が高まっている。 専用攻撃機が発射できる量子回路に対する新しいタイプの脅威は、パワートレース攻撃である。 この脅威に対処するために、量子回路の秘密を解き明かし盗むためにパワートレースを使用する最初の形式化とデモを示す。 パワートレースにアクセスすることで、攻撃者は量子コンピュータに送信される制御パルスに関する情報を回復することができる。 制御パルスから回路のゲートレベル記述を行い、最終的には秘密アルゴリズムをリバースエンジニアリングすることができる。 この研究はどのようにして、どのようにして情報を回収できるかを示す。 この研究は、電力トレースからの代数的再構成を用いて、チャネルごとの攻撃と全電力攻撃の2つの新しいタイプのシングルトレース攻撃を実現する。 以前の攻撃は、量子回路を再構築するためのブルートフォース攻撃を実行するためにチャネル単位の測定に依存していた。 後者の攻撃は、Mixed-Integer Linear Programming最適化を用いてシングルトレース攻撃を行う。 代数的再構成を用いることで、量子回路の秘密を高精度に盗むことができることを示す。 32個の実ベンチマーク量子回路の評価は,本手法が量子回路の再構成に極めて有効であることを示している。 この発見は、潜在的な攻撃の正確性を示すだけでなく、量子回路をパワートレース攻撃から守る新しい方法を開発する必要性も示している。 この作業を通じて、実際の量子コンピュータからの実際の制御パルス情報は、パワートレースの収集のシミュレーションに基づいて潜在的攻撃を示すために使用される。

The interest in quantum computing has grown rapidly in recent years, and with it grows the importance of securing quantum circuits. A novel type of threat to quantum circuits that dedicated attackers could launch are power trace attacks. To address this threat, this paper presents first formalization and demonstration of using power traces to unlock and steal quantum circuit secrets. With access to power traces, attackers can recover information about the control pulses sent to quantum computers. From the control pulses, the gate level description of the circuits, and eventually the secret algorithms can be reverse engineered. This work demonstrates how and what information could be recovered. This work uses algebraic reconstruction from power traces to realize two new types of single trace attacks: per-channel and total power attacks. The former attack relies on per-channel measurements to perform a brute-force attack to reconstruct the quantum circuits. The latter attack performs a single-trace attack using Mixed-Integer Linear Programming optimization. Through the use of algebraic reconstruction, this work demonstrates that quantum circuit secrets can be stolen with high accuracy. Evaluation on 32 real benchmark quantum circuits shows that our technique is highly effective at reconstructing quantum circuits. The findings not only show the veracity of the potential attacks, but also the need to develop new means to protect quantum circuits from power trace attacks. Throughout this work real control pulse information from real quantum computers is used to demonstrate potential attacks based on simulation of collection of power traces.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# MITRE Engenuity ATT&CK Enterprise Evaluation のデコード:実環境における EDR 性能の分析

Decoding the MITRE Engenuity ATT&CK Enterprise Evaluation: An Analysis of EDR Performance in Real-World Environments ( http://arxiv.org/abs/2401.15878v1 )

ライセンス: Link先を確認
Xiangmin Shen, Zhenyuan Li, Graham Burleigh, Lingzhi Wang, Yan Chen, (参考訳) エンドポイント検出と応答(EDR)システムは、エンタープライズセキュリティソリューションの重要なコンポーネントとして現れ、APT攻撃のようなエンドポイント脅威とライフサイクルの拡張と効果的に戦っている。 エンドポイント検出と応答(EDR)システムの重要性が高まる中、多くのサイバーセキュリティプロバイダが独自のEDRソリューションを開発してきた。 ユーザがこれらの検出エンジンの能力を評価して、どの製品を選ぶべきかを判断することが重要です。 これは、市場規模が2023年までに約37億ドルに達すると予想され、依然として拡大していることを考えると、特に緊急である。 MITREはサイバー脅威分析の主要な組織である。 2018年、MITREは世界中の主要なEDRベンダーをカバーするAPTエミュレーションを開始した。 指標にはテレメトリ、検出とブロッキング機能などが含まれる。 それでも、MITREが公表した評価結果には、さらなる解釈や提案は含まれていない。 本稿では,MITRE評価結果を徹底的に分析し,実世界のEDRシステムについてさらなる知見を得る。 具体的には、追加の制御フローとデータフロー情報を利用してEDRシステムの性能を計測する全グラフ解析法を設計した。 さらに、検出カバレッジ、検出信頼度、検出修飾子、データソース、互換性など、さまざまな側面から、数年間にわたるMITRE評価の結果を分析します。 本研究で得られた知見を網羅的にまとめ,評価結果から貴重な知見を得た。 これらの要約や洞察は、研究者、実践家、ベンダーが主流のEDR製品の強みと限界をよりよく理解するのに役立ちます。

Endpoint detection and response (EDR) systems have emerged as a critical component of enterprise security solutions, effectively combating endpoint threats like APT attacks with extended lifecycles. In light of the growing significance of endpoint detection and response (EDR) systems, many cybersecurity providers have developed their own proprietary EDR solutions. It's crucial for users to assess the capabilities of these detection engines to make informed decisions about which products to choose. This is especially urgent given the market's size, which is expected to reach around 3.7 billion dollars by 2023 and is still expanding. MITRE is a leading organization in cyber threat analysis. In 2018, MITRE started to conduct annual APT emulations that cover major EDR vendors worldwide. Indicators include telemetry, detection and blocking capability, etc. Nevertheless, the evaluation results published by MITRE don't contain any further interpretations or suggestions. In this paper, we thoroughly analyzed MITRE evaluation results to gain further insights into real-world EDR systems under test. Specifically, we designed a whole-graph analysis method, which utilizes additional control flow and data flow information to measure the performance of EDR systems. Besides, we analyze MITRE evaluation's results over multiple years from various aspects, including detection coverage, detection confidence, detection modifier, data source, compatibility, etc. Through the above studies, we have compiled a thorough summary of our findings and gained valuable insights from the evaluation results. We believe these summaries and insights can assist researchers, practitioners, and vendors in better understanding the strengths and limitations of mainstream EDR products.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# LESSON: 深層学習位置検出のためのマルチラベル逆Falseデータインジェクション攻撃

LESSON: Multi-Label Adversarial False Data Injection Attack for Deep Learning Locational Detection ( http://arxiv.org/abs/2401.16001v1 )

ライセンス: Link先を確認
Jiwei Tian, Chao Shen, Buhong Wang, Xiaofang Xia, Meng Zhang, Chenhao Lin, Qian Li, (参考訳) 深層学習手法は、偽データ注入攻撃(FDIA)を検出するだけでなく、FDIAの攻撃も検出できる。 単ラベルFDIA検出の分野では, 深層学習の脆弱性に基づく対向的偽データ注入攻撃(AFDIA)が研究されているが, 多ラベルFDIA検出に対する対向的攻撃と防御はいまだ関与していない。 このギャップを埋めるために、まずマルチラベルFDIA位置検出器に対するマルチラベル対角攻撃について検討し、一般的なマルチラベル対角攻撃フレームワークであるmuLti-labEl adverSarial falSe data injectiON attack (LESSON)を提案する。 このフレームワークは、バッドデータ検出(BDD)とニューラルアタックロケーション(NAL)の両方を回避するために、物理的な制約の中で適切なマルチラベルの逆の摂動を見つけるのに役立つ。 提案手法と攻撃目標の2次元に基づく4つの典型的なLESSON攻撃について検討し,提案手法の有効性を実験的に検証し,スマートグリッドにおけるセキュリティ上の懸念を深刻かつ強く感じた。

Deep learning methods can not only detect false data injection attacks (FDIA) but also locate attacks of FDIA. Although adversarial false data injection attacks (AFDIA) based on deep learning vulnerabilities have been studied in the field of single-label FDIA detection, the adversarial attack and defense against multi-label FDIA locational detection are still not involved. To bridge this gap, this paper first explores the multi-label adversarial example attacks against multi-label FDIA locational detectors and proposes a general multi-label adversarial attack framework, namely muLti-labEl adverSarial falSe data injectiON attack (LESSON). The proposed LESSON attack framework includes three key designs, namely Perturbing State Variables, Tailored Loss Function Design, and Change of Variables, which can help find suitable multi-label adversarial perturbations within the physical constraints to circumvent both Bad Data Detection (BDD) and Neural Attack Location (NAL). Four typical LESSON attacks based on the proposed framework and two dimensions of attack objectives are examined, and the experimental results demonstrate the effectiveness of the proposed attack framework, posing serious and pressing security concerns in smart grids.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# zk-SNARKを用いたQRNG鍵配布のためのプライバシ保護鍵伝送プロトコル

A Privacy-preserving key transmission protocol to distribute QRNG keys using zk-SNARKs ( http://arxiv.org/abs/2401.16170v1 )

ライセンス: Link先を確認
David Soler, Carlos Dafonte, Manuel Fernández-Veiga, Ana Fernández Vilas, Francisco J. Nóvoa, (参考訳) 高エントロピー乱数(英語版)は暗号の重要な部分であり、量子乱数生成器(QRNG)は暗号アルゴリズムに高品質な鍵を提供する創発的な技術であるが、残念ながら現在アクセスが難しい。 既存のエントロピー・アズ・ア・サービスソリューションでは、ユーザーは主要な資料を配布する中央の権威を信頼する必要がある。 本稿では,QRNGによって生成された暗号資料を,サーバが各鍵を受信しているユーザを識別できないような方法で,ユーザが取得できる新しい鍵送信プロトコルを提案する。 これはZero Knowledge Succinct Non-interactive Arguments of Knowledge (zk-SNARK) が組み込まれている。 このプロトコルのセキュリティ分析は、この文書で定義されている匿名性、不正性、機密性の性質を満たすことを証明している。 また、QRNGキーの伝送チャネルとしてNFCを用いて、その機能と性能を示すプロトコルの実装も提供する。

High-entropy random numbers are an essential part of cryptography, and Quantum Random Number Generators (QRNG) are an emergent technology that can provide high-quality keys for cryptographic algorithms but unfortunately are currently difficult to access. Existing Entropy-as-a-Service solutions require users to trust the central authority distributing the key material, which is not desirable in a high-privacy environment. In this paper, we present a novel key transmission protocol that allows users to obtain cryptographic material generated by a QRNG in such a way that the server is unable to identify which user is receiving each key. This is achieved with the inclusion of Zero Knowledge Succinct Non-interactive Arguments of Knowledge (zk-SNARK), a cryptographic primitive that allow users to prove knowledge of some value without needing to reveal it. The security analysis of the protocol proves that it satisfies the properties of Anonymity, Unforgeability and Confidentiality, as defined in this document. We also provide an implementation of the protocol demonstrating its functionality and performance, using NFC as the transmission channel for the QRNG key.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# DAEDALUS:確率的ソフトウェア多様性を用いたファームウェアROPの爆発に対する防御

DAEDALUS: Defense Against Firmware ROP Exploits Using Stochastic Software Diversity ( http://arxiv.org/abs/2401.16234v1 )

ライセンス: Link先を確認
Islam Obaidat, Meera Sridhar, Fatemeh Tavakoli, (参考訳) 本稿では,LinuxベースのIoTデバイス上でのROP攻撃に抵抗するソフトウェア多様性ベースのフレームワークであるDAEDALUSを提案する。 DAEDALUSは、独自の、セマンティックに等価だが、構文的に異なるIoTファームウェアの書き直しを生成し、ROP攻撃の大規模な複製を妨害する。 DAEDALUSは、x86バイナリの確率オプティマイザであるSTOKEをコアダイバーシティエンジンとして採用しているが、独自のIoTファームウェア問題に対処するための重要な拡張を導入している。 DAEDALUSの有効性は、botnet DDoS攻撃シミュレーションテストベッドであるDDoSimを用いて評価される。 その結果、DAEDALUSはファームウェアに重要な基本ブロックを分散させることでROPペイロードを中和し、攻撃者がメモリエラーの脆弱性を通じてDDoS攻撃のために複数のデバイスを妥協するのを防ぐことができた。 DAEDALUSは、確率的保護によって個々のIoTデバイスに対するROP攻撃の影響を緩和するだけでなく、複数のデバイスにわたる大規模なROP攻撃を阻止する。

This paper presents DAEDALUS, a software diversity-based framework designed to resist ROP attacks on Linux-based IoT devices. DAEDALUS generates unique, semantically equivalent but syntactically different rewrites of IoT firmware, disrupting large-scale replication of ROP attacks. DAEDALUS employs STOKE, a stochastic optimizer for x86 binaries, as its core diversity engine but introduces significant extensions to address unique IoT firmware challenges. DAEDALUS's effectiveness is evaluated using DDoSim, a published botnet DDoS attack simulation testbed. Results demonstrate that DAEDALUS successfully neutralizes ROP payloads by diversifying critical basic blocks in the firmware, preventing attackers from compromising multiple devices for DDoS attacks via memory error vulnerabilities. The findings indicate that DAEDALUS not only mitigates the impact of ROP attacks on individual IoT devices through probabilistic protection but also thwarts large-scale ROP attacks across multiple devices.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-29
# SECOMP: Cプログラムの形式的セキュアコンパイル

SECOMP: Formally Secure Compilation of Compartmentalized C Programs ( http://arxiv.org/abs/2401.16277v1 )

ライセンス: Link先を確認
Jérémy Thibault, Roberto Blanco, Dongjae Lee, Sven Argo, Arthur Azevedo de Amorim, Aïna Linn Georges, Catalin Hritcu, Andrew Tolmach, (参考訳) C言語の未定義の動作は、しばしば破壊的なセキュリティ脆弱性を引き起こす。 これは、開発者が大きなプログラムを、明確に指定された特権と相互作用を持つ相互に不確実なコンパートメントに構成できるものである。 本稿では,非定義な動作のスコープが,それに遭遇して動的に妥協するコンパートメントに制限されることを保証する,マシンチェックされた証明が付属する,コンパートナライズドCコードのコンパイラであるSECOMPを紹介する。 これらの保証は、敵の文脈に対する安全性の保存として形式化され、完全な抽象化に類似したセキュアなコンパイル基準が、主流プログラミング言語でこのような強い基準が証明されたのはこれが初めてである。 これを達成するために、クロスコンパートメントインターフェースによって指定されたように、プロシージャコールとリターンを介してのみ対話できる分離されたコンパートメントでCompCert検証されたCコンパイラの言語を拡張します。 我々は、CompCertのパスと最適化、およびそれらの正当性証明を、このコンパートメント対応の設定に適用する。 次に,コンパイラの正しさをCコンパイラに拡張するために必要な,いくつかの証明工学のノベルティを含む,より大規模なセキュアなコンパイル証明の要素として使用する。

Undefined behavior in C often causes devastating security vulnerabilities. One practical mitigation is compartmentalization, which allows developers to structure large programs into mutually distrustful compartments with clearly specified privileges and interactions. In this paper we introduce SECOMP, a compiler for compartmentalized C code that comes with machine-checked proofs guaranteeing that the scope of undefined behavior is restricted to the compartments that encounter it and become dynamically compromised. These guarantees are formalized as the preservation of safety properties against adversarial contexts, a secure compilation criterion similar to full abstraction, and this is the first time such a strong criterion is proven for a mainstream programming language. To achieve this we extend the languages of the CompCert verified C compiler with isolated compartments that can only interact via procedure calls and returns, as specified by cross-compartment interfaces. We adapt the passes and optimizations of CompCert as well as their correctness proofs to this compartment-aware setting. We then use compiler correctness as an ingredient in a larger secure compilation proof that involves several proof engineering novelties, needed to scale formally secure compilation up to a C compiler.
翻訳日:2024-03-18 07:57:54 公開日:2024-01-29
# 量子セーフ暗号化: 複雑さを減らし、セキュリティレベルを向上する新しい方法

Quantum-safe Encryption: A New Method to Reduce Complexity and/or Improve Security Level ( http://arxiv.org/abs/2401.16302v1 )

ライセンス: Link先を確認
Amir K. Khandani, (参考訳) この研究は、古典的なMcEliece暗号システムによって動機付けられた暗号化スキームを強化するための新しいテクニックを提示する。 コントリビューションには,(1)マスキング行列を用いて機密データを隠蔽すること,(2) 双方が追加の公開情報を共有することなく公開鍵にランダム性を組み込むことを可能にすること,(3) 誤り訂正のための繰り返し符号の結合を利用すること,(4) 鍵候補の検証の複雑さを増大させることで攻撃を困難にすること,(5) エラーシーケンスにメモリを導入すること,などが含まれる。 (i)誤りベクトルは、乱数個の誤りビットから構成される。 (ii)長さ3の反復符号の連結と合わせて使用する場合、誤りを全て修正することができる。 提案された手法により、ランダム化に依存する既知の量子後鍵生成技術と比較して、はるかに大きな鍵を生成することができる。

This work presents some novel techniques to enhance an encryption scheme motivated by classical McEliece cryptosystem. Contributions include: (1) using masking matrices to hide sensitive data, (2) allowing both legitimate parties to incorporate randomness in the public key without sharing any additional public information, (3) using concatenation of a repetition code for error correction, permitting key recovery with a negligible decoding complexity, (4) making attacks more difficult by increasing the complexity in verifying a given key candidate has resulted in the actual key, (5) introducing memory in the error sequence such that: (i) error vector is composed of a random number of erroneous bits, (ii) errors can be all corrected when used in conjunction with concatenation of a repetition code of length 3. Proposed techniques allow generating significantly larger keys, at the same time, with a much lower complexity, as compared to known post-quantum key generation techniques relying on randomization.
翻訳日:2024-03-18 07:57:54 公開日:2024-01-29
# 液体抽出プロトコルの実証的および理論的解析

Empirical and Theoretical Analysis of Liquid Staking Protocols ( http://arxiv.org/abs/2401.16353v1 )

ライセンス: Link先を確認
Krzysztof Gogol, Benjamin Kraner, Malte Schlosser, Tao Yan, Claudio Tessone, Burkhard Stiller, (参考訳) 液状ステイクは、合計価値ロックの点で、分散金融プロトコルの最大のカテゴリとなっている。 しかし、その実装設計や基礎となるリスクについての研究はほとんどない。 液状ステイクプロトコルは、バリデータに資本をロックする不利益を伴わずに、ステイク報酬を得られる。 しかし、ブロックチェーンのセキュリティに対する脅威と見なされる人もいる。 本論文は液体ステイクの実装を分類した最初の論文である。 これは、最大のProof-of-Stakeブロックチェーンの従来のステイクと比較して、主要な液体ステイクトークンの歴史的パフォーマンスを分析します。 さらに,集中化,最大抽出可能な値,EthereumのProof-of-WorkからProof-of-Stakeへの移行がトークンのパフォーマンスに与える影響についても検討した。 液体積み上げプロバイダーの追跡誤差を抽出すると、それらは持続的であり、分散やリターンのような通貨のマクロ変数では説明できないことが分かる。

Liquid staking has become the largest category of decentralized finance protocols in terms of total value locked. However, few studies exist on its implementation designs or underlying risks. The liquid staking protocols allow for earning staking rewards without the disadvantage of locking the capital at the validators. Yet, they are seen by some as a threat to the Proof-of-Stake blockchain security. This paper is the first work that classifies liquid staking implementations. It analyzes the historical performance of major liquid staking tokens in comparison to the traditional staking for the largest Proof-of-Stake blockchains. Furthermore, the research investigates the impact of centralization, maximum extractable value and the migration of Ethereum from Proof-of-Work to Proof-of-Stake on the tokens' performance. Examining the tracking error of the liquid stacking providers to the staking rewards shows that they are persistent and cannot be explained by macro-variables of the currency, such as the variance or return.
翻訳日:2024-03-18 07:57:54 公開日:2024-01-29
# ハードウェアセキュリティ拡張を用いたデータ公開ML加速器

Data-Oblivious ML Accelerators using Hardware Security Extensions ( http://arxiv.org/abs/2401.16583v1 )

ライセンス: Link先を確認
Hossam ElAtali, John Z. Jekel, Lachlan J. Gunn, N. Asokan, (参考訳) アウトソース計算は、クライアントデータの機密性を危険にさらす可能性がある。 完全同型暗号化のような暗号技術は、ハードウェアの助けがあっても重大なオーバーヘッドを伴います。一方、ハードウェア支援された信頼できる実行環境の複雑さは、秘密データを漏洩するために利用されています。 BliMeやOISAといった最近の提案は、ハードウェアで動的情報フロートラッキング(DIFT)がクライアントデータを効率的に保護できることを示す。 CPUのみのワークロードを保護するように設計されている。 しかし、機械学習のような多くのアウトソースコンピューティングアプリケーションは、アクセラレータを広範囲に活用している。 このギャップに対処するDolmaはGemmini行列乗算アクセラレーターにDIFTを適用し、悪意のあるソフトウェアやサイドチャネル攻撃があってもクライアントデータの機密性を効率的に保証します。 本研究では,DFT論理の最適化により,汎用プロセッサアーキテクチャと比較して領域オーバヘッドを大幅に低減できることを示す。 Dolmaは、エンドツーエンドのセキュリティ保証を実現するために、BliMeフレームワークと統合されている。 我々は、ResNet-50 DNNモデルを用いてFPGA上でDolmaを評価し、大きな構成で低いオーバーヘッド(4.4\%$、16.7\%$、16.5\%$、32x32構成でそれぞれパフォーマンス、リソース使用、電力)を発生させることを示した。

Outsourced computation can put client data confidentiality at risk. Existing solutions are either inefficient or insufficiently secure: cryptographic techniques like fully-homomorphic encryption incur significant overheads, even with hardware assistance, while the complexity of hardware-assisted trusted execution environments has been exploited to leak secret data. Recent proposals such as BliMe and OISA show how dynamic information flow tracking (DIFT) enforced in hardware can protect client data efficiently. They are designed to protect CPU-only workloads. However, many outsourced computing applications, like machine learning, make extensive use of accelerators. We address this gap with Dolma, which applies DIFT to the Gemmini matrix multiplication accelerator, efficiently guaranteeing client data confidentiality, even in the presence of malicious/vulnerable software and side channel attacks on the server. We show that accelerators can allow DIFT logic optimizations that significantly reduce area overhead compared with general-purpose processor architectures. Dolma is integrated with the BliMe framework to achieve end-to-end security guarantees. We evaluate Dolma on an FPGA using a ResNet-50 DNN model and show that it incurs low overheads for large configurations ($4.4\%$, $16.7\%$, $16.5\%$ for performance, resource usage and power, respectively, with a 32x32 configuration).
翻訳日:2024-03-18 07:57:54 公開日:2024-01-29
# leftoverLocals: リークしたGPUローカルメモリを通じてLLM応答を聴く

LeftoverLocals: Listening to LLM Responses Through Leaked GPU Local Memory ( http://arxiv.org/abs/2401.16603v1 )

ライセンス: Link先を確認
Tyler Sorensen, Heidy Khlaaf, (参考訳) この記事では、Apple、Qualcomm、AMD GPU上の別のプロセスによって生成されたGPUメモリからデータリカバリを可能にする脆弱性であるLeftoverLocalsについて説明する。 leftoverLocalsはGPUアプリケーションのセキュリティ姿勢に影響を与え、特に影響のあるGPU上で動作するLLMとMLモデルにおいて重要である。 ローカルメモリ、最適化されたGPUメモリ領域を回復することで、攻撃者はプロセスやコンテナの境界を越えて、別のユーザの対話型LLMセッション(例:llama.cpp)に耳を傾けることができるPoCを構築しました。

This paper describes LeftoverLocals: a vulnerability that allows data recovery from GPU memory created by another process on Apple, Qualcomm, and AMD GPUs. LeftoverLocals impacts the security posture of GPU applications, with particular significance to LLMs and ML models that run on impacted GPUs. By recovering local memory, an optimized GPU memory region, we built a PoC where an attacker can listen into another user's interactive LLM session (e.g., llama.cpp) across process or container boundaries.
翻訳日:2024-03-18 07:57:54 公開日:2024-01-29
# 合成マルチモーダル誤報を用いた画像テキストアウトオブオフコンテキスト検出

Image-Text Out-Of-Context Detection Using Synthetic Multimodal Misinformation ( http://arxiv.org/abs/2403.08783v1 )

ライセンス: Link先を確認
Fatma Shalabi, Huy H. Nguyen, Hichem Felouat, Ching-Chun Chang, Isao Echizen, (参考訳) 誤報はデジタル情報の増大の時代において大きな課題となり、効果的な検出方法の開発が求められている。 我々は,合成データ生成を用いたOOCD(Out-Of-Context Detection)の新たな手法について検討した。 我々はOOCD用に特別に設計されたデータセットを作成し、正確な分類のための効率的な検出器を開発した。 実験により, OOCDに関連するデータ制限に対処する上で, 合成データ生成の有効性を検証した。 データセットと検出器は、将来の研究と堅牢な誤情報検出システムの開発のための貴重な資源として役立てるべきである。

Misinformation has become a major challenge in the era of increasing digital information, requiring the development of effective detection methods. We have investigated a novel approach to Out-Of-Context detection (OOCD) that uses synthetic data generation. We created a dataset specifically designed for OOCD and developed an efficient detector for accurate classification. Our experimental findings validate the use of synthetic data generation and demonstrate its efficacy in addressing the data limitations associated with OOCD. The dataset and detector should serve as valuable resources for future research and the development of robust misinformation detection systems.
翻訳日:2024-03-18 05:40:54 公開日:2024-01-29
# 離散データ完全性定式化を用いたCT軌道の整数最適化

Integer Optimization of CT Trajectories using a Discrete Data Completeness Formulation ( http://arxiv.org/abs/2402.10223v1 )

ライセンス: Link先を確認
Linda-Sophie Schneider, Gabriel Herl, Andreas Maier(参考訳) X線CT(Computerd tomography)は、幅広い医療・産業用途の3次元構造をデジタル化する上で重要な役割を果たしている。 従来のctシステムは、標準的な円形およびヘリカルスキャンの軌跡に依存しており、大きな物体、複雑な構造、リソースの制約を伴う困難なシナリオに最適ではない。 これらの課題に対応するため、興味の対象に関する任意の視点からプロジェクションを取得する柔軟性を提供する双対ロボットCTシステムの可能性を探っている。 このようなシステムでは、完全かつ数学的に音の復元が重要となる。 本研究では,整数計画に基づくCTトラジェクトリ最適化手法を提案する。 離散データ完全性条件を用いて最適化問題を定式化し、最適化された投影集合を選択する。 このアプローチはデータ完全性を強制し、信頼性評価のために吸収ベースのメトリクスを検討する。 本手法を,同値な円形CT軌跡とグリージーアプローチとの比較を行った。 greedyはすでにいくつかのケースでうまく機能するが、整数最適化アプローチを用いてgreedyベースの射影選択を改善する方法を提供する。 提案手法はCTトラジェクトリを改善し,最適性ギャップの観点から解の最適性を定量化する。

X-ray computed tomography (CT) plays a key role in digitizing three-dimensional structures for a wide range of medical and industrial applications. Traditional CT systems often rely on standard circular and helical scan trajectories, which may not be optimal for challenging scenarios involving large objects, complex structures, or resource constraints. In response to these challenges, we are exploring the potential of twin robotic CT systems, which offer the flexibility to acquire projections from arbitrary views around the object of interest. Ensuring complete and mathematically sound reconstructions becomes critical in such systems. In this work, we present an integer programming-based CT trajectory optimization method. Utilizing discrete data completeness conditions, we formulate an optimization problem to select an optimized set of projections. This approach enforces data completeness and considers absorption-based metrics for reliability evaluation. We compare our method with an equidistant circular CT trajectory and a greedy approach. While greedy already performs well in some cases, we provide a way to improve greedy-based projection selection using an integer optimization approach. Our approach improves CT trajectories and quantifies the optimality of the solution in terms of an optimality gap.
翻訳日:2024-02-25 17:14:43 公開日:2024-01-29
# 検証も偽造もできないことに賭ける

Betting on what is neither verifiable nor falsifiable ( http://arxiv.org/abs/2402.14021v1 )

ライセンス: Link先を確認
Abhimanyu Pallavi Sudhir, Long Tran-Thanh(参考訳) 予測市場は、ある一定の時期に真実が明らかになる主張の確率を推定するのに有用であり、これは現実世界の事象の価値(統計的不確実性)や原始再帰関数の値(論理的またはアルゴリズム的不確実性)に関する質問を含む。 しかし、それらは固定された解決基準なしでは直接問題に適用することはできないし、そのような質問に対する予測市場の実世界の応用は、文が真かどうかの予測に相当し、それが証明されるかどうかを予測できる。 そのような質問は、より基本的な事象の可算和や交叉、あるいは算術的階層上の一階論理文(あるいはfolを超えて超高度文)として表現することができる。 本稿では,このようなイベントを選択肢によって賭けるアプローチを提案する。 したがって、我々の著作は、論理の不確実性に対するギャラブラント帰納法(英語版)の既存の枠組みの代替となり、数学の哲学における構成主義(英語版)として知られるスタンスに関係している。

Prediction markets are useful for estimating probabilities of claims whose truth will be revealed at some fixed time -- this includes questions about the values of real-world events (i.e. statistical uncertainty), and questions about the values of primitive recursive functions (i.e. logical or algorithmic uncertainty). However, they cannot be directly applied to questions without a fixed resolution criterion, and real-world applications of prediction markets to such questions often amount to predicting not whether a sentence is true, but whether it will be proven. Such questions could be represented by countable unions or intersections of more basic events, or as First-Order-Logic sentences on the Arithmetical Hierarchy (or even beyond FOL, as hyperarithmetical sentences). In this paper, we propose an approach to betting on such events via options, or equivalently as bets on the outcome of a "verification-falsification game". Our work thus acts as an alternative to the existing framework of Garrabrant induction for logical uncertainty, and relates to the stance known as constructivism in the philosophy of mathematics; furthermore it has broader implications for philosophy and mathematical logic.
翻訳日:2024-02-25 16:55:49 公開日:2024-01-29
# 量子乱数発生器のリアルタイムシードレス後処理

Real-Time Seedless Post-Processing for Quantum Random Number Generators ( http://arxiv.org/abs/2402.14607v1 )

ライセンス: Link先を確認
Qian Li and Hongyi Zhou(参考訳) 量子防御ランダム性抽出は、様々な量子暗号タスクに広く適用されている量子敵が持つ量子側情報を扱うために必須である。 本研究では,量子側情報に対する実時間2ソース量子ランダム性抽出器を提案する。 本研究で導入したミンエントロピー源の新たなカテゴリであるフォワードブロック源に特化している。 これらの情報源は幅広い量子乱数生成器に対応する柔軟性を維持している。 我々のオンラインアルゴリズムは、2つの無限に長い独立な前方ブロック源から最小エントロピーの定数の抽出を実証する。 さらに,本抽出器はブロックワイド並列化が可能であり,高次乱数抽出のための実用的で効率的な解法を提供する。 最もよく使われている量子乱数生成器の生データに抽出器を適用することで、64Gbpsのシミュレーション抽出速度を実現する。

Quantum-proof randomness extraction is essential for handling quantum side information possessed by a quantum adversary, which is widely applied in various quantum cryptography tasks. In this study, we introduce a real-time two-source quantum randomness extractor against quantum side information. Our extractor is tailored for forward block sources, a novel category of min-entropy sources introduced in this work. These sources retain the flexibility to accommodate a broad range of quantum random number generators. Our online algorithms demonstrate the extraction of a constant fraction of min-entropy from two infinitely long independent forward block sources. Moreover, our extractor is inherently block-wise parallelizable, presenting a practical and efficient solution for the timely extraction of high-quality randomness. Applying our extractors to the raw data of one of the most commonly used quantum random number generators, we achieve a simulated extraction speed as high as 64 Gbps.
翻訳日:2024-02-25 16:46:14 公開日:2024-01-29
# ボラティリティ予測のためのGARCHからニューラルネットワークへ

From GARCH to Neural Network for Volatility Forecast ( http://arxiv.org/abs/2402.06642v1 )

ライセンス: Link先を確認
Pengfei Zhao, Haoren Zhu, Wilfred Siu Hung NG, Dik Lun Lee(参考訳) 不確実性の尺度としてのボラティリティは、リスク管理などの多くの金融活動において重要な役割を果たす。 Econometricsと機械学習のコミュニティは、確率的アプローチとニューラルネットワーク(NN)アプローチという、2つの異なる金融変動予測アプローチを開発した。 個々の強みにもかかわらず、これらの手法は伝統的に、相互の相互作用がほとんどない別々の研究軌道で進化してきた。 本研究は,GARCHファミリーモデルと対応するNNモデルとの等価関係を確立することにより,このギャップを埋める試みである。 等価関係の確立とともに、NNに基づくボラティリティモデルを構築するための革新的なアプローチであるGARCH-NNを導入する。 GARCHモデルのNN版を取得し、確立されたNNアーキテクチャにコンポーネントとして統合することにより、GARCHモデル固有のボラティリティなスタイル化された事実(SF)をニューラルネットワークにシームレスに注入する。 我々は,GARCH-NNアプローチのパワーを示すため,GARCH-LSTMモデルを開発した。 GARCHファミリーモデルのNNモデルを確立されたNNモデルにマージすると、確率的モデルとNNモデルとを分離して使用する場合と比較して、結果が向上することを示した。

Volatility, as a measure of uncertainty, plays a crucial role in numerous financial activities such as risk management. The Econometrics and Machine Learning communities have developed two distinct approaches for financial volatility forecasting: the stochastic approach and the neural network (NN) approach. Despite their individual strengths, these methodologies have conventionally evolved in separate research trajectories with little interaction between them. This study endeavors to bridge this gap by establishing an equivalence relationship between models of the GARCH family and their corresponding NN counterparts. With the equivalence relationship established, we introduce an innovative approach, named GARCH-NN, for constructing NN-based volatility models. It obtains the NN counterparts of GARCH models and integrates them as components into an established NN architecture, thereby seamlessly infusing volatility stylized facts (SFs) inherent in the GARCH models into the neural network. We develop the GARCH-LSTM model to showcase the power of the GARCH-NN approach. Experiment results validate that amalgamating the NN counterparts of the GARCH family models into established NN models leads to enhanced outcomes compared to employing the stochastic and NN models in isolation.
翻訳日:2024-02-18 13:52:03 公開日:2024-01-29
# prompt4vis: 表データ可視化のためのサンプルマイニングとスキーマフィルタリングによる大規模言語モデルのプロンプト

Prompt4Vis: Prompting Large Language Models with Example Mining and Schema Filtering for Tabular Data Visualization ( http://arxiv.org/abs/2402.07909v1 )

ライセンス: Link先を確認
Shuaimin Li, Xuanang Chen, Yuanfeng Song, Yunze Song, Chen Zhang(参考訳) データビジュアライゼーション(DV)システムは、膨大なデータセットからの洞察を発見でき、業界と学界の両方で注目を集めていることで、ますます認識されている。 データクエリの作成は、宣言型ビジュアライゼーション言語(DVL、Vega-Lite、EChartなど)において不可欠なプロセスである。 自然言語処理(NLP)技術の進化により、自然言語インタフェースを使って表形式のデータを視覚化し、よりアクセシブルで直感的なユーザー体験を提供するようになった。 しかし、現在の自然言語質問をseq2vis、ncnet、rgvisnetなどのデータ可視化クエリに変換する方法は、複雑なニューラルネットワークアーキテクチャを使用しているにもかかわらず、まだ期待に届かず、改善の余地も大きい。 ChatGPTやGPT-4のような大規模言語モデル(LLM)は、様々なNLPタスクで新しいベンチマークを確立し、フィールドの景観を根本的に変える。 これらの進歩に触発されて、自然言語からデータビジュアライゼーションを生成する性能を高めるために、LLMとテキスト内学習を活用する新しいフレームワークPrompt4Visを導入する。 Prompt4Visは2つの主要なコンポーネントから構成される:(1)マルチオブジェクトのサンプルマイニングモジュールで、テキスト・トゥ・ビジュアライゼーションのためのLLMのコンテキスト内学習能力を強化する真に効果的な例を見つけるように設計されている;(2)データベースのスキーマを単純化するために提案されるスキーマフィルタリングモジュール。 NVBenchデータセット上の5倍のクロスバリデーションによる大規模な実験は、開発とテストセットでそれぞれ約35.9%と71.3%の最先端(SOTA)のRGVisNetを上回るPrompt4Visの優位性を示している。 私たちの知る限りでは、Prompt4Visは、データ視覚化クエリを生成するためのテキストからビジュアライズにコンテキスト内学習を導入する最初の作品です。

Data visualization (DV) systems are increasingly recognized for their profound capability to uncover insights from vast datasets, gaining attention across both industry and academia. Crafting data queries is an essential process within certain declarative visualization languages (DVLs, e.g., Vega-Lite, EChart.). The evolution of natural language processing (NLP) technologies has streamlined the use of natural language interfaces to visualize tabular data, offering a more accessible and intuitive user experience. However, current methods for converting natural language questions into data visualization queries, such as Seq2Vis, ncNet, and RGVisNet, despite utilizing complex neural network architectures, still fall short of expectations and have great room for improvement. Large language models (LLMs) such as ChatGPT and GPT-4, have established new benchmarks in a variety of NLP tasks, fundamentally altering the landscape of the field. Inspired by these advancements, we introduce a novel framework, Prompt4Vis, leveraging LLMs and in-context learning to enhance the performance of generating data visualization from natural language. Prompt4Vis comprises two key components: (1) a multi-objective example mining module, designed to find out the truly effective examples that strengthen the LLM's in-context learning capabilities for text-to-vis; (2) a schema filtering module, which is proposed to simplify the schema of the database. Extensive experiments through 5-fold cross-validation on the NVBench dataset demonstrate the superiority of Prompt4Vis, which notably surpasses the state-of-the-art (SOTA) RGVisNet by approximately 35.9% and 71.3% on dev and test sets, respectively. To the best of our knowledge, Prompt4Vis is the first work that introduces in-context learning into the text-to-vis for generating data visualization queries.
翻訳日:2024-02-18 13:41:08 公開日:2024-01-29
# IRSを用いた統合センシング・通信システムのディープラーニングチャネル推定

Deep-Learning Channel Estimation for IRS-Assisted Integrated Sensing and Communication System ( http://arxiv.org/abs/2402.09441v1 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, and Fanggang Wang(参考訳) 統合センシング・通信(ISAC)とインテリジェント反射面(IRS)は、次世代無線システムのスペクトルおよびエネルギー効率を高める革命的技術として構想されている。 本稿では,irs支援型isacシステムにおけるチャネル推定問題に初めて注目する。 この問題は、受動IRSにおける信号処理能力の欠如と、ISACシステムにおけるセンシングと通信(SAC)信号間の相互干渉の存在により困難である。 第1段階での直接SACチャネルの推定,第2段の反射通信チャネル,第3段の反射検知チャネルなど,推定問題をサブ1に分離する3段階のアプローチを提案する。 提案する3段階のアプローチは,2つの異なる畳み込みニューラルネットワーク(CNN)アーキテクチャを備えたディープラーニングフレームワークに基づいて,全二重ISAC基地局のチャネルを推定する。 さらに、cnnを訓練するための2種類の入出力ペアを慎重に設計し、様々な信号対雑音比条件とシステムパラメータにおける推定性能に影響を与える。 シミュレーションの結果,最小二乗法に比べ,提案手法の優位性を検証し,計算複雑性も解析した。

Integrated sensing and communication (ISAC), and intelligent reflecting surface (IRS) are envisioned as revolutionary technologies to enhance spectral and energy efficiencies for next wireless system generations. For the first time, this paper focuses on the channel estimation problem in an IRS-assisted ISAC system. This problem is challenging due to the lack of signal processing capacity in passive IRS, as well as the presence of mutual interference between sensing and communication (SAC) signals in ISAC systems. A three-stage approach is proposed to decouple the estimation problem into sub-ones, including the estimation of the direct SAC channels in the first stage, reflected communication channel in the second stage, and reflected sensing channel in the third stage. The proposed three-stage approach is based on a deep-learning framework, which involves two different convolutional neural network (CNN) architectures to estimate the channels at the full-duplex ISAC base station. Furthermore, two types of input-output pairs to train the CNNs are carefully designed, which affect the estimation performance under various signal-to-noise ratio conditions and system parameters. Simulation results validate the superiority of the proposed estimation approach compared to the least-squares baseline scheme, and its computational complexity is also analyzed.
翻訳日:2024-02-18 13:19:01 公開日:2024-01-29
# IRS支援多ユーザISACシステムにおける極端学習機械によるチャネル推定

Extreme Learning Machine-based Channel Estimation in IRS-Assisted Multi-User ISAC System ( http://arxiv.org/abs/2402.09440v1 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, Fanggang Wang, and Hyundong Shin(参考訳) 近年,高スペクトル・エネルギー効率伝送を実現するために,インテリジェント反射面(IRS)を利用した多ユーザ統合センシング通信(ISAC)が研究されている。 本稿では、IRS支援マルチユーザISACシステムに対して、初めて実用的なチャネル推定手法を提案する。 このようなシステムにおける推定問題は、検知通信(SAC)信号が互いに干渉し合い、受動IRSは信号処理能力に欠けるため困難である。 直接チャネル推定と反射チャネル推定を連続的に含む, 全体推定問題をサブワンに伝達する2段階の手法を提案する。 このスキームに基づいて、ISACベースステーション(BS)は、ターゲットおよびアップリンクユーザに関連するすべてのSACチャネルを推定し、ダウンリンクユーザは、ダウンリンク通信チャネルを個別に推定する。 提案手法は,ISAC BSとダウンリンク利用者の低コストな需要を考慮し,上記SACチャネルを推定するために,2つの異なるエクストリーム機械学習マシン(ELM)構造を含む,効率的なニューラルネットワーク(NN)フレームワークによって実現されている。 さらに、EMMを訓練する2種類の入出力ペアを慎重に設計し、異なるシステムパラメータの予測精度と計算複雑性に影響を与える。 シミュレーションの結果,学習複雑性の低減と学習速度の高速化により,最小2乗ベンチマークとnnベンチマークに対するelmベースアプローチによる性能改善が得られた。

Multi-user integrated sensing and communication (ISAC) assisted by intelligent reflecting surface (IRS) has been recently investigated to provide a high spectral and energy efficiency transmission. This paper proposes a practical channel estimation approach for the first time to an IRS-assisted multiuser ISAC system. The estimation problem in such a system is challenging since the sensing and communication (SAC) signals interfere with each other, and the passive IRS lacks signal processing ability. A two-stage approach is proposed to transfer the overall estimation problem into sub-ones, successively including the direct and reflected channels estimation. Based on this scheme, the ISAC base station (BS) estimates all the SAC channels associated with the target and uplink users, while each downlink user estimates the downlink communication channels individually. Considering a low-cost demand of the ISAC BS and downlink users, the proposed two-stage approach is realized by an efficient neural network (NN) framework that contains two different extreme learning machine (ELM) structures to estimate the above SAC channels. Moreover, two types of input-output pairs to train the ELMs are carefully devised, which impact the estimation accuracy and computational complexity under different system parameters. Simulation results reveal a substantial performance improvement achieved by the proposed ELM-based approach over the least-squares and NN-based benchmarks, with reduced training complexity and faster training speed.
翻訳日:2024-02-18 13:03:12 公開日:2024-01-29
# IRS支援ISACシステムのディープラーニングに基づくチャネル推定

Deep-Learning-Based Channel Estimation for IRS-Assisted ISAC System ( http://arxiv.org/abs/2402.09439v1 )

ライセンス: Link先を確認
Yu Liu, Ibrahim Al-Nahhal, Octavia A. Dobre, and Fanggang Wang(参考訳) 統合センシング・通信(ISAC)とインテリジェント反射面(IRS)は,次世代無線ネットワークにおいて有望な技術であると考えられる。 IRS支援ISACシステムにおけるチャネル推定問題について検討する。 このようなシステムにおけるセンシング・通信(S&C)チャネルを推定するために,ディープラーニングフレームワークを提案する。 S&Cチャネルの異なる伝搬環境を考慮すると、このフレームワークを実現するために、2つのディープニューラルネットワーク(DNN)アーキテクチャが設計されている。 第1のDNNはISAC基地局で検知チャネルを推定するために考案され、第2のDNNアーキテクチャは通信チャネルを推定するために各ダウンリンクユーザ機器に割り当てられる。 さらに、DNNを訓練する入出力ペアを慎重に設計する。 シミュレーションの結果,様々な信号対雑音比条件とシステムパラメータのベンチマーク手法と比較して,提案手法の優位性を示した。

Integrated sensing and communication (ISAC) and intelligent reflecting surface (IRS) are viewed as promising technologies for future generations of wireless networks. This paper investigates the channel estimation problem in an IRS-assisted ISAC system. A deep-learning framework is proposed to estimate the sensing and communication (S&C) channels in such a system. Considering different propagation environments of the S&C channels, two deep neural network (DNN) architectures are designed to realize this framework. The first DNN is devised at the ISAC base station for estimating the sensing channel, while the second DNN architecture is assigned to each downlink user equipment to estimate its communication channel. Moreover, the input-output pairs to train the DNNs are carefully designed. Simulation results show the superiority of the proposed estimation approach compared to the benchmark scheme under various signal-to-noise ratio conditions and system parameters.
翻訳日:2024-02-18 13:02:46 公開日:2024-01-29
# 自律走行システムのための学習型カメラとライダーシミュレーション手法の検討

Review of the Learning-based Camera and Lidar Simulation Methods for Autonomous Driving Systems ( http://arxiv.org/abs/2402.10079v1 )

ライセンス: Link先を確認
Hamed Haghighi, Xiaomeng Wang, Hao Jing, and Mehrdad Dianati(参考訳) 知覚センサー、特にカメラとライダーは、自律運転システム(ADS)の重要な要素であり、周囲を理解して、情報的な運転と制御の決定を可能にする。 したがって、現実的なカメラとライダーシミュレーション手法の開発は、ADSのシミュレーションベースの試験を効果的に行う上で最重要となる。 さらに、深層学習に基づく知覚モデルの台頭は、多様なトレーニングデータセットを合成するための貴重なツールとして、知覚センサモデルの普及を促している。 従来のセンサシミュレーション手法は計算コストの高い物理アルゴリズム、特にADSのような複雑なシステムに依存している。 したがって、現在のポテンシャルは、高次元データの合成における深層生成モデルの成功により、学習ベースモデルに存在している。 本稿では,カメラとライダーの2種類の知覚センサに焦点をあて,学習に基づくセンサシミュレーション手法と検証手法の現状について概説する。 本稿では,学習ベースアプローチの2つのカテゴリ,すなわち生データベースモデルとオブジェクトベースモデルについて概説する。 実データに基づく手法は採用した学習戦略に関して説明され、オブジェクトベースのモデルは考慮されたエラーの種類に基づいて分類される。 最後に,知覚センサモデルの評価に一般的な検証手法を示し,その領域における既存の研究ギャップを浮き彫りにする。

Perception sensors, particularly camera and Lidar, are key elements of Autonomous Driving Systems (ADS) that enable them to comprehend their surroundings for informed driving and control decisions. Therefore, developing realistic camera and Lidar simulation methods, also known as camera and Lidar models, is of paramount importance to effectively conduct simulation-based testing for ADS. Moreover, the rise of deep learning-based perception models has propelled the prevalence of perception sensor models as valuable tools for synthesising diverse training datasets. The traditional sensor simulation methods rely on computationally expensive physics-based algorithms, specifically in complex systems such as ADS. Hence, the current potential resides in learning-based models, driven by the success of deep generative models in synthesising high-dimensional data. This paper reviews the current state-of-the-art in learning-based sensor simulation methods and validation approaches, focusing on two main types of perception sensors: cameras and Lidars. This review covers two categories of learning-based approaches, namely raw-data-based and object-based models. Raw-data-based methods are explained concerning the employed learning strategy, while object-based models are categorised based on the type of error considered. Finally, the paper illustrates commonly used validation techniques for evaluating perception sensor models and highlights the existing research gaps in the area.
翻訳日:2024-02-18 12:37:58 公開日:2024-01-29
# C4Q:量子のチャットボット

C4Q: A Chatbot for Quantum ( http://arxiv.org/abs/2402.01738v1 )

ライセンス: Link先を確認
Yaiza Aragon\'es-Soria and Manuel Oriol(参考訳) 量子コンピューティングは、量子暗号や量子ファイナンスのような現実世界のアプリケーションの多くを約束する分野である。 しかし、量子コンピューティングを使える人はまだ少ない。 この制限は、概念を理解し、コーディングを始める方法を知るのが難しいことに由来する。 したがって、非専門家がこの複雑さを克服するのを助けるツールが必要となる。 既存の会話エージェントを使用することも考えられる。 残念ながらChatGPTや他の大規模言語モデルは不正確な結果をもたらす。 この記事では,量子プログラムをコーディングしようとするユーザをガイドするチャットボットC4Qを紹介する。 他のアプローチとは対照的に、C4Qはトレーニング済みの大規模言語モデルを使用して、ユーザの要求を検出して分類する。 そして、独自のエンジンを使って正確な答えを生成する。 このアーキテクチャ設計のおかげで、C4Qの回答は常に正しいので、C4Qは量子コンピューティングを非専門家に利用できるようにするサポートツールになる。

Quantum computing is a growing field that promises many real-world applications such as quantum cryptography or quantum finance. The number of people able to use quantum computing is however still very small. This limitation comes from the difficulty to understand the concepts and to know how to start coding. Therefore, there is a need for tools that can assist non-expert in overcoming this complexity. One possibility would be to use existing conversational agents. Unfortunately ChatGPT and other Large-Language Models produce inaccurate results. This article presents C4Q, a chatbot that answers accurately basic questions and guides users when trying to code quantum programs. Contrary to other approaches C4Q uses a pre-trained large language model only to discover and classify user requests. It then generates an accurate answer using an own engine. Thanks to this architectural design, C4Q's answers are always correct, and thus C4Q can become a support tool that makes quantum computing more available to non-experts.
翻訳日:2024-02-11 16:19:45 公開日:2024-01-29
# 社会認識対話のための大規模言語モデルエージェント

Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues ( http://arxiv.org/abs/2402.01737v1 )

ライセンス: Link先を確認
Yuncheng Hua, Lizhen Qu, Gholamreza Haffari(参考訳) 本研究では,マルチエージェント環境での交渉における社会的規範違反を軽減するため,LLMエージェントの開発を目指す。 2つの大きな言語モデル(llm)がそれぞれの会話で2つの交渉役を演じることで、現実世界の交渉をシミュレートする。 第3のllmは、交渉結果を改善するための規範に違反する発話を書き直すための修復エージェントとして機能する。 新しいタスクであるため、手作業で構築したデータは使用できない。 この制限に対処するために、我々は、価値影響関数が交渉結果の質を測定するLLMベースの修復エージェントの高品質なICL例を特定するために、価値影響に基づく文脈学習(ICL)手法を導入する。 本手法は,政策学習との関連を示し,製品販売,住宅価格,給与交渉という3つのトピックにわたる交渉において,その効果を示す豊富な実証的証拠を提供する。 ソースコードと生成されたデータセットは、受理時に公開される。

In this work, we aim to develop LLM agents to mitigate social norm violations in negotiations in a multi-agent setting. We simulate real-world negotiations by letting two large Language Models (LLMs) play the roles of two negotiators in each conversation. A third LLM acts as a remediation agent to rewrite utterances violating norms for improving negotiation outcomes. As it is a novel task, no manually constructed data is available. To address this limitation, we introduce a value impact based In-Context Learning (ICL) method to identify high-quality ICL examples for the LLM-based remediation agents, where the value impact function measures the quality of negotiation outcomes. We show the connection of this method to policy learning and provide rich empirical evidence to demonstrate its effectiveness in negotiations across three different topics: product sale, housing price, and salary negotiation. The source code and the generated dataset will be publicly available upon acceptance.
翻訳日:2024-02-11 16:19:30 公開日:2024-01-29
# SADAS:バイリンガル社会・文化会話におけるノーム違反の即時対応のための対話支援システム

SADAS: A Dialogue Assistant System Towards Remediating Norm Violations in Bilingual Socio-Cultural Conversations ( http://arxiv.org/abs/2402.01736v1 )

ライセンス: Link先を確認
Yuncheng Hua, Zhuang Li, Linhao Luo, Kadek Ananta Satriadi, Tao Feng, Haolan Zhan, Lizhen Qu, Suraj Sharma, Ingrid Zukerman, Zhaleh Semnani-Azad and Gholamreza Haffari(参考訳) 今日のグローバル化した世界では、文化的な分断を埋めることは、意味のあるつながりを築く上で、これまで以上に重要である。 社会的に認識された対話アシスタントシステム(sadas)は、このグローバルな課題に対する我々の答えであり、さまざまな文化的背景を持つ個人間の会話が、敬意と理解によって展開されることを保証するように設計されています。 本システムの新しいアーキテクチャは,(1)対話に存在する規範のカテゴリの同定,(2)潜在的な規範違反の検出,(3)違反の深刻度の評価,(4)違反の是正を目的とした対策の実施,(5)これらの修正行動の背後にある理論的根拠の明確化を含む。 我々は、異なるモジュールを構築するために一連のステートオフ・ザ・アーツ(SOTA)技術を使用し、各モジュールに最適なバックボーンモデルを選択するために多数の実験を行った。 また,システム全体の性能を検証するための人間選好実験も設計した。 我々は、将来の研究を進めるために、私たちのシステム(ソースコード、ツール、アプリケーションを含む)をオープンソース化します。 我々のシステムのデモビデオは以下の通りである。 私たちはコードとソフトウェアを次のようにリリースしました。

In today's globalized world, bridging the cultural divide is more critical than ever for forging meaningful connections. The Socially-Aware Dialogue Assistant System (SADAS) is our answer to this global challenge, and it's designed to ensure that conversations between individuals from diverse cultural backgrounds unfold with respect and understanding. Our system's novel architecture includes: (1) identifying the categories of norms present in the dialogue, (2) detecting potential norm violations, (3) evaluating the severity of these violations, (4) implementing targeted remedies to rectify the breaches, and (5) articulates the rationale behind these corrective actions. We employ a series of State-Of-The-Art (SOTA) techniques to build different modules, and conduct numerous experiments to select the most suitable backbone model for each of the modules. We also design a human preference experiment to validate the overall performance of the system. We will open-source our system (including source code, tools and applications), hoping to advance future research. A demo video of our system can be found at:~\url{https://youtu.be/JqetWkfsejk}. We have released our code and software at:~\url{https://github.com/AnonymousEACLDemo/SADAS}.
翻訳日:2024-02-11 16:19:14 公開日:2024-01-29
# VIALM:大規模モデルによる視覚障害者支援に関する調査とベンチマーク

VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large Models ( http://arxiv.org/abs/2402.01735v1 )

ライセンス: Link先を確認
Yi Zhao, Yilin Zhang, Rong Xiang, Jing Li, Hillming Li(参考訳) 視覚障害者支援(via)は、視覚障害者(vi)が日常の活動を自動で支援することを目的としている。 VIAの進歩は主にコンピュータビジョン(CV)と自然言語処理(NLP)の発展に依存しており、どちらも大きなモデル(LM)を持つ最先端のパラダイムを示している。 さらに、lmsは体格ロボットのような身体的な課題に取り組むための特別なマルチモーダル能力を示している。 本研究では,VIAアプリケーションにおけるSOTA (State-of-the-art) LMs の可能性と限界を明らかにするために,VIA と LMs (\textbf{VIALM}) のタスクについて広範な研究を行う。 このタスクでは、VIALMは、物理環境を照明する \textit{image} と、VI ユーザから \textit{linguistic request} が与えられると、ステップバイステップの \textit{guidance} を出力し、環境に根ざした要求を満たすために VI ユーザを支援する。 この研究は、最近のLM研究のレビューと、VIAにおける選択されたLMの能力を調べるベンチマーク実験から成っている。 その結果、LM は VIA を増強できるが、その出力は実際には textit{grounded} (25.7 % GPT-4 の応答) で、 textit{fine-grained} ガイダンス (32.1 % GPT-4 の応答) を欠いている。

Visually Impaired Assistance (VIA) aims to automatically help visually impaired (VI) handle daily activities. The advancement of VIA primarily depends on developments in Computer Vision (CV) and Natural Language Processing (NLP), both of which exhibit cutting-edge paradigms with large models (LMs). Furthermore, LMs have shown exceptional multimodal abilities to tackle challenging physically-grounded tasks such as embodied robots. To investigate the potential and limitations of state-of-the-art (SOTA) LMs' capabilities in VIA applications, we present an extensive study for the task of VIA with LMs (\textbf{VIALM}). In this task, given an \textit{image} illustrating the physical environments and a \textit{linguistic request} from a VI user, VIALM aims to output step-by-step \textit{guidance} to assist the VI user in fulfilling the request grounded in the environment. The study consists of a survey reviewing recent LM research and benchmark experiments examining selected LMs' capabilities in VIA. The results indicate that while LMs can augment VIA, their output cannot be well \textit{grounded} in reality (i.e., 25.7\% GPT-4's responses) and lacks \textit{fine-grained} guidance (i.e., 32.1\% GPT-4's responses).
翻訳日:2024-02-11 16:18:51 公開日:2024-01-29
# 大規模言語モデルにおける検索拡張生成の開発とテスト--事例研究

Development and Testing of Retrieval Augmented Generation in Large Language Models -- A Case Study Report ( http://arxiv.org/abs/2402.01733v1 )

ライセンス: Link先を確認
YuHe Ke, Liyuan Jin, Kabilan Elangovan, Hairil Rizal Abdullah, Nan Liu, Alex Tiong Heng Sia, Chai Rick Soh, Joshua Yi Min Tung, Jasmine Chiat Ling Ong, Daniel Shu Wei Ting(参考訳) 目的:Large Language Models (LLMs) は医療応用において大きな可能性を秘めている。 Retrieval Augmented Generation (RAG)は、LLMにおけるドメイン知識をカスタマイズするための有望なアプローチとして登場した。 本研究は, 医療に適したLLM-RAGパイプラインの開発と評価, 特に術前医療に焦点を当てた。 方法:35の術前ガイドラインを用いたllm-ragモデルを開発し,人為的反応に対する反応評価を行った。 RAGプロセスは、臨床文書をLangChainやLlamaindexといったPythonベースのフレームワークを使ってテキストに変換し、これらのテキストを埋め込みと検索のためにチャンクに処理する。 ベクトル保存技術とデータ検索を最適化する埋め込みモデルの選択は、1536次元のベクトルストレージにpineconeを使用し、損失メトリクスにcosine類似性を使用する。 若手医師が提供した人為的な回答を比較対象とした。 結果: LLM-RAGモデルでは,平均15~20秒以内の回答が得られた。 基本的なLCMのうち、GPT4.0は80.1%の精度を示した。 この精度はRAGでモデルが強化されたときに91.4%に向上した。 gpt4.0 ragモデルの性能は,86.3%の精度のヒト生成命令と比較すると非干渉性(p=0.610)を示した。 結論:本症例では,医療実践のためのLLM-RAGモデルを実証した。 パイプラインは、医療用LLMデプロイメントの重要な側面として、基盤となる知識、アップグレード性、スケーラビリティの利点を示しています。

Purpose: Large Language Models (LLMs) hold significant promise for medical applications. Retrieval Augmented Generation (RAG) emerges as a promising approach for customizing domain knowledge in LLMs. This case study presents the development and evaluation of an LLM-RAG pipeline tailored for healthcare, focusing specifically on preoperative medicine. Methods: We developed an LLM-RAG model using 35 preoperative guidelines and tested it against human-generated responses, with a total of 1260 responses evaluated. The RAG process involved converting clinical documents into text using Python-based frameworks like LangChain and Llamaindex, and processing these texts into chunks for embedding and retrieval. Vector storage techniques and selected embedding models to optimize data retrieval, using Pinecone for vector storage with a dimensionality of 1536 and cosine similarity for loss metrics. Human-generated answers, provided by junior doctors, were used as a comparison. Results: The LLM-RAG model generated answers within an average of 15-20 seconds, significantly faster than the 10 minutes typically required by humans. Among the basic LLMs, GPT4.0 exhibited the best accuracy of 80.1%. This accuracy was further increased to 91.4% when the model was enhanced with RAG. Compared to the human-generated instructions, which had an accuracy of 86.3%, the performance of the GPT4.0 RAG model demonstrated non-inferiority (p=0.610). Conclusions: In this case study, we demonstrated a LLM-RAG model for healthcare implementation. The pipeline shows the advantages of grounded knowledge, upgradability, and scalability as important aspects of healthcare LLM deployment.
翻訳日:2024-02-11 16:18:20 公開日:2024-01-29
# 3DG: インテリジェントチューニングシステムからのスパース学習者パフォーマンスデータの処理に生成AIを使用するフレームワーク

3DG: A Framework for Using Generative AI for Handling Sparse Learner Performance Data From Intelligent Tutoring Systems ( http://arxiv.org/abs/2402.01746v1 )

ライセンス: Link先を確認
Liang Zhang, Jionghao Lin, Conrad Borchers, Meng Cao, Xiangen Hu(参考訳) パフォーマンスデータ(例えばクイズスコアや試み)の学習は、学習者のエンゲージメントと知識習得のレベルを理解する上で重要である。 しかし、知的学習システム(itss)から収集された学習性能データは、しばしばスパーシティに苦しめられ、学習者のモデリングと知識評価の精度に影響を及ぼす。 そこで本稿では、3dgフレームワーク(3-dimensional tensor for densification and generation)について紹介する。これはテンソル因子分解と、gan(generative adversarial network)とgpt(generative pre-trained transformer)を含む先進的生成モデルを組み合わせた新しいアプローチである。 このフレームワークは、まずデータを3次元テンソルとして表現し、学習者、質問、試行の次元をキャプチャする。 そして、テンソル因子化を通じてデータを密度化し、クラスタリングによって特定される個々の学習パターンに合わせて生成AIモデルを使用して拡張する。 成人リテラシー研究センター(csal)によるオートチュータ授業のデータに適用すると、3dgフレームワークは、学習パフォーマンスのスケーラブルでパーソナライズされたシミュレーションを効果的に生成した。 比較分析により、GANはGPT-4よりも信頼性が優れており、ITSにおけるデータ疎性問題に対処し、パーソナライズされた教育技術の進歩に寄与する可能性を示している。

Learning performance data (e.g., quiz scores and attempts) is significant for understanding learner engagement and knowledge mastery level. However, the learning performance data collected from Intelligent Tutoring Systems (ITSs) often suffers from sparsity, impacting the accuracy of learner modeling and knowledge assessments. To address this, we introduce the 3DG framework (3-Dimensional tensor for Densification and Generation), a novel approach combining tensor factorization with advanced generative models, including Generative Adversarial Network (GAN) and Generative Pre-trained Transformer (GPT), for enhanced data imputation and augmentation. The framework operates by first representing the data as a three-dimensional tensor, capturing dimensions of learners, questions, and attempts. It then densifies the data through tensor factorization and augments it using Generative AI models, tailored to individual learning patterns identified via clustering. Applied to data from an AutoTutor lesson by the Center for the Study of Adult Literacy (CSAL), the 3DG framework effectively generated scalable, personalized simulations of learning performance. Comparative analysis revealed GAN's superior reliability over GPT-4 in this context, underscoring its potential in addressing data sparsity challenges in ITSs and contributing to the advancement of personalized educational technology.
翻訳日:2024-02-11 16:03:59 公開日:2024-01-29
# 階層グラフによる分子運動の解明

Unveiling Molecular Moieties through Hierarchical Graph Explainability ( http://arxiv.org/abs/2402.01744v1 )

ライセンス: Link先を確認
Paolo Sortino, Salvatore Contino, Ugo Perricone and Roberto Pirrone(参考訳) 背景: シリコン仮想スクリーニングをサポートする強力なツールとして、グラフニューラルネットワーク(GNN)が最近登場した。 本稿では,グラフ畳み込みアーキテクチャを用いて,高精度なマルチターゲットスクリーニングを実現するGNNを提案する。 また, メッセージパッシング機構を利用して, 原子, 環, 分子レベルでの情報を直接取得する階層的説明可能な人工知能(XAI)技術も考案した。 このようにして、生物活性予測に最も関係のあるモイエティが見つかる。 結果: VS をサポートするため,20 個のサイクリン依存型 Kinase ターゲット上の最新の GNN 分類器を報告した。 さらに、GNNのCDK1のみの高感度バージョンは、マルチクラスのモデル固有のバイアスを避けるために、私たちの説明器を使用するように設計されている。 この階層的説明は、専門家の化学者によって、cdk1上の19の承認薬について検証された。 説明者は19種類のテスト薬物のうち17種類のドッキング分析に基づいて情報を提供した。 結論:我々のアプローチはスクリーニングとヒット・ツー・リードフェーズの両方を短縮するための有効なサポートです。 阻害作用に関与する分子サブ構造に関する詳細な知識は、計算化学者が分子の薬理機能に関する洞察を得るのに役立つ。

Background: Graph Neural Networks (GNN) have emerged in very recent years as a powerful tool for supporting in silico Virtual Screening. In this work we present a GNN which uses Graph Convolutional architectures to achieve very accurate multi-target screening. We also devised a hierarchical Explainable Artificial Intelligence (XAI) technique to catch information directly at atom, ring, and whole molecule level by leveraging the message passing mechanism. In this way, we find the most relevant moieties involved in bioactivity prediction. Results: We report a state-of-the-art GNN classifier on twenty Cyclin-dependent Kinase targets in support of VS. Our classifier outperforms previous SOTA approaches proposed by the authors. Moreover, a CDK1-only high-sensitivity version of the GNN has been designed to use our explainer in order to avoid the inherent bias of multi-class models. The hierarchical explainer has been validated by an expert chemist on 19 approved drugs on CDK1. Our explainer provided information in accordance to the docking analysis for 17 out of the 19 test drugs. Conclusion: Our approach is a valid support for shortening both the screening and the hit-to-lead phase. Detailed knowledge about the molecular substructures that play a role in the inhibitory action, can help the computational chemist to gain insights into the pharmacophoric function of the molecule also for repurposing purposes.
翻訳日:2024-02-11 16:03:31 公開日:2024-01-29
# 不確実性による推論:構造的AIリスク

The Reasoning Under Uncertainty Trap: A Structural AI Risk ( http://arxiv.org/abs/2402.01743v1 )

ライセンス: Link先を確認
Toby D. Pilditch(参考訳) 本稿では,現在の(そして予想される)AIツールに関連する新たなリスクについて検討する。 将来の行動について効果的な決定を下すには、不確実性の下での推論(ruu)が必要です。 この課題に直面して、意思決定者を支援するLLMのようなAIツールへの需要が高まっている。 この需要とそれの背後にあるインセンティブを証明して、私たちはリスクを増大させます。 1)現在、この点においてLLMの能力を十分に理解していない。 2) 基礎計算の爆発性および精度に対する深い不確実性制約を考慮すれば, 性能の保証は得られない。 このレポートは、RUUを人間と機械の両方にとって困難なものにしているものを示し、これらの困難をAIのタイムラインと能力に関連付ける。 現在の潜在的な誤用リスクを確立した上で、この追加的リスク(より誤用が潜在的害に寄与した)が実際に乗法的特性を持つことを明らかにする。 具体的には、この誤用リスクが、基盤となる構造的リスクのネットワーク(例えば、インセンティブのシフト、透明性の制限、フィードバックループ)とどのように結びつき、非線形の害を生み出すかを詳述する。 続いて、問題の構造における複数のレバレッジポイントをターゲットにしたソリューションロードマップを提供しています。 これには、関与するアクター(プロスペクティブユーザ、開発者、ポリシーメーカ)すべてに対するレコメンデーションが含まれ、Decision-making Under Deep Uncertaintyや複雑なシステム理論といった分野からの洞察を包含する。 このレポートは、現在の新しいAIリスクの認識(そしてその後、緩和/修正)を高めるだけでなく、それらの相互接続された性質が、その潜在的な影響を増幅しながら、その存在を2つの危険に見立てることによって、基盤となる構造的リスクの意識を高めるのに役立つ。

This report examines a novel risk associated with current (and projected) AI tools. Making effective decisions about future actions requires us to reason under uncertainty (RUU), and doing so is essential to many critical real world problems. Overfaced by this challenge, there is growing demand for AI tools like LLMs to assist decision-makers. Having evidenced this demand and the incentives behind it, we expose a growing risk: we 1) do not currently sufficiently understand LLM capabilities in this regard, and 2) have no guarantees of performance given fundamental computational explosiveness and deep uncertainty constraints on accuracy. This report provides an exposition of what makes RUU so challenging for both humans and machines, and relates these difficulties to prospective AI timelines and capabilities. Having established this current potential misuse risk, we go on to expose how this seemingly additive risk (more misuse additively contributed to potential harm) in fact has multiplicative properties. Specifically, we detail how this misuse risk connects to a wider network of underlying structural risks (e.g., shifting incentives, limited transparency, and feedback loops) to produce non-linear harms. We go on to provide a solutions roadmap that targets multiple leverage points in the structure of the problem. This includes recommendations for all involved actors (prospective users, developers, and policy-makers) and enfolds insights from areas including Decision-making Under Deep Uncertainty and complex systems theory. We argue this report serves not only to raise awareness (and subsequently mitigate/correct) of a current, novel AI risk, but also awareness of the underlying class of structural risks by illustrating how their interconnected nature poses twin-dangers of camouflaging their presence, whilst amplifying their potential effects.
翻訳日:2024-02-11 16:03:04 公開日:2024-01-29
# LLM利用コストの最適化に向けて

Towards Optimizing the Costs of LLM Usage ( http://arxiv.org/abs/2402.01742v1 )

ライセンス: Link先を確認
Shivanshu Shekhar, Tanishq Dubey, Koyel Mukherjee, Apoorv Saxena, Atharv Tyagi, Nishanth Kotla(参考訳) 特にジェネレーティブAIとLLMは、質問応答や要約といった様々な文書処理タスクに広く利用されている。 しかし、異なるLLMは異なるタスクと異なるコスト、トークン化、レイテンシの異なる機能を備えています。 実際、企業はそれぞれのユースケースに対して LLM の運用や使用に多大なコストをかけています。 そこで本研究では,llmの出力品質を推定する(実際にllmを呼び出すことなく)ことで,llmの利用コストを最適化し,コストを予算以下に保つか,あるいはコストを最小限に抑えるための最適化ルーチンを,品質とレイテンシを意識した方法で解くことを提案する。 要約などの文書処理タスクにおいてLLMの出力品質を予測するモデルを提案し,LLMの選択を最適化するためのLPラウンドリングアルゴリズムを提案する。 品質とコストを理論的にも実証的にもトレードオフする最適化問題について検討する。 さらに,制御された方法でトークン数を削減できる文単純化モデルを提案する。 さらに,トークンを品質意識的に削減するための決定論的ヒューリスティックスを提案し,品質とコストのトレードオフを最適化するヒューリスティックスを適用する際の関連する最適化問題について検討する。 私たちは、エンタープライズデータセットだけでなく、オープンソースデータセットでも、私たちのメソッドの広範な実証検証を行い、最も近いベースラインよりもずっと優れたパフォーマンスを示す。 本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。 アノテーション付きのオープンソースデータセットをコミュニティにリリースし、さらなる調査と調査を行います。

Generative AI and LLMs in particular are heavily used nowadays for various document processing tasks such as question answering and summarization. However, different LLMs come with different capabilities for different tasks as well as with different costs, tokenization, and latency. In fact, enterprises are already incurring huge costs of operating or using LLMs for their respective use cases. In this work, we propose optimizing the usage costs of LLMs by estimating their output quality (without actually invoking the LLMs), and then solving an optimization routine for the LLM selection to either keep costs under a budget, or minimize the costs, in a quality and latency aware manner. We propose a model to predict the output quality of LLMs on document processing tasks like summarization, followed by an LP rounding algorithm to optimize the selection of LLMs. We study optimization problems trading off the quality and costs, both theoretically and empirically. We further propose a sentence simplification model for reducing the number of tokens in a controlled manner. Additionally, we propose several deterministic heuristics for reducing tokens in a quality aware manner, and study the related optimization problem of applying the heuristics optimizing the quality and cost trade-off. We perform extensive empirical validation of our methods on not only enterprise datasets but also on open-source datasets, annotated by us, and show that we perform much better compared to closest baselines. Our methods reduce costs by 40%- 90% while improving quality by 4%-7%. We will release the annotated open source datasets to the community for further research and exploration.
翻訳日:2024-02-11 16:02:32 公開日:2024-01-29
# 新規大規模言語モデルに基づく医薬品安全のための臨床判断支援システムの開発と試験

Development and Testing of a Novel Large Language Model-Based Clinical Decision Support Systems for Medication Safety in 12 Clinical Specialties ( http://arxiv.org/abs/2402.01741v1 )

ライセンス: Link先を確認
Jasmine Chiat Ling Ong, Liyuan Jin, Kabilan Elangovan, Gilbert Yong San Lim, Daniel Yan Zheng Lim, Gerald Gui Ren Sng, Yuhe Ke, Joshua Yi Min Tung, Ryan Jian Zhong, Christopher Ming Yao Koh, Keane Zhi Hao Lee, Xiang Chen, Jack Kian Chng, Aung Than, Ken Junyang Goh, Daniel Shu Wei Ting(参考訳) 重要度: 安全な医薬品処方のための臨床診断支援システムとして, LLM (Retrieval Augmented Generation)-Large Language Model) を導入した。 このモデルは、患者コンテキストや制度ガイドラインに合わせて、関連する処方エラー警告を提供することによって、従来のルールベースのCDSSの制限に対処する。 目的: 本研究は, llmベースのcdssが, ヒトの専門家パネルと比較し, 様々な医療・外科症例における薬剤エラーの同定に有効であることを評価する。 また, 若年薬剤師, LLMベースのCDSS単独, 両者の併用など,CDSS統合モードの異なる臨床的嗜好についても検討した。 設計、設定、参加者: GPT-4.0を用いたRAGモデルを用いて、研究は12の専門分野にわたる23の臨床ヴィグネット内で61のエラーシナリオを規定した。 専門家パネルはPCNE分類とNCC MERP指数を用いてこれらの症例を評価した。 3人の若い薬剤師がシミュレートされた条件でそれぞれのヴィグネットを独自にレビューした。 主な成果と対策:本研究は、LCMベースのCDSSの精度、精度、リコール、F1スコアを評価し、薬物関連問題(DRP)を特定する。 結果: RAG-LLMのコパイロットモードにより, DRPの同定精度は単独薬剤師より22%向上した。 再現率とF1スコアは高く, 精度はわずかに低下したが, 重篤なDRPの検出が良好であった。 薬剤師がRAG-LLM応答にアクセスできる場合、精度はカテゴリーによって異なる。 結論:RAG-LLMをベースとしたCDSSは,中年薬剤師との併用,特に重度のDRPの検出において,薬剤の誤検出精度を高める。

Importance: We introduce a novel Retrieval Augmented Generation (RAG)-Large Language Model (LLM) as a Clinical Decision Support System (CDSS) for safe medication prescription. This model addresses the limitations of traditional rule-based CDSS by providing relevant prescribing error alerts tailored to patient context and institutional guidelines. Objective: The study evaluates the efficacy of an LLM-based CDSS in identifying medication errors across various medical and surgical case vignettes, compared to a human expert panel. It also examines clinician preferences among different CDSS integration modalities: junior pharmacist, LLM-based CDSS alone, and a combination of both. Design, Setting, and Participants: Utilizing a RAG model with GPT-4.0, the study involved 61 prescribing error scenarios within 23 clinical vignettes across 12 specialties. An expert panel assessed these cases using the PCNE classification and NCC MERP index. Three junior pharmacists independently reviewed each vignette under simulated conditions. Main Outcomes and Measures: The study assesses the LLM-based CDSS's accuracy, precision, recall, and F1 scores in identifying Drug-Related Problems (DRPs), compared to junior pharmacists alone or in an assistive mode with the CDSS. Results: The co-pilot mode of RAG-LLM significantly improved DRP identification accuracy by 22% over solo pharmacists. It showed higher recall and F1 scores, indicating better detection of severe DRPs, despite a slight decrease in precision. Accuracy varied across categories when pharmacists had access to RAG-LLM responses. Conclusions: The RAG-LLM based CDSS enhances medication error identification accuracy when used with junior pharmacists, especially in detecting severe DRPs.
翻訳日:2024-02-11 16:02:07 公開日:2024-01-29
# 認知的負荷による補償バイアス:大規模言語モデルにおける選択バイアスの低減

Compensatory Biases Under Cognitive Load: Reducing Selection Bias in Large Language Models ( http://arxiv.org/abs/2402.01740v1 )

ライセンス: Link先を確認
J. E. Eicher and R. F. Irgoli\v{c}(参考訳) gpt-3.5-turboやclaude-instant-1.2のような大きな言語モデル(LLM)は意味に基づくタスクの解釈や実行に役立っている。 残念ながら、これらのモデル固有のバイアスは、人間の認知バイアスと同様に、パフォーマンスに悪影響を及ぼす。 特に影響を受けるのはリストからのオブジェクト選択であり、デジタルナビゲーションと意思決定における基本的な操作である。 本研究は,これらのバイアスを批判的に検証し,代表リスト選択タスクへの影響を定量化する。 これらのバイアスを探索するため,温度操作,リスト長,オブジェクト識別,オブジェクトタイプ,迅速な複雑性,モデルなど,一連の制御された実験を行った。 これにより,選択行動に対するバイアスの影響を分離し,測定することが可能となった。 以上の結果から, バイアス構造はモデルに大きく依存しており, 対象型は効果の大きさを調節していることがわかった。 強いプライマリー効果により、リストの最初のオブジェクトが出力で不均等に表現される。 さらに、応答構造を保証する素早いエンジニアリング手法であるガードレールの使用は、選択タスクと組み合わせることでバイアスを増大させ、命令の順守を低減することができる。 リストサンプリングステップからガードレールステップを分離し、個々のタスクの複雑さを低下させる場合には、バイアスをアブレーションする。 この研究の意味は2つあり、実質的には偏りのないLLMアプリケーションを設計するためのガイドを提供し、理論的にはLLMがバイアスの増加によって補償される認知的負荷の形式を経験することを示唆している。

Large Language Models (LLMs) like gpt-3.5-turbo and claude-instant-1.2 have become instrumental in interpreting and executing semantic-based tasks. Unfortunately, these models' inherent biases, akin to human cognitive biases, adversely affect their performance. Particularly affected is object selection from lists; a fundamental operation in digital navigation and decision-making. This research critically examines these biases and quantifies the effects on a representative list selection task. To explore these biases, we conducted a series of controlled experiments, manipulating temperature, list length, object identity, object type, prompt complexity, and model. This enabled us to isolate and measure the influence of the biases on selection behavior. Our findings show that bias structure is strongly dependent on the model, with object type modulating the magnitude of the effect. With a strong primacy effect, causing the first objects in a list to be disproprotionately represented in outputs. Furthermore the usage of guard rails, a prompt engineering method of ensuring a response structure, can increase bias and decrease instruction adherence when combined with a selection task. The bias is ablated when the guard rail step is separated from the list sampling step, lowering the complexity of each individual task. The implications of this research are two-fold, practically providing a guide for designing unbiased LLM applications and theoretically suggesting that LLMs experience a form of cognitive load compensated for by increasing bias.
翻訳日:2024-02-11 16:01:36 公開日:2024-01-29
# openmoe: エキスパートのオープンな混合言語モデルへの取り組み

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models ( http://arxiv.org/abs/2402.01739v1 )

ライセンス: Link先を確認
Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You(参考訳) オープンソースコミュニティがMixture-of-Experts(LLM)ベースの大規模言語モデル(LLM)をよりよく理解できるように、OpenMoEをトレーニングしリリースします。 本研究は,MoEをベースとしたLCMが高密度LCMよりも良好なコスト効率トレードオフを提供できることを確認し,今後のLCM開発の有効性を明らかにする。 この研究のもうひとつの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析であり、コンテキスト非依存のスペシャライゼーション、早期ルーティング学習、Drop-towards-the-Endの3つの重要な発見につながっている。 MoEモデルのルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性があることがわかった。 トークン・ツー・エキスパートの割り当てはトレーニング前の段階で決定され、ほとんど変わらない。 この不完全なルーティングは、特にマルチターン会話のようなシーケンシャルなタスクにおいてパフォーマンスが低下する可能性がある。 最後に、上記の観察と分析に基づいて設計を再考する。 今後のMoE LLM開発を容易にするため,我々は,我々が発見した問題を緩和し,市販のMoE LLMの設計をさらに改善するための潜在的戦略を提案する。

To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.
翻訳日:2024-02-11 16:01:12 公開日:2024-01-29
# 説明可能な人工知能を用いたオンライン裁判官システム内の学生プロファイルの同定

Identifying Student Profiles Within Online Judge Systems Using Explainable Artificial Intelligence ( http://arxiv.org/abs/2402.03948v1 )

ライセンス: Link先を確認
Juan Ram\'on Rico-Juan, V\'ictor M. S\'anchez-Cartagena, Jose J. Valero-Mas, Antonio Javier Gallego(参考訳) オンライン審査員(OJ)システムは通常、学生によって開発されたコードの高速かつ客観的な評価を得られるため、プログラミング関連のコースの中で考慮される。 このような評価は、一般的にはルーブリックに基づいた単一の決定を与えるが、最も一般的には、提出が割り当てを成功させるかどうかを判断する。 それにもかかわらず、教育的な文脈ではそのような情報は不十分とみなされる可能性があるので、学生とインストラクターの両方がタスクの全体的な発展について追加のフィードバックを受け取ることは有益である。 本研究の目的は,OJが収集した情報のさらなる活用を考慮し,学生とインストラクターの両方のフィードバックを自動的に推測することで,この制限に対処することである。 より正確には、学習に基づくスキーム、特にMIL(Multi-instance Learning)と古典的な機械学習の定式化を学生行動のモデル化に利用することを検討する。 さらに、説明可能な人工知能(XAI)は、人間の理解可能なフィードバックを提供するために考えられている。 本提案は,プログラミング関連科目から約90名の学生に対して,コンピュータサイエンスの学位を授与された2500名を対象に検討を行った。 このモデルは、OJに提供された提案によって推測される行動パターンのみに基づいて、ユーザ結果(割り当ての通過または失敗)を著しく予測することができる。 さらに,本提案では,学生グループやプロファイル,その他の関連情報を識別し,最終的には学生と教官の双方へのフィードバックとして機能する。

Online Judge (OJ) systems are typically considered within programming-related courses as they yield fast and objective assessments of the code developed by the students. Such an evaluation generally provides a single decision based on a rubric, most commonly whether the submission successfully accomplished the assignment. Nevertheless, since in an educational context such information may be deemed insufficient, it would be beneficial for both the student and the instructor to receive additional feedback about the overall development of the task. This work aims to tackle this limitation by considering the further exploitation of the information gathered by the OJ and automatically inferring feedback for both the student and the instructor. More precisely, we consider the use of learning-based schemes -- particularly, multi-instance learning (MIL) and classical machine learning formulations -- to model student behavior. Besides, explainable artificial intelligence (XAI) is contemplated to provide human-understandable feedback. The proposal has been evaluated considering a case of study comprising 2500 submissions from roughly 90 different students from a programming-related course in a computer science degree. The results obtained validate the proposal: The model is capable of significantly predicting the user outcome (either passing or failing the assignment) solely based on the behavioral pattern inferred by the submissions provided to the OJ. Moreover, the proposal is able to identify prone-to-fail student groups and profiles as well as other relevant information, which eventually serves as feedback to both the student and the instructor.
翻訳日:2024-02-11 15:27:51 公開日:2024-01-29
# trackgpt -- クロスドメインエンティティ軌跡予測のための生成前訓練トランス

TrackGPT -- A generative pre-trained transformer for cross-domain entity trajectory forecasting ( http://arxiv.org/abs/2402.00066v1 )

ライセンス: Link先を確認
Nicholas Stroh(参考訳) 将来のポイントにおける実体軌道の予測は、商業部門と防衛部門の両方におけるアプリケーションにおける重要な能力ギャップである。 トランスフォーマー、特にGPT(Generative Pre-trained Transformer)ネットワークは、最近、OpenAIのChatGPTのような大規模言語モデル(LLM)の出現によって、自然言語処理(NLP)など、人工知能のいくつかの分野に革命をもたらした。 本稿では,海洋領域と航空領域の両方において有用性を示した,実体軌道予測のためのgptに基づくモデルであるtrackgptについて紹介する。 TrackGPTは、さまざまなエンティティ時系列データセット間で正確な予測を生成できる先駆的なGPTモデルであり、持続的な精度で長期予測と高精度な短期予測の両方を生成する能力を示す。 本稿では,最先端のディープラーニング技術に対するベンチマークを行い,トラックgptの予測能力が精度,信頼性,モジュール性において優れていることを示す。 重要なことに、TrackGPTはドメインに依存しないままで、同様のパフォーマンスを達成するモデルと比較して、最小限のデータ機能(場所と時間のみ)を必要とする。 結論として, 革新的なTrackGPTモデルを用いて, GPTアーキテクチャを実体軌道予測のタスクに適用する潜在可能性を明らかにした。

The forecasting of entity trajectories at future points in time is a critical capability gap in applications across both Commercial and Defense sectors. Transformers, and specifically Generative Pre-trained Transformer (GPT) networks have recently revolutionized several fields of Artificial Intelligence, most notably Natural Language Processing (NLP) with the advent of Large Language Models (LLM) like OpenAI's ChatGPT. In this research paper, we introduce TrackGPT, a GPT-based model for entity trajectory forecasting that has shown utility across both maritime and air domains, and we expect to perform well in others. TrackGPT stands as a pioneering GPT model capable of producing accurate predictions across diverse entity time series datasets, demonstrating proficiency in generating both long-term forecasts with sustained accuracy and short-term forecasts with high precision. We present benchmarks against state-of-the-art deep learning techniques, showing that TrackGPT's forecasting capability excels in terms of accuracy, reliability, and modularity. Importantly, TrackGPT achieves these results while remaining domain-agnostic and requiring minimal data features (only location and time) compared to models achieving similar performance. In conclusion, our findings underscore the immense potential of applying GPT architectures to the task of entity trajectory forecasting, exemplified by the innovative TrackGPT model.
翻訳日:2024-02-02 18:02:12 公開日:2024-01-29
# 間接QAOAに基づく91クロースSAT分解能に関する技術的考察

A technical note for the 91-clauses SAT resolution with Indirect QAOA based approach ( http://arxiv.org/abs/2402.00065v1 )

ライセンス: Link先を確認
Gerard Fleury and Philippe Lacomme(参考訳) 本稿では,QAOAライクなアプローチによる3SAT問題の解決について述べる。 選択された原理は、3-SAT問題の解ランクをモデル化することであり、この場合、解を直接表現する。 これにより、ゲートが少なくてコンパクトな回路となり、大規模な3SAT問題のモデル化が可能となる。 数値実験により、この手法はQiskitに基づく実装により91節と20変数からなるインスタンスを解くことができることを示した。

This paper addresses the resolution of the 3-SAT problem using a QAOA-like approach. The chosen principle involves modeling the solution ranks of the 3-SAT problem, which, in this particular case, directly represent a solution. This results in a highly compact circuit with few gates, enabling the modeling of large-sized 3-SAT problems. Numerical experimentation demonstrates that the approach can solve instances composed of 91 clauses and 20 variables with an implementation based on Qiskit.
翻訳日:2024-02-02 18:01:47 公開日:2024-01-29
# エージェントベース評価システムによる行動・目標に関する不完全な知識と計画の融合

Merging plans with incomplete knowledge about actions and goals through an agent-based reputation system ( http://arxiv.org/abs/2402.00064v1 )

ライセンス: Link先を確認
Javier Carbo, Jose M Molina, Miguel A Patricio(参考訳) 移行計画の管理は認知障害者の主要な問題の一つである。 したがって、そのような計画を生成する自動化方法を見つけることは、このコミュニティにとって有益なツールである。 本稿では,複数の演算子によって実行される目標と行動の未知の類似性の行動列と,ある時間後に他の計画の追加実行を必要とする受動的要素(ノードエージェント)に対して協調して実行される動作とを連携させることにより,プランをマージする様々な方法を提案し,比較した。 このような計画行動と目標の類似性を無視することは、他のオペレーターエージェントによる以前の異なる計画の実行の結果から生成された、与えられたオペレーターエージェントに特定の目標に適用される有用なプランを提供する分散レコメンデーションシステムの使用を正当化する。 ここでは、実行の汎用フレームワーク(エージェントシステム)と、この問題に適用される異なるマージアルゴリズムを提供する。 提案するエージェントシステムは、自閉症などの知的障害のある人々にとって有用な認知アシスタントとして機能する。

Managing transition plans is one of the major problems of people with cognitive disabilities. Therefore, finding an automated way to generate such plans would be a helpful tool for this community. In this paper we have specifically proposed and compared different alternative ways to merge plans formed by sequences of actions of unknown similarities between goals and actions executed by several operator agents which cooperate between them applying such actions over some passive elements (node agents) that require additional executions of another plan after some time of use. Such ignorance of the similarities between plan actions and goals would justify the use of a distributed recommendation system that would provide an useful plan to be applied for a certain goal to a given operator agent, generated from the known results of previous executions of different plans by other operator agents. Here we provide the general framework of execution (agent system), and the different merging algorithms applied to this problem. The proposed agent system would act as an useful cognitive assistant for people with intelectual disabilities such as autism.
翻訳日:2024-02-02 18:01:38 公開日:2024-01-29
# mobfuzz:グレーボックスファジングにおける適応型多目的最適化

MobFuzz: Adaptive Multi-objective Optimization in Gray-box Fuzzing ( http://arxiv.org/abs/2401.15956v1 )

ライセンス: Link先を確認
Gen Zhang, Pengfei Wang, Tai Yue, Xiangdong Kong, Shan Huang, Xu Zhou, Kai Lu(参考訳) Coverage-Guided gray-box fuzzing (CGF) は効率的なソフトウェアテスト手法である。 通常、CGFの最適化には複数の目的がある。 しかし、既存のCGF法では、複数の目的に対して最適な値を同時に見つけることはできない。 本稿では,MobFuzzと呼ばれる多目的最適化(MOO)のためのグレーボックスファザを提案する。 我々はマルチプレイヤー・マルチアーム・バンディット(mpmab)として多目的最適化プロセスをモデル化する。 まず、現在の状況に対して最も適切な目的を含む目的の組み合わせを適応的に選択する。 第2に,選択した目的の組み合わせの下で種子にエネルギーを適応的に割り当てる電力スケジュールをモデルとして扱う。 MobFuzzでは、NICと呼ばれる進化的アルゴリズムを用いて、追加のパフォーマンスオーバーヘッドを発生させることなく、選択した目的を同時に最適化する。 MobFuzzの有効性を証明するため,実世界の12のプログラムとMAGMAデータセットの実験を行った。 実験結果から,MobFuzzの多目的最適化はベースラインファジィにおける単目的ファジィよりも優れていた。 それとは対照的に、mobfuzzは最適な目的の組み合わせを選択し、複数の目的の値を最大107%まで増加させ、少なくともエネルギー消費量を55%削減できる。 さらにmobfuzzは、最大6%のプログラムカバレッジがあり、ベースラインのfuzzersよりも3倍ユニークなバグがある。 NICアルゴリズムは少なくとも2倍の改善があり、性能オーバーヘッドは約3%である。

Coverage-guided gray-box fuzzing (CGF) is an efficient software testing technique. There are usually multiple objectives to optimize in CGF. However, existing CGF methods cannot successfully find the optimal values for multiple objectives simultaneously. In this paper, we propose a gray-box fuzzer for multi-objective optimization (MOO) called MobFuzz. We model the multi-objective optimization process as a multi-player multi-armed bandit (MPMAB). First, it adaptively selects the objective combination that contains the most appropriate objectives for the current situation. Second, our model deals with the power schedule, which adaptively allocates energy to the seeds under the chosen objective combination. In MobFuzz, we propose an evolutionary algorithm called NIC to optimize our chosen objectives simultaneously without incurring additional performance overhead. To prove the effectiveness of MobFuzz, we conduct experiments on 12 real-world programs and the MAGMA data set. Experiment results show that multi-objective optimization in MobFuzz outperforms single-objective fuzzing in the baseline fuzzers. In contrast to them, MobFuzz can select the optimal objective combination and increase the values of multiple objectives up to 107%, with at most a 55% reduction in the energy consumption. Moreover, MobFuzz has up to 6% more program coverage and finds 3x more unique bugs than the baseline fuzzers. The NIC algorithm has at least a 2x improvement with a performance overhead of approximately 3%.
翻訳日:2024-02-01 17:08:41 公開日:2024-01-29
# 脳の宇宙の古典概念

Brains' Classicality Conception of the Universe ( http://arxiv.org/abs/2401.17336v1 )

ライセンス: Link先を確認
Jahan N. Schad(参考訳) 我々の知覚された宇宙の現実は、常に深い思想家によって疑問視されてきた。 そして、謎の量子力学の発見は、その基礎を成し、予想通り量子物理学において対処されている:その努力は、宇宙の起源の文脈にあり、その量子の始まりから量子から物理学への還元の可能性、我々が経験する終わりまでである。 この還元の要件は、量子粒子のマルチモーダルな不定値の存在、確率的変化点と特性によって生じる。 それゆえ、真の古典宇宙は普遍的な自律的還元によってのみ生じうるが、偽証明理論が欠如していたとしても起こりうる。 もう一つの可能性(破滅的な出来事を避ける)は、私たちの心や脳の減少による世界的古典性かもしれない。 意識の遅延に関する新たな発見は、そのような出来事の現場として自律脳を指している。 このような還元のスキームは、素粒子の単純な量子系の測定の解釈理論で解明され、量子宇宙の多くの不確定な選択肢から1つの一定の宇宙を持つことも説明できる。 人類中心のアプローチは、最善のアドホックであり、選択に依存している。 私のアプローチでは、純粋な量子宇宙から2つの絡み合ったサブシステム(フォトンフォノンと神経サブシステム)を分離することで、これらの問題を避けています。 残りの絡み合った質量粒子サブシステムを無視して、残りの脳のパターンが選択する統計相関状態(量子ではない)に他を導く。 この脳の状態、また、その絡み合った(質量)環境の選択の力、それゆえ質量粒子宇宙の情報を受け入れることで、その古典性は私たちの意識に流れ込んだ。

The reality of our perceived universe has been questioned by deep thinkers of all times. And the discovery of the mysterious quantum mechanics has made it fundamental; and expectedly it is being addressed in quantum physics: the efforts are in the context of the genesis of the universe; from its quantum beginning to its possible quantum to-physical reduction; the end that we experience. The requirement for the reduction arises due to quantum particles multimodal indefinite existence; probabilistic varying sites and characteristics. Therefore, a real classical universe could only result from a universal autonomous reduction, which nonetheless may have happened despite lack of a falsifiable proof theory. The other possibility (avoiding the cataclysmic event) could be world classicality due to reduction in our minds, or brains. New findings about the latency of consciousness, point to autonomous brain as the site of such event. The scheme for such reductions is figured out in the interpretation theories of measurement of simple quantum systems of particles, which can also explicate having one definite universe from many indefinite alternatives of the quantum universe. The anthropocentric approaches are at best ad hoc and rely on choice, prompting of which remains unknown. My approach avoids these issues by isolating two entangled subsystems out of the pure quantum universe; the photons-phonons and beings nervous subsystems. Ignoring the remaining entangled mass particle subsystem, renders others in statistical correlation states (not quantum), where survival brain patterns make the selection. This state of the brain, forces also the selection of its entangled (mass) environment; and thus embracing the information of the mass particle universe, its classicality streamed to our consciousness; after all, our connection with everything external to us is through photons and phonons
翻訳日:2024-02-01 16:53:38 公開日:2024-01-29
# 化学磁気受容における量子針の同定機構

Identifying possible mechanism for quantum needle in chemical magnetoreception ( http://arxiv.org/abs/2401.17323v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Haibin Liu, Jianming Cai(参考訳) ラジカル対機構は、生体磁気受容の基礎となる重要なモデルである。 p. j. horeらは、実際の鳥類のコンパスの方位精度の高さを考慮し、量子針と呼ばれる興味深い現象を提案した(proc. natl. acad. sci. 113, 4634 (2016))。 しかし、量子針はラジカル対の寿命が数マイクロ秒以上でなければならないため、現実の生体システムでは深刻な課題となると考えられている。 そこで我々は最適化手法を活用し,量子針のより顕著な特徴を保ち,ラジカル対寿命の要件を著しく緩和する新しいモデルシステムを見出した。 さらに驚くべきことに、量子針の特性は、以前のモデルシステムでは欠落していた電磁界の周りの狭い機能的窓を保っている。 そこで本研究は、化学磁気受容における量子針の物理メカニズムを同定するための重要な証拠を提供する。

The radical pair mechanism is an important model that may provide a basis for biological magnetoreception. To account for the high orientation precision of the real avian compass, P. J. Hore et al. proposed an intriguing phenomenon called quantum needle [Proc. Natl. Acad. Sci. 113, 4634 (2016)], where a spike-like feature emerges in the fractional yield signal. However, it is believed that quantum needle requires the radical pair lifetime to be longer than a few microseconds and thus poses stern challenges in realistic biological systems. Here, we exploit the optimization techniques and find a novel class of model system, which sustains much more prominent features of quantum needle and significantly relaxes the requirement for radical pair lifetime. Even more surprisingly, we find that the characteristics of quantum needle retain a narrow functional window around the geomagnetic field, which is absent in the previous model systems. Therefore, our work provides essential evidence for identifying the possible physical mechanism for quantum needle in chemical magnetoreception.
翻訳日:2024-02-01 16:53:09 公開日:2024-01-29
# INSTILLER:効率的かつリアルなRTLファジリングを目指して

INSTILLER: Towards Efficient and Realistic RTL Fuzzing ( http://arxiv.org/abs/2401.15967v1 )

ライセンス: Link先を確認
Gen Zhang, Pengfei Wang, Tai Yue, Danjun Liu, Yubei Guo and Kai Lu(参考訳) バグはCPUなどのハードウェアに存在する。 ソフトウェアバグとは異なり、これらのハードウェアバグはデプロイ前に検出する必要がある。 CPUバグ検出におけるそれまでのファジィング作業にはいくつかの欠点があり、例えば、RTL入力命令の長さは増加し続けており、より長い入力はファジィングには有効ではない。 本稿では,アリコロニー最適化(ACO)に基づくRTLファザであるINSTILLER(Instruction Distiller)を提案する。 第一に、入力命令長を短くかつ効率的にファジィ化するために、ACO(VACO)の変種で入力命令を蒸留する。 次に、関連する作業はファジィ化において現実的な割り込みをうまくシミュレートすることができず、INSTILLERは入力を生成する際に割り込みや例外を挿入する問題を解く。 第3に, 蒸留器のファジング性能をさらに向上させるため, ハードウェアによる種子選択と変異戦略を提案する。 我々はプロトタイプを実装し、実世界のターゲットCPUコアにおける最先端ファジィ処理に対する広範な実験を行う。 実験では、INSTILLERはDiFuzzRTLよりも29.4%のカバレッジがある。 さらに、INSTILLERにより17.0%のミスマッチが検出される。 VACOアルゴリズムでは、INSTILLERはDiFuzzRTLよりも79.3%短い入力命令を生成し、入力命令の蒸留の有効性を示す。 さらに、蒸留は平均して実行速度を6.7%向上させる。

Bugs exist in hardware, such as CPU. Unlike software bugs, these hardware bugs need to be detected before deployment. Previous fuzzing work in CPU bug detection has several disadvantages, e.g., the length of RTL input instructions keeps growing, and longer inputs are ineffective for fuzzing. In this paper, we propose INSTILLER (Instruction Distiller), an RTL fuzzer based on ant colony optimization (ACO). First, to keep the input instruction length short and efficient in fuzzing, it distills input instructions with a variant of ACO (VACO). Next, related work cannot simulate realistic interruptions well in fuzzing, and INSTILLER solves the problem of inserting interruptions and exceptions in generating the inputs. Third, to further improve the fuzzing performance of INSTILLER, we propose hardware-based seed selection and mutation strategies. We implement a prototype and conduct extensive experiments against state-of-the-art fuzzing work in real-world target CPU cores. In experiments, INSTILLER has 29.4% more coverage than DiFuzzRTL. In addition, 17.0% more mismatches are detected by INSTILLER. With the VACO algorithm, INSTILLER generates 79.3% shorter input instructions than DiFuzzRTL, demonstrating its effectiveness in distilling the input instructions. In addition, the distillation leads to a 6.7% increase in execution speed on average.
翻訳日:2024-02-01 16:52:17 公開日:2024-01-29
# フェルミオンとボソニックハーモニウムのモード絡み合い

Mode Entanglement in Fermionic and Bosonic Harmonium ( http://arxiv.org/abs/2211.09647v2 )

ライセンス: Link先を確認
Jan Ole Ernst, Felix Tennie(参考訳) 多体量子系のモード絡み合いは研究の活発な領域である。 量子情報処理タスクにおける多体システムの適合性に関する重要な洞察を提供する。 局所的な超選択規則は、物理的にアクセス可能な絡み合いの量を評価する際に考慮しなければならない。 これは局所パリティと局所粒子数制約を組み込むことによって、確立された絡み合いを改善する必要がある。 本稿では,N-Harmoniumの分析可溶系におけるモード絡みについて報告する。 著者の知る限りでは、これは連続状態空間における相互作用する多体系の物理的アクセスモードとモードモード絡み合いに関する最初の分析研究である。 超選択規則は、物理的にアクセス可能な絡み合いの量を劇的に減らし、場合によっては完全に消滅する。 以上の結果から,他のフェルミオン系およびボゾン系におけるモード内およびモード間絡み合いの再評価の必要性が示唆された。

Mode entanglement in many-body quantum systems is an active area of research. It provides crucial insight into the suitability of many-body systems for quantum information processing tasks. Local super-selection rules must be taken into account when assessing the amount of physically accessible entanglement. This requires amending well-established entanglement measures by incorporating local parity and local particle number constraints. In this paper, we report on mode entanglement present in the analytically solvable system of N-Harmonium. To the knowledge of the authors, this is the first analytic study of the physically accessible mode and mode-mode entanglement of an interacting many-body system in a continuous state space. We find that super-selection rules dramatically reduce the amount of physically accessible entanglement, which vanishes entirely in some cases. Our results strongly suggest the need to re-evaluate intra and inter-mode entanglement in other fermionic and bosonic systems.
翻訳日:2024-01-31 20:08:30 公開日:2024-01-29
# 深層強化学習制御ロボットと自律システムのための到達可能性検証に基づく信頼性評価

Reachability Verification Based Reliability Assessment for Deep Reinforcement Learning Controlled Robotics and Autonomous Systems ( http://arxiv.org/abs/2210.14991v2 )

ライセンス: Link先を確認
Yi Dong, Xingyu Zhao, Sen Wang, Xiaowei Huang(参考訳) Deep Reinforcement Learning (DRL)は、ロボット工学と自律システム(RAS)において優れたパフォーマンスを達成した。 実際の運用において重要な課題は、危険なほど安全でないDRLポリシーの存在である。 未調査状態は、特にDRLで訓練されたエンドツーエンドコントローラがRASの動作を制御しているアプリケーションにおいて、エージェントを誤った決定を下す可能性がある。 本稿では,DRL制御型RASのための新しい定量的信頼性評価フレームワークを提案し,ニューラルネットワークの形式的信頼性解析から得られた検証証拠を活用する。 環境騒音や状態変化などによる不正確な観測に関して、安全性をチェックするための2段階の検証フレームワークが導入された。 到達可能性検証ツールは局所的に活用され、軌道の安全証拠を生成する。 対照的に, グローバルレベルでは, 局所的安全エビデンスの総合指標として全体の信頼性を定量化し, 個別の課題とその発生確率に対応する。 提案手法の有効性を実RAS実験により検証し検証した。

Deep Reinforcement Learning (DRL) has achieved impressive performance in robotics and autonomous systems (RAS). A key challenge to its deployment in real-life operations is the presence of spuriously unsafe DRL policies. Unexplored states may lead the agent to make wrong decisions that could result in hazards, especially in applications where DRL-trained end-to-end controllers govern the behaviour of RAS. This paper proposes a novel quantitative reliability assessment framework for DRL-controlled RAS, leveraging verification evidence generated from formal reliability analysis of neural networks. A two-level verification framework is introduced to check the safety property with respect to inaccurate observations that are due to, e.g., environmental noise and state changes. Reachability verification tools are leveraged locally to generate safety evidence of trajectories. In contrast, at the global level, we quantify the overall reliability as an aggregated metric of local safety evidence, corresponding to a set of distinct tasks and their occurrence probabilities. The effectiveness of the proposed verification framework is demonstrated and validated via experiments on real RAS.
翻訳日:2024-01-31 20:07:47 公開日:2024-01-29
# 地理空間データのためのニューラルネットワーク

Neural networks for geospatial data ( http://arxiv.org/abs/2304.09157v2 )

ライセンス: Link先を確認
Wentao Zhan, Abhirup Datta(参考訳) 地理空間データの解析は伝統的にモデルベースであり、平均モデルは共変量上の線形回帰として伝統的に指定され、空間依存を符号化する共変モデルである。 線形性の強い仮定を緩和し、非線形平均関数に対応するために従来の統計モデルに直接ニューラルネットワークを埋め込むことを提案し、空間共分散を明示的にモデル化するためのガウス過程の使用、平均と共分散による空間依存による共変効果の推論を可能にすること、krigingによる新しい場所での予測を提供する。 線形の場合と同じ損失である一般化最小二乗(GLS)による空間共分散を明示的に考慮した,GPモデルにおける非線形平均に対する新しいニューラルネットワーク推定アルゴリズムであるNN-GLSを提案する。 NN-GLSはグラフニューラルネットワーク(GNN)の特殊型として表現されていることを示す。 この接続により、不規則な地理空間データに対する標準的なニューラルネットワーク計算技術の使用が容易になり、新規でスケーラブルなミニバッチ、バックプロパゲーション、クリグスキームが可能になる。 理論的には、NN-GLSは不規則に観測された空間相関データプロセスに一貫性があることが示されている。 我々の知る限り、これは空間データに対するニューラルネットワークアルゴリズムにとって初めての漸近的一貫性の結果である。 本手法をシミュレーションおよび実データを用いて実証する。

Analysis of geospatial data has traditionally been model-based, with a mean model, customarily specified as a linear regression on the covariates, and a covariance model, encoding the spatial dependence. We relax the strong assumption of linearity and propose embedding neural networks directly within the traditional geostatistical models to accommodate non-linear mean functions while retaining all other advantages including use of Gaussian Processes to explicitly model the spatial covariance, enabling inference on the covariate effect through the mean and on the spatial dependence through the covariance, and offering predictions at new locations via kriging. We propose NN-GLS, a new neural network estimation algorithm for the non-linear mean in GP models that explicitly accounts for the spatial covariance through generalized least squares (GLS), the same loss used in the linear case. We show that NN-GLS admits a representation as a special type of graph neural network (GNN). This connection facilitates use of standard neural network computational techniques for irregular geospatial data, enabling novel and scalable mini-batching, backpropagation, and kriging schemes. Theoretically, we show that NN-GLS will be consistent for irregularly observed spatially correlated data processes. To our knowledge this is the first asymptotic consistency result for any neural network algorithm for spatial data. We demonstrate the methodology through simulated and real datasets.
翻訳日:2024-01-31 19:55:23 公開日:2024-01-29
# 不均一多殻拡散強調MRIにおける繊維配向分布関数の統一学習モデル

A Unified Learning Model for Estimating Fiber Orientation Distribution Functions on Heterogeneous Multi-shell Diffusion-weighted MRI ( http://arxiv.org/abs/2303.16376v2 )

ライセンス: Link先を確認
Tianyuan Yao, Nancy Newlin, Praitayini Kanakaraj, Vishwesh nath, Leon Y Cai, Karthik Ramadass, Kurt Schilling, Bennett A. Landman, Yuankai Huo(参考訳) Diffusion-weighted (DW) MRIは、各ボクセルの局所拡散過程の方向とスケールを、q空間のスペクトルを通じて測定する。 近年の微細構造イメージングと多部分解は,信号の放射状b値依存性に新たな注目を集めている。 したがって、組織分類やマイクロアーキテクチャ推定における応用には、ラジアルと角領域にまたがる信号表現が必要である。 DW-MRI信号と生体組織との非線形関係をモデル化する複数の手法が提案されている。 過去数年間、従来のモデルベース手法(マルチシェルマルチトイシュー制約球面デコンボリューションなど)と比較して、推論速度の高速化とscan間一貫性の向上を目的として、多くのディープラーニングベースの手法が開発されてきた。 しかし、学習過程は単純な調和振動子再構成(SHORE)表現など、様々な中間表現に依存するため、多段階学習戦略が要求されることが多い。 本研究では, 単一ステージの球面畳み込みニューラルネットワークを用いて, 不均一な多層拡散MRIシーケンスによる効率的な繊維配向分布関数(fODF)推定を可能にする, 統一された動的ネットワークを提案する。 我々は,ヒトコネクトームプロジェクト(hcp)の若年成人を対象に,テスト-リテストスキャンによる検討を行った。 実験結果から, 単一段法は, シェルドロップオフと単殻DW-MRIによるFODFの繰り返し推定において, 先行する複数段法よりも優れていた。

Diffusion-weighted (DW) MRI measures the direction and scale of the local diffusion process in every voxel through its spectrum in q-space, typically acquired in one or more shells. Recent developments in micro-structure imaging and multi-tissue decomposition have sparked renewed attention to the radial b-value dependence of the signal. Applications in tissue classification and micro-architecture estimation, therefore, require a signal representation that extends over the radial as well as angular domain. Multiple approaches have been proposed that can model the non-linear relationship between the DW-MRI signal and biological microstructure. In the past few years, many deep learning-based methods have been developed towards faster inference speed and higher inter-scan consistency compared with traditional model-based methods (e.g., multi-shell multi-tissue constrained spherical deconvolution). However, a multi-stage learning strategy is typically required since the learning process relies on various middle representations, such as simple harmonic oscillator reconstruction (SHORE) representation. In this work, we present a unified dynamic network with a single-stage spherical convolutional neural network, which allows efficient fiber orientation distribution function (fODF) estimation through heterogeneous multi-shell diffusion MRI sequences. We study the Human Connectome Project (HCP) young adults with test-retest scans. From the experimental results, the proposed single-stage method outperforms prior multi-stage approaches in repeated fODF estimation with shell dropoff and single-shell DW-MRI sequences.
翻訳日:2024-01-31 19:54:27 公開日:2024-01-29
# 強化学習を伴わない逆強化学習

Inverse Reinforcement Learning without Reinforcement Learning ( http://arxiv.org/abs/2303.14623v4 )

ライセンス: Link先を確認
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) 逆強化学習(Inverse Reinforcement Learning、IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的とした、模倣学習のための強力なテクニックセットである。 残念なことに、従来のIRL法は計算の弱点に悩まされており、サブルーチンとしてハード強化学習(RL)問題を繰り返し解決する必要がある。 これは還元の観点から直観に反する:我々は、模倣学習の簡単な問題をrlのより難しい問題を反復的に解くまで削減した。 別の研究のスレッドは、強いポリシーが時間を費やす状態の分布のサイド情報へのアクセスは、RL問題を解く際のサンプルと計算の複雑さを劇的に減らすことを証明している。 本研究では,RLサブルーチンのグローバル探索成分を緩和し,理論上の指数的高速化を実現するために,専門家の状態分布を利用する,より情報に富んだ模倣学習の削減を初めて示す。 実際、継続的制御タスクの先行技術を大幅にスピードアップすることができることが分かりました。

Inverse Reinforcement Learning (IRL) is a powerful set of techniques for imitation learning that aims to learn a reward function that rationalizes expert demonstrations. Unfortunately, traditional IRL methods suffer from a computational weakness: they require repeatedly solving a hard reinforcement learning (RL) problem as a subroutine. This is counter-intuitive from the viewpoint of reductions: we have reduced the easier problem of imitation learning to repeatedly solving the harder problem of RL. Another thread of work has proved that access to the side-information of the distribution of states where a strong policy spends time can dramatically reduce the sample and computational complexities of solving an RL problem. In this work, we demonstrate for the first time a more informed imitation learning reduction where we utilize the state distribution of the expert to alleviate the global exploration component of the RL subroutine, providing an exponential speedup in theory. In practice, we find that we are able to significantly speed up the prior art on continuous control tasks.
翻訳日:2024-01-31 19:53:59 公開日:2024-01-29
# マルジンにおける手書きテキストの発見:手書きテキストの検出と認識

Uncovering the Handwritten Text in the Margins: End-to-end Handwritten Text Detection and Recognition ( http://arxiv.org/abs/2303.05929v2 )

ライセンス: Link先を確認
Liang Cheng, Jonas Frankem\"olle, Adam Axelsson and Ekta Vats(参考訳) 歴史的文書のデジタル化の必要性が高まり、手書き文字自動認識のためのコンピュータ画像処理手法の設計に強い関心が寄せられている。 しかし、マージンに書かれた手書きのテキスト、すなわち、マージンが重要な情報源となる文章を研究することにはあまり注意が払われていない。 それでも、十分な量の注釈付きマルチライターテキストが利用できないため、精度が高くロバストな認識システムを訓練することで、データ効率のよいアプローチが求められている。 そこで本研究では,手書き境界線の自動検出と認識のためのエンドツーエンドフレームワークを提案し,データ拡張と転送学習を活用して,トレーニングデータの不足を克服する。 検出フェーズには、R-CNNとFaster R-CNNネットワークの調査が含まれる。 認識フェーズは、resnet特徴抽出、双方向lstmに基づくシーケンスモデリング、および注意に基づく辺縁の予測を含む注意に基づくシーケンスツーシーケンスモデルを含む。 提案手法の有効性は,スウェーデン・ウプサラ大学図書館の初期の書籍コレクションから得られたデータから実証的に評価されている。 ソースコードと事前トレーニングされたモデルはgithubで入手できる。

The pressing need for digitization of historical documents has led to a strong interest in designing computerised image processing methods for automatic handwritten text recognition. However, not much attention has been paid on studying the handwritten text written in the margins, i.e. marginalia, that also forms an important source of information. Nevertheless, training an accurate and robust recognition system for marginalia calls for data-efficient approaches due to the unavailability of sufficient amounts of annotated multi-writer texts. Therefore, this work presents an end-to-end framework for automatic detection and recognition of handwritten marginalia, and leverages data augmentation and transfer learning to overcome training data scarcity. The detection phase involves investigation of R-CNN and Faster R-CNN networks. The recognition phase includes an attention-based sequence-to-sequence model, with ResNet feature extraction, bidirectional LSTM-based sequence modeling, and attention-based prediction of marginalia. The effectiveness of the proposed framework has been empirically evaluated on the data from early book collections found in the Uppsala University Library in Sweden. Source code and pre-trained models are available at Github.
翻訳日:2024-01-31 19:53:04 公開日:2024-01-29
# オープン量子システムにおける電流ゆらぎ:量子連続測定と全計数統計とのギャップを橋渡しする

Current fluctuations in open quantum systems: Bridging the gap between quantum continuous measurements and full counting statistics ( http://arxiv.org/abs/2303.04270v3 )

ライセンス: Link先を確認
Gabriel T. Landi, Michael J. Kewming, Mark T. Mitchison, Patrick P. Potts(参考訳) 連続測定された量子系は、基礎となる量子系に関する重要な情報を伝達する確率的および相関的な時系列の形で出力電流によって特徴づけられる。 量子光学者は確率的マスター方程式を使うことが多く、凝縮物質物理学における一般的なアプローチは完全な数え上げ統計によって提供される。 しかし、これらは単に同じ硬貨の異なる側面である。 このチュートリアルの目標は、現在のゆらぎを記述するための統一ツールボックスを提供することです。 これは、物理学の異なる分野をまとめることによって、新しい洞察を与えるだけでなく、興味のある量を計算するための様々な分析的および数値的ツールをもたらす。 我々は,様々な教育例を用いて実験結果を示し,待ち時間統計,量子メトロロジー,熱力学的不確実性関係,量子点接触,マクスウェルのデーモンなど,局所的な研究分野と結びつける。

Continuously measured quantum systems are characterized by an output current, in the form of a stochastic and correlated time series which conveys crucial information about the underlying quantum system. The many tools used to describe current fluctuations are scattered across different communities: quantum opticians often use stochastic master equations, while a prevalent approach in condensed matter physics is provided by full counting statistics. These, however, are simply different sides of the same coin. Our goal with this tutorial is to provide a unified toolbox for describing current fluctuations. This not only provides novel insights, by bringing together different fields in physics, but also yields various analytical and numerical tools for computing quantities of interest. We illustrate our results with various pedagogical examples, and connect them with topical fields of research, such as waiting-time statistics, quantum metrology, thermodynamic uncertainty relations, quantum point contacts and Maxwell's demons.
翻訳日:2024-01-31 19:52:29 公開日:2024-01-29
# テキスト検索と編集のためのマルチモーダル分子構造テキストモデル

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing ( http://arxiv.org/abs/2212.10789v3 )

ライセンス: Link先を確認
Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao, Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar(参考訳) 薬物発見における人工知能の採用が増加している。 しかし、既存の研究では機械学習を用いて分子の化学構造を主に利用しているが、化学で得られる膨大な知識を無視している。 テキスト知識を取り入れることで,新しい薬物設計目標の実現,テキストに基づく指示の適応,複雑な生物活動の予測が可能になる。 本稿では,分子の化学構造とテキスト記述を対照的な学習戦略により共同で学習することで,マルチモーダルな分子構造テキストモデル,MoleculeSTMを提案する。 MoleculeSTMをトレーニングするために,280,000以上の化学構造テキストペアを持つPubChemSTMという,大規模なマルチモーダルデータセットを構築した。 MoleculeSTMの有効性と有用性を示すために、構造テキスト検索や分子編集を含むテキスト命令に基づく2つの難易度ゼロショットタスクを設計する。 MoleculeSTMには、オープン語彙と自然言語による構成性という2つの主要な性質がある。 実験において、分子STMは様々なベンチマークで新しい生化学的概念を創出する最先端の一般化能力を得る。

There is increasing adoption of artificial intelligence in drug discovery. However, existing studies use machine learning to mainly utilize the chemical structures of molecules but ignore the vast textual knowledge available in chemistry. Incorporating textual knowledge enables us to realize new drug design objectives, adapt to text-based instructions and predict complex biological activities. Here we present a multi-modal molecule structure-text model, MoleculeSTM, by jointly learning molecules' chemical structures and textual descriptions via a contrastive learning strategy. To train MoleculeSTM, we construct a large multi-modal dataset, namely, PubChemSTM, with over 280,000 chemical structure-text pairs. To demonstrate the effectiveness and utility of MoleculeSTM, we design two challenging zero-shot tasks based on text instructions, including structure-text retrieval and molecule editing. MoleculeSTM has two main properties: open vocabulary and compositionality via natural language. In experiments, MoleculeSTM obtains the state-of-the-art generalization ability to novel biochemical concepts across various benchmarks.
翻訳日:2024-01-31 19:51:21 公開日:2024-01-29
# ローカライゼーション vs. セマンティクス: ユニモーダルおよびマルチモーダルモデルにおける視覚的表現

Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models ( http://arxiv.org/abs/2212.00281v2 )

ライセンス: Link先を確認
Zhuowan Li, Cihang Xie, Benjamin Van Durme, Alan Yuille(参考訳) 視覚と言語による事前学習によって達成された印象的な進歩にもかかわらず、この共同学習パラダイムが個々のモダリティを理解するのに役立つかどうかは不明だ。 本研究では,既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行い,学習した表現の質をニュアンス的に評価することを目的とした。 興味深いことに、我々の経験的観察は、視覚と言語モデルの方が、オブジェクトや属性予測のようなラベル予測タスクに優れていることを示唆している。 私たちの研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの経験的ガイドとして役立つことを願っています。 コードはhttps://github.com/Lizw14/visual_probingでリリースされる。

Despite the impressive advancements achieved through vision-and-language pretraining, it remains unclear whether this joint learning paradigm can help understand each individual modality. In this work, we conduct a comparative analysis of the visual representations in existing vision-and-language models and vision-only models by probing a broad range of tasks, aiming to assess the quality of the learned representations in a nuanced manner. Interestingly, our empirical observations suggest that vision-and-language models are better at label prediction tasks like object and attribute prediction, while vision-only models are stronger at dense prediction tasks that require more localized information. We hope our study sheds light on the role of language in visual learning, and serves as an empirical guide for various pretrained models. Code will be released at https://github.com/Lizw14/visual_probing
翻訳日:2024-01-31 19:51:03 公開日:2024-01-29
# 機械がベルを鳴らすと: 絡み合いとベルの不等式は$t\bar{t}$となる。

When the Machine Chimes the Bell: Entanglement and Bell Inequalities with Boosted $t\bar{t}$ ( http://arxiv.org/abs/2305.07075v2 )

ライセンス: Link先を確認
Zhongtian Dong, Dorival Gon\c{c}alves, Kyoungchul Kong, Alberto Navarro(参考訳) 大型ハドロン衝突型加速器は、今日利用可能な最高エネルギーでベルの不平等の量子絡み合いと違反を研究するユニークな機会を提供する。 本稿では、2量子ビットの系を表すトップクォーク対生成とこれらの量子相関について検討する。 2つの因果的に切断されたトップクォークの空間的な分離要件は、相対論的に互いに離れて飛行することであり、これは半レプトニックのトップペアチャネルで強化されたトップタグの使用を動機付けている。 ハドロントップクォークのスピン偏光測定は困難であることが知られているが、最適ハドロン偏光度計を用いて2量子系のスピン密度行列を再構成することは可能である。 これは、サブジェットとクォークのマッピングを改善するため、ジェットサブ構造技術とNNインスパイアされた再構成手法によって達成される。 既存のデータでは、エンタングルメントが既に5ドル以上で観測でき、ベルの不等式違反はhl-lhcにおいて3ab$^{-1}$のデータで4$\sigma$レベル以上で調査することができる。

The Large Hadron Collider provides a unique opportunity to study quantum entanglement and violation of Bell inequalities at the highest energy available today. In this paper, we will investigate these quantum correlations with top quark pair production, which represents a system of two-qubits. The spacelike separation requirement for the two causally disconnected top quarks requires they fly relativistically away from each other, which motivates the use of the boosted top-tagging with the semi-leptonic top pair channel. Although measuring the spin polarization of the hadronic top quark is known to be challenging, our study indicates that it is feasible to reconstruct the spin density matrix of the two-qubit system using an optimal hadronic polarimeter. This is achieved with the aid of jet substructure techniques and NN-inspired reconstruction methods, which improve the mapping between subjets and quarks. We find that entanglement can already be observed at more than $5\sigma$ level with existing data, and violation of Bell inequalities may be probed above 4$\sigma$ level at the HL-LHC with 3 ab$^{-1}$ of data.
翻訳日:2024-01-31 19:42:40 公開日:2024-01-29
# スタンドに車を停める」:SMTベースのオラクルが意思決定を調査

'Put the Car on the Stand': SMT-based Oracles for Investigating Decisions ( http://arxiv.org/abs/2305.05731v2 )

ライセンス: Link先を確認
Samuel Judson and Matthew Elacqua and Filip Cano and Timos Antonopoulos and Bettina K\"onighofer and Scott J. Shapiro and Ruzica Piskac(参考訳) 害の余波における原則的説明責任は、アルゴリズムによる意思決定の信頼できる設計とガバナンスに不可欠である。 法理論は、エージェントをスタンドに置き、彼らの行動と横断的な検査の意図を従わせるという、実行可能性を評価するための最優先の方法を提供する。 最小の仮定の下では、自動推論は、法的事実発見の敵対的プロセスのように、アルゴリズムの振る舞いを厳格に問うことができる。 我々は、試験やレビューボードなどの説明責任プロセスを、対実ガイド型論理探索と抽象リファインメント(CLEAR)ループとしてモデル化する。 我々は,人間研究者が適応的に定式化したように,記号実行と満足度変調理論(SMT)の形式的手法を用いて,エージェントの行動に関するクエリを現実的および反現実的シナリオで排出する。 そのためには、決定アルゴリズム $\mathcal{a}$ に対して、決定可能理論 $\texttt{qf_fpbv}$ において、その論理を$\pi$ として表現するために記号的実行を使用する。 われわれのフレームワークを実装し、その実用性を実証的な自動車事故のシナリオで実証する。

Principled accountability in the aftermath of harms is essential to the trustworthy design and governance of algorithmic decision making. Legal theory offers a paramount method for assessing culpability: putting the agent 'on the stand' to subject their actions and intentions to cross-examination. We show that under minimal assumptions automated reasoning can rigorously interrogate algorithmic behaviors as in the adversarial process of legal fact finding. We model accountability processes, such as trials or review boards, as Counterfactual-Guided Logic Exploration and Abstraction Refinement (CLEAR) loops. We use the formal methods of symbolic execution and satisfiability modulo theories (SMT) solving to discharge queries about agent behavior in factual and counterfactual scenarios, as adaptively formulated by a human investigator. In order to do so, for a decision algorithm $\mathcal{A}$ we use symbolic execution to represent its logic as a statement $\Pi$ in the decidable theory $\texttt{QF_FPBV}$. We implement our framework and demonstrate its utility on an illustrative car crash scenario.
翻訳日:2024-01-31 19:40:59 公開日:2024-01-29
# 翻訳に迷った? 抽象的意味表現を用いた翻訳効果の低減

Lost in Translationese? Reducing Translation Effect Using Abstract Meaning Representation ( http://arxiv.org/abs/2304.11501v2 )

ライセンス: Link先を確認
Shira Wein, Nathan Schneider(参考訳) 翻訳されたテキストには、言語起源のテキストとは異なるいくつかの特徴がある。 個々の翻訳されたテキストは、しばしば流動的で意味を保っているが、大規模に翻訳されたテキストは、言語で書かれたテキストと区別する統計的傾向があり、モデルのパフォーマンスに影響を与える可能性がある。 本稿では, 翻訳文の翻訳文の量を削減するために, 抽象的意味表現 (Abstract Meaning Representation, AMR) がインターリンガとして利用できることを仮定し, 翻訳文の翻訳文の削減を図った。 英語の翻訳をAMRに解析し、そのAMRからテキストを生成することで、結果は3つの量的マクロレベル尺度にまたがる元の英語のテキストとよりよく似ている。 AMRに基づくアプローチを,機械翻訳やパラフレーズ生成に基づく他の3つの手法と比較する。 この研究はテキストの翻訳を減らし、言語間言語としてのAMRの有用性を強調している。

Translated texts bear several hallmarks distinct from texts originating in the language. Though individual translated texts are often fluent and preserve meaning, at a large scale, translated texts have statistical tendencies which distinguish them from text originally written in the language ("translationese") and can affect model performance. We frame the novel task of translationese reduction and hypothesize that Abstract Meaning Representation (AMR), a graph-based semantic representation which abstracts away from the surface form, can be used as an interlingua to reduce the amount of translationese in translated texts. By parsing English translations into an AMR and then generating text from that AMR, the result more closely resembles originally English text across three quantitative macro-level measures, without severely compromising fluency or adequacy. We compare our AMR-based approach against three other techniques based on machine translation or paraphrase generation. This work makes strides towards reducing translationese in text and highlights the utility of AMR as an interlingua.
翻訳日:2024-01-31 19:38:44 公開日:2024-01-29
# スマートフォンデータによる社会的文脈の学習 : 各国の一般化と日常生活のモメンデーション

Learning About Social Context from Smartphone Data: Generalization Across Countries and Daily Life Moments ( http://arxiv.org/abs/2306.00919v4 )

ライセンス: Link先を確認
Aurel Ruben Mader, Lakmal Meegahapola, Daniel Gatica-Perez(参考訳) 人々の日常生活における社会的状況の展開を理解することは、ユーザの個人的目標、幸福、活動を支援するモバイルシステムの設計に関係している。 アンケートの代替として、スマートフォンのセンサデータを受動的に収集し、機械学習モデルで社会的状況(一人かどうか)を推測する研究がある。 しかし、現存する数少ない研究は、1つか2か国で特定の日常生活の機会と限られた地理的コホートに焦点を当てている。 これは、日常生活や複数の国への一般化の観点から、推論モデルがどのように機能するかの理解を制限している。 本稿では,5カ国(モンゴル,イタリア,デンマーク,イギリス,パラグアイ)の581人の若者から収集された216K以上の自己申告データを用いた,新しい大規模・マルチモーダルなスマートフォンセンシングデータセットを用いて,社会的文脈推論がセンサデータで可能かどうかを把握し,行動的・国レベルの多様性が推論に与える影響を明らかにする。 その結果、複数のセンサが社会状況に情報を与え、複数の国でパーソナライズされたモデル(すべての国のデータでトレーニングされ、テストされている)と国固有のモデル(国内でトレーニングされテストされている)が90%以上のauc以上の性能を達成できることがわかった。 これらの結果は、異なる国の社会的文脈推論モデルをよりよく理解するために、モバイルデータの多様性の重要性を裏付けるものである。

Understanding how social situations unfold in people's daily lives is relevant to designing mobile systems that can support users in their personal goals, well-being, and activities. As an alternative to questionnaires, some studies have used passively collected smartphone sensor data to infer social context (i.e., being alone or not) with machine learning models. However, the few existing studies have focused on specific daily life occasions and limited geographic cohorts in one or two countries. This limits the understanding of how inference models work in terms of generalization to everyday life occasions and multiple countries. In this paper, we used a novel, large-scale, and multimodal smartphone sensing dataset with over 216K self-reports collected from 581 young adults in five countries (Mongolia, Italy, Denmark, UK, Paraguay), first to understand whether social context inference is feasible with sensor data, and then, to know how behavioral and country-level diversity affects inferences. We found that several sensors are informative of social context, that partially personalized multi-country models (trained and tested with data from all countries) and country-specific models (trained and tested within countries) can achieve similar performance above 90% AUC, and that models do not generalize well to unseen countries regardless of geographic proximity. These findings confirm the importance of the diversity of mobile data, to better understand social context inference models in different countries.
翻訳日:2024-01-31 19:30:17 公開日:2024-01-29
# 品質多様性強化学習のための近似的ポリシーグラディエントアーボラミネッセンス

Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning ( http://arxiv.org/abs/2305.13795v2 )

ライセンス: Link先を確認
Sumeet Batra, Bryon Tjanaka, Matthew C. Fontaine, Aleksei Petrenko, Stefanos Nikolaidis, Gaurav Sukhatme(参考訳) 環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。 品質多様性強化学習(qd-rl)は、両方の分野の最良の側面を融合させる新たな研究領域である -- 品質多様性(qd)は、原則化された形態の探索を提供し、行動的に多様なエージェントのコレクションを生成する一方で、強化学習(rl)は、タスクと動的環境間の一般化を可能にする強力なパフォーマンス改善オペレータを提供する。 既存のQD-RLアプローチは、効率的で決定論的なオフポリチックRLアルゴリズムや/または進化戦略をサンプリングし、高度に確率的な環境と闘うことが制約されている。 本研究では,特にPPO(Proximal Policy Optimization, Proximal Policy Optimization, Proximal Policy Optimization, PPO)をDQD( Differentiable Quality Diversity, 差別化可能な品質多様性)フレームワークに適用し,ロコモーション課題に対する新たなスキルの効率的な最適化と発見を可能にする先行作業の改善を提案する。 提案手法であるppga(proximal policy gradient arborescence)は,ヒューマノイド領域におけるベースラインに対する最高報酬の4倍の改善を含む,最先端の成果を達成している。

Training generally capable agents that thoroughly explore their environment and learn new and diverse skills is a long-term goal of robot learning. Quality Diversity Reinforcement Learning (QD-RL) is an emerging research area that blends the best aspects of both fields -- Quality Diversity (QD) provides a principled form of exploration and produces collections of behaviorally diverse agents, while Reinforcement Learning (RL) provides a powerful performance improvement operator enabling generalization across tasks and dynamic environments. Existing QD-RL approaches have been constrained to sample efficient, deterministic off-policy RL algorithms and/or evolution strategies, and struggle with highly stochastic environments. In this work, we, for the first time, adapt on-policy RL, specifically Proximal Policy Optimization (PPO), to the Differentiable Quality Diversity (DQD) framework and propose additional improvements over prior work that enable efficient optimization and discovery of novel skills on challenging locomotion tasks. Our new algorithm, Proximal Policy Gradient Arborescence (PPGA), achieves state-of-the-art results, including a 4x improvement in best reward over baselines on the challenging humanoid domain.
翻訳日:2024-01-31 19:28:03 公開日:2024-01-29
# 線形利得媒質における古典的パーセル因子と自然放出崩壊速度

Classical Purcell factors and spontaneous emission decay rates in a linear gain medium ( http://arxiv.org/abs/2305.12049v2 )

ライセンス: Link先を確認
Juanjuan Ren, Sebastian Franke, Becca VanDrunen, and Stephen Hughes(参考訳) 近年,線形利得増幅器を用いた光媒体において,原子の自発的放出速度がプロジェクテッド局所状態密度(ldos)に依存すると予測したフォトニックゴールデン則が故障したことが示された。 我々は、この広く使われている自発放出率を修正するための古典的な光物質理論を提案し、Franke et al., Physで報告された量子力学的速度を完全に回復する。 Rev. Lett. 127, 013602 (2021). 線形増幅器を含む媒体に対する補正された古典的パーセル係数は、2つの異なる形態で得られ、どちらも任意の標準古典的マクスウェル解法で容易に計算できる。 また, 実空洞モデルを用いて, 損失材料内に埋没した有限サイズの双極子エミッタに対する局所場効果の存在を含む, 実空洞構造を効率的に研究するのに有用な準正規モードを用いて, 明確な解析結果を導出する。 最後に、バッドキャビティ極限における量子化準正規モードの観点から、完全古典対応を導出する。 例えば、結合損失ゲインマイクロディスク共振器の数値計算は、少数のモード展開と完全な数値双極子シミュレーションとの間に優れた一致を示す。

Recently the photonic golden rule, which predicts that the spontaneous emission rate of an atom depends on the projected local density of states (LDOS), was shown to fail in an optical medium with a linear gain amplifier. We present a classical light-matter theory to fix this widely used spontaneous emission rate, fully recovering the quantum mechanical rate reported in Franke et al., Phys. Rev. Lett. 127, 013602 (2021). The corrected classical Purcell factor, for media containing linear amplifiers, is obtained in two different forms, both of which can easily be calculated in any standard classical Maxwell solver. We also derive explicit analytical results in terms of quasinormal modes, which are useful for studying practical cavity structures in an efficient way, including the presence of local field effects for finite-size dipole emitters embedded inside lossy or gain materials (using a real cavity model). Finally, we derive a full classical correspondence from the viewpoint of quantized quasinormal modes in the bad cavity limit. Example numerical calculations are shown for coupled loss-gain microdisk resonators, showing excellent agreement between few mode expansions and full numerical dipole simulations.
翻訳日:2024-01-31 19:27:25 公開日:2024-01-29
# 縦型キャビティ・キュービットカップリングに基づくフォトニック和経路絡み合い器

A photonic which-path entangler based on longitudinal cavity-qubit coupling ( http://arxiv.org/abs/2306.13573v2 )

ライセンス: Link先を確認
Z. M. McIntyre and W. A. Coish(参考訳) 量子ビット状態に基づく多光子コヒーレント状態の波束による経路の制御には、変調された縦方向キャビティ-量子ビットカップリングを用いることができ、結果として量子ビット-who-path (qwp) の絡み合い状態が得られる。 QWP状態は、離散および連続変数自由度に対向する戦略を用いて、長距離多部交絡を生成することができる。 ここで提示されるアプローチを用いることで、単一の光子源や検出器を必要とせずに、量子ネットワークに絡み合うことができる。

We show that a modulated longitudinal cavity-qubit coupling can be used to control the path taken by a multiphoton coherent-state wavepacket conditioned on the state of a qubit, resulting in a qubit-which-path (QWP) entangled state. QWP states can generate long-range multipartite entanglement using strategies for interfacing discrete- and continuous-variable degrees-of-freedom. Using the approach presented here, entanglement can be distributed in a quantum network without the need for single-photon sources or detectors.
翻訳日:2024-01-31 19:15:32 公開日:2024-01-29
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v6 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh(参考訳) 量子基礎の基本的な結果の1つがkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が知られているが、3次元の最小KSベクトル系(3D)を見つけるという問題は55年以上も頑固に開き続けている。 最小KS問題に対処するため,探索空間の大部分を抽出するのに非常に有効な等方性のない順序生成技術を用いて,ブール充足可能性 (SAT) と計算機代数システム (CAS) を組み合わせた検証可能な新しい証明生成手法を提案する。 この方法では、3次元のKS系は少なくとも24個のベクトルを含む必要がある。 逐次かつ並列なCube-and-Conquer (CnC) SAT+CAS法は,SAT法,CAS法,Uijlen法,Westerbaan法よりも大幅に高速であることを示す。 さらに、我々の並列パイプラインは、最近導入されたSatisfiability Modulo Theories(SMS)メソッドの並列CnCバージョンよりもやや遅いが、これは部分的には証明生成のオーバーヘッドのためである。 最後に,KS問題に対して,次数23の42.9 TiBの低い値のコンピュータ検証証明を初めて提供する。

One of the fundamental results in quantum foundations is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known, the problem of finding the minimum KS vector system in three dimensions (3D) has remained stubbornly open for over 55 years. To address the minimum KS problem, we present a new verifiable proof-producing method based on a combination of a Boolean satisfiability (SAT) solver and a computer algebra system (CAS) that uses an isomorph-free orderly generation technique that is very effective in pruning away large parts of the search space. Our method shows that a KS system in 3D must contain at least 24 vectors. We show that our sequential and parallel Cube-and-Conquer (CnC) SAT+CAS methods are significantly faster than SAT-only, CAS-only, and a prior CAS-based method of Uijlen and Westerbaan. Further, while our parallel pipeline is somewhat slower than the parallel CnC version of the recently introduced Satisfiability Modulo Theories (SMS) method, this is in part due to the overhead of proof generation. Finally, we provide the first computer-verifiable proof certificate of a lower bound to the KS problem with a size of 42.9 TiB in order 23.
翻訳日:2024-01-31 19:15:19 公開日:2024-01-29
# サーキットブレーキング:ターゲットアブレーションによるモデル挙動の除去

Circuit Breaking: Removing Model Behaviors with Targeted Ablation ( http://arxiv.org/abs/2309.05973v2 )

ライセンス: Link先を確認
Maximilian Li, Xander Davies, Max Nadeau(参考訳) 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。 モデルコンポーネント間の少数の因果経路をアブレーションし,悪行の原因となる計算回路を無効にすることを意図して,好ましくない振る舞いを除去する新しい手法を提案する。 モデルの動作が不十分な入力の小さなデータセットを考えると、少数の重要な因果経路をアブレーションすることを学ぶ。 GPT-2の有害な言語生成を減少させる設定では、11.6Kの因果縁のうち12個だけが、他の入力の性能低下を最小限に抑えられる。

Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.
翻訳日:2024-01-31 19:06:22 公開日:2024-01-29
# シミュレータインフォームド潜在状態を用いたハイブリッドダイナミクスモデルの学習

Learning Hybrid Dynamics Models With Simulator-Informed Latent States ( http://arxiv.org/abs/2309.02873v2 )

ライセンス: Link先を確認
Katharina Ensinger, Sebastian Ziesche, Sebastian Trimpe(参考訳) ダイナミクスモデル学習は、測定データから未知のダイナミクスを推測し、システムの将来の振る舞いを予測するタスクを扱う。 この問題に対処する典型的なアプローチは、リカレントモデルのトレーニングである。 しかし、これらのモデルによる予測はしばしば物理的意味を持たない。 さらに、エラーの蓄積による時間の経過とともに悪化した行動に悩まされる。 しばしば、第一原理に基づくシミュレータは、設計によって物理的に意味がある。 しかし、モデリングの単純化は一般的にこれらのモデルに不正確を引き起こす。 その結果、ハイブリッドモデリングは両方の世界のベストを組み合わせることを目的とした新しいトレンドである。 本稿では,ブラックボックスシミュレータを用いて学習モデルの潜在状態を伝えるハイブリッドモデリングの新しい手法を提案する。 これにより、シミュレータを通じて予測を制御でき、エラーの蓄積を防止できる。 以前のアプローチとは対照的に、シミュレータの潜在状態へのアクセスは利用できないため、これは特に難しい。 我々は,制御理論からよく知られた概念であるオブザーバを活用して,未知の潜在状態を時間経過の観察とダイナミクスから推測することで課題に取り組む。 学習に基づく設定では、シミュレータを通して潜在状態を推測するダイナミクスとオブザーバを共同で学習する。 したがって、シミュレータは学習によるミスマッチをモデル化するために、潜伏状態を常に補正する。 柔軟性を維持するため,シミュレータから情報を得ることができない潜伏状態に対するRNNベースの予約を訓練する。

Dynamics model learning deals with the task of inferring unknown dynamics from measurement data and predicting the future behavior of the system. A typical approach to address this problem is to train recurrent models. However, predictions with these models are often not physically meaningful. Further, they suffer from deteriorated behavior over time due to accumulating errors. Often, simulators building on first principles are available being physically meaningful by design. However, modeling simplifications typically cause inaccuracies in these models. Consequently, hybrid modeling is an emerging trend that aims to combine the best of both worlds. In this paper, we propose a new approach to hybrid modeling, where we inform the latent states of a learned model via a black-box simulator. This allows to control the predictions via the simulator preventing them from accumulating errors. This is especially challenging since, in contrast to previous approaches, access to the simulator's latent states is not available. We tackle the task by leveraging observers, a well-known concept from control theory, inferring unknown latent states from observations and dynamics over time. In our learning-based setting, we jointly learn the dynamics and an observer that infers the latent states via the simulator. Thus, the simulator constantly corrects the latent states, compensating for modeling mismatch caused by learning. To maintain flexibility, we train an RNN-based residuum for the latent states that cannot be informed by the simulator.
翻訳日:2024-01-31 19:05:59 公開日:2024-01-29
# 連続時間ガウス過程ダイナミクスの厳密推論

Exact Inference for Continuous-Time Gaussian Process Dynamics ( http://arxiv.org/abs/2309.02351v2 )

ライセンス: Link先を確認
Katharina Ensinger, Nicholas Tagliapietra, Sebastian Ziesche, Sebastian Trimpe(参考訳) 物理系はしばしば連続時間力学系を通して記述される。 実際には、真の系はしばしば未知であり、測定データから学ばなければならない。 データは通常、センサなどによって離散的に収集されるため、ガウス過程(GP)のダイナミックスモデル学習のほとんどの方法は、一段階の予測に基づいて訓練される。 例えば、不規則にサンプリングされた時間ステップで測定を行う場合や、物理的システム特性を保存しなければならない場合などだ。 したがって、真の連続時間ダイナミクスのgpモデルを目指している。 高次数値積分器は、力学関数を任意の精度で離散化することでこの問題に対処するために必要なツールを提供する。 多くの高階積分器は、正確にGP推論を抽出可能な中間段階における動的評価を必要とする。 以前の研究では、gpの後部を変分推論で近似することでこの問題にしばしば取り組まれている。 しかし、正確なGP推論は、数学的な保証のために多くのシナリオで好まれる。 直接推論を抽出可能にするために,マルチステップおよびテイラー積分器の活用を提案する。 この種の積分器のフレキシブルな推論スキームを導出する方法を実証する。 さらに,学習後から一貫したダイナミクス関数を描けるように調整されたサンプリングスキームを導出する。 これは、動的モデルから一貫した予測をサンプリングするために重要である。 実験的および理論的に、我々の手法が連続時間系の正確な表現をもたらすことを示す。

Physical systems can often be described via a continuous-time dynamical system. In practice, the true system is often unknown and has to be learned from measurement data. Since data is typically collected in discrete time, e.g. by sensors, most methods in Gaussian process (GP) dynamics model learning are trained on one-step ahead predictions. This can become problematic in several scenarios, e.g. if measurements are provided at irregularly-sampled time steps or physical system properties have to be conserved. Thus, we aim for a GP model of the true continuous-time dynamics. Higher-order numerical integrators provide the necessary tools to address this problem by discretizing the dynamics function with arbitrary accuracy. Many higher-order integrators require dynamics evaluations at intermediate time steps making exact GP inference intractable. In previous work, this problem is often tackled by approximating the GP posterior with variational inference. However, exact GP inference is preferable in many scenarios, e.g. due to its mathematical guarantees. In order to make direct inference tractable, we propose to leverage multistep and Taylor integrators. We demonstrate how to derive flexible inference schemes for these types of integrators. Further, we derive tailored sampling schemes that allow to draw consistent dynamics functions from the learned posterior. This is crucial to sample consistent predictions from the dynamics model. We demonstrate empirically and theoretically that our approach yields an accurate representation of the continuous-time system.
翻訳日:2024-01-31 19:05:39 公開日:2024-01-29
# 乱流シミュレーションのための自己回帰条件拡散モデル

Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation ( http://arxiv.org/abs/2309.01745v2 )

ライセンス: Link先を確認
Georg Kohl, Li-Wei Chen, Nils Thuerey(参考訳) 乱流のシミュレーションは、幅広いアプリケーションにとって不可欠であり、機械学習ベースの解法は、ますます関連性を高めつつある。 しかし、より長い水平方向に一般化する場合の時間的安定性は、学習したPDEソルバにとって永続的な課題である。 本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処可能な選択肢であるかどうかを解析する。 本研究は, トレーニング体制を超えた流れパラメータの一般化を必要としながら, 精度, 後方サンプリング, スペクトル挙動, 時間安定性について検討する。 様々な流れ予測手法の性能を定量的に定性的に評価するために, 非圧縮性, 半音速流, 等方性乱流を含む3つの挑戦シナリオを用いる。 単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から複数の確立したフロー予測手法より優れていることが判明した。 このような伝統的なアーキテクチャは推論速度の点で優れているが、拡散アプローチの確率論的性質は、基礎となる物理学の統計と一致する複数の予測を推測することができる。 本ベンチマークでは, 各種フロー予測アーキテクチャとともに, 確率的評価に適した3つの慎重に選択されたデータセットを含む。

Simulating turbulent flows is crucial for a wide range of applications, and machine learning-based solvers are gaining increasing relevance. However, achieving temporal stability when generalizing to longer rollout horizons remains a persistent challenge for learned PDE solvers. In this work, we analyze if fully data-driven fluid solvers that utilize an autoregressive rollout based on conditional diffusion models are a viable option to address this challenge. We investigate accuracy, posterior sampling, spectral behavior, and temporal stability, while requiring that methods generalize to flow parameters beyond the training regime. To quantitatively and qualitatively benchmark the performance of a range of flow prediction approaches, three challenging scenarios including incompressible and transonic flows, as well as isotropic turbulence are employed. We find that even simple diffusion-based approaches can outperform multiple established flow prediction methods in terms of accuracy and temporal stability, while being on par with state-of-the-art stabilization techniques like unrolling at training time. Such traditional architectures are superior in terms of inference speed, however, the probabilistic nature of diffusion approaches allows for inferring multiple predictions that align with the statistics of the underlying physics. Overall, our benchmark contains three carefully chosen data sets that are suitable for probabilistic evaluation alongside various established flow prediction architectures.
翻訳日:2024-01-31 19:04:30 公開日:2024-01-29
# lidarポイントクラウドを用いた3次元レーン検出の進歩:データ収集からモデル開発へ

Advancements in 3D Lane Detection Using LiDAR Point Clouds: From Data Collection to Model Development ( http://arxiv.org/abs/2309.13596v2 )

ライセンス: Link先を確認
Runkai Zhao, Yuwen Heng, Yuanda Gao, Shilei Liu, Heng Wang, Changhao Yao, Jiawen Chen, Weidong Cai(参考訳) Advanced Driver-Assistance Systems (ADAS)は、車両の認識と意思決定に学習ベースの技術を統合することに成功した。 しかし, 効率的な運転環境認識のための3次元車線検出への応用は, 包括的LiDARデータセットの欠如によって妨げられる。 LiDARポイントクラウドデータのスパースな性質は、効率的な手動アノテーションプロセスを防ぐ。 そこで本研究では,20kフレームの周辺視LiDAR点雲からなる大規模3次元レーン・データセットLiSV-3DLaneを提案する。 前景に限定された既存のデータセットとは異なり、LiSV-3DLaneはエゴ車の周りに360度の空間パノラマを提供し、都市と高速道路の両方で複雑な車線パターンを捉えている。 我々は、レーンラインの幾何学的特性とLiDARデータ固有の空間特性を利用して、より微細なレーンラベルを生成するためのシンプルで効果的な自動アノテーションパイプラインを設計する。 本研究では,LiDARを用いた新しい3次元車線検出モデルLiLaDetを提案し,LiDAR点雲の空間幾何学的学習をBird's Eye View (BEV) に基づく車線識別に取り入れた。 実験の結果,K-LaneデータセットとLiSV-3DLaneの3次元車線検出タスクにおいて,LiLaDetは既存のカメラおよびLiDARベースのアプローチよりも優れていた。

Advanced Driver-Assistance Systems (ADAS) have successfully integrated learning-based techniques into vehicle perception and decision-making. However, their application in 3D lane detection for effective driving environment perception is hindered by the lack of comprehensive LiDAR datasets. The sparse nature of LiDAR point cloud data prevents an efficient manual annotation process. To solve this problem, we present LiSV-3DLane, a large-scale 3D lane dataset that comprises 20k frames of surround-view LiDAR point clouds with enriched semantic annotation. Unlike existing datasets confined to a frontal perspective, LiSV-3DLane provides a full 360-degree spatial panorama around the ego vehicle, capturing complex lane patterns in both urban and highway environments. We leverage the geometric traits of lane lines and the intrinsic spatial attributes of LiDAR data to design a simple yet effective automatic annotation pipeline for generating finer lane labels. To propel future research, we propose a novel LiDAR-based 3D lane detection model, LiLaDet, incorporating the spatial geometry learning of the LiDAR point cloud into Bird's Eye View (BEV) based lane identification. Experimental results indicate that LiLaDet outperforms existing camera- and LiDAR-based approaches in the 3D lane detection task on the K-Lane dataset and our LiSV-3DLane.
翻訳日:2024-01-31 18:51:55 公開日:2024-01-29
# maple: 大きな言語モデルを埋め込んだモバイルアプリの予測

MAPLE: Mobile App Prediction Leveraging Large Language Model Embeddings ( http://arxiv.org/abs/2309.08648v2 )

ライセンス: Link先を確認
Yonchanok Khaokaew, Hao Xue, Flora D. Salim(参考訳) 近年,アプリのレコメンデーションやユーザ行動分析,モバイルリソース管理といった分野において,モバイルアプリの利用予測がますます重要になっている。 しかし、既存のモデルでは、コンテキストデータの異質な性質とユーザーのコールドスタート問題に苦労している。 本研究では,Large Language Models (LLMs) を採用した新しい予測モデルである Mobile App Prediction Leveraging Large Language Model Embeddings (MAPLE) を紹介する。 MAPLEはLLMの力を利用してコンテキストデータを処理し、その中の複雑な関係を効果的に識別する。 さらに,冷戦開始問題に対処するためにインストールされたアプリの類似性について検討し,履歴データに制限のある新規ユーザに対しても,ユーザの好みや習慣のモデリングを容易にする。 本研究は,MAPLEをアプリケーション利用予測の新しい,強力な,実践的なアプローチとして提示し,既存のモデルが直面する問題の解決に大きく貢献する。 MAPLEは総合的で効果的なソリューションであり、より正確でパーソナライズされたアプリ利用予測のための新しいベンチマークを設定する。 2つの実世界のデータセットのテストでは、MAPLEは標準およびコールドスタートシナリオの両方で、現代のモデルを上回っている。 これらの結果は、mapleの正確なアプリ利用予測能力とコールドスタート問題に対するレジリエンスを検証する。 この性能の向上は、複雑な時間的パターンを捕捉し、文脈情報を活用するモデルの能力に起因している。 その結果、mapleはパーソナライズされたモバイルアプリの利用予測とユーザエクスペリエンスを著しく改善することができる。

In recent years, predicting mobile app usage has become increasingly important for areas like app recommendation, user behaviour analysis, and mobile resource management. Existing models, however, struggle with the heterogeneous nature of contextual data and the user cold start problem. This study introduces a novel prediction model, Mobile App Prediction Leveraging Large Language Model Embeddings (MAPLE), which employs Large Language Models (LLMs) and installed app similarity to overcome these challenges. MAPLE utilises the power of LLMs to process contextual data and discern intricate relationships within it effectively. Additionally, we explore the use of installed app similarity to address the cold start problem, facilitating the modelling of user preferences and habits, even for new users with limited historical data. In essence, our research presents MAPLE as a novel, potent, and practical approach to app usage prediction, making significant strides in resolving issues faced by existing models. MAPLE stands out as a comprehensive and effective solution, setting a new benchmark for more precise and personalised app usage predictions. In tests on two real-world datasets, MAPLE surpasses contemporary models in both standard and cold start scenarios. These outcomes validate MAPLE's capacity for precise app usage predictions and its resilience against the cold start problem. This enhanced performance stems from the model's proficiency in capturing complex temporal patterns and leveraging contextual information. As a result, MAPLE can potentially improve personalised mobile app usage predictions and user experiences markedly.
翻訳日:2024-01-31 18:50:05 公開日:2024-01-29
# Relaxedメモリモデルによるコンパイラテスト

Compiler Testing With Relaxed Memory Models ( http://arxiv.org/abs/2310.12337v3 )

ライセンス: Link先を確認
Luke Geeson, Lee Smith(参考訳) バグを見つけることは、現在広く使われているコンパイラの正しさの鍵である。 コンパイルされたプログラムの動作が、アーキテクチャメモリモデルによって許されるように、ソースモデルの下でソースプログラムの動作ではない場合、バグが発生する。 これはすべてのプログラムに当てはまるが、2つ以上の実行スレッドでのみ発生する並行性バグに焦点を当てる。 C/C++コンパイラのそのようなバグを検出するテスト技術に注力する。 プログラムサイズの固定境界まで自動的に並列バグをカバーし、多数のコードでコンパイルされたプログラムのバグを見つけるためにスケールするテスト手法を模索する。 そうでなければ、テストテクニックはバグを見逃す可能性がある。 残念ながら、最先端の技術はこれらの特性をすべて満たしていない。 並列プログラムのためのT'el\'echatコンパイラテストツールを提案する。 T\'el\'echatは並列C/C++プログラムをコンパイルし、ソースとアーキテクチャのメモリモデルを使用して、ソースとコンパイルされたプログラムの振る舞いを比較する。 t\'el\'echatはマルチスレッド実行のためのコード生成におけるバグ発見の最先端を改善し、業界にデプロイされる並行性のためのコンパイラテストツールの最初の公開記述であり、望ましいプロパティに向けて大きな一歩を踏み出した最初のツールである。 我々はT'el\'echatが他の最先端技術に欠落しているバグを発見したことを示す実験的な証拠を提供する。

Finding bugs is key to the correctness of compilers in wide use today. If the behaviour of a compiled program, as allowed by its architecture memory model, is not a behaviour of the source program under its source model, then there is a bug. This holds for all programs, but we focus on concurrency bugs that occur only with two or more threads of execution. We focus on testing techniques that detect such bugs in C/C++ compilers. We seek a testing technique that automatically covers concurrency bugs up to fixed bounds on program sizes and that scales to find bugs in compiled programs with many lines of code. Otherwise, a testing technique can miss bugs. Unfortunately, the state-of-the-art techniques are yet to satisfy all of these properties. We present the T\'el\'echat compiler testing tool for concurrent programs. T\'el\'echat compiles a concurrent C/C++ program and compares source and compiled program behaviours using source and architecture memory models. We make three claims: T\'el\'echat improves the state-of-the-art at finding bugs in code generation for multi-threaded execution, it is the first public description of a compiler testing tool for concurrency that is deployed in industry, and it is the first tool that takes a significant step towards the desired properties. We provide experimental evidence suggesting T\'el\'echat finds bugs missed by other state-of-the-art techniques, case studies indicating that T\'el\'echat satisfies the properties, and reports of our experience deploying T\'el\'echat in industry regression testing.
翻訳日:2024-01-31 18:39:36 公開日:2024-01-29
# 有害言語検出:アラビア語データセットの体系的レビュー

Toxic language detection: a systematic review of Arabic datasets ( http://arxiv.org/abs/2312.07228v2 )

ライセンス: Link先を確認
Imene Bensalem, Paolo Rosso, Hanane Zitouni(参考訳) 近年、アラビア語における有毒な言語の検出は活発な研究分野として現れており、開発ソリューションの訓練に使用されている既存のデータセットのレビューが求められている。 本稿では,オンライン有毒言語に着目したアラビア語データセットの包括的調査を行う。 我々は,54の利用可能なデータセットとその対応論文を体系的に収集し,アベイラビリティの詳細,内容,アノテーション処理,再利用性という4つの主要な側面の18の基準を考慮し,徹底的な分析を行った。 この分析により,既存のギャップを特定し,今後の研究成果の推薦を行うことができた。 研究コミュニティの便宜のために、分析されたデータセットのリストはgithubリポジトリ(https://github.com/imene1/arabic-toxic-language)に保存されている。

The detection of toxic language in the Arabic language has emerged as an active area of research in recent years, and reviewing the existing datasets employed for training the developed solutions has become a pressing need. This paper offers a comprehensive survey of Arabic datasets focused on online toxic language. We systematically gathered a total of 54 available datasets and their corresponding papers and conducted a thorough analysis, considering 18 criteria across four primary dimensions: availability details, content, annotation process, and reusability. This analysis enabled us to identify existing gaps and make recommendations for future research works. For the convenience of the research community, the list of the analysed datasets is maintained in a GitHub repository (https://github.com/Imene1/Arabic-toxic-language).
翻訳日:2024-01-31 18:30:18 公開日:2024-01-29
# 現代舞踊における3次元人体ポーズと形状推定法の検討

Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications ( http://arxiv.org/abs/2401.02383v2 )

ライセンス: Link先を確認
Darshan Venkatrayappa, Alain Tremeau, Damien Muselet, Philippe Colantoni(参考訳) 3Dの人体形状とRGB画像からのポーズ推定は、拡張現実やバーチャルリアリティー、ヘルスケア、フィットネス技術、仮想小売における潜在的な応用において難しい問題である。 最近のソリューションは3種類の入力に焦点を当てている。 i) 単一の画像, 二 マルチビュー画像及び iii) ビデオ。 本研究では,現代舞踊・芸能における3次元身体形状とポーズ推定法について,人体ポーズ・ドレッシング,カメラ視点,照明条件,背景条件に着目し,調査・比較を行った。 踊り手が現代舞踊を行う場合のポーズ推定には,phalpのようなマルチフレーム方式の方が単一フレーム方式よりも優れた結果が得られることを示した。

3D human body shape and pose estimation from RGB images is a challenging problem with potential applications in augmented/virtual reality, healthcare and fitness technology and virtual retail. Recent solutions have focused on three types of inputs: i) single images, ii) multi-view images and iii) videos. In this study, we surveyed and compared 3D body shape and pose estimation methods for contemporary dance and performing arts, with a special focus on human body pose and dressing, camera viewpoint, illumination conditions and background conditions. We demonstrated that multi-frame methods, such as PHALP, provide better results than single-frame method for pose estimation when dancers are performing contemporary dances.
翻訳日:2024-01-31 18:16:58 公開日:2024-01-29
# 普遍クォートゲートのベンチマーク

Benchmarking of universal qutrit gates ( http://arxiv.org/abs/2312.17418v2 )

ライセンス: Link先を確認
David Amaro-Alcal\'a, Barry C. Sanders, Hubert de Guise(参考訳) 本稿では,ユニバーサルクトリットゲート集合のキャラクタリゼーションスキームを提案する。 量子力学系に対する関心の高まりに動機づけられ、我々の超二面体群がクトリット t ゲートの性能を特徴づけるためのスキームを基礎付けるための基準を適用した。 結果として得られたqutritスキームは実現可能であり、qutrit cliffordのランダム化ベンチマークに使用されるリソースに似たリソースとデータ分析技術が必要です。 クエトリットのTゲートベンチマークと既知のクエトリットのクリフォードゲートベンチマークを組み合わせることで、普遍クエトリットゲートセットの完全なキャラクタリゼーションが可能になる。

We introduce a characterisation scheme for a universal qutrit gate set. Motivated by the rising interest in qutrit systems, we apply our criteria to establish that our hyperdihedral group underpins a scheme to characterise the performance of a qutrit T gate. Our resulting qutrit scheme is feasible, as it requires resources and data analysis techniques similar to resources employed for qutrit Clifford randomised benchmarking. Combining our T gate benchmarking procedure for qutrits with known qutrit Clifford-gate benchmarking enables complete characterisation of a universal qutrit gate set.
翻訳日:2024-01-31 18:16:10 公開日:2024-01-29
# FENet:レーン検出のための拡張ネットワーク

FENet: Focusing Enhanced Network for Lane Detection ( http://arxiv.org/abs/2312.17163v4 )

ライセンス: Link先を確認
Liman Wang, Hanyang Zhong(参考訳) 人間の運転に着想を得たこの研究は、サンプリング、部分的な視野評価、fpnアーキテクチャの強化、指向性iou損失といった、自動運転のための正確な車線検出のための障害に対処するイノベーションをターゲットとしたネットワークの先駆者である。 実験では,一様アプローチと異なり,重要な遠方的詳細を強調する,集中的サンプリング戦略を実証し,安全に不可欠なベンチマークと実用的カーブ・ディスタント車線認識精度を著しく向上させた。 FENetV1は、ドライバービジョンを模倣する視点認識コンテキストを分離することで、最先端の従来のメトリックパフォーマンスを達成するが、FENetV2は提案された部分フィールド分析において最も信頼性が高いことを証明している。 したがって、標準的な全画像測定値の低下にもかかわらず、実用的なレーンナビゲーションにはv2を特に推奨する。 今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。 コードはhttps://github.com/hanyangzhong/fenetで入手できる。

Inspired by human driving focus, this research pioneers networks augmented with Focusing Sampling, Partial Field of View Evaluation, Enhanced FPN architecture and Directional IoU Loss - targeted innovations addressing obstacles to precise lane detection for autonomous driving. Experiments demonstrate our Focusing Sampling strategy, emphasizing vital distant details unlike uniform approaches, significantly boosts both benchmark and practical curved/distant lane recognition accuracy essential for safety. While FENetV1 achieves state-of-the-art conventional metric performance via enhancements isolating perspective-aware contexts mimicking driver vision, FENetV2 proves most reliable on the proposed Partial Field analysis. Hence we specifically recommend V2 for practical lane navigation despite fractional degradation on standard entire-image measures. Future directions include collecting on-road data and integrating complementary dual frameworks to further breakthroughs guided by human perception principles. The Code is available at https://github.com/HanyangZhong/FENet.
翻訳日:2024-01-31 18:15:58 公開日:2024-01-29
# 雑音バングラテキストの感情分析における雑音低減法の比較分析

A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis on Noisy Bangla Texts ( http://arxiv.org/abs/2401.14360v2 )

ライセンス: Link先を確認
Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir Sarker, Md. Tanvir Rouf Shawon, G. M. Shahariar(参考訳) バングラ語は限られた資源を持つ言語と考えられているが、感情分析は文学における広範な研究の対象となっている。 それにもかかわらず、特に騒がしいバングラ語テキストの領域で感情分析の探求が不足している。 本稿では,約15kの雑音バングラテキストからなる既存の感情分析データセットに含まれる10種類のノイズを手作業で識別するデータセット(nc-sentnob)を提案する。 まず,入力ノイズのテキストからノイズタイプを識別し,これをマルチラベル分類タスクとして扱う。 そこで本研究では,感情分析を行う前にノイズを緩和するためのベースライン雑音低減手法を提案する。 最後に,ノイズと雑音を再現したテキストを用いた微調整感情分析モデルの性能評価を行い,比較を行った。 実験結果から, 使用したノイズ低減法は不十分であり, 将来の研究でより適切なノイズ低減法の必要性が示唆された。 我々はこの論文で提示された実装とデータセットをhttps://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-reduction-Methods-in-Sentiment-on-Nois y-Bangla-Textsで公開しました。

While Bangla is considered a language with limited resources, sentiment analysis has been a subject of extensive research in the literature. Nevertheless, there is a scarcity of exploration into sentiment analysis specifically in the realm of noisy Bangla texts. In this paper, we introduce a dataset (NC-SentNoB) that we annotated manually to identify ten different types of noise found in a pre-existing sentiment analysis dataset comprising of around 15K noisy Bangla texts. At first, given an input noisy text, we identify the noise type, addressing this as a multi-label classification task. Then, we introduce baseline noise reduction methods to alleviate noise prior to conducting sentiment analysis. Finally, we assess the performance of fine-tuned sentiment analysis models with both noisy and noise-reduced texts to make comparisons. The experimental findings indicate that the noise reduction methods utilized are not satisfactory, highlighting the need for more suitable noise reduction methods in future research endeavors. We have made the implementation and dataset presented in this paper publicly available at https://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-Reduction-Methods-in-Sentiment-Analysi s-on-Noisy-Bangla-Texts
翻訳日:2024-01-31 17:53:16 公開日:2024-01-29
# 拡張量子崩壊モデルにおける量子断片化

Quantum Fragmentation in the Extended Quantum Breakdown Model ( http://arxiv.org/abs/2401.16480v1 )

ライセンス: Link先を確認
Bo-Ting Chen, Abhinav Prem, Nicolas Regnault, Biao Lian(参考訳) フェルミオンとスピンの自由度からなる1次元(1次元)拡張量子ブレークダウンモデルを導入し、フェルミオンとスピン間の空間的非対称なブレークダウン型相互作用を特徴付ける。 解析的に、スピンの磁場が存在しない場合、モデルは各対称性セクター内のヒルベルト空間の断片化を指数関数的に多くのクリロフ部分空間に示し、したがって非熱的ダイナミクスを示す。 ここでは、この断片化が自然に絡み合った基底で発生し、「量子断片化」の例を示す。 また, フラグメンテーションの性質を解析的に確立すると同時に, エンタングルメントエントロピーの長期的挙動と, システム内のエルゴディダリティのプローブとして期待されたページ値からの偏差についても検討した。 スピンに対して非自明な磁場を導入すると、クリロフ部分空間のほとんどが融合し、モデルがカオスとなる。 最後に,システムに対する強いランダム性の影響について検討し,多体局在系と同様の挙動を観察する。

We introduce a one-dimensional (1D) extended quantum breakdown model comprising a fermionic and a spin degree of freedom per site, and featuring a spatially asymmetric breakdown-type interaction between the fermions and spins. We analytically show that, in the absence of any magnetic field for the spins, the model exhibits Hilbert space fragmentation within each symmetry sector into exponentially many Krylov subspaces and hence displays non-thermal dynamics. Here, we demonstrate that the fragmentation naturally occurs in an entangled basis and thus provides an example of "quantum fragmentation." Besides establishing the nature of fragmentation analytically, we also study the long-time behavior of the entanglement entropy and its deviation from the expected Page value as a probe of ergodicity in the system. Upon introducing a non-trivial magnetic field for the spins, most of the Krylov subspaces merge and the model becomes chaotic. Finally, we study the effects of strong randomness on the system and observe behavior similar to that of many-body localized systems.
翻訳日:2024-01-31 17:44:16 公開日:2024-01-29
# ゲートアダプタを用いた分類・検索のための効果的な制御可能なバイアス緩和

Effective Controllable Bias Mitigation for Classification and Retrieval using Gate Adapters ( http://arxiv.org/abs/2401.16457v1 )

ライセンス: Link先を確認
Shahed Masoudian, Cornelia Volaucnik, Markus Schedl, Shahed Masoudian(参考訳) 言語モデルのバイアス緩和は、オンデマンドデバイアスのためのアダプタのような別々のモジュールを学ぶことに最近焦点をあてた多くの研究のトピックとなっている。 モジュラー化デバイアスモデルの最適化に加えて、例えば検索結果における所望のパフォーマンス-公正トレードオフを調整したり、分類タスクにおけるデバイアスの強度を制御したりするために、推論時間におけるバイアス低減の度合いを制御することがしばしば重要である。 本稿では,モデルの偏り状態から完全に偏りのあるバージョンへの段階的な遷移を可能にする,感度パラメータを調節可能なモジュール型ゲーティング機構である controllable gate adapter (congater) を提案する。 本研究は,(1)4つの保護属性を持つ3つの分類タスクにおいて,3つの異なるモデルを用いた敵対的デバイアス実験を行い,(2)フェアネスリストワイズ正則化による検索結果のバイアスを低減し,パフォーマンスとフェアネス指標のトレードオフを調整可能にすることで,コンガター性能を実証する。 分類タスクに関する実験では,同じ口径のベースラインと比較して,属性に関する情報を少ないまま高いタスク性能を維持することができた。 検索タスクの結果,完全偏りのあるコンガターは,最近の強力なベースラインよりも2倍以上高いタスク性能を維持しながら,同一のフェアネス性能を達成できることがわかった。 全体として、強力なパフォーマンスに加えて、ConGaterはモデルのバイアス状態とバイアス状態の連続的な遷移を可能にし、可制御性を通じて使用のパーソナライズと解釈可能性を高める。

Bias mitigation of Language Models has been the topic of many studies with a recent focus on learning separate modules like adapters for on-demand debiasing. Besides optimizing for a modularized debiased model, it is often critical in practice to control the degree of bias reduction at inference time, e.g., in order to tune for a desired performance-fairness trade-off in search results or to control the strength of debiasing in classification tasks. In this paper, we introduce Controllable Gate Adapter (ConGater), a novel modular gating mechanism with adjustable sensitivity parameters, which allows for a gradual transition from the biased state of the model to the fully debiased version at inference time. We demonstrate ConGater performance by (1) conducting adversarial debiasing experiments with three different models on three classification tasks with four protected attributes, and (2) reducing the bias of search results through fairness list-wise regularization to enable adjusting a trade-off between performance and fairness metrics. Our experiments on the classification tasks show that compared to baselines of the same caliber, ConGater can maintain higher task performance while containing less information regarding the attributes. Our results on the retrieval task show that the fully debiased ConGater can achieve the same fairness performance while maintaining more than twice as high task performance than recent strong baselines. Overall, besides strong performance ConGater enables the continuous transitioning between biased and debiased states of models, enhancing personalization of use and interpretability through controllability.
翻訳日:2024-01-31 17:43:56 公開日:2024-01-29
# SHViT:メモリ効率の良いマクロ設計によるシングルヘッドビジョントランス

SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design ( http://arxiv.org/abs/2401.16456v1 )

ライセンス: Link先を確認
Seokju Yun, Youngmin Ro(参考訳) 近年、効率の良い視覚トランスフォーマーは、リソース制約のあるデバイスで低レイテンシで優れた性能を示している。 従来、マクロレベルでは4x4パッチ埋め込みと4ステージ構造を使用しており、マイクロレベルではマルチヘッド構成で高度な注意を払っている。 本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。 より大型のストライドパッチステムを用いることでメモリアクセスコストを低減できるだけでなく,初期から空間冗長性を低減したトークン表現を活用することで,競争性能も向上する。 さらに, 予備分析の結果, 早期の注意層を畳み込みで置き換えることができ, 後期の注意層は計算的に冗長であることがわかった。 そこで本研究では, 頭部冗長性を本質的に防止し, グローバル情報とローカル情報を並列に組み合わせ, 精度を高めるシングルヘッドアテンションモジュールを提案する。 我々のソリューションを基にしたSHViTは、最先端のスピード精度トレードオフを得るシングルヘッドビジョン変換器である。 たとえばImageNet-1kでは、私たちのSHViT-S4はGPU、CPU、iPhone12のモバイルViTv2 x1.0よりも3.3倍、8.1倍、2.4倍速く、精度は1.3%向上しています。 Mask-RCNNヘッドを用いたMS COCOのオブジェクト検出とインスタンスセグメンテーションでは,GPUとモバイルデバイスでそれぞれ3.8倍,2.0倍のバックボーンレイテンシを示しながら,FastViT-SA12に匹敵する性能を実現している。

Recently, efficient Vision Transformers have shown great performance with low latency on resource-constrained devices. Conventionally, they use 4x4 patch embeddings and a 4-stage structure at the macro level, while utilizing sophisticated attention with multi-head configuration at the micro level. This paper aims to address computational redundancy at all design levels in a memory-efficient manner. We discover that using larger-stride patchify stem not only reduces memory access costs but also achieves competitive performance by leveraging token representations with reduced spatial redundancy from the early stages. Furthermore, our preliminary analyses suggest that attention layers in the early stages can be substituted with convolutions, and several attention heads in the latter stages are computationally redundant. To handle this, we introduce a single-head attention module that inherently prevents head redundancy and simultaneously boosts accuracy by parallelly combining global and local information. Building upon our solutions, we introduce SHViT, a Single-Head Vision Transformer that obtains the state-of-the-art speed-accuracy tradeoff. For example, on ImageNet-1k, our SHViT-S4 is 3.3x, 8.1x, and 2.4x faster than MobileViTv2 x1.0 on GPU, CPU, and iPhone12 mobile device, respectively, while being 1.3% more accurate. For object detection and instance segmentation on MS COCO using Mask-RCNN head, our model achieves performance comparable to FastViT-SA12 while exhibiting 3.8x and 2.0x lower backbone latency on GPU and mobile device, respectively.
翻訳日:2024-01-31 17:43:25 公開日:2024-01-29
# kaucus: 言語モデルアシスタントのトレーニングのための知識拡張ユーザシミュレータ

KAUCUS: Knowledge Augmented User Simulators for Training Language Model Assistants ( http://arxiv.org/abs/2401.16454v1 )

ライセンス: Link先を確認
Kaustubh D. Dhole(参考訳) 有用な対話データを生成するシミュレータを作成することで、効果的なマルチターン命令追従アシスタントを開発することができる。 その本質的な重みに頼らず、理想的なユーザーシミュレーターは、外部の知識を生の形で迅速にブートストラップし、インターネット上で利用できる多種多様なテキストをシミュレートできる。 従来のユーザシミュレータは、一般的には多様性がなく、主にクローズドドメインであり、厳格なスキーマを必要とするため、外部の知識を取り込むために迅速にスケールすることができない。 本稿では,知識強化型ユーザシミュレータフレームワークであるKaucusを紹介し,外部知識をシームレスに活用し,下流アシスタントモデルトレーニングのメリットを享受する,多様なユーザシミュレータ作成のプロセスを概説する。 2つのgpt-jベースのシミュレータviz.,検索拡張シミュレータ,要約制御シミュレータにより,多様なシミュレータ-アシスタントインタラクションを生成する。 報酬と選好モデルに基づく評価を通じて,これらのインタラクションは,より有用なトレーニングデータとして機能し,より有用な下流アシスタントを作成する。 また,検索の強化や要約制御を通じて知識を取り入れることで,より良いアシスタントを創出できることがわかった。

An effective multi-turn instruction-following assistant can be developed by creating a simulator that can generate useful interaction data. Apart from relying on its intrinsic weights, an ideal user simulator should also be able to bootstrap external knowledge rapidly in its raw form to simulate the multifarious diversity of text available over the internet. Previous user simulators generally lacked diversity, were mostly closed domain, and necessitated rigid schema making them inefficient to rapidly scale to incorporate external knowledge. In this regard, we introduce, Kaucus, a Knowledge-Augmented User Simulator framework, to outline a process of creating diverse user simulators, that can seamlessly exploit external knowledge as well as benefit downstream assistant model training. Through two GPT-J based simulators viz., a Retrieval Augmented Simulator and a Summary Controlled Simulator we generate diverse simulator-assistant interactions. Through reward and preference model-based evaluations, we find that these interactions serve as useful training data and create more helpful downstream assistants. We also find that incorporating knowledge through retrieval augmentation or summary control helps create better assistants.
翻訳日:2024-01-31 17:42:58 公開日:2024-01-29
# 長期交通予測のためのハイブリッド変圧器と時空間自己監督学習

Hybrid Transformer and Spatial-Temporal Self-Supervised Learning for Long-term Traffic Prediction ( http://arxiv.org/abs/2401.16453v1 )

ライセンス: Link先を確認
Wang Zhu, Doudou Zhang, Baichao Long, Jianli Xiao(参考訳) 長期的なトラフィック予測は、その動的時間依存と複雑な空間依存のため、常に困難なタスクである。 本稿では,ハイブリッドトランスフォーマーと時空間自己教師型学習を組み合わせたモデルを提案する。 このモデルは、トラフィックデータのシーケンスレベルとグラフレベルに適応データ拡張技術を適用することにより、ロバスト性を高める。 これは、長期シーケンスのキャプチャにおける再帰的ニューラルネットワークの制限を克服するためにtransformerを使用し、複雑な空間的依存関係をキャプチャするためにchebyshev多項式グラフ畳み込みを使用する。 さらに,時空間不均質性が交通速度に与える影響を考慮して,時間的および空間的不均質性をモデル化する2つの自己教師あり学習タスクを設計し,モデルの精度と一般化能力を向上させる。 実世界の2つのデータセットであるPeMS04とPeMS08で実験を行い、その結果を可視化し分析し、提案モデルの優れた性能を示す。

Long-term traffic prediction has always been a challenging task due to its dynamic temporal dependencies and complex spatial dependencies. In this paper, we propose a model that combines hybrid Transformer and spatio-temporal self-supervised learning. The model enhances its robustness by applying adaptive data augmentation techniques at the sequence-level and graph-level of the traffic data. It utilizes Transformer to overcome the limitations of recurrent neural networks in capturing long-term sequences, and employs Chebyshev polynomial graph convolution to capture complex spatial dependencies. Furthermore, considering the impact of spatio-temporal heterogeneity on traffic speed, we design two self-supervised learning tasks to model the temporal and spatial heterogeneity, thereby improving the accuracy and generalization ability of the model. Experimental evaluations are conducted on two real-world datasets, PeMS04 and PeMS08, and the results are visualized and analyzed, demonstrating the superior performance of the proposed model.
翻訳日:2024-01-31 17:42:35 公開日:2024-01-29
# Context-Former:潜時条件付きシーケンスモデリングによるスタンディング

Context-Former: Stitching via Latent Conditioned Sequence Modeling ( http://arxiv.org/abs/2401.16452v1 )

ライセンス: Link先を確認
Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang(参考訳) オフライン強化学習(rl)アルゴリズムは、サブ最適軌道を縫い合わせることによって、より最適なものを得る。 この能力は、RLが行動ポリシーよりも優れたポリシーを学習できるようにする上で重要な要素である。 一方、決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマーク上での競合性能を示すが、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することは、その性能をさらに向上するために不可欠である。 dtに縫い付け能力を与えるため,ストレッチステッチをエキスパートマッチングとして抽象化し,コンテキスト情報に基づく模倣学習(il)とシーケンスモデリングを統合し,限られた数のエキスパートトラジェクタの表現をエミュレートし,準最適軌道フラグメントを縫合するcontextformerを提案する。 主張を検証するために、我々は2つの視点から実験を行う。 1)ilの設定下でd4rlベンチマークを広範囲に実験し,マルチil環境でのコンテクストフォーマーの競争力を実証した。 2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと多様な競合DTの変種を比較することである。 実験の結果、コンテクストフォーマーの優位性が他の全ての派生型を上回り、その優れた性能を示した。

Offline reinforcement learning (RL) algorithms can improve the decision making via stitching sub-optimal trajectories to obtain more optimal ones. This capability is a crucial factor in enabling RL to learn policies that are superior to the behavioral policy. On the other hand, Decision Transformer (DT) abstracts the decision-making as sequence modeling, showcasing competitive performance on offline RL benchmarks, however, recent studies demonstrate that DT lacks of stitching capability, thus exploit stitching capability for DT is vital to further improve its performance. In order to endow stitching capability to DT, we abstract trajectory stitching as expert matching and introduce our approach, ContextFormer, which integrates contextual information-based imitation learning (IL) and sequence modeling to stitch sub-optimal trajectory fragments by emulating the representations of a limited number of expert trajectories. To validate our claim, we conduct experiments from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks under the settings of IL, and experimental results demonstrate ContextFormer can achieve competitive performance in multi-IL settings. 2) More importantly, we conduct a comparison of ContextFormer with diverse competitive DT variants using identical training datasets. The experimental results unveiled ContextFormer's superiority, as it outperformed all other variants, showcasing its remarkable performance.
翻訳日:2024-01-31 17:42:19 公開日:2024-01-29
# ネットワーク感性深層学習のためのGPUクラスタスケジューリング

GPU Cluster Scheduling for Network-Sensitive Deep Learning ( http://arxiv.org/abs/2401.16492v1 )

ライセンス: Link先を確認
Aakash Sharma, Vivek M. Bhasi, Sonali Singh, George Kesidis, Mahmut T. Kandemir, Chita R. Das(参考訳) 本稿では,ddlジョブのセンシティビティと通信ネットワーク遅延との近接性に基づくgpuリソースの統合を実現する,分散dl(ddl)ワークロードのための新しいgpuクラスタスケジューラを提案する。 私たちのスケジューラは3つの主要コンポーネントで構成されています。 (i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム (二)ネットワークに敏感な就業先取り戦略及び (iii)効果的な遅延スケジューリングのために遅延タイマーを最適化する自動調整機構。 さらに,大規模実験のための費用効率のよい手法を実現するため,データ駆動型DDLクラスタシミュレーションプラットフォームを開発した。 シミュレーションプラットフォームを利用することで、現実のワークロードトレースにおける最先端の代替手段を比較して、設計のメリットを実証します。 私たちのスケジューラは、一般的な統合型スケジューリング手法と比較して、すべてのジョブをトレーニングするために、エンドツーエンドで最大69%の改善を提供すると同時に、平均ジョブ完了時間を最大83%削減し、混雑するネットワーク条件下での通信オーバーヘッドを最大98%削減できる。

We propose a novel GPU-cluster scheduler for distributed DL (DDL) workloads that enables proximity based consolidation of GPU resources based on the DDL jobs' sensitivities to the anticipated communication-network delays. Our scheduler consists of three major components: (i) a classical delay scheduling algorithm to facilitate job placement and consolidation; (ii) a network-sensitive job preemption strategy; and (iii) an "auto-tuner" mechanism to optimize delay timers for effective delay scheduling. Additionally, to enable a cost-effective methodology for large-scale experiments, we develop a data-driven DDL cluster simulation platform. Employing the simulation platform we compare against several state-of-the-art alternatives on real-world workload traces to demonstrate the benefits of our design. Our scheduler can provide improvement of up to 69% in end-to-end Makespan for training all jobs compared to the prevailing consolidation-based scheduling methods, while reducing the average job completion time by up to 83% and minimizing the communication overheads by up to 98% under congested networking conditions.
翻訳日:2024-01-31 17:31:00 公開日:2024-01-29
# 標準弱結合限界を超える定常状態相関関数とKMS関係との整合性

Steady state correlation function beyond the standard weak coupling limit and consistency with KMS relation ( http://arxiv.org/abs/2401.16488v1 )

ライセンス: Link先を確認
Sakil Khan, Lokendra Singh Rathore, and Sachin Jain(参考訳) 熱浴と相互作用する際のシステムの熱化は興味深い問題である。 システムが最終的に長い時間で熱状態に達すると、その密度行列は平均的なギブス状態に類似すると予想される。 さらに、相関関数はKubo-Martin-Schwinger (KMS)条件を満たす必要がある。 本稿では,弱結合極限の文脈における非マルコフ二点関数の形式表現を導出する。 この式を用いて、特定のモデルに対する2点関数を明示的に計算し、KMSへの付着を示す。 さらに,摂動論の部分的再開を含む自己整合近似という形で,非摂動的アプローチを定式化した。 このアプローチは、単純な方程式に依存しながら強い結合現象を捉えることができる。 特に,本手法により得られた2点関数がKMS条件を満たすことを確認する。

Thermalization of a system when interacting with a thermal bath is an interesting problem. If a system eventually reaches a thermal state in the long time limit, it's expected that its density matrix would resemble the mean-force Gibbs state. Moreover, the correlation function must satisfy the Kubo-Martin-Schwinger (KMS) condition or equivalently the Fluctuation-Dissipation Relation (FDR). In this paper, we derive a formal expression for the non-Markovian two-point function within the context of the weak coupling limit. Using this expression, we explicitly compute the two-point function for specific models, demonstrating their adherence to the KMS. In addition, we have formulated a non-perturbative approach in the form of a self-consistent approximation that includes a partial resummation of perturbation theory. This approach can capture strong coupling phenomena while still relying on simple equations. Notably, we verify that the two-point function obtained through this method also satisfies the KMS condition.
翻訳日:2024-01-31 17:30:43 公開日:2024-01-29
# ボルツマン・サンプラーの能動学習と量子力学的精度によるポテンシャルエネルギー

Active learning of Boltzmann samplers and potential energies with quantum mechanical accuracy ( http://arxiv.org/abs/2401.16487v1 )

ライセンス: Link先を確認
Ana Molina-Taborda, Pilar Cossio, Olga Lopez-Acevedo, Marylou Gabri\'e(参考訳) 分子系の関連する自由エネルギーミニマ間の一貫した統計の抽出は、物理学、化学、生物学に必須である。 分子動力学(MD)シミュレーションはこのタスクに役立つが、特に量子精度を必要とするシステムでは計算コストが高い。 この課題を克服するために、深層生成モデルによる強化サンプリングと機械学習ポテンシャル(MLP)のアクティブラーニングを組み合わせたアプローチを開発する。 適応型マルコフ連鎖モンテカルロフレームワークを導入し,1つの正規化フロー(NF)と1つの状態当たりのMLPのトレーニングを可能にする。 いくつかのマルコフ連鎖が収束するまで並列にシミュレートし、ボルツマン分布を効率よくエネルギー評価を用いてサンプリングする。 各イテレーションにおいて、密度汎関数理論(DFT)を用いてNF生成構成のサブセットのエネルギーを計算し、残りの構成のエネルギーをMLPで予測し、DFT計算エネルギーを用いてMLPを積極的に訓練する。 訓練されたNFモデルとMLPモデルを利用することで、自由エネルギー差や光学スペクトルなどの熱力学的観測値を計算することができる。 本手法は,超小型銀ナノクラスターの異性化研究に応用し,医療・触媒分野における多様な応用系に属する。

Extracting consistent statistics between relevant free-energy minima of a molecular system is essential for physics, chemistry and biology. Molecular dynamics (MD) simulations can aid in this task but are computationally expensive, especially for systems that require quantum accuracy. To overcome this challenge, we develop an approach combining enhanced sampling with deep generative models and active learning of a machine learning potential (MLP). We introduce an adaptive Markov chain Monte Carlo framework that enables the training of one Normalizing Flow (NF) and one MLP per state. We simulate several Markov chains in parallel until they reach convergence, sampling the Boltzmann distribution with an efficient use of energy evaluations. At each iteration, we compute the energy of a subset of the NF-generated configurations using Density Functional Theory (DFT), we predict the remaining configuration's energy with the MLP and actively train the MLP using the DFT-computed energies. Leveraging the trained NF and MLP models, we can compute thermodynamic observables such as free-energy differences or optical spectra. We apply this method to study the isomerization of an ultrasmall silver nanocluster, belonging to a set of systems with diverse applications in the fields of medicine and catalysis.
翻訳日:2024-01-31 17:30:29 公開日:2024-01-29
# 行列積状態の安定化群を学習する

Learning the stabilizer group of a Matrix Product State ( http://arxiv.org/abs/2401.16481v1 )

ライセンス: Link先を確認
Guglielmo Lami, Mario Collura(参考訳) 本研究では,与えられた行列積状態 (mps) の安定化子群,すなわち状態が$\pm 1$ 固有ベクトルであるpauli文字列群を学習するために設計された新しい古典的アルゴリズムを提案する。 このアルゴリズムは、パウリ(またはベル)に基づく利口で理論的に偏りのあるサンプリングに基づいている。 その出力は独立安定剤発生器の集合であり、その総数は安定化剤の零度と直接関連している。 本手法は,cliffordユニタリダイナミクスを用いてランダムにスクランブル化され,結合次元$\chi\sim 10^3$の高エンタングルmpsまで精度の高い推定値を示す。 我々の方法は、非常に好ましいスケーリング$\mathcal{O}(\chi^3)$のおかげで、MPSの真のマジックモノトンを得るための最初の効果的なアプローチであり、量子多体物理学の非平衡性に関する体系的な研究を可能にする。

We present a novel classical algorithm designed to learn the stabilizer group -- namely the group of Pauli strings for which a state is a $\pm 1$ eigenvector -- of a given Matrix Product State (MPS). The algorithm is based on a clever and theoretically grounded biased sampling in the Pauli (or Bell) basis. Its output is a set of independent stabilizer generators whose total number is directly associated with the stabilizer nullity, notably a well-established nonstabilizer monotone. We benchmark our method on $T$-doped states randomly scrambled via Clifford unitary dynamics, demonstrating very accurate estimates up to highly-entangled MPS with bond dimension $\chi\sim 10^3$. Our method, thanks to a very favourable scaling $\mathcal{O}(\chi^3)$, represents the first effective approach to obtain a genuine magic monotone for MPS, enabling systematic investigations of quantum many-body physics out-of-equilibrium.
翻訳日:2024-01-31 17:30:07 公開日:2024-01-29
# InfoLossQA: テキスト単純化における情報損失の特徴と回復

InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification ( http://arxiv.org/abs/2401.16475v1 )

ライセンス: Link先を確認
Jan Trienes, Sebastian Joseph, J\"org Schl\"otterer, Christin Seifert, Kyle Lo, Wei Xu, Byron C. Wallace, Junyi Jessy Li(参考訳) テキストの単純化は、技術テキストをより平凡な人々にとってアクセスしやすいものにすることを目的としている。 本研究は,QA(Q&A)ペアによる簡易化による情報損失を特徴付けるフレームワークであるInfoLossQAを提案する。 議論中の問題理論に基づいて、qaペアは読者がテキストに関する知識を深めるのに役立つように設計されている。 私たちはこのフレームワークでさまざまな実験を行います。 まず、医学研究の科学的な抽象化の104 LLM単純化から得られた1000の言語学者によるQAペアのデータセットを収集する。 このデータを分析した結果,情報損失が頻繁に発生し,qaペアが情報損失の概要を高レベルに示すことが明らかとなった。 第2に,オープンソースおよび商用言語モデルのエンドツーエンドプロンプトと,自然言語推論パイプラインの2つの手法を考案した。 qaペアの正しさとその言語的適合性を考慮した新たな評価フレームワークによって,モデルが情報損失を確実に識別し,情報損失を構成するものに人間と同様の基準を適用するのに苦労していることが明らかになった。

Text simplification aims to make technical texts more accessible to laypeople but often results in deletion of information and vagueness. This work proposes InfoLossQA, a framework to characterize and recover simplification-induced information loss in form of question-and-answer (QA) pairs. Building on the theory of Question Under Discussion, the QA pairs are designed to help readers deepen their knowledge of a text. We conduct a range of experiments with this framework. First, we collect a dataset of 1,000 linguist-curated QA pairs derived from 104 LLM simplifications of scientific abstracts of medical studies. Our analyses of this data reveal that information loss occurs frequently, and that the QA pairs give a high-level overview of what information was lost. Second, we devise two methods for this task: end-to-end prompting of open-source and commercial language models, and a natural language inference pipeline. With a novel evaluation framework considering the correctness of QA pairs and their linguistic suitability, our expert evaluation reveals that models struggle to reliably identify information loss and applying similar standards as humans at what constitutes information loss.
翻訳日:2024-01-31 17:29:48 公開日:2024-01-29
# フォトニック量子センサネットワークを用いた最適関数推定

Optimal function estimation with photonic quantum sensor networks ( http://arxiv.org/abs/2401.16472v1 )

ライセンス: Link先を確認
Jacob Bringewatt, Adam Ehrenberg, Tarushii Goel, Alexey V. Gorshkov(参考訳) 量子ビットセンサに線形結合された未知局所パラメータの解析関数を最適に測定する問題は、フィールド補間からノイズキャラクタリゼーションまで幅広い応用でよく理解されている。 ここでは,この枠組みをマッハ・ツェンダー干渉計や四角形変位センシングに拡張する場合に生じるオープンな問題をいくつか解決する。 特に,局所位相シフトあるいは二次変位の線形関数を推定する際に,達成可能な平均二乗誤差の下限を求める。 局所位相シフトの場合、これらの結果はプロクターらによる予想を証明し、幾分一般化する。 [arXiv:1702.04271 (2017)] 二次変位に対しては、下限の証明を任意の線型函数の場合にも拡張する。 我々は、これらの境界を小さい(多重)定数まで達成する最適なプロトコルを提供し、新しい最適プロトコルを導出するための代数的アプローチを記述する。 この手法を用いて,局所位相と変位センシングの双方において,任意の最適プロトコルに必要な絡み合い量に必要な条件を明らかにした。

The problem of optimally measuring an analytic function of unknown local parameters each linearly coupled to a qubit sensor is well understood, with applications ranging from field interpolation to noise characterization. Here, we resolve a number of open questions that arise when extending this framework to Mach-Zehnder interferometers and quadrature displacement sensing. In particular, we derive lower bounds on the achievable mean square error in estimating a linear function of either local phase shifts or quadrature displacements. In the case of local phase shifts, these results prove, and somewhat generalize, a conjecture by Proctor et al. [arXiv:1702.04271 (2017)]. For quadrature displacements, we extend proofs of lower bounds to the case of arbitrary linear functions. We provide optimal protocols achieving these bounds up to small (multiplicative) constants and describe an algebraic approach to deriving new optimal protocols, possibly subject to additional constraints. Using this approach, we prove necessary conditions for the amount of entanglement needed for any optimal protocol for both local phase and displacement sensing.
翻訳日:2024-01-31 17:29:26 公開日:2024-01-29
# ヒューマンインストラクションによる高品質画像復元

High-Quality Image Restoration Following Human Instructions ( http://arxiv.org/abs/2401.16468v1 )

ライセンス: Link先を確認
Marcos V. Conde, Gregor Geigle, Radu Timofte(参考訳) 画像復元は、劣化した観察から高品質のクリーンな画像を復元する基本的な問題である。 オールインワン画像復元モデルは, 劣化特異的情報を用いて, 様々な種類の画像や劣化レベルの画像の復元を効果的に行うことができる。 本稿では,画像復元モデルの指導に人間による指示を用いる最初の手法を提案する。 自然言語プロンプトが与えられれば,複数の劣化タイプを考慮した高品質画像の復元が可能となる。 本手法は,画像のデノイジング,デラリング,デブラリング,デハジング,(低光度)画像エンハンスメントなどの復元作業において,最新の結果を得る。 InstructIRは以前のオールインワンの復元方法よりも+1dBを改善する。 さらに,本データセットは,テキスト誘導画像の復元と改善に関する新たな研究のベンチマークである。 私たちのコード、データセット、モデルは、https://github.com/mv-lab/InstructIRで利用可能です。

Image restoration is a fundamental problem that involves recovering a high-quality clean image from its degraded observation. All-In-One image restoration models can effectively restore images from various types and levels of degradation using degradation-specific information as prompts to guide the restoration model. In this work, we present the first approach that uses human-written instructions to guide the image restoration model. Given natural language prompts, our model can recover high-quality images from their degraded counterparts, considering multiple degradation types. Our method, InstructIR, achieves state-of-the-art results on several restoration tasks including image denoising, deraining, deblurring, dehazing, and (low-light) image enhancement. InstructIR improves +1dB over previous all-in-one restoration methods. Moreover, our dataset and results represent a novel benchmark for new research on text-guided image restoration and enhancement. Our code, datasets and models are available at: https://github.com/mv-lab/InstructIR
翻訳日:2024-01-31 17:29:08 公開日:2024-01-29
# ReGAL: 一般化可能な抽象化を発見するためのリファクタリングプログラム

ReGAL: Refactoring Programs to Discover Generalizable Abstractions ( http://arxiv.org/abs/2401.16467v1 )

ライセンス: Link先を確認
Elias Stengel-Eskin, Archiki Prasad, Mohit Bansal(参考訳) 大きな言語モデル(LLM)は、プログラム合成にますます使われているが、有用な抽象化を開発するのに必要なグローバルな視点は欠如している。 スクラッチから冗長コードを生成することは、非効率かつエラーを起こします。 そこで本研究では,コードリファクタリングを通じて再利用可能な関数のライブラリを学習するための勾配フリーな手法であるgeneralizable abstract learning (regal) のリファクタリングを提案する。 ReGALは,既存のプログラムの小さなセットから学び,実行を通じて抽象化を反復的に検証し,精査する。 regalによって発見された共有関数ライブラリは、プログラムを様々なドメインにまたがって予測しやすくする。 3つのデータセット(LOGOグラフィックス生成、日付推論、MinecraftベースのテキストゲームであるTextCraft)では、オープンソースのLLMとプロプライエタリなLLMの両方が、ReGAL関数を持つプログラムを予測する際に精度が向上する。 CodeLlama-13Bでは、ReGALはグラフィックスで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。 解析の結果,regalの抽象化は,頻繁に使用されるサブルーチンと環境ダイナミクスをカプセル化することが明らかとなった。

While large language models (LLMs) are increasingly being used for program synthesis, they lack the global view needed to develop useful abstractions; they generally predict programs one at a time, often repeating the same functionality. Generating redundant code from scratch is both inefficient and error-prone. To address this, we propose Refactoring for Generalizable Abstraction Learning (ReGAL), a gradient-free method for learning a library of reusable functions via code refactorization, i.e. restructuring code without changing its execution output. ReGAL learns from a small set of existing programs, iteratively verifying and refining its abstractions via execution. We find that the shared function libraries discovered by ReGAL make programs easier to predict across diverse domains. On three datasets (LOGO graphics generation, Date reasoning, and TextCraft, a Minecraft-based text game), both open-source and proprietary LLMs improve in accuracy when predicting programs with ReGAL functions. For CodeLlama-13B, ReGAL results in absolute accuracy increases of 11.5% on graphics, 26.1% on date understanding, and 8.1% on TextCraft, outperforming GPT-3.5 in two of three domains. Our analysis reveals ReGAL's abstractions encapsulate frequently-used subroutines as well as environment dynamics.
翻訳日:2024-01-31 17:28:52 公開日:2024-01-29
# DressCode: テキストガイダンスからガーメントの自動縫製と生成

DressCode: Autoregressively Sewing and Generating Garments from Text Guidance ( http://arxiv.org/abs/2401.16465v1 )

ライセンス: Link先を確認
Kai He, Kaixin Yao, Qixuan Zhang, Jingyi Yu, Lingjie Liu, Lan Xu(参考訳) アパレルの人間の外観における重要な役割は、デジタル人間の創造における衣服のデジタル化の重要性を強調している。 近年の3Dコンテンツ制作の進歩は、デジタル人間の創造にとって重要な要素である。 それでも、テキストガイダンスによる衣服生成はまだ初期段階にある。 これは初心者向けにデザインを民主化し、ファッションデザイン、仮想試着、デジタル人間の創造に多大な可能性をもたらすことを目的としています。 我々はまず,テキストコンディション埋め込みとクロスアテンションを統合したgptベースのアーキテクチャであるmisinggptを導入し,テキスト指導によるミシンパターンを生成する。 また,高品質なタイルベースのPBRテクスチャ生成のために,事前訓練した安定拡散を調整した。 大規模言語モデルを活用することにより,本フレームワークは自然言語インタラクションによりCGフレンドリーな衣服を生成する。 また,パターン補完やテクスチャ編集が容易になり,ユーザフレンドリーなインタラクションによる設計プロセスが簡素化される。 総合的な評価と他の最先端手法との比較により,提案手法は入力プロンプトと最高の品質とアラインメントを示す。 ユーザスタディは高品質なレンダリング結果をさらに検証し、実運用環境での実用性と可能性を強調します。

Apparel's significant role in human appearance underscores the importance of garment digitalization for digital human creation. Recent advances in 3D content creation are pivotal for digital human creation. Nonetheless, garment generation from text guidance is still nascent. We introduce a text-driven 3D garment generation framework, DressCode, which aims to democratize design for novices and offer immense potential in fashion design, virtual try-on, and digital human creation. For our framework, we first introduce SewingGPT, a GPT-based architecture integrating cross-attention with text-conditioned embedding to generate sewing patterns with text guidance. We also tailored a pre-trained Stable Diffusion for high-quality, tile-based PBR texture generation. By leveraging a large language model, our framework generates CG-friendly garments through natural language interaction. Our method also facilitates pattern completion and texture editing, simplifying the process for designers by user-friendly interaction. With comprehensive evaluations and comparisons with other state-of-the-art methods, our method showcases the best quality and alignment with input prompts. User studies further validate our high-quality rendering results, highlighting its practical utility and potential in production settings.
翻訳日:2024-01-31 17:28:27 公開日:2024-01-29
# 広告広告における無料スロット割り当てを後悔する

Towards Regret Free Slot Allocation in Billboard Advertisement ( http://arxiv.org/abs/2401.16464v1 )

ライセンス: Link先を確認
Dildar Ali, Suman Banerjee, Yamuna Prasad(参考訳) 顧客間の影響力を最大化することが広告主の中心的な目標の1つであり、近年でも活発な研究分野である。 この広告手法では、広告主は、支払いベースでコンテンツの特定の数のビューに対してインフルエンサーにアプローチする。 さて、もしインフルエンサーが要求されるビュー数以上を提供できるなら、フル、その他の部分的な支払いを受け取ることになる。 インフルエンスプロバイダの文脈では、多かれ少なかれ意見を提供しれば、彼にとって損失となる。 これは'Regret'として形式化され、当然、インフルエンスプロバイダの文脈では、この量を最小限にすることが目標である。 本稿では,広告広告の文脈でこの問題を解決し,個別の最適化問題として機能する。 この問題に対する4つの効率的な解法を提案し,それらの時間と空間の複雑さを解析する。 実生活データセットを用いて全ての解法を実装し,得られた結果と文献からの既存解法との比較を行った。 提案手法は, 計算時間が少なくても, 後悔が少なくなることを観察する。

Creating and maximizing influence among the customers is one of the central goals of an advertiser, and hence, remains an active area of research in recent times. In this advertisement technique, the advertisers approach an influence provider for a specific number of views of their content on a payment basis. Now, if the influence provider can provide the required number of views or more, he will receive the full, else a partial payment. In the context of an influence provider, it is a loss for him if he offers more or less views. This is formalized as 'Regret', and naturally, in the context of the influence provider, the goal will be to minimize this quantity. In this paper, we solve this problem in the context of billboard advertisement and pose it as a discrete optimization problem. We propose four efficient solution approaches for this problem and analyze them to understand their time and space complexity. We implement all the solution methodologies with real-life datasets and compare the obtained results with the existing solution approaches from the literature. We observe that the proposed solutions lead to less regret while taking less computational time.
翻訳日:2024-01-31 17:28:10 公開日:2024-01-29
# 教師付きコントラスト学習に基づくデュアルミキサーモデルによる生活予測

Supervised Contrastive Learning based Dual-Mixer Model for Remaining Useful Life Prediction ( http://arxiv.org/abs/2401.16462v1 )

ライセンス: Link先を確認
En Fu, Yanyan Hu, Kaixiang Peng and Yuxin Chu(参考訳) 現状の予測モーメントから装置の完全な故障までの残時間を正確に推定することを目的としたRemaining Useful Life(RUL)予測の問題は,近年,研究者から大きな注目を集めている。 本稿では,既存のRUL予測手法における時間的特徴と空間的特徴の厳密結合の欠点を克服するために,Dual-Mixerモデルという空間的時間的特徴抽出器を提案する。 フレキシブル層ワイドプログレッシブな特徴融合を用いて空間的時間的特徴の均一性を確保し、予測精度を高める。 次に、教師付きコントラスト学習に基づいて、FSGRI(Feature Space Global Relationship Invariance)トレーニング手法を導入する。 本手法は,モデルトレーニング中のサンプル特徴と劣化パターンとの整合性を維持し,出力層における後続の回帰タスクを簡素化し,RUL予測におけるモデルの性能を向上させる。 最後に,提案手法の有効性を,C-MAPSSデータセットに関する他の最新の研究結果との比較により検証した。 Dual-Mixerモデルは、ほとんどの指標において優位性を示し、FSGRIトレーニング手法では、それぞれRMSEとMAPEの平均改善率7.00%と2.41%を示している。 実験とモデルコードはhttps://github.com/fuen1590/phmdeeplearningprojectsで公開しています。

The problem of the Remaining Useful Life (RUL) prediction, aiming at providing an accurate estimate of the remaining time from the current predicting moment to the complete failure of the device, has gained significant attention from researchers in recent years. In this paper, to overcome the shortcomings of rigid combination for temporal and spatial features in most existing RUL prediction approaches, a spatial-temporal homogeneous feature extractor, named Dual-Mixer model, is firstly proposed. Flexible layer-wise progressive feature fusion is employed to ensure the homogeneity of spatial-temporal features and enhance the prediction accuracy. Secondly, the Feature Space Global Relationship Invariance (FSGRI) training method is introduced based on supervised contrastive learning. This method maintains the consistency of relationships among sample features with their degradation patterns during model training, simplifying the subsequently regression task in the output layer and improving the model's performance in RUL prediction. Finally, the effectiveness of the proposed method is validated through comparisons with other latest research works on the C-MAPSS dataset. The Dual-Mixer model demonstrates superiority across most metrics, while the FSGRI training method shows an average improvement of 7.00% and 2.41% in RMSE and MAPE, respectively, for all baseline models. Our experiments and model code are publicly available at https://github.com/fuen1590/PhmDeepLearningProjects.
翻訳日:2024-01-31 17:27:54 公開日:2024-01-29
# ソフトタッチによるノーム強化:より高速な創発, 幸せなエージェント

Norm Enforcement with a Soft Touch: Faster Emergence, Happier Agents ( http://arxiv.org/abs/2401.16461v1 )

ライセンス: Link先を確認
Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh(参考訳) マルチエージェントシステムは自律エージェントの社会と見なすことができ、その相互作用は社会的規範によって効果的に制御される。 一般に、社会の規範はハードコードされていないが、エージェントの相互作用から生まれる。 特に、社会のエージェントがお互いの行動にどう反応し、他人の反応に反応するかは、社会においてどの規範が現れるかを決定する。 第1のエージェントから第2のエージェントへのコミュニケーションとして、他のエージェントの満足な行動や不満足な行動に対するエージェントによるこれらの反応を考えます。 これらのコミュニケーションを理解することは、一種の社会的知性である:これらのコミュニケーションは、エージェントを特定の行動に向かわせることによって、規範の発生を自然に促進する。 制裁が規範の出現につながることはよく知られているが、より広い種類の社会知能がマルチエージェントシステムにおける協力を促進する上でより効果的であることを示す。 そこで我々は,これまでの研究よりも幅広いコミュニケーションと理解という形で,ソーシャルインテリジェンスをモデル化するフレームワークであるnestを開発した。 そこで本研究では,nestをシミュレーションしたパンデミック環境を構築し,社会コミュニケーションの3種類の組み合わせを考慮に入れて,nestとベースラインを比較するシミュレーション実験を行った。 さらに,nestエージェントは,否定的な制裁や目標からの逸脱である望ましくない結果を効果的に回避し,同等の情報しか必要とせず,ベースラインエージェントよりも高い満足度を得る。

A multiagent system can be viewed as a society of autonomous agents, whose interactions can be effectively regulated via social norms. In general, the norms of a society are not hardcoded but emerge from the agents' interactions. Specifically, how the agents in a society react to each other's behavior and respond to the reactions of others determines which norms emerge in the society. We think of these reactions by an agent to the satisfactory or unsatisfactory behaviors of another agent as communications from the first agent to the second agent. Understanding these communications is a kind of social intelligence: these communications provide natural drivers for norm emergence by pushing agents toward certain behaviors, which can become established as norms. Whereas it is well-known that sanctioning can lead to the emergence of norms, we posit that a broader kind of social intelligence can prove more effective in promoting cooperation in a multiagent system. Accordingly, we develop Nest, a framework that models social intelligence in the form of a wider variety of communications and understanding of them than in previous work. To evaluate Nest, we develop a simulated pandemic environment and conduct simulation experiments to compare Nest with baselines considering a combination of three kinds of social communication: sanction, tell, and hint. We find that societies formed of Nest agents achieve norms faster; moreover, Nest agents effectively avoid undesirable consequences, which are negative sanctions and deviation from goals, and yield higher satisfaction for themselves than baseline agents despite requiring only an equivalent amount of information.
翻訳日:2024-01-31 17:27:29 公開日:2024-01-29
# 拡散先行した統一視覚知覚のためのブリッジ生成モデルと識別モデル

Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors ( http://arxiv.org/abs/2401.16459v1 )

ライセンス: Link先を確認
Shiyin Dong, Mingrui Zhu, Kun Cheng, Nannan Wang, Xinbo Gao(参考訳) 画像生成における拡散モデルの顕著な傾向は、その応用を生成的タスクを超えて拡張する努力を促した。 しかし、様々な意味的粒度の要求を伴う視覚知覚タスクに拡散モデルを適用する統一的なアプローチが欠如している。 本研究の目的は、生成モデルと識別モデルとの潜在的な相乗効果を活かした統一視覚知覚フレームワークの構築である。 本稿では,事前学習済み安定拡散(sd)モデルと,階層的表現を統合可能な統一ヘッド(uヘッド)と,識別的前処理を提供する適応エキスパートとからなる,単純かつ効果的なフレームワークであるvermouthを提案する。 包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。 我々は、拡散モデルを強力な表現学習者に変換するために、重み付けや複雑なデコーダを組み込む必要はないことを強調する。 本手法は,ゼロショットスケッチベース画像検索(ZS-SBIR),少数ショット分類,オープンボキャブラリセマンティックセグメンテーションタスクにおいて有効であることを示す。 有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。

The remarkable prowess of diffusion models in image generation has spurred efforts to extend their application beyond generative tasks. However, a persistent challenge exists in lacking a unified approach to apply diffusion models to visual perception tasks with diverse semantic granularity requirements. Our purpose is to establish a unified visual perception framework, capitalizing on the potential synergies between generative and discriminative models. In this paper, we propose Vermouth, a simple yet effective framework comprising a pre-trained Stable Diffusion (SD) model containing rich generative priors, a unified head (U-head) capable of integrating hierarchical representations, and an adapted expert providing discriminative priors. Comprehensive investigations unveil potential characteristics of Vermouth, such as varying granularity of perception concealed in latent variables at distinct time steps and various U-net stages. We emphasize that there is no necessity for incorporating a heavyweight or intricate decoder to transform diffusion models into potent representation learners. Extensive comparative evaluations against tailored discriminative models showcase the efficacy of our approach on zero-shot sketch-based image retrieval (ZS-SBIR), few-shot classification, and open-vocabulary semantic segmentation tasks. The promising results demonstrate the potential of diffusion models as formidable learners, establishing their significance in furnishing informative and robust visual representations.
翻訳日:2024-01-31 17:27:04 公開日:2024-01-29
# 信用リスクと大規模言語モデル:P2Pのローン説明からリスク指標を構築する

Credit Risk Meets Large Language Models: Building a Risk Indicator from Loan Descriptions in P2P Lending ( http://arxiv.org/abs/2401.16458v1 )

ライセンス: Link先を確認
Mario Sanz-Guerrero, Javier Arroyo(参考訳) ピアツーピア(P2P)融資は、借り手と貸し手とをオンラインプラットフォームを通じて結びつける独特の融資メカニズムとして登場した。 しかし、貸し手は借主の信用度を評価するのに十分なデータを持たないことが多いため、p2p融資は情報非対称性の課題に直面している。 本稿では,借主がローン申込プロセス中に提供したテキスト記述を活用して,この問題に対処するための新しい手法を提案する。 本手法では,テキスト内のパターンや意味を識別する強力なツールであるLarge Language Model (LLM) を用いて,これらのテキスト記述を処理する。 転送学習は、手前の特定のタスクにLLMを適用するために適用される。 筆者らは,Lending Clubデータセットの分析から,広く使用されているLCMであるBERTが生み出すリスクスコアが,信用リスク分類器の性能を著しく向上させることを示した。 しかし、llmベースのシステムの本質的な不透明性は潜在的なバイアスに関する不確実性と相まって、規制フレームワークの批判的考察を強調し、エンドユーザ間の信頼関係の懸念を喚起し、p2pレンディングと人工知能のダイナミックなランドスケープにおける今後の研究への新たな道を開く。

Peer-to-peer (P2P) lending has emerged as a distinctive financing mechanism, linking borrowers with lenders through online platforms. However, P2P lending faces the challenge of information asymmetry, as lenders often lack sufficient data to assess the creditworthiness of borrowers. This paper proposes a novel approach to address this issue by leveraging the textual descriptions provided by borrowers during the loan application process. Our methodology involves processing these textual descriptions using a Large Language Model (LLM), a powerful tool capable of discerning patterns and semantics within the text. Transfer learning is applied to adapt the LLM to the specific task at hand. Our results derived from the analysis of the Lending Club dataset show that the risk score generated by BERT, a widely used LLM, significantly improves the performance of credit risk classifiers. However, the inherent opacity of LLM-based systems, coupled with uncertainties about potential biases, underscores critical considerations for regulatory frameworks and engenders trust-related concerns among end-users, opening new avenues for future research in the dynamic landscape of P2P lending and artificial intelligence.
翻訳日:2024-01-31 17:26:42 公開日:2024-01-29
# マルチラベル学習のためのディープラーニング:包括的調査

Deep Learning for Multi-Label Learning: A Comprehensive Survey ( http://arxiv.org/abs/2401.16549v1 )

ライセンス: Link先を確認
Adane Nega Tarekegn, Mohib Ullah, Faouzi Alaya Cheikh(参考訳) マルチラベル学習は、単一の入力データポイントから複数のラベルを予測することを目的とした、急速に成長する研究分野である。 ビッグデータの時代において、マルチラベル分類(MLC)やランク付けを含むタスクは重要かつ複雑な課題を呈し、多様な領域でかなりの注目を集めている。 MLCでは、高次元データを扱うこと、ラベル相関に対処すること、そして従来の手法では効果が低い部分ラベルを扱うことが含まれる。 近年,MDCにおけるこれらの課題をより効果的に解決するために,ディープラーニング(DL)技術の採用が顕著に増加している。 特に、DLの堅牢な学習能力を活用してラベル依存のモデリングやMLCにおけるその他の課題を改善する努力が盛んである。 しかし、多段学習のためのdlに特化した総合的な研究が限られていることは注目に値する。 そこで本研究では,マルチラベル学習におけるdlの最近の進歩と,mlcにおけるオープンリサーチ問題の概要を概観する。 このレビューは、深層ニューラルネットワーク、トランスフォーマー、オートエンコーダ、畳み込みおよび繰り返しアーキテクチャを含む、MDCのためのDLの既存の研究活動を統合する。 最後に、本研究は、この領域における今後の研究の方向性を示唆し、洞察に富む観察を提供する既存の手法の比較分析を行う。

Multi-label learning is a rapidly growing research area that aims to predict multiple labels from a single input data point. In the era of big data, tasks involving multi-label classification (MLC) or ranking present significant and intricate challenges, capturing considerable attention in diverse domains. Inherent difficulties in MLC include dealing with high-dimensional data, addressing label correlations, and handling partial labels, for which conventional methods prove ineffective. Recent years have witnessed a notable increase in adopting deep learning (DL) techniques to address these challenges more effectively in MLC. Notably, there is a burgeoning effort to harness the robust learning capabilities of DL for improved modelling of label dependencies and other challenges in MLC. However, it is noteworthy that comprehensive studies specifically dedicated to DL for multi-label learning are limited. Thus, this survey aims to thoroughly review recent progress in DL for multi-label learning, along with a summary of open research problems in MLC. The review consolidates existing research efforts in DL for MLC,including deep neural networks, transformers, autoencoders, and convolutional and recurrent architectures. Finally, the study presents a comparative analysis of the existing methods to provide insightful observations and stimulate future research directions in this domain.
翻訳日:2024-01-31 17:18:58 公開日:2024-01-29
# GuReT: GuiltとRegret関連テキストの廃止

GuReT: Distinguishing Guilt and Regret related Text ( http://arxiv.org/abs/2401.16541v1 )

ライセンス: Link先を確認
Sabur Butt, Fazlourrahman Balouchzahi, Abdul Gafar Manuel Meque, Maaz Amjad, Hector G. Ceballos Cancino, Grigori Sidorov, Alexander Gelbukh(参考訳) 人間の意思決定と感情、特に罪悪感と後悔の関係は、行動と幸福に重大な影響を及ぼす。 しかし、これらの感情は微妙な区別と相互作用がしばしば計算モデルで見過ごされる。 本稿では,罪悪感と後悔の因果関係を識別するためのデータセットを紹介し,感情コンピューティング研究における顕著なギャップを埋める。 提案手法は罪悪感と後悔の認識を二分分類タスクとして扱い、3つの機械学習と6つのトランスフォーマーベースのディープラーニング技術を用いてデータセットをベンチマークする。 この研究はさらに、モデルの解釈論理を評価するために、チェーンオブ思考やツリーオブ思考のような革新的な推論手法を実装している。 その結果、トランスフォーマーベースのモデルでは、最高の機械学習分類器が獲得した85.3%に比べて90.4%のマクロf1スコアを達成し、複雑な感情状態の識別に優れた能力を示している。

The intricate relationship between human decision-making and emotions, particularly guilt and regret, has significant implications on behavior and well-being. Yet, these emotions subtle distinctions and interplay are often overlooked in computational models. This paper introduces a dataset tailored to dissect the relationship between guilt and regret and their unique textual markers, filling a notable gap in affective computing research. Our approach treats guilt and regret recognition as a binary classification task and employs three machine learning and six transformer-based deep learning techniques to benchmark the newly created dataset. The study further implements innovative reasoning methods like chain-of-thought and tree-of-thought to assess the models interpretive logic. The results indicate a clear performance edge for transformer-based models, achieving a 90.4% macro F1 score compared to the 85.3% scored by the best machine learning classifier, demonstrating their superior capability in distinguishing complex emotional states.
翻訳日:2024-01-31 17:18:35 公開日:2024-01-29
# 管理データ機械学習のための効率的な観察時間窓セグメンテーション

Efficient Observation Time Window Segmentation for Administrative Data Machine Learning ( http://arxiv.org/abs/2401.16537v1 )

ライセンス: Link先を確認
Musa Taib, Geoffrey G. Messier(参考訳) 結果を予測するために管理データを活用することは、特に医療において機械学習の重要な応用分野である。 ほとんどの管理データレコードはタイムスタンプされ、時間の経過とともにレコードのパターンが機械学習モデルのキー入力となる。 本稿では,機械学習モデルの観測窓を時間セグメントあるいは"ビン"に分割する最善の方法を検討する。 より小さく高解像度の時間セグメントから最も恩恵を受けるデータの特徴を特定する計算効率の良いプロセスが提示される。 医療・住宅・ホームレス管理データから得られた結果は、これらの優先度の高い特徴の時間ビンサイズを最適化し、他の特徴のために1つの時間ビンを使用することで、よりシンプルで訓練の速い機械学習モデルを実現することを示した。 このアプローチはまた、すべてのデータ特徴を同じ時間分解能で表現することをデフォルトとする、より複雑なモデルよりも、同様で時に優れたパフォーマンスを実現する。

Utilizing administrative data to predict outcomes is an important application area of machine learning, particularly in healthcare. Most administrative data records are timestamped and the pattern of records over time is a key input for machine learning models. This paper explores how best to divide the observation window of a machine learning model into time segments or "bins". A computationally efficient process is presented that identifies which data features benefit most from smaller, higher resolution time segments. Results generated on healthcare and housing/homelessness administrative data demonstrate that optimizing the time bin size of these high priority features while using a single time bin for the other features achieves machine learning models that are simpler and quicker to train. This approach also achieves similar and sometimes better performance than more complex models that default to representing all data features with the same time resolution.
翻訳日:2024-01-31 17:18:18 公開日:2024-01-29
# アニマタブル・ファシアル・アバターの創造の民主化

Democratizing the Creation of Animatable Facial Avatars ( http://arxiv.org/abs/2401.16534v1 )

ライセンス: Link先を確認
Yilin Zhu, Dalton Omens, Haodi He, Ron Fedkiw(参考訳) ハイエンドの視覚効果パイプラインでは、様々な表現の幾何学とテクスチャを取得するために、アクターをスキャンするためにカスタマイズされた(そして高価な)ライトステージシステムを使用する。 民主化を目指して,光ステージや他のハイエンドハードウェア(あるいは手作業によるクリーンアップ)を使わずに,幾何学やテクスチャの獲得と,カスタマイズした人固有のアニメーションリグを構築するための十分な表現情報を得るパイプラインを提案する。 テンプレートアバターの形状に整合した実世界の画像をワープし、その後、歪んだ画像をテンプレートアバターのテクスチャに投影することで、実世界の照明・テクスチャ情報を活用することで、幾何再構成のためのサロゲート顔の特徴(およびドメインギャップのブリッジ)を作成することができる。 提案手法は,中性表現幾何学とデライトテクスチャを得るだけでなく,アニメーションシステムにインポートされたアバターを改良するためにも利用できる(このようなインポートは失われやすいが,様々な特徴を幻覚させる傾向がある)。 デフォルトのアニメーションリグには、特定の個人と正しく一致しないテンプレート式が含まれているため、さまざまな表現をキャプチャし、人固有のアニメーションリグを構築するためにSimon Saysアプローチを使用します。 上述のワープ・プロジェクション法は,各表現に対応する幾何を再構成するのに十分な有効性を有する。

In high-end visual effects pipelines, a customized (and expensive) light stage system is (typically) used to scan an actor in order to acquire both geometry and texture for various expressions. Aiming towards democratization, we propose a novel pipeline for obtaining geometry and texture as well as enough expression information to build a customized person-specific animation rig without using a light stage or any other high-end hardware (or manual cleanup). A key novel idea consists of warping real-world images to align with the geometry of a template avatar and subsequently projecting the warped image into the template avatar's texture; importantly, this allows us to leverage baked-in real-world lighting/texture information in order to create surrogate facial features (and bridge the domain gap) for the sake of geometry reconstruction. Not only can our method be used to obtain a neutral expression geometry and de-lit texture, but it can also be used to improve avatars after they have been imported into an animation system (noting that such imports tend to be lossy, while also hallucinating various features). Since a default animation rig will contain template expressions that do not correctly correspond to those of a particular individual, we use a Simon Says approach to capture various expressions and build a person-specific animation rig (that moves like they do). Our aforementioned warping/projection method has high enough efficacy to reconstruct geometry corresponding to each expressions.
翻訳日:2024-01-31 17:18:01 公開日:2024-01-29
# 浅量子回路におけるアイデンティティチェック問題

Identity check problem for shallow quantum circuits ( http://arxiv.org/abs/2401.16525v1 )

ライセンス: Link先を確認
Sergey Bravyi, Natalie Parham, and Minh Tran(参考訳) 2つの量子回路がほぼ同値であるかどうかを確認することは、量子コンピューティングにおいて一般的なタスクである。 量子回路の$U$を考えると、$U$とIDチャネルの間のダイヤモンド-ノーム距離を推定する必要がある。 回路が同一性に十分近い場合に、浅部幾何学的に局所的な$D$次元回路に対して$\alpha=D+1$の係数内の同一性への距離を近似する古典的アルゴリズムを提案する。 アルゴリズムのランタイムは、任意の一定回路深さと空間次元のキュービット数とともに線形にスケールする。 また,浅部1次元回路では$\alpha=5$,浅部1次元回路では$\alpha=2D+3$,浅部1次元回路では$\alpha=2D+3$で効率よく近似できることを示す。 最大100キュービットの1次元トロッター回路に対して、IDチェックアルゴリズムの数値的な実装を報告する。

Checking whether two quantum circuits are approximately equivalent is a common task in quantum computing. We consider a closely related identity check problem: given a quantum circuit $U$, one has to estimate the diamond-norm distance between $U$ and the identity channel. We present a classical algorithm approximating the distance to the identity within a factor $\alpha=D+1$ for shallow geometrically local $D$-dimensional circuits provided that the circuit is sufficiently close to the identity. The runtime of the algorithm scales linearly with the number of qubits for any constant circuit depth and spatial dimension. We also show that the operator-norm distance to the identity $\|U-I\|$ can be efficiently approximated within a factor $\alpha=5$ for shallow 1D circuits and, under a certain technical condition, within a factor $\alpha=2D+3$ for shallow $D$-dimensional circuits. A numerical implementation of the identity check algorithm is reported for 1D Trotter circuits with up to 100 qubits.
翻訳日:2024-01-31 17:17:33 公開日:2024-01-29
# HSIシーンにおけるバンド選択のためのドロップアウトコンクリートオートエンコーダ

Dropout Concrete Autoencoder for Band Selection on HSI Scenes ( http://arxiv.org/abs/2401.16522v1 )

ライセンス: Link先を確認
Lei Xu, Mete Ahishali, and Moncef Gabbouj(参考訳) 近年,高スペクトル画像(HSI)における深層学習に基づく帯域選択手法が注目され,スペクトル相関や冗長性は排除されている。 しかしながら、既存のディープラーニングベースの手法では、記述帯域を選択するための追加の後処理戦略が必要か、あるいは、選択手順における離散変数のパラメータ化が不可能であるため、モデルを間接的に最適化する必要がある。 これらの制約を克服するために,情報帯域選択のための新しいエンドツーエンドネットワークを提案する。 提案するネットワークは,コンクリートオートエンコーダ(CAE)とドロップアウト機能ランキング戦略の進歩にインスパイアされている。 従来のディープラーニング方式とは異なり、提案するネットワークは、さらなる後処理の必要性を排除し、必要な帯域サブセットを直接的に訓練する。 4つのHSIシーンにおける実験結果から,提案したドロップアウトCAEは,競合する手法よりも相当かつ効果的に性能が向上することが示された。

Deep learning-based informative band selection methods on hyperspectral images (HSI) recently have gained intense attention to eliminate spectral correlation and redundancies. However, the existing deep learning-based methods either need additional post-processing strategies to select the descriptive bands or optimize the model indirectly, due to the parameterization inability of discrete variables for the selection procedure. To overcome these limitations, this work proposes a novel end-to-end network for informative band selection. The proposed network is inspired by the advances in concrete autoencoder (CAE) and dropout feature ranking strategy. Different from the traditional deep learning-based methods, the proposed network is trained directly given the required band subset eliminating the need for further post-processing. Experimental results on four HSI scenes show that the proposed dropout CAE achieves substantial and effective performance levels outperforming the competing methods.
翻訳日:2024-01-31 17:17:12 公開日:2024-01-29
# 時系列深層学習モデルの摂動に基づく感度解析手法の検証, ロバスト性, 精度

Validation, Robustness, and Accuracy of Perturbation-Based Sensitivity Analysis Methods for Time-Series Deep Learning Models ( http://arxiv.org/abs/2401.16521v1 )

ライセンス: Link先を確認
Zhengguang Wang(参考訳) 本研究は,時間系列深層学習における解釈可能性の評価研究である。 感度分析は、入力の変化が出力に与える影響を評価し、解釈の重要な構成要素を構成する。 バックプロパゲーション,摂動,近似といったポストホックな解釈手法のうち,最近のトランスフォーマモデルにおける摂動に基づく感度解析手法について検討し,その性能評価を行う。 特に私の研究は3つの研究課題に答えています 1)異なる感度分析(SA)手法は、同等の出力と属性の重要度ランキングをもたらすか? 2)同じ感度解析法を用いて,異なる深層学習(DL)モデルが感度解析の出力に影響を与えるか? 3) 感度分析法の結果は, 基礎的真理とどの程度一致しているか?

This work undertakes studies to evaluate Interpretability Methods for Time-Series Deep Learning. Sensitivity analysis assesses how input changes affect the output, constituting a key component of interpretation. Among the post-hoc interpretation methods such as back-propagation, perturbation, and approximation, my work will investigate perturbation-based sensitivity Analysis methods on modern Transformer models to benchmark their performances. Specifically, my work answers three research questions: 1) Do different sensitivity analysis (SA) methods yield comparable outputs and attribute importance rankings? 2) Using the same sensitivity analysis method, do different Deep Learning (DL) models impact the output of the sensitivity analysis? 3) How well do the results from sensitivity analysis methods align with the ground truth?
翻訳日:2024-01-31 17:16:56 公開日:2024-01-29
# MT-HCCAR:階層分類とアテンションに基づくクラウドプロパティ検索のためのマルチタスクディープラーニング

MT-HCCAR: Multi-Task Deep Learning with Hierarchical Classification and Attention-based Regression for Cloud Property Retrieval ( http://arxiv.org/abs/2401.16520v1 )

ライセンス: Link先を確認
Xingyan Li, Andrew M. Sayer, Ian T. Carroll, Xin Huang, Jianwu Wang(参考訳) 地球科学の分野では、効果的なクラウド特性の検索、クラウドマスク、クラウド位相分類、クラウド光学厚み予測(cot)が依然として重要である。 従来の手法では、それぞれのセンサ機器の独特のスペクトル特性から異なるモデルを必要とする。 地球科学研究の最近の進歩は、衛星データセットのスペクトル観測から特徴を抽出するために機械学習とディープラーニング技術を取り入れた。 しかし,検索タスク間の階層的関係を考慮に入れた新しいアーキテクチャは存在しない。 さらに、既存のセンサ間のスペクトルの多様性を考慮すると、異なるセンサデータセットに対する堅牢な一般化機能を持つモデルの開発が不可欠である。 驚くべきことに、多様なデータセットに対する最適なモデルの選択に対処する方法論が数多く存在する。 そこで本稿では,マルチタスク学習を用いてクラウドマスキング,クラウドフェーズ検索(分類タスク),cot予測(回帰タスク)を同時に行う,エンドツーエンドのディープラーニングモデルであるmt-hccarを紹介する。 MT-HCCARは階層型分類ネットワーク(HC)と分類支援型注意ベース回帰ネットワーク(CAR)を統合し、クラウドラベリングとCOT予測の精度と堅牢性を向上させる。 さらに,3つのシミュレーション衛星データセットOCI, VIIRS, ABI上での最適モデルを選択するために,K-foldクロスバリデーションに根ざした包括的モデル選択法,標準誤差規則と2つの導入性能スコアを提案する。 MT-HCCARをベースライン法,アブレーション法およびモデル選択と比較した実験により,MT-HCCARの優位性と一般化能力が確認された。

In the realm of Earth science, effective cloud property retrieval, encompassing cloud masking, cloud phase classification, and cloud optical thickness (COT) prediction, remains pivotal. Traditional methodologies necessitate distinct models for each sensor instrument due to their unique spectral characteristics. Recent strides in Earth Science research have embraced machine learning and deep learning techniques to extract features from satellite datasets' spectral observations. However, prevailing approaches lack novel architectures accounting for hierarchical relationships among retrieval tasks. Moreover, considering the spectral diversity among existing sensors, the development of models with robust generalization capabilities over different sensor datasets is imperative. Surprisingly, there is a dearth of methodologies addressing the selection of an optimal model for diverse datasets. In response, this paper introduces MT-HCCAR, an end-to-end deep learning model employing multi-task learning to simultaneously tackle cloud masking, cloud phase retrieval (classification tasks), and COT prediction (a regression task). The MT-HCCAR integrates a hierarchical classification network (HC) and a classification-assisted attention-based regression network (CAR), enhancing precision and robustness in cloud labeling and COT prediction. Additionally, a comprehensive model selection method rooted in K-fold cross-validation, one standard error rule, and two introduced performance scores is proposed to select the optimal model over three simulated satellite datasets OCI, VIIRS, and ABI. The experiments comparing MT-HCCAR with baseline methods, the ablation studies, and the model selection affirm the superiority and the generalization capabilities of MT-HCCAR.
翻訳日:2024-01-31 17:16:43 公開日:2024-01-29
# 新しい原始体による急速運動の運動論の拡張

Extending the kinematic theory of rapid movements with new primitives ( http://arxiv.org/abs/2401.16519v1 )

ライセンス: Link先を確認
Miguel A. Ferrer, Moises Diaz, Jose J. Quintana, Cristina Carmona-Duarte(参考訳) 急速運動の運動論とその関連するシグマ対数正規モデル2次元時空間軌跡 主に仮想目標点間の曲線の時間的重複として構成される。 具体的には、それぞれ軌跡と速度を表すプリミティブとしてアークと対数正規を用いる。 本稿では,このモデルの開発について,キネマティック理論変換(Kinematic Theory Transform)と呼ぶもので,さらなるプリミティブの使用を可能にする数学的枠組みを確立する。 主に,仮想目標点とガウス,ベータ,ガンマ,二重有界対数正規関数,一般化極値関数をリンクしてベル形状の速度分布をモデル化するためにオイラー曲線を評価する。 これらのプリミティブを用いて,ヒト,動物,人型ロボットによる時空間軌跡の再構成結果を報告する。

The Kinematic Theory of rapid movements, and its associated Sigma-Lognormal, model 2D spatiotemporal trajectories. It is constructed mainly as a temporal overlap of curves between virtual target points. Specifically, it uses an arc and a lognormal as primitives for the representation of the trajectory and velocity, respectively. This paper proposes developing this model, in what we call the Kinematic Theory Transform, which establishes a mathematical framework that allows further primitives to be used. Mainly, we evaluate Euler curves to link virtual target points and Gaussian, Beta, Gamma, Double-bounded lognormal, and Generalized Extreme Value functions to model the bell-shaped velocity profile. Using these primitives, we report reconstruction results with spatiotemporal trajectories executed by human beings, animals, and anthropomorphic robots.
翻訳日:2024-01-31 17:16:15 公開日:2024-01-29
# 量子独立性と色数

Quantum independence and chromatic numbers ( http://arxiv.org/abs/2401.16518v1 )

ライセンス: Link先を確認
Chris Godsil, Mariia Sobchuk(参考訳) 量子および古典的独立数が異なる120個の頂点に新しいグラフを構築する。 同時に、量子彩色数が古典的な彩色数よりも小さい無限のグラフ群を構築する。 さらに、古典的よりも厳密に大きい量子コクリッドを特徴付けるコチェン=スペクター集合との関係も発見する。 最後に、独立数を持つグラフは、2つの量子および古典的独立数と一致することを証明した。

We construct a new graph on 120 vertices whose quantum and classical independence numbers are different. At the same time, we construct an infinite family of graphs whose quantum chromatic numbers are smaller than the classical chromatic numbers. Furthermore, we discover the relation to Kochen-Specker sets that characterizes quantum cocliques that are strictly bigger than classical ones. Finally, we prove that for graphs with independence number is two, quantum and classical independence numbers coincide.
翻訳日:2024-01-31 17:16:00 公開日:2024-01-29
# 量子誘起確率光学ダイナミクス

Quantum-induced Stochastic Optomechanical Dynamics ( http://arxiv.org/abs/2401.16511v1 )

ライセンス: Link先を確認
Pedro V. Paraguass\'u, Luca Abrah\~ao, Thiago Guerreiro(参考訳) 量子振動子との線形光力学的相互作用により誘導される半古典型プローブの有効確率ダイナミクスについて検討した。 量子揺らぎは状態依存の非平衡ノイズを引き起こし、ウェーブパケットの非局在化によって指数関数的に増強される。 クーロン相互作用によって結合されたナノ粒子の場合、そのようなノイズは多粒子浮上実験において潜在的に測定可能なシグネチャを印加することができる。 量子誘起光力学的揺らぎは、量子重力波のノイズや相互確率的熱力学、重力物理学、重力による絡み合いの検出と強い類似性を持っている。

We study the effective stochastic dynamics of a semiclassical probe induced by linear optomechanical interactions with a quantum oscillator. Quantum fluctuations lead to state-dependent non-equilibrium noise, which is exponentially enhanced by wavepacket delocalization. For the case of nanoparticles coupled by the Coulomb interaction such noise can imprint potentially measurable signatures in multiparticle levitation experiments. Quantum-induced optomechanical fluctuations hold strong analogy to quantum gravitational wave noise and interconnect stochastic thermodynamics, graviton physics and the detection of gravity-mediated entanglement.
翻訳日:2024-01-31 17:15:52 公開日:2024-01-29
# ネットワーク接続とアイデア生成プロセスにおけるユーザと意見の推薦の効果

Effect of recommending users and opinions on the network connectivity and idea generation process ( http://arxiv.org/abs/2401.16504v1 )

ライセンス: Link先を確認
Sriniwas Pandey, Hiroki Sayama(参考訳) オンラインサービスへの依存の増大は、レコメンデーションシステム、特にユーザーエンゲージメントの向上を求めるソーシャルメディアプラットフォームにおいて重要な役割を担っている。 本研究では、リコメンデーションシステムが個人の行動特性がソーシャルネットワークのダイナミクスに与える影響について検討する。 ホモフィリーとユーザによる新しいアイデアへのオープンさ、新しい意見へのレコメンデーションによる露出の相互作用を探求する。 さらに、新しいアイデアの多様性に対するレコメンデーションシステムの影響を調査し、新しいアイデアの探索と、バイアスの強化や、価値ある非伝統的な概念のフィルタリングのリスクのバランスをとる効果的なシステムを設計する際の課題と機会に光を当てる。

The growing reliance on online services underscores the crucial role of recommendation systems, especially on social media platforms seeking increased user engagement. This study investigates how recommendation systems influence the impact of personal behavioral traits on social network dynamics. It explores the interplay between homophily, users' openness to novel ideas, and recommendation-driven exposure to new opinions. Additionally, the research examines the impact of recommendation systems on the diversity of newly generated ideas, shedding light on the challenges and opportunities in designing effective systems that balance the exploration of new ideas with the risk of reinforcing biases or filtering valuable, unconventional concepts.
翻訳日:2024-01-31 17:15:43 公開日:2024-01-29
# AFSD-Physics:Human-AI Teaming 法による加法的摩擦刺激沈着過程における温度変化の制御方程式の探索

AFSD-Physics: Exploring the governing equations of temperature evolution during additive friction stir deposition by a human-AI teaming approach ( http://arxiv.org/abs/2401.16501v1 )

ライセンス: Link先を確認
Tony Shi, Mason Ma, Jiajie Wu, Chase Post, Elijah Charles, Tony Schmitz(参考訳) 本稿では,人-AIチームによるAFSD(Adjectitive friction stir deposition)中の温度変化の物理をモデル化する試みについて述べる。 AFSDは、溶かさずに材料を堆積する新しい固体添加物製造技術である。 しかし、AFSDツールのプロセスモデリングとモデリングはどちらも初期段階にある。 本稿では,第一原理に基づくモデルとAIを組み合わせた人間とAIのコラボレーション手法を提案する。 AFSD-Physicsと呼ばれる結果の人間情報機械学習は、ツールの温度変化の制御方程式を効果的に学習し、プロセス内測定から構築することができる。 アルミニウム7075の沈着のプロセス内測定を合計30層で収集するために, 実験および実験を行った。 得られた支配方程式は、計算コストが低く精度の高い物理的解釈可能なモデルである。 モデル予測は測定値と良い一致を示します。 新しいプロセスパラメータによる実験的検証は、ツール温度制御とプロセス最適化に使用するモデルの一般化可能性とポテンシャルを示す。

This paper presents a modeling effort to explore the underlying physics of temperature evolution during additive friction stir deposition (AFSD) by a human-AI teaming approach. AFSD is an emerging solid-state additive manufacturing technology that deposits materials without melting. However, both process modeling and modeling of the AFSD tool are at an early stage. In this paper, a human-AI teaming approach is proposed to combine models based on first principles with AI. The resulting human-informed machine learning method, denoted as AFSD-Physics, can effectively learn the governing equations of temperature evolution at the tool and the build from in-process measurements. Experiments are designed and conducted to collect in-process measurements for the deposition of aluminum 7075 with a total of 30 layers. The acquired governing equations are physically interpretable models with low computational cost and high accuracy. Model predictions show good agreement with the measurements. Experimental validation with new process parameters demonstrates the model's generalizability and potential for use in tool temperature control and process optimization.
翻訳日:2024-01-31 17:15:28 公開日:2024-01-29
# パウリ基底における行列積状態による非安定化性

Nonstabilizerness via matrix product states in the Pauli basis ( http://arxiv.org/abs/2401.16498v1 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Mari Carmen Banuls, Marcello Dalmonte(参考訳) 非安定化性(nonstabilizerness)は「マジック」としても知られ、量子コンピューティングにおける潜在的な利点を達成する上で重要な資源である。 その多体物理現象との結びつきは、主に大規模に計算する実用的な方法が欠如していることから、現時点では理解されていない。 本稿では, 行列積状態(MPS)の枠組み内での非安定化性を評価するための新しい手法を提案する。 我々のフレームワークは、安定化器R'enyiエントロピー、安定化器ヌルティ、ベルマジックなど、様々な非安定化器性の尺度を効率的に計算する強力なツールを提供し、MPSの安定化器群の学習を可能にする。 我々はIsing と XXZ スピン鎖の基底状態や、最近Rydberg 原子配列で実現された回路力学において、我々の方法の有効性と汎用性を示し、そこでは、既に実現された2倍の大きさの論理量子ビットに関する将来の実験のための具体的なベンチマークを提供する。

Nonstabilizerness, also known as ``magic'', stands as a crucial resource for achieving a potential advantage in quantum computing. Its connection to many-body physical phenomena is poorly understood at present, mostly due to a lack of practical methods to compute it at large scales. We present a novel approach for the evaluation of nonstabilizerness within the framework of matrix product states (MPS), based on expressing the MPS directly in the Pauli basis. Our framework provides a powerful tool for efficiently calculating various measures of nonstabilizerness, including stabilizer R\'enyi entropies, stabilizer nullity, and Bell magic, and enables the learning of the stabilizer group of an MPS. We showcase the efficacy and versatility of our method in the ground states of Ising and XXZ spin chains, as well as in circuits dynamics that has recently been realized in Rydberg atom arrays, where we provide concrete benchmarks for future experiments on logical qubits up to twice the sizes already realized.
翻訳日:2024-01-31 17:15:12 公開日:2024-01-29
# 高次元データに対する識別的ベイズガウス過程潜時変動モデル

A Discriminative Bayesian Gaussian Process Latent Variable Model for High-Dimensional Data ( http://arxiv.org/abs/2401.16497v1 )

ライセンス: Link先を確認
Navid Ziaei, Behzad Nazari, Ali Yousefi(参考訳) 高次元データから有意義な情報を抽出することは、特にデータがノイズによって隠されたり、異なるモダリティによって表現された場合、非常に難しいモデリング課題となる。 本研究では,ガウス過程(gp)を応用し,高次元データを潜在低次元多様体にマッピングすることで特徴付ける,新しい非パラメトリックモデリング手法を提案する。 このモデルはLDGD(Latent Disriminative Generative Decoder)と呼ばれ、多様体発見プロセスにおいてデータ(またはその特徴)と関連するラベル(カテゴリや刺激など)の両方を利用する。 潜在変数を推定するためにベイズ解を導出し、ldgdはモデルの予測精度とロバスト性を高めつつ、データの固有の不確かさを効果的に捉えることができる。 合成データセットとベンチマークデータセットの両方にLDGDを適用することを実証する。 LDGDはその多様体を正確に推定するだけでなく、予測ラベルの予測精度は最先端のアプローチを上回る。 我々は,大規模データセットに対するガウス過程(GP)の計算複雑性を低減するための点の導入を行った。 この拡張により、バッチトレーニングが容易になり、広範なデータコレクションを処理する際の処理とスケーラビリティが向上する。 さらに, ldgdはラベル予測において高い精度を達成し, 限られたトレーニングデータセットで効率的に動作し, データの可用性が制約されるシナリオにおいてその効率と有効性を強調する。 これらの属性は、高次元データの解析において、特にデータが高次元と複素の両方である分野において、非パラメトリックモデリングアプローチの開発の舞台となった。

Extracting meaningful information from high-dimensional data poses a formidable modeling challenge, particularly when the data is obscured by noise or represented through different modalities. In this research, we propose a novel non-parametric modeling approach, leveraging the Gaussian Process (GP), to characterize high-dimensional data by mapping it to a latent low-dimensional manifold. This model, named the Latent Discriminative Generative Decoder (LDGD), utilizes both the data (or its features) and associated labels (such as category or stimulus) in the manifold discovery process. To infer the latent variables, we derive a Bayesian solution, allowing LDGD to effectively capture inherent uncertainties in the data while enhancing the model's predictive accuracy and robustness. We demonstrate the application of LDGD on both synthetic and benchmark datasets. Not only does LDGD infer the manifold accurately, but its prediction accuracy in anticipating labels surpasses state-of-the-art approaches. We have introduced inducing points to reduce the computational complexity of Gaussian Processes (GPs) for large datasets. This enhancement facilitates batch training, allowing for more efficient processing and scalability in handling extensive data collections. Additionally, we illustrate that LDGD achieves higher accuracy in predicting labels and operates effectively with a limited training dataset, underscoring its efficiency and effectiveness in scenarios where data availability is constrained. These attributes set the stage for the development of non-parametric modeling approaches in the analysis of high-dimensional data; especially in fields where data are both high-dimensional and complex.
翻訳日:2024-01-31 17:14:53 公開日:2024-01-29
# ビジネスプロセスにおけるinstanceデータの影響:モデルに基づく分析

Inter-instance Data Impacts in Business Processes: A Model-based Analysis ( http://arxiv.org/abs/2401.16584v1 )

ライセンス: Link先を確認
Yotam Evron, Arava Tsoury, Anna Zamansky, Iris Reinhartz-Berger, Pnina Soffer(参考訳) ビジネスプロセスモデルは、一連のプロセスインスタンス(ケース)の期待された振る舞いを表す。 プロセスインスタンスは並列に実行され、データやリソースを通じて互いに影響を受けます。 特に、プロセスインスタンスが共有するデータの値の変更は、プロセスインスタンスのセットに影響を与え、応答にいくつかの操作を必要とする可能性がある。 このような潜在的な影響はプロセスモデルに明示的に現れない。 本稿では、プロセスインスタンス間の共有データによって影響される可能性のある影響に対処し、設計時にそれらを分析する方法を提案する(実際のプロセスインスタンスが存在しない場合)。 提案手法はプロセスモデルと(リレーショナルな)データモデルの両方を用いて,潜在的なインスタンス間データインパクトセットを同定する。 これらのセットは、データ変更の影響を追跡し、実行時に処理をサポートするプロセスユーザをガイドする。 また、データに対する制約を探索するプロセスデザイナを支援することもできる。 本手法の適用性は3つの異なる現実的プロセスを用いて評価した。 プロセスエキスパートを用いて,提案手法の有用性をさらに評価し,提案手法が示唆する予期せぬデータ関連変化に対処する上で有用な知見を明らかにした。

A business process model represents the expected behavior of a set of process instances (cases). The process instances may be executed in parallel and may affect each other through data or resources. In particular, changes in values of data shared by process instances may affect a set of process instances and require some operations in response. Such potential effects do not explicitly appear in the process model. This paper addresses possible impacts that may be affected through shared data across process instances and suggests how to analyze them at design time (when the actual process instances do not yet exist). The suggested method uses both a process model and a (relational) data model in order to identify potential inter-instance data impact sets. These sets may guide process users in tracking the impacts of data changes and supporting their handling at runtime. They can also assist process designers in exploring possible constraints over data. The applicability of the method was evaluated using three different realistic processes. Using a process expert, we further assessed the usefulness of the method, revealing some useful insights for coping with unexpected data-related changes suggested by our approach.
翻訳日:2024-01-31 17:08:27 公開日:2024-01-29
# 低リソース言語のための多言語テキスト翻訳

Massively Multilingual Text Translation For Low-Resource Languages ( http://arxiv.org/abs/2401.16582v1 )

ライセンス: Link先を確認
Zhong Zhou(参考訳) 重度の低リソース言語への翻訳は、これらの言語を保存・復活するという文化的目標と、最近の新型コロナウイルスのパンデミックで加速している地域社会の日常的なニーズを支援するという人道的な目標の両方がある。 多くの人道的な取り組みにおいて、厳しい低リソース言語への翻訳は、しばしば普遍的な翻訳エンジンではなく、専用のテキスト固有の翻訳エンジンを必要とする。 例えば、医療記録、衛生処置、政府通信、緊急処置、宗教文書は全て制限されたテキストである。 全ての言語に対する汎用翻訳エンジンは存在しないが、多言語で知られている制限付きテキストを新しい低リソース言語に翻訳することは可能であり、人間の翻訳作業を減らすことができる。 我々は、リッチリソース言語からの翻訳資源を活用して、複数の言語で利用可能なよく知られたテキストの翻訳品質を、新しい低リソース言語で効率的に生成しようと試みる。 この目標を達成するために、クローズドテキストを低リソース言語に翻訳する際には、ドメイン外テキストへの一般化は不要である。 パフォーマンスの向上は、言語ファミリを慎重に選択すること、同じ言語内でのスタイル一貫性のコーパスレベルのパラフレーズ、そして既存の大規模事前訓練された多言語モデルのドメインへの戦略的適応によって生じる。 このような性能向上により、機械翻訳システムは人間の翻訳者と協調して、新しい低リソース言語への翻訳プロセスを高速化することができる。

Translation into severely low-resource languages has both the cultural goal of saving and reviving those languages and the humanitarian goal of assisting the everyday needs of local communities that are accelerated by the recent COVID-19 pandemic. In many humanitarian efforts, translation into severely low-resource languages often does not require a universal translation engine, but a dedicated text-specific translation engine. For example, healthcare records, hygienic procedures, government communication, emergency procedures and religious texts are all limited texts. While generic translation engines for all languages do not exist, translation of multilingually known limited texts into new, low-resource languages may be possible and reduce human translation effort. We attempt to leverage translation resources from rich-resource languages to efficiently produce best possible translation quality for well known texts, which are available in multiple languages, in a new, low-resource language. To reach this goal, we argue that in translating a closed text into low-resource languages, generalization to out-of-domain texts is not necessary, but generalization to new languages is. Performance gain comes from massive source parallelism by careful choice of close-by language families, style-consistent corpus-level paraphrases within the same language and strategic adaptation of existing large pretrained multilingual models to the domain first and then to the language. Such performance gain makes it possible for machine translation systems to collaborate with human translators to expedite the translation process into new, low-resource languages.
翻訳日:2024-01-31 17:08:10 公開日:2024-01-29
# 組合せ最適化のための注意に基づく強化学習:ジョブショップスケジューリング問題への応用

Attention-based Reinforcement Learning for Combinatorial Optimization: Application to Job Shop Scheduling Problem ( http://arxiv.org/abs/2401.16580v1 )

ライセンス: Link先を確認
Jaejin Lee, Seho Kee, Mani Janakiram and George Runger(参考訳) ジョブショップスケジューリング問題は、主に正確なあるいは近似的なソリューションアプローチによって取り組まれてきた、最も重要かつ困難な組合せ最適化問題の1つである。 しかし、実際の問題に対して正確な解を見つけることは不可能であり、近似的な解法であっても、ほぼ最適解を見つけるのに十分な時間が必要であり、発見された解は一般に新しい問題に適用できない。 そこで本研究では,政策勾配強化学習と変圧器アーキテクチャを融合したジョブショップスケジューリング問題に対する注意に基づく強化学習手法を提案する。 重要な結果として,提案手法を用いた学習者は,学習に使われない大規模問題を解決するために再利用でき,最近の研究結果や広く採用されているヒューリスティック・ルールに勝ることを示すことができる。

Job shop scheduling problems are one of the most important and challenging combinatorial optimization problems that have been tackled mainly by exact or approximate solution approaches. However, finding an exact solution can be infeasible for real-world problems, and even with an approximate solution approach, it can require a prohibitive amount of time to find a near-optimal solution, and the found solutions are not applicable to new problems in general. To address these challenges, we propose an attention-based reinforcement learning method for the class of job shop scheduling problems by integrating policy gradient reinforcement learning with a modified transformer architecture. An important result is that our trained learners in the proposed method can be reused to solve large-scale problems not used in training and demonstrate that our approach outperforms the results of recent studies and widely adopted heuristic rules.
翻訳日:2024-01-31 17:07:43 公開日:2024-01-29
# 放射線科専門医の専門知識を活かしてLLMの評価を高める

Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports ( http://arxiv.org/abs/2401.16578v1 )

ライセンス: Link先を確認
Qingqing Zhu, Xiuying Chen, Qiao Jin, Benjamin Hou, Tejas Sudharshan Mathai, Pritam Mukherjee, Xin Gao, Ronald M Summers, Zhiyong Lu(参考訳) 放射線学では、人工知能(AI)はレポート生成を大幅に進歩させたが、これらのAIによって生成されたレポートの自動評価は依然として困難である。 従来の自然言語生成(NLG)や臨床効力感(CE)といった現在の指標は、臨床コンテキストの意味的な複雑さを捉えたり、臨床の詳細を過度に強調したり、報告の明確さを損なうことがしばしばある。 これらの問題を解決するため,提案手法は,GPT-3.5 や GPT-4 1 のような大規模言語モデル (LLM) の専門医の専門知識を相乗化したものである。 In-Context Instruction Learning (ICIL) とChain of Thought (CoT) の推論を活用することで,LLMの評価を放射線学の標準と整合させ,人間とAIが生成したレポートの詳細な比較を可能にする。 これは、文評価スコアを集約する回帰モデルによってさらに強化される。 実験結果から, 我々の'Regressed GPT-4' モデルは, METEOR を 0.19 で上回る0.48 のスコアを達成し, また, 我々の'Regressed GPT-4' モデルは, 専門家による評価とさらによく一致し, 既存の指標の 0.35 のマージンを上回った。 さらに, 説明の堅牢性は, 徹底的な反復戦略によって検証されている。 我々は,放射線学の専門家からアノテーションを公開し,今後の評価における精度の基準を策定する。 このことは、AI駆動型医療報告の品質評価を強化するアプローチの可能性を示している。

In radiology, Artificial Intelligence (AI) has significantly advanced report generation, but automatic evaluation of these AI-produced reports remains challenging. Current metrics, such as Conventional Natural Language Generation (NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic intricacies of clinical contexts or overemphasize clinical details, undermining report clarity. To overcome these issues, our proposed method synergizes the expertise of professional radiologists with Large Language Models (LLMs), like GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain of Thought (CoT) reasoning, our approach aligns LLM evaluations with radiologist standards, enabling detailed comparisons between human and AI generated reports. This is further enhanced by a Regression model that aggregates sentence evaluation scores. Experimental results show that our ''Detailed GPT-4 (5-shot)'' model achieves a 0.48 score, outperforming the METEOR metric by 0.19, while our ''Regressed GPT-4'' model shows even greater alignment with expert evaluations, exceeding the best existing metric by a 0.35 margin. Moreover, the robustness of our explanations has been validated through a thorough iterative strategy. We plan to publicly release annotations from radiology experts, setting a new standard for accuracy in future assessments. This underscores the potential of our approach in enhancing the quality assessment of AI-driven medical reports.
翻訳日:2024-01-31 17:07:27 公開日:2024-01-29
# オンデマンドカスタマイズサービスとしてのLCM

LLMs as On-demand Customizable Service ( http://arxiv.org/abs/2401.16577v1 )

ライセンス: Link先を確認
Souvika Sarkar, Mohammad Fakhruddin Babar, Monowar Hasan, Shubhra Kanti Karmaker (Santu)(参考訳) 大規模言語モデル (LLM) は、言語理解と生成能力を示す。 しかしながら、これらのモデルのトレーニング、デプロイ、アクセスには、リソース集約的な要求、トレーニング期間の延長、スケーラビリティの問題など、大きな課題が伴う。 これらの問題に対処するために、汎用コンピュータ(ラップトップなど)やIoTスタイルのデバイス(組み込みシステムなど)を含む異種コンピューティングプラットフォームにおけるLLMのアクセシビリティとデプロイ性の向上を目的とした、階層的な分散LLMアーキテクチャの概念を導入する。 階層型アプローチを導入することで、LLMをカスタマイズ可能なサービスとしてオンデマンドでアクセスできるようにする。 このアプローチはまた、利用可能な計算リソースとユーザのアプリケーションニーズとの最適なトレードオフを保証する。 階層的llmの概念は、幅広いクラウドソースのユーザ基盤にllmの能力を活用させ、ai技術全般の進歩を促進することを期待している。

Large Language Models (LLMs) have demonstrated remarkable language understanding and generation capabilities. However, training, deploying, and accessing these models pose notable challenges, including resource-intensive demands, extended training durations, and scalability issues. To address these issues, we introduce a concept of hierarchical, distributed LLM architecture that aims at enhancing the accessibility and deployability of LLMs across heterogeneous computing platforms, including general-purpose computers (e.g., laptops) and IoT-style devices (e.g., embedded systems). By introducing a "layered" approach, the proposed architecture enables on-demand accessibility to LLMs as a customizable service. This approach also ensures optimal trade-offs between the available computational resources and the user's application needs. We envision that the concept of hierarchical LLM will empower extensive, crowd-sourced user bases to harness the capabilities of LLMs, thereby fostering advancements in AI technology in general.
翻訳日:2024-01-31 17:06:56 公開日:2024-01-29
# 画像テキストマッチングを超えて:誘導マスクを用いたマルチモーダルトランスフォーマーの動詞理解

Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking ( http://arxiv.org/abs/2401.16575v1 )

ライセンス: Link先を確認
Ivana Be\v{n}ov\'a, Jana Ko\v{s}eck\'a, Michal Gregor, Martin Tamajka, Marcel Vesel\'y, Mari\'an \v{S}imko(参考訳) 最近のマルチモーダル画像言語トランスフォーマーモデルで得られた表現をより詳細に理解するために、主流となるプロッピング手法は、画像テキストマッチングタスクのゼロショット性能に依存している。 この評価は、計数、関係、属性などに焦点を当てた注意深くキュレートされたデータセット上で行われる。 この研究はガイドマスキングと呼ばれる別の探索戦略を導入する。 提案手法はマスキングを用いて異なるモーダリティをアブレーションし,高精度にマスキング単語を予測できるモデルの能力を評価する。 対象検出器が入力トークンとして取得した関心領域(ROI)の特徴を考慮に入れたマルチモーダルモデルの研究に焦点をあてる。 ViLBERT, LXMERT, UNITER, VisualBERT の誘導マスキングを用いて動詞の理解を探索し, 精度の高い正しい動詞を予測可能であることを示す。 これは、動詞理解を必要とする状況で頻繁に失敗する画像テキストマッチング探索技術から得られた以前の結論とは対照的である。 すべての実験のコードはhttps://github.com/ivana-13/guided_masking.comで公開される。

The dominant probing approaches rely on the zero-shot performance of image-text matching tasks to gain a finer-grained understanding of the representations learned by recent multimodal image-language transformer models. The evaluation is carried out on carefully curated datasets focusing on counting, relations, attributes, and others. This work introduces an alternative probing strategy called guided masking. The proposed approach ablates different modalities using masking and assesses the model's ability to predict the masked word with high accuracy. We focus on studying multimodal models that consider regions of interest (ROI) features obtained by object detectors as input tokens. We probe the understanding of verbs using guided masking on ViLBERT, LXMERT, UNITER, and VisualBERT and show that these models can predict the correct verb with high accuracy. This contrasts with previous conclusions drawn from image-text matching probing techniques that frequently fail in situations requiring verb understanding. The code for all experiments will be publicly available https://github.com/ivana-13/guided_masking.
翻訳日:2024-01-31 17:06:38 公開日:2024-01-29
# embeding elites: 信頼できるニュース記事およびフリンジアウトレットに埋め込まれたつぶやきの使用を調べる

Embedding Elites: Examining the Use of Tweets Embedded in Online News Articles across Reliable and Fringe Outlets ( http://arxiv.org/abs/2401.16572v1 )

ライセンス: Link先を確認
Benjamin D. Horne, Summer Phillips, Nelia Koontz(参考訳) 本研究では,オンラインニュースメディアにおける組込みツイートの利用について検討する。 特に、信頼性のある信頼できないニュースメディアに埋め込まれたツイートを探索することで、過去の文献に加える。 我々は,複合手法分析を用いて,メディアの信頼性とニューストピックにおいて,埋め込みツイートの機能と頻度がどう変化するかを検討する。 メディアの信頼性にかかわらず、埋め込みツイートはエリートたちの意見を伝達したり、他のニュースソースからの情報をシンジケートしたり、以前に生成されたアウトレットを自己引用するためによく使われる。 また,信頼性の高いメディアとフリンジメディアのつぶやき使用との間には顕著な違いがみられた。 つまり、フリンジメディアはツイートをもっと埋め込み、それらのツイートを信頼できるメディアよりもニュースのソースとして利用する。 我々の研究は、ハイブリッドメディアシステムとジャーナリズムにおけるソーシャルメディアの正規化に関する文献を付加する。

This study examines the use of embedded tweets in online news media. In particular, we add to the previous literature by exploring embedded tweets across reliable and unreliable news outlets. We use a mixed-method analysis to examine how the function and frequency of embedded tweets change across outlet reliability and news topic. We find that, no matter the outlet reliability, embedded tweets are most often used to relay the opinions of elites, to syndicate information from another news source, or to self-cite information an outlet previously produced. Our results also show some notable differences between reliable media and fringe media's use of tweets. Namely, fringe media embed tweets more and use those tweets as the source of news more than reliable media. Our work adds to the literature on hybrid media systems and the normalization of social media in journalism.
翻訳日:2024-01-31 17:06:20 公開日:2024-01-29
# 共有ニューロンを用いたRBF-netを用いた個別マルチトラック応答曲線推定

Individualized Multi-Treatment Response Curves Estimation using RBF-net with Shared Neurons ( http://arxiv.org/abs/2401.16571v1 )

ライセンス: Link先を確認
Peter Chang, Arkaprava Roy(参考訳) 不均一な治療効果の推定は、精密医療において重要な問題である。 特定の関心は、いくつかの外部共変量に基づいて異なる治療の差分効果を特定することである。 マルチ処理環境における新しい非パラメトリック処理効果推定法を提案する。 反応曲線の非パラメトリックモデリングは、共有された隠れニューロンを持つ放射基底関数(RBF)-ネットに依存する。 これにより,治療結果間の共通性をモデル化する。 推定と推測スキームはベイズ的枠組みの下で開発され、効率的なマルコフ連鎖モンテカルロアルゴリズムを用いて実装され、解析のあらゆる面で不確実性を適切に調整する。 シミュレーション実験により,本手法の数値性能を実証した。 本手法をMIMICデータに適用し, 在宅中絶患者に対するICU滞在時間と12時間SOFAスコアに対する異なる治療方法の効果に関する興味深い知見を得た。

Heterogeneous treatment effect estimation is an important problem in precision medicine. Specific interests lie in identifying the differential effect of different treatments based on some external covariates. We propose a novel non-parametric treatment effect estimation method in a multi-treatment setting. Our non-parametric modeling of the response curves relies on radial basis function (RBF)-nets with shared hidden neurons. Our model thus facilitates modeling commonality among the treatment outcomes. The estimation and inference schemes are developed under a Bayesian framework and implemented via an efficient Markov chain Monte Carlo algorithm, appropriately accommodating uncertainty in all aspects of the analysis. The numerical performance of the method is demonstrated through simulation experiments. Applying our proposed method to MIMIC data, we obtain several interesting findings related to the impact of different treatment strategies on the length of ICU stay and 12-hour SOFA score for sepsis patients who are home-discharged.
翻訳日:2024-01-31 17:06:05 公開日:2024-01-29
# 概念空間を用いた意味コミュニケーションのためのオートエンコーダに基づくドメイン学習

Autoencoder-Based Domain Learning for Semantic Communication with Conceptual Spaces ( http://arxiv.org/abs/2401.16569v1 )

ライセンス: Link先を確認
Dylan Wheeler and Balasubramaniam Natarajan(参考訳) 記号を正確に伝達するのではなく、正確に意味を伝えることを目標とするコミュニケーションは、関心が高まりつつある。 このパラダイムはセマンティックコミュニケーションと呼ばれ、典型的には、人工知能と機械学習の近代的な発展を活用して、通信システムの効率性と堅牢性を向上させる。 しかし、「意味」の詳細を捉えて定量化する標準的なモデルは欠落しており、モデルが正確に何を学んでいるのかをほとんど理解していないブラックボックスフレームワークを用いたセマンティックコミュニケーションへの多くの主要なアプローチがある。 一つの解決策は、幾何学的な方法で明示的に意味するモデルをモデル化する概念空間フレームワークを利用することである。 概念空間とのセマンティックコミュニケーションを研究する以前の研究は有望な結果を示しているが、これらの試みは概念空間モデルを手作りし、アプローチのスケーラビリティと実用性を著しく制限する。 本研究では,高レベルプロパティラベルを持つ生データのみを用いて概念空間モデルのドメインを学習するためのフレームワークを開発した。 MNISTとCelebAデータセットを用いた実験では、フレームワークを用いて学習したドメインが意味的類似性関係を維持し、解釈可能な次元を持つことを示した。

Communication with the goal of accurately conveying meaning, rather than accurately transmitting symbols, has become an area of growing interest. This paradigm, termed semantic communication, typically leverages modern developments in artificial intelligence and machine learning to improve the efficiency and robustness of communication systems. However, a standard model for capturing and quantifying the details of "meaning" is lacking, with many leading approaches to semantic communication adopting a black-box framework with little understanding of what exactly the model is learning. One solution is to utilize the conceptual spaces framework, which models meaning explicitly in a geometric manner. Though prior work studying semantic communication with conceptual spaces has shown promising results, these previous attempts involve hand-crafting a conceptual space model, severely limiting the scalability and practicality of the approach. In this work, we develop a framework for learning a domain of a conceptual space model using only the raw data with high-level property labels. In experiments using the MNIST and CelebA datasets, we show that the domains learned using the framework maintain semantic similarity relations and possess interpretable dimensions.
翻訳日:2024-01-31 17:05:51 公開日:2024-01-29
# マルコフ連鎖モンテカルロの並列アフィン変換チューニング

Parallel Affine Transformation Tuning of Markov Chain Monte Carlo ( http://arxiv.org/abs/2401.16567v1 )

ライセンス: Link先を確認
Philip Sch\"ar, Michael Habeck, Daniel Rudolf(参考訳) マルコフ連鎖モンテカルロサンプリング器の性能は、その共分散構造、確率質量の位置、尾の挙動などのターゲット分布の性質に強く依存する。 対象分布の特性を改善するために, サンプル空間の単射アフィン変換を用いることにより, 変換空間内を走行するサンプラーの性能を向上させる。 特に,サンプリング中にアフィン変換を適応的に学習するフレキシブルでユーザフレンドリーなスキームを提案する。 さらに,本手法とギブシアン極スライスサンプリングを組み合わせることで,実世界のデータに基づいて,比較的低い計算コストで高品質なサンプルを作成できることを示す。

The performance of Markov chain Monte Carlo samplers strongly depends on the properties of the target distribution such as its covariance structure, the location of its probability mass and its tail behavior. We explore the use of bijective affine transformations of the sample space to improve the properties of the target distribution and thereby the performance of samplers running in the transformed space. In particular, we propose a flexible and user-friendly scheme for adaptively learning the affine transformation during sampling. Moreover, the combination of our scheme with Gibbsian polar slice sampling is shown to produce samples of high quality at comparatively low computational cost in several settings based on real-world data.
翻訳日:2024-01-31 17:05:30 公開日:2024-01-29
# 非信頼なカーネル密度を有する現象分岐のトポロジカル検出

Topological Detection of Phenomenological Bifurcations with Unreliable Kernel Densities ( http://arxiv.org/abs/2401.16563v1 )

ライセンス: Link先を確認
Sunia Tanweer and Firas A. Khasawneh(参考訳) P型分岐は確率力学系の定性的変化であり、定常確率密度関数(PDF)はその位相を変化させる。 これらの分岐を検出する技術の現状は、システム実現のアンサンブルから計算される信頼性の高いカーネル密度推定を必要とする。 しかし、ビッグデータのような現実世界の信号では、1つのシステムしか実現できないため、信頼性の高いカーネル密度を見積もることは不可能である。 本研究では, 信頼できない密度推定を用いたP型分岐の検出手法を提案する。 このアプローチは、システムの唯一の実現から永続図と呼ばれるトポロジカルデータ分析(TDA)からオブジェクトのアンサンブルを生成し、結果の集合を統計的に分析する。 gibbs point process modelling, pairwise interaction point modelling, subsamplingなど,元の永続化ダイアグラムを複製するいくつかの方法を比較した。 そこで本研究では, 分岐予測を目的とし, 部分サンプリング法が他の2つの点過程モデリング法を性能面で上回ることを示す。

Phenomenological (P-type) bifurcations are qualitative changes in stochastic dynamical systems whereby the stationary probability density function (PDF) changes its topology. The current state of the art for detecting these bifurcations requires reliable kernel density estimates computed from an ensemble of system realizations. However, in several real world signals such as Big Data, only a single system realization is available -- making it impossible to estimate a reliable kernel density. This study presents an approach for detecting P-type bifurcations using unreliable density estimates. The approach creates an ensemble of objects from Topological Data Analysis (TDA) called persistence diagrams from the system's sole realization and statistically analyzes the resulting set. We compare several methods for replicating the original persistence diagram including Gibbs point process modelling, Pairwise Interaction Point Modelling, and subsampling. We show that for the purpose of predicting a bifurcation, the simple method of subsampling exceeds the other two methods of point process modelling in performance.
翻訳日:2024-01-31 17:05:20 公開日:2024-01-29
# Hindi Devanagariスクリプトにおけるマルチクラスレギュレット検出

Multi-class Regret Detection in Hindi Devanagari Script ( http://arxiv.org/abs/2401.16561v1 )

ライセンス: Link先を確認
Renuka Sharma, Sushama Nagpal, Sangeeta Sabharwal, Sabur Butt(参考訳) ソーシャルメディア上のヒンディー語話者の数は近年劇的に増加している。 後悔は私たちの日常生活で共通の感情的な経験です。 ソーシャルメディアで多くの講演者が、後悔した経験や意見を定期的に共有している。 それは自分の選択を再評価し、チャンスがあれば別の選択をしたいという願望を引き起こすかもしれない。 結果として、後悔の源を知ることは、行動や意思決定に与える影響を調べる上で重要である。 本研究は,様々なソーシャルメディアプラットフォーム上での後悔の表現,特にヒンディー語での表現に焦点をあてたものである。 そこで本研究では,各文を手作業で分類した3つの資料から,「行動による反応」,「不行動による反応」,「後悔なし」の3つのクラスのうちの1つに分類した。 次に,このデータセットを用いて,ヒンディー語文における後悔の言語表現を調査し,後悔に最も結びついているテキスト領域を特定する。 以上の結果から,ソーシャルメディアプラットフォーム上の個人は過去の不行や行動,特に対人関係の領域における後悔を表現することが多かった。 トレーニング済みのBERTモデルを用いて,Hindiデータセットの単語埋め込みを生成し,ディープラーニングモデルと従来の機械学習モデルを比較して精度を実証する。 以上の結果から,BERT と CNN の埋め込みが他のモデルより一貫して上回っていることがわかった。 このことは、後悔領域における単語の文脈と意味を伝えるためのBERTの有効性について述べた。

The number of Hindi speakers on social media has increased dramatically in recent years. Regret is a common emotional experience in our everyday life. Many speakers on social media, share their regretful experiences and opinions regularly. It might cause a re-evaluation of one's choices and a desire to make a different option if given the chance. As a result, knowing the source of regret is critical for investigating its impact on behavior and decision-making. This study focuses on regret and how it is expressed, specifically in Hindi, on various social media platforms. In our study, we present a novel dataset from three different sources, where each sentence has been manually classified into one of three classes "Regret by action", "Regret by inaction", and "No regret". Next, we use this dataset to investigate the linguistic expressions of regret in Hindi text and also identify the textual domains that are most frequently associated with regret. Our findings indicate that individuals on social media platforms frequently express regret for both past inactions and actions, particularly within the domain of interpersonal relationships. We use a pre-trained BERT model to generate word embeddings for the Hindi dataset and also compare deep learning models with conventional machine learning models in order to demonstrate accuracy. Our results show that BERT embedding with CNN consistently surpassed other models. This described the effectiveness of BERT for conveying the context and meaning of words in the regret domain.
翻訳日:2024-01-31 17:05:02 公開日:2024-01-29
# IEEE BigData 2023 Keystroke Verification Challenge (KVC)

IEEE BigData 2023 Keystroke Verification Challenge (KVC) ( http://arxiv.org/abs/2401.16559v1 )

ライセンス: Link先を確認
Giuseppe Stragapede and Ruben Vera-Rodriguez and Ruben Tolosana and Aythami Morales and Ivan DeAndres-Tame and Naser Damer and Julian Fierrez and Javier-Ortega Garcia and Nahuel Gonzalez and Andrei Shadrikov and Dmitrii Gordin and Leon Schmitt and Daniel Wimmer and Christoph Grossmann and Joerdis Krieger and Florian Heinz and Ron Krestel and Christoffer Mayer and Simon Haberl and Helena Gschrey and Yosuke Yamagishi and Sanjay Saha and Sanka Rasnayaka and Sandareka Wickramanayake and Terence Sim and Weronika Gutfeter and Adam Baran and Mateusz Krzyszton and Przemyslaw Jaskola(参考訳) 本稿では,キーストロークダイナミクス(kd)の生体認証性能を考慮したieee bigdata 2023 key stroke verification challenge(kvc)の結果について述べる。 これまでのkdの最大の公開データベースであるaalto desktopとmobile key strokeの2つから取得し、対象毎の最小データ量、年齢と性別の注釈、腐敗したデータがないこと、そして考慮された人口属性に関して過度にバランスのとれない主題分布を避ける。 参加者によっていくつかのニューラルアーキテクチャが提案され、世界的平等エラーレート(EER)がデスクトップとモバイルのシナリオでそれぞれ3.33%と3.61%に低下し、KDのバイオメトリック認証のパフォーマンスを上回った。 CodaLabにホストされているKVCは、同じ実験条件下で異なるアプローチを比較し、その分野の知識を深めるために、研究コミュニティにとって有用なツールとして進行中である。

This paper describes the results of the IEEE BigData 2023 Keystroke Verification Challenge (KVC), that considers the biometric verification performance of Keystroke Dynamics (KD), captured as tweet-long sequences of variable transcript text from over 185,000 subjects. The data are obtained from two of the largest public databases of KD up to date, the Aalto Desktop and Mobile Keystroke Databases, guaranteeing a minimum amount of data per subject, age and gender annotations, absence of corrupted data, and avoiding excessively unbalanced subject distributions with respect to the considered demographic attributes. Several neural architectures were proposed by the participants, leading to global Equal Error Rates (EERs) as low as 3.33% and 3.61% achieved by the best team respectively in the desktop and mobile scenario, outperforming the current state of the art biometric verification performance for KD. Hosted on CodaLab, the KVC will be made ongoing to represent a useful tool for the research community to compare different approaches under the same experimental conditions and to deepen the knowledge of the field.
翻訳日:2024-01-31 17:04:40 公開日:2024-01-29
# 異なるが異なる: LLMは、誤情報に関する意見の性差を誇張できる

Diverse, but Divisive: LLMs Can Exaggerate Gender Differences in Opinion Related to Harms of Misinformation ( http://arxiv.org/abs/2401.16558v1 )

ライセンス: Link先を確認
Terrence Neumann, Sooyong Lee, Maria De-Arteaga, Sina Fazelpour, Matthew Lease(参考訳) 偽情報の拡散と偽情報の拡散は社会に重大な脅威をもたらす。 プロのファクトチェッカーは、この脅威に対処する上で重要な役割を担いますが、問題の大規模な規模によって、限られたリソースを優先せざるを得ません。 この優先順位付けは、特定のグループに生じる害のリスクの変化など、さまざまな要因を考慮することができる。 本研究では,このような優先順位付けを容易にするために,大規模言語モデル (LLM) を用いる可能性について検討する。 ファクトチェックは社会の多様なセグメントに影響を及ぼすため、多様な見解がクレーム優先プロセスで表現されることが重要である。 本稿では,誤情報の被害を評価する際に,llmが様々なグループの視点を反映できるかどうかについて検討する。 1) 明示的なジェンダー参照によるプロンプトは、社会的関連性に関する米国における意見の性別差をどの程度反映しているか? そして,(2)性中立的プロンプトは,それらの話題に対するジェンダー的視点とどの程度一致しているか? これらの質問を解析するために、TopicMisinfoデータセットを提示し、様々なトピックから160件の事実チェック済みのクレームを含む、主観的知覚とアノテータの人口統計による1600件近い人間のアノテーションを補足した。 GPT 3.5-Turboは,性差と性差を実証的に反映するが,これらの差の程度を増幅する。 これらの発見は、ファクトチェッカー、アルゴリズムデザイナ、アノテータとしてのクラウドワーカーの使用など、オンラインコミュニケーションをモデレートするAIの複雑な役割を浮き彫りにした。 また、コミュニティでの継続的な研究をサポートするために、 topicmisinfoデータセットをリリースします。

The pervasive spread of misinformation and disinformation poses a significant threat to society. Professional fact-checkers play a key role in addressing this threat, but the vast scale of the problem forces them to prioritize their limited resources. This prioritization may consider a range of factors, such as varying risks of harm posed to specific groups of people. In this work, we investigate potential implications of using a large language model (LLM) to facilitate such prioritization. Because fact-checking impacts a wide range of diverse segments of society, it is important that diverse views are represented in the claim prioritization process. This paper examines whether a LLM can reflect the views of various groups when assessing the harms of misinformation, focusing on gender as a primary variable. We pose two central questions: (1) To what extent do prompts with explicit gender references reflect gender differences in opinion in the United States on topics of social relevance? and (2) To what extent do gender-neutral prompts align with gendered viewpoints on those topics? To analyze these questions, we present the TopicMisinfo dataset, containing 160 fact-checked claims from diverse topics, supplemented by nearly 1600 human annotations with subjective perceptions and annotator demographics. Analyzing responses to gender-specific and neutral prompts, we find that GPT 3.5-Turbo reflects empirically observed gender differences in opinion but amplifies the extent of these differences. These findings illuminate AI's complex role in moderating online communication, with implications for fact-checkers, algorithm designers, and the use of crowd-workers as annotators. We also release the TopicMisinfo dataset to support continuing research in the community.
翻訳日:2024-01-31 17:04:16 公開日:2024-01-29
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v1 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang(参考訳) 大規模かつ多様な命令データセットを用いた大規模言語モデル(llm)のトレーニングは、モデルを理解し、人間の指示に従うように調整する。 近年の研究では、小さな高品質な命令セットを使用することで、大きいがノイズの多い命令よりも優れた性能が得られることが示されている。 命令はラベルなしであり、その応答は自然なテキストであるため、モデルの信頼性を持つ従来のアクティブラーニングスキームはラベルなし命令の選択に直接適用できない。 本研究では,高品質な命令の選択にLLMを利用するSelectLLMという命令選択手法を提案する。 我々の高レベルな考え方は、プロンプトによって対応するラベル(応答)を使わずに各命令の有効性と影響を推定するためにLSMを使うことである。 selectllmには2つのステップがある: クラスタアルゴリズム(coresetなど)を使用してラベルなしの命令を複数のクラスタに分割し、llmに各クラスタ内で高品質な命令を選択するように促す。 SelectLLMは、最近の最先端の選択方法と比較して、一般的な命令ベンチマークで同等またはわずかにパフォーマンスが向上した。 すべてのコードとデータは公開されている(https://github.com/minnesotanlp/select-llm)。

Training large language models (LLMs) with a large and diverse instruction dataset aligns the models to comprehend and follow human instructions. Recent works have shown that using a small set of high-quality instructions can outperform using large yet more noisy ones. Because instructions are unlabeled and their responses are natural text, traditional active learning schemes with the model's confidence cannot be directly applied to the selection of unlabeled instructions. In this work, we propose a novel method for instruction selection, called SelectLLM, that leverages LLMs for the selection of high-quality instructions. Our high-level idea is to use LLMs to estimate the usefulness and impactfulness of each instruction without the corresponding labels (i.e., responses), via prompting. SelectLLM involves two steps: dividing the unlabelled instructions using a clustering algorithm (e.g., CoreSet) to multiple clusters, and then prompting LLMs to choose high-quality instructions within each cluster. SelectLLM showed comparable or slightly better performance on the popular instruction benchmarks, compared to the recent state-of-the-art selection methods. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-01-31 17:03:46 公開日:2024-01-29
# 行列行列式計算のための多項式深さ量子アルゴリズム

Polynomial-depth quantum algorithm for computing matrix determinant ( http://arxiv.org/abs/2401.16619v1 )

ライセンス: Link先を確認
Alexander I. Zenchuk, Wentao Qi, Asutosh Kumar, Junde Wu(参考訳) 正方行列の行列式を計算し,マルチキュービット制御ゲート( toffoli ゲート, cnot とスワップで表現可能),アダマール変換, および $z$-operators を用いてそれを実現する量子回路を構築するアルゴリズムを提案する。 行列の各行は、ある量子系の純粋な状態として符号化される。 したがって、認められた行列はこれらの系の量子状態の正規化まで任意である。 提案アルゴリズムの深さは、$N\times N$ matrixに対して$O(N^3\log \, N)$である。

We propose an algorithm for calculating the determinant of a square matrix, and construct the quantum circuit realizing it, using multiqubit control gates (representable in terms of Toffoli gates, CNOTs and SWAPs), Hadamard transformations and $Z$-operators. Each row of the matrix is encoded as a pure state of some quantum system. The admitted matrix is therefore arbitrary up to the normalization of quantum states of those systems. The depth of the proposed algorithm is $O(N^3\log \, N)$ for the $N\times N$ matrix.
翻訳日:2024-01-31 16:55:32 公開日:2024-01-29
# 6自由度水泳ロボットのRL制御とPID制御の比較:ハイブリッド水中物体追跡

A comparison of RL-based and PID controllers for 6-DOF swimming robots: hybrid underwater object tracking ( http://arxiv.org/abs/2401.16618v1 )

ライセンス: Link先を確認
Faraz Lotfi, Khalil Virji, Nicholas Dudek, and Gregory Dudek(参考訳) 本稿では,6DOF水泳ロボットにおけるPIDコントローラの活用の代替として,集中型深度Q-network(DQN)コントローラを用いた調査と評価を行う。 我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。 DQNは、データ効率や非政治学習などの利点を提供するが、他の強化学習方法よりも実装が簡単である。 ロボットに動的モデルがないことを前提に,このマルチインプットマルチ出力(mimo)システムを制御するためのrlエージェントを提案する。 われわれのアプローチは、最初は古典的なコントローラーを使って安全な探索を行い、その後徐々にDQNに移行してロボットを完全にコントロールする。 水中追跡タスクを視覚と制御モジュールに分割する。 視覚ベースのトラッキングに確立された手法を使用し,集中型dqnコントローラを導入する。 視覚モジュールから制御モジュールへのバウンディングボックスデータの送信により,様々なオブジェクトへの適応と視覚システム置換が可能となる。 さらに、低次元データを扱うことで、コントローラのコスト効率の良いオンライン学習が容易になる。 実験は, 分散したpidコントローラに対する集中型rlエージェントの有効性を検証し, 水中rlエージェントを訓練するためのフレームワークの適用性を示し, 従来の制御手法と比較して性能が向上した。 実およびシミュレーション実装のコードはhttps://github.com/farazlotfi/underwater-object-trackingにある。

In this paper, we present an exploration and assessment of employing a centralized deep Q-network (DQN) controller as a substitute for the prevalent use of PID controllers in the context of 6DOF swimming robots. Our primary focus centers on illustrating this transition with the specific case of underwater object tracking. DQN offers advantages such as data efficiency and off-policy learning, while remaining simpler to implement than other reinforcement learning methods. Given the absence of a dynamic model for our robot, we propose an RL agent to control this multi-input-multi-output (MIMO) system, where a centralized controller may offer more robust control than distinct PIDs. Our approach involves initially using classical controllers for safe exploration, then gradually shifting to DQN to take full control of the robot. We divide the underwater tracking task into vision and control modules. We use established methods for vision-based tracking and introduce a centralized DQN controller. By transmitting bounding box data from the vision module to the control module, we enable adaptation to various objects and effortless vision system replacement. Furthermore, dealing with low-dimensional data facilitates cost-effective online learning for the controller. Our experiments, conducted within a Unity-based simulator, validate the effectiveness of a centralized RL agent over separated PID controllers, showcasing the applicability of our framework for training the underwater RL agent and improved performance compared to traditional control methods. The code for both real and simulation implementations is at https://github.com/FARAZLOTFI/underwater-object-tracking.
翻訳日:2024-01-31 16:55:21 公開日:2024-01-29
# 線形畳み込みネットワークの代数的複雑さとニューロバリアリティ

Algebraic Complexity and Neurovariety of Linear Convolutional Networks ( http://arxiv.org/abs/2401.16613v1 )

ライセンス: Link先を確認
Vahid Shahverdi(参考訳) 本稿では,一次元フィルタと任意のステップを持つ線形畳み込みネットワークについて検討する。 そのようなネットワークの神経多様体は半代数集合であり、特定の分解を許容する多項式の空間で表される。 再帰的アルゴリズムを導入し、共通零点が対応する神経多様体のザリスキー閉包に対応する多項式方程式を生成する。 さらに,計量代数幾何学のツールを用いて,これらのネットワークを訓練する代数的複雑性を考察する。 その結果,そのようなネットワークの最適化における全ての複素臨界点の数は,セグレ多様体の一般ユークリッド距離次数に等しいことがわかった。 特に、この数値は、同じ数のパラメータを持つ完全連結線形ネットワークのトレーニングで遭遇する臨界点の数を大幅に上回っている。

In this paper, we study linear convolutional networks with one-dimensional filters and arbitrary strides. The neuromanifold of such a network is a semialgebraic set, represented by a space of polynomials admitting specific factorizations. Introducing a recursive algorithm, we generate polynomial equations whose common zero locus corresponds to the Zariski closure of the corresponding neuromanifold. Furthermore, we explore the algebraic complexity of training these networks employing tools from metric algebraic geometry. Our findings reveal that the number of all complex critical points in the optimization of such a network is equal to the generic Euclidean distance degree of a Segre variety. Notably, this count significantly surpasses the number of critical points encountered in the training of a fully connected linear network with the same number of parameters.
翻訳日:2024-01-31 16:54:55 公開日:2024-01-29
# 逆問題における空間正規化のためのガウス混合学習

Learning a Gaussian Mixture for Sparsity Regularization in Inverse Problems ( http://arxiv.org/abs/2401.16612v1 )

ライセンス: Link先を確認
Giovanni S. Alberti, Luca Ratti, Matteo Santacesaria, Silvia Sciutto(参考訳) 逆問題では、スパーシティの組み入れが溶液に正則化効果をもたらすことが広く認識されている。 このアプローチは、未知項が有限個の重要な成分を持つ基底で適切に表現できるという事前の仮定に基づいているが、ほとんどの係数はゼロに近い。 この現象は、スムーズな信号のように現実世界のシナリオでしばしば観察される。 本研究では, 退化ガウスの混合物として定式化した確率的スパース性について, 一般基礎に関してスパース性をモデル化できる確率的スパース性を提案する。 この前提の下で,線形逆問題に対するベイズ推定器として解釈可能なニューラルネットワークを設計する。 さらに,ネットワークのパラメータを推定するために,教師なしおよび教師なしのトレーニング戦略も提示した。 本手法の有効性を評価するために,ラスソ,グループラッソ,反復ハードしきい値,スパースコーディング/ディクショナリー学習といった一般的なスパルシリティプロモーティング正規化手法との比較を行った。 特に,データセットがガウス混合モデルから著しく逸脱している場合でも,比較に使用される1,3ドルのデータセット全体の平均2乗誤差値を一貫して示している。

In inverse problems, it is widely recognized that the incorporation of a sparsity prior yields a regularization effect on the solution. This approach is grounded on the a priori assumption that the unknown can be appropriately represented in a basis with a limited number of significant components, while most coefficients are close to zero. This occurrence is frequently observed in real-world scenarios, such as with piecewise smooth signals. In this study, we propose a probabilistic sparsity prior formulated as a mixture of degenerate Gaussians, capable of modeling sparsity with respect to a generic basis. Under this premise, we design a neural network that can be interpreted as the Bayes estimator for linear inverse problems. Additionally, we put forth both a supervised and an unsupervised training strategy to estimate the parameters of this network. To evaluate the effectiveness of our approach, we conduct a numerical comparison with commonly employed sparsity-promoting regularization techniques, namely LASSO, group LASSO, iterative hard thresholding, and sparse coding/dictionary learning. Notably, our reconstructions consistently exhibit lower mean square error values across all $1$D datasets utilized for the comparisons, even in cases where the datasets significantly deviate from a Gaussian mixture model.
翻訳日:2024-01-31 16:54:45 公開日:2024-01-29
# 電子-フォノンスペクトル関数の深層学習による超伝導体発見の加速

Accelerating superconductor discovery through tempered deep learning of the electron-phonon spectral function ( http://arxiv.org/abs/2401.16611v1 )

ライセンス: Link先を確認
Jason B. Gibson, Ajinkya C. Hire, Philip M. Dee, Oscar Barrera, Benjamin Geisler, Peter J. Hirschfeld, Richard G. Hennig(参考訳) 深層学習と新しい電子フォノン超伝導体の探索を融合させることは、電子フォノンスペクトル関数を計算する計算強度の第一の課題である$\alpha^2F(\omega)$は、超伝導のミッドガル・エリシュベルグ理論の重要な要素である。 この課題を克服するために、我々は2段階のアプローチを採用する。 まず,818種類の動的安定材料に対して$\alpha^2f(\omega)$を計算する。 次に、モデルの過剰フィットを抑止する非慣習的なトレーニング戦略を使用して、ディープラーニングモデルをトレーニングして、$\alpha^2f(\omega)$を予測します。 具体的には、ブートストラップされた等価グラフニューラルネットワーク(bete-net)のアンサンブルを訓練し、$\alpha^2f(\omega)$:$\lambda$、$\omega_{\log}$、$\omega_{2}$から派生したeliashbergモーメントに対して、0.21、45k、43kのmaeを得る。 さらに,モデルノード属性に帰納的バイアスを課すため,サイトプロジェクションフォノン密度状態のドメイン知識を取り入れ,予測性を高める。 この方法の革新により、MAEはそれぞれ0.18、29K、28Kに減少し、MAEは2.1KでT_c$となる。 本稿では,高t_c$材料の高スループットスクリーニングにおけるモデルの適用例を示す。 このモデルはランダムスクリーニングの約5倍の精度を示し、超伝導体発見の加速におけるMLの可能性を強調している。 BETE-NETは、特にデータに制限がある場合、材料発見にMLを適用する先例を設定しながら、高いT_c$超伝導体の探索を加速する。

Integrating deep learning with the search for new electron-phonon superconductors represents a burgeoning field of research, where the primary challenge lies in the computational intensity of calculating the electron-phonon spectral function, $\alpha^2F(\omega)$, the essential ingredient of Midgal-Eliashberg theory of superconductivity. To overcome this challenge, we adopt a two-step approach. First, we compute $\alpha^2F(\omega)$ for 818 dynamically stable materials. We then train a deep-learning model to predict $\alpha^2F(\omega)$, using an unconventional training strategy to temper the model's overfitting, enhancing predictions. Specifically, we train a Bootstrapped Ensemble of Tempered Equivariant graph neural NETworks (BETE-NET), obtaining an MAE of 0.21, 45 K, and 43 K for the Eliashberg moments derived from $\alpha^2F(\omega)$: $\lambda$, $\omega_{\log}$, and $\omega_{2}$, respectively, yielding an MAE of 2.5 K for the critical temperature, $T_c$. Further, we incorporate domain knowledge of the site-projected phonon density of states to impose inductive bias into the model's node attributes and enhance predictions. This methodological innovation decreases the MAE to 0.18, 29 K, and 28 K, respectively, yielding an MAE of 2.1 K for $T_c$. We illustrate the practical application of our model in high-throughput screening for high-$T_c$ materials. The model demonstrates an average precision nearly five times higher than random screening, highlighting the potential of ML in accelerating superconductor discovery. BETE-NET accelerates the search for high-$T_c$ superconductors while setting a precedent for applying ML in materials discovery, particularly when data is limited.
翻訳日:2024-01-31 16:54:25 公開日:2024-01-29
# オンラインコミュニティガバナンスの大規模尺度としてのモデレーターの認識

Perceptions of Moderators as a Large-Scale Measure of Online Community Governance ( http://arxiv.org/abs/2401.16610v1 )

ライセンス: Link先を確認
Galen Weld, Leon Leibmann, Amy X. Zhang, Tim Althoff(参考訳) 数百万のオンラインコミュニティはボランティアのモデレーターによって管理され、ルールを設定して強制し、追加のモデレーターを募集し、コミュニティ自体に参加することでコミュニティを形成する。 これらのモデレーターは、統治方法を定期的に決定しなければならないが、ガバナンスの'成功'を測定することは複雑かつニュアンス的であるため、どのガバナンス戦略が最も成功したかを決定することは困難である。 さらに、コミュニティのトピック、サイズ、メンバシップの驚くべき多様性は、コミュニティガバナンスに‘一大フィット’ソリューションがないことを保証しています。 本研究では,コミュニティメンバが自身のモデレーターを公に議論する方法を評価することによって,ガバナンスを測定する。 我々は18ヶ月間に1億9900万件のラベル付き投稿やコメントを通じてモデレーターの認識を定量化し、これらの認識をコミュニティガバナンスの特徴とコミュニティモデレーターが取ることができる異なる行動に関連づける。 私たちは、異なるタイプのコミュニティの主な違いを特定し、モデレーターチームにとって有望な戦略を強調します。 以上の結果から,モデレーターの肯定的な認識は他のコミュニティの健康対策と関連しており,ニュースコミュニティなど特定のトピックに対して厳格なルール強制がより好まれることが示された。 modチームに参加する際、どのモデレーターがコミュニティに最もポジティブな影響を与えているかを調査し、modの在任中にアクティブなコミュニティメンバーであるモデレーターが、モデレーターに対するコミュニティメンバーの認識を最大に改善する結果をもたらすことを見出します。 すべてのモデル、データセット、コードを公開しています。

Millions of online communities are governed by volunteer moderators, who shape their communities by setting and enforcing rules, recruiting additional moderators, and participating in the community themselves. These moderators must regularly make decisions about how to govern, yet it is challenging to determine what governance strategies are most successful, as measuring the `success' of governance is complex and nuanced. Furthermore, the incredible diversity in community topic, size, and membership all but guarantee that there is no `one-size-fits-all' solution for community governance. In this work, we measure governance by assessing how community members publicly discuss their own moderators. We quantify perceptions of moderators through 1.89 million labeled posts and comments made on reddit over an 18 month period, and relate these perceptions to characteristics of community governance and to different actions that community moderators can take. We identify key differences between different types of communities, and highlight promising strategies for moderator teams. Amongst other findings, we show that positive perceptions of moderators are associated with other measures of community health, and that strict rule enforcement is perceived more favorably for certain topics, such as news communities, than others. We investigate what kinds of moderators have the most positive impact on the community when they join the mod team, and find that moderators who are active community members before and during their mod tenures result in the largest improvement of community members' perceptions of moderators. We make all our models, datasets, and code public.
翻訳日:2024-01-31 16:53:46 公開日:2024-01-29
# 医用画像における奥行き情報:比較研究

Depth Anything in Medical Images: A Comparative Study ( http://arxiv.org/abs/2401.16600v1 )

ライセンス: Link先を確認
John J. Han, Ayberk Acar, Callahan Henry, Jie Ying Wu(参考訳) 単眼深度推定(MDE)は多くの医学的追跡・マッピングアルゴリズムの重要な構成要素であり、特に内視鏡的・腹腔鏡的ビデオからである。 しかし,現実の患者データから基底真理奥行きマップは取得できないため,教師付き学習は医療現場の奥行きマップを予測するための有効な手法ではない。 近年,MDEの自己指導型学習が注目されているが,そのアウトプットを確実に評価することは困難であり,他の患者や解剖学に対するMDEの一般化性は限られている。 本研究は, 内視鏡的, 腹腔鏡的場面で新たにリリースされた depth anything モデルのゼロショット性能を評価する。 奥行きの精度と推定速度を,一般的なシーンでトレーニングされた他のmdeモデルと,内視鏡データでトレーニングされたドメイン内モデルと比較した。 以上の結果から,Depth Anythingのゼロショット能力は非常に優れているが,速度と性能の両面で他のモデルより優れているとは限らない。 この研究が医療現場におけるMDEの基礎モデル導入のさらなる研究に拍車をかけることを願っている。

Monocular depth estimation (MDE) is a critical component of many medical tracking and mapping algorithms, particularly from endoscopic or laparoscopic video. However, because ground truth depth maps cannot be acquired from real patient data, supervised learning is not a viable approach to predict depth maps for medical scenes. Although self-supervised learning for MDE has recently gained attention, the outputs are difficult to evaluate reliably and each MDE's generalizability to other patients and anatomies is limited. This work evaluates the zero-shot performance of the newly released Depth Anything Model on medical endoscopic and laparoscopic scenes. We compare the accuracy and inference speeds of Depth Anything with other MDE models trained on general scenes as well as in-domain models trained on endoscopic data. Our findings show that although the zero-shot capability of Depth Anything is quite impressive, it is not necessarily better than other models in both speed and performance. We hope that this study can spark further research in employing foundation models for MDE in medical scenes.
翻訳日:2024-01-31 16:53:15 公開日:2024-01-29
# prising: isingモデルによるプライバシー保護ピア効果推定

PrIsing: Privacy-Preserving Peer Effect Estimation via Ising Model ( http://arxiv.org/abs/2401.16596v1 )

ライセンス: Link先を確認
Abhinav Chakraborty, Anirban Chatterjee and Abhinandan Dalal(参考訳) もともと強磁性素子のスピングラスモデルとして開発されたIsingモデルは、エージェントの出力の依存関係をキャプチャするネットワークベースモデルとして人気を集めている。 医療や社会科学における採用の増加は、エージェントの反応の機密性に関するプライバシー上の懸念を提起している。 本稿では,個々のエージェントの成果のプライバシを保護するために特別に設計された$(\varepsilon,\delta)$-differentially privateアルゴリズムを提案する。 提案アルゴリズムは,目的摂動手法を用いて,単一ネットワークを用いた自然パラメータの正確な推定を可能にする。 さらに、このアルゴリズムに対する後悔の限界を確立し、合成データセットと2つの現実世界のネットワークにおけるそのパフォーマンスを評価する。

The Ising model, originally developed as a spin-glass model for ferromagnetic elements, has gained popularity as a network-based model for capturing dependencies in agents' outputs. Its increasing adoption in healthcare and the social sciences has raised privacy concerns regarding the confidentiality of agents' responses. In this paper, we present a novel $(\varepsilon,\delta)$-differentially private algorithm specifically designed to protect the privacy of individual agents' outcomes. Our algorithm allows for precise estimation of the natural parameter using a single network through an objective perturbation technique. Furthermore, we establish regret bounds for this algorithm and assess its performance on synthetic datasets and two real-world networks: one involving HIV status in a social network and the other concerning the political leaning of online blogs.
翻訳日:2024-01-31 16:52:59 公開日:2024-01-29
# macro-at-$k$メトリクスを用いた複数ラベル分類のための一貫性アルゴリズム

Consistent algorithms for multi-label classification with macro-at-$k$ metrics ( http://arxiv.org/abs/2401.16594v1 )

ライセンス: Link先を確認
Erik Schultheis, Wojciech Kot{\l}owski, Marek Wydmuch, Rohit Babbar, Strom Borman, Krzysztof Dembczy\'nski(参考訳) マルチラベル分類における複雑な性能指標の最適化について,集団ユーティリティ・フレームワークを用いて検討する。 主に、それぞれのラベルに個別に適用されるバイナリ分類ユーティリティの合計に線形に分解可能なメトリクスに焦点を合わせ、各インスタンスに対して正確に$k$ラベルが予測される追加の要件を設けます。 これらの「macro-at-$k$」メトリクスは、ロングテールラベルを持つ極端な分類問題に望ましい性質を持っている。 残念なことに、at-$k$制約は独立なバイナリ分類タスクを結合し、標準的なマクロ平均よりもずっと難しい最適化問題を引き起こす。 この問題を統計的に研究し、最適な分類器の存在と形態を証明し、Frank-Wolfe法に基づく統計的に一貫した実用的な学習アルゴリズムを提案する。 興味深いことに、我々の主な結果はより一般的なメトリクスはラベル方向の混乱行列の非線形関数である。 実験結果は,提案手法の競争性能を示す証拠となる。

We consider the optimization of complex performance metrics in multi-label classification under the population utility framework. We mainly focus on metrics linearly decomposable into a sum of binary classification utilities applied separately to each label with an additional requirement of exactly $k$ labels predicted for each instance. These "macro-at-$k$" metrics possess desired properties for extreme classification problems with long tail labels. Unfortunately, the at-$k$ constraint couples the otherwise independent binary classification tasks, leading to a much more challenging optimization problem than standard macro-averages. We provide a statistical framework to study this problem, prove the existence and the form of the optimal classifier, and propose a statistically consistent and practical learning algorithm based on the Frank-Wolfe method. Interestingly, our main results concern even more general metrics being non-linear functions of label-wise confusion matrices. Empirical results provide evidence for the competitive performance of the proposed approach.
翻訳日:2024-01-31 16:52:46 公開日:2024-01-29
# topro: 言語間シーケンスラベリングタスクのためのトークンレベルのプロンプト分解

ToPro: Token-Level Prompt Decomposition for Cross-Lingual Sequence Labeling Tasks ( http://arxiv.org/abs/2401.16589v1 )

ライセンス: Link先を確認
Bolei Ma, Ercong Nie, Shuzhou Yuan, Helmut Schmid, Michael F\"arber, Frauke Kreuter and Hinrich Sch\"utze(参考訳) プロンプトに基づく手法は、ゼロショット言語間理解のための多言語事前学習言語モデルに成功している。 しかし、以前の研究は主に文レベルの分類タスクに焦点を当てており、名前付きエンティティ認識(ner)やpos(part-of-speech)タグといったトークンレベルのラベリングタスクを考えるのはごくわずかであった。 本稿では,トークンレベルのシーケンスラベリングタスクのプロンプトベースメソッドを容易にするトークンレベルのプロンプト分解(topro)を提案する。 ToProメソッドは入力文を単一のトークンに分解し、各トークンに1つのプロンプトテンプレートを適用する。 マルチリンガルNERとPOSタグ付けデータセットの実験により,ToProをベースとした微調整性能が,VanillaファインチューニングとPrompt-Tuningをゼロショットのクロスリンガル転送,特に原語とタイポロジー的に異なる言語に対して向上することが示された。 提案手法は,mT5モデルを用いた場合の最先端性能も達成する。 さらに,多言語大言語モデルにおける探索的研究により,toproが現在の文脈内学習法よりも優れた性能を示す。 全体的なパフォーマンス改善は、ToProがシーケンシャルラベリングタスクの新しい単純なベンチマークメソッドとして機能する可能性があることを示している。

Prompt-based methods have been successfully applied to multilingual pretrained language models for zero-shot cross-lingual understanding. However, most previous studies primarily focused on sentence-level classification tasks, and only a few considered token-level labeling tasks such as Named Entity Recognition (NER) and Part-of-Speech (POS) tagging. In this paper, we propose Token-Level Prompt Decomposition (ToPro), which facilitates the prompt-based method for token-level sequence labeling tasks. The ToPro method decomposes an input sentence into single tokens and applies one prompt template to each token. Our experiments on multilingual NER and POS tagging datasets demonstrate that ToPro-based fine-tuning outperforms Vanilla fine-tuning and Prompt-Tuning in zero-shot cross-lingual transfer, especially for languages that are typologically different from the source language English. Our method also attains state-of-the-art performance when employed with the mT5 model. Besides, our exploratory study in multilingual large language models shows that ToPro performs much better than the current in-context learning method. Overall, the performance improvements show that ToPro could potentially serve as a novel and simple benchmarking method for sequence labeling tasks.
翻訳日:2024-01-31 16:52:32 公開日:2024-01-29
# 人間とチャットGPT生成会話の言語学的比較

A Linguistic Comparison between Human and ChatGPT-Generated Conversations ( http://arxiv.org/abs/2401.16587v1 )

ライセンス: Link先を確認
Morgan Sandler, Hyesun Choung, Arun Ross, Prabu David(参考訳) 本研究は,chatgpt-3.5が生成する19.5k対話をempathicdialoguesデータセットのコンパニオンとして用いた,人間とllm生成対話の言語的差異を検討する。 この研究は言語問合せと単語数(LIWC)分析を採用し、118の言語カテゴリーでChatGPTが生成した会話と人間の会話を比較した。 しかしchatgptは社会的プロセス、分析スタイル、認知、注意的焦点、ポジティブな感情的トーンといったカテゴリーに優れており、最近のllmは「人間よりも人間である」という発見を補強している。 しかし,ChatGPTとヒトの対話には有意な差は認められなかった。 ダイアログ埋め込みの分類器解析は、会話における影響の明示的な言及にもかかわらず、感情の価の暗黙的な符号化を示す。 この研究はまた、2つの独立したチャットボット間の会話の、新しい、コンパニオンチャットgptが生成したデータセットにも貢献している。 以上の結果から,ChatGPTの言語能力の理解を深め,AI生成偽造や誤情報,偽情報の検出に重要な人間とLLM生成テキストを区別するための継続的な取り組みを報告した。

This study explores linguistic differences between human and LLM-generated dialogues, using 19.5K dialogues generated by ChatGPT-3.5 as a companion to the EmpathicDialogues dataset. The research employs Linguistic Inquiry and Word Count (LIWC) analysis, comparing ChatGPT-generated conversations with human conversations across 118 linguistic categories. Results show greater variability and authenticity in human dialogues, but ChatGPT excels in categories such as social processes, analytical style, cognition, attentional focus, and positive emotional tone, reinforcing recent findings of LLMs being "more human than human." However, no significant difference was found in positive or negative affect between ChatGPT and human dialogues. Classifier analysis of dialogue embeddings indicates implicit coding of the valence of affect despite no explicit mention of affect in the conversations. The research also contributes a novel, companion ChatGPT-generated dataset of conversations between two independent chatbots, which were designed to replicate a corpus of human conversations available for open access and used widely in AI research on language modeling. Our findings increase understanding of ChatGPT's linguistic capabilities and inform ongoing efforts to distinguish between human and LLM-generated text, which is critical in detecting AI-generated fakes, misinformation, and disinformation.
翻訳日:2024-01-31 16:52:06 公開日:2024-01-29
# リアル360度オーディオ映像における音事象の局所化と検出

Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes ( http://arxiv.org/abs/2401.17129v1 )

ライセンス: Link先を確認
Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti(参考訳) 本報告では,seld(audio-visual sound event localization and detection)ネットワークの構築に向けた取り組みについて述べる。 音声のみのsuldnet23モデル上に構築し,音声のみのネットワークのゲートリカレントユニット(gru)に先立って,音声情報と映像情報を融合することにより,音声視認性を実現する。 我々のモデルは、YOLOとDeTICオブジェクト検出器を利用する。 また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。 我々は既存の音声視覚SELDベースラインよりも優れた音声視覚SELDnetシステムを提供する。

This technical report details our work towards building an enhanced audio-visual sound event localization and detection (SELD) network. We build on top of the audio-only SELDnet23 model and adapt it to be audio-visual by merging both audio and video information prior to the gated recurrent unit (GRU) of the audio-only network. Our model leverages YOLO and DETIC object detectors. We also build a framework that implements audio-visual data augmentation and audio-visual synthetic data generation. We deliver an audio-visual SELDnet system that outperforms the existing audio-visual SELD baseline.
翻訳日:2024-01-31 14:19:09 公開日:2024-01-29
# 個人化フェデレーション学習のためのスペクトル共蒸留

Spectral Co-Distillation for Personalized Federated Learning ( http://arxiv.org/abs/2401.17124v1 )

ライセンス: Link先を確認
Zihan Chen, Howard H. Yang, Tony Q.S. Quek, Kai Fong Ernest Chong(参考訳) パーソナライズされた連合学習(pfl)は、特に単一のジェネリックモデルが、ローカルクライアントの多様なパフォーマンス要求を同時に満たすのに不十分である場合に、データの多様性の課題に対処するために広く研究されてきた。 既存のPFL法は、一般的なグローバルモデルとパーソナライズされたローカルモデルの関係がモデル重みの類似性によって捉えられるという考えに基づいている。 このような類似性は、主にモデルアーキテクチャを汎用的でパーソナライズされたコンポーネントに分割するか、モデル重みによるクライアント関係のモデリングに基づいている。 類似した(比較的異なる)一般表現とパーソナライズされたモデル表現をよりよく捉えるために,モデルスペクトル情報に基づく新規蒸留法である \textit{spectral distillation} を提案する。 また, 総合的およびパーソナライズされたモデルトレーニングの間に双方向の橋渡しを行う共蒸留フレームワークを導入する。 さらに,従来のPFLにおける局所アイドル時間を利用するために,待ち時間のないローカルトレーニングプロトコルを提案する。 多様な異種データ設定上の複数のデータセットに対する広範囲な実験を通じて,提案するスペクトル共蒸留法と待ち時間なしのトレーニングプロトコルのアウトパフォーマンスと有効性を示す。

Personalized federated learning (PFL) has been widely investigated to address the challenge of data heterogeneity, especially when a single generic model is inadequate in satisfying the diverse performance requirements of local clients simultaneously. Existing PFL methods are inherently based on the idea that the relations between the generic global and personalized local models are captured by the similarity of model weights. Such a similarity is primarily based on either partitioning the model architecture into generic versus personalized components, or modeling client relationships via model weights. To better capture similar (yet distinct) generic versus personalized model representations, we propose \textit{spectral distillation}, a novel distillation method based on model spectrum information. Building upon spectral distillation, we also introduce a co-distillation framework that establishes a two-way bridge between generic and personalized model training. Moreover, to utilize the local idle time in conventional PFL, we propose a wait-free local training protocol. Through extensive experiments on multiple datasets over diverse heterogeneous data settings, we demonstrate the outperformance and efficacy of our proposed spectral co-distillation method, as well as our wait-free training protocol.
翻訳日:2024-01-31 14:18:30 公開日:2024-01-29
# グラフ深部生成モデルが絡み合った場合の安定因子の教師なし発見

Unsupervised Discovery of Steerable Factors When Graph Deep Generative Models Are Entangled ( http://arxiv.org/abs/2401.17123v1 )

ライセンス: Link先を確認
Shengchao Liu, Chengpeng Wang, Jiarui Lu, Weili Nie, Hanchen Wang, Zhuoxinran Li, Bolei Zhou, Jian Tang(参考訳) グラフデータのための深部生成モデル (DGM) が広く開発されている。 しかし、そのような事前訓練されたグラフDGMの潜伏空間の理解について、はるかに少ない研究がなされている。 これらの理解はグラフ制御生成のような重要なタスクに対して建設的なガイドラインを提供する可能性を秘めている。 そこで本研究では,この問題を研究し,事前学習したグラフDGMの潜伏空間におけるステアブル因子の教師なし発見法であるGraphCGを提案する。 まず,6つの非交叉距離を持つ3つの事前学習グラフDGMの表現空間について検討し,事前学習された表現空間が絡み合っていることを観察する。 この観察により、GraphCGは、同じ方向に移動する制御グラフが同じ操舵因子を共有する意味豊かな方向間の相互情報を最大化することで、操舵因子を学習する。 2つの分子データセットで事前学習した2つのグラフDGMにおいて、グラフCGが4つの競合ベースラインを上回ることを定量的に検証する。 さらに,5つのグラフデータセット上で事前トレーニングされた5つのdgmに対して,graphcgが学習した7つのステアブル因子を定性的に示す。

Deep generative models (DGMs) have been widely developed for graph data. However, much less investigation has been carried out on understanding the latent space of such pretrained graph DGMs. These understandings possess the potential to provide constructive guidelines for crucial tasks, such as graph controllable generation. Thus in this work, we are interested in studying this problem and propose GraphCG, a method for the unsupervised discovery of steerable factors in the latent space of pretrained graph DGMs. We first examine the representation space of three pretrained graph DGMs with six disentanglement metrics, and we observe that the pretrained representation space is entangled. Motivated by this observation, GraphCG learns the steerable factors via maximizing the mutual information between semantic-rich directions, where the controlled graph moving along the same direction will share the same steerable factors. We quantitatively verify that GraphCG outperforms four competitive baselines on two graph DGMs pretrained on two molecule datasets. Additionally, we qualitatively illustrate seven steerable factors learned by GraphCG on five pretrained DGMs over five graph datasets, including two for molecules and three for point clouds.
翻訳日:2024-01-31 14:18:06 公開日:2024-01-29
# マルチビュー・スタックリングにおけるビュー選択:メタラーナーの選択

View selection in multi-view stacking: Choosing the meta-learner ( http://arxiv.org/abs/2010.16271v2 )

ライセンス: Link先を確認
Wouter van Loon, Marjolein Fokkema, Botond Szabo, Mark de Rooij(参考訳) マルチビュー・スタックング(Multi-view stacking)は、異なるビュー(つまり異なる特徴集合)から同じオブジェクト群を記述する情報を組み合わせるためのフレームワークである。 このフレームワークでは、ベースリーナーアルゴリズムは各ビューで個別に訓練され、それらの予測はメタリーナーアルゴリズムによって合成される。 前回の研究では、重ね合わせペナルティ付きロジスティック回帰(英語版)が、予測に最も重要なビューを特定するのに有用であることが示されている。 本稿では,メタリーナーとして使用する7つの異なるアルゴリズムを考察し,シミュレーションにおける視点選択と分類性能の評価と,実際の遺伝子発現データセットに対する2つの応用により,この研究を拡大する。 以上の結果から,検討対象の視点選択と分類精度が重要である場合,非負のラッソ,非負の適応ラッソ,非負の弾性ネットが適当であることが示唆された。 この3つのうちどれが好まれるかは、研究の文脈に依存する。 残りの4つのメタラーナー(非負の尾根回帰、非負の前方選択、安定性の選択、補間予測器)は、他の3つよりも好まれる利点はほとんどなかった。

Multi-view stacking is a framework for combining information from different views (i.e. different feature sets) describing the same set of objects. In this framework, a base-learner algorithm is trained on each view separately, and their predictions are then combined by a meta-learner algorithm. In a previous study, stacked penalized logistic regression, a special case of multi-view stacking, has been shown to be useful in identifying which views are most important for prediction. In this article we expand this research by considering seven different algorithms to use as the meta-learner, and evaluating their view selection and classification performance in simulations and two applications on real gene-expression data sets. Our results suggest that if both view selection and classification accuracy are important to the research at hand, then the nonnegative lasso, nonnegative adaptive lasso and nonnegative elastic net are suitable meta-learners. Exactly which among these three is to be preferred depends on the research context. The remaining four meta-learners, namely nonnegative ridge regression, nonnegative forward selection, stability selection and the interpolating predictor, show little advantages in order to be preferred over the other three.
翻訳日:2024-01-31 01:26:44 公開日:2024-01-29
# カメラポーズの監督による学習特徴記述子

Learning Feature Descriptors using Camera Pose Supervision ( http://arxiv.org/abs/2004.13324v3 )

ライセンス: Link先を確認
Qianqian Wang, Xiaowei Zhou, Bharath Hariharan, Noah Snavely(参考訳) 近年,多くの3次元視覚タスクの重要な構成要素である対応推定における有望な改善が示されている。 しかし、既存のディスクリプタ学習フレームワークは通常、トレーニングのために特徴点間の基底的対応を必要とする。 本稿では,画像間の相対的なカメラポーズからのみ特徴記述子を学習できる,新しい弱教師付きフレームワークを提案する。 そこで我々は,カメラのポーズによって与えられるエピポーラ制約を利用する新たな損失関数と,パイプライン全体を微分可能かつ効率的にする新しいモデルアーキテクチャを考案した。 ピクセルレベルの地上通信はもはや不要なので、我々のフレームワークは、より大きく、より多様なデータセットのトレーニングを、より良い、偏見のない記述子に開放する。 得られた記述子をCAmera Pose Supervised(CAPS)と呼びます。 弱い監督の訓練を受けたCAPSディスクリプタは、完全に監督されたディスクリプタよりも優れており、様々な幾何学的タスクにおける最先端のパフォーマンスを実現している。 プロジェクトページ: https://qianqianwang68.github.io/caps/

Recent research on learned visual descriptors has shown promising improvements in correspondence estimation, a key component of many 3D vision tasks. However, existing descriptor learning frameworks typically require ground-truth correspondences between feature points for training, which are challenging to acquire at scale. In this paper we propose a novel weakly-supervised framework that can learn feature descriptors solely from relative camera poses between images. To do so, we devise both a new loss function that exploits the epipolar constraint given by camera poses, and a new model architecture that makes the whole pipeline differentiable and efficient. Because we no longer need pixel-level ground-truth correspondences, our framework opens up the possibility of training on much larger and more diverse datasets for better and unbiased descriptors. We call the resulting descriptors CAmera Pose Supervised, or CAPS, descriptors. Though trained with weak supervision, CAPS descriptors outperform even prior fully-supervised descriptors and achieve state-of-the-art performance on a variety of geometric tasks. Project Page: https://qianqianwang68.github.io/CAPS/
翻訳日:2024-01-31 01:26:20 公開日:2024-01-29
# AugLoss:ロバストな拡張ベースのファインチューニング方法論

AugLoss: A Robust Augmentation-based Fine Tuning Methodology ( http://arxiv.org/abs/2206.02286v2 )

ライセンス: Link先を確認
Kyle Otstot, Andrew Yang, John Kevin Cava, Lalitha Sankar(参考訳) ディープラーニング(dl)モデルは、多くの領域で大きな成功を収めます。 しかし、DLモデルは、トレーニング段階におけるノイズラベリングやテスト段階における特徴分布シフトなど、安全性と堅牢性への懸念がますます高まっている。 これまでの研究は、これらの問題に対処する上で大きな進歩を遂げてきたが、その焦点は、一度に1つの問題だけに対するソリューションの開発だった。 例えば、最近の研究は、ラベルノイズを緩和するために調整可能な堅牢な損失関数を使うことと、分散シフトと戦うためにデータ拡張(AugMixなど)を議論している。 両問題を同時に解決するためのステップとして,データ拡張とロバスト損失関数を統一することにより,列車時ノイズラベルとテスト時特徴分布シフトの両方に対して堅牢性を実現する,シンプルかつ効果的な手法であるAugLossを紹介した。 我々は,実世界のデータセット腐敗のさまざまな設定で包括的な実験を行い,これまでの最先端手法と比較して,auglossが達成した成果を示す。 最後に、この取り組みが、現実世界の腐敗の下でより堅牢で信頼性の高いdlモデルを設計するための新しい方向を開くことを望んでいる。

Deep Learning (DL) models achieve great successes in many domains. However, DL models increasingly face safety and robustness concerns, including noisy labeling in the training stage and feature distribution shifts in the testing stage. Previous works made significant progress in addressing these problems, but the focus has largely been on developing solutions for only one problem at a time. For example, recent work has argued for the use of tunable robust loss functions to mitigate label noise, and data augmentation (e.g., AugMix) to combat distribution shifts. As a step towards addressing both problems simultaneously, we introduce AugLoss, a simple but effective methodology that achieves robustness against both train-time noisy labeling and test-time feature distribution shifts by unifying data augmentation and robust loss functions. We conduct comprehensive experiments in varied settings of real-world dataset corruption to showcase the gains achieved by AugLoss compared to previous state-of-the-art methods. Lastly, we hope this work will open new directions for designing more robust and reliable DL models under real-world corruptions.
翻訳日:2024-01-31 01:20:44 公開日:2024-01-29
# MiniDisc: 言語モデル圧縮のための最小蒸留スケジュール

MiniDisc: Minimal Distillation Schedule for Language Model Compression ( http://arxiv.org/abs/2205.14570v3 )

ライセンス: Link先を確認
Chen Zhang, Yang Yang, Qifan Wang, Jiahao Liu, Jingang Wang, Wei Wu, Dawei Song(参考訳) 近年の研究では、教師と生徒の間の大きな容量ギャップに直面した場合、言語モデル蒸留は効果が低いことが判明し、そのギャップを埋めるために教師アシスタントベースの蒸留を導入した。 その結果,教員アシスタントの規模と性能は,教師の知識を生徒に伝える上で極めて重要であることがわかった。 しかし、既存の教師アシスタントベース手法では、最適な教師アシスタントをスケジューリングする前に、最大限多くの試行が必要となる。 そこで本研究では,最小1回の試行で最適な教師アシスタントをスケジューリングするための最小蒸留スケジュール(MiniDisc)を提案する。 特に、生徒のパフォーマンスが教師アシスタントのスケールパフォーマンストレードオフと正の相関があることに動機づけられ、minidiscは学生への試用蒸留なしで教師アシスタントの最適性を測定するために$\lambda$-tradeoffで設計されている。 するとMiniDiscは、サンドイッチフレームワークで最高の$\lambda$-tradeoffで最適な教師アシスタントをスケジュールできる。 MiniDiscはGLUEに関する広範な実験で評価されている。 実験の結果,いくつかの最先端ベースラインと比較して,ミニディスクの効率性が向上した。 さらに、数十億のパラメータを持つ言語モデルにMiniDiscを適用し、そのスケーラビリティを示す。

Recent studies have uncovered that language model distillation is less effective when facing a large capacity gap between the teacher and the student, and introduced teacher assistant-based distillation to bridge the gap. As a connection, the scale and the performance of the teacher assistant is of vital importance to bring the knowledge from the teacher to the student. However, existing teacher assistant-based methods require maximally many trials before scheduling an optimal teacher assistant. To this end, we propose a minimal distillation schedule (MiniDisc) for scheduling the optimal teacher assistant in minimally one trial. In particular, motivated by the finding that the performance of the student is positively correlated to the scale-performance tradeoff of the teacher assistant, MiniDisc is designed with a $\lambda$-tradeoff to measure the optimality of the teacher assistant without trial distillation to the student. MiniDisc then can schedule the optimal teacher assistant with the best $\lambda$-tradeoff in a sandwich framework. MiniDisc is evaluated with an extensive set of experiments on GLUE. Experimental results demonstrate the improved efficiency our MiniDisc compared to several state-of-the-art baselines. We further apply MiniDisc to a language model with billions of parameters and show its scalability.
翻訳日:2024-01-31 01:19:58 公開日:2024-01-29
# DeepAutoPIN:生物の樹上でのタンパク質相互作用体の組織的多様性を特徴付ける自己同型軌道に基づくディープニューラルネットワーク

DeepAutoPIN: An automorphism orbits based deep neural network for characterizing the organizational diversity of protein interactomes across the tree of life ( http://arxiv.org/abs/2203.00999v2 )

ライセンス: Link先を確認
Vikram Singh and Vikram Singh(参考訳) 生命の多様性は著しく異なる環境下で繁栄し、互いに相互作用する構成タンパク質間の複雑な相互作用を伴う。 しかし、生物の樹上でのタンパク質相互作用ネットワーク(PIN)の進化を特徴付ける組織原理はほとんど不明である。 ここでは,16のフィラに属する4,738本のピンを解析し,フィラ特有のアーキテクチャ的特徴を発見し,ネットワークのトポロジにいくつかの進化的制約が課されているかどうかを検証した。 ネットワークノードの位置情報を利用して,2-5のグラフレットに現れる自己同型軌道の周波数を正規化した。 生命の3つの領域に属するネットワークの軌道利用プロファイル (oups) は, ドメインレベルだけでなく, フィラの規模においても対照的に異なることが報告されている。 タンパク質ファミリー,ドメイン,細胞内位置,遺伝子オントロジー,経路に関する情報を統合することで,異なる系統のPINの配線パターンは,進化的制約によって形成されるのではなく,ランダムに生成されることが示唆された。 PINの配線パターンには微妙だが実質的な変化があり、OUPは異なるスーパーファミリ間で区別できる。 ディープニューラルネットワークは、差分表現された軌道上で訓練され、予測精度は85%となった。

The enormous diversity of life forms thriving in drastically different environmental milieus involves a complex interplay among constituent proteins interacting with each other. However, the organizational principles characterizing the evolution of protein interaction networks (PINs) across the tree of life are largely unknown. Here we study 4,738 PINs belonging to 16 phyla to discover phyla-specific architectural features and examine if there are some evolutionary constraints imposed on the networks' topologies. We utilized positional information of a network's nodes by normalizing the frequencies of automorphism orbits appearing in graphlets of sizes 2-5. We report that orbit usage profiles (OUPs) of networks belonging to the three domains of life are contrastingly different not only at the domain level but also at the scale of phyla. Integrating the information related to protein families, domains, subcellular location, gene ontology, and pathways, our results indicate that wiring patterns of PINs in different phyla are not randomly generated rather they are shaped by evolutionary constraints imposed on them. There exist subtle but substantial variations in the wiring patterns of PINs that enable OUPs to differentiate among different superfamilies. A deep neural network was trained on differentially expressed orbits resulting in a prediction accuracy of 85%.
翻訳日:2024-01-31 01:16:25 公開日:2024-01-29
# 畳み込み層の特徴図からの対向ロバスト性理解

Understanding Adversarial Robustness from Feature Maps of Convolutional Layers ( http://arxiv.org/abs/2202.12435v2 )

ライセンス: Link先を確認
Cong Xu, Wei Zhang, Jun Wang and Min Yang(参考訳) ニューラルネットワークの対向的堅牢性は、主にモデル容量と対摂動能力の2つの要因に依存している。 本稿では,畳み込み層の特徴マップからネットワークの摂動防止能力について検討する。 理論解析により, 平均プールより前の大きな畳み込み特徴写像は摂動に対する抵抗性の向上に寄与するが, 最大プールには当てはまらない。 堅牢なニューラルネットワークの設計に新たなインスピレーションをもたらし、これらの発見を適用して既存のアーキテクチャを改善するように促します。 提案された修正は非常に単純で、入力をアップサンプリングするか、ダウンサンプリング演算子のストライド構成を少し変更するだけでよい。 alexnet, vgg, restnet18, preactresnet18など,いくつかのベンチマークニューラルネットワークアーキテクチャにおけるアプローチを検証する。 自然な精度と敵の堅牢性の両面での非自明な改善は、様々な攻撃・防御機構の下で達成できる。 コードは \url{https://github.com/mtandhj/rcm} で入手できる。

The adversarial robustness of a neural network mainly relies on two factors: model capacity and anti-perturbation ability. In this paper, we study the anti-perturbation ability of the network from the feature maps of convolutional layers. Our theoretical analysis discovers that larger convolutional feature maps before average pooling can contribute to better resistance to perturbations, but the conclusion is not true for max pooling. It brings new inspiration to the design of robust neural networks and urges us to apply these findings to improve existing architectures. The proposed modifications are very simple and only require upsampling the inputs or slightly modifying the stride configurations of downsampling operators. We verify our approaches on several benchmark neural network architectures, including AlexNet, VGG, RestNet18, and PreActResNet18. Non-trivial improvements in terms of both natural accuracy and adversarial robustness can be achieved under various attack and defense mechanisms. The code is available at \url{https://github.com/MTandHJ/rcm}.
翻訳日:2024-01-31 01:16:04 公開日:2024-01-29
# ジェットタグ用粒子変圧器

Particle Transformer for Jet Tagging ( http://arxiv.org/abs/2202.03772v3 )

ライセンス: Link先を確認
Huilin Qu, Congqiao Li, Sitian Qian(参考訳) ジェットタグは、粒子物理学において決定的だが難しい分類課題である。 ディープラーニングはジェットタグを変換し、パフォーマンスを大幅に向上させたが、大規模なパブリックデータセットの欠如はさらなる強化を妨げる。 本稿ではジェットタグのための新しい包括的データセットであるJetClassを紹介する。 JetClassデータセットは100Mジェットで構成され、既存の公開データセットよりも約2桁大きい。 合計10種類のジェットがシミュレートされ、これまでにタグ付けのためにいくつかのタイプが検討されていない。 大規模データセットに基づいて,ParT (Particle Transformer) と呼ばれるジェットタグのための新しいトランスフォーマーアーキテクチャを提案する。 注意機構にペアワイズ粒子相互作用を組み込むことで、ParTは通常のトランスフォーマーよりも高いタグ付け性能を実現し、従来の技術であるParticleNetを大きなマージンで上回る。 一度微調整されたParTモデルは、広く採用されている2つのジェットタグ付けベンチマークの性能を大幅に向上させた。 データセット、コード、モデルはhttps://github.com/jet-universe/particle_transformerで公開されている。

Jet tagging is a critical yet challenging classification task in particle physics. While deep learning has transformed jet tagging and significantly improved performance, the lack of a large-scale public dataset impedes further enhancement. In this work, we present JetClass, a new comprehensive dataset for jet tagging. The JetClass dataset consists of 100 M jets, about two orders of magnitude larger than existing public datasets. A total of 10 types of jets are simulated, including several types unexplored for tagging so far. Based on the large dataset, we propose a new Transformer-based architecture for jet tagging, called Particle Transformer (ParT). By incorporating pairwise particle interactions in the attention mechanism, ParT achieves higher tagging performance than a plain Transformer and surpasses the previous state-of-the-art, ParticleNet, by a large margin. The pre-trained ParT models, once fine-tuned, also substantially enhance the performance on two widely adopted jet tagging benchmarks. The dataset, code and models are publicly available at https://github.com/jet-universe/particle_transformer.
翻訳日:2024-01-31 01:15:50 公開日:2024-01-29
# 予測処理近位政策最適化による高効率深層強化学習

Efficient Deep Reinforcement Learning with Predictive Processing Proximal Policy Optimization ( http://arxiv.org/abs/2211.06236v2 )

ライセンス: Link先を確認
Burcu K\"u\c{c}\"uko\u{g}lu, Walraaf Borkent, Bodo Rueckauer, Nasir Ahmad, Umut G\"u\c{c}l\"u and Marcel van Gerven(参考訳) 強化学習(RL)の進歩は、しばしば大量の計算資源に依存し、非効率なサンプルとして悪名高い。 対照的に、人間の脳は限られた資源を使って効果的な制御戦略を効率的に学習することができる。 これにより、現在のRL法を改善するために神経科学からの洞察が使えるかどうかという疑問が提起される。 予測処理は、人間の脳がサプライズを最小化しようと積極的に試みているという一般的な理論フレームワークである。 それぞれの感覚状態を予測するリカレントニューラルネットワークは、サプライズを最小限に抑え、累積報酬の実質的なゲインを得られることを示す。 具体的には,世界モデルを隠れた状態に統合することにより,ppoアルゴリズムの反復的変種に予測処理を適用するアクタ-批判的強化学習エージェントである予測処理近位政策最適化(p4o)エージェントを提案する。 ハイパーパラメータチューニングがなくても、P4Oは単一のGPUを使用して複数のAtariゲーム上でPPOアルゴリズムのベースラインリカレント変異を著しく上回る。 また、同じウォールクロックの時間に与えられる最先端のエージェントを上回り、atariドメインで特に困難な環境であるseaquestを含む複数のゲームで人間のゲーマーのパフォーマンスを上回っている。 私たちの研究は、神経科学の分野からの洞察が、より有能で効率的な人工エージェントの開発にどのように役立つかを強調しています。

Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from neuroscience can be used to improve current RL methods. Predictive processing is a popular theoretical framework which maintains that the human brain is actively seeking to minimize surprise. We show that recurrent neural networks which predict their own sensory states can be leveraged to minimise surprise, yielding substantial gains in cumulative reward. Specifically, we present the Predictive Processing Proximal Policy Optimization (P4O) agent; an actor-critic reinforcement learning agent that applies predictive processing to a recurrent variant of the PPO algorithm by integrating a world model in its hidden state. Even without hyperparameter tuning, P4O significantly outperforms a baseline recurrent variant of the PPO algorithm on multiple Atari games using a single GPU. It also outperforms other state-of-the-art agents given the same wall-clock time and exceeds human gamer performance on multiple games including Seaquest, which is a particularly challenging environment in the Atari domain. Altogether, our work underscores how insights from the field of neuroscience may support the development of more capable and efficient artificial agents.
翻訳日:2024-01-31 01:08:15 公開日:2024-01-29
# ペルソアラビア文字のグラフ化

Graphemic Normalization of the Perso-Arabic Script ( http://arxiv.org/abs/2210.12273v3 )

ライセンス: Link先を確認
Raiomond Doctor and Alexander Gutkin and Cibu Johny and Brian Roark and Richard Sproat(参考訳) 1991年の初登場以来、unicodeのペルソ・アラビア語の文字表現は169から440以上の分離された文字に成長し、標準文字、様々なダイアクリティカルス、原アラビア語やその他の多くの地域の正書法の伝統を表すコードページに広がった。 本稿では,ペルソ・アラビア語がアラビア語やペルシア語などの最良文書言語を超えて提示される課題を,専門家コミュニティによる先行研究に基づいて文書化する。 特に自然言語処理(nlp)の状況に焦点をあて、視覚的に曖昧で標準的でない文字の使用や、異なる正書法からの文字の混合など、しばしば無視される複数の問題に影響を受けている。 寄与する混乱要因には、入力方法の欠如、現代の正書法の不安定さ、識字力の欠如、正書法の伝統の欠如などがある。 ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。 その結果,正規化が適用された場合のすべての言語に対して,ほとんどの条件において,統計的に有意な性能向上が認められた。 地域正書法におけるペルソ・アラビア文字のより良い理解と表現は、特に資源の多様さを持つ言語において、現代計算NLP技術のさらなる進歩に欠かせないものであると論じる。

Since its original appearance in 1991, the Perso-Arabic script representation in Unicode has grown from 169 to over 440 atomic isolated characters spread over several code pages representing standard letters, various diacritics and punctuation for the original Arabic and numerous other regional orthographic traditions. This paper documents the challenges that Perso-Arabic presents beyond the best-documented languages, such as Arabic and Persian, building on earlier work by the expert community. We particularly focus on the situation in natural language processing (NLP), which is affected by multiple, often neglected, issues such as the use of visually ambiguous yet canonically nonequivalent letters and the mixing of letters from different orthographies. Among the contributing conflating factors are the lack of input methods, the instability of modern orthographies, insufficient literacy, and loss or lack of orthographic tradition. We evaluate the effects of script normalization on eight languages from diverse language families in the Perso-Arabic script diaspora on machine translation and statistical language modeling tasks. Our results indicate statistically significant improvements in performance in most conditions for all the languages considered when normalization is applied. We argue that better understanding and representation of Perso-Arabic script variation within regional orthographic traditions, where those are present, is crucial for further progress of modern computational NLP techniques especially for languages with a paucity of resources.
翻訳日:2024-01-31 01:07:12 公開日:2024-01-29
# SSL-WM:自己教師型学習によるエンコーダのブラックボックス透かし手法

SSL-WM: A Black-Box Watermarking Approach for Encoders Pre-trained by Self-supervised Learning ( http://arxiv.org/abs/2209.03563v2 )

ライセンス: Link先を確認
Peizhuo Lv, Pan Li, Shenchen Zhu, Shengzhi Zhang, Kai Chen, Ruigang Liang, Chang Yue, Fan Xiang, Yuling Cai, Hualong Ma, Yingjun Zhang, Guozhu Meng(参考訳) 近年,コンピュータビジョン (CV) や自然言語処理 (NLP) ドメインにおける下流タスクの促進に広く利用されているセルフスーパーバイザード・ラーニング (SSL) が大きな成功を収めている。 しかし、攻撃者はそのようなSSLモデルを盗み、利益のために商業化する可能性があり、SSLモデルの所有権を検証することが不可欠である。 既存のオーナシップ保護ソリューション(例えば、バックドアベースの透かし)は、教師付き学習モデルのために設計されており、モデルの下流タスクとターゲットラベルは、常にSSLのドメインでは不可能なウォーターマーク埋め込み時に知っていて利用可能である必要があるため、直接使用できない。 このような問題に対処するために、特にウォーターマーク埋め込み中に下流タスクが多様で未知の場合、SSL-WMと呼ばれる新しいブラックボックス透かしソリューションを提案し、SSLモデルのオーナシップを検証する。 SSL-WMは、保護されたエンコーダの透かし入力を不変表現空間にマッピングし、任意の下流分類器が期待する振る舞いを生じさせ、埋め込みされた透かしの検出を可能にする。 我々は,コントラストベースと生成ベースの両方で異なるSSLモデルを用いて,CVやNLPなどの多数のタスクにおいてSSL-WMを評価する。 実験の結果、SSL-WMは、さまざまな下流タスクにおいて、盗まれたSSLモデルのオーナシップを効果的に検証できることが示された。 さらに、SSL-WMはモデル微調整、プルーニング、入力前処理攻撃に対して堅牢である。 最後に、SSL-WMは評価された透かし検出アプローチからの検出を回避し、SSLモデルのオーナシップを保護するための有望な応用を実証する。

Recent years have witnessed tremendous success in Self-Supervised Learning (SSL), which has been widely utilized to facilitate various downstream tasks in Computer Vision (CV) and Natural Language Processing (NLP) domains. However, attackers may steal such SSL models and commercialize them for profit, making it crucial to verify the ownership of the SSL models. Most existing ownership protection solutions (e.g., backdoor-based watermarks) are designed for supervised learning models and cannot be used directly since they require that the models' downstream tasks and target labels be known and available during watermark embedding, which is not always possible in the domain of SSL. To address such a problem, especially when downstream tasks are diverse and unknown during watermark embedding, we propose a novel black-box watermarking solution, named SSL-WM, for verifying the ownership of SSL models. SSL-WM maps watermarked inputs of the protected encoders into an invariant representation space, which causes any downstream classifier to produce expected behavior, thus allowing the detection of embedded watermarks. We evaluate SSL-WM on numerous tasks, such as CV and NLP, using different SSL models both contrastive-based and generative-based. Experimental results demonstrate that SSL-WM can effectively verify the ownership of stolen SSL models in various downstream tasks. Furthermore, SSL-WM is robust against model fine-tuning, pruning, and input preprocessing attacks. Lastly, SSL-WM can also evade detection from evaluated watermark detection approaches, demonstrating its promising application in protecting the ownership of SSL models.
翻訳日:2024-01-31 01:05:59 公開日:2024-01-29
# 多次元Keller-Segel走化系における凝集パターンの学習と生成のためのDeepParticle法

A DeepParticle method for learning and generating aggregation patterns in multi-dimensional Keller-Segel chemotaxis systems ( http://arxiv.org/abs/2209.00109v2 )

ライセンス: Link先を確認
Zhongjian Wang, Jack Xin, Zhiwen Zhang(参考訳) ケラー・セガル(KS)ケモタキシー系の2次元および3次元における凝集パターンと近傍特異解の正規化相互作用粒子法について検討し,さらに物理パラメータの変動による解の学習と生成を行うディープパーティクル(DP)法を開発した。 KS溶液は、溶液の高勾配に自己適応する粒子の実験測度として近似される。 我々は,深部ニューラルネットワーク(DNN)の表現性を利用して,与えられた初期(ソース)分布から,その変換の可逆性を仮定することなく,爆発前の有限時間Tにおける対象分布への変換を表現する。 トレーニング段階では,入力と対象実験尺度間の離散的な2-wasserstein距離を最小化し,ネットワーク重み付けを更新する。 計算コストを削減するために,wasserstein距離における最適遷移行列を求める反復分割・探索アルゴリズムを開発した。 層流とカオス流の存在下でのKSダイナミクスの学習と生成を成功させるDPフレームワークの数値結果を示す。 本研究の物理的パラメータは, 化学療法剤の小さな拡散率か, アドベクション支配領域における流れ振幅の逆数である。

We study a regularized interacting particle method for computing aggregation patterns and near singular solutions of a Keller-Segal (KS) chemotaxis system in two and three space dimensions, then further develop DeepParticle (DP) method to learn and generate solutions under variations of physical parameters. The KS solutions are approximated as empirical measures of particles which self-adapt to the high gradient part of solutions. We utilize the expressiveness of deep neural networks (DNNs) to represent the transform of samples from a given initial (source) distribution to a target distribution at finite time T prior to blowup without assuming invertibility of the transforms. In the training stage, we update the network weights by minimizing a discrete 2-Wasserstein distance between the input and target empirical measures. To reduce computational cost, we develop an iterative divide-and-conquer algorithm to find the optimal transition matrix in the Wasserstein distance. We present numerical results of DP framework for successful learning and generation of KS dynamics in the presence of laminar and chaotic flows. The physical parameter in this work is either the small diffusivity of chemo-attractant or the reciprocal of the flow amplitude in the advection-dominated regime.
翻訳日:2024-01-31 01:05:10 公開日:2024-01-29
# 多エージェントrlにおける社会的ジレンマを軽減する形式的契約

Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL ( http://arxiv.org/abs/2208.10469v4 )

ライセンス: Link先を確認
Andreas A. Haupt, Phillip J.K. Christoffersen, Mehul Damani, Dylan Hadfield-Menell(参考訳) マルチエージェント強化学習(MARL)は、共通の環境で独立して行動する自律エージェントを訓練するための強力なツールである。 しかし、個々のインセンティブとグループインセンティブが分かれる場合、最適以下の行動につながる可能性がある。 人間はこれらの社会的ジレンマを解決することができる。 marlではこのような協力的な行動を利己的なエージェントで再現することはオープンな問題である。 本研究は,MARLにおけるエージェント間のインセンティブのばらつきを克服するため,経済学からの正式な契約について考察する。 我々は,エージェントが事前に決められた条件下で報酬の伝達に自発的に同意するマルコフゲームの拡張を提案する。 私たちの貢献は理論的かつ実証的です。 まず,この拡張により,全ての完全可観測マルコフゲームにおける全てのサブゲーム完全均衡が,十分に豊富な契約空間を前提として,社会的に最適な行動を示すことを示す。 次に, 一般契約空間, 部分可観測性の下でも, よりリッチな契約空間がより高い福祉をもたらすことを示す。 したがって、契約空間設計は、インセンティブの問題を回避し、探索・爆発のトレードオフを解決する。 我々は理論分析を実験で補完する。 多目的強化学習(MOCA: Multi-Objective Contract Augmentation Learning)にインスパイアされた訓練手法を用いて、契約拡大における探索の課題を緩和する。 静的な単一移動ゲームや、トラフィック、汚染管理、一般的なプール資源管理をシミュレートする動的ドメインで、我々の方法論をテストする。

Multi-agent Reinforcement Learning (MARL) is a powerful tool for training autonomous agents acting independently in a common environment. However, it can lead to sub-optimal behavior when individual incentives and group incentives diverge. Humans are remarkably capable at solving these social dilemmas. It is an open problem in MARL to replicate such cooperative behaviors in selfish agents. In this work, we draw upon the idea of formal contracting from economics to overcome diverging incentives between agents in MARL. We propose an augmentation to a Markov game where agents voluntarily agree to binding transfers of reward, under pre-specified conditions. Our contributions are theoretical and empirical. First, we show that this augmentation makes all subgame-perfect equilibria of all Fully Observable Markov Games exhibit socially optimal behavior, given a sufficiently rich space of contracts. Next, we show that for general contract spaces, and even under partial observability, richer contract spaces lead to higher welfare. Hence, contract space design solves an exploration-exploitation tradeoff, sidestepping incentive issues. We complement our theoretical analysis with experiments. Issues of exploration in the contracting augmentation are mitigated using a training methodology inspired by multi-objective reinforcement learning: Multi-Objective Contract Augmentation Learning (MOCA). We test our methodology in static, single-move games, as well as dynamic domains that simulate traffic, pollution management and common pool resource management.
翻訳日:2024-01-31 01:04:50 公開日:2024-01-29
# コントラスト型マスクオートエンコーダは、より強力な視覚学習者である

Contrastive Masked Autoencoders are Stronger Vision Learners ( http://arxiv.org/abs/2207.13532v3 )

ライセンス: Link先を確認
Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng(参考訳) masked image modeling (mim) は様々なビジョンタスクで有望な結果を得た。 しかし、学習表現の限定的な識別性は、より強力なビジョン学習者を作るにはまだまだ多くの道のりがあることを示している。 この目標に向けて,より包括的で有能な視覚表現を学習するための自己指導型事前学習手法であるContrastive Masked Autoencoders (CMAE)を提案する。 CMAEは、新しいデザインを通じて、比較学習(CL)とマスク画像モデル(MIM)を協調的に統一することにより、それぞれの利点を活用し、強いインスタンス識別性と局所認識性の両方で表現を学習する。 具体的には、オンラインブランチが非対称エンコーダデコーダであり、モーメントブランチがモーメント更新エンコーダである2つのブランチで構成される。 トレーニング中、オンラインエンコーダはマスク付き画像の潜在表現からオリジナル画像を再構成し、全体像を学習する。 モメンタエンコーダはフルイメージで提供され、オンラインのコントラスト学習を通じて特徴の判別性を高める。 clをmimと互換性を持たせるために、cmaeは2つの新しいコンポーネント、すなわちピクセルシフト(pixel shifting)を導入している。 これらの新しい設計のおかげで、CMAEはMIMよりも表現品質と転送性能を効果的に改善する。 cmaeは、画像分類、セマンティックセグメンテーション、オブジェクト検出といった高度な競合ベンチマークで最先端のパフォーマンスを達成している。 注目すべきは、cmae-baseはimagenetで85.3\%$ top-1精度、ade20kで52.5\%$ miouを達成し、それぞれ0.7\%$と1.8\%$である。 ソースコードは \url{https://github.com/ZhichengHuang/CMAE} で公開されている。

Masked image modeling (MIM) has achieved promising results on various vision tasks. However, the limited discriminability of learned representation manifests there is still plenty to go for making a stronger vision learner. Towards this goal, we propose Contrastive Masked Autoencoders (CMAE), a new self-supervised pre-training method for learning more comprehensive and capable vision representations. By elaboratively unifying contrastive learning (CL) and masked image model (MIM) through novel designs, CMAE leverages their respective advantages and learns representations with both strong instance discriminability and local perceptibility. Specifically, CMAE consists of two branches where the online branch is an asymmetric encoder-decoder and the momentum branch is a momentum updated encoder. During training, the online encoder reconstructs original images from latent representations of masked images to learn holistic features. The momentum encoder, fed with the full images, enhances the feature discriminability via contrastive learning with its online counterpart. To make CL compatible with MIM, CMAE introduces two new components, i.e. pixel shifting for generating plausible positive views and feature decoder for complementing features of contrastive pairs. Thanks to these novel designs, CMAE effectively improves the representation quality and transfer performance over its MIM counterpart. CMAE achieves the state-of-the-art performance on highly competitive benchmarks of image classification, semantic segmentation and object detection. Notably, CMAE-Base achieves $85.3\%$ top-1 accuracy on ImageNet and $52.5\%$ mIoU on ADE20k, surpassing previous best results by $0.7\%$ and $1.8\%$ respectively. The source code is publicly accessible at \url{https://github.com/ZhichengHuang/CMAE}.
翻訳日:2024-01-31 01:04:24 公開日:2024-01-29
# Pythonライブラリのマイグレーションを特徴付ける

Characterizing Python Library Migrations ( http://arxiv.org/abs/2207.01124v2 )

ライセンス: Link先を確認
Mohayeminul Islam and Ajay Kumar Jha and Ildar Akhmetov and Sarah Nadi(参考訳) 開発者はライブラリからアプリケーションプログラミングインターフェース(api)に強く依存してソフトウェアを構築している。 ソフトウェアが進化するにつれて、開発者は古いライブラリを代替ライブラリに置き換える必要があるかもしれない。 これを手作業で行うのは面倒で、時間がかかり、エラーを起こしやすい。 自動マイグレーション技術は、この負担を軽減するのに役立つ。 しかし、効果的な自動マイグレーションテクニックを設計するには、古いライブラリを使ったクライアントコードを新しいライブラリに変換するために必要なコード変更の種類を理解する必要がある。 本稿では,Pythonライブラリのマイグレーションについて,マイグレーションに必要なコード変更と,関連する典型的な開発作業の両面から,総合的な視点を提供する実証的研究に貢献する。 35のドメインから141のライブラリペアにまたがる311のクライアントリポジトリから335のPythonライブラリ移行において、3,096のマイグレーション関連のコード変更を手動でラベル付けします。 ラベル付きデータに基づいて、マイグレーション関連のコード変更を記述する分類法PyMigTaxを導出します。 pymigtaxとラベル付きデータを利用して,プログラム要素の型やapiマッピングの特性,マイグレーション時のマイグレーション関連のコード変更の型の組み合わせ,マイグレーションに必要な一般的な開発作業など,pythonライブラリのマイグレーションのさまざまな特性を調査した。 この結果から,現在のライブラリマイグレーションツールの潜在的な問題点が浮かび上がっている。 例えば、ライブラリペアの40%が非関数プログラム要素を含むapiマッピングを持っているのに対して、ほとんどのライブラリマイグレーション技術では、ソースライブラリからの関数呼び出しが対象ライブラリから(ひとつ以上の)関数呼び出しにマップされると想定している。 関連する開発作業の近似として、平均すると、開発者は移行を実行するために、約4つのapiと2つのapiマッピングを学ばなければなりません。

Developers heavily rely on Application Programming Interfaces (APIs) from libraries to build their software. As software evolves, developers may need to replace the used libraries with alternate libraries, a process known as library migration. Doing this manually can be tedious, time-consuming, and prone to errors. Automated migration techniques can help alleviate some of this burden. However, designing effective automated migration techniques requires understanding the types of code changes required to transform client code that used the old library to the new library. This paper contributes an empirical study that provides a holistic view of Python library migrations, both in terms of the code changes required in a migration and the typical development effort involved. We manually label 3,096 migration-related code changes in 335 Python library migrations from 311 client repositories spanning 141 library pairs from 35 domains. Based on our labeled data, we derive a taxonomy for describing migration-related code changes, PyMigTax. Leveraging PyMigTax and our labeled data, we investigate various characteristics of Python library migrations, such as the types of program elements and properties of API mappings, the combinations of types of migration-related code changes in a migration, and the typical development effort required for a migration. Our findings highlight various potential shortcomings of current library migration tools. For example, we find that 40% of library pairs have API mappings that involve non-function program elements, while most library migration techniques typically assume that function calls from the source library will map into (one or more) function calls from the target library. As an approximation for the development effort involved, we find that, on average, a developer needs to learn about 4 APIs and 2 API mappings to perform a migration, and ... (truncated)
翻訳日:2024-01-31 01:03:52 公開日:2024-01-29
# 階層的前方モデルを用いた強化学習のためのマルチホリゾン表現

Multi-Horizon Representations with Hierarchical Forward Models for Reinforcement Learning ( http://arxiv.org/abs/2206.11396v2 )

ライセンス: Link先を確認
Trevor McInroe, Lukas Sch\"afer, Stefano V. Albrecht(参考訳) 表現学習とポリシー学習が絡み合っているため、強化学習(RL)エージェントでは画素からの学習制御が難しい。 従来のアプローチでは、この問題を補助的な表現学習タスクで改善するが、それらは問題の時間的側面を考慮せず、また、重要な環境変化が多くのステップを踏むと学習の効率が低下する可能性がある。 我々は,コミュニケーションを学ぶフォワードモデルの階層と,ステップスキップのさまざまな大きさで操作するn$-step批判者のアンサンブルを通じて,複数の表現を学習する補助タスクである階層型$k$-step latent (hksl)を提案する。 我々は,HKSLを,イントラクタを伴わない30のロボット制御タスクと,創造のタスクで評価した。 HKSLは複数の代替表現学習手法よりも高速に高次あるいは最適エピソードの帰属に収束することがわかった。 さらに,hkslの表現が時間スケールをまたいだタスク関連詳細を正確に捉え,階層レベルのコミュニケーションチャネルがコミュニケーションプロセスの両側に基づいて情報を整理し,サンプル効率を向上させることを見出した。

Learning control from pixels is difficult for reinforcement learning (RL) agents because representation learning and policy learning are intertwined. Previous approaches remedy this issue with auxiliary representation learning tasks, but they either do not consider the temporal aspect of the problem or only consider single-step transitions, which may cause learning inefficiencies if important environmental changes take many steps to manifest. We propose Hierarchical $k$-Step Latent (HKSL), an auxiliary task that learns multiple representations via a hierarchy of forward models that learn to communicate and an ensemble of $n$-step critics that all operate at varying magnitudes of step skipping. We evaluate HKSL in a suite of 30 robotic control tasks with and without distractors and a task of our creation. We find that HKSL either converges to higher or optimal episodic returns more quickly than several alternative representation learning approaches. Furthermore, we find that HKSL's representations capture task-relevant details accurately across timescales (even in the presence of distractors) and that communication channels between hierarchy levels organize information based on both sides of the communication process, both of which improve sample efficiency.
翻訳日:2024-01-31 01:03:09 公開日:2024-01-29
# ハイブリッドニューラルネットワークSBERT-CNNによるRedditユーザの抑うつ検出

Detecting Reddit Users with Depression Using a Hybrid Neural Network SBERT-CNN ( http://arxiv.org/abs/2302.02759v2 )

ライセンス: Link先を確認
Ziyi Chen, Ren Yang, Sunyang Fu, Nansu Zong, Hongfang Liu, Ming Huang(参考訳) うつ病は広範な精神疾患であり、世界の人口の3.8%に影響を与えている。 また、世界中の障害に対する主要な貢献者の一人でもある。 近年、個人がソーシャルメディアプラットフォーム(Redditなど)を使って困難や健康上の問題(うつ病など)を表現し、オンラインコミュニティの他のユーザーからの支持を求めることが人気になっている。 何百万もの投稿を解析して、うつ病のあるソーシャルメディアユーザーを自動的に特定する絶好の機会だ。 ディープラーニングの手法が機械学習や自然言語処理(NLP)の分野で優位になってきたのは、その使いやすさ、効率的な処理、そして多くのNLPタスクにおける最先端の結果からである。 本研究では,事前訓練された文BERT(SBERT)と畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドディープラーニングモデルを提案する。 BERTという文は、各ポストで意味のある意味情報の表現を学ぶために使われる。 cnnは、埋め込みのさらなる変換とユーザーの行動パターンの時間的識別を可能にする。 自己報告型メンタルヘルス診断(SMHD)データを用いて、Redditユーザをうつ病で識別するためのモデルパフォーマンスを訓練・評価した。 ハイブリッドディープラーニングモデルは精度0.86とF1スコア0.86を達成し、文献における他の機械学習モデルによる最先端の文書化結果(F1スコア0.79)を上回った。 その結果,うつ病患者を識別するハイブリッドモデルの実現可能性を示した。 ハイブリッドモデルはReddit投稿による抑うつを検知するために検証されているが、他のテキスト分類タスクや異なる臨床応用に簡単に調整および適用することができる。

Depression is a widespread mental health issue, affecting an estimated 3.8% of the global population. It is also one of the main contributors to disability worldwide. Recently it is becoming popular for individuals to use social media platforms (e.g., Reddit) to express their difficulties and health issues (e.g., depression) and seek support from other users in online communities. It opens great opportunities to automatically identify social media users with depression by parsing millions of posts for potential interventions. Deep learning methods have begun to dominate in the field of machine learning and natural language processing (NLP) because of their ease of use, efficient processing, and state-of-the-art results on many NLP tasks. In this work, we propose a hybrid deep learning model which combines a pretrained sentence BERT (SBERT) and convolutional neural network (CNN) to detect individuals with depression with their Reddit posts. The sentence BERT is used to learn the meaningful representation of semantic information in each post. CNN enables the further transformation of those embeddings and the temporal identification of behavioral patterns of users. We trained and evaluated the model performance to identify Reddit users with depression by utilizing the Self-reported Mental Health Diagnoses (SMHD) data. The hybrid deep learning model achieved an accuracy of 0.86 and an F1 score of 0.86 and outperformed the state-of-the-art documented result (F1 score of 0.79) by other machine learning models in the literature. The results show the feasibility of the hybrid model to identify individuals with depression. Although the hybrid model is validated to detect depression with Reddit posts, it can be easily tuned and applied to other text classification tasks and different clinical applications.
翻訳日:2024-01-31 00:56:04 公開日:2024-01-29
# AutoPEFT:パラメータ効率の良いファインチューニングのための自動構成検索

AutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2301.12132v3 )

ライセンス: Link先を確認
Han Zhou, Xingchen Wan, Ivan Vuli\'c, Anna Korhonen(参考訳) 大規模な事前学習言語モデルは、タスク固有の微調整によって下流のNLPタスクで広く使われているが、そのような手順はコストがかかる。 近年,パラメータ効率の良いファインチューニング(PEFT)手法は,フルモデルファインチューニング(FFT)よりもはるかに少ないパラメータを更新しながら,高いタスク性能を実現している。 しかし、PEFTのアーキテクチャや変更可能なパラメータの数、さらにはPEFTモジュールが挿入される層など、PEFTの構成に関する情報的な設計選択を行うのは簡単ではない。 したがって、現在の手動で設計された構成は、パフォーマンス効率のトレードオフという点で、最適ではない可能性が高い。 まず,複数の代表的PEFTモジュールをビルディングブロックとして配置した表現的構成探索空間を設計する。 低コストな設定で多目的ベイズ最適化を用いて、異なるタスクにまたがる高い転送可能なパラメータの数をまたいだ強力なパフォーマンスコストトレードオフを持つパレート最適構成を見つける。 GLUE と SuperGLUE のタスクでは,AutoPEFT が検出した構成が既存のPEFT よりも大幅に優れており,FFT と同等かそれ以上であることを示す。

Large pretrained language models are widely used in downstream NLP tasks via task-specific fine-tuning, but such procedures can be costly. Recently, Parameter-Efficient Fine-Tuning (PEFT) methods have achieved strong task performance while updating much fewer parameters than full model fine-tuning (FFT). However, it is non-trivial to make informed design choices on the PEFT configurations, such as their architecture, the number of tunable parameters, and even the layers in which the PEFT modules are inserted. Consequently, it is highly likely that the current, manually designed configurations are suboptimal in terms of their performance-efficiency trade-off. Inspired by advances in neural architecture search, we propose AutoPEFT for automatic PEFT configuration selection: we first design an expressive configuration search space with multiple representative PEFT modules as building blocks. Using multi-objective Bayesian optimisation in a low-cost setup, we then discover a Pareto-optimal set of configurations with strong performance-cost trade-offs across different numbers of parameters that are also highly transferable across different tasks. Empirically, on GLUE and SuperGLUE tasks, we show that AutoPEFT-discovered configurations significantly outperform existing PEFT methods and are on par or better than FFT without incurring substantial training efficiency costs.
翻訳日:2024-01-31 00:54:53 公開日:2024-01-29
# ボソニック皮膚効果:非対称輸送における境界凝縮

The bosonic skin effect: boundary condensation in asymmetric transport ( http://arxiv.org/abs/2301.11339v2 )

ライセンス: Link先を確認
Louis Garbe, Yuri Minoguchi, Julian Huber, Peter Rabl(参考訳) 非対称単純包含法(asip)によりモデル化された、左右のホッピング率の異なる1次元格子によるボソニック粒子の非コヒーレント輸送について検討した。 具体的には, このシステムを通過する電流が増加するにつれて, 境界近傍の定常密度プロファイルにおける特徴的なジグザグパターンの出現によって表される遷移が起こることを示す。 この非常に珍しい輸送相では、局所粒子分布は、u(1)対称性が破れたボース凝縮状態との熱分布の間の各部位で交互に変化する。 さらに, この位相の開始はいわゆる非エルミート皮膚効果と密接に関連しており, 密度変動スペクトルの異常点と一致することを示した。 したがって、この効果は量子輸送、非平衡凝縮現象と非エルミティアトポロジーの直接的な関係を確立し、これは低温原子実験や長寿命フォトニック、偏光、プラズモン励起を持つ系で探究できる。

We study the incoherent transport of bosonic particles through a one dimensional lattice with different left and right hopping rates, as modelled by the asymmetric simple inclusion process (ASIP). Specifically, we show that as the current passing through this system increases, a transition occurs, which is signified by the appearance of a characteristic zigzag pattern in the stationary density profile near the boundary. In this highly unusual transport phase, the local particle distribution alternates on every site between a thermal distribution and a Bose-condensed state with broken U(1)-symmetry. Furthermore, we show that the onset of this phase is closely related to the so-called non-Hermitian skin effect and coincides with an exceptional point in the spectrum of density fluctuations. Therefore, this effect establishes a direct connection between quantum transport, non-equilibrium condensation phenomena and non-Hermitian topology, which can be probed in cold-atom experiments or in systems with long-lived photonic, polaritonic and plasmonic excitations.
翻訳日:2024-01-31 00:54:28 公開日:2024-01-29
# ScaDLES:エッジでのストリーミングデータによるスケーラブルなディープラーニング

ScaDLES: Scalable Deep Learning over Streaming data at the Edge ( http://arxiv.org/abs/2301.08897v2 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) 分散ディープラーニング(DDL)トレーニングシステムは、均一な計算資源、高いネットワーク帯域、十分なメモリとストレージ、およびすべてのノードにまたがる独立かつ同一の分散IID(IID)データを前提とするクラウドおよびデータセンター環境向けに設計されている。 しかしながら、これらの仮定は、特にオンライン方法でストリーミングデータ上でニューラルネットワークをトレーニングする場合、エッジに必ずしも適用されない。 エッジ上のコンピューティングは、システムと統計の不均一性の両方に苦しむ。 システムの不均一性は、各デバイス固有の計算資源と帯域幅の違いに起因するが、統計的不均一性は、エッジ上の不均衡なデータと歪んだデータから生じる。 デバイス間で異なるストリーミングレートが、ストリーミングデータを扱う際の別の不均一性源となる可能性がある。 ストリーミングレートがバッチサイズよりも低い場合、単一の確率勾配降下(SGD)を実行する前に十分なサンプルがストリーミングされるまで待つ必要がある。 したがって、低ボリュームストリームは、同期トレーニングで高ボリュームストリームを持つデバイスを遅くするストラグラーのように振る舞う。 一方、ストリーミングレートが高すぎると、デバイスがラインレートでトレーニングできない場合、データはバッファ内に素早く蓄積される。 本稿では,ScaDLESを導入し,オンライン方式でストリーミングデータを効率的にトレーニングすると同時に,帯域幅の制限や非IIDデータによるトレーニングの課題にも対処する。 ScaDLESは従来の分散SGDに比べて最大3.29倍の速度で収束することを示す。

Distributed deep learning (DDL) training systems are designed for cloud and data-center environments that assumes homogeneous compute resources, high network bandwidth, sufficient memory and storage, as well as independent and identically distributed (IID) data across all nodes. However, these assumptions don't necessarily apply on the edge, especially when training neural networks on streaming data in an online manner. Computing on the edge suffers from both systems and statistical heterogeneity. Systems heterogeneity is attributed to differences in compute resources and bandwidth specific to each device, while statistical heterogeneity comes from unbalanced and skewed data on the edge. Different streaming-rates among devices can be another source of heterogeneity when dealing with streaming data. If the streaming rate is lower than training batch-size, device needs to wait until enough samples have streamed in before performing a single iteration of stochastic gradient descent (SGD). Thus, low-volume streams act like stragglers slowing down devices with high-volume streams in synchronous training. On the other hand, data can accumulate quickly in the buffer if the streaming rate is too high and the devices can't train at line-rate. In this paper, we introduce ScaDLES to efficiently train on streaming data at the edge in an online fashion, while also addressing the challenges of limited bandwidth and training with non-IID data. We empirically show that ScaDLES converges up to 3.29 times faster compared to conventional distributed SGD.
翻訳日:2024-01-31 00:54:08 公開日:2024-01-29
# 品質制約最適化問題に対する完全確率的信頼関係系列計画法

Fully Stochastic Trust-Region Sequential Quadratic Programming for Equality-Constrained Optimization Problems ( http://arxiv.org/abs/2211.15943v2 )

ライセンス: Link先を確認
Yuchen Fang, Sen Na, Michael W. Mahoney, Mladen Kolar(参考訳) 確率的目的と決定論的等式制約による非線形最適化問題を解くために,信頼領域確率的二次計画アルゴリズム(tr-stosqp)を提案する。 各ステップに1つのサンプルを生成して客観的な勾配を推定する、完全に確率的な設定を考える。 アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して、SQPサブプロブレムにおいて不確定なヘッセン行列(すなわち修正なしヘッセン行列)を利用することができる。 制約付き最適化のための信頼領域法として、線形化等式制約と信頼領域制約は、実現不可能なSQPサブプロブレムをもたらす可能性がある。 そこで本研究では,通常のステップと具体的なステップからなる試行ステップを計算するための適応緩和手法を提案する。 スケール不変性を確保しつつ,これら2つのステップの長さを制御するために,再スケール実現可能性と再スケールフルkkt残差の最適残差の比率に基づいて,信頼領域半径を2つのセグメントに適応分解する。 通常のステップはクローズドな形式を持ち,信頼領域のサブプロブレムを解くことで,コーシー還元を確実にする解が十分であるような接点ステップが得られる。 我々は, TR-StoSQP の収束保証を大域的に確立し, CUTEst テストセットにおける問題のサブセットと LIBSVM コレクションのデータを用いたロジスティック回帰問題の両方に対する経験的性能を示す。

We propose a trust-region stochastic sequential quadratic programming algorithm (TR-StoSQP) to solve nonlinear optimization problems with stochastic objectives and deterministic equality constraints. We consider a fully stochastic setting, where at each step a single sample is generated to estimate the objective gradient. The algorithm adaptively selects the trust-region radius and, compared to the existing line-search StoSQP schemes, allows us to utilize indefinite Hessian matrices (i.e., Hessians without modification) in SQP subproblems. As a trust-region method for constrained optimization, our algorithm must address an infeasibility issue -- the linearized equality constraints and trust-region constraints may lead to infeasible SQP subproblems. In this regard, we propose an adaptive relaxation technique to compute the trial step, consisting of a normal step and a tangential step. To control the lengths of these two steps while ensuring a scale-invariant property, we adaptively decompose the trust-region radius into two segments, based on the proportions of the rescaled feasibility and optimality residuals to the rescaled full KKT residual. The normal step has a closed form, while the tangential step is obtained by solving a trust-region subproblem, to which a solution ensuring the Cauchy reduction is sufficient for our study. We establish a global almost sure convergence guarantee for TR-StoSQP, and illustrate its empirical performance on both a subset of problems in the CUTEst test set and constrained logistic regression problems using data from the LIBSVM collection.
翻訳日:2024-01-31 00:52:35 公開日:2024-01-29
# 対向機械学習における非局所周波のガンマ収束

Gamma-convergence of a nonlocal perimeter arising in adversarial machine learning ( http://arxiv.org/abs/2211.15223v4 )

ライセンス: Link先を確認
Leon Bungert, Kerrek Stinson(参考訳) 本稿では,ミンコフスキー型非局所周囲を局所異方性周囲に収束させるガンマコンバージェンスを証明する。 非局所モデルは、二分分類における逆訓練の正規化効果を記述する。 エネルギーは本質的に2つの分布間の相互作用に依存し、関連するクラスの確率をモデル化する。 我々は、分布の典型的な厳密な規則性仮定を克服し、それらは$bv$ 密度を持つと仮定するだけである。 コンパクト性から生じる自然トポロジーにおいて, 2つの密度の異方性関数によって決定される重み付き周囲にガンマ収束が証明される。 局所的であるにもかかわらず、この鋭いインターフェイス制限は、対向摂動に関する分類安定性を反映している。 さらに, 関連する全変動のガンマコンバージェンスを推定し, 逆訓練の漸近性について検討し, 非局所周囲におけるグラフ離散化のガンマコンバージェンスを証明する。

In this paper we prove Gamma-convergence of a nonlocal perimeter of Minkowski type to a local anisotropic perimeter. The nonlocal model describes the regularizing effect of adversarial training in binary classifications. The energy essentially depends on the interaction between two distributions modelling likelihoods for the associated classes. We overcome typical strict regularity assumptions for the distributions by only assuming that they have bounded $BV$ densities. In the natural topology coming from compactness, we prove Gamma-convergence to a weighted perimeter with weight determined by an anisotropic function of the two densities. Despite being local, this sharp interface limit reflects classification stability with respect to adversarial perturbations. We further apply our results to deduce Gamma-convergence of the associated total variations, to study the asymptotics of adversarial training, and to prove Gamma-convergence of graph discretizations for the nonlocal perimeter.
翻訳日:2024-01-31 00:52:05 公開日:2024-01-29
# Seer:潜時拡散モデルを用いた言語指示ビデオ予測

Seer: Language Instructed Video Prediction with Latent Diffusion Models ( http://arxiv.org/abs/2303.14897v3 )

ライセンス: Link先を確認
Xianfan Gu, Chuan Wen, Weirui Ye, Jiaming Song, Yang Gao(参考訳) 将来の軌道を想像することは、ロボットが音を立てて目標を達成するための鍵だ。 したがって,テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。 この課題に対処し,ロボットに未来を予知する能力を与えるため,時間軸に沿ったテキスト・トゥ・イメージ(T2I)安定拡散モデルを膨らませることで,サンプルと計算効率のよいモデルである「textbf{Seer}」を提案する。 計算効率の空間時間的注意を取り入れることで,U-Netと言語条件モデルを強化する。 さらに,文のグローバルインストラクションを時間的に調整したサブインストラクションに分解する新しいフレームシーケンシャルテキスト分解モジュールを導入し,各生成フレームへの正確な統合を実現する。 我々のフレームワークは、フレーム全体で事前訓練されたT2Iモデルに埋め込まれた広範な事前知識を効果的に活用することができる。 適応設計のアーキテクチャにより、Seerは少数のレイヤーを少量のデータで微調整することで、高忠実でコヒーレントで命令に整合したビデオフレームを生成することができる。 v2(ssv2)、bridgedata(bridgedata)、epickitchens-100(epickitchens-100)データセットによる実験の結果は、cogvideoと比較して約480gpu時間、cogvideoでは12,480gpu時間、現在のssv2のsomaモデルと比較して31%のfvd改善、83.7%の平均評価よりもビデオ予測性能が優れていることを示している。

Imagining the future trajectory is the key for robots to make sound planning and successfully reach their goals. Therefore, text-conditioned video prediction (TVP) is an essential task to facilitate general robot policy learning. To tackle this task and empower robots with the ability to foresee the future, we propose a sample and computation-efficient model, named \textbf{Seer}, by inflating the pretrained text-to-image (T2I) stable diffusion models along the temporal axis. We enhance the U-Net and language conditioning model by incorporating computation-efficient spatial-temporal attention. Furthermore, we introduce a novel Frame Sequential Text Decomposer module that dissects a sentence's global instruction into temporally aligned sub-instructions, ensuring precise integration into each frame of generation. Our framework allows us to effectively leverage the extensive prior knowledge embedded in pretrained T2I models across the frames. With the adaptable-designed architecture, Seer makes it possible to generate high-fidelity, coherent, and instruction-aligned video frames by fine-tuning a few layers on a small amount of data. The experimental results on Something Something V2 (SSv2), Bridgedata and EpicKitchens-100 datasets demonstrate our superior video prediction performance with around 480-GPU hours versus CogVideo with over 12,480-GPU hours: achieving the 31% FVD improvement compared to the current SOTA model on SSv2 and 83.7% average preference in the human evaluation.
翻訳日:2024-01-30 23:07:57 公開日:2024-01-29
# 大腸癌サブタイプのゲノム変異と細胞形態との相互作用を探る:深層学習アプローチ

Exploring the Interplay Between Colorectal Cancer Subtypes Genomic Variants and Cellular Morphology: A Deep-Learning Approach ( http://arxiv.org/abs/2303.14703v2 )

ライセンス: Link先を確認
Hadar Hezi, Daniel Shats, Daniel Gurevich, Yosef E. Maruvka, Moti Freiman(参考訳) 大腸癌(CRC)の分子サブタイプは治療決定に大きな影響を及ぼす。 近年,H&E染色組織像を用いたCRCサブタイプの自動同定のための畳み込みニューラルネットワーク (CNN) が導入されたが,CRCサブタイプのゲノム変異と,その画像表現型によって発現する細胞形態との相関は明らかになっていない。 本研究の目的は、CNNモデルにゲノム変異を組み込んで、H&E画像からCRCサブタイプ分類を行うことである。 CRCを診断した360例 (トレーニング260例, テスト100例) のスライド画像を含む, 公開されているTCGA-CRC-DXデータセットを利用した。 このデータセットはまた、CRCサブタイプ分類とゲノム変異に関する情報も提供する。 CRCサブタイプ分類のためのCNNモデルを訓練し、CRCサブタイプ内のゲノム変異とそれに対応する細胞形態パターンとの潜在的な相関について検討した。 roc曲線 (auroc) 下の領域と平均精度 (ap) を性能指標として, 階層化された5次元クロスバリデーション実験系において, crcサブタイプ分類精度を評価し, crcサブタイプのゲノム変異と細胞形態パターンの相互作用を評価した。 CNNモデルを組み合わせることで、CIMPとSNPのバリエーションがさらに分類精度を改善した(AUROC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, p$=$0.01, AP: 0.68$\pm$0.02 vs. 0.64$\pm$0.05)。

Molecular subtypes of colorectal cancer (CRC) significantly influence treatment decisions. While convolutional neural networks (CNNs) have recently been introduced for automated CRC subtype identification using H&E stained histopathological images, the correlation between CRC subtype genomic variants and their corresponding cellular morphology expressed by their imaging phenotypes is yet to be fully explored. The goal of this study was to determine such correlations by incorporating genomic variants in CNN models for CRC subtype classification from H&E images. We utilized the publicly available TCGA-CRC-DX dataset, which comprises whole slide images from 360 CRC-diagnosed patients (260 for training and 100 for testing). This dataset also provides information on CRC subtype classifications and genomic variations. We trained CNN models for CRC subtype classification that account for potential correlation between genomic variations within CRC subtypes and their corresponding cellular morphology patterns. We assessed the interplay between CRC subtypes' genomic variations and cellular morphology patterns by evaluating the CRC subtype classification accuracy of the different models in a stratified 5-fold cross-validation experimental setup using the area under the ROC curve (AUROC) and average precision (AP) as the performance metrics. Combining the CNN models account for variations in CIMP and SNP further improved classification accuracy (AUROC: 0.847$\pm$0.01 vs. 0.787$\pm$0.03, p$=$0.01, AP: 0.68$\pm$0.02 vs. 0.64$\pm$0.05).
翻訳日:2024-01-30 23:07:23 公開日:2024-01-29
# 1次元エミッタ鎖における分散レスサブラジアント光子貯蔵

Dispersionless subradiant photon storage in one-dimensional emitter chains ( http://arxiv.org/abs/2303.13564v4 )

ライセンス: Link先を確認
Marcel Cech, Igor Lesanovsky, Beatriz Olmos(参考訳) 原子エミッタは集合的に放射場に結合する。 1つのエミッタの励起は短命であるが、それらの集まりは1つのエミッタの寿命よりも数桁長い光子を含むことができる。 2レベルエミッタのサブ波長1次元格子における単一光子の最適吸収、長寿命・無分散保存、放出の正確な条件を提供する。 特に2つのストレージ方式について詳述する。 第一は、単一光子スペクトルにおける近似平坦な断面の露光に基づいており、単一の光子は、効果的にゼロな群速度を持つ波束として保存できる。 第2のスキームでは、エミッター間で誘導される相互作用の角依存性を仮想光子の交換によって利用し、環上では光子の効果的なトラップ電位が生じる。 どちらの場合も、現在の実験で利用できるパラメータの中で、単一のエミッタ寿命の数百倍の時間で高忠実な光子ストレージが得られる。

Atomic emitter ensembles couple collectively to the radiation field. Although an excitation on a single emitter may be short-lived, a collection of them can contain a photon several orders of magnitude longer than the single emitter lifetime. We provide the exact conditions for optimal absorption, long-lived and dispersionless storage, and release, of a single photon in a sub-wavelength one-dimensional lattice of two-level emitters. In particular, we detail two storage schemes. The first is based on the uncovering of approximate flat sections in the single-photon spectrum, such that a single photon can be stored as a wave packet with effective zero group velocity. For the second scheme we exploit the angular dependence of the interactions induced between the emitters and mediated via exchange of virtual photons, which on a ring gives rise to an effective trapping potential for the photon. In both cases, we are able to obtain, within current experimentally accessible parameters, high-fidelity photon storage for times hundreds of times longer than the single emitter lifetime.
翻訳日:2024-01-30 23:06:50 公開日:2024-01-29
# ファジィ・ファジィ・システムによる細粒度物体検出支援に向けて

Towards Commonsense Knowledge based Fuzzy Systems for Supporting Size-Related Fine-Grained Object Detection ( http://arxiv.org/abs/2303.09026v7 )

ライセンス: Link先を確認
Pu Zhang, Tianhua Chen, Bin Liu(参考訳) ディープラーニングはオブジェクト検出において支配的なアプローチとなっている。 正確なきめ細かい検出を実現するには、十分なモデルと膨大な量のデータアノテーションを使う必要がある。 本稿では,コモンセンス・ナレッジ・推論・モジュール (CKIM) を提案する。このモジュールは,コモンセンス・ナレッジを利用して,軽量のディープニューラルネットワークベース粗粒物体検出器の精度向上を支援する。 具体的には、同一画像が類似するカテゴリのオブジェクトを含むが、サイズが異なるシナリオに注目し、dl検出器が生成する粗粒度ラベルをサイズ関連細粒度ラベルにマッピングする、サイズ関連共通センス知識推論モジュール(ckim)を確立する。 ルールベースシステムは知識表現と推論の一般的な方法の1つであることを考慮し,ルールベースCKIMの2つのタイプについて検討した。 実験により,本手法はベースライン法と比較して,アノテートデータ量が少なく,モデルサイズも小さい精度で精度良く検出できることがわかった。 私たちのコードは、https://github.com/ZJLAB-AMMI/CKIM.comで利用可能です。

Deep learning has become the dominating approach for object detection. To achieve accurate fine-grained detection, one needs to employ a large enough model and a vast amount of data annotations. In this paper, we propose a commonsense knowledge inference module (CKIM) which leverages commonsense knowledge to assist a lightweight deep neural network base coarse-grained object detector to achieve accurate fine-grained detection. Specifically, we focus on a scenario where a single image contains objects of similar categories but varying sizes, and we establish a size-related commonsense knowledge inference module (CKIM) that maps the coarse-grained labels produced by the DL detector to size-related fine-grained labels. Considering that rule-based systems are one of the popular methods of knowledge representation and reasoning, our experiments explored two types of rule-based CKIMs, implemented using crisp-rule and fuzzy-rule approaches, respectively. Experimental results demonstrate that compared with baseline methods, our approach achieves accurate fine-grained detection with a reduced amount of annotated data and smaller model size. Our code is available at: https://github.com/ZJLAB-AMMI/CKIM.
翻訳日:2024-01-30 23:06:04 公開日:2024-01-29
# Magnushammer: トランスフォーマーによる選択の最適化

Magnushammer: A Transformer-based Approach to Premise Selection ( http://arxiv.org/abs/2303.04488v2 )

ライセンス: Link先を確認
Maciej Miku{\l}a, Szymon Antoniak, Szymon Tworkowski, Albert Qiaochu Jiang, Jin Peng Zhou, Christian Szegedy, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s, Yuhuai Wu(参考訳) 事前選択は自動定理証明の基本的な問題である。 以前は複雑なシンボリックな手法を使用しており、ドメイン知識に依存しており、この課題を解決するにはかなりのエンジニアリング努力が必要である。 本研究では、ニューラルトランスフォーマーに基づくアプローチであるMagnushammerが、従来のシンボルシステムよりも大きなマージンで優れていることを示す。 PISAベンチマークでテストされたMagnushammerは、最も成熟し人気のある記号ベースの解法であるSledgehammerの証明レート38.3\%に対して59.5\%の証明レートを達成した。 さらに,magnushammerを言語モデルに基づく神経形式証明器と組み合わせることで,従来の証明率を57.0\%$から71.0\%$に大幅に改善する。

Premise selection is a fundamental problem of automated theorem proving. Previous works often use intricate symbolic methods, rely on domain knowledge, and require significant engineering effort to solve this task. In this work, we show that Magnushammer, a neural transformer-based approach, can outperform traditional symbolic systems by a large margin. Tested on the PISA benchmark, Magnushammer achieves $59.5\%$ proof rate compared to a $38.3\%$ proof rate of Sledgehammer, the most mature and popular symbolic-based solver. Furthermore, by combining Magnushammer with a neural formal prover based on a language model, we significantly improve the previous state-of-the-art proof rate from $57.0\%$ to $71.0\%$.
翻訳日:2024-01-30 23:05:41 公開日:2024-01-29
# モデル非依存メトリクスを用いた機械学習予測のための説明可能性の評価

Evaluating explainability for machine learning predictions using model-agnostic metrics ( http://arxiv.org/abs/2302.12094v2 )

ライセンス: Link先を確認
Cristian Munoz, Kleyton da Costa, Bernardo Modenesi, Adriano Koshiyama(参考訳) 人工知能(AI)技術の急速な進歩は、ガバナンスと規制という面で、多くの新しい課題をもたらした。 aiシステムは様々な産業やセクターに統合され、意思決定者から、これらのシステムの能力や限界を包括的かつ微妙な理解を持つよう要求されている。 この需要の1つの重要な側面は、機械学習モデルの結果を説明する能力である。これは、AIシステムの透明性と信頼を促進するのに不可欠であり、機械学習モデルが倫理的に訓練されるのを助ける基本である。 本稿では,その特徴によってAIモデル予測が容易に説明できる程度を定量化する新しい指標を提案する。 我々のメトリクスは、説明可能性の異なる側面をスカラーにまとめ、モデル予測をより包括的に理解し、意思決定者とステークホルダー間のコミュニケーションを促進することで、AIシステムの全体的な透明性と説明責任を高めます。

Rapid advancements in artificial intelligence (AI) technology have brought about a plethora of new challenges in terms of governance and regulation. AI systems are being integrated into various industries and sectors, creating a demand from decision-makers to possess a comprehensive and nuanced understanding of the capabilities and limitations of these systems. One critical aspect of this demand is the ability to explain the results of machine learning models, which is crucial to promoting transparency and trust in AI systems, as well as fundamental in helping machine learning models to be trained ethically. In this paper, we present novel metrics to quantify the degree of which AI model predictions can be easily explainable by its features. Our metrics summarize different aspects of explainability into scalars, providing a more comprehensive understanding of model predictions and facilitating communication between decision-makers and stakeholders, thereby increasing the overall transparency and accountability of AI systems.
翻訳日:2024-01-30 23:05:23 公開日:2024-01-29
# 身近な隣人のように:実践的なコンテンツモデレーションとテキスト分類

Like a Good Nearest Neighbor: Practical Content Moderation and Text Classification ( http://arxiv.org/abs/2302.08957v3 )

ライセンス: Link先を確認
Luke Bates and Iryna Gurevych(参考訳) 数少ないテキスト分類システムは印象的な機能を持つが、プロンプトや10億パラメータの言語モデルに依存するため、デプロイや信頼性の高い使用は不可能である。 SetFit (Tunstall et al., 2022)は、Sentence Transformerを対照的な学習パラダイムの下で微調整し、より弱いシステムに類似した結果をもたらす、最近の実用的なアプローチである。 安価なテキスト分類は、すべての分類タスクにおけるドメインドリフトの問題、特にソーシャルメディアプラットフォームを悩ませる有害コンテンツの検出において重要である。 本稿では,学習可能なパラメータを含まないが,学習データ中のラベルやテキストなどの近隣の情報を入力テキストに変更し,新しいデータをモデルが最適化されたインスタンスに類似させる,SetFitの修正であるLike a Good Nearest Neighbor(LaGoNN)を提案する。 LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。 ラゴンの価値を示すために,4つのラベル分布におけるコンテンツモデレーションの文脈におけるテキスト分類システムと,一般言語および多言語分類設定を徹底的に検討した。

Few-shot text classification systems have impressive capabilities but are infeasible to deploy and use reliably due to their dependence on prompting and billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent, practical approach that fine-tunes a Sentence Transformer under a contrastive learning paradigm and achieves similar results to more unwieldy systems. Inexpensive text classification is important for addressing the problem of domain drift in all classification tasks, and especially in detecting harmful content, which plagues social media platforms. Here, we propose Like a Good Nearest Neighbor (LaGoNN), a modification to SetFit that introduces no learnable parameters but alters input text with information from its nearest neighbor, for example, the label and text, in the training data, making novel data appear similar to an instance on which the model was optimized. LaGoNN is effective at flagging undesirable content and text classification, and improves the performance of SetFit. To demonstrate the value of LaGoNN, we conduct a thorough study of text classification systems in the context of content moderation under four label distributions, and in general and multilingual classification settings.
翻訳日:2024-01-30 23:04:40 公開日:2024-01-29
# フェデレーションGPTの構築に向けて:フェデレーションインストラクションチューニング

Towards Building the Federated GPT: Federated Instruction Tuning ( http://arxiv.org/abs/2305.05644v2 )

ライセンス: Link先を確認
Jianyi Zhang, Saeed Vahidian, Martin Kuo, Chunyuan Li, Ruiyi Zhang, Tong Yu, Yufan Zhou, Guoyin Wang, Yiran Chen(参考訳) 言語モデル(LLM)は、新しいタスクを一般化する印象的な能力を示しているが、トレーニングフェーズは多種多様な高品質な命令データ(ChatGPTやGPT-4など)に大きく依存している。 残念なことに、人書きデータに関して特に高品質なデータを取得することは、コストとアクセシビリティの両面で大きな課題を引き起こす可能性がある。 さらに、プライバシーに関する懸念は、そのようなデータへのアクセスをさらに制限し、取得プロセスが複雑で面倒な作業になる可能性がある。 これにより、調整されたモデルの一般化を妨げ、特定の文脈においてそれらの効果を制限することができる。 この問題に対処するため,本研究では,llmの命令チューニングのための学習フレームワークとしてfederated learning(fl)を活用するfederated instruction tuning(fedit)と呼ばれる新しい手法を提案する。 これはLLMのためのFLベースの命令チューニングの最初の探索である。 テキストデータはエンドユーザーが主に生成するので、これは特に重要です。 したがって、FLアプローチの設計と適応が不可欠であり、これらのユーザの多様な命令をローカルデバイスに格納し、プライバシを保護し、データのセキュリティを確保する。 本稿では,広く使用されているGPT-4自動評価により,提案フレームワークであるFedITを用いて,クライアント側で多種多様な命令セットを利用することにより,ローカル命令のみを限定した集中学習よりもLCMの性能を向上させることを示す。 さらに本論文では,ShepherdというGithubリポジトリを開発した。 このレポジトリは、多種多様なカテゴリにわたる異種命令を用いて、LLMのフェデレートされた微調整を探索するための基礎的なフレームワークを提供する。

While "instruction-tuned" generative large language models (LLMs) have demonstrated an impressive ability to generalize to new tasks, the training phases heavily rely on large amounts of diverse and high-quality instruction data (such as ChatGPT and GPT-4). Unfortunately, acquiring high-quality data, especially when it comes to human-written data, can pose significant challenges both in terms of cost and accessibility. Moreover, concerns related to privacy can further limit access to such data, making the process of obtaining it a complex and nuanced undertaking. Consequently, this hinders the generality of the tuned models and may restrict their effectiveness in certain contexts. To tackle this issue, our study introduces a new approach called Federated Instruction Tuning (FedIT), which leverages federated learning (FL) as the learning framework for the instruction tuning of LLMs. This marks the first exploration of FL-based instruction tuning for LLMs. This is especially important since text data is predominantly generated by end users. Therefore, it is imperative to design and adapt FL approaches to effectively leverage these users' diverse instructions stored on local devices, while preserving privacy and ensuring data security. In the current paper, by conducting widely used GPT-4 auto-evaluation, we demonstrate that by exploiting the heterogeneous and diverse sets of instructions on the client's end with the proposed framework FedIT, we improved the performance of LLMs compared to centralized training with only limited local instructions. Further, in this paper, we developed a Github repository named Shepherd. This repository offers a foundational framework for exploring federated fine-tuning of LLMs using heterogeneous instructions across diverse categories.
翻訳日:2024-01-30 22:57:58 公開日:2024-01-29
# 物体認識モデルYOLOv7におけるリアルタイム交通信号変換の効果

Effects of Real-Life Traffic Sign Alteration on YOLOv7- an Object Recognition Model ( http://arxiv.org/abs/2305.05499v2 )

ライセンス: Link先を確認
Farhin Farhad Riya, Shahinul Hoque, Md Saif Hassan Onim, Edward Michaud, Edmon Begoli and Jinyuan Stella Sun(参考訳) 画像処理の普及により、オブジェクト認識(OR)モデルはさまざまなアプリケーションにまたがって重要な役割を担い、AIのパワーを実証し、重要なサービスを可能にしている。 これらのアプリケーションの中で、自動運転車の開発における重要な重要性を考えると、トラヒックサイン認識は一般的な研究テーマである。 その重要性にもかかわらず、交通標識の変更のような現実世界の課題は、性能やモデルに悪影響を及ぼす可能性がある。 本研究では,形状,色,内容,可視性,角度,背景の変化を導入するために,公開されているデータセットを用いて,交通標識の変化が物体認識の正確性と有効性に与える影響について検討する。 YOLOv7(You Only Look Once)モデルに焦点をあてて、変更した交通標識を含む異常な条件下で交通標識に直面する場合、検出精度と分類精度の顕著な低下を示す。 特に、本研究で調べた変更は良質な例であり、敵対的機械学習サンプルを生成するアルゴリズムを含まない。 本研究は,実生活シナリオにおける物体検出モデルのロバスト性向上の意義と,その精度と信頼性を向上させるために,この領域におけるさらなる調査の必要性を浮き彫りにする。

The widespread adoption of Image Processing has propelled Object Recognition (OR) models into essential roles across various applications, demonstrating the power of AI and enabling crucial services. Among the applications, traffic sign recognition stands out as a popular research topic, given its critical significance in the development of autonomous vehicles. Despite their significance, real-world challenges, such as alterations to traffic signs, can negatively impact the performance of OR models. This study investigates the influence of altered traffic signs on the accuracy and effectiveness of object recognition, employing a publicly available dataset to introduce alterations in shape, color, content, visibility, angles and background. Focusing on the YOLOv7 (You Only Look Once) model, the study demonstrates a notable decline in detection and classification accuracy when confronted with traffic signs in unusual conditions including the altered traffic signs. Notably, the alterations explored in this study are benign examples and do not involve algorithms used for generating adversarial machine learning samples. This study highlights the significance of enhancing the robustness of object detection models in real-life scenarios and the need for further investigation in this area to improve their accuracy and reliability.
翻訳日:2024-01-30 22:57:27 公開日:2024-01-29
# autocolor:多色ホログラムのための学習型光パワー制御

AutoColor: Learned Light Power Control for Multi-Color Holograms ( http://arxiv.org/abs/2305.01611v2 )

ライセンス: Link先を確認
Yicheng Zhan, Koray Kavakl{\i}, Hakan Urey, Qi Sun, Kaan Ak\c{s}it(参考訳) 多色ホログラムは、複数の光源からの同時照明に依存する。 これらの多色ホログラムは、従来の単色ホログラムよりも優れた光源を利用することができ、ホログラムディスプレイのダイナミックレンジを改善することができる。 本稿では,多色ホログラムの照明に必要な最適な光源パワーを推定するための最初の学習手法であるAutoColorを紹介する。 本研究では,合成画像とその奥行き情報を用いて,最初の多色ホログラムデータセットを構築する。 生成,大言語,単眼深度推定モデルを組み合わせたトレンドパイプラインを用いて,これらの合成画像を生成する。 最後に、我々のデータセットを用いて学習モデルをトレーニングし、画像の品質を損なうことなく、多色ホログラムの最適化に必要なステップ数を1000から70に大幅に削減することを示した。

Multi-color holograms rely on simultaneous illumination from multiple light sources. These multi-color holograms could utilize light sources better than conventional single-color holograms and can improve the dynamic range of holographic displays. In this letter, we introduce AutoColor , the first learned method for estimating the optimal light source powers required for illuminating multi-color holograms. For this purpose, we establish the first multi-color hologram dataset using synthetic images and their depth information. We generate these synthetic images using a trending pipeline combining generative, large language, and monocular depth estimation models. Finally, we train our learned model using our dataset and experimentally demonstrate that AutoColor significantly decreases the number of steps required to optimize multi-color holograms from > 1000 to 70 iteration steps without compromising image quality.
翻訳日:2024-01-30 22:55:06 公開日:2024-01-29
# LaMini-LM:大規模インストラクションによる蒸留モデルの多様性

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions ( http://arxiv.org/abs/2304.14402v3 )

ライセンス: Link先を確認
Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji(参考訳) 命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。 しかし、これらのモデルはリソース集約的です。 この問題を軽減するため,命令調整型LLMからより小さなLLMへの知識の蒸留について検討する。 この目的のために,既存の命令と新規命令の両方に基づいて258万命令の大規模なセットを慎重に開発する。 拡張性に加えて、多様性を確保するために、幅広いトピックセットをカバーするための指示も設計しています。 提案手法の多様性を確認し, gpt-3.5-turbo を用いてこれらの命令に対する応答を生成する。 これらの命令を活用することで、さまざまなサイズのエンコーダ・デコーダとデコーダのみのモデルを含む、LaMini-LMと呼ばれるモデル群を微調整する。 我々は15の異なる自然言語処理(NLP)ベンチマークにおける自動測定値と人間の評価値を用いてモデルの性能を評価する。 その結果,提案するLaMini-LMモデルは,より小型ながら,競合するベースラインに匹敵する性能を示した。

Large language models (LLMs) with instruction fine-tuning demonstrate superior generative capabilities. However, these models are resource-intensive. To alleviate this issue, we explore distilling knowledge from instruction-tuned LLMs into much smaller ones. To this end, we carefully develop a large set of 2.58M instructions based on both existing and newly-generated instructions. In addition to being sizable, we design our instructions to cover a broad set of topics to ensure diversity. Extensive analysis of our instruction dataset confirms its diversity, and we generate responses for these instructions using gpt-3.5-turbo. Leveraging these instructions, we fine-tune a diverse herd of models, collectively referred to as LaMini-LM, which includes models from both the encoder-decoder and decoder-only families, with varying sizes. We evaluate the performance of our models using automatic metrics on 15 different natural language processing (NLP) benchmarks, as well as through human assessment. The results demonstrate that our proposed LaMini-LM models are comparable to competitive baselines, while being much smaller in size.
翻訳日:2024-01-30 22:54:52 公開日:2024-01-29
# 核上に発生したRobust Macroscopic Schr\"odinger's cat

Robust Macroscopic Schr\"odinger's Cat on a Nucleus ( http://arxiv.org/abs/2304.13813v3 )

ライセンス: Link先を確認
Pragati Gupta, Arjen Vaartjes, Xi Yu, Andrea Morello, Barry C. Sanders(参考訳) 固体デバイス上での単一高次元核スピン上の最大分離準古典状態の重ね合わせであるスピン猫状態を生成する手法を提案する。 我々は、強い四極性非線形性を利用して、通常のゲートシーケンスよりも核を著しく高速に駆動し、崩壊し、強調される時間スケールよりも2桁早く復活する。 さらに、これらの状態はアンシラと絡み合うことなく設計されるため、エラー伝播に対して堅牢である。 マルチトン制御により, 実験可能な状態下での任意の高スピン回転を実現するとともに, スピンコヒーレント状態を位相変調のみを用いてスピン猫状態に変換し, 高忠実度猫状態の保存と操作の可能性を開放する。

We propose a scheme to generate spin cat states, i.e., superpositions of maximally separated quasiclassical states on a single high-dimensional nuclear spin in a solid-state device. We exploit a strong quadrupolar nonlinearity to drive the nucleus significantly faster than usual gate sequences, achieving collapses and revivals two orders of magnitude faster than the dephasing timescale. Furthermore, these states are engineered without entanglement with an ancilla, hence, are robust against error propagation. With our multitone control, we can realize arbitrary high-spin rotations within an experimentally feasible regime, as well as transform a spin coherent state to a spin cat state using only phase modulation, opening the possibility of storing and manipulating high-fidelity cat states.
翻訳日:2024-01-30 22:54:33 公開日:2024-01-29
# 変更検出に必要な情報:深い3dポイントのクラウド変更検出を改善する

Change detection needs change information: improving deep 3D point cloud change detection ( http://arxiv.org/abs/2304.12639v2 )

ライセンス: Link先を確認
Iris de G\'elis (1 and 2), Thomas Corpetti (3) and S\'ebastien Lef\`evre (2) ((1) Magellium, (2) Institut de Recherche en Informatique et Syst\`emes Al\'eatoires IRISA - UMR 6074 - Universit\'e Bretagne Sud, (3) Littoral - Environnement - T\'el\'ed\'etection - G\'eomatique LETG - UMR 6554 - Universit\'e Rennes 2)(参考訳) 変更検出は、特にマルチテンポラリデータに関して、変更領域を迅速に識別する重要なタスクである。 複雑な幾何学(都市環境など)を持つ風景では、垂直情報は非常に有用な知識源であり、変化を強調し、それらを異なるカテゴリーに分類する。 本研究では,ラスタ化プロセスによる情報損失を回避するために,生3次元3次元点雲(PC)を直接利用した変更セグメンテーションに着目した。 ディープ・ラーニングは近年,シームズ・ネットワークを通じて情報をエンコードすることで,このタスクの有効性を証明しているが,本研究では,ディープ・ネットワークの初期段階における変更情報の利用についても検討する。 そこで我々はまず,手作り機能を備えたSamese KPConv State-of-the-art(SoTA)ネットワーク,特に変化関連機能を提供することを提案し,変化のクラスに対するIoU(Intersection over Union)の平均値を4.70%向上させる。 変更関連機能により大きな改善が得られたことを考慮し、oneconvfusion、triplet kpconv、エンコーダfusion siamkpconvという3次元pc変更セグメンテーションに対応する3つの新しいアーキテクチャを提案する。 これらのネットワークは、初期段階での変更情報を考慮し、SoTA法より優れている。 特に、Encoder Fusion SiamKPConvは、IoUの平均値の5%以上をSoTAアプローチに乗じており、ネットワークが変更検出タスクの変更情報に集中していることの価値を強調している。 コードはhttps://github.com/idegelis/torch-points3d-siamkpconvvariantsで入手できる。

Change detection is an important task that rapidly identifies modified areas, particularly when multi-temporal data are concerned. In landscapes with a complex geometry (e.g., urban environment), vertical information is a very useful source of knowledge that highlights changes and classifies them into different categories. In this study, we focus on change segmentation using raw three-dimensional (3D) point clouds (PCs) directly to avoid any information loss due to the rasterization processes. While deep learning has recently proven its effectiveness for this particular task by encoding the information through Siamese networks, we investigate herein the idea of also using change information in the early steps of deep networks. To do this, we first propose to provide a Siamese KPConv state-of-the-art (SoTA) network with hand-crafted features, especially a change-related one, which improves the mean of the Intersection over Union (IoU) over the classes of change by 4.70%. Considering that a major improvement is obtained due to the change-related feature, we then propose three new architectures to address 3D PC change segmentation: OneConvFusion, Triplet KPConv, and Encoder Fusion SiamKPConv. All these networks consider the change information in the early steps and outperform the SoTA methods. In particular, Encoder Fusion SiamKPConv overtakes the SoTA approaches by more than 5% of the mean of the IoU over the classes of change, emphasizing the value of having the network focus on change information for the change detection task. The code is available at https://github.com/IdeGelis/torch-points3d-SiamKPConvVariants.
翻訳日:2024-01-30 22:54:19 公開日:2024-01-29
# PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ

PiClick: Picking the desired mask in click-based interactive segmentation ( http://arxiv.org/abs/2304.11609v4 )

ライセンス: Link先を確認
Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves(参考訳) クリックベースのインタラクティブセグメンテーションは、人間のクリックを通じてターゲットマスクを生成することを目的としている。 このようなタスクでは、ターゲットのあいまいさは、セグメンテーションの精度と効率を妨げる問題である。 つまり、リッチなコンテキストのシーンでは、1クリックで複数の潜在的なターゲットに対応できるが、従来の対話型セグメンタは1つのマスクしか生成せず、ターゲットの曖昧さに対処できない。 そこで本稿では,提案するインタラクティブセグメンテーションネットワークであるpiclickを提案する。 具体的には、piclickはtransformerベースのアーキテクチャを使用して、相互に対話的なマスククエリによってすべてのターゲットマスクを生成する。 さらに、ターゲット推論モジュールはPiClickで設計されており、すべての候補からユーザーが望むマスクを自動的に提案し、ターゲットの曖昧さと外的努力を軽減している。 9つの対話型セグメンテーションデータセットに関する広範な実験は、セグメンテーション結果を考慮して、piclickが以前の最先端技術に対して好成績を示している。 さらに,PiClickは,所望のマスクのアノテートや選択において,人間の努力を効果的に削減することを示す。 PiClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールと一緒にリリースします。

Click-based interactive segmentation aims to generate target masks via human clicking, which facilitates efficient pixel-level annotation and image editing. In such a task, target ambiguity remains a problem hindering the accuracy and efficiency of segmentation. That is, in scenes with rich context, one click may correspond to multiple potential targets, while most previous interactive segmentors only generate a single mask and fail to deal with target ambiguity. In this paper, we propose a novel interactive segmentation network named PiClick, to yield all potentially reasonable masks and suggest the most plausible one for the user. Specifically, PiClick utilizes a Transformer-based architecture to generate all potential target masks by mutually interactive mask queries. Moreover, a Target Reasoning module is designed in PiClick to automatically suggest the user-desired mask from all candidates, relieving target ambiguity and extra-human efforts. Extensive experiments on 9 interactive segmentation datasets demonstrate PiClick performs favorably against previous state-of-the-arts considering the segmentation results. Moreover, we show that PiClick effectively reduces human efforts in annotating and picking the desired masks. To ease the usage and inspire future research, we release the source code of PiClick together with a plug-and-play annotation tool at https://github.com/cilinyan/PiClick.
翻訳日:2024-01-30 22:53:46 公開日:2024-01-29
# ローカライゼーションを用いたグラフニューラルネットワークの表現性向上

Improving Expressivity of Graph Neural Networks using Localization ( http://arxiv.org/abs/2305.19659v3 )

ライセンス: Link先を確認
Anant Kumar, Shrutimoy Das, Shubhajit Roy, Binita Maity, Anirban Dasgupta(参考訳) 本稿では,Weisfeiler-Leman (WL)アルゴリズムの局所化バージョンを提案する。 サブグラフカウントの特定の問題に焦点を当て、任意の$k$に対して$k-$WLのローカライズされたバージョンを与える。 局所$k-$WLのパワーを分析し、$k-$WLよりも表現力が高く、少なくとも$(k+1)-$WLと同じくらい表現力があることを示す。 2つのグラフが局所$k-$WL同値であれば、部分グラフと誘導部分グラフとして数えられるパターンのキャラクタリゼーションを与える。 また、$k-$WL: Layer $k-$WLとrecursive $k-$WLの2つのバリエーションを導入します。 これらの方法はグラフ全体に$k-$WLを適用するよりも時間と空間効率がよい。 また,1-$WL のみを用いて,最大 4 個の部分グラフの正確な数を保証するフラグメンテーション手法を提案する。 同じアイデアは、$k>1$を使って、より大きなパターンにも拡張できる。 また、Local $k-$WL の表現力と他の GNN 階層との比較を行い、時間的複雑さの制限が与えられた場合、我々の手法は Papp や Wattenhofer[2022a] の手法よりも表現力が高いことを示す。

In this paper, we propose localized versions of Weisfeiler-Leman (WL) algorithms in an effort to both increase the expressivity, as well as decrease the computational overhead. We focus on the specific problem of subgraph counting and give localized versions of $k-$WL for any $k$. We analyze the power of Local $k-$WL and prove that it is more expressive than $k-$WL and at most as expressive as $(k+1)-$WL. We give a characterization of patterns whose count as a subgraph and induced subgraph are invariant if two graphs are Local $k-$WL equivalent. We also introduce two variants of $k-$WL: Layer $k-$WL and recursive $k-$WL. These methods are more time and space efficient than applying $k-$WL on the whole graph. We also propose a fragmentation technique that guarantees the exact count of all induced subgraphs of size at most 4 using just $1-$WL. The same idea can be extended further for larger patterns using $k>1$. We also compare the expressive power of Local $k-$WL with other GNN hierarchies and show that given a bound on the time-complexity, our methods are more expressive than the ones mentioned in Papp and Wattenhofer[2022a].
翻訳日:2024-01-30 22:45:41 公開日:2024-01-29
# ロングテール認識問題における重みバランスの検討

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v6 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato(参考訳) データセット内のクラス毎のサンプルサイズ分布が故意に調整されない限り、一般的に指数関数的であるため、ロングテールデータにおけるクラス毎のサンプルサイズが大きく歪んだ認識問題の重要性が高まっている。 これらの問題に対処する様々な方法が考案されている。 近年,有名な古典的正規化手法と二段階訓練を組み合わせた重みバランスが提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法と比較して高い性能で知られている。 しかし,この手法が長期データに有効である理由については理解されていない。 本研究では,各訓練段階における神経崩壊と錐体効果に着目して,体重バランスの分析を行い,体重減少とクロスエントロピー損失による特徴抽出器のフィッシャーの判別比の増加と,体重減少とクラスバランス損失による暗黙のロジット調整に分解できることを見出した。 本分析により,トレーニング段階数を1に減らし,精度を向上し,トレーニング手法をさらに単純化することができる。

Recognition problems in long-tailed data, in which the sample size per class is heavily skewed, have gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various methods have been devised to address these problems. Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance compared with existing methods devised in various ways. However, there is a lack of understanding as to why this method is effective for long-tailed data. In this study, we analyze weight balancing by focusing on neural collapse and the cone effect at each training stage and found that it can be decomposed into an increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis enables the training method to be further simplified by reducing the number of training stages to one while increasing accuracy.
翻訳日:2024-01-30 22:44:47 公開日:2024-01-29
# デュアルマルチモーダルエンコーダを用いた合成画像検索のための候補セット再ランク付け

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder ( http://arxiv.org/abs/2305.16304v3 )

ライセンス: Link先を確認
Zheyuan Liu, Weixuan Sun, Damien Teney, Stephen Gould(参考訳) 合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。 既存の手法では、コーパス全体に画像埋め込みをプリコンプリートし、これらをテスト時にクエリテキストによって修正された参照画像埋め込みと比較する。 このようなパイプラインはテスト時に非常に効率的であり、高速なベクトル距離を使って候補を評価することができるが、短いテキスト記述のみでガイドされた参照画像の埋め込みを変更することは、特に候補とは無関係に難しい。 別のアプローチとして、クエリと可能なすべての候補、すなわち参照-テキスト-候補トリプレット間のインタラクションを許可し、セット全体からベストを選択する方法がある。 このアプローチはより差別的であるが、大規模データセットでは、候補埋め込みの事前計算がもはや不可能であるため、計算コストは禁じられている。 二段階モデルを用いて,両スキームのメリットを組み合わせることを提案する。 第1段階では, 従来のベクトル分散メトリックを採用し, 候補間の高速刈り取りを行う。 一方,第2段階では,参照テキスト候補の入力三重項に効果的に対応し,候補を再ランク付けするデュアルエンコーダアーキテクチャを採用している。 どちらの段階も視覚と言語による事前学習ネットワークを利用しており、様々な下流タスクに有益であることが証明されている。 我々の手法はタスクの標準ベンチマークにおける最先端のアプローチよりも一貫して優れている。 実装はhttps://github.com/Cuberick-Orion/Candidate-Re rank-CIRで公開しています。

Composed image retrieval aims to find an image that best matches a given multi-modal user query consisting of a reference image and text pair. Existing methods commonly pre-compute image embeddings over the entire corpus and compare these to a reference image embedding modified by the query text at test time. Such a pipeline is very efficient at test time since fast vector distances can be used to evaluate candidates, but modifying the reference image embedding guided only by a short textual description can be difficult, especially independent of potential candidates. An alternative approach is to allow interactions between the query and every possible candidate, i.e., reference-text-candidate triplets, and pick the best from the entire set. Though this approach is more discriminative, for large-scale datasets the computational cost is prohibitive since pre-computation of candidate embeddings is no longer possible. We propose to combine the merits of both schemes using a two-stage model. Our first stage adopts the conventional vector distancing metric and performs a fast pruning among candidates. Meanwhile, our second stage employs a dual-encoder architecture, which effectively attends to the input triplet of reference-text-candidate and re-ranks the candidates. Both stages utilize a vision-and-language pre-trained network, which has proven beneficial for various downstream tasks. Our method consistently outperforms state-of-the-art approaches on standard benchmarks for the task. Our implementation is available at https://github.com/Cuberick-Orion/Candidate-Reranking-CIR.
翻訳日:2024-01-30 22:44:28 公開日:2024-01-29
# mplm-sim:多言語事前学習言語モデルにおける言語間類似性と伝達の改善

mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2305.13684v2 )

ライセンス: Link先を確認
Peiqin Lin, Chengzhi Hu, Zheyu Zhang, Andr\'e F. T. Martins, Hinrich Sch\"utze(参考訳) 近年の多言語事前訓練言語モデル (mPLM) は、事前訓練中に明示的に提供されない強い言語固有の信号を符号化することが示されている。 mplmを使用して言語の類似度を測定し、その後、類似度結果を使用して言語間転送を促進するためのソース言語を選択することは可能かどうか、まだ疑問の余地はない。 そこで本研究では,マルチ並列コーパスを用いたmPLMから言語間の類似性を誘導する言語類似度尺度mPLMSimを提案する。 本研究により,mplm-simは,語彙統計学,系譜学的言語族,地理的散布など,言語類似度尺度と適度に高い相関を示した。 また、相関が低い言語についてもケーススタディを行い、mPLM-Simがより正確な類似性結果をもたらすことを観察する。 さらに,mPLM内の異なる層と異なる層に類似性が認められた。 さらに,低レベル構文タスクと高レベル意味タスクの両方について実験を行い,ゼロショット言語間伝達にmplmsimが有効であるかどうかについて検討した。 実験の結果,mPLM-Simは言語指標よりも優れたソース言語を選択することができ,ゼロショット言語間転送性能は1%-2%向上した。

Recent multilingual pretrained language models (mPLMs) have been shown to encode strong language-specific signals, which are not explicitly provided during pretraining. It remains an open question whether it is feasible to employ mPLMs to measure language similarity, and subsequently use the similarity results to select source languages for boosting cross-lingual transfer. To investigate this, we propose mPLMSim, a language similarity measure that induces the similarities across languages from mPLMs using multi-parallel corpora. Our study shows that mPLM-Sim exhibits moderately high correlations with linguistic similarity measures, such as lexicostatistics, genealogical language family, and geographical sprachbund. We also conduct a case study on languages with low correlation and observe that mPLM-Sim yields more accurate similarity results. Additionally, we find that similarity results vary across different mPLMs and different layers within an mPLM. We further investigate whether mPLMSim is effective for zero-shot cross-lingual transfer by conducting experiments on both low-level syntactic tasks and high-level semantic tasks. The experimental results demonstrate that mPLM-Sim is capable of selecting better source languages than linguistic measures, resulting in a 1%-2% improvement in zero-shot cross-lingual transfer performance.
翻訳日:2024-01-30 22:43:30 公開日:2024-01-29
# 神経細胞オートマタは信号に応答できる

Neural Cellular Automata Can Respond to Signals ( http://arxiv.org/abs/2305.12971v2 )

ライセンス: Link先を確認
James Stovold(参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)は、単一の種子細胞から2次元の人工生物を成長させることができる形態形成のモデルである。 本稿では,ncasが信号に応答するように訓練できることを示す。 内部信号(遺伝的符号)と外部信号(環境信号)の2種類の信号が使用される。 信号は1つの時間ステップで1つのピクセルに表示される。 結果は、ncasは内部信号に基づいて複数の異なる形態に成長でき、外部信号に基づいて色を変えることができることを示している。 これらは全体として、人工形態形成のモデルとしてのNAAの開発に寄与し、NAAモデルに動的挙動を埋め込む将来の発展の道を開く。 コードとターゲットイメージはgithubから入手できる。 https://github.com/jstovold/alife2023

Neural Cellular Automata (NCAs) are a model of morphogenesis, capable of growing two-dimensional artificial organisms from a single seed cell. In this paper, we show that NCAs can be trained to respond to signals. Two types of signal are used: internal (genomically-coded) signals, and external (environmental) signals. Signals are presented to a single pixel for a single timestep. Results show NCAs are able to grow into multiple distinct forms based on internal signals, and are able to change colour based on external signals. Overall these contribute to the development of NCAs as a model of artificial morphogenesis, and pave the way for future developments embedding dynamic behaviour into the NCA model. Code and target images are available through GitHub: https://github.com/jstovold/ALIFE2023
翻訳日:2024-01-30 22:42:48 公開日:2024-01-29
# 超流動のpitaevskii模型の解の小規模大域的存在

Small-data global existence of solutions for the Pitaevskii model of superfluidity ( http://arxiv.org/abs/2305.12496v2 )

ライセンス: Link先を確認
Juhi Jang, Pranava Chaitanya Jayanti, Igor Kukavica(参考訳) 1959年にpitaevskiiによって導かれた超流動のマイクロスケールモデルを調査し、ヘリウム4の超流動相と常流動相の相互作用を記述した。 このモデルは非線形シュリンガー方程式 (NLS) とナビエ・ストークス方程式 (NSE) を結び、双方向の非線形緩和機構によって互いに結合する。 NLS の非線形性の性質により、この系への解の全世界的・大域的存在を$\mathbb{T}^2$で証明し、波動関数と速度が強く、密度が弱い。

We investigate a micro-scale model of superfluidity derived by Pitaevskii in 1959 to describe the interacting dynamics between the superfluid and normal fluid phases of Helium-4. The model involves the nonlinear Schr\"odinger equation (NLS) and the Navier-Stokes equations (NSE), coupled to each other via a bidirectional nonlinear relaxation mechanism. Depending on the nature of the nonlinearity in the NLS, we prove global/almost global existence of solutions to this system in $\mathbb{T}^2$ -- strong in wavefunction and velocity, and weak in density.
翻訳日:2024-01-30 22:42:17 公開日:2024-01-29
# GraVAC: コミュニケーション効率の良い分散DLトレーニングのための適応圧縮

GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training ( http://arxiv.org/abs/2305.12201v2 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) 分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 各イテレーションでの周期的同期は、最先端のニューラルネットワークのサイズと複雑さの増加によって、かなりのオーバーヘッドを負う。 多くの勾配圧縮技術は通信コストを削減することを提案するが、圧縮の質、モデルサイズと構造、ハードウェア、ネットワークトポロジ、帯域幅が異なるため、最大スピードアップや最小データ交換につながる理想的な圧縮係数は未解決の問題である。 本研究では,モデル進行度を評価し,圧縮に伴う勾配情報損失を評価することによって,トレーニング全体を通じて圧縮係数を動的に調整するフレームワークGraVACを提案する。 GraVACは、モデルやハイパーパラメータに関する事前の仮定なしに、オンラインのブラックボックス方式で動作し、同じイテレーション/エポック数で密度の高いSGD(すなわち圧縮なし)と同じまたはより良い精度を達成する。 静的圧縮係数を使用する代わりに、GraVACはResNet101、VGG16、LSTMのエンドツーエンドトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。 他の適応スキームと比較して、フレームワークは1.9倍から5.63倍のスピードアップを提供します。

Distributed data-parallel (DDP) training improves overall application throughput as multiple devices train on a subset of data and aggregate updates to produce a globally shared model. The periodic synchronization at each iteration incurs considerable overhead, exacerbated by the increasing size and complexity of state-of-the-art neural networks. Although many gradient compression techniques propose to reduce communication cost, the ideal compression factor that leads to maximum speedup or minimum data exchange remains an open-ended problem since it varies with the quality of compression, model size and structure, hardware, network topology and bandwidth. We propose GraVAC, a framework to dynamically adjust compression factor throughout training by evaluating model progress and assessing gradient information loss associated with compression. GraVAC works in an online, black-box manner without any prior assumptions about a model or its hyperparameters, while achieving the same or better accuracy than dense SGD (i.e., no compression) in the same number of iterations/epochs. As opposed to using a static compression factor, GraVAC reduces end-to-end training time for ResNet101, VGG16 and LSTM by 4.32x, 1.95x and 6.67x respectively. Compared to other adaptive schemes, our framework provides 1.94x to 5.63x overall speedup.
翻訳日:2024-01-30 22:42:02 公開日:2024-01-29
# 外部知識を活用した大規模言語モデルによる言語境界を越えた臨床洞察の拡張

Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries ( http://arxiv.org/abs/2305.10163v3 )

ライセンス: Link先を確認
Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yingying Zhang, Yefeng Zheng, and Jie Yang(参考訳) 目的: ChatGPT や Med-PaLM のような大規模言語モデル (LLM) は、様々な質問応答タスクに優れています。 しかし、これらの英語中心のモデルは、主に各言語における臨床知識が限られており、不均衡なトレーニングコーパスの結果、非英語の臨床設定において困難に直面する。 中国の医学的文脈でLLMを体系的に評価し、その性能を高めるための新しい文脈内学習フレームワークを開発する。 材料と方法:最新の中国国立医学ライセンス試験(CNMLE-2022)がベンチマークとして使用された。 医療知識基盤と質問銀行を構築するため,53冊の医療書,381,149件の医療質問を収集した。 提案するKFE(Knowledge and Few-shot Enhancement In-context Learning)フレームワークは,LLMのコンテキスト内学習能力を活用して,多様な外部臨床知識ソースを統合する。 CNMLE-2022において、KFEをChatGPT(GPT3.5)、GPT4、Baichuan2-7b、Baichuan2-13Bで評価し、7つの異なる観点からLSMを医療的知識に組み込むための異なる経路の有効性について検討した。 結果: ChatGPT の直接適用は CNMLE-2022 のスコア51。 KFEフレームワークと連携して、様々なサイズを持つLLMは一貫性と大幅な改善をもたらした。 ChatGPTのパフォーマンスは70.04に上昇し、GPT-4は82.59で最高点を記録した。 これは資格閾値(60)を超え、平均的人間のスコア68.70を超え、フレームワークの有効性と堅牢性を確認する。 また、小型のBaichuan2-13Bが試験に合格し、低リソース環境における大きな可能性を示した。 本研究は、英語以外の医学的シナリオにおけるLSMの能力を高めるための最適な実践について明らかにした。

Objectives: Large Language Models (LLMs) such as ChatGPT and Med-PaLM have excelled in various medical question-answering tasks. However, these English-centric models encounter challenges in non-English clinical settings, primarily due to limited clinical knowledge in respective languages, a consequence of imbalanced training corpora. We systematically evaluate LLMs in the Chinese medical context and develop a novel in-context learning framework to enhance their performance. Materials and Methods: The latest China National Medical Licensing Examination (CNMLE-2022) served as the benchmark. We collected 53 medical books and 381,149 medical questions to construct the medical knowledge base and question bank. The proposed Knowledge and Few-shot Enhancement In-context Learning (KFE) framework leverages the in-context learning ability of LLMs to integrate diverse external clinical knowledge sources. We evaluated KFE with ChatGPT(GPT3.5), GPT4, Baichuan2-7b, and Baichuan2-13B in CNMLE-2022 and further investigated the effectiveness of different pathways for incorporating LLMs with medical knowledge from seven distinct perspectives. Results: Directly applying ChatGPT failed to qualify for the CNMLE-2022 at a score of 51. Cooperated with the KFE framework, the LLMs with varying sizes yielded consistent and significant improvements. The ChatGPT's performance surged to 70.04 and GPT-4 achieved the highest score of 82.59. This surpasses the qualification threshold (60) and exceeds the average human score of 68.70, affirming the effectiveness and robustness of the framework. It also enabled a smaller Baichuan2-13B to pass the examination, showcasing the great potential in low-resource settings. This study shed light on the optimal practices to enhance the capabilities of LLMs in non-English medical scenarios.
翻訳日:2024-01-30 22:41:05 公開日:2024-01-29
# flakyfix: 大規模な言語モデルを使用したテスト修正カテゴリの予測とテストコードの修正

FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair ( http://arxiv.org/abs/2307.00012v2 )

ライセンス: Link先を確認
Sakina Fatima, Hadi Hemmati, Lionel Briand(参考訳) 不安定なテストは、非決定的に同じソフトウェアバージョンをテスト中にパスまたは失敗し、混乱と開発労力の浪費を引き起こすため、問題となる。 機械学習モデルは、フレキネスとその根本原因を予測するために使われてきたが、問題を修正するためのサポートを提供する作業は、はるかに少ない。 このギャップに対処するため,本稿では,フレキネスを取り除き,それに基づいてテストコードを修正するために必要な修正の種類を予測することに注力する。 これは、フレキネスの根本原因がテストケース自身にあり、本番コードにはない、不安定なテストケースのサブセットに対して行います。 私たちのキーとなるアイデアは、予測された修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことです。 そこで我々はまず,13の修正カテゴリのラベル付きデータセットを自動的に生成するフレームワークを提案し,テストコードのみを解析することにより,フレークテストの修正カテゴリを予測するモデルを訓練する。 コードモデルと少数の学習を用いた実験結果から,修正カテゴリのほとんどを正確に予測できることがわかった。 このような修正カテゴリラベルの有用性を示すために,テスト担当者に通知することに加えて,gptのような大規模言語モデル(llm)を補修提案をllmに依頼する余分な知識とともに強化する。 提案する固定カテゴリラベルは, GPT 3.5 Turbo のフレークテストの修正における性能を著しく向上することを示した。

Flaky tests are problematic because they non-deterministically pass or fail for the same software version under test, causing confusion and wasting development effort. While machine learning models have been used to predict flakiness and its root causes, there is much less work on providing support to fix the problem. To address this gap, in this paper, we focus on predicting the type of fix that is required to remove flakiness and then repair the test code on that basis. We do this for a subset of flaky test cases where the root cause of flakiness is in the test case itself and not in the production code. Our key idea is to guide the repair process with additional knowledge about the test's flakiness in the form of its predicted fix category. Thus, we first propose a framework that automatically generates labeled datasets for 13 fix categories and trains models to predict the fix category of a flaky test by analyzing the test code only. Our experimental results using code models and few-shot learning show that we can correctly predict most of the fix categories. To show the usefulness of such fix category labels for automatically repairing flakiness, in addition to informing testers, we augment a Large Language Model (LLM) like GPT with such extra knowledge to ask the LLM for repair suggestions. The results show that our suggested fix category labels significantly enhance the capability of GPT 3.5 Turbo, in generating fixes for flaky tests.
翻訳日:2024-01-30 22:33:25 公開日:2024-01-29
# 視覚言語モデルによるゼロショット認識のベンチマーク:粒度と特異性への挑戦

Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity ( http://arxiv.org/abs/2306.16048v2 )

ライセンス: Link先を確認
Zhenlin Xu, Yi Zhu, Tiffany Deng, Abhay Mittal, Yanbei Chen, Manchen Wang, Paolo Favaro, Joseph Tighe, Davide Modolo(参考訳) 本稿では,実世界のゼロショット認識タスクにおける視覚言語モデル(vlms)を評価するための革新的なベンチマークを紹介する。 適応されたImageNetとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性と,言語入力の特異性に対する感度を評価するための,ユニークな評価プロトコルを提案する。 当社の広範な評価から,クリップなどのコントラストモデルを含む最先端のvlmは粒度に乏しく,テキスト特異性に敏感であり,オープンワールド設定におけるその効果に影響を与えていることが明らかとなった。 この包括的研究は、これらの視点からvlmを評価する最初の試みであり、コミュニティに貴重な洞察とツールを提供し、ゼロショット認識におけるより良い一般化による拡張モデルの方法を強調している。

This paper introduces innovative benchmarks to evaluate Vision-Language Models (VLMs) in real-world zero-shot recognition tasks, focusing on the granularity and specificity of prompting text. We propose a unique evaluation protocol using adapted ImageNet and MS-COCO datasets to assess models' consistency in recognizing concepts at varying granularity levels and their sensitivity to the specificity of language inputs. Our extensive evaluation reveals that state-of-the-art VLMs, including contrastive models like CLIP, struggle with granularity and are sensitive to text specificity, impacting their effectiveness in open-world settings. This comprehensive study, a first in evaluating VLMs from these perspectives, provides valuable insights and tools for the community, highlighting the limitations and paving the way for enhanced models with better generalization in zero-shot recognition.
翻訳日:2024-01-30 22:32:25 公開日:2024-01-29
# SPRINT: 言語指導によるスケーラブルなポリシ事前トレーニング

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling ( http://arxiv.org/abs/2306.11886v3 )

ライセンス: Link先を確認
Jesse Zhang and Karl Pertsch and Jiahui Zhang and Joseph J. Lim(参考訳) 豊富なスキルを備えた事前学習ロボットポリシーは、下流タスクの学習を効果的に促進することができる。 以前の作業では、自然言語命令による事前学習タスクを定義していたが、そのためには数十万の命令による退屈な人間のアノテーションが必要になる。 そこで本稿では,多様なスキルセットの事前学習に必要な人的労力を大幅に削減する,スケーラブルなオフラインポリシ事前学習アプローチであるSPRINTを提案する。 提案手法では,大規模言語モデルによる命令レバーベリングと,オフライン強化学習によるクロストラックスキルチェーンという,事前学習タスクのベースセットを自動的に拡張する。 その結果、SPRINTは、よりリッチなスキルのレパートリーを持つロボットを事前訓練する。 家庭内シミュレータと実際のロボットキッチン操作タスクにおける実験結果は、スプリントが以前の事前トレーニングアプローチよりも、新たなロングホライゾンタスクの学習をかなり速くすることを示している。 website at https://clvrai.com/sprint.com

Pre-training robot policies with a rich set of skills can substantially accelerate the learning of downstream tasks. Prior works have defined pre-training tasks via natural language instructions, but doing so requires tedious human annotation of hundreds of thousands of instructions. Thus, we propose SPRINT, a scalable offline policy pre-training approach which substantially reduces the human effort needed for pre-training a diverse set of skills. Our method uses two core ideas to automatically expand a base set of pre-training tasks: instruction relabeling via large language models and cross-trajectory skill chaining through offline reinforcement learning. As a result, SPRINT pre-training equips robots with a much richer repertoire of skills. Experimental results in a household simulator and on a real robot kitchen manipulation task show that SPRINT leads to substantially faster learning of new long-horizon tasks than previous pre-training approaches. Website at https://clvrai.com/sprint.
翻訳日:2024-01-30 22:31:11 公開日:2024-01-29
# 境界駆動型フェミオン鎖の密度と電流統計

Density and current statistics in boundary-driven monitored fermionic chains ( http://arxiv.org/abs/2306.09893v2 )

ライセンス: Link先を確認
Xhek Turkeshi and Lorenzo Piroli and Marco Schir\`o(参考訳) 境界駆動とバルク粒子密度の連続監視を特徴とする非干渉フェルミオンの一次元系を考える。 この測定により、局所密度と電流演算子の期待値は、よく研究されたlindblad master方程式によって平均挙動が記述される確率変数となる。 正確な数値計算により、我々は平均力学を超え、その全確率分布関数を、深夜定常状態に焦点をあてて研究する。 平均値とは対照的に,中央密度と電流の空間プロファイルは自明ではなく,モニタリング強度の関数として定性的な差異を示す。 弱いモニタリングでは、中央値は平均に近づき、拡散的な空間プロファイルを表示する。 強いモニタリングでは、中央値密度と電流がそれぞれドメインウォールと単一ピークプロファイルを発達させ、典型的な量子軌道におけるゼノ様局在を示唆する。 モニタリングレートの関数として急激な位相遷移を特定できないが、モニタリングされた多体量子力学の文脈において、平均値を超える典型的な振る舞いを特徴づけることの有用性を強調した。

We consider a one-dimensional system of non-interacting fermions featuring both boundary driving and continuous monitoring of the bulk particle density. Due to the measurements, the expectation values of the local density and current operators are random variables whose average behavior is described by a well studied Lindblad master equation. By means of exact numerical computations, we go beyond the averaged dynamics and study their full probability distribution functions, focusing on the late-time stationary regime. We find that, contrary to the averaged values, the spatial profiles of the median density and current are non-trivial, exhibiting qualitative differences as a function of the monitoring strength. At weak monitoring, the medians are close to the means, displaying diffusive spatial profiles. At strong monitoring, we find that the median density and current develop a domain-wall and single-peak profile, respectively, which are suggestive of a Zeno-like localization in typical quantum trajectories. While we are not able to identify a sharp phase transition as a function of the monitoring rate, our work highlights the usefulness of characterizing typical behavior beyond the averaged values in the context of monitored many-body quantum dynamics.
翻訳日:2024-01-30 22:30:28 公開日:2024-01-29
# シャーディング暗号文による同型暗号化データの高分解能畳み込みニューラルネットワーク

High-Resolution Convolutional Neural Networks on Homomorphically Encrypted Data via Sharding Ciphertexts ( http://arxiv.org/abs/2306.09189v2 )

ライセンス: Link先を確認
Vivian Maloney, Richard F. Obrecht, Vikram Saraph, Prathibha Rama, Kate Tallaksen(参考訳) 近年,ResNet-20アーキテクチャを含むDeep Convolutional Neural Networks (DCNN) は,Residue-Number-System Cheon-Kim-Kim-Song (RNS-CKKS) の同型暗号方式を用いて,暗号化された低解像度データに対してプライベートに評価されている。 我々は,単一の暗号文に格納できる範囲を超えて,大きな次元と多くのチャネルを持つ画像のdcnnを評価する手法を拡張した。 さらに、最近導入された多重化画像フォーマットの効率を簡素化し改善し、同型評価が標準の行長行列パッキングで機能し、暗号化された推論時間を4.6-6.5\times$で高速化することを示した。 また,既存のDCNNモデルをトレーニングプロセス中に正規化して,効率と精度をさらに向上させる方法について述べる。 これらの手法を用いて、高解像度のImageNetデータセット上で高い精度でDCNNを均質に評価し、80.2\%$ top-1精度を達成する。 また,CIFAR-10データセットにおける同型評価CNNの精度は9,8.3 %$である。

Recently, Deep Convolutional Neural Networks (DCNNs) including the ResNet-20 architecture have been privately evaluated on encrypted, low-resolution data with the Residue-Number-System Cheon-Kim-Kim-Song (RNS-CKKS) homomorphic encryption scheme. We extend methods for evaluating DCNNs on images with larger dimensions and many channels, beyond what can be stored in single ciphertexts. Additionally, we simplify and improve the efficiency of the recently introduced multiplexed image format, demonstrating that homomorphic evaluation can work with standard, row-major matrix packing and results in encrypted inference time speedups by $4.6-6.5\times$. We also show how existing DCNN models can be regularized during the training process to further improve efficiency and accuracy. These techniques are applied to homomorphically evaluate a DCNN with high accuracy on the high-resolution ImageNet dataset, achieving $80.2\%$ top-1 accuracy. We also achieve an accuracy of homomorphically evaluated CNNs on the CIFAR-10 dataset of $98.3\%$.
翻訳日:2024-01-30 22:30:08 公開日:2024-01-29
# sam3d: segment anythingモデルによるゼロショット3dオブジェクト検出

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model ( http://arxiv.org/abs/2306.02245v2 )

ライセンス: Link先を確認
Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai(参考訳) 大規模な言語モデルの開発により、chatgptのような多くの目立った言語システムが成長し、多くのタスクで驚くべき成功を収めた。 視覚タスクにおける基礎モデルの能力を解き放つため、画像分割のための視覚基盤モデルであるsegment anything model(sam)が最近提案され、多くの下流2dタスクにおいて強いゼロショット能力を示す。 しかし、samが3dビジョンタスクに適応できるか、特に3dオブジェクト検出についてはまだ検討されていない。 このインスピレーションにより,本論文ではSAMのゼロショット能力を3次元物体検出に適用することを検討する。 大規模Waymoオープンデータセット上でオブジェクトを検出し,有望な結果を得るためのSAMを用いたBEV処理パイプラインを提案する。 初期の試みとして,視覚基盤モデルを用いた3次元物体検出への一歩を踏み出し,そのパワーを3次元視覚タスクに解き放つ機会を提案する。 コードはhttps://github.com/dyzhang09/sam3dでリリースされる。

With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
翻訳日:2024-01-30 22:29:48 公開日:2024-01-29
# 視覚的質問応答モデルを用いた接地言語からの関数語の意味学習

Learning the meanings of function words from grounded language using a visual question answering model ( http://arxiv.org/abs/2308.08628v2 )

ライセンス: Link先を確認
Eva Portelance and Michael C. Frank and Dan Jurafsky(参考訳) or"、"behind"、"more"のような一見単純な関数語を解釈するには、論理的、数値的、関係的推論が必要である。 その言葉は子供にどのように学べますか。 以前の買収理論は、しばしば本質的な知識の基礎を与えることに頼っていた。 しかし、最近のニューラルネットワークベースのビジュアル質問応答モデルは、複雑な視覚シーンに関する質問に答えるの一部として関数語を使うことを学ぶことができる。 本稿では,これらのモデルが機能語について何を学んでいるのかを,モデルと子供の両方でどのように学習できるのか理解を深めるために検討する。 視覚接地言語で学習した反復モデルでは,空間的・数値的推論を必要とする関数語の勾配意味論を学習する。 さらに,これらのモデルでは,論理的推論の事前の知識がなくても,論理的結合詞「and」と「or」の意味を学習でき,また,言語解釈の際の代替表現に敏感な初期の証拠が得られている。 最後に,単語学習の難しさはモデルの入力頻度に依存することを示す。 本研究は,非記号型一般統計学習アルゴリズムを用いて,言語的意味の事前知識を使わずに,機能語のニュアンス的解釈を視覚的に学習できることを示す。

Interpreting a seemingly-simple function word like "or", "behind", or "more" can require logical, numerical, and relational reasoning. How are such words learned by children? Prior acquisition theories have often relied on positing a foundation of innate knowledge. Yet recent neural-network based visual question answering models apparently can learn to use function words as part of answering questions about complex visual scenes. In this paper, we study what these models learn about function words, in the hope of better understanding how the meanings of these words can be learnt by both models and children. We show that recurrent models trained on visually grounded language learn gradient semantics for function words requiring spacial and numerical reasoning. Furthermore, we find that these models can learn the meanings of logical connectives "and" and "or" without any prior knowledge of logical reasoning, as well as early evidence that they are sensitive to alternative expressions when interpreting language. Finally, we show that word learning difficulty is dependent on frequency in models' input. Our findings offer proof-of-concept evidence that it is possible to learn the nuanced interpretations of function words in visually grounded context by using non-symbolic general statistical learning algorithms, without any prior knowledge of linguistic meaning.
翻訳日:2024-01-30 22:21:58 公開日:2024-01-29
# 高階抽象化発見による論理プログラムの学習

Learning logic programs by discovering higher-order abstractions ( http://arxiv.org/abs/2308.08334v2 )

ライセンス: Link先を確認
C\'eline Hocquette, Sebastijan Duman\v{c}i\'c, Andrew Cropper(参考訳) 我々は,マップ,フィルタ,折りたたみといった高階の抽象概念を発見し,論理プログラムを圧縮することを目的とした高階リファクタリング問題を導入する。 我々は,リファクタリング問題を制約最適化問題として定式化したStevieにアプローチを実装した。 プログラム合成や視覚的推論を含む複数のドメインにおける実験では、リファクタリングによって帰納論理プログラミングシステムの学習性能が向上し、特に予測精度が27%向上し、学習時間を47%削減できることを示した。 また、Stevieは複数のドメインに転送する抽象化を発見できることを示す。

We introduce the higher-order refactoring problem, where the goal is to compress a logic program by discovering higher-order abstractions, such as map, filter, and fold. We implement our approach in Stevie, which formulates the refactoring problem as a constraint optimisation problem. Our experiments on multiple domains, including program synthesis and visual reasoning, show that refactoring can improve the learning performance of an inductive logic programming system, specifically improving predictive accuracies by 27% and reducing learning times by 47%. We also show that Stevie can discover abstractions that transfer to multiple domains.
翻訳日:2024-01-30 22:21:36 公開日:2024-01-29
# 2モード量子状態をもつサブショット・ノイズ干渉法

Sub-shot-noise interferometry with two-mode quantum states ( http://arxiv.org/abs/2307.16479v3 )

ライセンス: Link先を確認
Quentin Marolleau, Charlie Leprince, Victor Gondret, Denis Boiron, Christoph I Westbrook(参考訳) 双発フォック状態と2モード圧縮真空状態から始まる不完全な検出器を用いたサブショットノイズ干渉法の実現可能性について検討した。 対応する位相の不確かさに対する解析式を導出する。 我々は、損失が与えられたしきい値よりも小さい限り、標準量子限界以下の位相シフト測定が可能であり、測定された位相が最適値に十分近いことを見出した。 分析公式をPythonパッケージで提供し、オンラインでアクセスします。

We study the feasibility of sub-shot-noise interferometry with imperfect detectors, starting from twin-Fock states and two mode squeezed vacuum states. We derive analytical expressions for the corresponding phase uncertainty. We find that one can achieve phase shift measurements below the standard quantum limit, as long as the losses are smaller than a given threshold, and that the measured phase is close enough to an optimal value. We provide our analytical formulae in a Python package, accessible online.
翻訳日:2024-01-30 22:20:21 公開日:2024-01-29
# レーティングに基づく強化学習

Rating-based Reinforcement Learning ( http://arxiv.org/abs/2307.16348v2 )

ライセンス: Link先を確認
Devin White, Mingkang Wu, Ellen Novoseller, Vernon J. Lawhern, Nicholas Waytowich, Yongcan Cao(参考訳) 本稿では,人間格付けを用いた新しい評価に基づく強化学習手法を開発し,強化学習における人的指導を得る。 既存の選好ベースおよびランキングベースの強化学習パラダイムとは異なり,評価に基づく強化学習アプローチは,サンプルペア間の相対的な比較を伴わずに,個々の軌跡の人間による評価に基づく。 評価に基づく強化学習アプローチは、人間格付けの新しい予測モデルと、新しい多クラス損失関数に基づいている。 我々は,新しい評価に基づく強化学習手法の有効性とメリットを評価するために,合成評価と実人評価に基づく実験を行った。

This paper develops a novel rating-based reinforcement learning approach that uses human ratings to obtain human guidance in reinforcement learning. Different from the existing preference-based and ranking-based reinforcement learning paradigms, based on human relative preferences over sample pairs, the proposed rating-based reinforcement learning approach is based on human evaluation of individual trajectories without relative comparisons between sample pairs. The rating-based reinforcement learning approach builds on a new prediction model for human ratings and a novel multi-class loss function. We conduct several experimental studies based on synthetic ratings and real human ratings to evaluate the effectiveness and benefits of the new rating-based reinforcement learning approach.
翻訳日:2024-01-30 22:20:09 公開日:2024-01-29
# 量子コンピューティングのdyadicフラグメントにおけるsum-over-pathの書き換えと完全性

Rewriting and Completeness of Sum-Over-Paths in Dyadic Fragments of Quantum Computing ( http://arxiv.org/abs/2307.14223v2 )

ライセンス: Link先を確認
Renaud Vilmart(参考訳) sum-over-paths"形式主義は、量子系を記述する線形写像を象徴的に操作する方法であり、そのような系の形式的検証に使用されるツールである。 ここでは、定式化のための新しい書き直し規則を述べ、量子力学の最も単純な普遍的な断片である "Toffoli-Hadamard" に対して完備であることを示す。 書き直しは終了しているが、confluent(断片の普遍性から期待される)ではないことを示す。 我々は、Sum-over-Pathsとグラフィカル言語ZH-calculusの接続を利用し、また、公理化が後者にどのように変換されるかを示す。 提案する書き直しルールの一般化を提供し,実際に用語を削減しようとする場合に有用であることを示すとともに,これらの新しいルールをグラフィカルに理解する方法を示す。 量子フーリエ変換において特に用いられる量子計算のdyadicフラグメントの完全性を達成するために書き直しシステムを拡張し、dyadic倍数$\pi$の位相ゲートを toffoli-hadamard ゲート集合に付加する方法を示す。 最後に、ゲートベースの量子計算を解析するために設計されたシステムではネイティブではないが、ハミルトニアンベースの量子計算を考える際に必要となる任意の項の和と結合の方法を示す。

The "Sum-Over-Paths" formalism is a way to symbolically manipulate linear maps that describe quantum systems, and is a tool that is used in formal verification of such systems. We give here a new set of rewrite rules for the formalism, and show that it is complete for "Toffoli-Hadamard", the simplest approximately universal fragment of quantum mechanics. We show that the rewriting is terminating, but not confluent (which is expected from the universality of the fragment). We do so using the connection between Sum-over-Paths and graphical language ZH-calculus, and also show how the axiomatisation translates into the latter. We provide generalisations of the presented rewrite rules, that can prove useful when trying to reduce terms in practice, and we show how to graphically make sense of these new rules. We show how to enrich the rewrite system to reach completeness for the dyadic fragments of quantum computation, used in particular in the Quantum Fourier Transform, and obtained by adding phase gates with dyadic multiples of $\pi$ to the Toffoli-Hadamard gate-set. Finally, we show how to perform sums and concatenation of arbitrary terms, something which is not native in a system designed for analysing gate-based quantum computation, but necessary when considering Hamiltonian-based quantum computation.
翻訳日:2024-01-30 22:19:24 公開日:2024-01-29
# 低域重み行列を用いた一層自己注意型変圧器はユニバーサル近似器か?

Are Transformers with One Layer Self-Attention Using Low-Rank Weight Matrices Universal Approximators? ( http://arxiv.org/abs/2307.14023v3 )

ライセンス: Link先を確認
Tokio Kajitsuka and Issei Sato(参考訳) 変圧器モデルの表現能力の既存の分析では、データの記憶に過度に深い層を必要とするため、実際に実際に使用される変圧器との相違が生じている。 これは主にハードマックス関数の近似としてのソフトマックス関数の解釈によるものである。 ソフトマックス関数とボルツマン作用素の接続を明確化することにより、低ランク重み行列を持つ単層が入力列全体の文脈を完全に捉える能力を有することを証明した。 その結果, 単層トランスフォーマーと単頭トランスフォーマーは有限標本の記憶能力を有し, 2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは, コンパクト領域上の連続置換同変関数の普遍近似器であることがわかった。

Existing analyses of the expressive capacity of Transformer models have required excessively deep layers for data memorization, leading to a discrepancy with the Transformers actually used in practice. This is primarily due to the interpretation of the softmax function as an approximation of the hardmax function. By clarifying the connection between the softmax function and the Boltzmann operator, we prove that a single layer of self-attention with low-rank weight matrices possesses the capability to perfectly capture the context of an entire input sequence. As a consequence, we show that one-layer and single-head Transformers have a memorization capacity for finite samples, and that Transformers consisting of one self-attention layer with two feed-forward neural networks are universal approximators for continuous permutation equivariant functions on a compact domain.
翻訳日:2024-01-30 22:18:58 公開日:2024-01-29
# Selective Synchronizationによる分散MLトレーニングの高速化

Accelerating Distributed ML Training via Selective Synchronization ( http://arxiv.org/abs/2307.07950v2 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) 分散トレーニングでは、ディープニューラルネットワーク(DNN)が複数のワーカ上で同時に起動され、バルク同期並列(BSP)トレーニングの各ステップでローカル更新を集約する。 しかし, 集約の通信コストが高いため, BSPは線形スケールアウトしない。 このオーバーヘッドを軽減するため、federated averaging (fedavg) や stale-synchronous parallel (ssp) といった代替手段は同期周波数を減少させるか、あるいは完全に除去する。 本稿では,DNN トレーニングの実践的,低オーバーヘッドな手法である \texttt{SelSync} を提案する。 我々は、 \textit{semi-synchronous} トレーニングの文脈における収束を改善するために、 \texttt{selsync} の一部として様々な最適化を提案する。 私たちのシステムはbspと同じかそれ以上の精度に収束し、トレーニング時間を最大14$\times$に短縮します。

In distributed training, deep neural networks (DNNs) are launched over multiple workers concurrently and aggregate their local updates on each step in bulk-synchronous parallel (BSP) training. However, BSP does not linearly scale-out due to high communication cost of aggregation. To mitigate this overhead, alternatives like Federated Averaging (FedAvg) and Stale-Synchronous Parallel (SSP) either reduce synchronization frequency or eliminate it altogether, usually at the cost of lower final accuracy. In this paper, we present \texttt{SelSync}, a practical, low-overhead method for DNN training that dynamically chooses to incur or avoid communication at each step either by calling the aggregation op or applying local updates based on their significance. We propose various optimizations as part of \texttt{SelSync} to improve convergence in the context of \textit{semi-synchronous} training. Our system converges to the same or better accuracy than BSP while reducing training time by up to 14$\times$.
翻訳日:2024-01-30 22:18:11 公開日:2024-01-29
# ソース・コントラストおよび言語・コントラスト・デコーディングによる幻覚とオフターゲット機械翻訳の緩和

Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding ( http://arxiv.org/abs/2309.07098v2 )

ライセンス: Link先を確認
Rico Sennrich and Jannis Vamvas and Alireza Mohammadshahi(参考訳) 特に低リソース言語や多言語モデルでは、幻覚やオフターゲット翻訳は未解決の問題である。 本稿では,再学習や外部モデルを必要とすることなく,復号化の目的を改良した2つの障害事例を緩和する手法を提案する。 ソース・コントラスト・デコードでは、正しい入力が与えられているが、ランダムな入力セグメントが与えられない翻訳を探索する。 言語結合型デコードでは、間違った言語指示トークンを考えると、あり得るが、あり得ない翻訳を探索する。 大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験では、これらの手法は幻覚とオフターゲット翻訳を抑制し、セグメントレベルchrF2の翻訳を平均で10~67~83%減らし、発振幻覚を持つ翻訳を平均75~92%減らした。 英語外翻訳の概念の実証として,大規模言語モデルを用いた目標外翻訳を抑制できることを示した。 ソースコードはhttps://github.com/ZurichNLP/ContraDecode.comで公開しています。

Hallucinations and off-target translation remain unsolved problems in MT, especially for low-resource languages and massively multilingual models. In this paper, we introduce two related methods to mitigate these failure cases with a modified decoding objective, without either requiring retraining or external models. In source-contrastive decoding, we search for a translation that is probable given the correct input, but improbable given a random input segment. In language-contrastive decoding, we search for a translation that is probable, but improbable given the wrong language indicator token. Experiments on the massively multilingual models M2M-100 (418M) and SMaLL-100 show that these methods suppress hallucinations and off-target translations, reducing the number of translations with segment-level chrF2 below 10 by 67-83% on average, and the number of translations with oscillatory hallucinations by 75-92% on average, across 57 tested translation directions. In a proof of concept on out-of-English translation, we also show that we can suppress off-target translations with large language models. We release our source code at https://github.com/ZurichNLP/ContraDecode.
翻訳日:2024-01-30 22:10:36 公開日:2024-01-29
# スケーラブルニューラルネットワークによる粒子流イベント再構成の現状と将来

Improved particle-flow event reconstruction with scalable neural networks for current and future particle detectors ( http://arxiv.org/abs/2309.06782v4 )

ライセンス: Link先を確認
Joosep Pata, Eric Wulff, Farouk Mokhtar, David Southwick, Mengke Zhang, Maria Girone, Javier Duarte(参考訳) 高輝度LHCとFuture Circular Colliderの実験は、そのような検出器で期待される粒状事象を高密度で再構築する効率的なアルゴリズムを必要とする。 フル検出器シミュレーションに基づいて,電子-ポジトロン衝突におけるイベントリコンストラクションのためのスケーラブルな機械学習モデルについて検討した。 粒子フロー再構成はトラックとカロリメータクラスタを用いて教師あり学習タスクとして定式化することができる。 グラフニューラルネットワークとカーネルベースのトランスフォーマーを比較し,現実的再構成を実現しながら二次演算を回避できることを実証する。 ハイパーパラメータチューニングはモデルの性能を大幅に改善することを示す。 最良のグラフニューラルネットワークモデルは、ルールベースのアルゴリズムと比較して、ジェット横運動量分解能を最大50%向上させる。 正確な復元は、衝突機における将来の測定を著しく改善することができる。 このモデルはnvidia、amd、habanaのハードウェアで使える。 私たちのデータセットとソフトウェアは、findable、accessable、interoperaable、renetableの原則に従って公開しています。

Experiments at the High-Luminosity LHC and the Future Circular Collider need efficient algorithms to reconstruct granular events expected at such detectors with high fidelity. We study scalable machine learning models for event reconstruction in electron-positron collisions based on a full detector simulation. Particle-flow reconstruction can be formulated as a supervised learning task using tracks and calorimeter clusters. We compare a graph neural network and kernel-based transformer and demonstrate that we can avoid quadratic operations while achieving realistic reconstruction. We show that hyperparameter tuning significantly improves the performance of the models. The best graph neural network model shows improvement in the jet transverse momentum resolution by up to 50% compared to the rule-based algorithm. Accurate reconstruction can significantly improve future measurements at colliders. The resulting model is portable across Nvidia, AMD and Habana hardware. Our datasets and software are published following the findable, accessible, interoperable, and reusable principles.
翻訳日:2024-01-30 22:10:11 公開日:2024-01-29
# Transformerにおける文脈内学習の学習台地を突破する

Breaking through the learning plateaus of in-context learning in Transformer ( http://arxiv.org/abs/2309.06054v2 )

ライセンス: Link先を確認
Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng(参考訳) 文脈学習、すなわち文脈の例から学ぶことは、Transformerの素晴らしい能力である。 このインコンテキスト学習技術を身につけるための訓練用トランスフォーマーは、モデルのインコンテキスト学習能力が最小あるいは全く向上しないトレーニングプロセスの期間である学習台地の発生により、計算集約的である。 学習台地の背後にあるメカニズムを研究するため、モデルの内部表現の要素を概念的に分離し、モデルの重みにのみ影響する。 これを"weights component"と呼び、残りは"context component"として識別します。 合成タスクの精密かつ制御された実験を行うことにより,学習台地の持続性は重み成分の損なわれた機能と相関することがわかった。 基本動作として重み成分の性能を損なうことを認識し,トランスフォーマーの学習を迅速化する3つの戦略を開発した。 これらの戦略の有効性は自然言語処理タスクにおいてさらに確認される。 本研究は,aiシステムにおける強力な文脈内学習能力を,環境にやさしい方法で育成できることを実証する。

In-context learning, i.e., learning from context examples, is an impressive ability of Transformer. Training Transformers to possess this in-context learning skill is computationally intensive due to the occurrence of learning plateaus, which are periods within the training process where there is minimal or no enhancement in the model's in-context learning capability. To study the mechanism behind the learning plateaus, we conceptually seperate a component within the model's internal representation that is exclusively affected by the model's weights. We call this the "weights component", and the remainder is identified as the "context component". By conducting meticulous and controlled experiments on synthetic tasks, we note that the persistence of learning plateaus correlates with compromised functionality of the weights component. Recognizing the impaired performance of the weights component as a fundamental behavior drives learning plateaus, we have developed three strategies to expedite the learning of Transformers. The effectiveness of these strategies is further confirmed in natural language processing tasks. In conclusion, our research demonstrates the feasibility of cultivating a powerful in-context learning ability within AI systems in an eco-friendly manner.
翻訳日:2024-01-30 22:09:58 公開日:2024-01-29
# 調律のないプロンプトに基づく分類のための多様体型動詞化空間再埋め込み

Manifold-based Verbalizer Space Re-embedding for Tuning-free Prompt-based Classification ( http://arxiv.org/abs/2309.04174v2 )

ライセンス: Link先を確認
Haochun Wang, Sendong Zhao, Chi Liu, Nuwa Xi, Muzhen Cai, Bing Qin, Ting Liu(参考訳) Promptベースの分類は、[MASK]トークンを使用してタスクを閉じた質問形式に適応し、入力されたトークンは事前に定義された動詞化子を通してラベルにマッピングされる。 近年, このプロセスにおける労働力削減のために, 発声器埋め込みの使用について検討している。 しかし、既存の研究はすべて、事前訓練されたモデルまたは追加訓練可能な埋め込みのチューニングプロセスを必要とする。 一方、高次元動詞化子埋め込み間の距離は、表現空間における非線形多様体のポテンシャルのためにユークリッド距離で測るべきではない。 本研究では, クラス内近傍制約付き局所線形埋め込み (lle-inc) と呼ばれる, 同じクラス内の局所プロパティを分類のガイダンスとして保存するチューニングフリーな多様体型空間再埋め込み法を提案する。 実験結果から,パラメータをチューニングせずにも,LLE-INCはパラメータチューニングを伴う自動動詞化器と同等であることがわかった。 また,パラメータの更新により,プロンプトベースのチューニングが最大3.2%向上する。 さらに、llama-7b&13bの実験により、lle-incはハイパースケール言語モデルの効率的なチューニングフリー分類アプローチであることが示された。

Prompt-based classification adapts tasks to a cloze question format utilizing the [MASK] token and the filled tokens are then mapped to labels through pre-defined verbalizers. Recent studies have explored the use of verbalizer embeddings to reduce labor in this process. However, all existing studies require a tuning process for either the pre-trained models or additional trainable embeddings. Meanwhile, the distance between high-dimensional verbalizer embeddings should not be measured by Euclidean distance due to the potential for non-linear manifolds in the representation space. In this study, we propose a tuning-free manifold-based space re-embedding method called Locally Linear Embedding with Intra-class Neighborhood Constraint (LLE-INC) for verbalizer embeddings, which preserves local properties within the same class as guidance for classification. Experimental results indicate that even without tuning any parameters, our LLE-INC is on par with automated verbalizers with parameter tuning. And with the parameter updating, our approach further enhances prompt-based tuning by up to 3.2%. Furthermore, experiments with the LLaMA-7B&13B indicate that LLE-INC is an efficient tuning-free classification approach for the hyper-scale language models.
翻訳日:2024-01-30 22:09:38 公開日:2024-01-29
# 非マルコフ量子ブラウン運動が量子電池に及ぼす影響

Impact of non-Markovian quantum Brownian motion on quantum batteries ( http://arxiv.org/abs/2308.14572v2 )

ライセンス: Link先を確認
Gourab Bhanja, Devvrat Tiwari, Subhashish Banerjee(参考訳) 近年、量子熱力学デバイス、特に量子電池への関心が高まっている。 量子電池は、量子熱力学の規則によって制御されるエネルギー貯蔵デバイスとして機能する。 本稿では,バッテリとして関心の系を想定できる量子電池のモデルを提案し,周辺環境はユビキタス量子ブラウン運動に沿ってモデル化された充電器(散逸)機構として機能する。 我々は、エルゴトロピーとその(イン)コヒーレントな表現、および瞬時および平均的なパワーのような量化器を用いて、量子電池の性能を特徴づける。 本研究では, 浴槽の温度と, 運動量と位置座標による環境とのカップリングが, 排出・再生動態に及ぼす影響について検討した。 さらに,システムのダイナミクスのメモリ効果を調査し,システムの非マルコフ的発展と電池のリチャージプロセスとの関係を求める。

Recently, there has been an upsurge of interest in quantum thermodynamic devices, notably quantum batteries. Quantum batteries serve as energy storage devices governed by the rules of quantum thermodynamics. Here, we propose a model of a quantum battery wherein the system of interest can be envisaged as a battery, and the ambient environment acts as a charger (dissipation) mechanism, modeled along the ubiquitous quantum Brownian motion. We employ quantifiers like ergotropy and its (in)-coherent manifestations, as well as instantaneous and average powers, to characterize the performance of the quantum battery. We investigate the influence of the bath's temperature and the system's coupling with the environment via momentum and position coordinates on the discharging and recharging dynamics. Moreover, we probe the memory effects of the system's dynamics and obtain a relationship between the system's non-Markovian evolution and the battery's recharging process.
翻訳日:2024-01-30 22:08:27 公開日:2024-01-29
# 散逸性準可積分系における保存量の反復的構成

Iterative construction of conserved quantities in dissipative nearly integrable systems ( http://arxiv.org/abs/2310.03809v2 )

ライセンス: Link先を確認
Iris Ul\v{c}akar and Zala Lenar\v{c}i\v{c}(参考訳) 可積分系は量子世界の可解多体問題の稀な例を提供する。 微調整構造のため、それらの自然と実験における実現は完全には正確ではないため、積分性の効果は過渡的にのみ観察される。 この制限を克服する一つの方法は、ほぼ可積分なシステムをバスと運転に弱結合させることである:これらは任意の時間まで可積分効果を安定化し、一般化されたギブスアンサンブルによって近似された定常状態においてそれらをエンコードする。 しかし、そのような駆動散逸的ほぼ可積分モデルの記述は困難であり、正確な解析方法が提案されていない。 本稿では,高度に効率的な一般化ギブスアンサンブル記述において,可積分分解摂動 (baths) が主要な役割を果たす保存量を決定する反復スキームを開発した。 提案手法は, 熱力学的な大規模システムの計算を容易にする方法であり, 未知の保存量の構築に利用できる。

Integrable systems offer rare examples of solvable many-body problems in the quantum world. Due to the fine-tuned structure, their realization in nature and experiment is never completely accurate, therefore effects of integrability are observed only transiently. One way to overcome this limitation is to weakly couple nearly integrable systems to baths and driving: these will stabilize integrable effects up to arbitrary time and encode them in the stationary state approximated by a generalized Gibbs ensemble. However, the description of such driven dissipative nearly integrable models is challenging and no exact analytical methods have been proposed so far. Here, we develop an iterative scheme in which integrability breaking perturbations (baths) determine the conserved quantities that play the leading role in a highly efficient truncated generalized Gibbs ensemble description. Our scheme paves the way for easier calculations in thermodynamically large systems and can be used to construct unknown conserved quantities.
翻訳日:2024-01-30 21:59:20 公開日:2024-01-29
# 未熟な学習のランク付けにおける隠れた回復条件の解明

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank ( http://arxiv.org/abs/2309.15560v2 )

ライセンス: Link先を確認
Mouxiang Chen, Chenghao Liu, Zemin Liu, Zhuo Li, Jianling Sun(参考訳) unbiased learning to rank (ultr) は,ユーザの行動生成プロセスを明示的にモデル化し,試験仮説に基づいてクリックデータを適合させることによって,バイアス付きクリックログから偏りのないランキングモデルをトレーニングすることを目的としている。 以前の研究では、真の潜在性は完全なクリックフィッティングによってほぼ回復可能であることが実証された。 しかし,これは必ずしも達成可能とは限らないため,ランキング性能が著しく低下することを示した。 本研究では,クリックデータから基礎レベルの関連性を回復できる条件について検討する。 まず、ランク付けモデルを、スケーリング変換による真の関連性を回復可能で、ペアワイズランキング目標に十分な基準であるとして識別可能であると特徴付ける。 その後、グラフ接続テスト問題として具体化され、データセットの基盤構造から派生した識別可能性グラフ(IG)が接続された場合にのみ、妥当性の回復が実現可能であることを示す。 切断されたIGの存在は、退化ケースや準最適ランキングパフォーマンスにつながる可能性がある。 この課題に対処するために,データセットの変更とIGの接続性回復を目的としたノード介入とノードマージという2つの手法を導入する。 シミュレーションデータセットと実世界の2つのLTRベンチマークデータセットから得られた実証結果は,提案した定理の検証だけでなく,妥当性モデルが不明な場合のデータバイアスを軽減するための手法の有効性も示している。

Unbiased Learning to Rank (ULTR) aims to train unbiased ranking models from biased click logs, by explicitly modeling a generation process for user behavior and fitting click data based on examination hypothesis. Previous research found empirically that the true latent relevance is mostly recoverable through perfect click fitting. However, we demonstrate that this is not always achievable, resulting in a significant reduction in ranking performance. This research investigates the conditions under which relevance can be recovered from click data at a foundational level. We initially characterize a ranking model as identifiable if it can recover the true relevance up to a scaling transformation, a criterion sufficient for the pairwise ranking objective. Subsequently, we investigate an equivalent condition for identifiability, articulated as a graph connectivity test problem: the recovery of relevance is feasible if and only if the identifiability graph (IG), derived from the underlying structure of the dataset, is connected. The presence of a disconnected IG may lead to degenerate cases and suboptimal ranking performance. To tackle this challenge, we introduce two methods, namely node intervention and node merging, designed to modify the dataset and restore the connectivity of the IG. Empirical results derived from a simulated dataset and two real-world LTR benchmark datasets not only validate our proposed theorems but also demonstrate the effectiveness of our methods in alleviating data bias when the relevance model is unidentifiable.
翻訳日:2024-01-30 21:58:20 公開日:2024-01-29
# 冷間結合原子配列におけるクリーン-無秩序界面における原子励起脱局在

Atomic excitation delocalization at the clean to disordered interface in a chirally-coupled atomic array ( http://arxiv.org/abs/2309.15361v3 )

ライセンス: Link先を確認
C.-C. Wu, K.-T. Lin, I G. N. Y. Handayana, C.-H. Chien, S. Goswami, G.-D. Lin, Y.-C. Chen and H. H. Jen(参考訳) 一次元量子エミッタ系では、原子励起のダイナミクスは光子を介する双極子-双極子相互作用によるエミッタ間の集団結合に影響される。 原子配列の一部に位置障害を導入することにより、乱れ領域とクリーンゾーンの界面における非局在化現象を解明する。 励起は乱領域における対称ディック状態として初期化され、励起局在を定量化するためにいくつかの測度が用いられる。 本研究はまず,時間進化下での励起ダイナミクスの解明に人口不均衡と半鎖エントロピーを用い,また相互結合の場合の固有スペクトルのギャップ比による励起局在化と非局在化の交叉について検討する。 特に,原子鎖の両端における全鎖の参加率と光子損失率について検討し,非相互結合の場合の非局在化クロスオーバーの定量化に有効であることを示した。 さらに, 全鎖の固定個数で乱れ領域の全体サイズや比率を増大させることにより, 前者の場合より小さな乱れ強度で励起局在が生じるのに対し, 後者では, 乱れ領域と乱れ領域の有意な比率が適用された場合に, 脱局在の促進が現れるのが観察された。 以上の結果から,クリーンゾーンと局所化現象の無秩序ゾーンサイズとの競合が明らかとなり,エミッタ・導波路界面における非平衡ダイナミクスへの洞察が得られ,量子情報処理における潜在的な応用が期待できる。

In one-dimensional quantum emitter systems, the dynamics of atomic excitations are influenced by the collective coupling between emitters through photon-mediated dipole-dipole interactions. By introducing positional disorders in a portion of the atomic array, we investigate the delocalization phenomena at the interface between disordered zone and clean zone. The excitation is initialized as symmetric Dicke states in the disordered zone, and several measures are used to quantify the excitation localization. We first use population imbalance and half-chain entropy to investigate the excitation dynamics under time evolutions, and further investigate the crossover of excitation localization to delocalization via the gap ratio from the eigenspectrum in the reciprocal coupling case. In particular, we study the participation ratio of the whole chain and the photon loss ratio between both ends of the atomic chain, which can be used to quantify the delocalization crossover in the non-reciprocal coupling cases. Furthermore, by increasing the overall size or the ratio of the disordered zone under a fixed number of the whole chain, we observe that excitation localization occurs at a smaller disorder strength in the former case, while in the latter, a facilitation of the delocalization appears when a significant ratio of clean zone to disordered zone is applied. Our results can reveal the competition between the clean zone and the disordered zone sizes on localization phenomenon, give insights to non-equilibrium dynamics in the emitter-waveguide interface, and provide potential applications in quantum information processing.
翻訳日:2024-01-30 21:57:53 公開日:2024-01-29
# SGNN-LLM構文を用いた学習教材質問に対する学生のパフォーマンス予測

Enhancing Student Performance Prediction on Learnersourced Questions with SGNN-LLM Synergy ( http://arxiv.org/abs/2309.13500v3 )

ライセンス: Link先を確認
Lin Ni, Sijie Wang, Zeyu Zhang, Xiaoxuan Li, Xianda Zheng, Paul Denny, and Jiamou Liu(参考訳) learnersourcingは、学生のコンテンツ作成を通じて、スケーラブルな教育に大きな可能性を秘めている。 しかし,学習経験のパーソナライズに欠かせない学習者解答質問における生徒性能の予測は,学習者生成データに固有のノイズがあるため困難である。 さらに、従来のグラフベースの手法は、学生と質問の複雑なネットワークを捉えることができるが、質問への学生の関与が限られているコールドスタート条件下では不足しがちである。 両課題に対処するため,SGNN(Signed Graph Neural Networks)とLLM(Large Language Model)の組込みを統合可能な革新的な戦略を導入する。 提案手法は,学生の回答を総合的にモデル化する2部グラフを用いて,雑音のレジリエンスを高めるコントラスト学習フレームワークを補完する。 さらに、LLMの貢献は基礎的な質問の埋め込みの生成であり、グラフデータに制限された特徴を持つコールドスタートシナリオに対処する上で特に有利である。 PeerWiseプラットフォームからソースされた5つの実世界のデータセットに対する検証は、このアプローチの有効性を裏付けるものだ。 提案手法は,予測精度とロバスト性を向上し,ベースラインを向上する。

Learnersourcing offers great potential for scalable education through student content creation. However, predicting student performance on learnersourced questions, which is essential for personalizing the learning experience, is challenging due to the inherent noise in student-generated data. Moreover, while conventional graph-based methods can capture the complex network of student and question interactions, they often fall short under cold start conditions where limited student engagement with questions yields sparse data. To address both challenges, we introduce an innovative strategy that synergizes the potential of integrating Signed Graph Neural Networks (SGNNs) and Large Language Model (LLM) embeddings. Our methodology employs a signed bipartite graph to comprehensively model student answers, complemented by a contrastive learning framework that enhances noise resilience. Furthermore, LLM's contribution lies in generating foundational question embeddings, proving especially advantageous in addressing cold start scenarios characterized by limited graph data. Validation across five real-world datasets sourced from the PeerWise platform underscores our approach's effectiveness. Our method outperforms baselines, showcasing enhanced predictive accuracy and robustness.
翻訳日:2024-01-30 21:56:53 公開日:2024-01-29
# ブラックボックス最適化問題に対する進化的アルゴリズムの高速化

Speeding-up Evolutionary Algorithms to solve Black-Box Optimization Problems ( http://arxiv.org/abs/2309.13349v2 )

ライセンス: Link先を確認
Judith Echevarrieta, Etor Arza and Aritz P\'erez(参考訳) 集団に基づく進化的アルゴリズムは計算コストの高いブラックボックス最適化問題に近付くとしばしば考慮される。 彼らは、目的値を比較した後、与えられた集団から最良の解を選択するために選択メカニズムを使用し、次の集団を生成するために使用される。 この反復的なプロセスは、ソリューション空間を効率的に探索し、時間とともにソリューションを改善します。 しかし、これらのアルゴリズムは、評価コストが高い場合に計算コストがかかるような品質ソリューションを提供するために、多数の評価を必要とする。 場合によっては、元の目的関数をより精度の低いコスト近似で置き換えることが可能である。 これにより、評価コストと精度のトレードオフが生じる。 本稿では,最適化アルゴリズムの実行時に適切な近似関数コストを選択する手法を提案する。 提案手法では, 解が適切にランク付けされている場合の最小評価コストを見いだし, 精度の低下を最小限に抑えながら, 同じ時間内により多くの評価を計算できることを示す。 4つの非常に異なる問題に関する実験セクションでは、提案手法が特定の場合の半数未満の時間で同じ目的値に達することが示されている。

Population-based evolutionary algorithms are often considered when approaching computationally expensive black-box optimization problems. They employ a selection mechanism to choose the best solutions from a given population after comparing their objective values, which are then used to generate the next population. This iterative process explores the solution space efficiently, leading to improved solutions over time. However, these algorithms require a large number of evaluations to provide a quality solution, which might be computationally expensive when the evaluation cost is high. In some cases, it is possible to replace the original objective function with a less accurate approximation of lower cost. This introduces a trade-off between the evaluation cost and its accuracy. In this paper, we propose a technique capable of choosing an appropriate approximate function cost during the execution of the optimization algorithm. The proposal finds the minimum evaluation cost at which the solutions are still properly ranked, and consequently, more evaluations can be computed in the same amount of time with minimal accuracy loss. An experimental section on four very different problems reveals that the proposed approach can reach the same objective value in less than half of the time in certain cases.
翻訳日:2024-01-30 21:56:32 公開日:2024-01-29
# ブラックボックステキスト分類器のllm誘導因果説明可能性について

Towards LLM-guided Causal Explainability for Black-box Text Classifiers ( http://arxiv.org/abs/2309.13340v2 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu(参考訳) 自然言語処理(NLP)のような、より大規模で複雑なディープラーニングモデルの出現に伴い、説明可能性や解釈可能性といったモデル品質は、非常に望ましいものの、取り組みと解決が困難になっている。 例えば、テキスト分類における最先端モデルは、設計によるブラックボックスである。 標準的な説明方法はある程度の説明可能性を提供するが、これらはほとんど相関に基づく方法であり、モデルについてはあまり洞察を与えていない。 因果説明可能性の代替はより望ましいが、様々な理由からNLPでは極めて困難である。 近年の言語モデル(LLM)を専門家として活用する試みに触発されて,近年のLLMにおける命令追従とテキスト理解機能を活用し,ブラックボックステキスト分類器の対実的説明生成による因果的説明性の向上を目指す。 そこで我々は,(1)入力テキスト中の潜時的・非観測的特徴を識別し,(2)潜時的特徴に関連付けられた入力特徴を識別し,(3)識別された入力特徴を用いて対実的説明を生成する3段階のパイプラインを提案する。 我々は,近年のllmを用いて,複数のnlpテキスト分類データセット上でパイプラインを実験し,興味深い有望な知見を提示する。

With the advent of larger and more complex deep learning models, such as in Natural Language Processing (NLP), model qualities like explainability and interpretability, albeit highly desirable, are becoming harder challenges to tackle and solve. For example, state-of-the-art models in text classification are black-box by design. Although standard explanation methods provide some degree of explainability, these are mostly correlation-based methods and do not provide much insight into the model. The alternative of causal explainability is more desirable to achieve but extremely challenging in NLP due to a variety of reasons. Inspired by recent endeavors to utilize Large Language Models (LLMs) as experts, in this work, we aim to leverage the instruction-following and textual understanding capabilities of recent state-of-the-art LLMs to facilitate causal explainability via counterfactual explanation generation for black-box text classifiers. To do this, we propose a three-step pipeline via which, we use an off-the-shelf LLM to: (1) identify the latent or unobserved features in the input text, (2) identify the input features associated with the latent features, and finally (3) use the identified input features to generate a counterfactual explanation. We experiment with our pipeline on multiple NLP text classification datasets, with several recent LLMs, and present interesting and promising findings.
翻訳日:2024-01-30 21:56:16 公開日:2024-01-29
# 有限次元量子論のためのグラフィカル言語 qufinite zxw calculus の完全性

Completeness of qufinite ZXW calculus, a graphical language for finite-dimensional quantum theory ( http://arxiv.org/abs/2309.13014v2 )

ライセンス: Link先を確認
Quanlong Wang, Boldizs\'ar Po\'or and Razin A. Shaikh(参考訳) 有限次元量子理論は、量子情報と計算の理論的基礎となる。 数学的には、すべての有限次元ヒルベルト空間とそれらの間の線型写像からなる圏 FHilb で定式化される。 しかし、FHilbのグラフィカル言語は普遍的かつ完全であり、したがって書き直しのみによって基礎となる形式主義の等式を導出するのに十分なルールの集合を組み込んでいる。 本稿では,有限次元量子論を推論するためのグラフィカル言語である qufinite zxw calculus を紹介する。 任意のテンソルを表す一意な正規形式を設定し、任意のクエンファイト zxw 図を正規形式に書き換えることができることを示すことにより、この計算の完全性を証明する。 この結果は、定値なZXW計算と圏 FHilb の同値性を示し、同じ推論力を持つ有限次元量子論の純粋に図式的な枠組みをもたらす。 さらに,定値ZXW計算の適用が期待できる領域を複数同定する。 これらの領域にはスピンネットワーク、量子化学、量子プログラミング、量子アルゴリズムの高レベル記述、混合次元量子コンピューティングなどが含まれる。 我々の研究は、量子物理学の包括的な図式記述の道を開き、この分野の扉を広く一般に開放する。

Finite-dimensional quantum theory serves as the theoretical foundation for quantum information and computation. Mathematically, it is formalized in the category FHilb, comprising all finite-dimensional Hilbert spaces and linear maps between them. However, there has not been a graphical language for FHilb which is both universal and complete and thus incorporates a set of rules rich enough to derive any equality of the underlying formalism solely by rewriting. In this paper, we introduce the qufinite ZXW calculus - a graphical language for reasoning about finite-dimensional quantum theory. We set up a unique normal form to represent an arbitrary tensor and prove the completeness of this calculus by demonstrating that any qufinite ZXW diagram can be rewritten into its normal form. This result implies the equivalence of the qufinite ZXW calculus and the category FHilb, leading to a purely diagrammatic framework for finite-dimensional quantum theory with the same reasoning power. In addition, we identify several domains where the application of the qufinite ZXW calculus holds promise. These domains include spin networks, interacting mixed-dimensional systems in quantum chemistry, quantum programming, high-level description of quantum algorithms, and mixed-dimensional quantum computing. Our work paves the way for a comprehensive diagrammatic description of quantum physics, opening the doors of this area to the wider public.
翻訳日:2024-01-30 21:55:37 公開日:2024-01-29
# LARA: 教師なし異常検出のためのライトオーバーフィッティングリトレーニング手法

LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2310.05668v2 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qin, Yingying Zhang, Shuiguang Deng, Yi Xiao, Guansong Pang and Qingsong Wen(参考訳) 現在の異常検出モデルのほとんどは、通常のパターンは常に同じであると仮定している。 しかし、Webサービスの通常のパターンは劇的に変化します。 古い分散データでトレーニングされたモデルは、そのような変更の後に時代遅れになる。 モデル全体を毎回トレーニングするのは高価です。 また、通常のパターン変化の開始時点では、新しい分布からの観測データが不十分である。 限られたデータで大規模なニューラルネットワークモデルをトレーニングすることは、オーバーフィッティングに弱い。 そこで本研究では,深部変分オートエンコーダに基づく時系列異常検出法 (vaes) のための軽量・過給再訓練法 (lara) を提案する。 この作品は3つの新しい貢献を目指しています 1) 再訓練プロセスは凸問題として定式化され, 高速で収束し, 過度な適合を防止することができる。 2) 履歴データを保存せずに活用するラミネートブロックの設計 3) 潜在ベクトルと再構成データの微調整を行う場合, 線形生成は基底真理と微調整データとの間の誤差を最小に抑えることができることを数学的に証明する。 さらに,新しい分布から43のタイムスロットを持つLARAの再学習が,その競合するF1スコアを,十分なデータで訓練された最先端の異常検出モデルと比較する上で有効であることを示すために,多くの実験を行った。 また、光のオーバーヘッドも確認する。

Most of current anomaly detection models assume that the normal pattern remains same all the time. However, the normal patterns of Web services change dramatically and frequently. The model trained on old-distribution data is outdated after such changes. Retraining the whole model every time is expensive. Besides, at the beginning of normal pattern changes, there is not enough observation data from the new distribution. Retraining a large neural network model with limited data is vulnerable to overfitting. Thus, we propose a Light and Anti-overfitting Retraining Approach (LARA) for deep variational auto-encoder based time series anomaly detection methods (VAEs). This work aims to make three novel contributions: 1) the retraining process is formulated as a convex problem and can converge at a fast rate as well as prevent overfitting; 2) designing a ruminate block, which leverages the historical data without the need to store them; 3) mathematically proving that when fine-tuning the latent vector and reconstructed data, the linear formations can achieve the least adjusting errors between the ground truths and the fine-tuned ones. Moreover, we have performed many experiments to verify that retraining LARA with even 43 time slots of data from new distribution can result in its competitive F1 Score in comparison with the state-of-the-art anomaly detection models trained with sufficient data. Besides, we verify its light overhead.
翻訳日:2024-01-30 21:46:37 公開日:2024-01-29
# 散乱長と電位形状制御によるピコケルビンエネルギーへの物質波コリメーション

Matter-wave collimation to picokelvin energies with scattering length and potential shape control ( http://arxiv.org/abs/2310.04383v2 )

ライセンス: Link先を確認
Alexander Herbst, Timoth\'e Estrampes, Henning Albers, Robin Corgier, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul, Dennis Schlippert(参考訳) 原子間相互作用が物質波のその場コリメーション法に与える影響について検討した。 初期の研究である$^{87}$rbを用いて、原子散乱長を磁気フェッシュバッハ共鳴によって調整できる$^{39}$kのレンズプロトコルを適用した。 相互作用を最小化することで,実験における1次元展開(340$\pm$ 12)pkを観察する強い相互作用機構と比較して,コリメーションの強化を示す。 実験の結果は, アンサンブル力学を記述した正確なシミュレーションによって裏付けられ, 測定値から (438$\pm$ 77) pKの2次元弾道膨張エネルギーを推定することができる。 さらにシミュレーションを用いて、異なる相互作用強度に対する様々なトラップ構成の挙動を研究する。 本研究は, トラップ電位から解放された後, パルスデルタ・キック・コリメーションを付加することにより, 16 pK未満の3次元膨張エネルギーを実現できる高度なシナリオを提案する。 複雑な微小重力環境や長いベースライン環境を必要とせず、超精密な測定を行うために必要な典型的な双極子トラップ装置において、数十万の粒子と2桁のpK領域の3次元膨張エネルギーでアンサンブルを実現する方法を開発した。

We study the impact of atomic interactions on an in-situ collimation method for matter-waves. Building upon an earlier study with $^{87}$Rb, we apply a lensing protocol to $^{39}$K where the atomic scattering length can be tailored by means of magnetic Feshbach resonances. Minimizing interactions, we show an enhancement of the collimation compared to the strong interaction regime observing a one-dimensional expansion corresponding to (340 $\pm$ 12) pK in our experiment. Our results are supported by an accurate simulation, describing the ensemble dynamics, which allows us to extrapolate a 2D ballistic expansion energy of (438 $\pm$ 77) pK from our measurements. We further use the simulation to study the behavior of various trap configurations for different interaction strengths. Based on our findings we propose an advanced scenario which allows for 3D expansion energies below 16 pK by implementing an additional pulsed delta-kick collimation directly after release from the trapping potential. Our results pave the way to realize ensembles with hundreds of thousands of particles and 3D expansion energies in the two-digit pK range in typical dipole trap setups required to perform ultra-precise measurements without the need of complex micro-gravity or long-baseline environments.
翻訳日:2024-01-30 21:46:00 公開日:2024-01-29
# ICASSP SP Cadenza Challenge:音楽のデミックス/リミックス

The ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aids ( http://arxiv.org/abs/2310.03480v2 )

ライセンス: Link先を確認
Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister, Jon Barker, Trevor J. Cox, Bruno Fazenda, Jennifer Firth, Simone Graetzer, Alinka Greasley, Rebecca R. Vos, William M. Whitmer(参考訳) 本稿では,2024年のICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aidsの設計と成果について報告する。 Cadenzaプロジェクトは、聴覚障害のある人のための音楽の音質向上に取り組んでいる。 この挑戦のシナリオは、補聴器を通してスピーカーのステレオ再生を聞くことだった。 ポップ/ロック音楽をボーカル、ドラム、ベース、その他の(vdbo)に分解し、異なる曲を特定のゲインで再調整し、その後ステレオにリミックスする。 エンドツーエンドのアプローチも受け入れられた。 17のシステムが11チームによって提出された。 因果システムは非因果的アプローチよりも貧弱であった。 9システムがベースラインを上回った。 一般的なアプローチは、事前訓練されたデミックスモデルの微調整であった。 最良のアプローチはモデルのアンサンブルを使用した。

This paper reports on the design and results of the 2024 ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aids. The Cadenza project is working to enhance the audio quality of music for those with a hearing loss. The scenario for the challenge was listening to stereo reproduction over loudspeakers via hearing aids. The task was to: decompose pop/rock music into vocal, drums, bass and other (VDBO); rebalance the different tracks with specified gains and then remixing back to stereo. End-to-end approaches were also accepted. 17 systems were submitted by 11 teams. Causal systems performed poorer than non-causal approaches. 9 systems beat the baseline. A common approach was to fine-tuning pretrained demixing models. The best approach used an ensemble of models.
翻訳日:2024-01-30 21:45:33 公開日:2024-01-29
# デノジング拡散ステップアウェアモデル

Denoising Diffusion Step-aware Models ( http://arxiv.org/abs/2310.03337v2 )

ライセンス: Link先を確認
Shuai Yang, Yukang Chen, Luozhou Wang, Shu Liu, Yingcong Chen(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、さまざまな領域にわたるデータ生成で人気を集めている。 しかし、大きなボトルネックは、生成プロセスのステップ毎にネットワーク全体の計算が必要であり、計算オーバーヘッドが高くなることである。 本稿では,この課題に対処するための新しいフレームワークDDSM(Denoising Diffusion Step-Aware Models)を提案する。 従来のアプローチとは異なり、DDSMは進化探索によって決定されるように、各生成ステップの重要性に応じてサイズが適応されるニューラルネットワークのスペクトルを用いる。 このステップワイズネットワークのばらつきは、冗長な計算作業を、特に批判の少ないステップで効果的に回避し、拡散モデルの効率を向上する。 さらに、ステップアウェア設計はDDIMや潜時拡散といった他の効率ゲージ拡散モデルとシームレスに統合することができ、計算節約の範囲を広げることができる。 実験的な評価では、DDSMはCIFAR-10で49%、CelebA-HQで61%、LSUN-bedroomで59%、AFHQで71%、ImageNetで76%の計算節約を達成した。

Denoising Diffusion Probabilistic Models (DDPMs) have garnered popularity for data generation across various domains. However, a significant bottleneck is the necessity for whole-network computation during every step of the generative process, leading to high computational overheads. This paper presents a novel framework, Denoising Diffusion Step-aware Models (DDSM), to address this challenge. Unlike conventional approaches, DDSM employs a spectrum of neural networks whose sizes are adapted according to the importance of each generative step, as determined through evolutionary search. This step-wise network variation effectively circumvents redundant computational efforts, particularly in less critical steps, thereby enhancing the efficiency of the diffusion model. Furthermore, the step-aware design can be seamlessly integrated with other efficiency-geared diffusion models such as DDIMs and latent diffusion, thus broadening the scope of computational savings. Empirical evaluations demonstrate that DDSM achieves computational savings of 49% for CIFAR-10, 61% for CelebA-HQ, 59% for LSUN-bedroom, 71% for AFHQ, and 76% for ImageNet, all without compromising the generation quality.
翻訳日:2024-01-30 21:45:19 公開日:2024-01-29
# モデルが捨てるべきものを教えてくれる: llmsの適応kvキャッシュ圧縮

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs ( http://arxiv.org/abs/2310.01801v3 )

ライセンス: Link先を確認
Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao(参考訳) 本研究では,大規模言語モデル(llm)における生成推論のメモリフットプリントを削減するプラグアンドプレイ方式であるadaptive kv cache compressionを提案する。 全てのコンテキストトークンに対してキーベクトルと値ベクトルを保持する従来のKVキャッシュとは異なり、注意モジュールの固有の構造を識別するためにターゲットプロファイリングを行う。 認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュを使用する。 さらに、適応的なKVキャッシュの構築を導くために軽量なアテンションプロファイリングを使用すると、FastGenはリソース集約的な微調整や再トレーニングなしでデプロイできる。 様々な質問に対して行った実験では、FastGenは生成品質の低下を無視してGPUメモリ消費を大幅に削減することを示した。 再現性のために、コードと互換性のあるCUDAカーネルをリリースします。

In this study, we introduce adaptive KV cache compression, a plug-and-play method that reduces the memory footprint of generative inference for Large Language Models (LLMs). Different from the conventional KV cache that retains key and value vectors for all context tokens, we conduct targeted profiling to discern the intrinsic structure of attention modules. Based on the recognized structure, we then construct the KV cache in an adaptive manner: evicting long-range contexts on attention heads emphasizing local contexts, discarding non-special tokens on attention heads centered on special tokens, and only employing the standard KV cache for attention heads that broadly attend to all tokens. Moreover, with the lightweight attention profiling used to guide the construction of the adaptive KV cache, FastGen can be deployed without resource-intensive fine-tuning or re-training. In our experiments across various asks, FastGen demonstrates substantial reduction on GPU memory consumption with negligible generation quality loss. We will release our code and the compatible CUDA kernel for reproducibility.
翻訳日:2024-01-30 21:44:13 公開日:2024-01-29
# 大規模言語モデルの再プログラムによる時系列予測

Time-LLM: Time Series Forecasting by Reprogramming Large Language Models ( http://arxiv.org/abs/2310.01728v2 )

ライセンス: Link先を確認
Ming Jin, Shiyu Wang, Lintao Ma, Zhixuan Chu, James Y. Zhang, Xiaoming Shi, Pin-Yu Chen, Yuxuan Liang, Yuan-Fang Li, Shirui Pan, Qingsong Wen(参考訳) 時系列予測は多くの実世界の力学系において重要であり、広く研究されている。 単一の大きなモデルが複数のタスクを処理できる自然言語プロセス(nlp)やコンピュータビジョン(cv)とは異なり、時系列予測のモデルはしばしば専門化され、異なるタスクやアプリケーションのために異なる設計が必要となる。 事前訓練された基礎モデルは、NLPとCVにおいて顕著な進歩を遂げてきたが、時系列領域におけるそれらの開発は、データの分散によって制約されている。 近年の研究では、大規模言語モデル(llm)が複雑なトークン列よりもロバストなパターン認識と推論能力を持っていることが示されている。 しかし、これらの能力を活用するために時系列データと自然言語のモダリティを効果的に整合させることが課題である。 本研究では,バックボーン言語モデルを用いて時系列予測を行うため,LLMを再利用するプログラミングフレームワークであるTime-LLMを提案する。 まず、入力時系列をテキストプロトタイプでプログラムし、凍結したLCMに入力して2つのモードを整列させる。 LLMの時系列データによる推論能力を高めるために,入力コンテキストを充実させ,再プログラムされた入力パッチの変換を指示するPrompt-as-Prefix (PaP)を提案する。 LLMから変換された時系列パッチは最終的に予測を得るために投影される。 我々の総合的な評価は、Time-LLMは最先端の特殊予測モデルを上回る強力な時系列学習者であることを示している。 さらに、Time-LLMは、数ショットとゼロショットの両方の学習シナリオで優れている。

Time series forecasting holds significant importance in many real-world dynamic systems and has been extensively studied. Unlike natural language process (NLP) and computer vision (CV), where a single large model can tackle multiple tasks, models for time series forecasting are often specialized, necessitating distinct designs for different tasks and applications. While pre-trained foundation models have made impressive strides in NLP and CV, their development in time series domains has been constrained by data sparsity. Recent studies have revealed that large language models (LLMs) possess robust pattern recognition and reasoning abilities over complex sequences of tokens. However, the challenge remains in effectively aligning the modalities of time series data and natural language to leverage these capabilities. In this work, we present Time-LLM, a reprogramming framework to repurpose LLMs for general time series forecasting with the backbone language models kept intact. We begin by reprogramming the input time series with text prototypes before feeding it into the frozen LLM to align the two modalities. To augment the LLM's ability to reason with time series data, we propose Prompt-as-Prefix (PaP), which enriches the input context and directs the transformation of reprogrammed input patches. The transformed time series patches from the LLM are finally projected to obtain the forecasts. Our comprehensive evaluations demonstrate that Time-LLM is a powerful time series learner that outperforms state-of-the-art, specialized forecasting models. Moreover, Time-LLM excels in both few-shot and zero-shot learning scenarios.
翻訳日:2024-01-30 21:43:53 公開日:2024-01-29
# 文字レベル言語モデルを用いたメロディからの音節レベルの歌詞生成

Syllable-level lyrics generation from melody exploiting character-level language model ( http://arxiv.org/abs/2310.00863v2 )

ライセンス: Link先を確認
Zhe Zhang, Karol Lasocki, Yi Yu, Atsuhiro Takasu(参考訳) メロディーと密接に結びついた歌詞の生成は、歌詞の音節と音節のマッピングを確立することを含む。 このプロセスは、音節レベル、単語レベル、文レベルの意味における音楽制約と意味パターンの深い理解を必要とする。 しかし、音節レベルで特別に設計された事前訓練された言語モデルは一般には利用できない。 これらの課題を解決するため,シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。 特に,本手法は,言語モデルの言語知識を,音節レベルトランスフォーマレータネットワークのビーム探索プロセスに組み込もうとするものである。 さらに,生成された歌詞に対するChatGPTに基づく評価と人間の主観的評価を併用して,提案手法が生成した歌詞の一貫性と正確性を高め,高価な新言語モデルを訓練する必要がなくなることを示した。

The generation of lyrics tightly connected to accompanying melodies involves establishing a mapping between musical notes and syllables of lyrics. This process requires a deep understanding of music constraints and semantic patterns at syllable-level, word-level, and sentence-level semantic meanings. However, pre-trained language models specifically designed at the syllable level are publicly unavailable. To solve these challenging issues, we propose to exploit fine-tuning character-level language models for syllable-level lyrics generation from symbolic melody. In particular, our method endeavors to incorporate linguistic knowledge of the language model into the beam search process of a syllable-level Transformer generator network. Additionally, by exploring ChatGPT-based evaluation for generated lyrics, along with human subjective evaluation, we demonstrate that our approach enhances the coherence and correctness of the generated lyrics, eliminating the need to train expensive new language models.
翻訳日:2024-01-30 21:42:59 公開日:2024-01-29
# 大規模言語モデルのためのオープンソースデータ汚染レポート

An Open Source Data Contamination Report for Large Language Models ( http://arxiv.org/abs/2310.17589v3 )

ライセンス: Link先を確認
Yucheng Li, Frank Guerin, Chenghua Lin(参考訳) モデル評価におけるデータ汚染は、大規模言語モデルの普及に伴い、ますます広まりつつある。 モデルが本当の能力を示すのではなく、記憶を通じて“焼く”ことができるのです。 そのため, 汚染分析は信頼性モデル評価において重要な要素となり, 評価結果が得られた。 しかし、既存の汚染分析は通常、大きな言語モデル開発者によって内部で行われ、透明性と完全性に欠けることが多い。 本稿では,6つの人気多目的QAベンチマークにおける15以上の人気大言語モデルに対する広範なデータ汚染レポートを提案する。 また,コミュニティがカスタマイズされたデータやモデルに対して汚染分析を行うことのできる,オープンソースのパイプラインも導入する。 実験の結果, 汚染レベルは, ベンチマークで1\%から45\%まで変化し, 汚染度は経時的に急速に増加することが明らかとなった。 汚染されたC-EvalとHellaswagのベンチマークでは、最大14\%と7\%の大幅な精度向上が観測されているが、汚染されたMMLUでは最小限の増加しか報告されていない。 また、汚染されたテストセットの小さいモデルよりも大きなモデルの方が利点があるようです。

Data contamination in model evaluation has become increasingly prevalent with the growing popularity of large language models. It allows models to "cheat" via memorisation instead of displaying true capabilities. Therefore, contamination analysis has become an crucial part of reliable model evaluation to validate results. However, existing contamination analysis is usually conducted internally by large language model developers and often lacks transparency and completeness. This paper presents an extensive data contamination report for over 15 popular large language models across six popular multiple-choice QA benchmarks. We also introduce an open-source pipeline that enables the community to perform contamination analysis on customised data and models. Our experiments reveal varying contamination levels ranging from 1\% to 45\% across benchmarks, with the contamination degree increasing rapidly over time. Performance analysis of large language models indicates that data contamination does not necessarily lead to increased model metrics: while significant accuracy boosts of up to 14\% and 7\% are observed on contaminated C-Eval and Hellaswag benchmarks, only a minimal increase is noted on contaminated MMLU. We also find larger models seem able to gain more advantages than smaller models on contaminated test sets.
翻訳日:2024-01-30 21:35:34 公開日:2024-01-29
# 大規模言語モデル評価ベンチマークとしての語彙テストの確立

Establishing Vocabulary Tests as a Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2310.14703v2 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Javier Conde, Elena Merino-G\'omez, Beatriz Berm\'udez-Margaretto, Jos\'e Alberto Hern\'andez, Pedro Reviriego, Marc Brysbaert(参考訳) かつては言語モデリング評価の基礎であった語彙テストは、Llama、Mistral、GPTといったLarge Language Models(LLM)の現在の状況において、ほとんど見過ごされてきた。 ほとんどのLCM評価ベンチマークは特定のタスクやドメイン固有の知識に焦点を当てているが、言語理解と生産の基本的な言語的側面を無視することが多い。 本稿では,LLMの性能評価のための貴重なツールとして,語彙テストの復活を提唱する。 2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。 これらの知見は, LLM単語表現の複雑さ, 学習機構, モデルや言語間の性能変化に光を当てた。 さらに、語彙テストの自動生成と実行は、アプローチを拡張し、LLMの言語スキルのより完全な画像を提供する新たな機会を提供する。

Vocabulary tests, once a cornerstone of language modeling evaluation, have been largely overlooked in the current landscape of Large Language Models (LLMs) like Llama, Mistral, and GPT. While most LLM evaluation benchmarks focus on specific tasks or domain-specific knowledge, they often neglect the fundamental linguistic aspects of language understanding and production. In this paper, we advocate for the revival of vocabulary tests as a valuable tool for assessing LLM performance. We evaluate seven LLMs using two vocabulary test formats across two languages and uncover surprising gaps in their lexical knowledge. These findings shed light on the intricacies of LLM word representations, their learning mechanisms, and performance variations across models and languages. Moreover, the ability to automatically generate and perform vocabulary tests offers new opportunities to expand the approach and provide a more complete picture of LLMs' language skills.
翻訳日:2024-01-30 21:35:16 公開日:2024-01-29
# 非エルミート光線シフトにおけるpt遷移の非均質偏光変換

Inhomogeneous Polarization Transformation Reveals PT-Transition in non-Hermitian Optical Beam Shift ( http://arxiv.org/abs/2310.14210v2 )

ライセンス: Link先を確認
Niladri Modak, Swain Ashutosh, Shyamal Guchhait, Sayan Ghosh, Ritwik Dhara, Jeeban Kumar Nayak, Sourin Das, Nirmalya Ghosh(参考訳) 非エルミート的性質にもかかわらず、逆光ビームシフトは実際の固有値と非直交固有状態の両方を示す。 典型的なPT(パリティ時)対称系とこの予期せぬ類似性を探るため、まず、光ビームシフトのパラメトリック状態全体をエルミート、PTアンブローク、PTアンブローク相に分類する。 PT破壊機構を実験的に明らかにすることに加えて、観測されたPT遷移がビームの運動量領域不均一偏光変換に根ざしていることを示す。 典型的な非エルミートフォトニックシステムとの対応はさらに確立されている。 我々の研究は、光ビームシフトの分野における長年の根本的な問題を解決するだけでなく、新しい非ヘルミットスピン軌道フォトニクス(光ビームシフトを通じて非ヘルミット物理学を研究するための新しい方向)の概念を推し進めている。

Despite its non-Hermitian nature, the transverse optical beam shift exhibits both real eigenvalues and non-orthogonal eigenstates. To explore this unexpected similarity to typical PT (parity-time)-symmetric systems, we first categorize the entire parametric regime of optical beam shifts into Hermitian, PT-unbroken, and PT-broken phases. Besides experimentally unveiling the PT-broken regime, crucially, we illustrate that the observed PT-transition is rooted in the momentum-domain inhomogeneous polarization transformation of the beam. The correspondence with a typical non-Hermitian photonic system is further established. Our work not only resolves a longstanding fundamental issue in the field of optical beam shift but also puts forward the notion of novel non-Hermitian spin-orbit photonics: a new direction to study non-Hermitian physics through the optical beam shifts.
翻訳日:2024-01-30 21:34:37 公開日:2024-01-29
# 量子ワンウェイネスからのコミットメント

Commitments from Quantum One-Wayness ( http://arxiv.org/abs/2310.11526v4 )

ライセンス: Link先を確認
Dakshita Khurana (UIUC) and Kabir Tomer (UIUC)(参考訳) 片道関数は古典暗号の中心である。 これらは、非自明な古典暗号システムの存在のために必要であり、コミットメント、擬似ランダム生成器、デジタル署名を含む有意義なプリミティブを実現するのに十分である。 同時に、仮説が一方的な関数よりも弱いことが、ビットコミットメントやセキュアなマルチパーティ計算を含む多くの量子世界に興味を持つ暗号的タスクに十分であることを示している。 本研究は, 片道関数の自然量子緩和である片道状態発生器[森前-山川, CRYPTO 2022]を研究する。 秘密鍵が与えられた場合、一方の状態発生器は、量子状態の反転が難しい状態を出力する。 根本的な問題は、このタイプの量子ワンウェイネスが量子暗号を実現するのに十分であるかどうかである。 純粋な状態を持つ一方向状態生成器が量子ビットのコミットメントを生じさせ、マルチパーティ計算を安全に行うことを証明し、この問題に対する肯定的な答えを得る。 その過程で、古典的な出力を持つ中間プリミティブを構築し、これを(量子)片道パズルと呼ぶ。 我々の主な技術的貢献は、一方のパズルが量子ビットのコミットメントを暗示する証拠である。

One-way functions are central to classical cryptography. They are both necessary for the existence of non-trivial classical cryptosystems, and sufficient to realize meaningful primitives including commitments, pseudorandom generators and digital signatures. At the same time, a mounting body of evidence suggests that assumptions even weaker than one-way functions may suffice for many cryptographic tasks of interest in a quantum world, including bit commitments and secure multi-party computation. This work studies one-way state generators [Morimae-Yamakawa, CRYPTO 2022], a natural quantum relaxation of one-way functions. Given a secret key, a one-way state generator outputs a hard to invert quantum state. A fundamental question is whether this type of quantum one-wayness suffices to realize quantum cryptography. We obtain an affirmative answer to this question, by proving that one-way state generators with pure state outputs imply quantum bit commitments and secure multiparty computation. Along the way, we build an intermediate primitive with classical outputs, which we call a (quantum) one-way puzzle. Our main technical contribution is a proof that one-way puzzles imply quantum bit commitments.
翻訳日:2024-01-30 21:33:57 公開日:2024-01-29
# 代数的操作によるダイアグラムの充実

Enriching Diagrams with Algebraic Operations ( http://arxiv.org/abs/2310.11288v3 )

ライセンス: Link先を確認
Alejandro Villoria, Henning Basold, Alfons Laarman(参考訳) 本稿では,代数演算と方程式を持つモノイド圏の図式推論を拡張する。 我々は、モナドに対するアイレンバーグ-ムーア環の圏に富むモノイド圏を考えることによってこれを達成する。 このモナドがモノイドとアフィンであるという条件の下で、モナドに対する対称モノイド圏と対称モノイド圏の間の結合を構築する。 これにより、有限分布モナドの代数である凸代数を自由に拡張することにより、確率的選択を持つZX-計算の拡張とその意味論を考案することができる。 この構成を量子システムにおけるノイズの図式推論に利用できることを示す。

In this paper, we extend diagrammatic reasoning in monoidal categories with algebraic operations and equations. We achieve this by considering monoidal categories that are enriched in the category of Eilenberg-Moore algebras for a monad. Under the condition that this monad is monoidal and affine, we construct an adjunction between symmetric monoidal categories and symmetric monoidal categories enriched over algebras for the monad. This allows us to devise an extension, and its semantics, of the ZX-calculus with probabilistic choices by freely enriching over convex algebras, which are the algebras of the finite distribution monad. We show how this construction can be used for diagrammatic reasoning of noise in quantum systems.
翻訳日:2024-01-30 21:33:37 公開日:2024-01-29
# sigmoid ボトルネックの改ざん : アルグマブル・スパース・マルチラベル分類の可能性

Taming the Sigmoid Bottleneck: Provably Argmaxable Sparse Multi-Label Classification ( http://arxiv.org/abs/2310.10443v2 )

ライセンス: Link先を確認
Andreas Grivas and Antonio Vergari and Adam Lopez(参考訳) シグモイド出力層はマルチラベル分類(MLC)タスクで広く使われており、複数のラベルを任意の入力に割り当てることができる。 多くの実用的なmlcタスクでは、可能なラベルの数は数千個であり、入力機能の数を上回り、低ランクの出力層となることが多い。 マルチクラス分類では、そのような低ランクな出力層がボトルネックとなり、任意の入力に対して予測できないクラスが最大ではないことが知られている。 本稿では, MLCタスクに対して, 類似シグモイドボトルネックが指数関数的に多くのラベルの組み合わせをもたらすことを示す。 本稿では,これらの不規則な出力を検出する方法を説明し,その存在を3つの広く使用されているMLCデータセットで示す。 次に、離散フーリエ変換(DFT)出力層を導入して、最大$kのアクティブラベルとスパースラベルの組み合わせがargmax可能であることを保証し、実際にそれらを防ぐことができることを示す。 我々のDFT層はより速く、よりパラメータ効率が良く、最大50%のトレーニング可能なパラメータを使用しながらシグモノイド層のF1@kスコアと一致する。 私たちのコードはhttps://github.com/andreasgrv/sigmoid-bottleneckで公開されています。

Sigmoid output layers are widely used in multi-label classification (MLC) tasks, in which multiple labels can be assigned to any input. In many practical MLC tasks, the number of possible labels is in the thousands, often exceeding the number of input features and resulting in a low-rank output layer. In multi-class classification, it is known that such a low-rank output layer is a bottleneck that can result in unargmaxable classes: classes which cannot be predicted for any input. In this paper, we show that for MLC tasks, the analogous sigmoid bottleneck results in exponentially many unargmaxable label combinations. We explain how to detect these unargmaxable outputs and demonstrate their presence in three widely used MLC datasets. We then show that they can be prevented in practice by introducing a Discrete Fourier Transform (DFT) output layer, which guarantees that all sparse label combinations with up to $k$ active labels are argmaxable. Our DFT layer trains faster and is more parameter efficient, matching the F1@k score of a sigmoid layer while using up to 50% fewer trainable parameters. Our code is publicly available at https://github.com/andreasgrv/sigmoid-bottleneck.
翻訳日:2024-01-30 21:32:12 公開日:2024-01-29
# ねじれ光モードの純度探索ツールとしての原子光励起

Atomic photoexcitation as a tool for probing purity of twisted light modes ( http://arxiv.org/abs/2310.10197v2 )

ライセンス: Link先を確認
R. P. Schmidt, S. Ramakrishna, A. A. Peshkov, N. Huntemann, E. Peik, S. Fritzsche, A. Surzhykov(参考訳) 現代の原子物理学実験で用いられるねじれ光モードは、平面波放射の小さな混合によって汚染される。 これらの混合物はビーム強度プロファイルにはほとんど現れないが、高精度分光測定の結果に深刻な影響を及ぼす可能性がある。 本研究では,"twisted + plane wave"放射と相互作用する原子やイオンの磁気サブレベル集団の解析に基づいて,このような平面波汚染を診断する方法を提案する。 原子密度行列の時間発展について、理論的に下層集団を研究するために、Louville-von Neumann方程式を解く。 提案法は, 電気双極子5s, {}^{2}\mathrm{S}_{1/2} \, - \, 5p \, {}^{2}\mathrm{P}_{3/2}$ Rb の(直線的, 放射的, あるいは方位的に偏光された)渦光による遷移を, わずかに汚染した状態で示す。 平面波放射の小さな混ざり合いでさえ、地中磁気サブレベルの個体群に顕著な変動をもたらすことが判明した。 これにより、原子分光実験におけるツイスト光の診断の新しい機会が開かれる。

The twisted light modes used in modern atomic physics experiments can be contaminated by small admixtures of plane wave radiation. Although these admixtures hardly reveal themselves in the beam intensity profile, they may seriously affect the outcome of high precision spectroscopy measurements. In the present study we propose a method for diagnosing such a plane wave contamination, which is based on the analysis of the magnetic sublevel population of atoms or ions interacting with the "twisted + plane wave" radiation. In order to theoretically investigate the sublevel populations, we solve the Liouville-von Neumann equation for the time evolution of atomic density matrix. The proposed method is illustrated for the electric dipole $5s \, {}^{2}\mathrm{S}_{1/2} \, - \, 5p \, {}^{2}\mathrm{P}_{3/2}$ transition in Rb induced by (linearly, radially, or azimuthally polarized) vortex light with just a small contamination. We find that even tiny admixtures of plane wave radiation can lead to remarkable variations in the populations of the ground-state magnetic sublevels. This opens up new opportunities for diagnostics of twisted light in atomic spectroscopy experiments.
翻訳日:2024-01-30 21:31:51 公開日:2024-01-29
# BioT5: 生物と化学知識と自然言語の相互統合を充実させる

BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations ( http://arxiv.org/abs/2310.07276v3 )

ライセンス: Link先を確認
Qizhi Pei, Wei Zhang, Jinhua Zhu, Kehan Wu, Kaiyuan Gao, Lijun Wu, Yingce Xia, Rui Yan(参考訳) 生物学的研究の最近の進歩は、分子、タンパク質、自然言語の統合を利用して薬物発見を促進する。 しかし、現在のモデルでは、不正な分子スマイルの生成、文脈情報の過小利用、構造化および非構造化知識の平等な扱いなど、いくつかの制限が示されている。 これらの問題に対処するために,我々は生物学におけるクロスモーダル統合と化学知識と自然言語関連を充実させる包括的事前学習フレームワークである$\mathbf{biot5}$を提案する。 $\mathbf{BioT5}$は、SELFIESを100%のロバストな分子表現に利用し、非構造生物文学におけるバイオエンティティの周囲の文脈から知識を抽出する。 さらに、$\mathbf{BioT5}$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。 微調整後、BioT5は幅広いタスクにおいて優れたパフォーマンスを示し、バイオエンティティの基盤となる関係と特性を捉える強力な能力を示している。 私たちのコードは$\href{https://github.com/QizhiPei/BioT5}{Github}$で利用可能です。

Recent advancements in biological research leverage the integration of molecules, proteins, and natural language to enhance drug discovery. However, current models exhibit several limitations, such as the generation of invalid molecular SMILES, underutilization of contextual information, and equal treatment of structured and unstructured knowledge. To address these issues, we propose $\mathbf{BioT5}$, a comprehensive pre-training framework that enriches cross-modal integration in biology with chemical knowledge and natural language associations. $\mathbf{BioT5}$ utilizes SELFIES for $100%$ robust molecular representations and extracts knowledge from the surrounding context of bio-entities in unstructured biological literature. Furthermore, $\mathbf{BioT5}$ distinguishes between structured and unstructured knowledge, leading to more effective utilization of information. After fine-tuning, BioT5 shows superior performance across a wide range of tasks, demonstrating its strong capability of capturing underlying relations and properties of bio-entities. Our code is available at $\href{https://github.com/QizhiPei/BioT5}{Github}$.
翻訳日:2024-01-30 21:30:48 公開日:2024-01-29
# 半監督潜在過程を用いた深部生成モデルを用いた複雑疾患軌跡のモデル化

Modeling Complex Disease Trajectories using Deep Generative Models with Semi-Supervised Latent Processes ( http://arxiv.org/abs/2311.08149v3 )

ライセンス: Link先を確認
C\'ecile Trottet, Manuel Sch\"urch, Ahmed Allam, Imon Barua, Liubov Petelytska, Oliver Distler, Anna-Maria Hoffmann-Vold, Michael Krauthammer, the EUSTAR collaborators(参考訳) 本稿では,複雑な疾患の軌跡をモデル化・全体解析するために,潜時過程を用いた深部生成時系列手法を提案する。 我々は、観察された疾患の軌跡を解釈可能かつ包括的に説明する、根底にある生成過程の有意義な時間的潜在表現を見つけることを目的としている。 これらの潜時過程の解釈性を高めるために,確立された医学概念を用いて潜時空間を分離する半教師ありアプローチを開発した。 生成的アプローチと医療知識を組み合わせることで、医療概念をモデルに統合しながら、疾患の新たな側面を発見する能力を活用する。 本研究は, 同様の症例の発見や新たなサブタイプへのクラスタリングを含む, さらなるデータ分析および臨床仮説テストに, 学習時潜伏過程を活用できることを示唆する。 さらに,不確実性定量化を含む多変量時系列のパーソナライズされたオンラインモニタリングと予測を可能にする。 我々は,全身性硬化症をモデル化し,複雑な疾患の軌跡を捉え,新たな医学的知識を得るための機械学習モデルの可能性を示す。

In this paper, we propose a deep generative time series approach using latent temporal processes for modeling and holistically analyzing complex disease trajectories. We aim to find meaningful temporal latent representations of an underlying generative process that explain the observed disease trajectories in an interpretable and comprehensive way. To enhance the interpretability of these latent temporal processes, we develop a semi-supervised approach for disentangling the latent space using established medical concepts. By combining the generative approach with medical knowledge, we leverage the ability to discover novel aspects of the disease while integrating medical concepts into the model. We show that the learned temporal latent processes can be utilized for further data analysis and clinical hypothesis testing, including finding similar patients and clustering the disease into new sub-types. Moreover, our method enables personalized online monitoring and prediction of multivariate time series including uncertainty quantification. We demonstrate the effectiveness of our approach in modeling systemic sclerosis, showcasing the potential of our machine learning model to capture complex disease trajectories and acquire new medical knowledge.
翻訳日:2024-01-30 21:24:47 公開日:2024-01-29
# tabdoor: 表データ用トランスフォーマーベースのニューラルネットワークのバックドア脆弱性

Tabdoor: Backdoor Vulnerabilities in Transformer-based Neural Networks for Tabular Data ( http://arxiv.org/abs/2311.07550v2 )

ライセンス: Link先を確認
Bart Pleiter, Behrad Tajalli, Stefanos Koffas, Gorka Abad, Jing Xu, Martha Larson, Stjepan Picek(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな領域で大きな可能性を示しています。 これらの開発に加えて、バックドアアタックなどのDNNトレーニングに関連する脆弱性も重大な懸念事項である。 これらの攻撃は、モデルトレーニング中にトリガーを微妙に挿入し、操作された予測を可能にすることを含み、最近ではトランスフォーマーモデルの増加により、表データ用のdnnが注目を集めている。 本研究は,DNNを用いた表型データに対するバックドア攻撃の包括的解析である。 表データの本質的な複雑さを考えると、バックドアを埋め込むという課題を探求する。 ベンチマークデータセット間の系統的な実験を通じて、表データ用のトランスフォーマーベースのdnnが、最小限の機能値の変更でもバックドア攻撃に非常に影響を受けやすいことを明らかにする。 また、我々の攻撃がXGBoostやDeepFMといった他のモデルに一般化可能であることも確認しています。 結果は,表データに新たなバックドア攻撃戦略を導入することで,ほぼ完全な攻撃成功率(約100%)を示している。 さらに,これらの攻撃に対する防御を複数評価し,スペクトルシグネチャを最も有効なシグネチャと同定した。 本研究は,これらの脆弱性に対処する上での緊急性を強調し,表形式でのバックドアに対するDNNモデルのセキュリティ対策に関する知見を提供する。

Deep Neural Networks (DNNs) have shown great promise in various domains. Alongside these developments, vulnerabilities associated with DNN training, such as backdoor attacks, are a significant concern. These attacks involve the subtle insertion of triggers during model training, allowing for manipulated predictions.More recently, DNNs for tabular data have gained increasing attention due to the rise of transformer models. Our research presents a comprehensive analysis of backdoor attacks on tabular data using DNNs, particularly focusing on transformers. Given the inherent complexities of tabular data, we explore the challenges of embedding backdoors. Through systematic experimentation across benchmark datasets, we uncover that transformer-based DNNs for tabular data are highly susceptible to backdoor attacks, even with minimal feature value alterations. We also verify that our attack can be generalized to other models, like XGBoost and DeepFM. Our results indicate nearly perfect attack success rates (approximately 100%) by introducing novel backdoor attack strategies to tabular data. Furthermore, we evaluate several defenses against these attacks, identifying Spectral Signatures as the most effective one. Our findings highlight the urgency of addressing such vulnerabilities and provide insights into potential countermeasures for securing DNN models against backdoors in tabular data.
翻訳日:2024-01-30 21:23:51 公開日:2024-01-29
# 断熱的離散レベルハミルトニアンの特殊WKB解析

Exact WKB analysis for adiabatic discrete-level Hamiltonians ( http://arxiv.org/abs/2311.05871v2 )

ライセンス: Link先を確認
Takayuki Suzuki, Eiki Taniguchi, Kaito Iwamura(参考訳) 断熱的ハミルトニアンの下での量子系の力学は、量子制御だけでなく、凝縮物質物理学から高エネルギー物理学まで幅広い分野にも注目されている。 ここでは,非摂動解析手法の一つであるWKB解析を用いて,二段階系と多段階系の断熱力学を解析する。 その結果、二段階系の既知の公式と類似した遷移確率の公式が得られる。 断熱限界の非摂動解析は多レベルシステムではめったに研究されていないが、同じ分析を適用でき、具体例を示すことができる。 この結果は、物理学の様々な分野における正確な wkb 解析の応用の基礎となる。

The dynamics of quantum systems under the adiabatic Hamiltonian has attracted attention not only in quantum control but also in a wide range of fields from condensed matter physics to high-energy physics because of its non-perturbative behavior. Here we analyze the adiabatic dynamics in the two-level systems and the multilevel systems using the exact WKB analysis, which is one of the non-perturbative analysis methods. As a result, we obtain a formula for the transition probability, which is similar to the known formula in the two-level system. Although non-perturbative analysis in the adiabatic limit has rarely been studied for multilevel systems, we show that the same analysis can be applied and also provide a concrete example. The results will serve as a basis for the application of the exact WKB analysis in various fields of physics.
翻訳日:2024-01-30 21:23:04 公開日:2024-01-29
# 補助的相互モーダル相互作用を持つ関係時間グラフニューラルネットワークを用いた会話理解

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction ( http://arxiv.org/abs/2311.04507v2 )

ライセンス: Link先を確認
Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le(参考訳) 感情認識は人間の会話理解にとって重要な課題である。 言語、音声、表情といったマルチモーダルデータの概念により、より困難になる。 典型的な解決策として、グローバルとローカルのコンテキスト情報は、対話中の各文、すなわち発話の感情ラベルを予測するために利用される。 特に、グローバル表現は、会話レベルでのモーダル間相互作用のモデリングによって取得できる。 話し手の時間的情報や感情の変化を用いて局所的に推測されることが多く、発話レベルの重要な要因を無視する。 さらに、既存のアプローチの多くは、モダリティ固有の表現を使わずに、統一入力における複数のモダリティの融合特徴を取り入れている。 これらの問題から,会話レベルの対話や発話レベルの時間的依存関係を,会話理解のためのモーダル特有の方法と効果的に捉えるニューラルネットワークフレームワークであるCORECT(Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction)を提案する。 IEMOCAPとCMU-MOSEIのデータセットでCORECTの有効性を実証した大規模な実験が、https://github.com/leson502/CORECT\_EMNLP2023で公開されている。

Emotion recognition is a crucial task for human conversation understanding. It becomes more challenging with the notion of multimodal data, e.g., language, voice, and facial expressions. As a typical solution, the global- and the local context information are exploited to predict the emotional label for every single sentence, i.e., utterance, in the dialogue. Specifically, the global representation could be captured via modeling of cross-modal interactions at the conversation level. The local one is often inferred using the temporal information of speakers or emotional shifts, which neglects vital factors at the utterance level. Additionally, most existing approaches take fused features of multiple modalities in an unified input without leveraging modality-specific representations. Motivating from these problems, we propose the Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction (CORECT), an novel neural network framework that effectively captures conversation-level cross-modality interactions and utterance-level temporal dependencies with the modality-specific manner for conversation understanding. Extensive experiments demonstrate the effectiveness of CORECT via its state-of-the-art results on the IEMOCAP and CMU-MOSEI datasets for the multimodal ERC task Implementation available at: https://github.com/leson502/CORECT\_EMNLP2023
翻訳日:2024-01-30 21:22:12 公開日:2024-01-29
# MatterGen: 無機材料設計のための生成モデル

MatterGen: a generative model for inorganic materials design ( http://arxiv.org/abs/2312.03687v2 )

ライセンス: Link先を確認
Claudio Zeni, Robert Pinsler, Daniel Z\"ugner, Andrew Fowler, Matthew Horton, Xiang Fu, Sasha Shysheya, Jonathan Crabb\'e, Lixin Sun, Jake Smith, Bichlien Nguyen, Hannes Schulz, Sarah Lewis, Chin-Wei Huang, Ziheng Lu, Yichi Zhou, Han Yang, Hongxia Hao, Jielan Li, Ryota Tomioka, Tian Xie(参考訳) 機能性材料の設計は、エネルギー貯蔵、触媒、炭素捕獲といった分野における技術進歩の推進に不可欠である。 生成モデルは、望まれる特性制約を直接生成することによって、材料設計の新しいパラダイムを提供する。 最近の進歩にもかかわらず、現在の生成モデルは安定結晶の提案において成功率が低いか、非常に限られた性質制約しか満たせない。 本稿では,安定かつ多様な無機物質を周期表上で生成するモデルであるMatterGenについて述べる。 そこで本研究では, 原子型, 座標, 周期格子を徐々に精錬し, 結晶構造を生成する新しい拡散系生成法を提案する。 さらに、ラベル付きデータセットで任意のプロパティ制約に対して微調整を可能にするアダプタモジュールを導入します。 以前の生成モデルと比較すると、マターゲンが生成する構造は、新規で安定である確率が2倍以上であり、局所エネルギー最小値の15倍以上である。 微調整後、マターゲンは、機械的、電子的、磁気的性質だけでなく、所望の化学、対称性を持つ安定で新しい材料を作り出すことに成功した。 最後に, 高密度構造とサプライチェーンリスクの低い化学組成を同時に提案することにより, 多特性材料設計能力を示す。 我々は,生成材料の品質とMatterGenの能力の広さが,材料設計の普遍的生成モデル構築への大きな進展を示していると考えている。

The design of functional materials with desired properties is essential in driving technological advances in areas like energy storage, catalysis, and carbon capture. Generative models provide a new paradigm for materials design by directly generating entirely novel materials given desired property constraints. Despite recent progress, current generative models have low success rate in proposing stable crystals, or can only satisfy a very limited set of property constraints. Here, we present MatterGen, a model that generates stable, diverse inorganic materials across the periodic table and can further be fine-tuned to steer the generation towards a broad range of property constraints. To enable this, we introduce a new diffusion-based generative process that produces crystalline structures by gradually refining atom types, coordinates, and the periodic lattice. We further introduce adapter modules to enable fine-tuning towards any given property constraints with a labeled dataset. Compared to prior generative models, structures produced by MatterGen are more than twice as likely to be novel and stable, and more than 15 times closer to the local energy minimum. After fine-tuning, MatterGen successfully generates stable, novel materials with desired chemistry, symmetry, as well as mechanical, electronic and magnetic properties. Finally, we demonstrate multi-property materials design capabilities by proposing structures that have both high magnetic density and a chemical composition with low supply-chain risk. We believe that the quality of generated materials and the breadth of MatterGen's capabilities represent a major advancement towards creating a universal generative model for materials design.
翻訳日:2024-01-30 21:11:31 公開日:2024-01-29
# 予測不能ネットワーク上での最適分散学習のためのフレキシブル通信

Flexible Communication for Optimal Distributed Learning over Unpredictable Networks ( http://arxiv.org/abs/2312.02493v2 )

ライセンス: Link先を確認
Sahil Tyagi, Martin Swany(参考訳) グラディエント圧縮は、通常Allgather (AG)を介して、より少ない値とその対応するインデックスを送信することによって、分散ディープラーニングにおける高価な通信を緩和する。 高圧縮率(cr)トレーニングは、高密度sgdのような高い精度を実現するが、通信コスト(すなわち、並列効率)が高いため、並列スケーリングが低くなる。 低いcrsを使用すると同期コストを下げることで並列効率が向上するが、モデルの精度も低下する(統計的効率)。 さらに、異なるモデルとCRで達成されるスピードアップは、ネットワークレイテンシ、効果的な帯域幅、集約に使用される集合オプトによっても異なる。 多くの場合、Allreduce(AR)のような集団は同じ量のデータを交換するAGよりもコストが低い。 本稿では,帯域幅を最適化し,特定のネットワーク構成においてagよりも優れた性能を持つar互換のtopk圧縮機を提案する。 我々は,agとarの間を,現在の状況において最適である集団に基づいて切り替えるフレキシブルな通信戦略を開発し,並列と統計効率のパレート関係を多目的最適化(moo)問題としてモデル化し,crを動的に調整し,高い精度を保ちながらトレーニングを加速する。

Gradient compression alleviates expensive communication in distributed deep learning by sending fewer values and its corresponding indices, typically via Allgather (AG). Training with high compression ratio (CR) achieves high accuracy like DenseSGD, but has lower parallel scaling due to high communication cost (i.e., parallel efficiency). Using lower CRs improves parallel efficiency by lowering synchronization cost, but degrades model accuracy as well (statistical efficiency). Further, speedup attained with different models and CRs also varies with network latency, effective bandwidth and collective op used for aggregation. In many cases, collectives like Allreduce (AR) have lower cost than AG to exchange the same amount of data. In this paper, we propose an AR-compatible Topk compressor that is bandwidth-optimal and thus performs better than AG in certain network configurations. We develop a flexible communication strategy that switches between AG and AR based on which collective is optimal in the current settings, and model the pareto-relationship between parallel and statistical efficiency as a multi-objective optimization (MOO) problem to dynamically adjust CR and accelerate training while still converging to high accuracy.
翻訳日:2024-01-30 21:11:06 公開日:2024-01-29
# プログレッシブノルムリスケーリングによるマージン最大化の指数関数的高速化

Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling ( http://arxiv.org/abs/2311.14387v3 )

ライセンス: Link先を確認
Mingze Wang, Zeping Min, Lei Wu(参考訳) 本研究では,線形分離可能なデータの分類において,勾配に基づくアルゴリズムが示すマージン最大化バイアスについて検討する。 本稿では,(正規化)勾配に付随する速度場の特異性について,マージン最大化におけるその役割に着目して詳細な解析を行う。 この分析にインスパイアされたPRGD(Progressive Rescaling Gradient Descent)と呼ばれる新しいアルゴリズムを提案し、PRGDが指数レートでマージンを最大化できることを示す。 これは、遅い多項式率でマージンを最大化する既存のアルゴリズムとは全く対照的である。 具体的には,勾配降下 (GD) や正規化勾配降下 (NGD) {\em のような既存のアルゴリズムが効率よくマージンを最大化する際のデータ分布の温和な条件を同定する。 理論的知見を検証するために, 合成実験と実世界の実験の両方を提示する。 特にPRGDは、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。

In this work, we investigate the margin-maximization bias exhibited by gradient-based algorithms in classifying linearly separable data. We present an in-depth analysis of the specific properties of the velocity field associated with (normalized) gradients, focusing on their role in margin maximization. Inspired by this analysis, we propose a novel algorithm called Progressive Rescaling Gradient Descent (PRGD) and show that PRGD can maximize the margin at an {\em exponential rate}. This stands in stark contrast to all existing algorithms, which maximize the margin at a slow {\em polynomial rate}. Specifically, we identify mild conditions on data distribution under which existing algorithms such as gradient descent (GD) and normalized gradient descent (NGD) {\em provably fail} in maximizing the margin efficiently. To validate our theoretical findings, we present both synthetic and real-world experiments. Notably, PRGD also shows promise in enhancing the generalization performance when applied to linearly non-separable datasets and deep neural networks.
翻訳日:2024-01-30 21:09:39 公開日:2024-01-29
# 仮想ホームステージング:自然照明下での室内パノラマの逆レンダリングと編集

Virtual Home Staging: Inverse Rendering and Editing an Indoor Panorama under Natural Illumination ( http://arxiv.org/abs/2311.12265v2 )

ライセンス: Link先を確認
Guanzhou Ji, Azadeh O. Sawyer, Srinivasa G. Narasimhan(参考訳) 本研究では,既存の室内パノラマを自然照明下で新しい室内家具レイアウトで変換できる新しい逆レンダリング手法を提案する。 これを実現するため,屋内のHDRパノラマと実時間屋外半球HDR撮影を行った。 室内および屋外のHDR画像は、正確なシーンリライトのための絶対輝度値で線形に校正された。 本手法は,(1)パノラマ家具の検出・除去,(2)自動フロアレイアウト設計,(3)シーン幾何学によるグローバルレンダリング,新しい家具オブジェクト,および屋外のリアルタイム撮影の3つの重要成分からなる。 屋外照明条件の異なる屋内シーンのレンダリングにおけるワークフローの有効性を示す。 さらに,137個の室内パノラマと関連する屋外写真からなる新しいキャリブレーションHDR(Cali-HDR)データセットを寄贈した。

We propose a novel inverse rendering method that enables the transformation of existing indoor panoramas with new indoor furniture layouts under natural illumination. To achieve this, we captured indoor HDR panoramas along with real-time outdoor hemispherical HDR photographs. Indoor and outdoor HDR images were linearly calibrated with measured absolute luminance values for accurate scene relighting. Our method consists of three key components: (1) panoramic furniture detection and removal, (2) automatic floor layout design, and (3) global rendering with scene geometry, new furniture objects, and a real-time outdoor photograph. We demonstrate the effectiveness of our workflow in rendering indoor scenes under different outdoor illumination conditions. Additionally, we contribute a new calibrated HDR (Cali-HDR) dataset that consists of 137 calibrated indoor panoramas and their associated outdoor photographs.
翻訳日:2024-01-30 21:09:09 公開日:2024-01-29
# 抽象要約のための大規模言語モデルにおける幻覚の探索

Investigating Hallucinations in Pruned Large Language Models for Abstractive Summarization ( http://arxiv.org/abs/2311.09335v2 )

ライセンス: Link先を確認
George Chrysostomou, Zhixue Zhao, Miles Williams, Nikolaos Aletras(参考訳) 抽象的な要約における生成的大言語モデル(LLM)の顕著な性能にもかかわらず、それらは2つの大きな課題に直面している。 幻覚は信頼性を損ね、安全性の問題を提起するためである。 プルーニング(pruning)は、冗長な重みを取り除いてモデルサイズを削減し、より効率的なスパース推論を可能にするテクニックである。 プルーニングされたモデルは、オリジナルのものと同等のダウンストリームタスクパフォーマンスをもたらし、限られた予算で運用する場合に理想的な代替手段となる。 しかし, 刈り取りがLLMの抽象的要約における幻覚に及ぼす影響については, まだ検討されていない。 本稿では,5つの要約データセット,2つの最先端プルーニング手法,および5つの命令調整LDMに関する広範な実証的研究を行う。 驚いたことに、刈り取られたLLMの幻覚はオリジナルのモデルよりもあまり多くない。 解析の結果,刈り取られたモデルはソース文書に依存する傾向が示唆された。 これにより、生成された要約とソースドキュメントの間の語彙の重なりが高まり、幻覚のリスクが低下する原因となる可能性がある。

Despite the remarkable performance of generative large language models (LLMs) on abstractive summarization, they face two significant challenges: their considerable size and tendency to hallucinate. Hallucinations are concerning because they erode reliability and raise safety issues. Pruning is a technique that reduces model size by removing redundant weights, enabling more efficient sparse inference. Pruned models yield downstream task performance comparable to the original, making them ideal alternatives when operating on a limited budget. However, the effect that pruning has upon hallucinations in abstractive summarization with LLMs has yet to be explored. In this paper, we provide an extensive empirical study across five summarization datasets, two state-of-the-art pruning methods, and five instruction-tuned LLMs. Surprisingly, we find that hallucinations from pruned LLMs are less prevalent than the original models. Our analysis suggests that pruned models tend to depend more on the source document for summary generation. This leads to a higher lexical overlap between the generated summary and the source document, which could be a reason for the reduction in hallucination risk.
翻訳日:2024-01-30 21:08:15 公開日:2024-01-29
# 複数の2量子ユニタリを有する切断回路

Cutting circuits with multiple two-qubit unitaries ( http://arxiv.org/abs/2312.11638v2 )

ライセンス: Link先を確認
Lukas Schmitt, Christophe Piveteau, and David Sutter(参考訳) 準確率的切断法により、非局所ゲートを局所ゲートの確率混合に置き換えることで、大きな量子回路を小さなサブ回路に分割することができる。 この方法のコストはサンプリングオーバーヘッドであり、カット数で指数関数的にスケールする。 ゲート切断の最小コストを決定するとともに,回路間の古典的な通信がサンプリングオーバーヘッドを改善できるかどうかを理解することが重要である。 本研究では,任意の数の2量子ユニタリを切断する最適なサンプリングオーバーヘッドの計算式を導出し,それに対応する分解を行う。 興味深いことに、任意の2ビットのユニタリをひとつに切ることは、それらを個別に切るよりも安く、古典的なコミュニケーションには利点がない。 これは、回路内で遠くに配置された複数の非局所ゲートを切断することさえある。

Quasiprobabilistic cutting techniques allow us to partition large quantum circuits into smaller subcircuits by replacing non-local gates with probabilistic mixtures of local gates. The cost of this method is a sampling overhead that scales exponentially in the number of cuts. It is crucial to determine the minimal cost for gate cutting and to understand whether allowing for classical communication between subcircuits can improve the sampling overhead. In this work, we derive a closed formula for the optimal sampling overhead for cutting an arbitrary number of two-qubit unitaries and provide the corresponding decomposition. Interestingly, cutting several arbitrary two-qubit unitaries together is cheaper than cutting them individually and classical communication does not give any advantage. This is even the case when one cuts multiple non-local gates that are placed far apart in the circuit.
翻訳日:2024-01-30 20:59:29 公開日:2024-01-29
# 実時間実時間適応のためのバッチ正規化の解法

Unraveling Batch Normalization for Realistic Test-Time Adaptation ( http://arxiv.org/abs/2312.09486v2 )

ライセンス: Link先を確認
Zixian Su, Jingwei Guo, Kai Yao, Xi Yang, Qiufeng Wang, Kaizhu Huang(参考訳) 近年の試験時間適応は、バッチ正規化を狭い領域差に調整することで有効性を示すが、その効果は、不正確なターゲット推定による現実的なミニバッチによって減少する。 以前の試みは、この問題を軽減するためにソース統計を導入するだけなので、不正確なターゲット推定の根本的な問題は依然として継続され、本質的なテスト時ドメインのシフトは解決されない。 本稿では,ミニバッチ劣化問題について考察する。 バッチ正規化を解き放つことにより,不正確な対象統計はバッチのクラス多様性が大幅に減少することに起因することが判明した。 この知見を引き合いに出し、トレーニングとテストバッチ間のクラス多様性のギャップを埋めるためのテスト時間指数移動平均(tema)という簡単なツールを紹介します。 重要なことに、私たちのTEMAは、現在のバッチを超えて典型的なメソッドの範囲を適応的に拡張し、多様なクラス情報を組み込むことで、正確なターゲット推定を向上します。 この基盤を基盤として,テスト時間性能を一貫して向上させるために,新たな層別整流戦略を更に設計する。 提案手法はトレーニングもチューニングパラメータも必要とせず,真のハードルフリーソリューションを提供するため,ユニークな利点がある。 シフトしたドメインに対するモデルロバスト性を大幅に向上させ、さまざまなバッチサイズを持つさまざまな実世界のシナリオでレジリエンスを維持し、いくつかの主要なベンチマークで最先端のパフォーマンスを達成する。 コードは \url{https://github.com/kiwi12138/realistictta} で入手できる。

While recent test-time adaptations exhibit efficacy by adjusting batch normalization to narrow domain disparities, their effectiveness diminishes with realistic mini-batches due to inaccurate target estimation. As previous attempts merely introduce source statistics to mitigate this issue, the fundamental problem of inaccurate target estimation still persists, leaving the intrinsic test-time domain shifts unresolved. This paper delves into the problem of mini-batch degradation. By unraveling batch normalization, we discover that the inexact target statistics largely stem from the substantially reduced class diversity in batch. Drawing upon this insight, we introduce a straightforward tool, Test-time Exponential Moving Average (TEMA), to bridge the class diversity gap between training and testing batches. Importantly, our TEMA adaptively extends the scope of typical methods beyond the current batch to incorporate a diverse set of class information, which in turn boosts an accurate target estimation. Built upon this foundation, we further design a novel layer-wise rectification strategy to consistently promote test-time performance. Our proposed method enjoys a unique advantage as it requires neither training nor tuning parameters, offering a truly hassle-free solution. It significantly enhances model robustness against shifted domains and maintains resilience in diverse real-world scenarios with various batch sizes, achieving state-of-the-art performance on several major benchmarks. Code is available at \url{https://github.com/kiwi12138/RealisticTTA}.
翻訳日:2024-01-30 20:58:06 公開日:2024-01-29
# グラフ上の一般化ニューラル拡散フレームワーク

A Generalized Neural Diffusion Framework on Graphs ( http://arxiv.org/abs/2312.08616v2 )

ライセンス: Link先を確認
Yibo Li, Xiao Wang, Hongrui Liu, Chuan Shi(参考訳) 近年の研究では、GNNと拡散過程の関連が明らかにされており、多くの拡散に基づくGNNが提案されている。 しかしながら、これらの2つのメカニズムは密接に関連しているため、自然に1つの根本的な疑問が生じる: これらのGNNを正式に統一できる一般的な拡散フレームワークはあるか? この質問に対する回答は、GNNの学習プロセスの理解を深めるだけでなく、より広いクラスのGNNを設計するための新たな扉を開くかもしれない。 本稿では,より多くのgnnと拡散過程の関係を形式的に確立する,忠実性項を持つ一般拡散方程式の枠組みを提案する。 一方、この枠組みでは、グラフ拡散ネットワークの1つの特性、すなわち、現在の神経拡散過程は1次拡散方程式にのみ対応している。 しかし, 実験により, 高次隣人のラベルは実際には単相性を示しており, 上位隣人のラベルに基づく類似性は, 一階隣人の類似性を必要としないことがわかった。 この発見の動機は、新しい高次隣り合う拡散方程式を設計し、フレームワークに基づいた新しいタイプのグラフ拡散ネットワーク(HiD-Net)を導出することにある。 高次拡散方程式では、hid-netは攻撃に対してより強固であり、ホモフィリーグラフとヘテロフィリーグラフの両方で動作する。 我々は,HiD-Netと高次ランダムウォークの関係を理論的に解析するだけでなく,理論的収束保証を提供する。 グラフ拡散ネットワークにおけるHiD-Netの有効性を実験的に検証した。

Recent studies reveal the connection between GNNs and the diffusion process, which motivates many diffusion-based GNNs to be proposed. However, since these two mechanisms are closely related, one fundamental question naturally arises: Is there a general diffusion framework that can formally unify these GNNs? The answer to this question can not only deepen our understanding of the learning process of GNNs, but also may open a new door to design a broad new class of GNNs. In this paper, we propose a general diffusion equation framework with the fidelity term, which formally establishes the relationship between the diffusion process with more GNNs. Meanwhile, with this framework, we identify one characteristic of graph diffusion networks, i.e., the current neural diffusion process only corresponds to the first-order diffusion equation. However, by an experimental investigation, we show that the labels of high-order neighbors actually exhibit monophily property, which induces the similarity based on labels among high-order neighbors without requiring the similarity among first-order neighbors. This discovery motives to design a new high-order neighbor-aware diffusion equation, and derive a new type of graph diffusion network (HiD-Net) based on the framework. With the high-order diffusion equation, HiD-Net is more robust against attacks and works on both homophily and heterophily graphs. We not only theoretically analyze the relation between HiD-Net with high-order random walk, but also provide a theoretical convergence guarantee. Extensive experimental results well demonstrate the effectiveness of HiD-Net over state-of-the-art graph diffusion networks.
翻訳日:2024-01-30 20:57:39 公開日:2024-01-29
# 量子制限増幅器と減衰器チャネルを通したグラウバー・スダルシャン・ウィグナー・フシミ準確率分布の関連

Relating the Glauber-Sudarshan, Wigner and Husimi quasiprobability distributions operationally through the quantum limited amplifier and attenuator channels ( http://arxiv.org/abs/2312.08216v2 )

ライセンス: Link先を確認
Tomasz Linowski, {\L}ukasz Rudnicki(参考訳) グラウバー・スダルシャン、ウィグナー、フシミ準確率分布は量子光学において不可欠である。 しかし、それらの間の数学的関係はよく確立されているものの、その運用上の関係についてはあまり知られていない。 本稿では、有限強度量子制限増幅器と減衰器チャネルの1つの構成が雑音付加特性で知られており、任意の入力作用素のグラウバー・スダルシャン分布をウィグナー分布、そのウィグナー分布をフジミ分布に変換することを証明する。 このように、相対的に容易な量子光学実験室で行うことができる検討プロセスは、量子-古典遷移を実現するものとして解釈できる。

The Glauber-Sudarshan, Wigner and Husimi quasiprobability distributions are indispensable tools in quantum optics. However, although mathematical relations between them are well established, not much is known about their operational connection. In this paper, we prove that a single composition of finite-strength quantum limited amplifier and attenuator channels, known for their noise-adding properties, turns the Glauber-Sudarshan distribution of any input operator into its Wigner distribution, and its Wigner distribution into its Husimi distribution. As we dissect, the considered process, which can be performed in a quantum optical laboratory with relative ease, may be interpreted as realizing a quantum-to-classical transition.
翻訳日:2024-01-30 20:57:13 公開日:2024-01-29
# メタ強化学習のための貯水池の進化

Evolving Reservoirs for Meta Reinforcement Learning ( http://arxiv.org/abs/2312.06695v2 )

ライセンス: Link先を確認
Corentin L\'eger and Gautier Hamon and Eleni Nisioti and Xavier Hinaut and Cl\'ement Moulin-Frier(参考訳) 動物はしばしば生涯を通じて環境に適応する顕著な能力を示す。 部分的には形態学や神経構造の進化によるものである。 これらの構造は世代間で共有される環境の特徴を捉え、バイアスを与え、生涯学習をスピードアップさせる。 本研究では,そのようなプロセスを実現する機構を研究するための計算モデルを提案する。 我々は,進化と発展の相互作用のモデルとしてメタ強化学習に基づく計算フレームワークを採用する。 進化的スケールでは,相乗重みではなく,ネットワークアーキテクチャのマクロレベル特性を制御するハイパーパラメータを最適化する点で,従来のネットワークと異なる再帰的ニューラルネットワーク群であるリザーバを進化させる。 開発規模では、これらの進化した貯水池を用いて強化学習(RL)を通して行動政策の学習を促進する。 RLエージェント内では、貯留層が環境状態を符号化し、アクションポリシーに付与する。 我々は,複数の2次元および3次元シミュレーション環境に対するアプローチを評価した。 その結果,貯水池の進化は多様な課題の学習を改善できることがわかった。 特に,リザーバと強化学習を組み合わせたアーキテクチャを用いることで,(1)部分的可観測性を伴うタスクの解決,(2)ロコモーションタスクの学習を容易にする振動力学の生成,(3)進化段階において未知の新しいタスクに対する学習行動の一般化を促進する,という3つの仮説を考察した。

Animals often demonstrate a remarkable ability to adapt to their environments during their lifetime. They do so partly due to the evolution of morphological and neural structures. These structures capture features of environments shared between generations to bias and speed up lifetime learning. In this work, we propose a computational model for studying a mechanism that can enable such a process. We adopt a computational framework based on meta reinforcement learning as a model of the interplay between evolution and development. At the evolutionary scale, we evolve reservoirs, a family of recurrent neural networks that differ from conventional networks in that one optimizes not the synaptic weights, but hyperparameters controlling macro-level properties of the resulting network architecture. At the developmental scale, we employ these evolved reservoirs to facilitate the learning of a behavioral policy through Reinforcement Learning (RL). Within an RL agent, a reservoir encodes the environment state before providing it to an action policy. We evaluate our approach on several 2D and 3D simulated environments. Our results show that the evolution of reservoirs can improve the learning of diverse challenging tasks. We study in particular three hypotheses: the use of an architecture combining reservoirs and reinforcement learning could enable (1) solving tasks with partial observability, (2) generating oscillatory dynamics that facilitate the learning of locomotion tasks, and (3) facilitating the generalization of learned behaviors to new tasks unknown during the evolution phase.
翻訳日:2024-01-30 20:56:59 公開日:2024-01-29
# AesFA: 美的特徴を意識した任意型ニューラルネットワーク

AesFA: An Aesthetic Feature-Aware Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2312.05928v2 )

ライセンス: Link先を確認
Joonwoo Kwon, Sooyoung Kim, Yuewei Lin, Shinjae Yoo, Jiook Cha(参考訳) ニューラルスタイル転送(NST)は近年大きく進歩している。 しかし、その急速な進歩と進歩にもかかわらず、既存のNST手法は、あるスタイルから美的情報を効果的に伝達するのに苦労するか、あるいは事前訓練されたモデルの使用による特徴のゆがみに高い計算コストと非効率に苦しむかのいずれかである。 この研究は軽量だが効果的なモデルであるAesFA -- Aesthetic Feature-Aware NSTを提案する。 主なアイデアは、モデル全体をエンドツーエンドでトレーニングしながら、その周波数でイメージを分解し、参照画像から審美的なスタイルを分離し、推論時に事前訓練されたモデルを完全に排除することである。 ネットワークがより明確な表現を抽出し、スタイライズ品質をさらに向上する能力を向上させるため、本研究では、新しい美的特徴であるコントラッシブ・ロスを導入する。 大規模な実験と改善は、最近のNST法をスタイリング品質で上回るだけでなく、より高速な推論も達成していることを示している。 コードはhttps://github.com/Sooyyoungg/AesFAで入手できる。

Neural style transfer (NST) has evolved significantly in recent years. Yet, despite its rapid progress and advancement, existing NST methods either struggle to transfer aesthetic information from a style effectively or suffer from high computational costs and inefficiencies in feature disentanglement due to using pre-trained models. This work proposes a lightweight but effective model, AesFA -- Aesthetic Feature-Aware NST. The primary idea is to decompose the image via its frequencies to better disentangle aesthetic styles from the reference image while training the entire model in an end-to-end manner to exclude pre-trained models at inference completely. To improve the network's ability to extract more distinct representations and further enhance the stylization quality, this work introduces a new aesthetic feature: contrastive loss. Extensive experiments and ablations show the approach not only outperforms recent NST methods in terms of stylization quality, but it also achieves faster inference. Codes are available at https://github.com/Sooyyoungg/AesFA.
翻訳日:2024-01-30 20:56:35 公開日:2024-01-29
# 複数分散学習のサンプル複雑性

The sample complexity of multi-distribution learning ( http://arxiv.org/abs/2312.04027v2 )

ライセンス: Link先を確認
Binghui Peng(参考訳) 複数分布学習は、複数の分布から来るデータを扱う古典的なpac学習を一般化する。 データ分散のセットとVC次元の仮説クラスが$d$であることを考えると、その目標は、最大人口損失を$k$の分布で最大で$\epsilon$加法誤差まで最小化する仮説を学習することである。 本稿では、サンプル複雑性のアルゴリズムを$\widetilde{O}((d+k)\epsilon^{-2}) \cdot (k/\epsilon)^{o(1)}$とすることで、マルチディストリビューション学習のサンプル複雑性を解明する。 これは下界のポリノミカル因子と一致し、Awasthi, Haghtalab, Zhao [AHZ23] の COLT 2023 の開問題を解く。

Multi-distribution learning generalizes the classic PAC learning to handle data coming from multiple distributions. Given a set of $k$ data distributions and a hypothesis class of VC dimension $d$, the goal is to learn a hypothesis that minimizes the maximum population loss over $k$ distributions, up to $\epsilon$ additive error. In this paper, we settle the sample complexity of multi-distribution learning by giving an algorithm of sample complexity $\widetilde{O}((d+k)\epsilon^{-2}) \cdot (k/\epsilon)^{o(1)}$. This matches the lower bound up to sub-polynomial factor and resolves the COLT 2023 open problem of Awasthi, Haghtalab and Zhao [AHZ23].
翻訳日:2024-01-30 20:55:54 公開日:2024-01-29
# 2ドルの双曲型PDEのためのバックステッピング型ニューラル演算子

Backstepping Neural Operators for $2\times 2$ Hyperbolic PDEs ( http://arxiv.org/abs/2312.16762v2 )

ライセンス: Link先を確認
Shanshan Wang, Mamadou Diagne and Miroslav Krsti\'c(参考訳) DeepONetと呼ばれる非線形演算子のディープニューラルネットワーク近似は、単一のGoursat形式のPDEが単一のフィードバックゲイン関数を管理するPDEバックステッピング設計を近似できることが証明されている。 結合されたPDEの境界制御では、結合されたGoursat形式のPDEが2つ以上のゲインカーネルを管理している。 本稿では,双曲型PDEプラントにおけるゲインカーネルPDEの近似システムについて,Goursat形式の2ドルカーネルPDEシステムを2ドル2ドルで制御する単純な対流2ドル結合システムを考えることにより,その対象を開放する。 油井掘削,浅瀬波のサン・ヴェナントモデル,渋滞流における停止・停止不安定のAw-Rascle-Zhangモデルなどの応用がある。 本稿では、(合計5つの)プラントPDE関数係数からカーネルPDE解への写像の連続性を確立し、カーネルPDEへの任意の近接なDeepONet近似の存在を証明し、正確なバックステッピングゲインカーネルを置き換える際に、DeepONet近似されたゲインが安定化を保証することを証明した。 L^2$\emph{-Globally-exponentially} stabilizing (GES) almost gain kernel-based output feedback designは、制御器と観測器の両方の利得の深い学習を意味する。 さらに、DeepONet への出力フィードバック法則の符号化により、emph{semi-global practical index stability (SG-PES) が保証される。 DeepONet演算子は、コントローラのゲインの計算を桁違いに高速化します。 理論上証明された安定化能力はシミュレーションによって実証される。

Deep neural network approximation of nonlinear operators, commonly referred to as DeepONet, has proven capable of approximating PDE backstepping designs in which a single Goursat-form PDE governs a single feedback gain function. In boundary control of coupled PDEs, coupled Goursat-form PDEs govern two or more gain kernels -- a PDE structure unaddressed thus far with DeepONet. In this note, we open the subject of approximating systems of gain kernel PDEs for hyperbolic PDE plants by considering a simple counter-convecting $2\times 2$ coupled system in whose control a $2\times 2$ kernel PDE systems in Goursat form arises. Applications include oil drilling, Saint-Venant model of shallow water waves, and Aw-Rascle-Zhang model of stop-and-go instability in congested traffic flow. In this paper we establish the continuity of the mapping from (a total of five) plant PDE functional coefficients to the kernel PDE solutions, prove the existence of an arbitrarily close DeepONet approximation to the kernel PDEs, and establish that the DeepONet-approximated gains guarantee stabilization when replacing the exact backstepping gain kernels. Taking into account anti-collocated boundary actuation and sensing, our $L^2$\emph{-Globally-exponentially} stabilizing (GES) approximate gain kernel-based output feedback design implies the deep learning of both the controller's and the observer's gains. Moreover, the encoding of the output-feedback law into DeepONet ensures \emph{semi-global practical exponential stability (SG-PES).} The DeepONet operator speeds up the computation of the controller gains by multiple orders of magnitude. Its theoretically proven stabilizing capability is demonstrated through simulations.
翻訳日:2024-01-30 20:48:28 公開日:2024-01-29
# フェデレーション学習における効率制約付きユーティリティ・プライヴァシー二目的最適化の理論解析

A Theoretical Analysis of Efficiency Constrained Utility-Privacy Bi-Objective Optimization in Federated Learning ( http://arxiv.org/abs/2312.16554v2 )

ライセンス: Link先を確認
Hanlin Gu, Xinyuan Zhao, Gongxi Zhu, Yuxing Han, Yan Kang, Lixin Fan, Qiang Yang(参考訳) フェデレーション学習(fl)は、複数のクライアントが個別のデータを共有することなく、協調的に共有モデルを学ぶことができる。 flのユーティリティ、プライバシ、トレーニング効率に関する懸念は、大きな研究の注目を集めている。 差分プライバシはflの一般的なテクニックとして登場し、ユーティリティとトレーニング効率に影響を与えながら、個々のユーザデータのプライバシを保護している。 差別化プライバシフェデレート・フェデレーション・ラーニング(DPFL)では、従来の研究は主にユーティリティ・プライバシのトレードオフに焦点を当てており、トレーニングの効率を無視している。 さらに、ディファレンシャルプライバシは、各通信ラウンド毎に選択したクライアントに制御されたランダム性(ノイズ)を導入することで、プライバシを実現する。 これまでの研究は主に、ノイズレベル($\sigma$)と通信ラウンド($T$)が、プライバシユーティリティのダイナミクスに与える影響を調査し、サンプル比率($q$、選択されたクライアントの割合)などの他の影響要因を見越した。 本稿ではDPFLにおける効率制約付きユーティリティプライバシ双目的最適化問題を体系的に定式化し,$\sigma$,$T$,$q$に着目した。 我々は包括的理論解析を行い,パレート前線の分析解を導出する。 DPFLにおける低コストパラメータ設計のための有用なガイダンスを提供するとともに,本分析の有効性と有効性を検証する。

Federated learning (FL) enables multiple clients to collaboratively learn a shared model without sharing their individual data. Concerns about utility, privacy, and training efficiency in FL have garnered significant research attention. Differential privacy has emerged as a prevalent technique in FL, safeguarding the privacy of individual user data while impacting utility and training efficiency. Within Differential Privacy Federated Learning (DPFL), previous studies have primarily focused on the utility-privacy trade-off, neglecting training efficiency, which is crucial for timely completion. Moreover, differential privacy achieves privacy by introducing controlled randomness (noise) on selected clients in each communication round. Previous work has mainly examined the impact of noise level ($\sigma$) and communication rounds ($T$) on the privacy-utility dynamic, overlooking other influential factors like the sample ratio ($q$, the proportion of selected clients). This paper systematically formulates an efficiency-constrained utility-privacy bi-objective optimization problem in DPFL, focusing on $\sigma$, $T$, and $q$. We provide a comprehensive theoretical analysis, yielding analytical solutions for the Pareto front. Extensive empirical experiments verify the validity and efficacy of our analysis, offering valuable guidance for low-cost parameter design in DPFL.
翻訳日:2024-01-30 20:47:12 公開日:2024-01-29
# ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク

ChartBench: A Benchmark for Complex Visual Reasoning in Charts ( http://arxiv.org/abs/2312.15915v2 )

ライセンス: Link先を確認
Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo(参考訳) MLLM(Multimodal Large Language Models)は、画像の理解と生成能力を示す。 しかし、既存のベンチマークでは、実世界のシナリオから逸脱する限定的なチャートを採用しており、MLLMのチャート理解を正確に評価する上での課題となっている。 この制約を克服するために,複雑な視覚的推論を通してMLLMのチャート理解とデータの信頼性を評価するために設計されたチャートベンチマークであるChartBenchを提案する。 ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。 以前のベンチマークと異なり、chartbenchはデータポイントアノテーションチャートやメタデータプロンプトを直接使用するのを避ける。 その代わり、MLLMは色、伝説、座標系といった固有のチャート要素を活用することで、人間の理解に似た価値を導き出す。 さらに,労働集約的な手作業やgptに基づくコストのかかる評価を必要とせずに,mllmの評価を容易にする改良評価指標であるacc+を提案する。 大規模な実験評価では、12のオープンソースと2つのプロプライエタリなMLLMを使用し、チャートの解釈におけるMLLMの限界を明らかにし、この側面をより精査するための貴重な洞察を提供する。

Multimodal Large Language Models (MLLMs) demonstrate impressive image understanding and generating capabilities. However, existing benchmarks employ limited charts that deviate from real-world scenarios, posing challenges in accurately assessing the chart comprehension of MLLMs. To overcome this constraint, we propose ChartBench, an exhaustive chart benchmark specifically designed to evaluate MLLMs' chart comprehension and data reliability through complex visual reasoning. ChartBench encompasses a wide spectrum, including 42 categories, 2.1K charts, and 16.8K question-answer pairs. Diverging from previous benchmarks, ChartBench avoids employing data point annotation charts or metadata prompts directly. Instead, it compels MLLMs to derive values akin to human understanding by leveraging inherent chart elements such as color, legends, or coordinate systems. Additionally, we propose an enhanced evaluation metric, Acc+, which facilitates the evaluation of MLLMs without needing labor-intensive manual efforts or costly evaluations based on GPT. Our extensive experimental evaluation involves 12 widely-used open-sourced and 2 proprietary MLLMs, revealing the limitations of MLLMs in interpreting charts and providing valuable insights to encourage closer scrutiny of this aspect.
翻訳日:2024-01-30 20:46:46 公開日:2024-01-29
# TEILP:論理推論による知識グラフの時間予測

TEILP: Time Prediction over Knowledge Graphs via Logical Reasoning ( http://arxiv.org/abs/2312.15816v2 )

ライセンス: Link先を確認
Siheng Xiong, Yuan Yang, Ali Payani, James C Kerce, Faramarz Fekri(参考訳) 従来の埋め込みモデルでは、時間的知識グラフ(TKG)のイベント時間予測をランキング問題として扱う。 しかし、しばしば順序や距離といった重要な時間関係を捉えるのに不足する。 本稿では,このような時間的要素を知識グラフ予測に自然に統合する論理的推論フレームワークTEILPを提案する。 まず,tkgを時間的事象知識グラフ(tekg)に変換し,そのグラフのノードの項における時間表現をより明確化する。 TEKGは、時間予測のための微分可能なランダムウォーク手法を開発する。 最後に、条件付き確率密度関数を導入し、クエリ間隔を含む論理規則に関連付けて、時間予測に着く。 TEILPを5つのベンチマークデータセットの最先端手法と比較する。 本モデルは,解釈可能な説明を提供しながら,ベースラインよりも大幅に改善できることを示す。 特に、トレーニングサンプルが限定され、イベントタイプが不均衡であり、過去のイベントのみに基づいて将来のイベントの時刻を予測するシナリオをいくつか検討する。 これらすべてのケースにおいて、TEILPは堅牢性の観点から最先端のメソッドよりも優れています。

Conventional embedding-based models approach event time prediction in temporal knowledge graphs (TKGs) as a ranking problem. However, they often fall short in capturing essential temporal relationships such as order and distance. In this paper, we propose TEILP, a logical reasoning framework that naturally integrates such temporal elements into knowledge graph predictions. We first convert TKGs into a temporal event knowledge graph (TEKG) which has a more explicit representation of time in term of nodes of the graph. The TEKG equips us to develop a differentiable random walk approach to time prediction. Finally, we introduce conditional probability density functions, associated with the logical rules involving the query interval, using which we arrive at the time prediction. We compare TEILP with state-of-the-art methods on five benchmark datasets. We show that our model achieves a significant improvement over baselines while providing interpretable explanations. In particular, we consider several scenarios where training samples are limited, event types are imbalanced, and forecasting the time of future events based on only past events is desired. In all these cases, TEILP outperforms state-of-the-art methods in terms of robustness.
翻訳日:2024-01-30 20:46:25 公開日:2024-01-29
# マルチエージェント強化学習のためのコンテキストアウェア通信

Context-aware Communication for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2312.15600v2 )

ライセンス: Link先を確認
Xinran Li, Jun Zhang(参考訳) マルチエージェント強化学習(MARL)における効果的なコミュニケーションプロトコルは,協調の促進とチームパフォーマンスの向上に不可欠である。 コミュニケーションを活用するために、以前の多くの研究は、ローカル情報を単一のメッセージに圧縮し、すべての到達可能なエージェントにブロードキャストすることを提案した。 しかし、この単純なメッセージングメカニズムは、特に帯域幅に制限のあるシナリオにおいて、個々のエージェントに適切な、クリティカルで、関連する情報を提供できない可能性がある。 これは、異なるエージェントにパーソナライズされたメッセージを提供することを目的として、marlのコンテキスト対応通信スキームを開発する動機となります。 通信プロトコルCACOMは2つの段階から構成される。 第1段階では、エージェントが放送形式で粗い表現を交換し、第2ステージのコンテキストを提供する。 その後、エージェントは第2段階の注意機構を利用し、受信機用にパーソナライズされたメッセージを選択的に生成する。 さらに,メッセージ量子化のための学習ステップサイズ量子化(lsq)手法を用いて通信オーバーヘッドを削減する。 CACOMの有効性を評価するため,アクター批判と価値に基づくMARLアルゴリズムを併用する。 協調型ベンチマークタスクにおける実験結果から,CACOMは通信制約シナリオ下でのベースラインよりも明らかな性能向上を提供することが示された。 コードはhttps://github.com/LXXXXR/CACOMで公開されている。

Effective communication protocols in multi-agent reinforcement learning (MARL) are critical to fostering cooperation and enhancing team performance. To leverage communication, many previous works have proposed to compress local information into a single message and broadcast it to all reachable agents. This simplistic messaging mechanism, however, may fail to provide adequate, critical, and relevant information to individual agents, especially in severely bandwidth-limited scenarios. This motivates us to develop context-aware communication schemes for MARL, aiming to deliver personalized messages to different agents. Our communication protocol, named CACOM, consists of two stages. In the first stage, agents exchange coarse representations in a broadcast fashion, providing context for the second stage. Following this, agents utilize attention mechanisms in the second stage to selectively generate messages personalized for the receivers. Furthermore, we employ the learned step size quantization (LSQ) technique for message quantization to reduce the communication overhead. To evaluate the effectiveness of CACOM, we integrate it with both actor-critic and value-based MARL algorithms. Empirical results on cooperative benchmark tasks demonstrate that CACOM provides evident performance gains over baselines under communication-constrained scenarios. The code is publicly available at https://github.com/LXXXXR/CACOM.
翻訳日:2024-01-30 20:46:08 公開日:2024-01-29
# 二層グラフェン量子ドットと高インピーダンスマイクロ波共振器の双極子結合

Dipole coupling of a bilayer graphene quantum dot to a high-impedance microwave resonator ( http://arxiv.org/abs/2312.14629v2 )

ライセンス: Link先を確認
Max J. Ruckriegel, Lisa M. G\"achter, David Kealhofer, Mohsen Bahrami Panah, Chuyao Tong, Christoph Adam, Michele Masseroni, Hadrien Duprez, Rebekka Garreis, Kenji Watanabe, Takashi Taniguchi, Andreas Wallraff, Thomas Ihn, Klaus Ensslin, and Wei Wister Huang(参考訳) 二層グラフェンの量子ドットを用いた回路量子電磁力学 (cQED) を実装し, 長いスピン状態とバレー状態を持つ半導体量子ビットの成熟材料プラットフォームである。 本装置は、高インピーダンス(z_\mathrm{r} \approx 1 \mathrm{k{\omega}}$)超伝導マイクロ波共振器と、グラフェン系ファンデルワールスヘテロ構造において静電的に定義される二重量子ドットとを結合する。 サブシステム間の電気双極子結合により、共振器は電荷安定図を再構成する二重量子ドットの電気感受性を感知することができる。 1${\mu}\mathrm{s}$の積分時間で信号対雑音比3.5で感度の高い高速検出を実現する。 電荷-光子相互作用は、入力出力理論に対する共振器応答のカップリングによる変化を比較し、最大結合強度は$g/2{\pi} = 49.7 \mathrm{MHz}$である。 本研究は,ファンデルワールス材料の量子ドットのプローブとしてcqedを導入し,二層グラフェン量子ドットとのコヒーレント電荷-光子カップリングへの道を示す。

We implement circuit quantum electrodynamics (cQED) with quantum dots in bilayer graphene, a maturing material platform for semiconductor qubits that can host long-lived spin and valley states. The presented device combines a high-impedance ($Z_\mathrm{r} \approx 1 \mathrm{k{\Omega}}$) superconducting microwave resonator with a double quantum dot electrostatically defined in a graphene-based van der Waals heterostructure. Electric dipole coupling between the subsystems allows the resonator to sense the electric susceptibility of the double quantum dot from which we reconstruct its charge stability diagram. We achieve sensitive and fast detection with a signal-to-noise ratio of 3.5 within 1 ${\mu}\mathrm{s}$ integration time. The charge-photon interaction is quantified in the dispersive and resonant regimes by comparing the coupling-induced change in the resonator response to input-output theory, yielding a maximal coupling strength of $g/2{\pi} = 49.7 \mathrm{MHz}$. Our results introduce cQED as a probe for quantum dots in van der Waals materials and indicate a path toward coherent charge-photon coupling with bilayer graphene quantum dots.
翻訳日:2024-01-30 20:45:47 公開日:2024-01-29
# シーンテキストのための単一点からポリゴンへの進化的進化

Progressive Evolution from Single-Point to Polygon for Scene Text ( http://arxiv.org/abs/2312.13778v2 )

ライセンス: Link先を確認
Linger Deng, Mingxin Huang, Xudong Xie, Yuliang Liu, Lianwen Jin, Xiang Bai(参考訳) コンパクト化に向けたテキスト形状表現の進歩により、テキスト検出とスポッティング性能が向上したが、アノテーションコストが高い。 現在のモデルはコスト削減のために単一ポイントアノテーションを使用しているが、下流アプリケーションには十分なローカライズ情報がない。 この制限を克服するために、単一点をコンパクトなポリゴンに効率的に変換できるPoint2Polygonを導入する。 本手法では,認識信頼度に基づくアンカーポイントの作成と選択から,認識情報を用いて多角形を垂直および水平に精錬し,形状を最適化する。 我々は多角形生成の精度を広範囲な実験により実証する。 1) 地上の真理点からポリゴンを作成することにより, ICDAR 2015において精度82.0%を達成した。 2)本法により生成したポリゴンを用いたトレーニング検出器では,グラウンド真理(GT)によるトレーニングと比較して精度が86%に達した。 3)さらに,提案するpoint2多角形をシームレスに統合して,単一点スポッターに多角形を生成することができる。 この統合により、生成されたポリゴンの精度は82.5%向上した。 なお,本手法は合成認識情報にのみ依存しており,単一点以上の手動アノテーションは不要である。

The advancement of text shape representations towards compactness has enhanced text detection and spotting performance, but at a high annotation cost. Current models use single-point annotations to reduce costs, yet they lack sufficient localization information for downstream applications. To overcome this limitation, we introduce Point2Polygon, which can efficiently transform single-points into compact polygons. Our method uses a coarse-to-fine process, starting with creating and selecting anchor points based on recognition confidence, then vertically and horizontally refining the polygon using recognition information to optimize its shape. We demonstrate the accuracy of the generated polygons through extensive experiments: 1) By creating polygons from ground truth points, we achieved an accuracy of 82.0% on ICDAR 2015; 2) In training detectors with polygons generated by our method, we attained 86% of the accuracy relative to training with ground truth (GT); 3) Additionally, the proposed Point2Polygon can be seamlessly integrated to empower single-point spotters to generate polygons. This integration led to an impressive 82.5% accuracy for the generated polygons. It is worth mentioning that our method relies solely on synthetic recognition information, eliminating the need for any manual annotation beyond single points.
翻訳日:2024-01-30 20:45:24 公開日:2024-01-29
# 微視的ルジャンドル変換、正準アンサンブル、ジャヤネスの最大エントロピー原理

Microscopic Legendre Transform, Canonical Ensemble and Jaynes' Maximum Entropy Principle ( http://arxiv.org/abs/2312.13762v2 )

ライセンス: Link先を確認
Ramandeep S. Johal(参考訳) ヘルムホルツ自由エネルギーやエントロピーのような熱力学的量のルジャンドル変換は、標準アンサンブルの定式化において重要な役割を果たす。 この変換は、系の内部エネルギーからその共役変数(貯水池の逆温度)への独立変数の交換に役立つ。 本稿では,自由エネルギーとシャノンエントロピーの間のレジェンダレ変換を,顕微鏡レジェンダレ変換(\mathscr{L}_{\! ここで共役変数は微小状態確率とエネルギー(逆温度によってスケールされる)である。 シャノンエントロピーの正確な微分特性を定式化し、正準アンサンブル内の中心関係を導出する。 この観点から熱貯留層に接触する系の熱力学を論じる。 他のアプローチ、特にジェインズの最大エントロピー原理は、現在のアプローチと比較される。

Legendre transform between thermodynamic quantities such as the Helmholtz free energy and entropy plays a key role in the formulation of the canonical ensemble. The transform helps to exchange the independent variable from the system's internal energy to its conjugate variable -- the inverse temperature of the reservoir. In this article, we study the Legendre transform between the free energy and Shannon entropy, denoted as the microscopic Legendre transform ($\mathscr{L}_{\!\mathscr{M}}^{}$), where the conjugate variables are the microstate probabilities and the energies (scaled by the inverse temperature). We formulate the exact differential property of the Shannon entropy and utilize it to derive central relations within canonical ensemble. Thermodynamics of a system in contact with a heat reservoir is discussed from this perspective. Other approaches, in particular, Jaynes' maximum entropy principle is compared with the present approach.
翻訳日:2024-01-30 20:45:03 公開日:2024-01-29
# wigner-dunkl量子力学の経路積分公式について

On the Path Integral Formulation of Wigner-Dunkl Quantum Mechanics ( http://arxiv.org/abs/2312.12895v3 )

ライセンス: Link先を確認
Georg Junker(参考訳) ファインマンの経路積分アプローチは、量子力学のウィグナー・ダンクル変形の枠組みで研究されている。 まず、ダンクル理論のいくつかの基礎をレビューし、標準量子力学で観測されるのと同じ分散関係を示すガウス波パケットの時間発展について考察する。 ファインマンの経路積分法はウィグナー・デュンケル量子力学に拡張される。 調和振動子問題を明示的に解く。 次に、ユークリッドの時間進化と関連するダンクル過程を考察する。 ジャンプを示すこの過程は、2つの連続したベッセル過程によって表現できる。 調和振動子問題に対するファインマン・カック経路積分を明示的に計算する。

Feynman's path integral approach is studied in the framework of the Wigner-Dunkl deformation of quantum mechanics. We start with reviewing some basics from Dunkl theory and investigate the time evolution of a Gaussian wave packet, which exhibits the same dispersion relation as observed in standard quantum mechanics. Feynman's path integral approach is then extended to Wigner-Dunkl quantum mechanics. The harmonic oscillator problem is solved explicitly. We then look at the Euclidean time evolution and the related Dunkl process. This process, which exhibit jumps, can be represented by two continuous Bessel processes, one with reflection and one with absorbtion at the origin. The Feynman-Kac path integral for the harmonic oscillator problem is explicitly calculated.
翻訳日:2024-01-30 20:44:15 公開日:2024-01-29
# モーダリティ間学習を用いた核サブタイプ分類

Nucleus subtype classification using inter-modality learning ( http://arxiv.org/abs/2401.05602v2 )

ライセンス: Link先を確認
Lucas W. Remedios, Shunxing Bao, Samuel W. Remedios, Ho Hin Lee, Leon Y. Cai, Thomas Li, Ruining Deng, Can Cui, Jia Li, Qi Liu, Ken S. Lau, Joseph T. Roland, Mary K. Washington, Lori A. Coburn, Keith T. Wilson, Yuankai Huo, Bennett A. Landman(参考訳) 細胞間のコミュニケーションの仕方を理解することは、人間の生理学を理解するのに不可欠である。 ヘマトキシリンとエオシン(H&E)染色は臨床研究と研究の両方に広く利用されている。 Colon Nucleus Identification and Classification (CoNIC) Challengeは、最近、大腸のH&E染色に6つの細胞タイプをラベル付けした堅牢な人工知能を革新した。 しかし、これは潜在的な細胞分類の数のごく一部である。 特に、CoNIC Challengeは上皮サブタイプ(前駆体、内分泌細胞、ゴブレット)、リンパ球サブタイプ(B、ヘルパーT、細胞傷害性T)、結合サブタイプ(線維芽細胞、間質)を分類できない。 本稿では,仮想H&E上でラベル付け不可能なセルタイプをラベル付けするために,モーダリティ間学習を提案する。 我々はmxif(multiplexed immunofluorescence)組織像を用いて14種類の細胞タイプを同定した。 我々は、MxIFから仮想H&Eを合成するためのスタイル転送を行い、MxIFからこれらの仮想H&E画像へ高密度ラベルを転送した。 このアプローチで学習の有効性を評価した。 仮想H&EではヘルパーTと前駆体核をそれぞれ0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) と$0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) の正の予測値で同定した。 このアプローチは、デジタル病理学におけるアノテーションの自動化に向けた有望なステップである。

Understanding the way cells communicate, co-locate, and interrelate is essential to understanding human physiology. Hematoxylin and eosin (H&E) staining is ubiquitously available both for clinical studies and research. The Colon Nucleus Identification and Classification (CoNIC) Challenge has recently innovated on robust artificial intelligence labeling of six cell types on H&E stains of the colon. However, this is a very small fraction of the number of potential cell classification types. Specifically, the CoNIC Challenge is unable to classify epithelial subtypes (progenitor, endocrine, goblet), lymphocyte subtypes (B, helper T, cytotoxic T), or connective subtypes (fibroblasts, stromal). In this paper, we propose to use inter-modality learning to label previously un-labelable cell types on virtual H&E. We leveraged multiplexed immunofluorescence (MxIF) histology imaging to identify 14 subclasses of cell types. We performed style transfer to synthesize virtual H&E from MxIF and transferred the higher density labels from MxIF to these virtual H&E images. We then evaluated the efficacy of learning in this approach. We identified helper T and progenitor nuclei with positive predictive values of $0.34 \pm 0.15$ (prevalence $0.03 \pm 0.01$) and $0.47 \pm 0.1$ (prevalence $0.07 \pm 0.02$) respectively on virtual H&E. This approach represents a promising step towards automating annotation in digital pathology.
翻訳日:2024-01-30 20:35:46 公開日:2024-01-29
# 高精度半自動研削ミル出力予測のための多重方程式付き遺伝的プログラミングモデル

Enhanced Genetic Programming Models with Multiple Equations for Accurate Semi-Autogenous Grinding Mill Throughput Prediction ( http://arxiv.org/abs/2401.05382v2 )

ライセンス: Link先を確認
Zahra Ghasemi, Mehdi Nesht, Chris Aldrich, John Karageorgos, Max Zanin, Frank Neumann, Lei Chen(参考訳) 半自動研削(SAG)ミルは、鉱物加工プラントの研削回路において重要な役割を担っている。 重要な性能指標として, SAGミルスループットの正確な予測が重要である。 この目的に遺伝子プログラミング(GP)を適用する可能性はまだ十分に研究されていない。 本研究では、SAGミルスループットをより正確に予測するために、Multi-equation GP(MEGP)と呼ばれる拡張GPアプローチを導入する。 提案手法では, トレーニングデータの特定のクラスタに対して, ミルスループットを正確に予測する複数の方程式を抽出する。 これらの方程式は、様々な手法でテストデータのミルスループットを予測するために用いられる。 距離測定の効果を評価するため,MEGP法では4つの異なる距離測定法が用いられている。 比較分析によると、最高のMEGPアプローチは、標準のGPと比較して予測精度が平均10.74%向上している。 このアプローチでは、抽出された全ての方程式を活用し、各データクラスタ内のデータポイント数とクラスタ間距離の両方を組み込んで最終予測を算出する。 距離測定のさらなる調査は、ユークリッド、マンハッタン、チェビシェフ、コサインの4つの異なる指標の中で、ユークリッド距離測定がデータ分割の大部分に対して最も正確な結果をもたらすことを示している。

Semi-autogenous grinding (SAG) mills play a pivotal role in the grinding circuit of mineral processing plants. Accurate prediction of SAG mill throughput as a crucial performance metric is of utmost importance. The potential of applying genetic programming (GP) for this purpose has yet to be thoroughly investigated. This study introduces an enhanced GP approach entitled multi-equation GP (MEGP) for more accurate prediction of SAG mill throughput. In the new proposed method multiple equations, each accurately predicting mill throughput for specific clusters of training data are extracted. These equations are then employed to predict mill throughput for test data using various approaches. To assess the effect of distance measures, four different distance measures are employed in MEGP method. Comparative analysis reveals that the best MEGP approach achieves an average improvement of 10.74% in prediction accuracy compared with standard GP. In this approach, all extracted equations are utilized and both the number of data points in each data cluster and the distance to clusters are incorporated for calculating the final prediction. Further investigation of distance measures indicates that among four different metrics employed including Euclidean, Manhattan, Chebyshev, and Cosine distance, the Euclidean distance measure yields the most accurate results for the majority of data splits.
翻訳日:2024-01-30 20:34:45 公開日:2024-01-29
# ランガナサンの再発見:知識グラフスペクトルによる彼の人生の原始的視点

Rediscovering Ranganathan: A Prismatic View of His Life through the Knowledge Graph Spectrum ( http://arxiv.org/abs/2401.03343v2 )

ライセンス: Link先を確認
B. Dutta and S. Arzoo(参考訳) 本稿では,図書館情報科学(LIS)分野の先駆者の一人であるS.R.ランガナサン教授の伝記知識グラフ(KG)について述べる。 ランガナサンに関する関連する事実のほとんどは、様々な資源(書籍、エッセイ、雑誌記事、ウェブサイト、ブログなど)に存在し、断片的で断片的な情報を提供する。 この献身的なkg (henceforth, rkg) により、我々は彼の生涯と業績を360度見れるようにしたい。 私たちの知る限りでは、このような専門的な表現は、その範囲と範囲において、別個のものです: オープンアクセス、使用/再利用、貢献のために最先端の技術を使用するのです。 ランガナサンの理論とアイデアにインスパイアされたこのkgは、重要な伝記的側面の同定と存在論的モデルの開発という2段階の「顔に基づく方法論」を用いて開発された。 最後に,本研究は,lis領域の活性化から100周年を記念した図書館学の父に対して,その持続的な参加を通じて,kgの向上と献金を行うコミュニティ主導の努力を求めるものである。

The present study puts forward a novel biographical knowledge graph (KG) on Prof. S. R. Ranganathan, one of the pioneering figures in the Library and Information Science (LIS) domain. It has been found that most of the relevant facts about Ranganathan exist in a variety of resources (e.g., books, essays, journal articles, websites, blogs, etc.), offering information in a fragmented and piecemeal way. With this dedicated KG (henceforth known as RKG), we hope to furnish a 360-degree view of his life and achievements. To the best of our knowledge, such a dedicated representation is unparalleled in its scope and coverage: using state-of-the-art technology for anyone to openly access, use/re-use, and contribute. Inspired by Ranganathan's theories and ideas, the KG was developed using a "facet-based methodology" at two levels: in the identification of the vital biographical aspects and the development of the ontological model. Finally, with this study, we call for a community-driven effort to enhance the KG and pay homage to the Father of Library Science on the hundredth anniversary of his revitalizing the LIS domain through his enduring participation.
翻訳日:2024-01-30 20:33:10 公開日:2024-01-29
# ニューラル最適制御:ニューラルODEを用いた同時システム同定と制御学習

Neural Optimal Control: Concurrent System Identification and Control Learning with Neural ODE ( http://arxiv.org/abs/2401.01836v2 )

ライセンス: Link先を確認
Cheng Chi(参考訳) 連続時間力学系の制御は、一般に2段階のプロセスである: まず、微分方程式で系の力学を識別またはモデル化し、次に、最適制御関数と最適状態軌道を達成するために制御目標を最小化する。 しかしながら、動的モデリングの不正確さは、結果として生じる制御関数の準最適性をもたらす。 そこで本研究では,ニューラルネットワークを用いた動的識別と最適制御学習を組み合わせた未知の力学系を制御するニューラルネットワークODE法を提案する。 結合型ニューラルODE構造における2つのニューラルネットワーク間の興味深い相互作用を通じて、我々のモデルは、ターゲット状態へ導く最適な制御だけでなく、システムのダイナミクスも同時に学習する。 本実験は未知力学系の最適制御学習におけるモデルの有効性を示す。

Controlling continuous-time dynamical systems is generally a two step process: first, identify or model the system dynamics with differential equations, then, minimize the control objectives to achieve optimal control function and optimal state trajectories. However, any inaccuracy in dynamics modeling will lead to sub-optimality in the resulting control function. To address this, we propose a neural ODE based method for controlling unknown dynamical systems, denoted as Neural Optimal Control (NOC), which combines dynamics identification and optimal control learning using a coupled neural ODE. Through an intriguing interplay between the two neural networks in coupled neural ODE structure, our model concurrently learns system dynamics as well as optimal controls that guides towards target states. Our experiments demonstrate the effectiveness of our model for learning optimal control of unknown dynamical systems.
翻訳日:2024-01-30 20:32:35 公開日:2024-01-29
# 超伝導回路における非自明なトポロジーのスペクトルシグネチャ

Spectral signatures of non-trivial topology in a superconducting circuit ( http://arxiv.org/abs/2401.10876v2 )

ライセンス: Link先を確認
L. Peyruchat (1 and 2), R. H. Rodriguez (1 and 2), J.-L. Smirr (2), R. Leone (3), \c{C}. \"O. Girit (1 and 2) ((1) Quantronics Group, Universit\'e Paris Saclay, CEA, CNRS, SPEC, (2) JEIP, USR 3573 CNRS, Coll\`ege de France, PSL University, (3) Laboratoire de Physique et Chimie Th\'eoriques, Universit\'e de Lorraine, CNRS)(参考訳) トポロジーは対称性と同様に、物理系の一般性を理解する基本的な概念である。 凝縮物質系では、非自明なトポロジーはエネルギースペクトルの特異な特徴や、電気伝導率や磁束のような観測可能な量の量子化として現れる。 マイクロ波分光法を用いて、3つのジョセフソントンネル接合を平行に持つ超伝導回路は、$\textrm{\emph{intrinsic}}$非自明なトポロジーを示すエネルギーデジネラキシーを持つことを示す。 3つの位相不変量を特定し、そのうちの1つは隠れた量子力学的超対称性と関連している。 製造パラメータによっては、デバイスはギャップが無く、接合の不完全性、非対称性、インダクタンスといった摂動にロバストであることが示されている単純な位相図に落ちる。 ジョセフソントンネル接合回路は、従来のマイクロリソグラフィー技術で容易に製造でき、凝縮物質アナログを持たない幅広いトポロジカルシステムにアクセスできる。 デジェネラシーやフラットバンドといったこれらの回路の顕著なスペクトル特性は量子情報応用に利用されうるが、量子化された輸送特性はメトロロジー応用に有用である。

Topology, like symmetry, is a fundamental concept in understanding general properties of physical systems. In condensed matter systems, non-trivial topology may manifest itself as singular features in the energy spectrum or the quantization of observable quantities such as electrical conductance and magnetic flux. Using microwave spectroscopy, we show that a superconducting circuit with three Josephson tunnel junctions in parallel can possess energy degeneracies indicative of $\textrm{\emph{intrinsic}}$ non-trivial topology. We identify three topological invariants, one of which is related to a hidden quantum mechanical supersymmetry. Depending on fabrication parameters, devices are gapless or not, and fall on a simple phase diagram which is shown to be robust to perturbations including junction imperfections, asymmetry, and inductance. Josephson tunnel junction circuits, which are readily fabricated with conventional microlithography techniques, allow access to a wide range of topological systems which have no condensed matter analog. Notable spectral features of these circuits, such as degeneracies and flat bands, may be leveraged for quantum information applications, whereas quantized transport properties could be useful for metrology applications.
翻訳日:2024-01-30 20:23:47 公開日:2024-01-29
# 機械学習に基づくレアイベントアルゴリズムによるAMOC遷移確率の推定

Estimation of AMOC transition probabilities using a machine learning based rare-event algorithm ( http://arxiv.org/abs/2401.10800v2 )

ライセンス: Link先を確認
Val\'erian Jacques-Dumas, Ren\'e M. van Westen and Henk A. Dijkstra(参考訳) 大西洋局(atlantic meridional overturning circulation, amoc)は、地球温暖化によって崩壊する可能性があるため、世界的な気候の重要な要素である。 本研究の目的は,TAMS (Trajectory-Adaptive Multilevel Splitting) と呼ばれる希少なアルゴリズムを用いて,AMOCが特定の時間窓内で崩壊する確率を計算することである。 しかし,TAMSの効率と精度はスコア関数の選択に依存する。 最適スコア関数の定義は ``committor function' と呼ばれるが、一般にはそれを事前計算することは不可能である。 本稿では,tamと,レアイベントアルゴリズムが生成するデータからコミッタ関数を推定する次世代貯留層計算手法を組み合わせる。 本稿では,この手法を,F(ast)-transitionsとS(low)-transitionsという2種類の遷移が存在するAMOCの確率的ボックスモデルで検証する。 結果】f-transtionsは,身体的不定点関数を用いた文献と好適に比較できた。 機械学習と希少なアルゴリズムを結合することにより、幅広いモデルパラメータに対する遷移確率、遷移時間、遷移経路の正確な推定が可能になることを示す。 次に、これらの結果を同じモデルにおけるS-遷移のより難しい問題に拡張する。 また,f- と s-遷移のいずれの場合においても,次世代貯留層計算手法を解釈してコミッタ関数の解析的推定値を取得する方法を示す。

The Atlantic Meridional Overturning Circulation (AMOC) is an important component of the global climate, known to be a tipping element, as it could collapse under global warming. The main objective of this study is to compute the probability that the AMOC collapses within a specified time window, using a rare-event algorithm called Trajectory-Adaptive Multilevel Splitting (TAMS). However, the efficiency and accuracy of TAMS depend on the choice of the score function. Although the definition of the optimal score function, called ``committor function" is known, it is impossible in general to compute it a priori. Here, we combine TAMS with a Next-Generation Reservoir Computing technique that estimates the committor function from the data generated by the rare-event algorithm. We test this technique in a stochastic box model of the AMOC for which two types of transition exist, the so-called F(ast)-transitions and S(low)-transitions. Results for the F-transtions compare favorably with those in the literature where a physically-informed score function was used. We show that coupling a rare-event algorithm with machine learning allows for a correct estimation of transition probabilities, transition times, and even transition paths for a wide range of model parameters. We then extend these results to the more difficult problem of S-transitions in the same model. In both cases of F- and S-transitions, we also show how the Next-Generation Reservoir Computing technique can be interpreted to retrieve an analytical estimate of the committor function.
翻訳日:2024-01-30 20:23:23 公開日:2024-01-29
# 調和振動子とキラルスカラー場のためのコヒーレント状態プロジェクタによるレゲット・ガルグ不等式大破

Large violation of Leggett-Garg inequalities with coherent-state projectors for a harmonic oscillator and chiral scalar field ( http://arxiv.org/abs/2401.10692v2 )

ライセンス: Link先を確認
Tomoya Hirotani, Akira Matsumura, Yasusada Nambu, Kazuhiro Yamamoto(参考訳) 本研究では,高調波発振器のレゲットガルグ不等式(lgis)とコヒーレント状態プロジェクタを用いた(1+1)次元キラルスカラー場(ヘテロダイン型計測スキームと同値)の違反について検討する。 高調波発振器では、真空状態と熱状態が2時間準確率分布関数の評価によりLGIに反することがわかった。 特に、2回の準確率の値は、lgisの最大違反に対応するl\"udersの98%に相当する圧縮コヒーレント状態プロジェクタに対して-0.123に達することを実証する。 また、高調波発振器の場合に似たコヒーレント状態のプロジェクタを構築することにより、量子カイラルスカラー場の局所モードに対するLGIの違反も見いだす。 調和振動子とは対照的に、準確率の時間方向の周期性は消失し、これは局所モードとその相補的な自由度の間の量子的絡み合いの存在に関連している。

We investigate violations of Leggett-Garg inequalities (LGIs) for a harmonic oscillator and a (1+1)-dimensional chiral scalar field with coherent-state projectors, which is equivalent to a heterodyne-type measurement scheme. For the harmonic oscillator, we found that the vacuum and thermal states violated the LGIs by evaluating the two-time quasi-probability distribution function. In particular, we demonstrate that the value of the two-time quasi-probability reaches -0.123 for a squeezed coherent-state projector, which is equivalent to 98% of the L\"uders bound corresponding to the maximal violation of the LGIs. We also find a violation of the LGIs for the local mode of a quantum chiral scalar field by constructing a coherent-state projector similar to the harmonic oscillator case. In contrast to the harmonic oscillator, the periodicity in the time direction of the quasi-probability disappears, which is related to the existence of quantum entanglement between the local mode and its complementary degrees of freedom.
翻訳日:2024-01-30 20:22:14 公開日:2024-01-29
# コントラストと局所スパース摂動による時系列説明

Explaining Time Series via Contrastive and Locally Sparse Perturbations ( http://arxiv.org/abs/2401.08552v2 )

ライセンス: Link先を確認
Zichuan Liu, Yingying Zhang, Tianchun Wang, Zefan Wang, Dongsheng Luo, Mengnan Du, Min Wu, Yi Wang, Chunlin Chen, Lunting Fan, Qingsong Wen(参考訳) 多変量時系列を説明することは複合的な課題であり、時系列の重要な位置を特定し、複雑な時間パターンをマッチングする必要がある。 従来のサリエンシに基づく手法はこの課題に対処したが、その摂動は分布シフトの問題を緩和するものではなく、特に異種サンプルでは避けられない。 ContraLSPは非形式的摂動を構築するために反事実サンプルを導入した局所スパースモデルである。 さらに,サンプル特異的なスパースゲートを組み込んで,よりバイナリスキートでスムースなマスクを生成する。 合成データと実世界のデータセットの両方に関する実証研究は、contralspが最先端のモデルよりも優れており、時系列データの説明品質が大幅に向上していることを示している。 ソースコードは \url{https://github.com/zichuan-liu/contralsp} で入手できる。

Explaining multivariate time series is a compound challenge, as it requires identifying important locations in the time series and matching complex temporal patterns. Although previous saliency-based methods addressed the challenges, their perturbation may not alleviate the distribution shift issue, which is inevitable especially in heterogeneous samples. We present ContraLSP, a locally sparse model that introduces counterfactual samples to build uninformative perturbations but keeps distribution using contrastive learning. Furthermore, we incorporate sample-specific sparse gates to generate more binary-skewed and smooth masks, which easily integrate temporal trends and select the salient features parsimoniously. Empirical studies on both synthetic and real-world datasets show that ContraLSP outperforms state-of-the-art models, demonstrating a substantial improvement in explanation quality for time series data. The source code is available at \url{https://github.com/zichuan-liu/ContraLSP}.
翻訳日:2024-01-30 20:20:47 公開日:2024-01-29
# PSAvatar:3次元ガウススプレイティングによるリアルタイム頭部アバターアニメーションのためのポイントベース形状モデル

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Animation with 3D Gaussian Splatting ( http://arxiv.org/abs/2401.12900v3 )

ライセンス: Link先を確認
Zhongyuan Zhao and Zhenyu Bao and Qing Li and Guoping Qiu and Kanglin Liu(参考訳) 多くの進歩にもかかわらず、リアルタイムの高精細なヘッドアバターアニメーションの実現は依然として困難であり、既存の手法ではスピードと品質のトレードオフが必要となる。 3DMMに基づく手法は、眼鏡やヘアスタイルのような非界面構造をモデル化するのに失敗することが多い。 3d gaussian は幾何学表現と放射場再構成に有望な能力を持つことが証明されているが、3d gaussian はポーズや表現の変化によって生じる頭部形状の変化をモデル化することが困難であるため、頭部アバター作成に3d gaussian を適用することは依然として大きな課題である。 本稿では,離散幾何学的プリミティブを用いてパラメトリックなモーファブル形状モデルを作成し,精細なディテール表現と高忠実度レンダリングに3dガウシアンを用いる,アニメーション可能な頭部アバター作成のための新しいフレームワークpsavatarを提案する。 パラメトリック形状モデル(Parametric morphable shape model)は、3次元表現のメッシュの代わりに点を用いて表現の柔軟性を向上するポイントベース形状モデル(PMSM)である。 PMSMは、最初にFLAMEメッシュを、表面のサンプリングとメッシュのオフによってポイントに変換し、表面のような構造だけでなく、眼鏡やヘアスタイルのような複雑な地形の再構築を可能にする。 これらの点を分析・合成方式で頭部形状と整合させることにより、pmsmは3次元ガウシアンを詳細な表現と外観のモデリングに活用し、高忠実なアバターを作成することができる。 psavatarは多種多様な被写体の高精細な頭部アバターを再現でき、アバターはリアルタイムでアニメーションできる(512$\times$ 512 の解像度で25 fps)。

Despite much progress, achieving real-time high-fidelity head avatar animation is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyles, while neural implicit models suffer from deformation inflexibility and rendering inefficiency. Although 3D Gaussian has been demonstrated to possess promising capability for geometry representation and radiance field reconstruction, applying 3D Gaussian in head avatar creation remains a major challenge since it is difficult for 3D Gaussian to model the head shape variations caused by changing poses and expressions. In this paper, we introduce PSAvatar, a novel framework for animatable head avatar creation that utilizes discrete geometric primitive to create a parametric morphable shape model and employs 3D Gaussian for fine detail representation and high fidelity rendering. The parametric morphable shape model is a Point-based Morphable Shape Model (PMSM) which uses points instead of meshes for 3D representation to achieve enhanced representation flexibility. The PMSM first converts the FLAME mesh to points by sampling on the surfaces as well as off the meshes to enable the reconstruction of not only surface-like structures but also complex geometries such as eyeglasses and hairstyles. By aligning these points with the head shape in an analysis-by-synthesis manner, the PMSM makes it possible to utilize 3D Gaussian for fine detail representation and appearance modeling, thus enabling the creation of high-fidelity avatars. We show that PSAvatar can reconstruct high-fidelity head avatars of a variety of subjects and the avatars can be animated in real-time ($\ge$ 25 fps at a resolution of 512 $\times$ 512 ).
翻訳日:2024-01-30 20:15:32 公開日:2024-01-29
# 合成データ生成と比例クラスバランス手法による小型物体の物体検出性能の向上:産業シナリオにおける比較研究

Enhancing Object Detection Performance for Small Objects through Synthetic Data Generation and Proportional Class-Balancing Technique: A Comparative Study in Industrial Scenarios ( http://arxiv.org/abs/2401.12729v2 )

ライセンス: Link先を確認
Jibinraj Antony and Vinit Hegiste and Ali Nazeri and Hooman Tavakoli and Snehal Walunj and Christiane Plociennik and Martin Ruskowski(参考訳) オブジェクト検出(od)は、ローカライズされたクラス情報を抽出するための重要なコンピュータビジョン手法であり、業界に複数の応用がある。 多くのSOTA(State-of-the-art)ODモデルは中規模および大型のオブジェクトでよく機能するが、小さなオブジェクトでは動作しないようである。 ほとんどの産業用ユースケースでは、時間を要するためヒューマンエラーを起こしやすいため、小さなオブジェクトのデータを収集して注釈を付けることは困難である。 さらに、これらのデータセットは不均衡であり、しばしば非効率なモデル収束をもたらす。 この課題に取り組むため,本研究ではodモデルの性能を向上させるために追加のデータポイントを注入する新しい手法を提案する。 合成データ生成を用いることで、小さなオブジェクトのデータポイントに対するデータ収集とアノテーションの難しさを最小化し、バランスの取れた分布を持つデータセットを作成することができる。 本稿では,単純な比例クラスバランス手法がodモデルのアンカーマッチングを改善する効果について述べる。 sota odモデル(yolov5、yolov7、ssd)の性能比較を行い、産業用ユースケースにおける実データと合成データの組み合わせについて検討した。

Object Detection (OD) has proven to be a significant computer vision method in extracting localized class information and has multiple applications in the industry. Although many of the state-of-the-art (SOTA) OD models perform well on medium and large sized objects, they seem to under perform on small objects. In most of the industrial use cases, it is difficult to collect and annotate data for small objects, as it is time-consuming and prone to human errors. Additionally, those datasets are likely to be unbalanced and often result in an inefficient model convergence. To tackle this challenge, this study presents a novel approach that injects additional data points to improve the performance of the OD models. Using synthetic data generation, the difficulties in data collection and annotations for small object data points can be minimized and to create a dataset with balanced distribution. This paper discusses the effects of a simple proportional class-balancing technique, to enable better anchor matching of the OD models. A comparison was carried out on the performances of the SOTA OD models: YOLOv5, YOLOv7 and SSD, for combinations of real and synthetic datasets within an industrial use case.
翻訳日:2024-01-30 20:14:56 公開日:2024-01-29
# ClipSAM: ゼロショット異常セグメンテーションのためのCLIPとSAMコラボレーション

ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation ( http://arxiv.org/abs/2401.12665v2 )

ライセンス: Link先を確認
Shengze Li, Jianjian Cao, Peng Ye, Yuhan Ding, Chongjun Tu, Tao Chen(参考訳) 近年、CLIPやSAMといった基礎モデルでは、ZSAS(Zero-Shot Anomaly Segmentation)の課題に期待できる性能を示している。 しかし、CLIPベースのかSAMベースのZSASメソッドは、まだ無視できないキーの欠点に悩まされている。 1)CLIPは主に異なる入力を横断するグローバルな特徴アライメントに焦点を当てており、局所的な異常部分の不正確なセグメンテーションにつながる。 2)SAMは適切なプロンプト制約なしに多数の冗長マスクを生成する傾向にあり,複雑な後処理要件が生じる。 本研究では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。 ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに利用することである。 本稿では,CLIPの複数スケールで視覚的特徴を持つ言語と対話し,異常位置の推論を行うための,UMCI(Unified Multi-scale Cross-modal Interaction)モジュールを提案する。 次に,位置情報をマルチレベルプロンプトとして活用し,samが階層的なマスクレベルを取得してマージする,新たなマルチレベルマスクリファインメント(mmr)モジュールを設計する。 MVTec-ADおよびVisAデータセット上での最適セグメンテーション性能を達成し,本手法の有効性を検証する。

Recently, foundational models such as CLIP and SAM have shown promising performance for the task of Zero-Shot Anomaly Segmentation (ZSAS). However, either CLIP-based or SAM-based ZSAS methods still suffer from non-negligible key drawbacks: 1) CLIP primarily focuses on global feature alignment across different inputs, leading to imprecise segmentation of local anomalous parts; 2) SAM tends to generate numerous redundant masks without proper prompt constraints, resulting in complex post-processing requirements. In this work, we innovatively propose a CLIP and SAM collaboration framework called ClipSAM for ZSAS. The insight behind ClipSAM is to employ CLIP's semantic understanding capability for anomaly localization and rough segmentation, which is further used as the prompt constraints for SAM to refine the anomaly segmentation results. In details, we introduce a crucial Unified Multi-scale Cross-modal Interaction (UMCI) module for interacting language with visual features at multiple scales of CLIP to reason anomaly positions. Then, we design a novel Multi-level Mask Refinement (MMR) module, which utilizes the positional information as multi-level prompts for SAM to acquire hierarchical levels of masks and merges them. Extensive experiments validate the effectiveness of our approach, achieving the optimal segmentation performance on the MVTec-AD and VisA datasets.
翻訳日:2024-01-30 20:14:34 公開日:2024-01-29
# NeuroSynt: 反応合成のためのニューロシンボリック・ポートフォリオ・ソルバー

NeuroSynt: A Neuro-symbolic Portfolio Solver for Reactive Synthesis ( http://arxiv.org/abs/2401.12131v2 )

ライセンス: Link先を確認
Matthias Cosler, Christopher Hahn, Ayham Omar, Frederik Schmitt(参考訳) 反応合成のためのニューロシント(NeuroSynt)という,ニューロシンボリック・ポートフォリオ・ソルバ・フレームワークを紹介する。 解法の中心には、反応合成問題を解くためのニューラルネットワークとシンボリックアプローチのシームレスな統合がある。 健全性を確保するため、ニューラルエンジンは、基礎となるニューラルモデルの予測を検証するモデルチェッカーと結合される。 NeuroSyntのオープンソース実装は、新しいニューラルおよび最先端のシンボリックアプローチをシームレスに統合する、リアクティブ合成のための統合フレームワークを提供する。 大規模な実験は、現在のSynTCOMPベンチマークでNuroSyntが新しい解決に寄与した、挑戦的な仕様の処理、最先端のリアクティブ合成ソルバの強化に有効であることを示した。

We introduce NeuroSynt, a neuro-symbolic portfolio solver framework for reactive synthesis. At the core of the solver lies a seamless integration of neural and symbolic approaches to solving the reactive synthesis problem. To ensure soundness, the neural engine is coupled with model checkers verifying the predictions of the underlying neural models. The open-source implementation of NeuroSynt provides an integration framework for reactive synthesis in which new neural and state-of-the-art symbolic approaches can be seamlessly integrated. Extensive experiments demonstrate its efficacy in handling challenging specifications, enhancing the state-of-the-art reactive synthesis solvers, with NeuroSynt contributing novel solves in the current SYNTCOMP benchmarks.
翻訳日:2024-01-30 20:14:06 公開日:2024-01-29
# テンソルビュー位相グラフニューラルネットワーク

Tensor-view Topological Graph Neural Network ( http://arxiv.org/abs/2401.12007v2 )

ライセンス: Link先を確認
Tao Wen, Elynn Chen, Yuzhou Chen(参考訳) グラフ分類はグラフ構造化データにとって重要な学習課題である。 グラフニューラルネットワーク(gnns)は最近、グラフ学習で注目を集め、多くの重要なグラフ問題で大きな改善が見られた。 最先端のパフォーマンスにもかかわらず、既存のGNNは各ノード周辺の非常に限られたエリアからのローカル情報しか使用せず、マルチモーダル情報や過剰な計算のオーバーヘッドに悩まされている。 これらの問題に対処するために, 永続的ホモロジー, グラフ畳み込み, テンソル演算に基づいて構築された, 単純かつ効果的な位相深層学習のクラスである, テンソルビュートポロジカルグラフニューラルネットワーク(TTG-NN)を提案する。 この新しい方法はテンソル学習を取り入れ、テンソルビュートポロジー(tt)とテンソルビューグラフ(tg)の構造情報を局所的および大域的に同時に捉える。 グラフのトポロジーと構造を十分に活用するために,2つの柔軟なttおよびtg表現学習モジュールを提案し,特徴的テンソル凝集と変換を分離し,少ない計算量でマルチモーダル構造を保存することを学ぶ。 理論的には、提案したテンソル変換層(TTL)に対して、サンプル外およびサンプル内両方の2乗平均近似誤差に高い確率境界を導出する。 実データ実験により,提案したTTG-NNは,グラフベンチマークにおいて20の最先端手法より優れていた。

Graph classification is an important learning task for graph-structured data. Graph neural networks (GNNs) have recently gained growing attention in graph learning and have shown significant improvements in many important graph problems. Despite their state-of-the-art performances, existing GNNs only use local information from a very limited neighborhood around each node, suffering from loss of multi-modal information and overheads of excessive computation. To address these issues, we propose a novel Tensor-view Topological Graph Neural Network (TTG-NN), a class of simple yet effective topological deep learning built upon persistent homology, graph convolution, and tensor operations. This new method incorporates tensor learning to simultaneously capture Tensor-view Topological (TT), as well as Tensor-view Graph (TG) structural information on both local and global levels. Computationally, to fully exploit graph topology and structure, we propose two flexible TT and TG representation learning modules that disentangle feature tensor aggregation and transformation and learn to preserve multi-modal structure with less computation. Theoretically, we derive high probability bounds on both the out-of-sample and in-sample mean squared approximation errors for our proposed Tensor Transformation Layer (TTL). Real data experiments show that the proposed TTG-NN outperforms 20 state-of-the-art methods on various graph benchmarks.
翻訳日:2024-01-30 20:13:24 公開日:2024-01-29
# ダイヤモンドにおける大型電子スピンアンサンブルの精密制御のための四角形アンテナ

Versatile quadrature antenna for precise control of large electron spin ensembles in diamond ( http://arxiv.org/abs/2401.11986v2 )

ライセンス: Link先を確認
Ruben Pellicer-Guridi, Koen Custers, Joseba Solozabal-Aldalur, Alexey Brodolin, Jason T. Francis, Miguel Varga, Jorge Casanova, Margarethus M. Paulides, and Gabriel Molina-Terriza(参考訳) 本稿では、電子スピンを大容量で高速かつコヒーレントに制御できる、任意の偏波の強均質な磁場を発生できる、容易に再現可能な安価なマイクロ波アンテナを提案する。 先行研究とは異なり、他の実験ハードウェアコンポーネントの近接にかかわらず共鳴動作を維持する共振アンテナを提案する。 このロバスト性は、短い作業距離の顕微鏡目的を用いてバルクダイヤモンドで広い視野のイメージング/センシングを行うことを可能にするため、特に重要である。 アンテナは1wの駆動電力に対して22.3a/mの磁場強度を発生させ、以前報告されたパッチアンテナ設計に比べて電力効率を2倍にする。 $0.3 \text{mm}^3$,$0.5 \text{mm}^3$, $1 \text{mm}^3$の磁場均一性はそれぞれ6\%, 8\%, 13\%の範囲内である。 アンテナの幅は半分の最大帯域幅が$\sim$160 MHzで、共振周波数は4つのコンデンサまたはバリアクターを介して400MHzの範囲で調整できる。 アンテナは、標準で安価な両面pcbで構築できるこのアンテナを再現するために必要なファイルは、オープンソースとして提供されている。 この研究はロバストで多用途の計測を容易にし、特に高感度磁気測定や窒素空隙センタを用いた広視野イメージング/センシングなどの用途にアピールしている。

We present an easily reproducible inexpensive microwave antenna that can generate a strong and homogeneous magnetic field of arbitrary polarization, which enables fast and coherent control of electron spins over a large volume. Unlike preceding works, we present a resonant antenna that maintains its resonant behaviour regardless of the proximity of other experimental hardware components. This robustness is crucial as it enables, amongst others, using microscope objectives with short working distances to perform wide field imaging/sensing with bulk diamonds. The antenna generates a magnetic field strength of 22.3 A/m for 1 W total driving power, which doubles the power efficiency compared with previously reported patch antenna designs. The magnetic field homogeneity in a volume of $0.3 \text{mm}^3$, $0.5 \text{mm}^3$ and $1 \text{mm}^3$ is within 6\%, 8\% and 13\%, respectively. The antenna has a full width at half maximum bandwidth of $\sim$160 MHz and its resonant frequency can be tuned over a 400 MHz range via four capacitors or varactors. The antenna has been tested and found to remain within safe handling temperatures during continuous-wave operation at 8 W. The files required to reproduce this antenna, which can be built on a standard and affordable double sided PCB, are provided open-source. This work facilitates a robust and versatile piece of instrumentation, being particularly appealing for applications such as high sensitivity magnetometry and wide field imaging/sensing with Nitrogen Vacancy centers.
翻訳日:2024-01-30 20:12:56 公開日:2024-01-29
# 蒸留方程式による小言語モデルの数学的推論の改善

Improving Small Language Models' Mathematical Reasoning via Equation-of-Thought Distillation ( http://arxiv.org/abs/2401.11864v2 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 本研究は,高度な大規模言語モデル (LLM) の民主化という課題に対処し,それらの数学的推論能力を,性能を損なうことなくサブビリオンパラメータ (SLM) に圧縮する。 EoTD(Equation-of-Thought Distillation, EoTD)は, 理論過程を方程式ベース表現にカプセル化し, 微調整SLMのためのEoTDデータセットを構築する手法である。 さらに,SLMの推論性能を高めるために,ETD(Ensemble Thoughts Distillation)フレームワークを提案する。 これには、Chain-of-Thought(CoT)、Program-of-Thought(PoT)、Equation-of-Thought(EoT)など、複数の思考プロセスによる推論データセットの作成と、それを微調整に使用することが含まれる。 実験により,EoTDはSLMの推理能力を大幅に向上し,ETDはこれらのモデルが最先端の推理性能を達成できることを示した。

This work addresses the challenge of democratizing advanced Large Language Models (LLMs) by compressing their mathematical reasoning capabilities into sub-billion parameter Small Language Models (SLMs) without compromising performance. We introduce Equation-of-Thought Distillation (EoTD), a novel technique that encapsulates the reasoning process into equation-based representations to construct an EoTD dataset for fine-tuning SLMs. Additionally, we propose the Ensemble Thoughts Distillation (ETD) framework to enhance the reasoning performance of SLMs. This involves creating a reasoning dataset with multiple thought processes, including Chain-of-Thought (CoT), Program-of-Thought (PoT), and Equation-of-Thought (EoT), and using it for fine-tuning. Our experimental findings demonstrate that EoTD significantly boosts the reasoning abilities of SLMs, while ETD enables these models to achieve state-of-the-art reasoning performance.
翻訳日:2024-01-30 20:12:27 公開日:2024-01-29
# 強化学習とデモによる安全で汎用的なエンドツーエンド自動運転システム

Safe and Generalized end-to-end Autonomous Driving System with Reinforcement Learning and Demonstrations ( http://arxiv.org/abs/2401.11792v4 )

ライセンス: Link先を確認
Zuojin Tang, Xiaoyu Chen, YongQiang Li, Jianyu Chen(参考訳) インテリジェントな運転システムは、システムのセキュリティと信頼性を確保しつつ、現在の環境と車両状態に基づいて適切な運転戦略を動的に定式化することができるべきである。 しかし、強化学習と模倣学習に基づく既存の手法は安全性が低く、一般化が悪く、サンプリングが効率が悪い。 さらに、将来の運転軌跡を正確に予測することはできず、将来の運転軌跡の正確な予測は最適な決定を行うための前提条件である。 そこで本稿では,複雑なシナリオに対して,安全で汎用的なエンドツーエンドの自動運転システム(sgads)を提案する。 我々のSGADSは変動推論と正規化フローを組み込んでおり、インテリジェントな車両が将来の走行軌跡を正確に予測することができる。 さらに,ロバストな安全制約の定式化を提案する。 さらに,強化学習と実演を組み合わせることで,エージェントの探索過程を増強する。 実験結果から,SGADSは安全性能を著しく向上し,高度に一般化し,複雑な都市環境下での知的車両の訓練効率を向上させることができることが示された。

An intelligent driving system should be capable of dynamically formulating appropriate driving strategies based on the current environment and vehicle status, while ensuring the security and reliability of the system. However, existing methods based on reinforcement learning and imitation learning suffer from low safety, poor generalization, and inefficient sampling. Additionally, they cannot accurately predict future driving trajectories, and the accurate prediction of future driving trajectories is a precondition for making optimal decisions. To solve these problems, in this paper, we introduce a Safe and Generalized end-to-end Autonomous Driving System (SGADS) for complex and various scenarios. Our SGADS incorporates variational inference with normalizing flows, enabling the intelligent vehicle to accurately predict future driving trajectories. Moreover, we propose the formulation of robust safety constraints. Furthermore, we combine reinforcement learning with demonstrations to augment search process of the agent. The experimental results demonstrate that our SGADS can significantly improve safety performance, exhibit strong generalization, and enhance the training efficiency of intelligent vehicles in complex urban scenarios compared to existing methods.
翻訳日:2024-01-30 20:10:36 公開日:2024-01-29
# S$3$M-Net:自律運転のためのセマンティックセグメンテーションとステレオマッチングの統合学習

S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving ( http://arxiv.org/abs/2401.11414v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Yi Feng, Chuang-Wei Liu, Fisher Yu, Qijun Chen, Rui Fan(参考訳) セマンティクスセグメンテーションとステレオマッチングは、自律運転のための3次元環境知覚システムの2つの必須要素である。 しかしながら、従来の手法ではこれらの2つの問題を個別に扱い、各タスクに別々のモデルを用いることが多い。 このアプローチは、特に計算資源が不足したり、リアルタイム性能が必須である場合に、実世界のシナリオにおいて実用的な制限をもたらす。 そこで本稿では,意味セグメンテーションとステレオマッチングを同時に行うための新しい共同学習フレームワークであるs$^3$m-netを紹介する。 具体的には、S$3$M-Netは、両方のタスク間でRGB画像から抽出された特徴を共有し、全体的なシーン理解能力が改善された。 この特徴共有プロセスは、機能融合適応(ffa)モジュールを使用して実現され、共有された特徴を効果的に意味空間に変換し、符号化された異質な特徴と融合する。 統合学習フレームワーク全体は、両タスクの構造的一貫性を重視した、新しいセマンティック一貫性ガイド(scg)損失を最小化することでトレーニングされる。 vKITTI2 と KITTI のデータセットを用いて行った大規模な実験結果から,提案した統合学習フレームワークの有効性と,他の最先端シングルタスクネットワークと比較して優れた性能を示した。 プロジェクトのWebページは mias.group/S3M-Net でアクセスできます。

Semantic segmentation and stereo matching are two essential components of 3D environmental perception systems for autonomous driving. Nevertheless, conventional approaches often address these two problems independently, employing separate models for each task. This approach poses practical limitations in real-world scenarios, particularly when computational resources are scarce or real-time performance is imperative. Hence, in this article, we introduce S$^3$M-Net, a novel joint learning framework developed to perform semantic segmentation and stereo matching simultaneously. Specifically, S$^3$M-Net shares the features extracted from RGB images between both tasks, resulting in an improved overall scene understanding capability. This feature sharing process is realized using a feature fusion adaption (FFA) module, which effectively transforms the shared features into semantic space and subsequently fuses them with the encoded disparity features. The entire joint learning framework is trained by minimizing a novel semantic consistency-guided (SCG) loss, which places emphasis on the structural consistency in both tasks. Extensive experimental results conducted on the vKITTI2 and KITTI datasets demonstrate the effectiveness of our proposed joint learning framework and its superior performance compared to other state-of-the-art single-task networks. Our project webpage is accessible at mias.group/S3M-Net.
翻訳日:2024-01-30 20:09:07 公開日:2024-01-29
# GPT誘導モンテカルロ木探索によるデータから数式を発見する

Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo Tree Search ( http://arxiv.org/abs/2401.14424v2 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Meilan Hao, Shu Wei, Yusong Deng(参考訳) それぞれの変数とデータ内の予測値の関係を正確に記述する簡潔で解釈可能な数学的公式を見つけることは、科学研究において重要なタスクであり、人工知能における重要な課題である。 この問題は記号回帰 (symbolic regression) と呼ばれ、np-hard問題である。 昨年,モンテカルロ木探索(MCTS)に基づく記号回帰法が提案され,複数のデータセットからソータが得られた。 このアルゴリズムは,従来の手法に比べて目標表現の回復に著しく改善されているが,MCTSプロセスにおけるガイダンスの欠如は探索効率を著しく損なう。 近年,MCTSの探索を誘導する事前学習型ポリシーネットワークが追加されたアルゴリズムもあるが,事前学習型ポリシーネットワークの一般化は不十分である。 そこで我々は,AlphaZeroのアイデアを組み合わせたSR-GPTを提案する。 SR-GPTは、MCTSとGPT(Generative Pre-Trained Transformer)を組み合わせた新しいシンボリック回帰アルゴリズムである。 GPTによるMCTSプロセスの誘導により,MCTSの探索効率は大幅に向上した。 次に、MCTSの結果を利用して、GPTをさらに洗練し、その能力を高め、MCTSプロセスのより正確なガイダンスを提供する。 MCTSとGPTは結合され、目標表現が決定されるまで最適化される。 SR-GPTを10以上の記号的回帰データセットから得られた222の式を用いて広範囲に評価した。 実験の結果、SR-GPTは既存の最先端アルゴリズムより優れており、雑音を伴わずともシンボル表現を正確に復元できることがわかった。

Finding a concise and interpretable mathematical formula that accurately describes the relationship between each variable and the predicted value in the data is a crucial task in scientific research, as well as a significant challenge in artificial intelligence. This problem is referred to as symbolic regression, which is an NP-hard problem. Last year, a symbolic regression method based on Monte Carlo Tree Search (MCTS) was proposed and sota was obtained on multiple datasets. While this algorithm has shown considerable improvement in recovering target expressions compared to previous methods, the lack of guidance during the MCTS process severely hampers its search efficiency. Recently, some algorithms have added a pre-trained policy network to guide the search of MCTS, but the pre-trained policy network generalizes poorly. To balance efficiency and generality, we propose SR-GPT combining ideas from AlphaZero. SR-GPT is a new symbolic regression algorithm that combines MCTS with a Generative Pre-Trained Transformer (GPT). By using GPT to guide the MCTS process, the search efficiency of MCTS is significantly improved. Next, we utilize the MCTS results to further refine the GPT, enhancing its capabilities and providing more accurate guidance for the MCTS process. MCTS and GPT are coupled together and optimize each other until the target expression is successfully determined. We conducted extensive evaluations of SR-GPT using 222 expressions sourced from over 10 different symbolic regression datasets. The experimental results demonstrate that SR-GPT outperforms existing state-of-the-art algorithms in accurately recovering symbolic expressions both with and without added noise.
翻訳日:2024-01-30 20:02:17 公開日:2024-01-29
# NVIDIAのマルチスピーカー多言語TSシステムのゼロショットTSをインデックス言語に拡張

Scaling NVIDIA's Multi-speaker Multi-lingual TTS Systems with Zero-Shot TTS to Indic Languages ( http://arxiv.org/abs/2401.13851v2 )

ライセンス: Link先を確認
Akshit Arora, Rohan Badlani, Sungwon Kim, Rafael Valle, Bryan Catanzaro(参考訳) 本稿では,NVIDIA が MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge 向けに開発した TTS モデルについて述べる。 トラック1と2では、RAD-MMMを用いて、ターゲット話者データから5分間のトレーニングを行う。 トラック3では,pフローを用いてチャレンジデータセットと外部データセットのトレーニングを行い,ゼロショットttsを行う。 すべての送信にHiFi-GANボコーダを使用します。 RAD-MMMはトラック1と2で、P-Flowはトラック3で、平均評価スコア(MOS)は4.4、話者類似度スコア(SMOS)は3.62である。

In this paper, we describe the TTS models developed by NVIDIA for the MMITS-VC (Multi-speaker, Multi-lingual Indic TTS with Voice Cloning) 2024 Challenge. In Tracks 1 and 2, we utilize RAD-MMM to perform few-shot TTS by training additionally on 5 minutes of target speaker data. In Track 3, we utilize P-Flow to perform zero-shot TTS by training on the challenge dataset as well as external datasets. We use HiFi-GAN vocoders for all submissions. RAD-MMM performs competitively on Tracks 1 and 2, while P-Flow ranks first on Track 3, with mean opinion score (MOS) 4.4 and speaker similarity score (SMOS) of 3.62.
翻訳日:2024-01-30 20:01:51 公開日:2024-01-29
# ミストラルに基づく局所言語理解のための大規模マレーシア語モデル

Large Malaysian Language Model Based on Mistral for Enhanced Local Language Understanding ( http://arxiv.org/abs/2401.13565v2 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) 本稿では,11億トークンに相当する32.6GBのデータセットを用いて,大規模言語モデルであるMistral 7Bの事前訓練の大幅な進歩を示す。 我々は,コンテキスト長の拡張,コンテキスト長4096および32768トークンのモデルのリリース,および特別な16384コンテキスト長命令調整モデルによるさらなる改良性能について検討し,マレーシアミストラルと呼ぶ。 本実験は,Mistral 7B言語理解能力に対する継続事前学習の有効性と拡張文脈長の影響を実証した。 さらに、16384のコンテキスト長命令を特別に調整したモデルをリリースし、ニュアンス言語を複雑に捉えられる可能性を示した。 さらに本研究では,ChatGPT3.5やClaude 2などの著名な言語モデルに対するマレーシアのMistralのベンチマークに寄与する。 マレーシアのミストラルがタタバハサ(マレー文法)検定において,特に指示を微調整した場合に優れた性能を示した。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700cでリリース

In this paper, we present significant advancements in the pretraining of Mistral 7B, a large-scale language model, using a dataset of 32.6 GB, equivalent to 1.1 billion tokens. We explore the impact of extending the context length, releasing models with context lengths of 4096 and 32768 tokens, and further refining performance with a specialized 16384 context length instruction-tuned model, we called it Malaysian Mistral. Our experiments demonstrate the efficacy of continue pretraining and the influence of extended context lengths on Mistral 7B's language understanding capabilities. Additionally, we release a model specifically tuned with a 16384 context length instruction, showcasing its potential for capturing nuanced language intricacies. Furthermore, our research contributes to the benchmarking of Malaysian Mistral against prominent language models, including ChatGPT3.5 and Claude 2. We present compelling results indicating Malaysian Mistral's superior performance on Tatabahasa (Malay grammar) test set, particularly when fine-tuned with instructions. All models released at https://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700c
翻訳日:2024-01-30 20:00:51 公開日:2024-01-29
# 見えないクロスドメインビデオモーメント検索のための生成的ビデオ拡散

Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval ( http://arxiv.org/abs/2401.13329v2 )

ライセンス: Link先を確認
Dezhao Luo, Shaogang Gong, Jiabo Huang, Hailin Jin, Yang Liu(参考訳) ビデオモーメント検索(vmr)は、複雑な視覚言語関係を捉えるために、きめ細かいモーメントテキスト関連を正確にモデル化する必要がある。 スケーラブルなモーメントテキストアソシエーションの学習を容易にするために、多種多様な汎用的なVMRデータセットが欠如しているため、既存の手法では、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方で共同トレーニングを行っている。 一方、大規模画像テキストおよび/またはビデオテキストペアで事前訓練された視覚言語マルチモーダルモデルの最近の発展は、粗い関連性(弱ラベル付き)にのみ基づいている。 クロスドメインvmrに必要な細かいモーメントテキスト相関を提供するには不十分です。 本研究では,対象領域の文(テキストプロンプト)をビデオにアクセスせずに利用することにより,特定の視覚概念やテキスト概念がドメイン間で重複しない,未認識のクロスドメインvmrの問題を解決する。 そこで本研究では,対象の文によって制御されるソースビデオのきめ細かい編集のための生成ビデオ拡散について検討し,対象のドメインビデオのシミュレートを可能にする。 未確認領域VMRを最適化するためのビデオ編集における2つの問題に対処する:(1)微妙な区別を伴う異なるモーメントの高品質なシミュレーションビデオの生成、(2)有害なノイズや不要な繰り返しを伴わずに既存のソーストレーニングビデオを補完するシミュレーションビデオの選択。 最初の問題として、(1)ソースビデオのオリジナルビデオ構造、(2)主題特定、(3)ターゲット文プロンプトによって同時に制御される2段階ビデオ拡散生成を定式化する。 これにより、ビデオモーメント間の微妙なバリエーションが保証される。 第2の課題として,ノイズフィルタリングのための2つの定量的指標と,シミュレーションビデオ選択におけるvmr予測を活用するための1つの定性指標を組み合わせたハイブリッド選択機構を提案する。

Video Moment Retrieval (VMR) requires precise modelling of fine-grained moment-text associations to capture intricate visual-language relationships. Due to the lack of a diverse and generalisable VMR dataset to facilitate learning scalable moment-text associations, existing methods resort to joint training on both source and target domain videos for cross-domain applications. Meanwhile, recent developments in vision-language multimodal models pre-trained on large-scale image-text and/or video-text pairs are only based on coarse associations (weakly labelled). They are inadequate to provide fine-grained moment-text correlations required for cross-domain VMR. In this work, we solve the problem of unseen cross-domain VMR, where certain visual and textual concepts do not overlap across domains, by only utilising target domain sentences (text prompts) without accessing their videos. To that end, we explore generative video diffusion for fine-grained editing of source videos controlled by the target sentences, enabling us to simulate target domain videos. We address two problems in video editing for optimising unseen domain VMR: (1) generation of high-quality simulation videos of different moments with subtle distinctions, (2) selection of simulation videos that complement existing source training videos without introducing harmful noise or unnecessary repetitions. On the first problem, we formulate a two-stage video diffusion generation controlled simultaneously by (1) the original video structure of a source video, (2) subject specifics, and (3) a target sentence prompt. This ensures fine-grained variations between video moments. On the second problem, we introduce a hybrid selection mechanism that combines two quantitative metrics for noise filtering and one qualitative metric for leveraging VMR prediction on simulation video selection.
翻訳日:2024-01-30 20:00:08 公開日:2024-01-29
# dittogym: ソフトシェイプシフトロボットを制御するための学習

DittoGym: Learning to Control Soft Shape-Shifting Robots ( http://arxiv.org/abs/2401.13231v2 )

ライセンス: Link先を確認
Suning Huang and Boyuan Chen and Huazhe Xu and Vincent Sitzmann(参考訳) ロボットの共同設計では、ロボットの形態は特定のタスクを解くための学習されたポリシーと共同で最適化される。 これは、学習した形態やアクチュエータを実現できる新しい製造技術に順応できるソフトロボットに対して特に有望である。 自然と最近の新しいロボットデザインに触発されて、我々はさらに一歩進めて、彼らの生涯で形態を変えることができるロボットとして定義された、新しい構成可能なロボットを探求することを提案する。 再構成可能なソフトロボットの制御を高次元強化学習(RL)問題として定式化する。 我々は,同じ行動空間において形態変化,移動,環境相互作用を統一し,ロボットの細かな制御を実現するための適切な粗雑なカリキュラムを導入する。 また,タスクの完了に詳細な形態変化を必要とする,再構成可能なソフトロボットのための包括的なrlベンチマークであるdittogymについても紹介する。 最後に,提案アルゴリズムをDittoGym上で評価し,RLアルゴリズムで一意に実現した数回のシーケンス内で形態変化を学習するロボットを実演する。 詳細はhttps://dittogym.github.ioで確認できる。

Robot co-design, where the morphology of a robot is optimized jointly with a learned policy to solve a specific task, is an emerging area of research. It holds particular promise for soft robots, which are amenable to novel manufacturing techniques that can realize learned morphologies and actuators. Inspired by nature and recent novel robot designs, we propose to go a step further and explore the novel reconfigurable robots, defined as robots that can change their morphology within their lifetime. We formalize control of reconfigurable soft robots as a high-dimensional reinforcement learning (RL) problem. We unify morphology change, locomotion, and environment interaction in the same action space, and introduce an appropriate, coarse-to-fine curriculum that enables us to discover policies that accomplish fine-grained control of the resulting robots. We also introduce DittoGym, a comprehensive RL benchmark for reconfigurable soft robots that require fine-grained morphology changes to accomplish the tasks. Finally, we evaluate our proposed coarse-to-fine algorithm on DittoGym and demonstrate robots that learn to change their morphology several times within a sequence, uniquely enabled by our RL algorithm. More results are available at https://dittogym.github.io.
翻訳日:2024-01-30 19:59:11 公開日:2024-01-29
# 船舶交通流予測のための重力インフォームド深層学習フレームワークとバラスト水放電による非生物種侵入リスク

Gravity-Informed Deep Learning Framework for Predicting Ship Traffic Flow and Invasion Risk of Non-Indigenous Species via Ballast Water Discharge ( http://arxiv.org/abs/2401.13098v2 )

ライセンス: Link先を確認
Ruixin Song, Gabriel Spadon, Ronald Pelot, Stan Matwin, Amilcar Soares(参考訳) 水域の侵入種は、世界中の環境と生物多様性に大きな脅威をもたらす。 輸送と貿易の増加により、非ネイティブ種は新しい環境に導入され、生態系に損傷を与え、農業、林業、漁業に経済的損失をもたらした。 そのため、これらの侵略の影響を軽減するため、リスクアセスメントとマネジメントのテクニックが急務である。 本研究の目的は, 海上交通予測モデルの構築であり, グローバル交通網を通した外来種のリスク評価を行うことである。 国際貿易の重力モデルに着想を得た本モデルは,輸送ハブの輸送フラックス密度,港間距離,貿易フロー,集中性指標など,船舶活動の可能性と影響に影響を与える様々な要因を考察する。 また,侵入種のリスクネットワークを解析することにより,原産地と目的地が一対ある場合の侵入脅威レベルを評価するための包括的枠組みを提供する。 そこで本稿では,リスク分析を可能にする短期的・長期的依存関係を再構築するために,重力モデルへのトランスフォーマーを導入する。 そこで本研究では,既存および非既存軌道のセグメンテーション精度89%,キーポート間を流れる船舶数84.8%の精度を実現し,従来の深層重力モデルよりも10%以上向上した物理モデルを提案する。 これらの線に沿って、本研究は外来種のリスク評価の理解を深める。 政策立案者、保護主義者、利害関係者はリスクの高い侵入経路を特定することで管理行動を優先することができる。 さらに,本モデルは多種多様であり,新たなデータソースを含むことが可能であり,地球環境の変化にともなう種侵入リスクの評価に適している。

Invasive species in water bodies pose a major threat to the environment and biodiversity globally. Due to increased transportation and trade, non-native species have been introduced to new environments, causing damage to ecosystems and leading to economic losses in agriculture, forestry, and fisheries. Therefore, there is a pressing need for risk assessment and management techniques to mitigate the impact of these invasions. This study aims to develop a new physics-inspired model to forecast maritime shipping traffic and thus inform risk assessment of invasive species spread through global transportation networks. Inspired by the gravity model for international trades, our model considers various factors that influence the likelihood and impact of vessel activities, such as shipping flux density, distance between ports, trade flow, and centrality measures of transportation hubs. Additionally, by analyzing the risk network of invasive species, we provide a comprehensive framework for assessing the invasion threat level given a pair of origin and destination. Accordingly, this paper introduces transformers to gravity models to rebuild the short- and long-term dependencies that make the risk analysis feasible. Thus, we introduce a physics-inspired framework that achieves an 89% segmentation accuracy for existing and non-existing trajectories and an 84.8% accuracy for the number of vessels flowing between key port areas, representing more than 10% improvement over the traditional deep-gravity model. Along these lines, this research contributes to a better understanding of invasive species risk assessment. It allows policymakers, conservationists, and stakeholders to prioritize management actions by identifying high-risk invasion pathways. Besides, our model is versatile and can include new data sources, making it suitable for assessing species invasion risks in a changing global landscape.
翻訳日:2024-01-30 19:57:52 公開日:2024-01-29
# 透明性の攻撃:画像層がAIの知覚を弱める方法

Transparency Attacks: How Imperceptible Image Layers Can Fool AI Perception ( http://arxiv.org/abs/2401.15817v1 )

ライセンス: Link先を確認
Forrest McKee, David Noever(参考訳) 本稿では,知覚不可能な画像層が複数の視覚モデルを任意のラベル代入とキャプションに結合する場合のアルゴリズム的脆弱性について検討する。 我々は、人間の目が知覚するものをAIが誤解釈するきっかけとなるステルス透明性を導入するために、画像前処理手法を検討する。 この研究は、従来の透かし、ステガノグラフィー、背景のミスキューなど、幅広い攻撃面をコンパイルし、その結果を調査する。 本研究では,この攻撃によるデータセット中毒を,単一攻撃層またはランダムに選択した中毒クラスを用いて,グレースケールの景観やロゴの集合体を誤識別することを示した。 例えば、人間の目に対する軍用戦車は、畳み込みネットワーク(YOLOなど)と視覚変換器(ViT、GPT-Visionなど)に基づくオブジェクト分類器への誤ラベルブリッジである。 注目すべき攻撃の制限は、人間の目が知覚する透明な前景画像と粗い一致としてグレースケールの背景(隠れた)層に依存することである。 この依存性は、手動チューニングなしで実用的成功率を制限し、反対の表示テーマ(例えば、明るい背景、明るい透明な前景が見え、ライトテーマのイメージビューアやブラウザに対して最もよく機能する)に置かれると、隠れたレイヤを露出させる。 ステルス透明性は、顔認識と監視の回避、デジタル透かし、コンテンツフィルタリング、データセットのキュレーション、自動車とドローンの自律性、法医学的証拠の改ざん、小売商品の誤分類など、視覚システムを確立した。 この手法は、通常、人間と機械の両方にとってわずかに知覚できない、あるいは完全に認識できない方法でピクセル値を変更することに焦点を当てる従来の敵攻撃とは対照的である。

This paper investigates a novel algorithmic vulnerability when imperceptible image layers confound multiple vision models into arbitrary label assignments and captions. We explore image preprocessing methods to introduce stealth transparency, which triggers AI misinterpretation of what the human eye perceives. The research compiles a broad attack surface to investigate the consequences ranging from traditional watermarking, steganography, and background-foreground miscues. We demonstrate dataset poisoning using the attack to mislabel a collection of grayscale landscapes and logos using either a single attack layer or randomly selected poisoning classes. For example, a military tank to the human eye is a mislabeled bridge to object classifiers based on convolutional networks (YOLO, etc.) and vision transformers (ViT, GPT-Vision, etc.). A notable attack limitation stems from its dependency on the background (hidden) layer in grayscale as a rough match to the transparent foreground image that the human eye perceives. This dependency limits the practical success rate without manual tuning and exposes the hidden layers when placed on the opposite display theme (e.g., light background, light transparent foreground visible, works best against a light theme image viewer or browser). The stealth transparency confounds established vision systems, including evading facial recognition and surveillance, digital watermarking, content filtering, dataset curating, automotive and drone autonomy, forensic evidence tampering, and retail product misclassifying. This method stands in contrast to traditional adversarial attacks that typically focus on modifying pixel values in ways that are either slightly perceptible or entirely imperceptible for both humans and machines.
翻訳日:2024-01-30 16:41:25 公開日:2024-01-29
# リアルタイム電力市場における太陽光発電システムの最適化のための畳み込み型深層強化学習

Attentive Convolutional Deep Reinforcement Learning for Optimizing Solar-Storage Systems in Real-Time Electricity Markets ( http://arxiv.org/abs/2401.15853v1 )

ライセンス: Link先を確認
Jinhao Li, Changlong Wang, Hao Wang(参考訳) 本稿では,太陽エネルギー貯蔵システム(BESS)の相乗効果について検討し,電力市場にも参加しながら,太陽エネルギーの削減のためのバックアップとして機能することで,BESSが経済的ポテンシャルを解き放つための実行可能な戦略を開発する。 我々は, 太陽光発電システムのリアルタイム入札を, ソーラーファームとBESSの2つのマルコフ決定プロセスとしてモデル化した。 我々は、注意機構(AC)と多粒度特徴畳み込みを利用してDRL入力を処理し、より優れた入札決定を行う、新しい深層強化学習(DRL)アルゴリズムを開発した。 シミュレーションの結果,ac-drlは2つの最適化ベースと1つのdrlベースのベンチマークを上回り,23%,20%,11%の収益を生み出した。 過剰なソーラー発電は、BESSに市場への入札を効果的に課金し、太陽のカウンセリングを76%削減し、ソーラー電池システムのシナジーをより有効にすることができる。

This paper studies the synergy of solar-battery energy storage system (BESS) and develops a viable strategy for the BESS to unlock its economic potential by serving as a backup to reduce solar curtailments while also participating in the electricity market. We model the real-time bidding of the solar-battery system as two Markov decision processes for the solar farm and the BESS, respectively. We develop a novel deep reinforcement learning (DRL) algorithm to solve the problem by leveraging attention mechanism (AC) and multi-grained feature convolution to process DRL input for better bidding decisions. Simulation results demonstrate that our AC-DRL outperforms two optimization-based and one DRL-based benchmarks by generating 23%, 20%, and 11% higher revenue, as well as improving curtailment responses. The excess solar generation can effectively charge the BESS to bid in the market, significantly reducing solar curtailments by 76% and creating synergy for the solar-battery system to be more viable.
翻訳日:2024-01-30 16:28:55 公開日:2024-01-29
# Few and Fewer: 少ないベースクラスを使った事例から学ぶ

Few and Fewer: Learning Better from Few Examples Using Fewer Base Classes ( http://arxiv.org/abs/2401.15834v1 )

ライセンス: Link先を確認
Raphael Lafargue, Yassir Bendou, Bastien Pasdeloup, Jean-Philippe Diguet, Ian Reid, Vincent Gripon and Jack Valmadre(参考訳) トレーニングデータが不足する場合、'`target''データセット上でパラメータを微調整するか、単純な分類器の機能として直接その表現を採用するかによって、大きなベースデータセットで事前トレーニングされた特徴抽出器を使用するのが一般的である。 ターゲットデータセットには少数の例しか含まれていないため、ファインチューニングは数ショットの学習には効果がない。 しかし、細調整なしで機能を直接適用することは、ベースとターゲット分布に依存しており、これらの特徴は分離性と一般化を達成するのに十分である。 そこで本研究では,メタデータセットから8つのドメインにまたがって,より有用なベースデータセットを識別し,より少ないベースクラスで学習することで,ターゲットデータセットのより良い特徴が得られるかどうかを考察し,対象タスクについて,より詳細が分かっていない複数の実世界の設定(ドメインインフォームド,タスクインフォームド,非インフォームド)を楽しむことを検討する。 我々の知る限り、慎重に選択されたベースクラスのサブセットで微調整を行うことで、ほとんどショット学習を大幅に改善できる最初の実演である。 私たちのコントリビューションはシンプルで直感的なメソッドで、どんな数ショットのソリューションでも実装できます。 また、これらのソリューションが正確性を高めるであろう条件についても洞察を与えます。 この論文から得られたすべての実験を再現するコードをgithubでリリースします。 https://github.com/RafLaf/Few-and-Fewer.git

When training data is scarce, it is common to make use of a feature extractor that has been pre-trained on a large base dataset, either by fine-tuning its parameters on the ``target'' dataset or by directly adopting its representation as features for a simple classifier. Fine-tuning is ineffective for few-shot learning, since the target dataset contains only a handful of examples. However, directly adopting the features without fine-tuning relies on the base and target distributions being similar enough that these features achieve separability and generalization. This paper investigates whether better features for the target dataset can be obtained by training on fewer base classes, seeking to identify a more useful base dataset for a given task.We consider cross-domain few-shot image classification in eight different domains from Meta-Dataset and entertain multiple real-world settings (domain-informed, task-informed and uninformed) where progressively less detail is known about the target task. To our knowledge, this is the first demonstration that fine-tuning on a subset of carefully selected base classes can significantly improve few-shot learning. Our contributions are simple and intuitive methods that can be implemented in any few-shot solution. We also give insights into the conditions in which these solutions are likely to provide a boost in accuracy. We release the code to reproduce all experiments from this paper on GitHub. https://github.com/RafLaf/Few-and-Fewer.git
翻訳日:2024-01-30 16:28:35 公開日:2024-01-29
# 超伝導量子回路を用いた3段量子熱エンジンの熱力学実験

Experimental Demonstration of Thermodynamics of Three-level Quantum Heat Engine using Superconducting Quantum Circuits ( http://arxiv.org/abs/2401.15833v1 )

ライセンス: Link先を確認
Gao-xiang Deng, Haoqiang Ai, Wei Shao, Yu Liu, Zheng Cui(参考訳) 3段階のシステムは、量子熱エンジンで自律サイクリングが可能な最小の量子システムを表す。 本研究では,超伝導量子回路の設計と実装により,三段量子熱エンジンの実際の熱力学を実証する手法を提案する。 この研究で設計された量子回路モデルの結果は、実際の量子デバイス上で実行された場合、理論的予測と密接に一致し、回路モデルの有効性を検証する。 本研究は,3段階の量子熱機関の研究に新たなアプローチを提供し,実験手順の複雑さとコストを低減しつつ,理論的研究結果の検証を可能にする。

The three-level system represents the smallest quantum system capable of autonomous cycling in quantum heat engines. This study proposes a method to demonstrate the actual thermodynamics of a three-level quantum heat engine by designing and implementing superconducting quantum circuits. Following error mitigation, the outcomes from the quantum circuit model designed in this study, when executed on a real quantum device, closely align with theoretical predictions, thereby validating the effectiveness of the circuit model. This study offers a novel approach for investigating three-level quantum heat engines, enabling the verification of theoretical research findings while also reducing the complexity and cost of experimental procedures.
翻訳日:2024-01-30 16:28:10 公開日:2024-01-29
# 3次元格子上での格子縫合経路の効率的かつ高性能ルーティング

Efficient and high-performance routing of lattice-surgery paths on three-dimensional lattice ( http://arxiv.org/abs/2401.15829v1 )

ライセンス: Link先を確認
Kou Hamada, Yasunari Suzuki, Yuuki Tokunaga(参考訳) 表面符号を用いた論理量子ビットの符号化と格子演算による多ビット論理演算は、フォールトトレラント量子コンピューティングを実証するための最も有望なアプローチの一つである。 したがって, 高速なフォールトトレラント量子コンピューティングにおいて, 格子サージェリング操作を効率的にスケジュールする手法が不可欠である。 格子外科手術のスループットを改善するための戦略は、ベル状態の準備や測定などのいくつかの小さな命令に分割し、その一部を事前に実行することである。 しかし、この概念を十分に活用するためのスケジューリング方法はまだ検討されていない。 本稿では,この戦略を利用した格子探索命令の高速かつ高速なスケジューリングアルゴリズムを提案する。 格子探索命令のスケジューリング問題を3次元格子に3次元経路を埋め込むグラフ問題に変換することで,3次元格子内の経路探索問題を解くことで効率的なスケジューリングを探索することができる。 そこで本研究では,経路探索問題であるディクストラ射影の解法を提案する。 本研究では,この手法により,量子位相推定アルゴリズムから生成するベンチマークプログラムの実行時間を2.7倍に短縮できることを数値的に示す。 本研究は,格子探索スケジューリングとグラフ探索問題の関連性を確立し,フォールトトレラント量子コンピューティングのコンパイラ最適化に関する理論的解析を行う。

Encoding logical qubits with surface codes and performing multi-qubit logical operations with lattice surgery is one of the most promising approaches to demonstrate fault-tolerant quantum computing. Thus, a method to efficiently schedule a sequence of lattice-surgery operations is vital for high-performance fault-tolerant quantum computing. A possible strategy to improve the throughput of lattice-surgery operations is splitting a large instruction into several small instructions such as Bell state preparation and measurements and executing a part of them in advance. However, scheduling methods to fully utilize this idea have yet to be explored. In this paper, we propose a fast and high-performance scheduling algorithm for lattice-surgery instructions leveraging this strategy. We achieved this by converting the scheduling problem of lattice-surgery instructions to a graph problem of embedding 3D paths into a 3D lattice, which enables us to explore efficient scheduling by solving path search problems in the 3D lattice. Based on this reduction, we propose a method to solve the path-finding problems, Dijkstra projection. We numerically show that this method reduced the execution time of benchmark programs generated from quantum phase estimation algorithms by 2.7 times compared with a naive method based on greedy algorithms. Our study establishes the relation between the lattice-surgery scheduling and graph search problems, which leads to further theoretical analysis on compiler optimization of fault-tolerant quantum computing.
翻訳日:2024-01-30 16:28:00 公開日:2024-01-29
# 蹴ったローター模型の波束動力学に関する擬古典的理論

A pseudoclassical theory for the wavepacket dynamics of the kicked rotor model ( http://arxiv.org/abs/2401.15823v1 )

ライセンス: Link先を確認
Zhixing Zou, Jiao Wang(参考訳) 本研究では, 量子力学における古典力学の足跡を解明するために, 蹴りロータモデルに対する一般化された擬古典的理論を提案する。 最も低い2つの量子共鳴の近傍にのみ適用される以前の擬古典理論と比較して、提案理論は、量子共鳴における自由回転の量子効果を考慮し、原理的に全ての量子共鳴の近傍に適用される。 特に、量子ウェーブパックダイナミクスが一般化された擬古典力学に基づいてうまく予測できることをシミュレーションによって確認し、深層量子理論のダイナミクスを古典力学に橋渡しできる興味深い例を提供している。 一般化された擬古典論の $\mathcal{pt}$-symmetric kick ローターへの応用についても論じる。

In this study, we propose a generalized pseudoclassical theory for the kicked rotor model in an attempt to discern the footprints of the classical dynamics in the deep quantum regime. Compared with the previous pseudoclassical theory that applies only in the neighborhoods of the lowest two quantum resonances, the proposed theory is applicable in the neighborhoods of all quantum resonances in principle by considering the quantum effect of the free rotation at a quantum resonance. In particular, it is confirmed by simulations that the quantum wavepacket dynamics can be successfully forecasted based on the generalized pseudoclassical dynamics, offering an intriguing example where it is feasible to bridge the dynamics in the deep quantum regime to the classical dynamics. The application of the generalized pseudoclassical theory to the $\mathcal{PT}$-symmetric kicked rotor is also discussed.
翻訳日:2024-01-30 16:27:40 公開日:2024-01-29
# シーン分類のための知識認識ニューロン解釈

Knowledge-Aware Neuron Interpretation for Scene Classification ( http://arxiv.org/abs/2401.15820v1 )

ライセンス: Link先を確認
Yong Guan, Freddy Lecue, Jiaoyan Chen, Ru Li, Jeff Z. Pan(参考訳) ニューラルモデルは目覚ましい性能を達成したが、それでも不透明さのために疑問が残る。 この目的のために、モデル予測の説明はますます注目を集めている。 しかしながら、現在の手法では外部知識を取り入れることは稀であり、(1)概念の完全性を無視する3つの限界に悩まされている。 単に概念を選択するだけでは予測には不十分である。 (2)概念融合の欠如。 意味論的に等価な概念をマージできない。 3)モデル動作の操作が困難である。 オリジナルのモデルの説明のための検証の欠如。 これらの問題に対処するために,画像シーン分類のモデル予測を説明するための新しい知識認識ニューロン解釈フレームワークを提案する。 具体的には,概念の完全性を評価するために,知識グラフに基づくシーンの中核概念である概念ネットを提案する。 完全な概念を取り入れた本手法は,ベースラインよりも優れた予測説明を提供する。 さらに, 概念融合のために, 概念フィルタリングと呼ばれる知識グラフに基づく手法を導入し, ニューロン解釈のためのニューロンの挙動について23%以上のポイントゲインを発生させる。 最後に,ConceptNetに基づくコア概念がモデル動作の操作に利用できるかを検討することを目的としたモデルマニピュレーションを提案する。 その結果,コアコンセプトはオリジナルモデルの性能を26%以上向上させることができることがわかった。

Although neural models have achieved remarkable performance, they still encounter doubts due to the intransparency. To this end, model prediction explanation is attracting more and more attentions. However, current methods rarely incorporate external knowledge and still suffer from three limitations: (1) Neglecting concept completeness. Merely selecting concepts may not sufficient for prediction. (2) Lacking concept fusion. Failure to merge semantically-equivalent concepts. (3) Difficult in manipulating model behavior. Lack of verification for explanation on original model. To address these issues, we propose a novel knowledge-aware neuron interpretation framework to explain model predictions for image scene classification. Specifically, for concept completeness, we present core concepts of a scene based on knowledge graph, ConceptNet, to gauge the completeness of concepts. Our method, incorporating complete concepts, effectively provides better prediction explanations compared to baselines. Furthermore, for concept fusion, we introduce a knowledge graph-based method known as Concept Filtering, which produces over 23% point gain on neuron behaviors for neuron interpretation. At last, we propose Model Manipulation, which aims to study whether the core concepts based on ConceptNet could be employed to manipulate model behavior. The results show that core concepts can effectively improve the performance of original model by over 26%.
翻訳日:2024-01-30 16:27:26 公開日:2024-01-29
# OntoMedRec: 医療勧告のためのモデル非依存型オントロジーエンコーダ

OntoMedRec: Logically-Pretrained Model-Agnostic Ontology Encoders for Medication Recommendation ( http://arxiv.org/abs/2401.15814v1 )

ライセンス: Link先を確認
Weicong Tan, Weiqing Wang, Xin Zhou, Wray Buntine, Gordon Bingham(参考訳) 既存の医薬品推奨モデルは、電子健康記録(ehrs)に基づいて医療概念の表現を学習し、学習表現を用いて推奨を行う。 しかし、ほとんどの薬は限られた時間だけデータセットに現れるため、表現の学習は不十分である。 医学オントロジー(medical ontologies)は、医学用語の階層分類システムであり、同じ用語が一定のレベルで同じクラスに属する。 本稿では,医療オントロジーとデータ空間の問題に対処する,論理的に事前訓練された,モデルに依存しない医療オントロジーエンコーダであるOntoMedRecを提案する。 OntoMedRecの有効性を評価するためにベンチマークデータセットの総合的な実験を行い、その結果、OntoMedRecの統合により、EHRデータセット全体と数発の薬剤による入院の両方において、様々なモデルの性能が改善されることを示した。 ソースコードのgithubリポジトリはhttps://anonymous.4open.science/r/ontomedrec-d123にある。

Most existing medication recommendation models learn representations for medical concepts based on electronic health records (EHRs) and make recommendations with learnt representations. However, most medications appear in the dataset for limited times, resulting in insufficient learning of their representations. Medical ontologies are the hierarchical classification systems for medical terms where similar terms are in the same class on a certain level. In this paper, we propose OntoMedRec, the logically-pretrained and model-agnostic medical Ontology Encoders for Medication Recommendation that addresses data sparsity problem with medical ontologies. We conduct comprehensive experiments on benchmark datasets to evaluate the effectiveness of OntoMedRec, and the result shows the integration of OntoMedRec improves the performance of various models in both the entire EHR datasets and the admissions with few-shot medications. We provide the GitHub repository for the source code on https://anonymous.4open.science/r/OntoMedRec-D123
翻訳日:2024-01-30 16:27:09 公開日:2024-01-29
# green runner: 効率的なディープラーニングコンポーネント選択ツール

Green Runner: A tool for efficient deep learning component selection ( http://arxiv.org/abs/2401.15810v1 )

ライセンス: Link先を確認
Jai Kannan(参考訳) 機械学習機能に依存するソフトウェアにとって、モデル選択は望ましい性能特性を持つタスクに適したモデルを見つけるための鍵となる。 モデルを評価するには i) 多くのモデルから選択すること(例えば、Hugging face model repository) 二 評価指標及び訓練戦略の選択、及び 三 問題領域に基づく仕立て的トレードオフ しかし、現在の評価アプローチは、最適化されたモデル選択をもたらすアドホックか、無駄な計算に繋がるブルートフォースのいずれかである。 本稿では,自然言語で提供されるアプリケーションシナリオに基づいてモデルを自動的に選択し,評価する新しいツールである \toolname を提案する。 我々は,大規模言語モデルの推論能力を活用して,学習戦略を提案し,問題記述から望ましいトレードオフを抽出する。 問題に基づいた制約とトレードオフをモデル選択プロセスに統合する、リソース効率の高い実験エンジンである。 予備評価の結果,<toolname{} はアドホック評価やブルート力と比較して効率的かつ正確であることがわかった。 本研究は,機械学習機能を備えたソフトウェアに対する需要の増加に伴う環境影響を軽減するための,エネルギー効率向上のための重要なステップを示す。

For software that relies on machine-learned functionality, model selection is key to finding the right model for the task with desired performance characteristics. Evaluating a model requires developers to i) select from many models (e.g. the Hugging face model repository), ii) select evaluation metrics and training strategy, and iii) tailor trade-offs based on the problem domain. However, current evaluation approaches are either ad-hoc resulting in sub-optimal model selection or brute force leading to wasted compute. In this work, we present \toolname, a novel tool to automatically select and evaluate models based on the application scenario provided in natural language. We leverage the reasoning capabilities of large language models to propose a training strategy and extract desired trade-offs from a problem description. \toolname~features a resource-efficient experimentation engine that integrates constraints and trade-offs based on the problem into the model selection process. Our preliminary evaluation demonstrates that \toolname{} is both efficient and accurate compared to ad-hoc evaluations and brute force. This work presents an important step toward energy-efficient tools to help reduce the environmental impact caused by the growing demand for software with machine-learned functionality.
翻訳日:2024-01-30 16:26:49 公開日:2024-01-29
# 学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測

Spatial Decomposition and Temporal Fusion based Inter Prediction for Learned Video Compression ( http://arxiv.org/abs/2401.15864v1 )

ライセンス: Link先を確認
Xihua Sheng, Li Li, Dong Liu, Houqiang Li(参考訳) ビデオ圧縮性能は相互予測の精度と密接に関連している。 不一致な動きと閉塞を伴う局所映像領域の正確な相互予測を得るのは難しい傾向にある。 従来のビデオ符号化標準は、再帰的分割、幾何学的分割、長期参照など、動きの不整合と閉塞を扱う様々な技術を提案する。 しかし,既存の学習ビデオ圧縮方式では,局所領域における動作不整合や咬合を無視しながら,全領域平均の予測誤差の最小化に重点を置いている。 本稿では,学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。 動きの不整合に対処するため,まず動画を構造と細部(SDD)成分に分解する手法を提案する。 次に、SDDに基づく動き推定とSDDに基づく時間的コンテキストマイニングを行い、時間的コンテキストを生成する。 本稿では,各歴史的特徴の時間的情報を繰り返し蓄積し,短時間の時間的文脈と融合させることで,長期的時間的文脈を伝播させることを提案する。 SDDに基づく動きモデルと長時間の時間的文脈融合により,提案したビデオコーデックはより正確な相互予測が得られる。 総合的な実験結果から,PSNRとMS-SSIMの共通テストデータセットにおいて,コーデックがH.266/VVCの参照ソフトウェアより優れていることが示された。

Video compression performance is closely related to the accuracy of inter prediction. It tends to be difficult to obtain accurate inter prediction for the local video regions with inconsistent motion and occlusion. Traditional video coding standards propose various technologies to handle motion inconsistency and occlusion, such as recursive partitions, geometric partitions, and long-term references. However, existing learned video compression schemes focus on obtaining an overall minimized prediction error averaged over all regions while ignoring the motion inconsistency and occlusion in local regions. In this paper, we propose a spatial decomposition and temporal fusion based inter prediction for learned video compression. To handle motion inconsistency, we propose to decompose the video into structure and detail (SDD) components first. Then we perform SDD-based motion estimation and SDD-based temporal context mining for the structure and detail components to generate short-term temporal contexts. To handle occlusion, we propose to propagate long-term temporal contexts by recurrently accumulating the temporal information of each historical reference feature and fuse them with short-term temporal contexts. With the SDD-based motion model and long short-term temporal contexts fusion, our proposed learned video codec can obtain more accurate inter prediction. Comprehensive experimental results demonstrate that our codec outperforms the reference software of H.266/VVC on all common test datasets for both PSNR and MS-SSIM.
翻訳日:2024-01-30 16:17:45 公開日:2024-01-29
# 重要度対応型データセット蒸留

Importance-Aware Adaptive Dataset Distillation ( http://arxiv.org/abs/2401.15863v1 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 本稿では,大規模なオリジナルデータセットの情報を保存する小型情報データセットを構築するための新しいデータセット蒸留法を提案する。 ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。 前例のない成功にもかかわらず、大規模なデータセットはストレージと送信コストを大幅に増加させ、面倒なモデルトレーニングプロセスをもたらす。 さらに、トレーニングに生のデータを使用すると、プライバシーと著作権の懸念が高まる。 これらの問題に対処するために、大規模なオリジナルデータセットから必須情報を保持するコンパクトデータセットを合成することを目的として、データセット蒸留という新しいタスクが導入された。 実データおよび合成データセットのトレーニング中に得られた勾配やネットワークパラメータを一致させることにより,最先端(sota)データセット蒸留法が提案されている。 異なるネットワークパラメータの蒸留プロセスへの寄与は様々であり, 均一に処理することで蒸留性能が低下する。 そこで本研究では,より堅牢な蒸留データセットを合成することにより,異なるネットワークパラメータに重要度重みを自動的に割り当てることで,蒸留性能を向上できるiadd法を提案する。 IADDは、複数のベンチマークデータセットのパラメータマッチングに基づく他のSOTAデータセット蒸留法よりも優れた性能を示し、クロスアーキテクチャの一般化の観点からそれらを上回る。 さらに, 自己適応重みの解析により, IADDの有効性が示された。 さらに、IADDの有効性は、COVID-19検出などの現実世界の医療応用で検証されている。

Herein, we propose a novel dataset distillation method for constructing small informative datasets that preserve the information of the large original datasets. The development of deep learning models is enabled by the availability of large-scale datasets. Despite unprecedented success, large-scale datasets considerably increase the storage and transmission costs, resulting in a cumbersome model training process. Moreover, using raw data for training raises privacy and copyright concerns. To address these issues, a new task named dataset distillation has been introduced, aiming to synthesize a compact dataset that retains the essential information from the large original dataset. State-of-the-art (SOTA) dataset distillation methods have been proposed by matching gradients or network parameters obtained during training on real and synthetic datasets. The contribution of different network parameters to the distillation process varies, and uniformly treating them leads to degraded distillation performance. Based on this observation, we propose an importance-aware adaptive dataset distillation (IADD) method that can improve distillation performance by automatically assigning importance weights to different network parameters during distillation, thereby synthesizing more robust distilled datasets. IADD demonstrates superior performance over other SOTA dataset distillation methods based on parameter matching on multiple benchmark datasets and outperforms them in terms of cross-architecture generalization. In addition, the analysis of self-adaptive weights demonstrates the effectiveness of IADD. Furthermore, the effectiveness of IADD is validated in a real-world medical application such as COVID-19 detection.
翻訳日:2024-01-30 16:17:22 公開日:2024-01-29
# DrBERT: BERT事前学習におけるマスク言語モデリングデコーダの可能性

DrBERT: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining ( http://arxiv.org/abs/2401.15861v1 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang(参考訳) BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理の分野に革命をもたらした。 しかし、研究者の大半は、相対的な位置埋め込みやより効率的な注意機構など、モデル構造に関連する拡張に集中してきた。 Masked Language Modelingに関連する事前トレーニングのトリックには、全体的な単語マスキングも含まれる。 DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。 マスク付き言語モデリングデコーダの設計と研究は過小評価されていると論じている。 本稿では,拡張デコーダの設計をいくつか提案し,新しいモデリング手法であるDrBERT(Decoder-refined BERT)を提案する。 通常、事前訓練されたBERTモデルは、特定の自然言語理解(NLU)タスクのために微調整される。 提案手法では,元のBERTモデルをエンコーダとして使用し,エンコーダを変更することなくデコーダを変更する。 このアプローチは、モデルのアーキテクチャに大きな変更を必要とせず、既存の微調整パイプラインやサービスとシームレスに統合することができ、効率的かつ効果的な拡張戦略を提供する。 他の方法と比較して、プレトレーニングプロセス中にデコーダの適度なトレーニングコストが発生するのに対し、本手法は微調整フェーズ中に追加のトレーニングコストを導入しない。 プレトレーニング後,複数の拡張デコーダ構造をテストし,その性能をGLUEベンチマークで評価した。 本研究は,プレトレーニング中にモデル構造に微妙な改良を施したDrBERTが,推定時間と予算を増大させることなくモデル性能を著しく向上することを示した。

BERT (Bidirectional Encoder Representations from Transformers) has revolutionized the field of natural language processing through its exceptional performance on numerous tasks. Yet, the majority of researchers have mainly concentrated on enhancements related to the model structure, such as relative position embedding and more efficient attention mechanisms. Others have delved into pretraining tricks associated with Masked Language Modeling, including whole word masking. DeBERTa introduced an enhanced decoder adapted for BERT's encoder model for pretraining, proving to be highly effective. We argue that the design and research around enhanced masked language modeling decoders have been underappreciated. In this paper, we propose several designs of enhanced decoders and introduce DrBERT (Decoder-refined BERT), a novel method for modeling training. Typically, a pretrained BERT model is fine-tuned for specific Natural Language Understanding (NLU) tasks. In our approach, we utilize the original BERT model as the encoder, making only changes to the decoder without altering the encoder. This approach does not necessitate extensive modifications to the model's architecture and can be seamlessly integrated into existing fine-tuning pipelines and services, offering an efficient and effective enhancement strategy. Compared to other methods, while we also incur a moderate training cost for the decoder during the pretraining process, our approach does not introduce additional training costs during the fine-tuning phase. We test multiple enhanced decoder structures after pretraining and evaluate their performance on the GLUE benchmark. Our results demonstrate that DrBERT, having only undergone subtle refinements to the model structure during pretraining, significantly enhances model performance without escalating the inference time and serving budget.
翻訳日:2024-01-30 16:17:00 公開日:2024-01-29
# 拡散顔の偽造検出

Diffusion Facial Forgery Detection ( http://arxiv.org/abs/2401.15859v1 )

ライセンス: Link先を確認
Harry Cheng and Yangyang Guo and Tianyi Wang and Liqiang Nie and Mohan Kankanhalli(参考訳) 拡散生成画像の検出は近年,新たな研究領域に成長している。 既存の拡散に基づくデータセットは主に一般的な画像生成に焦点を当てている。 しかし、より深刻な社会的リスクをもたらす顔の偽造は、これまであまり研究されていない。 そこで本稿では,顔に焦点をあてた拡散生成画像のための総合データセットdiffを提案する。 DiFFは4つの条件下で13個の異なる生成法を用いて合成される50,000以上の画像からなる。 特に、このデータセットは3万件の注意深く収集されたテキストと視覚的プロンプトを活用し、高い忠実度とセマンティック一貫性を持つ画像の合成を保証する。 人体実験といくつかの代表的な偽造検出手法を用いて,DiFFデータセットの広範な実験を行った。 その結果,人間の観察者と自動検出者の両方の2値検出精度は30%以下に低下し,拡散生成顔偽造検出の課題に光を当てた。 さらに,既存検出器の一般化能力を効果的に向上するためのエッジグラフ正規化手法を提案する。

Detecting diffusion-generated images has recently grown into an emerging research area. Existing diffusion-based datasets predominantly focus on general image generation. However, facial forgeries, which pose a more severe social risk, have remained less explored thus far. To address this gap, this paper introduces DiFF, a comprehensive dataset dedicated to face-focused diffusion-generated images. DiFF comprises over 500,000 images that are synthesized using thirteen distinct generation methods under four conditions. In particular, this dataset leverages 30,000 carefully collected textual and visual prompts, ensuring the synthesis of images with both high fidelity and semantic consistency. We conduct extensive experiments on the DiFF dataset via a human test and several representative forgery detection methods. The results demonstrate that the binary detection accuracy of both human observers and automated detectors often falls below 30%, shedding light on the challenges in detecting diffusion-generated facial forgeries. Furthermore, we propose an edge graph regularization approach to effectively enhance the generalization capability of existing detectors.
翻訳日:2024-01-30 16:16:32 公開日:2024-01-29
# 周りを見ろ! 目標近傍の環境におけるトレーニングによる予期せぬ利得

Look Around! Unexpected gains from training on environments in the vicinity of the target ( http://arxiv.org/abs/2401.15856v1 )

ライセンス: Link先を確認
Serena Bono, Spandan Madan, Ishaan Grover, Mao Yasueda, Cynthia Breazeal, Hanspeter Pfister, Gabriel Kreiman(参考訳) マルコフ決定過程(MDP)の解はしばしば状態遷移確率に非常に敏感である。 これらの確率の予測は実際は不正確な場合が多いため、遷移確率が変化したときの強化学習(Reinforcement Learning, RL)エージェントの一般化の時期と方法を理解することが重要である。 本稿では,遷移確率の小さな変化下でのrlエージェントの一般化を評価する新しい手法を提案する。 具体的には、トレーニングMDPの遷移関数に定量的なパラメトリックノイズを付加することにより、トレーニングMDP近傍の新しい環境(MDP)におけるエージェントを評価する。 我々は、このプロセスをノイズ注入と呼び、その結果の環境を$\delta$-environmentsと呼びます。 このプロセスにより、環境間の距離のメートル法として機能するノイズレベルの同じ環境の制御されたバリエーションを作成できます。 従来の知見では、同じmdp上でトレーニングとテストが最良の結果をもたらすべきである。 しかし, 特定の環境を対象とする場合, 代替ノイズ設定におけるエージェントの訓練は, 優れた結果をもたらす可能性がある。 私たちはこの現象を、PacMan、Pong、Breakoutなど、ATARIのさまざまなバリエーションで60ドルで紹介します。

Solutions to Markov Decision Processes (MDP) are often very sensitive to state transition probabilities. As the estimation of these probabilities is often inaccurate in practice, it is important to understand when and how Reinforcement Learning (RL) agents generalize when transition probabilities change. Here we present a new methodology to evaluate such generalization of RL agents under small shifts in the transition probabilities. Specifically, we evaluate agents in new environments (MDPs) in the vicinity of the training MDP created by adding quantifiable, parametric noise into the transition function of the training MDP. We refer to this process as Noise Injection, and the resulting environments as $\delta$-environments. This process allows us to create controlled variations of the same environment with the level of the noise serving as a metric of distance between environments. Conventional wisdom suggests that training and testing on the same MDP should yield the best results. However, we report several cases of the opposite -- when targeting a specific environment, training the agent in an alternative noise setting can yield superior outcomes. We showcase this phenomenon across $60$ different variations of ATARI games, including PacMan, Pong, and Breakout.
翻訳日:2024-01-30 16:16:15 公開日:2024-01-29
# クロススケールMAE:リモートセンシングにおけるマルチスケール爆発の物語

Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing ( http://arxiv.org/abs/2401.15855v1 )

ライセンス: Link先を確認
Maofeng Tang, Andrei Cozma, Konstantinos Georgiou, Hairong Qi(参考訳) リモートセンシング画像は、地理的な範囲、ハードウェアの制限、マルチスケール画像のミスアライメントなどにより、画像解析に特有の課題がある。 本稿では,リモートセンシング画像理解のための自己教師あり学習の一般的な枠組みの下で,古典的多スケール表現学習問題を再考する。 本稿では,Masked Auto-Encoder (MAE) をベースとした自己教師型モデルであるCross-Scale MAEを提案する。 事前トレーニング中、クロススケールMAEはスケール拡張技術を採用し、コントラストと生成的損失の両方を通じて、広範囲の下流タスクに適した一貫性と意味のある表現を保証するために、クロススケール一貫性の制約を強制する。 さらに,xformersライブラリを活用して,学習表現の品質を維持しながら,単一のgpu上でのネットワーク事前トレーニングを高速化する。 実験により,Cross-Scale MAEは標準的なMAEや他の最先端のリモートセンシング手法と比較して優れた性能を示した。

Remote sensing images present unique challenges to image analysis due to the extensive geographic coverage, hardware limitations, and misaligned multi-scale images. This paper revisits the classical multi-scale representation learning problem but under the general framework of self-supervised learning for remote sensing image understanding. We present Cross-Scale MAE, a self-supervised model built upon the Masked Auto-Encoder (MAE).During pre-training, Cross-Scale MAE employs scale augmentation techniques and enforces cross-scale consistency constraints through both contrastive and generative losses to ensure consistent and meaningful representations well-suited for a wide range of downstream tasks. Further, our implementation leverages the xFormers library to accelerate network pre-training on a single GPU while maintaining the quality of learned representations. Experimental evaluations demonstrate that Cross-Scale MAE exhibits superior performance compared to standard MAE and other state-of-the-art remote sensing MAE methods.
翻訳日:2024-01-30 16:15:54 公開日:2024-01-29
# LSTMに基づく深層ニューラルネットワーク : 医学的要約における逐次文分類のための文表現に着目して

LSTM-based Deep Neural Network With A Focus on Sentence Representation for Sequential Sentence Classification in Medical Scientific Abstracts ( http://arxiv.org/abs/2401.15854v1 )

ライセンス: Link先を確認
Phat Lam, Lam Pham, Tin Nguyen, Hieu Tang, Seidl Michael, Alexander Schindler(参考訳) 医学的抽象学領域における逐次文分類タスク(SSC)は、抽象学において重要な情報を伝える役割に基づいて、文を事前に定義された見出しに分類することを含む。 SSCタスクでは、文はしばしば相互に連続的に関連付けられる。 そのため、文の埋め込みの役割は、文中の単語間の意味情報と要約中の文の文脈的関係の両方をキャプチャして、より優れた分類のための包括的表現を提供するために重要である。 本稿では,SSCタスクの階層的深層学習モデルを提案する。 まず,複数の機能分岐を持つLSTMベースのネットワークを提案する。 文のシーケンスを実行するために、抽象レベルでの畳み込みリカレントニューラルネットワーク(C-RNN)とセグメントレベルでの多層知覚ネットワーク(MLP)を開発し、モデル性能をさらに向上させる。 さらに,ネットワーク全体の個々のコンポーネントが,異なるレベルでのモデル性能に与える影響を評価するためのアブレーション研究も行った。 提案システムは,現状のシステムに対して非常に競争力があり,ベンチマークデータセットPudMed 200K RCT,PudMed 20K RCT,NICTA-PIBOSOにおいて,ベースラインのF1スコアを1.0%,2.8%,2.6%向上させる。

The Sequential Sentence Classification task within the domain of medical abstracts, termed as SSC, involves the categorization of sentences into pre-defined headings based on their roles in conveying critical information in the abstract. In the SSC task, sentences are often sequentially related to each other. For this reason, the role of sentence embedding is crucial for capturing both the semantic information between words in the sentence and the contextual relationship of sentences within the abstract to provide a comprehensive representation for better classification. In this paper, we present a hierarchical deep learning model for the SSC task. First, we propose a LSTM-based network with multiple feature branches to create well-presented sentence embeddings at the sentence level. To perform the sequence of sentences, a convolutional-recurrent neural network (C-RNN) at the abstract level and a multi-layer perception network (MLP) at the segment level are developed that further enhance the model performance. Additionally, an ablation study is also conducted to evaluate the contribution of individual component in the entire network to the model performance at different levels. Our proposed system is very competitive to the state-of-the-art systems and further improve F1 scores of the baseline by 1.0%, 2.8%, and 2.6% on the benchmark datasets PudMed 200K RCT, PudMed 20K RCT and NICTA-PIBOSO, respectively.
翻訳日:2024-01-30 16:15:36 公開日:2024-01-29
# マフィンかチワワか? マルチパネルVQAを用いた大規模視野モデルの構築

Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA ( http://arxiv.org/abs/2401.15847v1 )

ライセンス: Link先を確認
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang(参考訳) ウェブスクリーンショットやポスターとしてよく見られるマルチパネル画像は、私たちの日常生活に浸透します。 これらの画像は、異なるレイアウトで複数のサブフィギュアを構成することで特徴づけられ、効果的に人々に情報を伝える。 複雑なシーンを理解し、Webページをナビゲートするエージェントなど、高度なマルチモーダルAIアプリケーションを構築するためには、マルチパネル・ビジュアル推論のスキルが不可欠であり、この点におけるモデルの包括的な評価が重要である。 そこで本稿では,マルチパネル画像の解釈モデルに特に挑戦する新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を提案する。 ベンチマークは6600の質問と、マルチパネル画像に関する回答で構成されている。 これらの疑問は、平均的な人間にとって単純だが、ほぼ完全な正当性を達成することは、我々がテストした最先端のLVLM(Large Vision Language Models)に重大な課題をもたらす。 本研究では,隣接するサブフィギュアやレイアウトの複雑さなど,マルチパネル画像の様々な干渉に対するLVLMの感度を明らかにするとともに,モデル性能に対する様々な要因の影響を分離・評価するために,合成キュレートしたマルチパネル画像を利用した。 結果として、MultipanelVQAは、複雑な視覚的文脈を理解するLVLMの能力を改善する必要性と方向性を強調している。 コードとデータはhttps://sites.google.com/view/multipanelvqa/homeでリリースされる。

Multipanel images, commonly seen as web screenshots, posters, etc., pervade our daily lives. These images, characterized by their composition of multiple subfigures in distinct layouts, effectively convey information to people. Toward building advanced multimodal AI applications, such as agents that understand complex scenes and navigate through webpages, the skill of multipanel visual reasoning is essential, and a comprehensive evaluation of models in this regard is important. Therefore, our paper introduces Multipanel Visual Question Answering (MultipanelVQA), a novel benchmark that specifically challenges models in comprehending multipanel images. The benchmark comprises 6,600 questions and answers related to multipanel images. While these questions are straightforward for average humans, achieving nearly perfect correctness, they pose significant challenges to the state-of-the-art Large Vision Language Models (LVLMs) we tested. In our study, we utilized synthetically curated multipanel images specifically designed to isolate and evaluate the impact of diverse factors on model performance, revealing the sensitivity of LVLMs to various interferences in multipanel images, such as adjacent subfigures and layout complexity. As a result, MultipanelVQA highlights the need and direction for improving LVLMs' ability to understand complex visual-language contexts. Code and data are released at https://sites.google.com/view/multipanelvqa/home.
翻訳日:2024-01-30 16:15:10 公開日:2024-01-29
# ニューラルネットワークを用いた時空間過程のメタラーニング

Meta-Learning for Neural Network-based Temporal Point Processes ( http://arxiv.org/abs/2401.15846v1 )

ライセンス: Link先を確認
Yoshiaki Takimoto, Yusuke Tanaka, Tomoharu Iwata, Maya Okawa, Hideaki Kim, Hiroyuki Toda, Takeshi Kurashima(参考訳) 人間の活動は、タクシー旅行の記録、自転車シェアリングのピックアップ、犯罪の発生、伝染病の感染など様々なイベントシーケンスを生成する。 ポイントプロセスは多くのアプリケーションで人間の活動に関連する事象を予測するために広く使われている。 しかし、ポイントプロセスは、人間の活動に関連する事象を予測する2つの問題を示す。 第一に、最近のハイパフォーマンスなポイントプロセスモデルでは、トレーニングのために長い時間(つまり長いシーケンス)に収集された十分な数のイベントを入力する必要がある。 第二に、実世界のアプリケーションに必要な長期的な予測は困難である。 これらの問題に対処するために, 周期性に着目した新しいメタラーニング手法を提案する。 提案手法はまず、短いシーケンスから予測を生成するために、リカレントニューラルネットワークを介して短いシーケンスを隠れ表現(タスク表現)に埋め込む。 その後、単調ニューラルネットワーク(mnns)によって点プロセスの強度をモデル化し、入力はタスク表現となる。 我々は、関連するタスクから学んだ事前知識を転送し、ターゲットタスクの短いシーケンスを与えられたイベント予測を改善する。 我々は,時間的周期パターンを考慮に入れたMNNを設計し,長期予測性能の向上に寄与する。 複数の実世界のデータセットに対する実験により,提案手法は既存手法よりも高い予測性能を示した。

Human activities generate various event sequences such as taxi trip records, bike-sharing pick-ups, crime occurrence, and infectious disease transmission. The point process is widely used in many applications to predict such events related to human activities. However, point processes present two problems in predicting events related to human activities. First, recent high-performance point process models require the input of sufficient numbers of events collected over a long period (i.e., long sequences) for training, which are often unavailable in realistic situations. Second, the long-term predictions required in real-world applications are difficult. To tackle these problems, we propose a novel meta-learning approach for periodicity-aware prediction of future events given short sequences. The proposed method first embeds short sequences into hidden representations (i.e., task representations) via recurrent neural networks for creating predictions from short sequences. It then models the intensity of the point process by monotonic neural networks (MNNs), with the input being the task representations. We transfer the prior knowledge learned from related tasks and can improve event prediction given short sequences of target tasks. We design the MNNs to explicitly take temporal periodic patterns into account, contributing to improved long-term prediction performance. Experiments on multiple real-world datasets demonstrate that the proposed method has higher prediction performance than existing alternatives.
翻訳日:2024-01-30 16:14:44 公開日:2024-01-29
# APIGen: ジェネレーティブなAPIメソッド推奨

APIGen: Generative API Method Recommendation ( http://arxiv.org/abs/2401.15843v1 )

ライセンス: Link先を確認
Yujia Chen, Cuiyun Gao, Muyijie Zhu, Qing Liao, Yong Wang, Guoai Xu(参考訳) 自動APIメソッドレコメンデーションは,クエリに適切なAPIを提案することを目的とした,コードインテリジェンスの重要なタスクである。 既存のアプローチは、検索ベースと学習ベースの2つの主要なグループに分類できる。 これらのアプローチは目覚ましい成功を収めましたが、それでも大きな制限があります。 検索ベースのアプローチは埋め込みモデルのテキスト表現能力に依存し、学習ベースのアプローチはトレーニングに広範囲なタスク固有のラベル付きデータを必要とする。 制限を緩和するために,拡張インコンテキスト学習(ICL)による生成APIレコメンデーションアプローチであるAPIGenを提案する。 APIGenには2つの主要なコンポーネントがある。 apigenは、lexical、syntactical、semantic perspectivesからプログラミングクエリの類似の投稿を検索し、iclのより有用な例を提供する。 (2)ガイドAPI勧告 APIGenは、大きな言語モデル(LLM)がAPIレコメンデーションを生成する前に推論を実行可能にする。 推論プロセスにより、APIGenは推奨APIをクエリのプログラミング要件に適合させ、結果の解釈可能性を高める。 APIGenを2つの公開ベンチマークで4つの既存アプローチと比較する。 実験によると、APIGenはメソッドレベルのAPIレコメンデーションで105.8%、クラスレベルのAPIレコメンデーションで54.3%、最高のベースラインCLEARを上回っている。 さらに、APIGenは、RuccessRate@3メトリックに関するメソッドレベルのAPIレコメンデーションにおいて、GPT-4のような人気のあるLLMのゼロショットパフォーマンスと比較して、平均49.87%向上している。

Automatic API method recommendation is an essential task of code intelligence, which aims to suggest suitable APIs for programming queries. Existing approaches can be categorized into two primary groups: retrieval-based and learning-based approaches. Although these approaches have achieved remarkable success, they still come with notable limitations. The retrieval-based approaches rely on the text representation capabilities of embedding models, while the learning-based approaches require extensive task-specific labeled data for training. To mitigate the limitations, we propose APIGen, a generative API recommendation approach through enhanced in-context learning (ICL). APIGen involves two main components: (1) Diverse Examples Selection. APIGen searches for similar posts to the programming queries from the lexical, syntactical, and semantic perspectives, providing more informative examples for ICL. (2) Guided API Recommendation. APIGen enables large language models (LLMs) to perform reasoning before generating API recommendations, where the reasoning involves fine-grained matching between the task intent behind the queries and the factual knowledge of the APIs. With the reasoning process, APIGen makes recommended APIs better meet the programming requirement of queries and also enhances the interpretability of results. We compare APIGen with four existing approaches on two publicly available benchmarks. Experiments show that APIGen outperforms the best baseline CLEAR by 105.8% in method-level API recommendation and 54.3% in class-level API recommendation in terms of SuccessRate@1. Besides, APIGen achieves an average 49.87% increase compared to the zero-shot performance of popular LLMs such as GPT-4 in method-level API recommendation regarding the SuccessRate@3 metric.
翻訳日:2024-01-30 16:14:24 公開日:2024-01-29
# lcvo: visual question answering groundingのための効率的事前学習フリーフレームワーク

LCVO: An Efficient Pretraining-Free Framework for Visual Question Answering Grounding ( http://arxiv.org/abs/2401.15842v1 )

ライセンス: Link先を確認
Yuhan Chen, Lumei Su, Lihua Chen, Zhiwei Lin(参考訳) 本稿では,視覚言語マルチモーダル領域における視覚質問応答(VQA)グラウンディングタスクに対してLCVOモジュラー手法を提案する。 このアプローチは、既成のvqaモデルと市販のopen-vocabulary object detection(ovd)モデルの間の中間仲介者として凍った大型言語モデル(llm)に依存しており、llmは設計されたプロンプトに基づいて2つのモジュール間でテキスト情報を変換し、伝達する。 LCVOは事前学習の必要なく、プラグイン・アンド・プレイ・フレームワークを統合化している。 このフレームワークは、低計算リソース下でVQAグラウンディングタスクにデプロイすることができる。 フレームワーク内のモジュール化されたモデルは、様々な最先端の事前訓練されたモデルを持つアプリケーションを可能にする。 GQA, CLEVR, VizWiz-VQA-Grounding などのベンチマークデータセットを用いて, 提案手法の性能評価を行った。 ベースライン法との比較分析によりLCVOの強靭な競争性を示す。

In this paper, the LCVO modular method is proposed for the Visual Question Answering (VQA) Grounding task in the vision-language multimodal domain. This approach relies on a frozen large language model (LLM) as intermediate mediator between the off-the-shelf VQA model and the off-the-shelf Open-Vocabulary Object Detection (OVD) model, where the LLM transforms and conveys textual information between the two modules based on a designed prompt. LCVO establish an integrated plug-and-play framework without the need for any pre-training process. This framework can be deployed for VQA Grounding tasks under low computational resources. The modularized model within the framework allows application with various state-of-the-art pre-trained models, exhibiting significant potential to be advance with the times. Experimental implementations were conducted under constrained computational and memory resources, evaluating the proposed method's performance on benchmark datasets including GQA, CLEVR, and VizWiz-VQA-Grounding. Comparative analyses with baseline methods demonstrate the robust competitiveness of LCVO.
翻訳日:2024-01-30 16:13:54 公開日:2024-01-29
# 2L3:不完全な2D画像を正確な3Dにリフティング

2L3: Lifting Imperfect Generated 2D Images into Accurate 3D ( http://arxiv.org/abs/2401.15841v1 )

ライセンス: Link先を確認
Yizheng Chen, Rengan Xie, Qi Ye, Sen Yang, Zixuan Xie, Tianxiao Chen, Rong Li and Yuchi Huo(参考訳) 単一の画像から3Dオブジェクトを再構築するのは興味深いが難しい問題だ。 1つの有望な解決策は、マルチビュー(MV)3D再構成を利用して、生成されたMV画像を一貫した3Dオブジェクトに融合させることである。 しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。 これらの問題に対処するため,本論文では,内在分解指導,過渡モノ事前指導,ビュー増補を活用した新しい3次元再構築フレームワークを提案する。 具体的には、まず、生成された画像からシェーディング情報を分離して、一貫性のない照明の影響を低減し、次に、再構成された正規化を強化するために、ビュー依存の過渡エンコーディングでmonoを先取りし、最後に、生成されたスパースビューにおけるピクセルレベルの損失と拡張ランダムビューにおける意味的損失を最小限に抑えるビュー拡張融合戦略をデザインし、ビュー一貫性の幾何および詳細なテクスチャを作成する。 そこで,本手法では,事前訓練したMV画像生成装置とニューラルネットワークによる1つの画像の3次元オブジェクト再構成のためのボリューム署名距離関数(SDF)表現を統合できる。 各種データセットの枠組みを評価し,定量評価と定性評価の両方において優れた性能を示し,3次元オブジェクト再構成の大幅な進歩を示す。 最新の最先端手法 Syncdreamer~\cite{liu2023syncdreamer} と比較して,Chamfer Distance 誤差を約36 %削減し,PSNR を約30 %改善する。

Reconstructing 3D objects from a single image is an intriguing but challenging problem. One promising solution is to utilize multi-view (MV) 3D reconstruction to fuse generated MV images into consistent 3D objects. However, the generated images usually suffer from inconsistent lighting, misaligned geometry, and sparse views, leading to poor reconstruction quality. To cope with these problems, we present a novel 3D reconstruction framework that leverages intrinsic decomposition guidance, transient-mono prior guidance, and view augmentation to cope with the three issues, respectively. Specifically, we first leverage to decouple the shading information from the generated images to reduce the impact of inconsistent lighting; then, we introduce mono prior with view-dependent transient encoding to enhance the reconstructed normal; and finally, we design a view augmentation fusion strategy that minimizes pixel-level loss in generated sparse views and semantic loss in augmented random views, resulting in view-consistent geometry and detailed textures. Our approach, therefore, enables the integration of a pre-trained MV image generator and a neural network-based volumetric signed distance function (SDF) representation for a single image to 3D object reconstruction. We evaluate our framework on various datasets and demonstrate its superior performance in both quantitative and qualitative assessments, signifying a significant advancement in 3D object reconstruction. Compared with the latest state-of-the-art method Syncdreamer~\cite{liu2023syncdreamer}, we reduce the Chamfer Distance error by about 36\% and improve PSNR by about 30\% .
翻訳日:2024-01-30 16:13:33 公開日:2024-01-29
# 創発的説明可能性:ニューラルネットワーク推論に因果連鎖を加える

Emergent Explainability: Adding a causal chain to neural network inference ( http://arxiv.org/abs/2401.15840v1 )

ライセンス: Link先を確認
Adam Perrett(参考訳) 本稿では,AIモデル出力の因果的理解に焦点をあて,創発的コミュニケーション(EmCom)を通じて説明可能な人工知能(xAI)を強化する理論的枠組みを提案する。 EmComのAIシステムへの新たな統合を探求し、入力と出力の間の従来の連想関係から、より微妙な因果解釈へのパラダイムシフトを提供する。 このフレームワークは、AIプロセスの理解方法に革命をもたらすことを目的としており、より透明性と解釈性を高めている。 このモデルの最初の応用は合成データで実証されているが、この研究の意義はこれらの単純な応用を超えて広がっている。 この一般的なアプローチは、複数のドメインにわたるAIとのインタラクションを再定義する可能性があり、AIの意思決定プロセスが重要となるさまざまな分野において、信頼と情報的意思決定を促進する。 本稿は、このアプローチの理論的基盤、潜在的に広い応用、そしてますますデジタル化する世界における責任と透明なAIシステムの必要性の増大と整合性について論じる。

This position paper presents a theoretical framework for enhancing explainable artificial intelligence (xAI) through emergent communication (EmCom), focusing on creating a causal understanding of AI model outputs. We explore the novel integration of EmCom into AI systems, offering a paradigm shift from conventional associative relationships between inputs and outputs to a more nuanced, causal interpretation. The framework aims to revolutionize how AI processes are understood, making them more transparent and interpretable. While the initial application of this model is demonstrated on synthetic data, the implications of this research extend beyond these simple applications. This general approach has the potential to redefine interactions with AI across multiple domains, fostering trust and informed decision-making in healthcare and in various sectors where AI's decision-making processes are critical. The paper discusses the theoretical underpinnings of this approach, its potential broad applications, and its alignment with the growing need for responsible and transparent AI systems in an increasingly digital world.
翻訳日:2024-01-30 16:13:01 公開日:2024-01-29
# 乗算器の交互方向法に基づく分散マルコフ連鎖モンテカルロサンプリング

Distributed Markov Chain Monte Carlo Sampling based on the Alternating Direction Method of Multipliers ( http://arxiv.org/abs/2401.15838v1 )

ライセンス: Link先を確認
Alexandros E. Tzikas, Licio Romao, Mert Pilanci, Alessandro Abate, and Mykel J. Kochenderfer(参考訳) 多くの機械学習アプリケーションは、空間分散データセットで操作する必要がある。 技術的な進歩にもかかわらず、プライバシーの考慮と通信の制約は、データセット全体を中央のユニットに集めるのを防ぐ。 本稿では,高速収束のために最適化文献で一般的に用いられる乗算器の交互方向法に基づく分散サンプリング方式を提案する。 分散最適化とは対照的に、分散サンプリングはベイズ推論タスクにおける不確実性定量化を可能にする。 我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。 理論的には,生成した局所サンプルイテレートの基本的な不等式を確立するために凸最適化ツールを用いる。 この不等式により、これらの反復に付随する分布を、ワッサースタイン距離の目標分布に収束させることができる。 シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。

Many machine learning applications require operating on a spatially distributed dataset. Despite technological advances, privacy considerations and communication constraints may prevent gathering the entire dataset in a central unit. In this paper, we propose a distributed sampling scheme based on the alternating direction method of multipliers, which is commonly used in the optimization literature due to its fast convergence. In contrast to distributed optimization, distributed sampling allows for uncertainty quantification in Bayesian inference tasks. We provide both theoretical guarantees of our algorithm's convergence and experimental evidence of its superiority to the state-of-the-art. For our theoretical results, we use convex optimization tools to establish a fundamental inequality on the generated local sample iterates. This inequality enables us to show convergence of the distribution associated with these iterates to the underlying target distribution in Wasserstein distance. In simulation, we deploy our algorithm on linear and logistic regression tasks and illustrate its fast convergence compared to existing gradient-based methods.
翻訳日:2024-01-30 16:12:42 公開日:2024-01-29
# ランダムパス投影方向を持つスライスワッサースタイン

Sliced Wasserstein with Random-Path Projecting Directions ( http://arxiv.org/abs/2401.15889v1 )

ライセンス: Link先を確認
Khai Nguyen and Shujian Zhang and Tam Le and Nhat Ho(参考訳) スライシング分布選択は,スライスされたワッサーシュタイン距離を最小化するパラメータ推定器の性能向上に有効な手法として用いられている。 以前の作品は、スライシング分布を選択するために高価な最適化を使うか、高価なサンプリング方法を必要とするスライシング分布を使うかのどちらかである。 本研究では,モンテカルロの期待値推定のための高速サンプリングを提供する最適化フリースライシング分布を提案する。 特に、2つの入力測度に従う2つのランダムベクトル間の正規化差を利用して構成したランダムパス投影方向(rpd)について述べる。 RPDからランダムパススライシング分布(RPSD)と2種類のスライスされたワッサースタイン(Random-Path Projection Sliced Wasserstein)(RPSW)とIWRPSW(Importance Weighted Random-Path Projection Sliced Wasserstein)(IWRPSW)を導出する。 次に, rpsw と iwrpsw の位相的, 統計的, 計算的性質について考察する。 最後に, rpsw と iwrpsw の勾配流における良好な性能を示すとともに, 画像上での拡散生成モデルの発振訓練を行った。

Slicing distribution selection has been used as an effective technique to improve the performance of parameter estimators based on minimizing sliced Wasserstein distance in applications. Previous works either utilize expensive optimization to select the slicing distribution or use slicing distributions that require expensive sampling methods. In this work, we propose an optimization-free slicing distribution that provides a fast sampling for the Monte Carlo estimation of expectation. In particular, we introduce the random-path projecting direction (RPD) which is constructed by leveraging the normalized difference between two random vectors following the two input measures. From the RPD, we derive the random-path slicing distribution (RPSD) and two variants of sliced Wasserstein, i.e., the Random-Path Projection Sliced Wasserstein (RPSW) and the Importance Weighted Random-Path Projection Sliced Wasserstein (IWRPSW). We then discuss the topological, statistical, and computational properties of RPSW and IWRPSW. Finally, we showcase the favorable performance of RPSW and IWRPSW in gradient flow and the training of denoising diffusion generative models on images.
翻訳日:2024-01-30 16:06:29 公開日:2024-01-29
# 乳癌組織からの色素性染料rnaスコープのセグメンテーションのためのグレーレベルテクスチャの特徴

Grey Level Texture Features for Segmentation of Chromogenic Dye RNAscope From Breast Cancer Tissue ( http://arxiv.org/abs/2401.15886v1 )

ライセンス: Link先を確認
Andrew Davidson (1), Arthur Morley-Bunker (2), George Wiggins (2), Logan Walker (2), Gavin Harris (3), Ramakrishnan Mukundan (1), kConFab Investigators (4 and 5) ((1) University of Canterbury, (2) University of Otago, (3) Canterbury Health Laboratories, (4) The University of Melbourne, (5) Peter MacCallum Cancer Center)(参考訳) 癌組織のクロマトキシリン染色とヘマトキシリン染色は、がんの診断とその後の治療が容易であり、既存の病理学のワークフローによく適合する。 しかし、遺伝子発現を示すRNAscope transcripts(dots)の手での定量化は、極めて時間を要する。 さらに、定量化と分析のための検証された支援方法が欠如している。 本稿では,乳癌組織からrnaスコープ転写産物の位置の自動分割と分類を行うためのグレーレベルテクスチャ特徴の有用性について検討する。 特徴分析の結果,Gray Level Dependence Matrix や Neighbouring Gray Tone difference Matrix など,少数のグレーレベル特徴がタスクに適していることがわかった。 この自動化法は、RNAスコープ転写産物の位置を特定する専門家アノテータと同様に、F1スコアは0.571であり、専門家間F1スコアは0.596である。 これらの結果は、病理ワークフローにおけるRNAスコープの自動定量化のためのグレーレベルテクスチャ機能の可能性を示している。

Chromogenic RNAscope dye and haematoxylin staining of cancer tissue facilitates diagnosis of the cancer type and subsequent treatment, and fits well into existing pathology workflows. However, manual quantification of the RNAscope transcripts (dots), which signify gene expression, is prohibitively time consuming. In addition, there is a lack of verified supporting methods for quantification and analysis. This paper investigates the usefulness of gray level texture features for automatically segmenting and classifying the positions of RNAscope transcripts from breast cancer tissue. Feature analysis showed that a small set of gray level features, including Gray Level Dependence Matrix and Neighbouring Gray Tone Difference Matrix features, were well suited for the task. The automated method performed similarly to expert annotators at identifying the positions of RNAscope transcripts, with an F1-score of 0.571 compared to the expert inter-rater F1-score of 0.596. These results demonstrate the potential of gray level texture features for automated quantification of RNAscope in the pathology workflow.
翻訳日:2024-01-30 16:05:53 公開日:2024-01-29
# 長尾物体検出における回帰バイアスの補正

Rectify the Regression Bias in Long-Tailed Object Detection ( http://arxiv.org/abs/2401.15885v1 )

ライセンス: Link先を確認
Ke Zhu, Minghao Fu, Jie Shao, Tianyu Liu, Jianxin Wu(参考訳) ロングテールオブジェクト検出は、非常に不均衡なクラス分散のため、大きな課題に直面している。 近年の手法は, 回帰枝の微妙な影響を無視しつつ, 分類バイアスとその損失関数設計に重点を置いている。 本稿では,回帰バイアスが存在し,検出精度に悪影響を及ぼすことを示す。 既存手法では回帰バイアスに対処できないが,本論文では,レアクラスのクラス固有の回帰ヘッドが主な原因であると仮定する。 その結果,クラス非依存のブランチの追加,クラスタリングヘッド,マージヘッドの3種類が提案されている。 提案手法は, 従来のロングテール検出法, 特にレアクラスおよびコモンクラスに対して, 一貫性と大幅な改善をもたらす。 提案手法は,異なるバックボーンとアーキテクチャを持つ大語彙LVISデータセットの最先端性能を実現する。 より難しい評価指標、比較的バランスの取れたデータセット、マスクブランチをうまく一般化する。 これは、長い尾を持つ物体検出における回帰バイアスの修正を明らかにするための最初の試みである。

Long-tailed object detection faces great challenges because of its extremely imbalanced class distribution. Recent methods mainly focus on the classification bias and its loss function design, while ignoring the subtle influence of the regression branch. This paper shows that the regression bias exists and does adversely and seriously impact the detection accuracy. While existing methods fail to handle the regression bias, the class-specific regression head for rare classes is hypothesized to be the main cause of it in this paper. As a result, three kinds of viable solutions to cater for the rare categories are proposed, including adding a class-agnostic branch, clustering heads and merging heads. The proposed methods brings in consistent and significant improvements over existing long-tailed detection methods, especially in rare and common classes. The proposed method achieves state-of-the-art performance in the large vocabulary LVIS dataset with different backbones and architectures. It generalizes well to more difficult evaluation metrics, relatively balanced datasets, and the mask branch. This is the first attempt to reveal and explore rectifying of the regression bias in long-tailed object detection.
翻訳日:2024-01-30 16:05:24 公開日:2024-01-29
# 補正検索強化ジェネレーション

Corrective Retrieval Augmented Generation ( http://arxiv.org/abs/2401.15884v1 )

ライセンス: Link先を確認
Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, Zhen-Hua Ling(参考訳) 大規模言語モデル(LLM)は、生成したテキストの精度は、カプセル化したパラメトリック知識だけでは確保できないため、必然的に幻覚を示す。 検索強化世代(RAG)は、LLMの実践的な補完であるが、検索された文書の関連性に大きく依存しており、検索がうまくいかなかった場合、モデルがどのように振る舞うかについての懸念を提起する。 この目的のために、我々は、生成の堅牢性を改善するために、CRAG(Corrective Retrieval Augmented Generation)を提案する。 具体的には、検索された文書の全体的な品質を評価する軽量検索評価器を設計し、異なる知識検索アクションをトリガーする信頼度を返却する。 静的なコーパスや限定的なコーパスからの検索は最適なドキュメントしか返せないため、大規模なウェブ検索は検索結果を増強するための拡張として利用される。 また、検索した文書に対して、キー情報に選択的にフォーカスし、その中の無関係情報をフィルタリングする分解処理アルゴリズムを設計する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。 ショートフォームおよびロングフォーム生成タスクをカバーする4つのデータセットの実験は、CRAGがRAGベースのアプローチの性能を大幅に改善できることを示している。

Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.
翻訳日:2024-01-30 16:04:17 公開日:2024-01-29
# TransTroj: 事前訓練されたモデルへのトランスファー可能なバックドアアタック

TransTroj: Transferable Backdoor Attacks to Pre-trained Models via Embedding Indistinguishability ( http://arxiv.org/abs/2401.15883v1 )

ライセンス: Link先を確認
Hao Wang, Tao Xiang, Shangwei Guo, Jialing He, Hangcheng Liu, Tianwei Zhang(参考訳) 事前訓練モデル(ptm)は様々な下流タスクで広く使われている。 信頼できない PTM を採用する場合、敵が PTM にバックドアを注入することで、下流モデルに妥協できるバックドア攻撃に悩まされる可能性がある。 しかし, PTM に対する既存のバックドア攻撃は, 部分的にはタスクに依存しず, 組込みバックドアは微調整時に容易に消去できる。 本稿では,機能保存,耐久性,タスク非依存を同時に満たす新しいバックドア攻撃であるtranstrojを提案する。 特に, 埋め込み空間における有毒試料とクリーン試料の区別不能性問題として, 転送可能なバックドア攻撃を定式化する。 攻撃前後の毒と参照の埋め込みの類似性を表わして,前・後区別性への埋め込み不能を分解する。 そこで本研究では,トリガーと被害者ptmを別々に最適化した2段階最適化を提案する。 4つのPTMと6つの下流タスクでTransTrojを評価する。 実験の結果,TransTrojはSOTAタスク非依存のバックドア攻撃(平均68%,99%)を著しく上回り,各種システム設定下では優れた性能を示した。 コードはhttps://github.com/haowang-cqu/transtrojで入手できる。

Pre-trained models (PTMs) are extensively utilized in various downstream tasks. Adopting untrusted PTMs may suffer from backdoor attacks, where the adversary can compromise the downstream models by injecting backdoors into the PTM. However, existing backdoor attacks to PTMs can only achieve partially task-agnostic and the embedded backdoors are easily erased during the fine-tuning process. In this paper, we propose a novel transferable backdoor attack, TransTroj, to simultaneously meet functionality-preserving, durable, and task-agnostic. In particular, we first formalize transferable backdoor attacks as the indistinguishability problem between poisoned and clean samples in the embedding space. We decompose the embedding indistinguishability into pre- and post-indistinguishability, representing the similarity of the poisoned and reference embeddings before and after the attack. Then, we propose a two-stage optimization that separately optimizes triggers and victim PTMs to achieve embedding indistinguishability. We evaluate TransTroj on four PTMs and six downstream tasks. Experimental results show that TransTroj significantly outperforms SOTA task-agnostic backdoor attacks (18%$\sim$99%, 68% on average) and exhibits superior performance under various system settings. The code is available at https://github.com/haowang-cqu/TransTroj .
翻訳日:2024-01-30 16:03:41 公開日:2024-01-29
# 量子通信のための空間分割多重位相補償:概念とフィールドデモ

Space-division multiplexed phase compensation for quantum communication: concept and field demonstration ( http://arxiv.org/abs/2401.15882v1 )

ライセンス: Link先を確認
Riku Maruyama, Daisuke Yoshida, Koji Nagano, Kouyou Kuramitani, Hideyo Tsurusawa, Tomoyuki Horikiri(参考訳) 位相感応量子通信は、量子通信の距離制限を克服するためにかなりの注目を集めている。 位相感応量子通信における基本的な問題は、光ファイバチャネル内の位相ドリフトを補償することである。 時間、波長、空間分割多重化の組み合わせにより、光ファイバの位相安定性が向上する。 しかし、既存の位相補償は時間と波長の多重化のみを使用してきた。 本稿では,大阪都市圏ネットワークにおける空間分割多重位相補償について述べる。 補償方式では, 量子通信用と位相ドリフト検出・補償用と, 隣り合う2つのファイバーを使用する。 本研究は, 隣り合う2つの繊維間の位相ドリフトパターンの相関を検証した。 この相関により,空間分割多重位相補償は位相ドリフトを著しく低減し,量子ビット誤り率を向上させる。 我々の位相補償は多数のファイバーに対してスケーラブルであり、単純な楽器で実装することができる。 空間多重位相補償の研究は、位相感応量子通信のフィールド展開を支援する。

Phase-sensitive quantum communication has received considerable attention to overcome the distance limitation of quantum communication. A fundamental problem in phase-sensitive quantum communication is to compensate for phase drift in an optical fiber channel. A combination of time-, wavelength-, and space-division multiplexing can improve the phase stability of the optical fiber. However, the existing phase compensations have used only time- and wavelength-division multiplexing. Here, we demonstrate space-division multiplexed phase compensation in the Osaka metropolitan networks. Our compensation scheme uses two neighboring fibers, one for quantum communication and the other for sensing and compensating the phase drift. Our field investigations confirm the correlation of the phase drift patterns between the two neighboring fibers. Thanks to the correlation, our space-division multiplexed phase compensation significantly reduces the phase drift and improves the quantum bit error rate. Our phase compensation is scalable to a large number of fibers and can be implemented with simple instruments. Our study on space-multiplex phase compensation will support the field deployment of phase-sensitive quantum communication.
翻訳日:2024-01-30 16:03:15 公開日:2024-01-29
# lil'hdoc:小さな閾値ギャップ下で腕を識別するアルゴリズム

lil'HDoC: An Algorithm for Good Arm Identification under Small Threshold Gap ( http://arxiv.org/abs/2401.15879v1 )

ライセンス: Link先を確認
Tzu-Hsien Tsai, Yun-Da Tsai, Shou-De Lin(参考訳) グッドアーム識別(GAI)は、単一の学習者が良い腕と特定されるとすぐに腕を出力する純粋探索バンディット問題である。 良い腕は、与えられたしきい値以上の期待報酬を持つアームとして定義される。 本稿では,腕の期待報酬と与えられたしきい値との間の距離を示す,小さなしきい値ギャップの下でのgai問題に焦点を当てる。 我々は,HDoCアルゴリズムの総サンプリング複雑性を大幅に改善するLil'HDoCと呼ばれる新しいアルゴリズムを提案する。 Lil'HDoCの最初の$\lambda$出力アームのサンプルの複雑さは、期待される報酬と閾値の間の距離が小さい場合を除いて、元のHDoCアルゴリズムによって境界づけられていることを示す。 広範な実験により,本アルゴリズムが合成データと実世界データの両方において最先端アルゴリズムよりも優れていることを確認した。

Good arm identification (GAI) is a pure-exploration bandit problem in which a single learner outputs an arm as soon as it is identified as a good arm. A good arm is defined as an arm with an expected reward greater than or equal to a given threshold. This paper focuses on the GAI problem under a small threshold gap, which refers to the distance between the expected rewards of arms and the given threshold. We propose a new algorithm called lil'HDoC to significantly improve the total sample complexity of the HDoC algorithm. We demonstrate that the sample complexity of the first $\lambda$ output arm in lil'HDoC is bounded by the original HDoC algorithm, except for one negligible term, when the distance between the expected reward and threshold is small. Extensive experiments confirm that our algorithm outperforms the state-of-the-art algorithms in both synthetic and real-world datasets.
翻訳日:2024-01-30 16:03:00 公開日:2024-01-29
# 3DPFIX:人間とAIのコラボレーションによるリモート初心者の3Dプリンティング問題の改善

3DPFIX: Improving Remote Novices' 3D Printing Troubleshooting through Human-AI Collaboration ( http://arxiv.org/abs/2401.15877v1 )

ライセンス: Link先を確認
Nahyun Kwon, Tong Sun, Yuyang Gao, Liang Zhao, Xu Wang, Jeeeun Kim, Sungsoo Ray Hong(参考訳) 一般消費者向けの3Dプリンタとオンライン学習リソースは、初心者が遠隔操作で自己学習できる。 トラブルシューティングは3dプリンティングの重要な役割を担っているが、オンライントラブルシューティングアーカイブやオンラインコミュニティヘルプなど、十分に開発されているオンラインソースの助けを借りても、多くのリモート初心者にとってこのプロセスは難しい。 我々は,76人のアクティブ3Dプリンティングユーザを対象に,リモート初心者がトラブルシューティングや課題にオンラインリソースをどのように活用するかを学習するためのフォーマティブな研究を行った。 リモート初心者はオンラインリソースを十分に活用できないことがわかった。 例えば、オンラインアーカイブは静的に一般的な情報を提供しており、それらのユニークなケースを既存の記述と関連付けることは困難である。 オンラインコミュニティは、よりターゲティングな提案を提供することで、彼らの苦労を和らげる可能性があるが、カスタムヘルパーを提供するヘルパーは、かなり不足しており、タイムリーな支援を得ることが難しい。 本稿では,初心者の3Dプリンティング体験を改善し,ドメイン知識の蓄積を容易にするために,パイプラインを利用した対話型3Dトラブルシューティングシステムである3DPFIXを提案する。 自動診断と解探索をサポートする3DPFIXを開発した。 3DPFIXは、オンラインコミュニティに蓄積されたQ&A談話から、障害事例に関する共通対話に基づいて構築された。 ソーシャルアノテーション(コメント)を活用して、AI分類器用の注釈付き失敗画像データセットを構築し、ソリューションプールを抽出します。 総説では,3DPFIXを使用すれば,失敗の診断や,一般的な実践よりも正確な解決策を見つけるのに,参加者の労力を大幅に削減できることがわかった。 また,3DPFIXユーザがドメイン固有の知識を3Dプリンティングすることも確認した。 我々は,今後のHuman-AIコラボレーション設計において,コミュニティ主導のデータを活用することの意味について論じる。

The widespread consumer-grade 3D printers and learning resources online enable novices to self-train in remote settings. While troubleshooting plays an essential part of 3D printing, the process remains challenging for many remote novices even with the help of well-developed online sources, such as online troubleshooting archives and online community help. We conducted a formative study with 76 active 3D printing users to learn how remote novices leverage online resources in troubleshooting and their challenges. We found that remote novices cannot fully utilize online resources. For example, the online archives statically provide general information, making it hard to search and relate their unique cases with existing descriptions. Online communities can potentially ease their struggles by providing more targeted suggestions, but a helper who can provide custom help is rather scarce, making it hard to obtain timely assistance. We propose 3DPFIX, an interactive 3D troubleshooting system powered by the pipeline to facilitate Human-AI Collaboration, designed to improve novices' 3D printing experiences and thus help them easily accumulate their domain knowledge. We built 3DPFIX that supports automated diagnosis and solution-seeking. 3DPFIX was built upon shared dialogues about failure cases from Q\&A discourses accumulated in online communities. We leverage social annotations (i.e., comments) to build an annotated failure image dataset for AI classifiers and extract a solution pool. Our summative study revealed that using 3DPFIX helped participants spend significantly less effort in diagnosing failures and finding a more accurate solution than relying on their common practice. We also found that 3DPFIX users learn about 3D printing domain-specific knowledge. We discuss the implications of leveraging community-driven data in developing future Human-AI Collaboration designs.
翻訳日:2024-01-30 16:02:44 公開日:2024-01-29
# 学習率適応型CMA-ES

CMA-ES with Learning Rate Adaptation ( http://arxiv.org/abs/2401.15876v1 )

ライセンス: Link先を確認
Masahiro Nomura, Youhei Akimoto, Isao Ono(参考訳) 共分散行列適応進化戦略(CMA-ES)は連続ブラックボックス最適化問題の解法として最も成功した手法の1つである。 CMA-ESの実用的な側面は、ハイパーパラメータチューニングなしで使用できることである。 しかし、ハイパーパラメータ設定は、特にマルチモーダルやノイズなどの困難なタスクにおいて、パフォーマンスにかなりの影響を与えている。 本研究は,CMA-ESの性能に及ぼす学習率の影響を包括的に検討し,通常の微分方程式を考慮した学習率の必要性を実証する。 その後、理想的な学習率の設定について論じる。 これらの議論に基づき,一定信号対雑音比を維持するCMA-ESの学習率適応機構を開発した。 さらに,提案する学習率適応機構とcma-esの挙動を数値実験により検証し,cma-esで得られた結果と一定の学習率,人口サイズ適応との比較を行った。 提案した学習率適応型CMA-ESは,高コストの学習率チューニングを伴わないマルチモーダルおよび/またはノイズ問題に対して有効であることを示す。

The covariance matrix adaptation evolution strategy (CMA-ES) is one of the most successful methods for solving continuous black-box optimization problems. A practically useful aspect of the CMA-ES is that it can be used without hyperparameter tuning. However, the hyperparameter settings still have a considerable impact on performance, especially for difficult tasks, such as solving multimodal or noisy problems. This study comprehensively explores the impact of learning rate on the CMA-ES performance and demonstrates the necessity of a small learning rate by considering ordinary differential equations. Thereafter, it discusses the setting of an ideal learning rate. Based on these discussions, we develop a novel learning rate adaptation mechanism for the CMA-ES that maintains a constant signal-to-noise ratio. Additionally, we investigate the behavior of the CMA-ES with the proposed learning rate adaptation mechanism through numerical experiments, and compare the results with those obtained for the CMA-ES with a fixed learning rate and with population size adaptation. The results show that the CMA-ES with the proposed learning rate adaptation works well for multimodal and/or noisy problems without extremely expensive learning rate tuning.
翻訳日:2024-01-30 16:02:12 公開日:2024-01-29
# 作物型マッピングのための衛星データと気象データを組み合わせた逆モデリング手法

Combining Satellite and Weather Data for Crop Type Mapping: An Inverse Modelling Approach ( http://arxiv.org/abs/2401.15875v1 )

ライセンス: Link先を確認
Praveen Ravirathinam, Rahul Ghosh, Ankush Khandelwal, Xiaowei Jia, David Mulla, Vipin Kumar(参考訳) 正確な、タイムリーな作物マッピングは、収量推定、保険請求、保存努力に不可欠である。 長年にわたり、衛星からのマルチスペクトル画像のみを用いて関心領域における作物の種類を予測する、作物マッピングのための機械学習モデルが数多く開発されてきた。 しかし、これらの伝統的な手法は作物の生育を支配する物理的過程を考慮しない。 高いレベルでは、作物の成長は、気象や土壌タイプなどの物理的パラメータとして想定され、植物に作用して、衛星で観測できる作物の成長につながる。 本稿では,気象(daymet)と衛星画像(sentinel-2)を組み合わせて正確な作物地図を生成する逆モデルとして,作物成長の理解を活用する深層学習モデルであるwstatt(weather-based spatio-temporal segmentation network with attention)を提案する。 提案手法は,分割マップとF1分類スコアを比較することで,スペクトル画像のみに依存する既存のアルゴリズムよりも大幅に改善されていることを示す。 さらに、wstattアーキテクチャにおける注意の有効利用により、季節の早い時期(最大5ヶ月前)における作物の種類の検出が可能となり、食糧供給予測の改善に非常に有用である。 作物の生育の物理的特性をWSTATTが把握できることを示すため,作物の表現学に関連付けて気象の影響を論じる。

Accurate and timely crop mapping is essential for yield estimation, insurance claims, and conservation efforts. Over the years, many successful machine learning models for crop mapping have been developed that use just the multi-spectral imagery from satellites to predict crop type over the area of interest. However, these traditional methods do not account for the physical processes that govern crop growth. At a high level, crop growth can be envisioned as physical parameters, such as weather and soil type, acting upon the plant leading to crop growth which can be observed via satellites. In this paper, we propose Weather-based Spatio-Temporal segmentation network with ATTention (WSTATT), a deep learning model that leverages this understanding of crop growth by formulating it as an inverse model that combines weather (Daymet) and satellite imagery (Sentinel-2) to generate accurate crop maps. We show that our approach provides significant improvements over existing algorithms that solely rely on spectral imagery by comparing segmentation maps and F1 classification scores. Furthermore, effective use of attention in WSTATT architecture enables detection of crop types earlier in the season (up to 5 months in advance), which is very useful for improving food supply projections. We finally discuss the impact of weather by correlating our results with crop phenology to show that WSTATT is able to capture physical properties of crop growth.
翻訳日:2024-01-30 16:01:56 公開日:2024-01-29
# クラスタリングに基づく動的グラフ伝播による個人化フェデレーション学習の再考

Rethinking Personalized Federated Learning with Clustering-based Dynamic Graph Propagation ( http://arxiv.org/abs/2401.15874v1 )

ライセンス: Link先を確認
Jiaqi Wang, Yuzhong Chen, Yuhang Wu, Mahashweta Das, Hao Yang, Fenglong Ma(参考訳) 既存のパーソナライズされた連合学習アプローチのほとんどは、複雑な実装とチューニングを必要とする複雑な設計に基づいている。 この制限に対処するために、我々はシンプルながら効果的にパーソナライズされたフェデレーション学習フレームワークを提案する。 具体的には、各通信ラウンドにおいて、モデルトレーニングステータスとサーバ側のデータ分散に基づいて、クライアントを複数のクラスタにグループ化する。 次に、各クラスタセンターをモデルパラメータを備えたノードとみなし、重み付きエッジを用いてこれらのノードを接続するグラフを構築する。 さらに、グラフ全体に情報を伝播することにより、各ノードのモデルパラメータを更新する。 その後、クライアントがサーバ側から最適なモデルを得ることができるように、正確なパーソナライズされたモデル配布戦略を設計する。 我々は3種類の画像ベンチマークデータセットの実験を行い、3種類のタイプで合成されたデータセットを作成する。 実験の結果,提案手法の有効性が示された。

Most existing personalized federated learning approaches are based on intricate designs, which often require complex implementation and tuning. In order to address this limitation, we propose a simple yet effective personalized federated learning framework. Specifically, during each communication round, we group clients into multiple clusters based on their model training status and data distribution on the server side. We then consider each cluster center as a node equipped with model parameters and construct a graph that connects these nodes using weighted edges. Additionally, we update the model parameters at each node by propagating information across the entire graph. Subsequently, we design a precise personalized model distribution strategy to allow clients to obtain the most suitable model from the server side. We conduct experiments on three image benchmark datasets and create synthetic structured datasets with three types of typologies. Experimental results demonstrate the effectiveness of the proposed work.
翻訳日:2024-01-30 16:01:32 公開日:2024-01-29
# マルチエケロン在庫管理のためのラジアル基底関数に基づく深層qネットワーク

A Deep Q-Network Based on Radial Basis Functions for Multi-Echelon Inventory Management ( http://arxiv.org/abs/2401.15872v1 )

ライセンス: Link先を確認
Liqiang Cheng, Jun Luo, Weiwei Fan, Yidong Zhang, Yuan Li(参考訳) 本稿では,最適順序決定の導出が難しい複雑なネットワークトポロジーを持つマルチエケロン在庫管理問題に対処する。 深層強化学習(DRL)は、最近そのような問題を解決する可能性を示しているが、DRLでニューラルネットワークを設計することは依然として課題である。 これを解決するために、Q-networkが放射基底関数に基づくDRLモデルを開発した。 この手法はニューラルネットワークに基づく従来のDRLモデルよりも容易に構築でき、ハイパーパラメータチューニングの計算負担を軽減することができる。 一連のシミュレーション実験を通じて,本手法の簡易な基本方針と比較して優れた性能を示し,基本方針が最適であるシリアルシステムにおいて,マルチエケロンシステムにおけるより良い方針と競争性能を示す。 さらに、このアプローチは現在のDRLアプローチよりも優れています。

This paper addresses a multi-echelon inventory management problem with a complex network topology where deriving optimal ordering decisions is difficult. Deep reinforcement learning (DRL) has recently shown potential in solving such problems, while designing the neural networks in DRL remains a challenge. In order to address this, a DRL model is developed whose Q-network is based on radial basis functions. The approach can be more easily constructed compared to classic DRL models based on neural networks, thus alleviating the computational burden of hyperparameter tuning. Through a series of simulation experiments, the superior performance of this approach is demonstrated compared to the simple base-stock policy, producing a better policy in the multi-echelon system and competitive performance in the serial system where the base-stock policy is optimal. In addition, the approach outperforms current DRL approaches.
翻訳日:2024-01-30 16:01:20 公開日:2024-01-29
# 残差接続による量子ニューラルネットワークの表現性向上

Enhancing the expressivity of quantum neural networks with residual connections ( http://arxiv.org/abs/2401.15871v1 )

ライセンス: Link先を確認
Jingwei Wen, Zhiguo Huang, Dunbo Cai, Ling Qian(参考訳) 近年の騒々しい中間量子時代において,人工知能と量子コンピューティングの組み合わせに関する研究が盛んに行われている。 ニューラルネットワークにインスパイアされた特定の構造を持つ量子ニューラルネットワークの開発は、ネットワーク性能を改善する上で最も有望な方向のひとつだ。 本研究では、量子ニューラルネットワークのデータエンコーディングおよびトレーニング可能なブロックに補助量子ビットを導入することにより、残余接続チャネルを構成する量子残差ニューラルネットワーク(QResNets)を実装する量子回路ベースのアルゴリズムを提案する。 重要なことに、この特定のネットワークアーキテクチャが$l$-layerデータエンコーディングに適用されると、周波数生成形式の数は1つ、すなわち生成固有値の和の差から$\mathcal{o}(l^2)$に拡張できる。 また、一般化された剰余作用素におけるスペクトル構成法の多様性と追加の最適化自由度により、対応するフーリエ係数の調整の柔軟性も向上することができる。 これらの結果から,残差符号化方式によりスペクトルリッチ性が向上し,様々なパラメータ化量子回路の表現性が向上することが示唆された。 MNISTデータセットを用いた画像分類における様々な機能に適合する回帰タスクの大規模な数値実証を行い、表現性の向上を示す。 我々の研究は、古典的残留ニューラルネットワークの完全な量子実装の基礎を築き、量子機械学習における量子特徴写像の新しい戦略を探求する。

In the recent noisy intermediate-scale quantum era, the research on the combination of artificial intelligence and quantum computing has been greatly developed. Inspired by neural networks, developing quantum neural networks with specific structures is one of the most promising directions for improving network performance. In this work, we propose a quantum circuit-based algorithm to implement quantum residual neural networks (QResNets), where the residual connection channels are constructed by introducing auxiliary qubits to the data-encoding and trainable blocks of the quantum neural networks. Importantly, we prove that when this particular network architecture is applied to a $l$-layer data-encoding, the number of frequency generation forms can be extended from one, namely the difference of the sum of generator eigenvalues, to $\mathcal{O}(l^2)$. And the flexibility in adjusting the corresponding Fourier coefficients can also be improved due to the diversity of spectrum construction methods and the additional optimization degrees of freedom in the generalized residual operators. These results indicate that the residual encoding scheme can achieve better spectral richness and enhance the expressivity of various parameterized quantum circuits. Extensive numerical demonstrations in regression tasks of fitting various functions and applications in image classification with MNIST datasets are offered to present the expressivity enhancement. Our work lays the foundation for a complete quantum implementation of the classical residual neural networks and explores a new strategy for quantum feature map in quantum machine learning.
翻訳日:2024-01-30 16:01:05 公開日:2024-01-29
# Stochastic Amortization: 特徴とデータ属性を高速化するための統一的なアプローチ

Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution ( http://arxiv.org/abs/2401.15866v1 )

ライセンス: Link先を確認
Ian Covert, Chanwoo Kim, Su-In Lee, James Zou, Tatsunori Hashimoto(参考訳) データアセスメントや特徴属性など、説明可能な機械学習における多くのタスクは、各データポイントに対して高価な計算を行い、大規模なデータセットに対して引き出すことができる。 これらの方法は効率的な近似を必要とし、望まれる出力を直接予測するネットワークを学習する。 しかし,厳密なラベルでモデルを訓練することは難解な場合が多いため,ノイズラベルを用いたトレーニングを検討した結果,安価で驚くほど効果的であることが判明した。 ラベルノイズの理論解析と様々なモデルやデータセットを用いた実験を通じて、このアプローチはいくつかの特徴帰属法とデータ評価法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップすることを示した。

Many tasks in explainable machine learning, such as data valuation and feature attribution, perform expensive computation for each data point and can be intractable for large datasets. These methods require efficient approximations, and learning a network that directly predicts the desired output, which is commonly known as amortization, is a promising solution. However, training such models with exact labels is often intractable; we therefore explore training with noisy labels and find that this is inexpensive and surprisingly effective. Through theoretical analysis of the label noise and experiments with various models and datasets, we show that this approach significantly accelerates several feature attribution and data valuation methods, often yielding an order of magnitude speedup over existing approaches.
翻訳日:2024-01-30 16:00:40 公開日:2024-01-29
# LiDAR-PTQ:ポイントクラウド3Dオブジェクト検出のための後処理量子化

LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection ( http://arxiv.org/abs/2401.15865v1 )

ライセンス: Link先を確認
Sifan Zhou, Liang Li, Xinyu Zhang, Bo Zhang, Shipeng Bai, Miao Sun, Ziyu Zhao, Xiaobo Lu, Xiangxiang Chu(参考訳) 高度に制約された計算能力とメモリのため、自動運転車やロボットに搭載されたエッジデバイスに3dlidarベースの検出器を配置することは重要な課題である。 簡便で簡単なモデル圧縮手法であるため、トレーニング後の量子化(ptq)は2次元視覚タスクで広く採用されている。 しかし、3d lidarベースのタスクに直接適用すると、必然的にパフォーマンスが低下する。 本稿では,特に3次元ライダー検出(SPConvベースとSPConvフリーの両方)に有効であるLiDAR-PTQを提案する。 我々のLiDAR-PTQは、量子化パラメータの初期化を決定するスペーサ性に基づくキャリブレーション法である \textbf{(1)} と、量子化前後の最終的な予測の相違を低減するためのタスク誘導グローバルポジティヴロス(TGPL)法である \textbf{(3)} と、階層的再構成誤差を最小限に抑える適応ラウンドリング・トゥ・アレスト演算である。 広汎な実験により、我々のLiDAR-PTQは、CenterPoint(PillarベースとVoxelベースの両方)に適用した場合、最先端の量子化性能を達成できることが示された。 私たちが知る限り、lidarベースの3d検出タスクで初めて、ptq int8モデルの精度はfp32モデルとほぼ同じで、推論のスピードアップは$3\times$である。 さらに、当社のLiDAR-PTQは、量子化対応トレーニング手法よりも30\times$高速である。 コードは \url{https://github.com/StiphyJay/LiDAR-PTQ} でリリースされる。

Due to highly constrained computing power and memory, deploying 3D lidar-based detectors on edge devices equipped in autonomous vehicles and robots poses a crucial challenge. Being a convenient and straightforward model compression approach, Post-Training Quantization (PTQ) has been widely adopted in 2D vision tasks. However, applying it directly to 3D lidar-based tasks inevitably leads to performance degradation. As a remedy, we propose an effective PTQ method called LiDAR-PTQ, which is particularly curated for 3D lidar detection (both SPConv-based and SPConv-free). Our LiDAR-PTQ features three main components, \textbf{(1)} a sparsity-based calibration method to determine the initialization of quantization parameters, \textbf{(2)} a Task-guided Global Positive Loss (TGPL) to reduce the disparity between the final predictions before and after quantization, \textbf{(3)} an adaptive rounding-to-nearest operation to minimize the layerwise reconstruction error. Extensive experiments demonstrate that our LiDAR-PTQ can achieve state-of-the-art quantization performance when applied to CenterPoint (both Pillar-based and Voxel-based). To our knowledge, for the very first time in lidar-based 3D detection tasks, the PTQ INT8 model's accuracy is almost the same as the FP32 model while enjoying $3\times$ inference speedup. Moreover, our LiDAR-PTQ is cost-effective being $30\times$ faster than the quantization-aware training method. Code will be released at \url{https://github.com/StiphyJay/LiDAR-PTQ}.
翻訳日:2024-01-30 16:00:25 公開日:2024-01-29
# 光誘起双極子-双極子相互作用を持つトラップ原子オットーエンジン

Trapped-atom Otto engine with light-induced dipole-dipole interactions ( http://arxiv.org/abs/2401.15928v1 )

ライセンス: Link先を確認
Chimdessa Gashu Feyisa and H. H. Jen(参考訳) 有限時間量子熱エンジンは、理論上の目的に一般的に使用される理想的な準静的エンジンと区別して、有限パワーを生成することができるため、実用上の関連性がある。 しかし、これらのエンジンは、特に密度演算子に非自明なコヒーレンスを持つ多体系で顕著な量子摩擦によるエネルギー損失に遭遇する。 断熱へのショートカットや熱化への高速ルートなどの戦略が開発されているが、関連するコスト要件は未定である。 本研究では,光誘起双極子-双極子相互作用とソコリックプロセスの射影測定によるトラップ原子オットーエンジンの有限時間動作を理論的に検討する。 本研究により, 作業媒体の双極子-双極子相互作用の適切な制御は, 熱水貯留層との相互作用によってエンジン動作を促進させる一方で, 単体駆動プロトコルの投射測定と調整は, 量子摩擦を効果的に低減し, 非接触型および準静電型と比較して有限時間エンジン性能を向上させる。 このセットアップは、有限時間多体量子熱エンジンのさらなる研究のための魅力的な道を示し、光子を介する双極子-双極子相互作用の完全な可能性を探る機会を提供する。

Finite-time quantum heat engines are of practical relevance as they can generate finite-power, distinguishing them from ideal quasistatic engines typically used for theoretical purposes. However, these engines encounter energy losses due to quantum friction, which is particularly pronounced in many-body systems with non-trivial coherences in their density operator. Strategies such as shortcuts to adiabaticity and fast routes to thermalization have been developed although the associated cost requirements remain uncertain. In this study, we theoretically investigate the finite-time operation of a trapped-atom Otto engine with light-induced dipole-dipole interactions and projection measurements in one of the isochoric processes. The investigation reveals that appropriate control of dipole-dipole interactions of the working medium prompts engine operation upon interacting with the hot reservoir, while projection measurements and adjustment of the unitary driving protocols effectively reduce quantum friction to enhance finite-time engine performance compared to non-interacting and quasi-static counterparts. This setup presents a compelling avenue for further investigation of finite-time many-body quantum heat engines and provides an opportunity to explore the full potential of photon-mediated dipole-dipole interactions in their operations.
翻訳日:2024-01-30 15:54:31 公開日:2024-01-29
# 大規模言語モデルのための総合的中国語k-12教育評価ベンチマークe-eval

E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2401.15927v1 )

ライセンス: Link先を確認
Jinchang Hou, Chang Ao, Haihong Wu, Xiangtao Kong, Zhigang Zheng, Daijia Tang, Chengming Li, Xiping Hu, Ruifeng Xu, Shiwen Ni, Min Yang(参考訳) LLM(Large Language Models)の開発が加速し、中国のK-12教育領域で多くのLLMが使われ始めている。 LLMと教育の統合は、近づきつつあるが、中国K-12教育分野に焦点を当てたLCMの評価ベンチマークは、現在存在しない。 そのため、中国k-12教育領域における様々なllmの能力を正確に評価するための総合的自然言語処理ベンチマークが緊急に必要となる。 そこで本研究では,中国のK-12教育分野を対象とした総合評価ベンチマークであるE-EVALを紹介する。 E-EVALは、中国語、英語、政治学、歴史、倫理学、物理学、化学、数学、地理学など幅広い分野の小学校、中学校、高校の4,351問からなる。 先進LLMにおけるE-EVALの包括的評価を行い,英語支配モデルと中国語支配モデルの両方について検討した。 調査の結果、中国支配モデルは英語支配モデルとよく比較され、多くのスコアはGPT 4.0よりも高い。 しかし、ほとんど全てのモデルが数学のような複雑な主題ではうまく機能しない。 また,中国人優位のllmのほとんどが,小学校レベルでは中学レベルよりも高い得点を得られなかった。 我々は,モデルによる高次知識の習得が必ずしも低次知識の習得を示唆するものではないことを観察する。 さらに, 思考の連鎖(CoT)技術は, 挑戦的な科学科目に対してのみ有効であり, ファウショットプロンプトはリベラルアーツ科目にとってより有益であることを示した。 E-EVALでは、教育応用におけるLLMの強みと限界を分析し、中国のK-12教育とLLMの進展と発展に寄与することを目的としている。

With the accelerating development of Large Language Models (LLMs), many LLMs are beginning to be used in the Chinese K-12 education domain. The integration of LLMs and education is getting closer and closer, however, there is currently no benchmark for evaluating LLMs that focuses on the Chinese K-12 education domain. Therefore, there is an urgent need for a comprehensive natural language processing benchmark to accurately assess the capabilities of various LLMs in the Chinese K-12 education domain. To address this, we introduce the E-EVAL, the first comprehensive evaluation benchmark specifically designed for the Chinese K-12 education field. The E-EVAL consists of 4,351 multiple-choice questions at the primary, middle, and high school levels across a wide range of subjects, including Chinese, English, Politics, History, Ethics, Physics, Chemistry, Mathematics, and Geography. We conducted a comprehensive evaluation of E-EVAL on advanced LLMs, including both English-dominant and Chinese-dominant models. Findings show that Chinese-dominant models perform well compared to English-dominant models, with many scoring even above the GPT 4.0. However, almost all models perform poorly in complex subjects such as mathematics. We also found that most Chinese-dominant LLMs did not achieve higher scores at the primary school level compared to the middle school level. We observe that the mastery of higher-order knowledge by the model does not necessarily imply the mastery of lower-order knowledge as well. Additionally, the experimental results indicate that the Chain of Thought (CoT) technique is effective only for the challenging science subjects, while Few-shot prompting is more beneficial for liberal arts subjects. With E-EVAL, we aim to analyze the strengths and limitations of LLMs in educational applications, and to contribute to the progress and development of Chinese K-12 education and LLMs.
翻訳日:2024-01-30 15:54:06 公開日:2024-01-29
# ブロックチェーン対応のフェデレートアンラーニング

Blockchain-enabled Trustworthy Federated Unlearning ( http://arxiv.org/abs/2401.15917v1 )

ライセンス: Link先を確認
Yijing Lin, Zhipeng Gao, Hongyang Du, Jinke Ren, Zhiqiang Xie, Dusit Niyato(参考訳) フェデレートアンラーニングは、分散クライアントのデータオーナシップを保護するための有望なパラダイムである。 これにより、中央サーバは、機械学習モデル内の履歴データの影響を取り除き、連合学習における"忘れられる権利"問題に対処することができる。 しかし、既存の作業では、中央サーバが分散クライアントから履歴モデルパラメータを保持する必要があるため、クライアントがトレーニングプロセスを離れた後であっても、中央サーバはこれらのパラメータを使用してさらなるトレーニングを行うことができる。 この問題に対処するために、新しいブロックチェーン対応の信頼できるフェデレーションアンラーニングフレームワークを提案する。 まず、Chameleonハッシュ関数を用いて、他のクライアントのモデルに格納されているデータの削除と削除を行うフェデレーションアンラーニングプロトコルの証明を設計する。 そして、計算オーバーヘッドを低減し、訓練効率を大幅に向上させる適応貢献型再訓練機構を開発した。 広範な実験により、提案されたフレームワークが最先端のフレームワークよりも優れたデータ削除効果を達成できることが示され、信頼できる連合学習への大きな一歩となった。

Federated unlearning is a promising paradigm for protecting the data ownership of distributed clients. It allows central servers to remove historical data effects within the machine learning model as well as address the "right to be forgotten" issue in federated learning. However, existing works require central servers to retain the historical model parameters from distributed clients, such that allows the central server to utilize these parameters for further training even, after the clients exit the training process. To address this issue, this paper proposes a new blockchain-enabled trustworthy federated unlearning framework. We first design a proof of federated unlearning protocol, which utilizes the Chameleon hash function to verify data removal and eliminate the data contributions stored in other clients' models. Then, an adaptive contribution-based retraining mechanism is developed to reduce the computational overhead and significantly improve the training efficiency. Extensive experiments demonstrate that the proposed framework can achieve a better data removal effect than the state-of-the-art frameworks, marking a significant stride towards trustworthy federated unlearning.
翻訳日:2024-01-30 15:53:34 公開日:2024-01-29
# OOD一般化のための視覚言語モデルファインタニングの落とし穴を克服する

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization ( http://arxiv.org/abs/2401.15914v1 )

ライセンス: Link先を確認
Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang(参考訳) 既存の視覚言語モデルは、様々な視覚領域やタスクに対して強い一般化を示す。 しかし、そのようなモデルは主にゼロショット認識をクローズドセットで行うため、設計によってオープンドメインの視覚概念を扱うのに苦労する。 近年, 即時学習などの微調整手法では, 分布内 (ID) と分布外 (OOD) の識別だけでなく, ID と OOD の精度にもいくつかの改善が見られた。 本稿ではまず,与えられたデータセットの既知のクラスを十分に微調整した上で適切な正規化を行わない視覚言語モデルが,未知のクラスのパフォーマンスを低下させながら,その既知のクラスに過剰に適合する傾向があることを実証する。 そこで我々は,この落とし穴に対処するための新しいアプローチであるOGENを提案し,その主な焦点は,微調整モデルのOODジェネラリゼーションの改善である。 具体的には、未知のクラスのクラス名のみを使用してood機能を合成するために、クラス条件特徴生成器が導入される。 このような合成された機能は未知に関する有用な知識を提供し、共同で最適化された ID と OOD データ間の決定境界を規則化するのに役立ちます。 同様に重要なことは、共同最適化中に特徴生成モデルを正規化するための適応的な自己蒸留機構である。 実験により,OODの一般化性能は異なる条件で向上することを確認した。

Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings.
翻訳日:2024-01-30 15:53:17 公開日:2024-01-29
# 四次空間モデルと動的流れ畳み込みを用いた視覚インフォームドフロー画像超解法

Vision-Informed Flow Image Super-Resolution with Quaternion Spatial Modeling and Dynamic Flow Convolution ( http://arxiv.org/abs/2401.15913v1 )

ライセンス: Link先を確認
Qinglong Cao, Zhengqin Xu, Chao Ma, Xiaokang Yang, Yuntian Chen(参考訳) フローイメージスーパーレゾリューション(fisr)は、低解像度フロー画像から高分解能乱流速度場を回復することを目的としている。 既存のFISR法は主に自然画像パターンのフロー画像を処理するが、批判的かつ明確なフロー視覚特性はめったに考慮されない。 この無視は、流れと自然画像の間の大きな領域ギャップを生じさせ、流れの乱流の正確な認識を著しく妨げ、超解像性能を損なう。 このジレンマに対処するために,一意なフローイメージング原理と形態情報を含むフロービジュアル特性を包括的に検討し,最初のフロービジュアルプロパティインフォームfisrアルゴリズムを提案する。 特に、光フィールド内の独立したRGBチャネルによって構築される自然画像とは違い、フローフィールド内の直交UVW速度に基づいてフローイメージを構築する。 フローイメージングの原理を意識してFISRネットワークを強化するために,この直交空間関係をモデル化し,改良されたFISRを提案する。 さらに, 粘性や表面張力特性から, 流動画像に液滴状の形態が現れることが多い。 この形態的性質に触発されて, 動的流れ畳み込みの設計を行い, fisrを強化するために形態的情報を効果的にマイニングする。 新たに取得したフローイメージデータセットに関する広範な実験により,本手法の最先端性能が実証された。 コードとデータは利用可能になる。

Flow image super-resolution (FISR) aims at recovering high-resolution turbulent velocity fields from low-resolution flow images. Existing FISR methods mainly process the flow images in natural image patterns, while the critical and distinct flow visual properties are rarely considered. This negligence would cause the significant domain gap between flow and natural images to severely hamper the accurate perception of flow turbulence, thereby undermining super-resolution performance. To tackle this dilemma, we comprehensively consider the flow visual properties, including the unique flow imaging principle and morphological information, and propose the first flow visual property-informed FISR algorithm. Particularly, different from natural images that are constructed by independent RGB channels in the light field, flow images build on the orthogonal UVW velocities in the flow field. To empower the FISR network with an awareness of the flow imaging principle, we propose quaternion spatial modeling to model this orthogonal spatial relationship for improved FISR. Moreover, due to viscosity and surface tension characteristics, fluids often exhibit a droplet-like morphology in flow images. Inspired by this morphological property, we design the dynamic flow convolution to effectively mine the morphological information to enhance FISR. Extensive experiments on the newly acquired flow image datasets demonstrate the state-of-the-art performance of our method. Code and data will be made available.
翻訳日:2024-01-30 15:52:51 公開日:2024-01-29
# 分布一貫性構造因果モデル

Distribution-consistency Structural Causal Models ( http://arxiv.org/abs/2401.15911v1 )

ライセンス: Link先を確認
Heyang Gong, Chaochao Lu, Yu Zhang(参考訳) 因果モデリングの分野では、潜在的成果(PO)と構造因果モデル(SCM)が主要なフレームワークである。 しかしながら、これらのフレームワークは、潜在的成果の連立分布のパラメータとして形式化された、事実上の反事実をモデル化する際の顕著な課題に直面している。 特に、(Y(0), Y(1))$の合同値に基づいてパーソナライズされたインセンティブを求めるシナリオにおいて、対実的推論は、現代の意思決定プロセスにおいて最重要となる。 本稿では,POおよびSCMフレームワークをモデルとして検討することから始める。 分析を通じて,両フレームワークの基盤となる一貫性ルールから生じる,固有のモデルのキャパシティ制限を,‘degenerative counterfactual problem’という用語で識別する。 この制限に対処するために,新しい \textit{distribution-consistency} 仮定を導入し,それと並行して,反事実をモデル化するための機能拡張を提供する分散一貫性構造因果モデル(discoscms)を提案する。 拡張されたモデル容量を明らかにするために,discoscm単独で実用的意義を持つ新しい識別可能な因果パラメータ \textit{the probability of consistency} を導入し,パーソナライズされたインセンティブの例を示す。 さらに,DiscoSCMフレームワーク内の '`Ladder of Causation'' に関する理論的結果の包括的セットを提供する。 反事実モデリングの今後の研究のために新しい道を開き、究極的には因果関係とその実世界の応用に対する理解を深めることを願っている。

In the field of causal modeling, potential outcomes (PO) and structural causal models (SCMs) stand as the predominant frameworks. However, these frameworks face notable challenges in practically modeling counterfactuals, formalized as parameters of the joint distribution of potential outcomes. Counterfactual reasoning holds paramount importance in contemporary decision-making processes, especially in scenarios that demand personalized incentives based on the joint values of $(Y(0), Y(1))$. This paper begins with an investigation of the PO and SCM frameworks for modeling counterfactuals. Through the analysis, we identify an inherent model capacity limitation, termed as the ``degenerative counterfactual problem'', emerging from the consistency rule that is the cornerstone of both frameworks. To address this limitation, we introduce a novel \textit{distribution-consistency} assumption, and in alignment with it, we propose the Distribution-consistency Structural Causal Models (DiscoSCMs) offering enhanced capabilities to model counterfactuals. To concretely reveal the enhanced model capacity, we introduce a new identifiable causal parameter, \textit{the probability of consistency}, which holds practical significance within DiscoSCM alone, showcased with a personalized incentive example. Furthermore, we provide a comprehensive set of theoretical results about the ``Ladder of Causation'' within the DiscoSCM framework. We hope it opens new avenues for future research of counterfactual modeling, ultimately enhancing our understanding of causality and its real-world applications.
翻訳日:2024-01-30 15:52:26 公開日:2024-01-29
# 比較深層生成モデルの識別可能性に向けて

Toward the Identifiability of Comparative Deep Generative Models ( http://arxiv.org/abs/2401.15903v1 )

ライセンス: Link先を確認
Romain Lopez, Jan-Christian Huetter, Ehsan Hajiramezanali, Jonathan Pritchard and Aviv Regev(参考訳) deep generative models(dgms)は、条件付き確率分布の仕様のようなドメイン知識を十分に取り入れながら、データ表現を学習するための多用途なツールである。 最近提案されたDGMは、異なるソースからのデータセットを比較する重要な課題に取り組む。 そのような例の1つは、背景データセットと比較してターゲットデータセットに富むパターンを記述することに焦点を当てたコントラスト分析の設定である。 これらのモデルの実践的な展開は、DGMが自然に解釈可能でモジュラーな潜在表現を推論していると仮定することが多い。 したがって、既存の手法は理論的な根拠がないにもかかわらず、しばしばアドホック正規化スキームに依存する。 本稿では、非線形独立成分分析の分野における最近の進歩を延長し、比較dgmsの識別可能性の理論を提案する。 これらのモデルでは,混合関数の一般クラスにまたがる識別性に欠けるが,混合関数が分割アフィンである場合(例えば,reluニューラルネットワークによってパラメータ化される場合)に驚くほど識別可能となる。 また, モデルミス種別の影響についても検討し, 従来提案されていた比較DGMの正則化手法が, 潜伏変数の数が事前に分かっていない場合に, 識別可能性を高めることを示す。 最後に,マルチ目的最適化による複数のデータソースの処理を改善し,制約付き最適化を用いて,正規化のためのハイパーパラメータを解釈可能な方法で調整する手法を提案する。 我々は, シミュレーションデータと, 単一細胞rnaシークエンシングによってプロファイリングされた細胞における遺伝的摂動の最近のデータセットを用いて, 理論と新しい手法を実証的に検証した。

Deep Generative Models (DGMs) are versatile tools for learning data representations while adequately incorporating domain knowledge such as the specification of conditional probability distributions. Recently proposed DGMs tackle the important task of comparing data sets from different sources. One such example is the setting of contrastive analysis that focuses on describing patterns that are enriched in a target data set compared to a background data set. The practical deployment of those models often assumes that DGMs naturally infer interpretable and modular latent representations, which is known to be an issue in practice. Consequently, existing methods often rely on ad-hoc regularization schemes, although without any theoretical grounding. Here, we propose a theory of identifiability for comparative DGMs by extending recent advances in the field of non-linear independent component analysis. We show that, while these models lack identifiability across a general class of mixing functions, they surprisingly become identifiable when the mixing function is piece-wise affine (e.g., parameterized by a ReLU neural network). We also investigate the impact of model misspecification, and empirically show that previously proposed regularization techniques for fitting comparative DGMs help with identifiability when the number of latent variables is not known in advance. Finally, we introduce a novel methodology for fitting comparative DGMs that improves the treatment of multiple data sources via multi-objective optimization and that helps adjust the hyperparameter for the regularization in an interpretable manner, using constrained optimization. We empirically validate our theory and new methodology using simulated data as well as a recent data set of genetic perturbations in cells profiled via single-cell RNA sequencing.
翻訳日:2024-01-30 15:51:56 公開日:2024-01-29
# 自律運転における画像案内深度補完のための簡潔かつ効果的なネットワーク

A Concise but Effective Network for Image Guided Depth Completion in Autonomous Driving ( http://arxiv.org/abs/2401.15902v1 )

ライセンス: Link先を確認
Moyun Liu, Youping Chen, Jingming Xie, Lei Yao, Yang Zhang, Joey Tianyi Zhou(参考訳) 深度完了は、スパース深度マップを深度予測に変換することを目的として、自律運転において重要な課題である。 潜在的にリッチなセマンティック情報のため、RGBイメージは、完了効果を高めるために一般的に融合される。 画像誘導深度補完には3つの課題がある。 1) 2つのモダリティを効果的に融合する方法 2) 深度情報の回復方法,及び 3)実用的な自動運転のリアルタイム予測を実現する方法。 上記の問題を解決するため,簡易でエレガントな構造で高速な深度補完を実現するため,CENetという簡潔で効率的なネットワークを提案する。 まず、カラー空間から抽出した豊富な補助的特徴を利用して、2つのセンサ特徴を融合させる高速誘導モジュールを用いる。 他の一般的な複雑なガイダンスモジュールとは異なり、我々のアプローチは直感的で低コストです。 さらに,観測された位置と観測されていない位置に対する最適化の不整合性問題を発見し解析し,問題を緩和するために疎結合深度予測ヘッドを提案する。 提案する分離ヘッドは, 有効位置と無効位置の深さを, ごくわずかな余分な推論時間で出力できる。 デュアルエンコーダとシングルデコーダの単純な構造に基づき,cenetは精度と効率のバランスが良好である。 kitti depth completionベンチマークでは,最先端手法と比較して,cenetの性能と推論速度が向上した。 また,本手法の一般化を検証するため,室内のNYUv2データセットを用いて評価を行った。 この作業のコードはhttps://github.com/lmomoy/CENet.comで公開される。

Depth completion is a crucial task in autonomous driving, aiming to convert a sparse depth map into a dense depth prediction. Due to its potentially rich semantic information, RGB image is commonly fused to enhance the completion effect. Image-guided depth completion involves three key challenges: 1) how to effectively fuse the two modalities; 2) how to better recover depth information; and 3) how to achieve real-time prediction for practical autonomous driving. To solve the above problems, we propose a concise but effective network, named CENet, to achieve high-performance depth completion with a simple and elegant structure. Firstly, we use a fast guidance module to fuse the two sensor features, utilizing abundant auxiliary features extracted from the color space. Unlike other commonly used complicated guidance modules, our approach is intuitive and low-cost. In addition, we find and analyze the optimization inconsistency problem for observed and unobserved positions, and a decoupled depth prediction head is proposed to alleviate the issue. The proposed decoupled head can better output the depth of valid and invalid positions with very few extra inference time. Based on the simple structure of dual-encoder and single-decoder, our CENet can achieve superior balance between accuracy and efficiency. In the KITTI depth completion benchmark, our CENet attains competitive performance and inference speed compared with the state-of-the-art methods. To validate the generalization of our method, we also evaluate on indoor NYUv2 dataset, and our CENet still achieve impressive results. The code of this work will be available at https://github.com/lmomoy/CENet.
翻訳日:2024-01-30 15:51:28 公開日:2024-01-29
# MV2MAE:マルチビュービデオマッシュアップオートエンコーダ

MV2MAE: Multi-View Video Masked Autoencoders ( http://arxiv.org/abs/2401.15900v1 )

ライセンス: Link先を確認
Ketul Shah, Robert Crandall, Jie Xu, Peng Zhou, Marian George, Mayank Bansal, Rama Chellappa(参考訳) 複数の視点から捉えたビデオは、世界の3D構造を認識し、アクション認識やトラッキングなどのコンピュータビジョンタスクに役立てることができる。 本稿では,同期型マルチビュービデオからの自己教師型学習手法を提案する。 モデルに幾何情報を注入するためにクロスビュー再構成タスクを使用する。 我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。 同視点デコーダに加えて,ソース視点からの映像を用いた対象視点映像の再構成にクロスアテンション機構を活用し,視点変化にロバストな表現を支援する,別個のクロスビューデコーダを導入する。 ビデオの場合、静的な領域は簡単に再構成でき、意味のある表現の学習を妨げる。 そこで本研究では, 時間モデルを改善する動き重み付き復元損失を提案する。 NTU-60, NTU-120, ETRIデータセット, およびNUCLA, PKU-MMD-II, ROCOG-v2データセットの転送学習環境での最先端の成果を報告する。 コードは利用可能になる。

Videos captured from multiple viewpoints can help in perceiving the 3D structure of the world and benefit computer vision tasks such as action recognition, tracking, etc. In this paper, we present a method for self-supervised learning from synchronized multi-view videos. We use a cross-view reconstruction task to inject geometry information in the model. Our approach is based on the masked autoencoder (MAE) framework. In addition to the same-view decoder, we introduce a separate cross-view decoder which leverages cross-attention mechanism to reconstruct a target viewpoint video using a video from source viewpoint, to help representations robust to viewpoint changes. For videos, static regions can be reconstructed trivially which hinders learning meaningful representations. To tackle this, we introduce a motion-weighted reconstruction loss which improves temporal modeling. We report state-of-the-art results on the NTU-60, NTU-120 and ETRI datasets, as well as in the transfer learning setting on NUCLA, PKU-MMD-II and ROCOG-v2 datasets, demonstrating the robustness of our approach. Code will be made available.
翻訳日:2024-01-30 15:51:06 公開日:2024-01-29
# 連続可変量子鍵分布におけるチャネルタンパ攻撃の軽減

Mitigation of Channel Tampering Attacks in Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2401.15898v1 )

ライセンス: Link先を確認
Sebastian P. Kish, Chandra Thapa, Mikhael Sayat, Hajime Suzuki, Josef Pieprzyk and Seyit Camtepe(参考訳) 連続可変量子鍵分布(CV-QKD)の大幅な進歩にもかかわらず、実用的なCV-QKDシステムは様々な攻撃によって妥協される。 その結果,CV-QKD実装における新たな攻撃ベクトルの同定と対策は,CV-QKDの継続的な堅牢性にとって重要である。 特にCV-QKDはパブリックな量子チャネルに依存しているため、通信妨害に対する脆弱性はDoS(DoS)攻撃を利用する潜在的な敵から持続する。 本稿では,チャネル増幅(CA)攻撃と呼ばれるCV-QKDにおいて,Eveが増幅によって通信チャネルを操作する新たな脅威を紹介する。 具体的には、この攻撃をCV-QKD光ファイバーでモデル化する。 この脅威に対処するため,我々は検出・緩和戦略を提案する。 検出には、決定ツリー分類器に基づいた機械学習(ML)モデルが含まれ、CAやDoS攻撃など、さまざまなチャネルタンパ攻撃を分類する。 緩和のために、ボブは攻撃の種類と周波数を分類して二次データを選択する。 我々のMLモデルはこれらの攻撃の識別と分類において高い精度を示す。 秘密鍵レート (SKR) に対するCA攻撃の影響について, イヴの位置と局所発振器 (LO) の相対強度雑音について検討した。 提案した緩和戦略は、攻撃されたCA攻撃のSKRを改善し、場合によってはハイブリッドCA-DoS攻撃のSKRを改善する。 本研究は,ML分類とポストセレクションの両分野における新しい応用例である。 これらの知見はCV-QKDシステムのチャネル上の新たな脅威に対する堅牢性を高めるために重要である。

Despite significant advancements in continuous-variable quantum key distribution (CV-QKD), practical CV-QKD systems can be compromised by various attacks. Consequently, identifying new attack vectors and countermeasures for CV-QKD implementations is important for the continued robustness of CV-QKD. In particular, as CV-QKD relies on a public quantum channel, vulnerability to communication disruption persists from potential adversaries employing Denial-of-Service (DoS) attacks. Inspired by DoS attacks, this paper introduces a novel threat in CV-QKD called the Channel Amplification (CA) attack, wherein Eve manipulates the communication channel through amplification. We specifically model this attack in a CV-QKD optical fiber setup. To counter this threat, we propose a detection and mitigation strategy. Detection involves a machine learning (ML) model based on a decision tree classifier, classifying various channel tampering attacks, including CA and DoS attacks. For mitigation, Bob, post-selects quadrature data by classifying the attack type and frequency. Our ML model exhibits high accuracy in distinguishing and categorizing these attacks. The CA attack's impact on the secret key rate (SKR) is explored concerning Eve's location and the relative intensity noise of the local oscillator (LO). The proposed mitigation strategy improves the attacked SKR for CA attacks and, in some cases, for hybrid CA-DoS attacks. Our study marks a novel application of both ML classification and post-selection in this context. These findings are important for enhancing the robustness of CV-QKD systems against emerging threats on the channel.
翻訳日:2024-01-30 15:50:47 公開日:2024-01-29
# ジェネレーティブAIのためのレッドチーム:銀の弾丸かセキュリティシアターか?

Red-Teaming for Generative AI: Silver Bullet or Security Theater? ( http://arxiv.org/abs/2401.15897v1 )

ライセンス: Link先を確認
Michael Feffer, Anusha Sinha, Zachary C. Lipton, Hoda Heidari(参考訳) ジェネレーティブAI(GenAI)モデルの安全性、セキュリティ、信頼性に関する懸念の高まりに対して、実践者や規制当局は、これらのリスクを特定し緩和するための戦略の重要な要素として、AIのリピートを挙げている。 しかし、ポリシー議論やコーポレートメッセージングにおけるaiのレッドチーム化の中心的役割にもかかわらず、その正確な意味、規制におけるそれが果たす役割、そしてそれがサイバーセキュリティの分野で当初考えられた従来のレッドチーム化プラクティスとどのように密接に関連しているかについて、重要な疑問が残っている。 本研究では,AI産業における赤チーム活動の最近の事例を特定し,関連する研究文献を広範囲に調査し,AI赤チーム実践のスコープ,構造,基準を特徴づける。 分析の結果,AIの事前の手法と実践は,活動の目的(しばしば曖昧である),評価対象の成果物(アクター,リソース,メソッドなど),そしてそれが通知する決定(報告,開示,緩和など)など,複数の軸に沿って分散していることが明らかとなった。 我々の知見を踏まえて、我々は、GenAIモデルの振る舞いを改善するための幅広い活動と態度を特徴付ける上で、レッドチーム化は価値ある大胆なアイデアであるかもしれない、と論じる。 生成型aiのより堅牢な評価ツールボックスに移行するために、私たちは、将来のaiレッドチームプラクティスを指導し構築するための質問バンクに、推奨事項を合成します。

In response to rising concerns surrounding the safety, security, and trustworthiness of Generative AI (GenAI) models, practitioners and regulators alike have pointed to AI red-teaming as a key component of their strategies for identifying and mitigating these risks. However, despite AI red-teaming's central role in policy discussions and corporate messaging, significant questions remain about what precisely it means, what role it can play in regulation, and how precisely it relates to conventional red-teaming practices as originally conceived in the field of cybersecurity. In this work, we identify recent cases of red-teaming activities in the AI industry and conduct an extensive survey of the relevant research literature to characterize the scope, structure, and criteria for AI red-teaming practices. Our analysis reveals that prior methods and practices of AI red-teaming diverge along several axes, including the purpose of the activity (which is often vague), the artifact under evaluation, the setting in which the activity is conducted (e.g., actors, resources, and methods), and the resulting decisions it informs (e.g., reporting, disclosure, and mitigation). In light of our findings, we argue that while red-teaming may be a valuable big-tent idea for characterizing a broad set of activities and attitudes aimed at improving the behavior of GenAI models, gestures towards red-teaming as a panacea for every possible risk verge on security theater. To move toward a more robust toolbox of evaluations for generative AI, we synthesize our recommendations into a question bank meant to guide and scaffold future AI red-teaming practices.
翻訳日:2024-01-30 15:50:19 公開日:2024-01-29
# $\boldsymbol{M^2}$-Encoder: 大規模事前学習によるバイリンガル画像テキスト理解の促進

$\boldsymbol{M^2}$-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining ( http://arxiv.org/abs/2401.15896v1 )

ライセンス: Link先を確認
Qingpei Guo, Furong Xu, Hanxiao Zhang, Wang Ren, Ziping Ma, Lin Ju, Jian Wang, Jingdong Chen, Ming Yang(参考訳) CLIPのようなビジョン言語基盤モデルは、人工知能の分野に革命をもたらした。 それでも、中国語と英語の両方でマルチ言語をサポートするVLMモデルは、大規模な事前学習データセットの相対的不足により、遅れている。 この目的に向けて,60億以上の画像テキストペアを持つ包括的バイリンガル(中国語-英語)データセットbm-6bを導入する。 このようなデータセットのスケールに対処するために,画像テキストコントラスト損失計算のための新しいグループ化アグリゲーション手法を提案し,通信オーバーヘッドとgpuメモリ要求を大幅に削減し,トレーニング速度を60%向上させる。 我々は,M^2$-Encoders(M-Squareと発音する)と呼ばれるBM-6Bの細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルを事前訓練し,マルチモーダル検索と分類タスクのための新しいベンチマークを設定した。 特に、我々の最大の$M^2$-Encoder-10Bモデルは、ImageNet-CNで88.5%、ImageNet-CNで80.7%という、ゼロショットの分類設定でトップ1の精度を達成した。 m^2$-encoderシリーズは、これまでで最も包括的なバイリンガルな画像テキスト基礎モデルの1つです。

Vision-language foundation models like CLIP have revolutionized the field of artificial intelligence. Nevertheless, VLM models supporting multi-language, e.g., in both Chinese and English, have lagged due to the relative scarcity of large-scale pretraining datasets. Toward this end, we introduce a comprehensive bilingual (Chinese-English) dataset BM-6B with over 6 billion image-text pairs, aimed at enhancing multimodal foundation models to well understand images in both languages. To handle such a scale of dataset, we propose a novel grouped aggregation approach for image-text contrastive loss computation, which reduces the communication overhead and GPU memory demands significantly, facilitating a 60% increase in training speed. We pretrain a series of bilingual image-text foundation models with an enhanced fine-grained understanding ability on BM-6B, the resulting models, dubbed as $M^2$-Encoders (pronounced "M-Square"), set new benchmarks in both languages for multimodal retrieval and classification tasks. Notably, Our largest $M^2$-Encoder-10B model has achieved top-1 accuracies of 88.5% on ImageNet and 80.7% on ImageNet-CN under a zero-shot classification setting, surpassing previously reported SoTA methods by 2.2% and 21.1%, respectively. The $M^2$-Encoder series represents one of the most comprehensive bilingual image-text foundation models to date, so we are making it available to the research community for further exploration and development.
翻訳日:2024-01-30 15:49:49 公開日:2024-01-29
# 時空間グラフにおける位相依存学習のための拡張型MLPアーキテクチャ

A Gated MLP Architecture for Learning Topological Dependencies in Spatio-Temporal Graphs ( http://arxiv.org/abs/2401.15894v1 )

ライセンス: Link先を確認
Yun Young Choi, Minho Lee, Sun Woo Park, Seunghwan Lee, Joohwan Ko(参考訳) グラフニューラルネットワーク(gnns)とトランスフォーマー(transformer)は、時空間グラフの複雑なベクトル表現を学習するためにますます採用され、トラフィックデータセットのようなアプリケーションにとって重要な時空間依存を捉えている。 多くの既存手法では、マルチヘッドアテンション機構とメッセージパッシングニューラルネットワーク(MPNN)を用いて空間的・時間的関係を捉えるが、これらの手法は時間的・空間的関係を独立に符号化し、グラフの位相的特性を限定的に反映する。 本研究では,多層パーセプトロン(gMLP)を持つ時空間グラフの位相的非自明な不変量に基づく新しい時空間GNNであるCy2Mixerを紹介する。 Cy2Mixerは、空間情報をカプセル化するメッセージパッシングブロック、循環サブグラフを通して位相情報を豊かにするサイクルメッセージパッシングブロック、時間特性をキャプチャする時間ブロックの3つのブロックで構成されている。 我々は,Cy2Mixerの有効性を,我々の周期的メッセージパッシングブロックが,メッセージパッシングブロックと比較して深層学習モデルに差分情報を提供できることを強調した数学的証拠で裏付ける。 さらに、経験的評価はCy2Mixerの有効性を裏付け、様々なトラフィックベンチマークデータセットにおける最先端のパフォーマンスを示す。

Graph Neural Networks (GNNs) and Transformer have been increasingly adopted to learn the complex vector representations of spatio-temporal graphs, capturing intricate spatio-temporal dependencies crucial for applications such as traffic datasets. Although many existing methods utilize multi-head attention mechanisms and message-passing neural networks (MPNNs) to capture both spatial and temporal relations, these approaches encode temporal and spatial relations independently, and reflect the graph's topological characteristics in a limited manner. In this work, we introduce the Cycle to Mixer (Cy2Mixer), a novel spatio-temporal GNN based on topological non-trivial invariants of spatio-temporal graphs with gated multi-layer perceptrons (gMLP). The Cy2Mixer is composed of three blocks based on MLPs: A message-passing block for encapsulating spatial information, a cycle message-passing block for enriching topological information through cyclic subgraphs, and a temporal block for capturing temporal properties. We bolster the effectiveness of Cy2Mixer with mathematical evidence emphasizing that our cycle message-passing block is capable of offering differentiated information to the deep learning model compared to the message-passing block. Furthermore, empirical evaluations substantiate the efficacy of the Cy2Mixer, demonstrating state-of-the-art performances across various traffic benchmark datasets.
翻訳日:2024-01-30 15:49:19 公開日:2024-01-29
# 入射連続表現を用いた潮流データの任意スケールダウンスケーリング

Arbitrary-Scale Downscaling of Tidal Current Data Using Implicit Continuous Representation ( http://arxiv.org/abs/2401.15893v1 )

ライセンス: Link先を確認
Dongheon Lee, Seungmyong Jeong, Youngmin Ro(参考訳) 数値モデルは、再生可能エネルギーの生産と沿岸エンジニアリングに不可欠な潮流を含む地球科学的現象を理解するために長い間使われてきた。 しかし、計算コストは様々な解像度のデータの生成を妨げる。 代替として、ディープラーニングベースのダウンスケーリング手法は、推論速度の高速化により、牽引力を高めている。 しかし、そのほとんどは推論の固定スケールに限られており、対象地学データの重要な特徴を見落としている。 本稿では,不均一性や局所依存性といった画像と相違する特徴に対処する,潮流データのための新しいダウンスケーリングフレームワークを提案する。 さらに,このフレームワークは,連続表現モデルを用いて任意のスケール出力を生成することができる。 提案手法は, フロー速度予測をベースラインモデルと比較して93.21% (MSE) と63.85% (MAE) に改善し, FLOPの33.2%削減を実現した。

Numerical models have long been used to understand geoscientific phenomena, including tidal currents, crucial for renewable energy production and coastal engineering. However, their computational cost hinders generating data of varying resolutions. As an alternative, deep learning-based downscaling methods have gained traction due to their faster inference speeds. But most of them are limited to only inference fixed scale and overlook important characteristics of target geoscientific data. In this paper, we propose a novel downscaling framework for tidal current data, addressing its unique characteristics, which are dissimilar to images: heterogeneity and local dependency. Moreover, our framework can generate any arbitrary-scale output utilizing a continuous representation model. Our proposed framework demonstrates significantly improved flow velocity predictions by 93.21% (MSE) and 63.85% (MAE) compared to the Baseline model while achieving a remarkable 33.2% reduction in FLOPs.
翻訳日:2024-01-30 15:48:53 公開日:2024-01-29
# 非凸有限問題における確率的再帰勾配の確率的保証

Probabilistic Guarantees of Stochastic Recursive Gradient in Non-Convex Finite Sum Problems ( http://arxiv.org/abs/2401.15890v1 )

ライセンス: Link先を確認
Yanjie Zhong, Jiaqi Li, Soumendra Lahiri(参考訳) 本稿では,ランダムな個人境界を持つマーチンゲール差分列の和ノルムに基づく次元自由なアゴホフディング型を開発する。 この新たな結果により、有限和問題に対する期待値の計算複雑性を最適に達成する最先端分散化アルゴリズムであるStochAstic Recursive grAdient algoritHm (SARAH) の修正版である提案アルゴリズムProb-SARAHにおいて、勾配ノルム推定器の高確率境界を提供する。 Prob-SARAHによる確率の複雑さは、対数的因子による最良の観測結果と一致する。 実証実験では、prob-sarahが実際のデータセット上で他の一般的なアルゴリズムよりも優れた確率的性能を示す。

This paper develops a new dimension-free Azuma-Hoeffding type bound on summation norm of a martingale difference sequence with random individual bounds. With this novel result, we provide high-probability bounds for the gradient norm estimator in the proposed algorithm Prob-SARAH, which is a modified version of the StochAstic Recursive grAdient algoritHm (SARAH), a state-of-art variance reduced algorithm that achieves optimal computational complexity in expectation for the finite sum problem. The in-probability complexity by Prob-SARAH matches the best in-expectation result up to logarithmic factors. Empirical experiments demonstrate the superior probabilistic performance of Prob-SARAH on real datasets compared to other popular algorithms.
翻訳日:2024-01-30 15:48:37 公開日:2024-01-29
# 階層型空間-テンポラルモデリングによる3次元ハンドオブジェクトインタラクションのための手中心運動の微細化

Hand-Centric Motion Refinement for 3D Hand-Object Interaction via Hierarchical Spatial-Temporal Modeling ( http://arxiv.org/abs/2401.15987v1 )

ライセンス: Link先を確認
Yuze Hao and Jianrong Zhang and Tao Zhuo and Fuan Wen and Hehe Fan(参考訳) 人々が世界と対話する主な媒体は手である。 バーチャルリアリティやロボティクスなどのアプリケーションでは、手と物体の対話のために適切な3dモーションを生成することが不可欠である。 グリップトラッキングやオブジェクト操作合成は粗い手の動きを生じさせるが、このような動きは必然的にうるさく、ジッタだらけである。 そこで本研究では,粗い動き改善のためのデータ駆動手法を提案する。 まず,手と物体間の動的空間的関係を記述するために手中心表現を設計する。 対象中心の表現と比較して、我々の手中心の表現は単純であり、オブジェクトベースの予測を手の動きに変換する曖昧な投影プロセスを必要としない。 第2に,手動物体相互作用の動的手がかりを捉えるために,空間構造と時間構造を階層的にモデル化するアーキテクチャを提案する。 広範囲にわたる実験により,本手法が従来の手法よりも有意な差を示した。

Hands are the main medium when people interact with the world. Generating proper 3D motion for hand-object interaction is vital for applications such as virtual reality and robotics. Although grasp tracking or object manipulation synthesis can produce coarse hand motion, this kind of motion is inevitably noisy and full of jitter. To address this problem, we propose a data-driven method for coarse motion refinement. First, we design a hand-centric representation to describe the dynamic spatial-temporal relation between hands and objects. Compared to the object-centric representation, our hand-centric representation is straightforward and does not require an ambiguous projection process that converts object-based prediction into hand motion. Second, to capture the dynamic clues of hand-object interaction, we propose a new architecture that models the spatial and temporal structure in a hierarchical manner. Extensive experiments demonstrate that our method outperforms previous methods by a noticeable margin.
翻訳日:2024-01-30 15:42:59 公開日:2024-01-29
# ストレッチド一般振幅減衰チャネルにおける記憶を伴う遺伝的絡み合い

Genuine entanglement under squeezed generalized amplitude damping channels with memory ( http://arxiv.org/abs/2401.15961v1 )

ライセンス: Link先を確認
Mazhar Ali(参考訳) 3ドルのキュービットの真正な絡み合いについて、散逸、絞め、デコヒーレンスなど、騒がしいプロセスを通して検討する。 一般解を求め,漸近量子状態の解析を行う。 これらの漸近状態のほとんどは、チャネルのパラメータ、メモリパラメータ、初期状態のパラメータによって真に絡み合っていることが判明した。 greenberger-horne-zeilinger (ghz) 状態とw状態を調査し、白色雑音と混合し、無限遠において真に絡み合う状態を決定する。 これらの混合物では、二分離状態(下記のような白色雑音の特定の混合物を含む)から始まり、真に絡み合った状態となることが分かる。 しかし、メモリパラメータ$\mu$は非常に高くなければならない。 2量子ビットの場合とは対照的に、$n \to \infty$ の3つの量子ビット漸近状態は真に絡み合っていない。

We study genuine entanglement among $3$-qubits undergoing through a noisy process including dissipation, squeezing and decoherence. We obtain a general solution and analyze the asymptotic quantum states. It turns out that most of these asymptotic states can be genuinely entangled depending upon parameters of channel, memory parameter, and parameters of initial states. We study Greenberger-Horne-Zeilinger (GHZ) states and W states, mixed with white noise and determine the conditions for them to be genuinely entangled at infinity. We find that for these mixtures, it is possible to start with bi-separable state (with specific mixture of white noise as described below) and end up with genuine entangled states. However, the memory parameter $\mu$ must be very high. We find that in contrast to two-qubit case, all three qubit asymptotic states for $n \to \infty$ are not genuinely entangled.
翻訳日:2024-01-30 15:42:43 公開日:2024-01-29
# 分離およびコードシャーディングによるスケーラブルなフェデレーション未学習

Scalable Federated Unlearning via Isolated and Coded Sharding ( http://arxiv.org/abs/2401.15957v1 )

ライセンス: Link先を確認
Yijing Lin, Zhipeng Gao, Hongyang Du, Dusit Niyato, Gui Gui, Shuguang Cui, Jinke Ren(参考訳) federated unlearningは、協調学習モデルのパフォーマンスに影響を与えることなく、クライアントレベルのデータ効果を消去する有望なパラダイムとして登場した。 しかしながら、連合学習プロセスは、しばしば広範なストレージオーバヘッドを導入し、かなりの計算リソースを消費するので、実際にはその実装を妨げる。 この問題に対処するために,分離シャーディングと符号化コンピューティングに基づくスケーラブルなフェデレーションアンラーニングフレームワークを提案する。 まず、分散クライアントを複数の分離されたシャードに分割し、影響を受けるクライアントの数を減らす。 次に、中央サーバのストレージオーバヘッドを削減するため、異なるシャードにまたがるモデルパラメータを圧縮して、符号化コンピューティング機構を開発する。 さらに, 分離および符号化されたシャーディングにおける時間効率と保存効率の理論的解析を行った。 最後に、分類と生成という2つの典型的な学習課題に関する広範な実験により、我々の提案するフレームワークは、精度、トレーニング時間、ストレージオーバーヘッド、F1スコアの3つの最先端フレームワークよりも優れたパフォーマンスを達成できることを示した。

Federated unlearning has emerged as a promising paradigm to erase the client-level data effect without affecting the performance of collaborative learning models. However, the federated unlearning process often introduces extensive storage overhead and consumes substantial computational resources, thus hindering its implementation in practice. To address this issue, this paper proposes a scalable federated unlearning framework based on isolated sharding and coded computing. We first divide distributed clients into multiple isolated shards across stages to reduce the number of clients being affected. Then, to reduce the storage overhead of the central server, we develop a coded computing mechanism by compressing the model parameters across different shards. In addition, we provide the theoretical analysis of time efficiency and storage effectiveness for the isolated and coded sharding. Finally, extensive experiments on two typical learning tasks, i.e., classification and generation, demonstrate that our proposed framework can achieve better performance than three state-of-the-art frameworks in terms of accuracy, retraining time, storage overhead, and F1 scores for resisting membership inference attacks.
翻訳日:2024-01-30 15:42:27 公開日:2024-01-29
# 教師なし領域適応のための高次モーメントマッチングを用いたクラスアウェア最適輸送手法

A Class-aware Optimal Transport Approach with Higher-Order Moment Matching for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2401.15952v1 )

ライセンス: Link先を確認
Tuan Nguyen, Van Nguyen, Trung Le, He Zhao, Quan Hung Tran, Dinh Phung(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 本稿では,ソースクラス条件分布上の分布と,ソースとターゲットデータ分布の混合とのOT距離を計測する,クラス対応最適輸送(OT)という新しい手法を提案する。 我々のクラス認識OTは、与えられたデータ例とソースのクラス条件分布とのマッチング範囲を決定するコスト関数を活用する。 このコスト関数を最適化することにより、ターゲットの例とソースのクラス条件分布の最適マッチングを見つけ、2つのドメイン間で発生するデータとラベルのシフトに効果的に対処する。 クラス認識OTを効率的に処理するために、ディープニューラルネットワークを用いて輸送確率とコスト関数を定式化するアモータイズソリューションを提案する。 さらに,クラス対応高次モーメントマッチング(HMM)を最小化して,ソースおよびターゲットドメイン上の対応するクラス領域を整列する手法を提案する。 クラス認識型HMMコンポーネントは、2つの分布間のHMM距離を正確に評価するための経済計算手法を提供する。 ベンチマークデータセットに関する広範囲な実験により,提案手法が既存の最先端ベースラインを大きく上回ることを示した。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. In this paper, we introduce a novel approach called class-aware optimal transport (OT), which measures the OT distance between a distribution over the source class-conditional distributions and a mixture of source and target data distribution. Our class-aware OT leverages a cost function that determines the matching extent between a given data example and a source class-conditional distribution. By optimizing this cost function, we find the optimal matching between target examples and source class-conditional distributions, effectively addressing the data and label shifts that occur between the two domains. To handle the class-aware OT efficiently, we propose an amortization solution that employs deep neural networks to formulate the transportation probabilities and the cost function. Additionally, we propose minimizing class-aware Higher-order Moment Matching (HMM) to align the corresponding class regions on the source and target domains. The class-aware HMM component offers an economical computational approach for accurately evaluating the HMM distance between the two distributions. Extensive experiments on benchmark datasets demonstrate that our proposed method significantly outperforms existing state-of-the-art baselines.
翻訳日:2024-01-30 15:42:06 公開日:2024-01-29
# 量子強mpemba効果の観測

Observation of quantum strong Mpemba effect ( http://arxiv.org/abs/2401.15951v1 )

ライセンス: Link先を確認
Jie Zhang (1,2 and 3), Gang Xia (1), Chun-Wang Wu (1,2 and 3), Ting Chen (1,2 and 3), Qian Zhang (4), Yi Xie (1,2 and 3), Wen-Bo Su (1), Wei Wu (1,2 and 3), Cheng-Wei Qiu (5), Ping-xing Chen (1,2 and 3), Weibin Li (6), Hui Jing (4) and Yan-Li Zhou (1,2 and 3) ((1) Institute for Quantum Science and Technology, College of Science, NUDT, Changsha, China,(2) Hunan Key Laboratory of Mechanism and technology of Quantum Information, Changsha, China,(3) Hefei National Laboratory, Hefei, Anhui, China,(4) Key Laboratory of Low-Dimensional Quantum Structures and Quantum Control of Ministry of Education, Department of Physics and Synergetic Innovation Center for Quantum Effects and Applications, Hunan Normal University, Changsha, China,(5) Department of Electrical and Computer Engineering, National University of Singapore, Singapore, Singapore,(6) School of Physics and Astronomy, and Centre for the Mathematics and Theoretical Physics of Quantum Non-equilibrium Systems, University of Nottingham, Nottingham, United Kingdom)(参考訳) mpemba効果(水を最初に加熱するとより早く冷やすことができる)として知られる古代で直観的な現象は、緩和過程における初期条件の重要な役割を示している。 緩和のスピードアップのためにこの効果をどうやって実現し活用するかは、これまで純粋に量子システムにおいて重要な課題であった。 ここでは、我々が知る限り、最も遅い崩壊モードの励起を伴わない最適初期状態を作成することにより、時間内に指数的に急激な緩和が観測される単一イオン系において、強いMpemba効果について、最初の実験を報告する。 また、そのような効果を実現する条件は、系の固有値と固有モデムの両方の合体を特徴とする、リウヴィリアの例外点と一致する。 本研究は、量子系の定常状態への緩和を指数関数的に加速する効率的な戦略を提供し、mpemba効果と非エルミート物理学の間の関係を示唆する。 量子シミュレーションや量子情報処理への応用のために、異常なMpemba効果を利用することで、幅広い散逸性量子システムを設計する扉を開くことができる。

An ancient and counterintuitive phenomenon know as the Mpemba effect (water can cool faster when initially heated up) showcases the critical role of initial conditions in relaxation processes. How to realize and utilize this effect for speeding up relaxation is an important but challenging task in purely quantum system till now. Here, we report the first experiment, as far as we know,about the strong Mpemba effect in a single trapped ion system in which an exponentially expedited relaxation in time is observed by preparing an optimal initial state with no excitation of the slowest decaying mode. Also, we find that the condition of realizing such effect coincides with the Liouvillian exceptional point, featuring the coalescence of both the eigenvalues and the eigenmodes of the system. Our work provides an efficient strategy to exponentially accelerate relaxations of quantum system to their stationary state, and suggests a link unexplored yet between the Mpemba effect and the non-Hermitian physics. It could open up the door to engineer a wide range of dissipative quantum systems by utilizing the anomalous Mpemba effect, for applications in quantum simulation and quantum information processing.
翻訳日:2024-01-30 15:41:45 公開日:2024-01-29
# TFDMNet: 時間領域と周波数領域の機能を組み合わせた新しいネットワーク構造

TFDMNet: A Novel Network Structure Combines the Time Domain and Frequency Domain Features ( http://arxiv.org/abs/2401.15949v1 )

ライセンス: Link先を確認
Hengyue Pan, Yixin Chen, Zhiliang Tian, Peng Qiao, Linbo Qiao, Dongsheng Li(参考訳) 畳み込みニューラルネットワーク(cnn)は、過去数十年間、コンピュータビジョンで素晴らしい成功を収めてきた。 画像畳み込み操作は、CNNが画像関連タスクで優れたパフォーマンスを得るのに役立つ。 しかし、計算の複雑さも高く、並列化が難しい。 本稿では,周波数領域で学習可能な畳み込み層を置き換えるための新しい要素分割乗算層(eml)を提案する。 理論的解析により、EMLは計算複雑性を低くし、並列化が容易であることが示された。 さらに,周波数領域におけるバッチ正規化とドロップアウトの作業挙動を解析し,過度に適合する問題を緩和するための重み付け機構を導入する。 計算複雑性とメモリ使用量のバランスをとるために,畳み込み層とemlの両方の利点を組み合わせた新しいネットワーク構造,すなわち時間周波数領域混合ネットワーク(tfdmnet)を提案する。 実験結果から, TFDMNetはMNIST, CIFAR-10, ImageNetデータベース上で, 対応するCNNと比較して少ない演算数で良好な性能を示すことが示された。

Convolutional neural network (CNN) has achieved impressive success in computer vision during the past few decades. The image convolution operation helps CNNs to get good performance on image-related tasks. However, it also has high computation complexity and hard to be parallelized. This paper proposes a novel Element-wise Multiplication Layer (EML) to replace convolution layers, which can be trained in the frequency domain. Theoretical analyses show that EMLs lower the computation complexity and easier to be parallelized. Moreover, we introduce a Weight Fixation mechanism to alleviate the problem of over-fitting, and analyze the working behavior of Batch Normalization and Dropout in the frequency domain. To get the balance between the computation complexity and memory usage, we propose a new network structure, namely Time-Frequency Domain Mixture Network (TFDMNet), which combines the advantages of both convolution layers and EMLs. Experimental results imply that TFDMNet achieves good performance on MNIST, CIFAR-10 and ImageNet databases with less number of operations comparing with corresponding CNNs.
翻訳日:2024-01-30 15:41:23 公開日:2024-01-29
# AdvNF: 逆学習を用いた条件付き正規化流れにおけるモード崩壊の低減

AdvNF: Reducing Mode Collapse in Conditional Normalising Flows using Adversarial Learning ( http://arxiv.org/abs/2401.15948v1 )

ライセンス: Link先を確認
Vikas Kanaujia and Mathias S. Scheurer and Vipul Arora(参考訳) 深部生成モデルは、高次元分布から効率的にサンプリングするためにマルコフ鎖・モンテカルロ法を補完する。 これらの手法のうち、正規化フロー(nfs)のような明示的な生成器とメトロポリス・ヘイスティングスアルゴリズムの組み合わせは、ターゲット分布から偏りのないサンプルを得るために広く適用されている。 本研究では,高分散,モード崩壊,データ効率などの条件付きNFにおける中心的問題を系統的に研究する。 我々はこれらの問題を改善するため,NFの対角訓練を提案する。 低次元の合成データセットと2次元のXYスピンモデルを用いて実験を行った。

Deep generative models complement Markov-chain-Monte-Carlo methods for efficiently sampling from high-dimensional distributions. Among these methods, explicit generators, such as Normalising Flows (NFs), in combination with the Metropolis Hastings algorithm have been extensively applied to get unbiased samples from target distributions. We systematically study central problems in conditional NFs, such as high variance, mode collapse and data efficiency. We propose adversarial training for NFs to ameliorate these problems. Experiments are conducted with low-dimensional synthetic datasets and XY spin models in two spatial dimensions.
翻訳日:2024-01-30 15:41:09 公開日:2024-01-29
# MoE-LLaVA:大型ビジョンランゲージモデルの専門家の混在

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models ( http://arxiv.org/abs/2401.15947v1 )

ライセンス: Link先を確認
Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Junwu Zhang, Munan Ning, Li Yuan(参考訳) 大きなビジョン言語モデル(lvlms)では、モデルをスケールすることで、パフォーマンスが効果的に向上します。 しかしながら、モデルパラメータの拡張は、計算の各トークンに対してすべてのモデルパラメータがアクティベートされるため、トレーニングと推論コストを大幅に増加させる。 本研究では,LVLMのための新しいトレーニング戦略であるMoE-tuningを提案する。これは,パラメータが無数のスパースモデルを構築することができるが,計算コストは一定であり,マルチモーダル学習やモデル空間に典型的な性能劣化に効果的に対処できる。 さらに、MoEベースのスパースLVLMアーキテクチャであるMoE-LLaVAフレームワークを提案する。 このフレームワークは、デプロイ中にルータを通じてトップkの専門家のみをアクティベートする。 広汎な実験では、視覚理解におけるMoE-LLaVAの優れた機能と、モデル出力における幻覚の低減の可能性を強調した。 注目すべきは、わずか30億の活性パラメータで、MoE-LLaVAは様々な視覚的理解データセット上でのLLaVA-1.5-7Bに匹敵するパフォーマンスを示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを超えていることだ。 MoE-LLaVAを通じて、スパースLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発において、今後の研究に有用な洞察を提供する。 コードは \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} で公開されている。

For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
翻訳日:2024-01-30 15:41:00 公開日:2024-01-29
# 領域ギャップの橋渡し : リモートセンシングにおける参照ベース画像超解像のための簡易領域マッチング法

Bridging the Domain Gap: A Simple Domain Matching Method for Reference-based Image Super-Resolution in Remote Sensing ( http://arxiv.org/abs/2401.15944v1 )

ライセンス: Link先を確認
Jeongho Min, Yejun Lee, Dongyoung Kim, Jaejun Yoo(参考訳) 近年、参照ベース画像超解像(RefSR)は、画像超解像(SR)タスクにおいて優れた性能を示している。 RefSRの主な考え方は、参照(Ref)画像からの付加情報を利用して、低分解能(LR)画像の高周波成分を復元することである。 特徴マッチングを通じて関連するテクスチャを転送することで、RefSRモデルは既存の単一画像超解像(SISR)モデルより優れている。 しかし、Ref画像とLR画像の間にドメインギャップが存在し、衛星画像のような現実のシナリオでしばしば発生する場合、その性能は著しく低下する。 本稿では、既存のRefSRモデルとシームレスに統合して、プラグイン・アンド・プレイ方式でパフォーマンスを向上させることができるDomain Matching (DM)モジュールを提案する。 我々の知る限り、我々はリモートセンシング画像処理におけるドメインマッチングベースのRefSRを初めて探求している。 我々の分析によると、これらの領域のギャップは異なる衛星でしばしば発生し、既存のモデルでは困難であるのに対して、我々のモデルはこれらの課題に効果的に対処している。 提案するdmモジュールは,リモートセンシングによる超解像タスクにおいて,srの性能を定性的かつ定量的に改善することを示す。

Recently, reference-based image super-resolution (RefSR) has shown excellent performance in image super-resolution (SR) tasks. The main idea of RefSR is to utilize additional information from the reference (Ref) image to recover the high-frequency components in low-resolution (LR) images. By transferring relevant textures through feature matching, RefSR models outperform existing single image super-resolution (SISR) models. However, their performance significantly declines when a domain gap between Ref and LR images exists, which often occurs in real-world scenarios, such as satellite imaging. In this letter, we introduce a Domain Matching (DM) module that can be seamlessly integrated with existing RefSR models to enhance their performance in a plug-and-play manner. To the best of our knowledge, we are the first to explore Domain Matching-based RefSR in remote sensing image processing. Our analysis reveals that their domain gaps often occur in different satellites, and our model effectively addresses these challenges, whereas existing models struggle. Our experiments demonstrate that the proposed DM module improves SR performance both qualitatively and quantitatively for remote sensing super-resolution tasks.
翻訳日:2024-01-30 15:40:32 公開日:2024-01-29
# 条件付きガウス分布によるマルチセンター分類器の生成

Generating Multi-Center Classifier via Conditional Gaussian Distribution ( http://arxiv.org/abs/2401.15942v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 線形分類器は様々な画像分類タスクで広く使われている。 サンプルと対応するクラス中心の間の距離を最適化することで機能する。 しかし、実世界のデータでは、1つのクラスは複数の局所的なクラスタを含むことができる。 この複雑さに対処するため、我々は新しいマルチセンター分類器を提案する。 バニラ線形分類器と異なり、トレーニングセットの深い特徴がガウス混合分布に従うという仮定に基づいて提案手法を確立する。 具体的には,各クラスに対して条件付きガウス分布を作成し,その分布から複数の部分中心をサンプリングして線形分類器を拡張する。 このアプローチにより、クラス内の局所構造をより効率的に捉えることができる。 さらに,テスト時に条件付きガウス分布の平均を線形分類器のクラス中心とし,バニラ線形分類器の出力に従うことにより,追加パラメータや計算オーバーヘッドを必要としない。 画像分類に関する広範囲な実験により,提案手法は広く用いられている線形分類器の強力な代替手段であることが示された。 コードはhttps://github.com/zheminzhang1/multicenter-classifier。

The linear classifier is widely used in various image classification tasks. It works by optimizing the distance between a sample and its corresponding class center. However, in real-world data, one class can contain several local clusters, e.g., birds of different poses. To address this complexity, we propose a novel multi-center classifier. Different from the vanilla linear classifier, our proposal is established on the assumption that the deep features of the training set follow a Gaussian Mixture distribution. Specifically, we create a conditional Gaussian distribution for each class and then sample multiple sub-centers from that distribution to extend the linear classifier. This approach allows the model to capture intra-class local structures more efficiently. In addition, at test time we set the mean of the conditional Gaussian distribution as the class center of the linear classifier and follow the vanilla linear classifier outputs, thus requiring no additional parameters or computational overhead. Extensive experiments on image classification show that the proposed multi-center classifier is a powerful alternative to widely used linear classifiers. Code available at https://github.com/ZheminZhang1/MultiCenter-Classifier.
翻訳日:2024-01-30 15:40:10 公開日:2024-01-29
# 大規模言語モデルを用いた知識認識コード生成

Knowledge-Aware Code Generation with Large Language Models ( http://arxiv.org/abs/2401.15940v1 )

ライセンス: Link先を確認
Tao Huang, Zhihong Sun, Zhi Jin, Ge Li, Chen Lyu(参考訳) 大規模言語モデル(llm)は、基本的なプログラミング問題でうまく機能する。 しかし、多種多様なアルゴリズムとデータ構造スキル、特に競合レベルの問題を使用する複雑なタスクを扱う際には、問題が発生する。 特にChatGPTは、トレーニング前の段階で遭遇した問題に対して熟練した性能を示すが、この性能は、新しい問題に直面したときに低下する。 その結果,不慣れな問題に対するllmの能力向上が重要な研究課題となっている。 LLMの問題解決プロセスは、人間のプログラマのアプローチをある程度反映している。 新しいプログラミングタスクに直面すると、人間のプログラマは、以前取得したアルゴリズムやデータ構造に関する知識とタスク計画とコード記述に従事します。 このような知識を習得したにもかかわらず、LSMは特定の新しい問題に直面したときに効果的にそれを適用するのに苦労している。 この問題に対処するため、我々はChatGPTがこれまで遭遇していなかったプログラミング問題の一部を含む新しいデータセット、CodeFを構築した。 さらに,Pythonプログラミングコンテスト問題に適した知識ライブラリを開発し,Knowledge-Aware Code Generation(KareCoder)の概念を導入した。 KareCoderは、ライブラリからのプロンプトと知識をLLMのコード生成推論プロセス、特にPass@1メトリクスに統合することで、モデルの理解と問題解決能力を強化する。 CodeF と APPS のデータセットをテストすると、KareCoder は LLM によって説明されていない新しい問題に対処する際、優れた性能を示した。 ChatGPTが直接生成したコードとは対照的に、KareCoderはCodeF post2021-9データセットのPass@1メトリックで23.3%の相対的な改善を達成した。 加えて、LLMがこれまで遭遇した問題に対処する場合、他の手法と比較してよく機能する。

Large Language Models (LLMs) perform well on basic programming problems. However, they encounter challenges when dealing with complex tasks involving the use of diverse algorithmic and data structure skills, particularly programming competition-level problems. Notably, ChatGPT exhibits proficient performance on problems it has encountered during its pre-training phase, but this performance deteriorates when faced with novel problems. Consequently, enhancing the ability of LLMs to address unfamiliar problems has emerged as a pivotal research focus. The problem-solving process of LLMs mirrors human programmers' approach to a certain extent. When confronted with new programming tasks, human programmers engage in task planning and code writing with the previously acquired knowledge about algorithms and data structures. Despite having learned such knowledge, LLMs struggle to effectively apply it when faced with specific new problems. To address this issue, we constructed a novel dataset, CodeF, which contains a portion of programming problems that ChatGPT has not previously encountered. Furthermore, we developed a Knowledge Library tailored for Python programming contest problems and introduced the concept of Knowledge-Aware Code Generation (KareCoder). KareCoder bolsters the models' understanding and problem-solving capabilities by integrating prompt and knowledge from the library into the LLMs' code generation reasoning process, especially on Pass@1 metrics. Upon testing on the CodeF and APPS datasets, KareCoder demonstrated outstanding performance in handling novel problems previously unencountered by LLMs. In contrast with the code directly generated by ChatGPT, KareCoder achieved a relative improvement of 23.3% on the Pass@1 metric on the CodeF post2021-9 dataset. Additionally, it performs well compared to other methods when dealing with problems that LLMs have previously encountered.
翻訳日:2024-01-30 15:39:42 公開日:2024-01-29
# 高速ダイナミックディジタルフリンジ投影システムの動作誘起誤差低減

Motion-induced error reduction for high-speed dynamic digital fringe projection system ( http://arxiv.org/abs/2401.15938v1 )

ライセンス: Link先を確認
Sanghoon Jeon, Hyo-Geon Lee, Jae-Sung Lee, Bo-Min Kang, Byung-Wook Jeon, Jun Young Yoon, Jae-Sang Hyun(参考訳) 位相シフトプロファイロメトリー(PSP)では、フランジパターンの取得時の動きは、物体と測定系の両方が静止していると仮定してエラーを起こす可能性がある。 そこで本研究では, モータ化線形ステージによる計測システム動作時の誤差を画素単位で低減する手法を提案する。 提案手法では,カメラとプロジェクタのモータエンコーダとピンホールモデルを利用した動作誘起誤差低減アルゴリズムを導入する。 ディジタルフリンジ投影システムの幾何学的制約を適用することで、3つのフリンジパターンのみを用いて3次元形状計測が可能となる。 モーション誘起カメラの画素差によるミスマッチ問題に対処し,位相シフト誤差を低減した。 これらのプロセスの実装が容易で、計算コストが低い。 実験の結果, 提案手法は一様でない動作でも誤差を効果的に低減できることがわかった。

In phase-shifting profilometry (PSP), any motion during the acquisition of fringe patterns can introduce errors because it assumes both the object and measurement system are stationary. Therefore, we propose a method to pixel-wise reduce the errors when the measurement system is in motion due to a motorized linear stage. The proposed method introduces motion-induced error reduction algorithm, which leverages the motor's encoder and pinhole model of the camera and projector. 3D shape measurement is possible with only three fringe patterns by applying geometric constraints of the digital fringe projection system. We address the mismatch problem due to the motion-induced camera pixel disparities and reduce phase-shift errors. These processes are easy to implement and require low computational cost. Experimental results demonstrate that the presented method effectively reduces the errors even in non-uniform motion.
翻訳日:2024-01-30 15:38:56 公開日:2024-01-29
# イベント系列における自己監督型学習:生成モデルとコントラスト学習の比較研究とハイブリッドアプローチ

Self-Supervised Learning in Event Sequences: A Comparative Study and Hybrid Approach of Generative Modeling and Contrastive Learning ( http://arxiv.org/abs/2401.15935v1 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Dmitry Osin, Egor Shvetsov, Igor Udovichenko, Maxim Zhelnin, Andrey Dukhovny, Anna Zhimerikina, Albert Efimov, Evgeny Burnaev(参考訳) 本研究では,イベントシーケンスの表現を得るために,自己教師付き学習手法を検討する。 これは様々なアプリケーションにおいて重要なモダリティであり、銀行、電子商取引、医療に限らない。 自己教師付き学習における生成的および対比的アプローチの包括的研究を行い,両者を独立に適用した。 最高の方法が一つもないことが分かる。 その結果、これらのアプローチを組み合わせることの潜在的な利点を探求する。 この目的を達成するために、現代マルチモーダル研究からインスピレーションを得て、生成的および対照的な埋め込みを異なるモダリティとして整列させる新しい手法を提案する。 生成的かつ対照的なアプローチは、しばしば相互排他的として扱われ、それらの組み合わせによる探索のギャップを残している。 我々の結果は、この整列モデルは、少なくとも既存のメソッドに匹敵し、様々なタスクでより普遍的であることを示す。 さらに,自己教師付き手法がデータセットの教師付き手法より一貫して優れていることを示す。

This study investigates self-supervised learning techniques to obtain representations of Event Sequences. It is a key modality in various applications, including but not limited to banking, e-commerce, and healthcare. We perform a comprehensive study of generative and contrastive approaches in self-supervised learning, applying them both independently. We find that there is no single supreme method. Consequently, we explore the potential benefits of combining these approaches. To achieve this goal, we introduce a novel method that aligns generative and contrastive embeddings as distinct modalities, drawing inspiration from contemporary multimodal research. Generative and contrastive approaches are often treated as mutually exclusive, leaving a gap for their combined exploration. Our results demonstrate that this aligned model performs at least on par with, and mostly surpasses, existing methods and is more universal across a variety of tasks. Furthermore, we demonstrate that self-supervised methods consistently outperform the supervised approach on our datasets.
翻訳日:2024-01-30 15:38:29 公開日:2024-01-29
# HICH-IT : 高血圧性脳内出血研究のための総合的テキストと画像データセット

HICH Image/Text (HICH-IT): Comprehensive Text and Image Datasets for Hypertensive Intracerebral Hemorrhage Research ( http://arxiv.org/abs/2401.15934v1 )

ライセンス: Link先を確認
Jie Li and Yulong Xia and Tongxin Yang and Fenglin Cai and Miao Wei and Zhiwei Zhang and Li Jiang(参考訳) 本稿では,hich-itと呼ばれる高血圧性脳出血(hich)の医学領域において,テキスト情報と頭部ct画像の両方を含む新しいマルチモーダルデータセットを提案する。 このデータセットは、hichの診断と治療における人工知能の精度を高めるように設計されている。 このデータセットは、標準のテキストと画像データの基礎の上に構築され、テキストデータに特定のアノテーションを組み込んで、テキスト情報からキーコンテンツを取り出し、画像データのアノテーション内容は、脳中線、血腫、左脳室、右脳室の4種類に分類される。 HICH-ITは、画像セグメンテーションタスクと名前付きエンティティ認識における特徴学習のための基礎的データセットである。 データセットをさらに理解するために、私たちは、パフォーマンスを観察するためにディープラーニングアルゴリズムを訓練しました。 事前訓練されたモデルはwww.daip.clubとgithub.com/Deep-AI-Application-DAIPの両方でリリースされた。 データセットはhttps://github.com/CYBUS123456/HICH-IT-Datasetsにアップロードされている。 Index Terms-HICH, Deep Learning, intraparenchymal hemorrhage, named entity recognition, novel dataset

In this paper, we introduce a new multimodal dataset in the medical field of hypertensive intracerebral hemorrhage(HICH), called as HICH-IT, which includes both textual information and head CT images. This dataset is designed to enhance the accuracy of artificial intelligence in the diagnosis and treatment of HICH. This dataset, built upon the foundation of standard text and image data, incorporates specific annotations within the text data, extracting key content from the text information, and categorizes the annotation content of imaging data into four types: brain midline, hematoma, left cerebral ventricle, and right cerebral ventricle. HICH-IT aims to be a foundational dataset for feature learning in image segmentation tasks and named entity recognition. To further understand the dataset, we have trained deep learning algorithms to observe the performance. The pretrained models have been released at both www.daip.club and github.com/Deep-AI-Application-DAIP. The dataset has been uploaded to https://github.com/CYBUS123456/HICH-IT-Datasets. Index Terms-HICH, Deep learning, Intraparenchymal hemorrhage, named entity recognition, novel dataset
翻訳日:2024-01-30 15:37:29 公開日:2024-01-29
# EmoDM:進化的多目的最適化のための拡散モデル

EmoDM: A Diffusion Model for Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2401.15931v1 )

ライセンス: Link先を確認
Xueming Yan and Yaochu Jin(参考訳) 進化的アルゴリズムは多目的最適化問題(MOP)の解決に成功している。 しかし、人口ベースの探索手法のクラスとして、進化的アルゴリズムは目的関数の多くの評価を必要とするため、広範囲の高価なMOPに適用できない。 上記の課題に取り組むため、本研究ではemodmと呼ばれる進化的多目的探索を学べる拡散モデルが初めて提案する。 これは進化探索の逆収束過程を前方拡散として扱い、以前に解いた進化最適化タスクから雑音分布を学習することで達成される。 事前学習したEmoDMは、その逆拡散により新しいMOPの非支配的解の集合を、さらなる進化的探索なしに生成し、必要な関数評価を著しく低減することができる。 EmoDMのスケーラビリティを高めるために、目的に対して最も重要な決定変数をキャプチャするために、相互エントロピーに基づくアテンション機構を導入する。 実験の結果,最大5000の決定変数を持つモップの解法において,探索性能と計算効率の両方においてemodmの競合性が実証された。 事前学習したEmoDMは、目に見えない問題に対してうまく一般化し、汎用的で効率的なMOP解法としての可能性を明らかにする。

Evolutionary algorithms have been successful in solving multi-objective optimization problems (MOPs). However, as a class of population-based search methodology, evolutionary algorithms require a large number of evaluations of the objective functions, preventing them from being applied to a wide range of expensive MOPs. To tackle the above challenge, this work proposes for the first time a diffusion model that can learn to perform evolutionary multi-objective search, called EmoDM. This is achieved by treating the reversed convergence process of evolutionary search as the forward diffusion and learn the noise distributions from previously solved evolutionary optimization tasks. The pre-trained EmoDM can then generate a set of non-dominated solutions for a new MOP by means of its reverse diffusion without further evolutionary search, thereby significantly reducing the required function evaluations. To enhance the scalability of EmoDM, a mutual entropy-based attention mechanism is introduced to capture the decision variables that are most important for the objectives. Experimental results demonstrate the competitiveness of EmoDM in terms of both the search performance and computational efficiency compared with state-of-the-art evolutionary algorithms in solving MOPs having up to 5000 decision variables. The pre-trained EmoDM is shown to generalize well to unseen problems, revealing its strong potential as a general and efficient MOP solver.
翻訳日:2024-01-30 15:36:53 公開日:2024-01-29
# SpectroGLY: 水中のグリホサート残基検出のための低コストIoTベースの生態系

SpectroGLY: A Low-Cost IoT-Based Ecosystem for the Detection of Glyphosate Residues in Waters ( http://arxiv.org/abs/2401.16009v1 )

ライセンス: Link先を確認
Javier Aira, Teresa Olivares, Francisco M. Delicado(参考訳) 水中でのグリホサート汚染は、水に溶けやすい除草剤が水生生態系に影響を及ぼすため、緊急に対処する必要がある主要な健康問題になりつつある。 研究者たちは、グリホサートへの曝露と、それが人間の健康に影響を及ぼすリスクをますます懸念している。 水中のグリホサート残基の検出は、複雑で高価な設備と有資格者を必要とするため、簡単な作業ではない。 新たな技術ツールは、実証済みだが、コスト効率が高く、アジャイルで、ユーザフレンドリな分析技術に基づいて設計され、開発される必要がある。 本稿では,iot(internet of things, iot)技術に基づく,革新的な低コストのvis-nir(visible and near-infrared)分光計(spectrogly)の設計,開発,試験を行い,水中のglyphosate汚染を検出する。 spectroglyは、従来のラボスペクトロメーターの機能コンセプトとiot技術コンセプトを組み合わせることで、農村や都市、デジタル視覚化とモニタリングプラットフォーム(モバイルアプリとダッシュボードweb)にいくつかの接続オプションを統合することができる。 可搬性のおかげで、任意のコンテキストで使用でき、10分で結果が得られる。 また、試料を実験室に移すことは不要である(当局による修正作業の時間、費用および能力の最適化)。 本稿では,この除草剤によって汚染された水の摂取による潜在的中毒を回避するために,革新的な,低コストで,アジャイルで,高い期待のソリューションを提案する。

Glyphosate contamination in waters is becoming a major health problem that needs to be urgently addressed, as accidental spraying, drift or leakage of this highly water-soluble herbicide can impact aquatic ecosystems. Researchers are increasingly concerned about exposure to glyphosate and the risks its poses to human health, since it may cause substantial damage, even in small doses. The detection of glyphosate residues in waters is not a simple task, as it requires complex and expensive equipment and qualified personnel. New technological tools need to be designed and developed, based on proven, but also cost-efficient, agile and user-friendly, analytical techniques, which can be used in the field and in the lab, enabled by connectivity and multi-platform software applications. This paper presents the design, development and testing of an innovative low-cost VIS-NIR (Visible and Near-Infrared) spectrometer (called SpectroGLY), based on IoT (Internet of Things) technologies, which allows potential glyphosate contamination in waters to be detected. SpectroGLY combines the functional concept of a traditional lab spectrometer with the IoT technological concept, enabling the integration of several connectivity options for rural and urban settings and digital visualization and monitoring platforms (Mobile App and Dashboard Web). Thanks to its portability, it can be used in any context and provides results in 10 minutes. Additionally, it is unnecessary to transfer the sample to a laboratory (optimizing time, costs and the capacity for corrective actions by the authorities). In short, this paper proposes an innovative, low-cost, agile and highly promising solution to avoid potential intoxications that may occur due to ingestion of water contaminated by this herbicide.
翻訳日:2024-01-30 15:30:00 公開日:2024-01-29
# ツリーテンソルネットワークの構造最適化による絡み合い幾何学の可視化

Visualization of Entanglement Geometry by Structural Optimization of Tree Tensor Network ( http://arxiv.org/abs/2401.16000v1 )

ライセンス: Link先を確認
Toshiya Hikihara, Hiroshi Ueda, Kouichi Okunishi, Kenji Harada, Tomotoshi Nishino(参考訳) 量子多体系のテンソルネットワーク解析においては、関心状態を表現するのに適した空間構造を持つテンソルネットワークを採用することが重要である。 これまでの研究(比企原ら、Phys. Rev. Research 5, 013031 (2023))において、木テンソルネットワークの構造最適化アルゴリズムを提案した。 本稿では,様々な距離で分離されたスピン間の一重項対の積状態が近似基底状態であるレインボーチェーンモデルに適用する。 次に,このアルゴリズムが基底状態におけるスピン・シングレット対の空間パターンを可視化できることを実証した。

In tensor-network analysis of quantum many-body systems, it is of crucial importance to employ a tensor network with a spatial structure suitable for representing the state of interest. In the previous work [Hikihara et al., Phys. Rev. Research 5, 013031 (2023)], we proposed a structural optimization algorithm for tree-tensor networks. In this paper, we apply the algorithm to the Rainbow-chain model, which has a product state of singlet pairs between spins separated by various distances as an approximate ground state. We then demonstrate that the algorithm can successfully visualize the spatial pattern of spin-singlet pairs in the ground state.
翻訳日:2024-01-30 15:29:27 公開日:2024-01-29
# accesslens: 日常オブジェクトのアクセス不能を自動的に検出する

AccessLens: Auto-detecting Inaccessibility of Everyday Objects ( http://arxiv.org/abs/2401.15996v1 )

ライセンス: Link先を確認
Nahyun Kwon, Qian Lu, Muhammad Hasham Qazi, Joanne Liu, Changhoon Oh, Shu Kong, Jeeeun Kim(参考訳) ますます多様な社会では、日常的な物理的インターフェースが障壁をしばしば提示し、様々な状況の個人に影響を与えます。 この見落としは、小さなキャビネットのノブから、異なる状況に挑戦できる同じ壁のスイッチまで、ソリューションの必要性を強調するものだ。 ノブ拡大器や触覚ラベルなどの低コストな3dプリントによる拡張を活用することは有望だが、障害がコンテキスト依存であるため、認識できない障壁を発見するプロセスは依然として困難である。 我々は,アクセシビリティ向上のために3dプリント可能な拡張化を推奨し,日常オブジェクトのアクセス不能なインターフェースを識別するエンドツーエンドシステムであるaccesslensを紹介する。 このアプローチでは、6つの共通オブジェクトカテゴリ(ハンドルやノブなど)で21の異なる到達不能クラス(バーサイズやラウンドローテーションなど)を自動的に認識するように設計された新しいAccessDBデータセットを使用して、検出器をトレーニングする。 AccessMetaは、これらのアクセシビリティクラスをオープンソースの3D拡張設計にリンクする包括的な辞書を構築するための堅牢な方法である。 実験では、到達不能物体の検出における検出器の性能を実証した。

In our increasingly diverse society, everyday physical interfaces often present barriers, impacting individuals across various contexts. This oversight, from small cabinet knobs to identical wall switches that can pose different contextual challenges, highlights an imperative need for solutions. Leveraging low-cost 3D-printed augmentations such as knob magnifiers and tactile labels seems promising, yet the process of discovering unrecognized barriers remains challenging because disability is context-dependent. We introduce AccessLens, an end-to-end system designed to identify inaccessible interfaces in daily objects, and recommend 3D-printable augmentations for accessibility enhancement. Our approach involves training a detector using the novel AccessDB dataset designed to automatically recognize 21 distinct Inaccessibility Classes (e.g., bar-small and round-rotate) within 6 common object categories (e.g., handle and knob). AccessMeta serves as a robust way to build a comprehensive dictionary linking these accessibility classes to open-source 3D augmentation designs. Experiments demonstrate our detector's performance in detecting inaccessible objects.
翻訳日:2024-01-30 15:29:13 公開日:2024-01-29
# 絡み合いポテンシャルの階層は固有の量子状態非古典性を明らかにする

Hierarchies of entanglement potentials reveal intrinsic quantum state nonclassicality ( http://arxiv.org/abs/2401.15995v1 )

ライセンス: Link先を確認
Josef Kadlec, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Karel Lemr, and Adam Miranowicz(参考訳) 絡み合いポテンシャルは量子状態非古典性のキャラクタリゼーションのための有望な方法である。 それらはいくつかの興味深い利点を持っているが、テストされた状態と適切な古典状態との密接な相互作用に依存している。 実際の実験における相互作用における不完全性の影響をある程度は避けられない程度に分析する。 さらに,複数の絡み合いポテンシャルの階層性について検討し,これらの不完全性を検知し,本質的非古典性を誤認することを防止した。 このアイデアは、線形光学のプラットフォームにおける原理実証実験で実証されている。

Entanglement potentials are a promising method for the characterization of quantum state nonclassicality. Although they possess several interesting benefits, they critically rely on a well-tailored interaction between the tested state and a suitable classical state. We analyze the effect of imperfections in the interaction that are in real experiments to some extent always unavoidable. Furthermore, we study hierarchies of several entanglement potentials allowing us to detect these imperfections and, thus, preventing from misjudging the true intrinsic nonclassicality of the investigated states. The proposed idea is demonstrated in a proof-of-principle experiment on the platform of linear optics.
翻訳日:2024-01-30 15:28:51 公開日:2024-01-29
# 二重エンコーダによるグランドセグメンテーションと境界強調

Gland segmentation via dual encoders and boundary-enhanced attention ( http://arxiv.org/abs/2401.15990v1 )

ライセンス: Link先を確認
Huadeng Wang, Jiejiang Yu, Bingbing Li, Xipeng Pan, Zhenbing Liu, Rushi Lan, Xiaonan Luo(参考訳) 病理画像上の正確な自動腺分画は、大腸腺癌の悪性度を診断するのに役立つ。 しかし, 各種の腺形状, 悪性腺の高度な変形, 腺間の接着の重なりが原因であった。 Glandのセグメンテーションは、いつも難しい。 これらの問題に対処するため、我々はDEAモデルを提案する。 このモデルは、バックボーンエンコーディングとデコードネットワークとローカルセマンティック抽出ネットワークの2つのブランチで構成されている。 バックボーン符号化およびデコードネットワークは,高度なセマンティック特徴を抽出し,提案する特徴デコーダを用いて特徴空間情報を復元し,境界強調による腺の境界特徴を増強する。 ローカルセマンティック抽出ネットワークは、事前訓練されたDeepLabv3+をローカルセマンティック誘導エンコーダとして使用し、エッジ特徴の抽出を実現する。 GlaS と CRAG の2つの公開データセットによる実験結果から,本手法が他の腺分節法より優れていることが確認された。

Accurate and automated gland segmentation on pathological images can assist pathologists in diagnosing the malignancy of colorectal adenocarcinoma. However, due to various gland shapes, severe deformation of malignant glands, and overlapping adhesions between glands. Gland segmentation has always been very challenging. To address these problems, we propose a DEA model. This model consists of two branches: the backbone encoding and decoding network and the local semantic extraction network. The backbone encoding and decoding network extracts advanced Semantic features, uses the proposed feature decoder to restore feature space information, and then enhances the boundary features of the gland through boundary enhancement attention. The local semantic extraction network uses the pre-trained DeepLabv3+ as a Local semantic-guided encoder to realize the extraction of edge features. Experimental results on two public datasets, GlaS and CRAG, confirm that the performance of our method is better than other gland segmentation methods.
翻訳日:2024-01-30 15:28:41 公開日:2024-01-29
# サンプル安定性による深層埋め込みクラスタリング

Deep Embedding Clustering Driven by Sample Stability ( http://arxiv.org/abs/2401.15989v1 )

ライセンス: Link先を確認
Zhanwen Cheng, Feijiang Li, Jieting Wang, and Yuhua Qian(参考訳) ディープクラスタリング手法は、ディープ表現学習とクラスタリングを共同で最適化することで、クラスタリングタスクのパフォーマンスを向上させる。 多くのディープクラスタリングアルゴリズムが提案されているが、そのほとんどはクラスタリングを行うために人工的に構築された擬似ターゲットに依存している。 この構築プロセスには事前の知識が必要であり、クラスタリングに適した疑似ターゲットを決定するのは難しい。 この問題に対処するために,サンプル安定性(decs)によって駆動される深層埋め込みクラスタリングアルゴリズムを提案する。 具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。 サンプル安定性は、サンプルと全てのクラスタセントロイド間の決定論的関係を探求することを目的としており、サンプルをそれぞれのクラスタに引き寄せ、高い決定性で他のクラスタから遠ざけている。 モデルの有効性を検証する理論におけるリプシッツ連続性を用いて損失の収束を解析した。 5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。

Deep clustering methods improve the performance of clustering tasks by jointly optimizing deep representation learning and clustering. While numerous deep clustering algorithms have been proposed, most of them rely on artificially constructed pseudo targets for performing clustering. This construction process requires some prior knowledge, and it is challenging to determine a suitable pseudo target for clustering. To address this issue, we propose a deep embedding clustering algorithm driven by sample stability (DECS), which eliminates the requirement of pseudo targets. Specifically, we start by constructing the initial feature space with an autoencoder and then learn the cluster-oriented embedding feature constrained by sample stability. The sample stability aims to explore the deterministic relationship between samples and all cluster centroids, pulling samples to their respective clusters and keeping them away from other clusters with high determinacy. We analyzed the convergence of the loss using Lipschitz continuity in theory, which verifies the validity of the model. The experimental results on five datasets illustrate that the proposed method achieves superior performance compared to state-of-the-art clustering approaches.
翻訳日:2024-01-30 15:28:22 公開日:2024-01-29
# motion-i2v : 明示的な動きモデリングによる映像から映像への一貫性と制御性

Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling ( http://arxiv.org/abs/2401.15977v1 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Fu-Yun Wang, Weikang Bian, Dasong Li, Yi Zhang, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Da, Hongsheng Li(参考訳) motion-i2vは,一貫性と制御性を備えた映像対ビデオ生成(i2v)のための新しいフレームワークである。 複雑な画像間マッピングを直接学習する従来の手法とは対照的に、Motion-I2VはI2Vを明示的なモーションモデリングで2段階に分解する。 第1段階では、参照画像の画素の軌跡を推定することに焦点を当てた拡散に基づく動き場予測器を提案する。 第2段階では,ビデオ潜伏拡散モデルにおける制限された1次元の時間的注意力を高めるために,時間的注意動作を提案する。 本モジュールは、第1段階からの予測軌道の誘導により、参照画像の特徴を合成フレームに効果的に伝達することができる。 既存の手法と比較して、Motion-I2Vは大きな動きや視点の変化があっても、より一貫したビデオを生成することができる。 スパース軌道制御ネットを第1段に訓練することにより、motion-i2vは、スパース軌道と領域アノテーションにより、ユーザの動き軌跡や動き領域を正確に制御できる。 これにより、テキスト命令のみに依存するよりも、I2Vプロセスの制御性が向上する。 さらに、Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの翻訳もサポートしている。 定性的かつ定量的な比較は、一貫した制御可能な画像-映像生成における従来のアプローチよりもMotion-I2Vの利点を示している。

We introduce Motion-I2V, a novel framework for consistent and controllable image-to-video generation (I2V). In contrast to previous methods that directly learn the complicated image-to-video mapping, Motion-I2V factorizes I2V into two stages with explicit motion modeling. For the first stage, we propose a diffusion-based motion field predictor, which focuses on deducing the trajectories of the reference image's pixels. For the second stage, we propose motion-augmented temporal attention to enhance the limited 1-D temporal attention in video latent diffusion models. This module can effectively propagate reference image's feature to synthesized frames with the guidance of predicted trajectories from the first stage. Compared with existing methods, Motion-I2V can generate more consistent videos even at the presence of large motion and viewpoint variation. By training a sparse trajectory ControlNet for the first stage, Motion-I2V can support users to precisely control motion trajectories and motion regions with sparse trajectory and region annotations. This offers more controllability of the I2V process than solely relying on textual instructions. Additionally, Motion-I2V's second stage naturally supports zero-shot video-to-video translation. Both qualitative and quantitative comparisons demonstrate the advantages of Motion-I2V over prior approaches in consistent and controllable image-to-video generation.
翻訳日:2024-01-30 15:28:04 公開日:2024-01-29
# StableIdentity: 誰でもどこにでも入れられる

StableIdentity: Inserting Anybody into Anywhere at First Sight ( http://arxiv.org/abs/2401.15975v1 )

ライセンス: Link先を確認
Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu(参考訳) 最近の大規模事前学習されたテキストから画像へのモデルの進歩は、高品質な人間中心世代に前例のない能力を示しているが、顔認証のカスタマイズは依然として難解な問題である。 既存の手法では、訓練中に各被験者の複数の画像であっても、安定したアイデンティティ保存とフレキシブルな編集性を確保することはできない。 本研究では,1つの顔画像で識別一貫性のある再文化を可能にするStableIdentityを提案する。 より具体的には、入力顔のエンコードに先立ってアイデンティティを持つフェイスエンコーダを使用し、セレブ名から構築した編集可能な事前の空間に顔表現を配置する。 事前のアイデンティティと編集性を導入することで、学習されたアイデンティティはさまざまなコンテキストでどこでも注入できる。 さらに,入力面の画素レベル知覚を向上させ,生成の多様性を維持するため,マスク付き二相拡散損失を設計した。 大規模な実験により,提案手法は従来のカスタマイズ方法よりも優れていた。 さらに、学習したアイデンティティは、ControlNetのような既製のモジュールと柔軟に結合することができる。 特に,1つの画像から学んだアイデンティティを直接ビデオ/3D生成に微調整せずに直接注入するのは,最もよい知識である。 提案されたStableIdentityは、画像、ビデオ、および3Dカスタマイズされた生成モデルを統一するための重要なステップであると考えています。

Recent advances in large pretrained text-to-image models have shown unprecedented capabilities for high-quality human-centric generation, however, customizing face identity is still an intractable problem. Existing methods cannot ensure stable identity preservation and flexible editability, even with several images for each subject during training. In this work, we propose StableIdentity, which allows identity-consistent recontextualization with just one face image. More specifically, we employ a face encoder with an identity prior to encode the input face, and then land the face representation into a space with an editable prior, which is constructed from celeb names. By incorporating identity prior and editability prior, the learned identity can be injected anywhere with various contexts. In addition, we design a masked two-phase diffusion loss to boost the pixel-level perception of the input face and maintain the diversity of generation. Extensive experiments demonstrate our method outperforms previous customization methods. In addition, the learned identity can be flexibly combined with the off-the-shelf modules such as ControlNet. Notably, to the best knowledge, we are the first to directly inject the identity learned from a single image into video/3D generation without finetuning. We believe that the proposed StableIdentity is an important step to unify image, video, and 3D customized generation models.
翻訳日:2024-01-30 15:27:41 公開日:2024-01-29
# オンライン連続学習のためのメタ更新を用いたサンプル重み推定

Sample Weight Estimation Using Meta-Updates for Online Continual Learning ( http://arxiv.org/abs/2401.15973v1 )

ライセンス: Link先を確認
Hamed Hemati, Damian Borth(参考訳) 損失関数は学習システムの性能を最適化する上で重要な役割を果たす。 損失関数の重要な側面は、損失計算中にミニバッチ内でサンプル重量を割り当てることである。 連続学習(cl)の文脈では、既存の戦略のほとんどは損失値を計算する際にサンプルを均一に扱い、各サンプルに等しい重みを割り当てる。 このアプローチは特定の標準ベンチマークで有効であるが、その最適効果、特により複雑なシナリオでは、未検討のままである。 これは特に、参照モデルを使ってラベリングを自動化するセルフトレーニングなど、"野生"のトレーニングに関係しています。 本稿では,オンラインCLストリーム中のミニバッチのサンプル重量を内部およびメタ更新機構を用いて近似するOMSI(Online Meta-learning for Sample Importance)戦略を提案する。 これは、まずミニバッチの各サンプルのサンプル重量パラメータを推定し、その後、適応されたサンプル重量でモデルを更新する。 OMSIを2つの異なる実験環境で評価した。 まず,omsiは,制御されたノイズラベルデータストリームにおいて,学習と保持の両方の精度を向上させる。 次に、戦略を3つの標準ベンチマークでテストし、他の一般的なリプレイベースの戦略と比較します。 本研究は,自己適応型CL領域における探索の促進を目的とする。

The loss function plays an important role in optimizing the performance of a learning system. A crucial aspect of the loss function is the assignment of sample weights within a mini-batch during loss computation. In the context of continual learning (CL), most existing strategies uniformly treat samples when calculating the loss value, thereby assigning equal weights to each sample. While this approach can be effective in certain standard benchmarks, its optimal effectiveness, particularly in more complex scenarios, remains underexplored. This is particularly pertinent in training "in the wild," such as with self-training, where labeling is automated using a reference model. This paper introduces the Online Meta-learning for Sample Importance (OMSI) strategy that approximates sample weights for a mini-batch in an online CL stream using an inner- and meta-update mechanism. This is done by first estimating sample weight parameters for each sample in the mini-batch, then, updating the model with the adapted sample weights. We evaluate OMSI in two distinct experimental settings. First, we show that OMSI enhances both learning and retained accuracy in a controlled noisy-labeled data stream. Then, we test the strategy in three standard benchmarks and compare it with other popular replay-based strategies. This research aims to foster the ongoing exploration in the area of self-adaptive CL.
翻訳日:2024-01-30 15:27:18 公開日:2024-01-29
# HEQuant:通信効率の良いプライベート推論のための同型暗号化と量子化の結婚

HEQuant: Marrying Homomorphic Encryption and Quantization for Communication-Efficient Private Inference ( http://arxiv.org/abs/2401.15970v1 )

ライセンス: Link先を確認
Tianshi Xu, Meng Li, Runsheng Wang(参考訳) 準同型暗号化(he)によるセキュアな2者計算は、正式なセキュリティ保証によってデータのプライバシを保護するが、通信オーバーヘッドが高い。 以前の研究、例えばcheetah、ironなどでは、異なるニューラルネットワーク(nn)操作のための効率的なheベースのプロトコルを提案しているが、nn操作では固定点37ビットを高い精度で仮定し、量子化エラーに対するnnのネイティブロバスト性を無視している。 本稿では,HEベースのプロトコルに対して,低精度量子化を意識した最適化を実現するHEQuantを提案する。 我々は、量子化のナイーブな組み合わせの利点を観察し、ビット精度が下がればすぐに飽和する。 そこで、通信効率をさらに高めるために、転送データの数と精度を同時に低減するために、効率のよいパッキングアルゴリズムと量子化認識ティリングアルゴリズムを含む一連の最適化を提案する。 CrypTFlow2、Cheetah、Ironなどといった先進的なHEベースのプロトコルと比較して、HEQuantは3.5\sim 23.4\times$通信の削減と3.0\sim 9.3\times$レイテンシの削減を実現している。 一方、senet、snlなどの先行技術であるネットワーク最適化フレームワークと比較すると、hequantは3.1\sim 3.6\times$通信削減を実現している。

Secure two-party computation with homomorphic encryption (HE) protects data privacy with a formal security guarantee but suffers from high communication overhead. While previous works, e.g., Cheetah, Iron, etc, have proposed efficient HE-based protocols for different neural network (NN) operations, they still assume high precision, e.g., fixed point 37 bit, for the NN operations and ignore NNs' native robustness against quantization error. In this paper, we propose HEQuant, which features low-precision-quantization-aware optimization for the HE-based protocols. We observe the benefit of a naive combination of quantization and HE quickly saturates as bit precision goes down. Hence, to further improve communication efficiency, we propose a series of optimizations, including an intra-coefficient packing algorithm and a quantization-aware tiling algorithm, to simultaneously reduce the number and precision of the transferred data. Compared with prior-art HE-based protocols, e.g., CrypTFlow2, Cheetah, Iron, etc, HEQuant achieves $3.5\sim 23.4\times$ communication reduction and $3.0\sim 9.3\times$ latency reduction. Meanwhile, when compared with prior-art network optimization frameworks, e.g., SENet, SNL, etc, HEQuant also achieves $3.1\sim 3.6\times$ communication reduction.
翻訳日:2024-01-30 15:26:57 公開日:2024-01-29
# 専門家の視覚混合におけるルータ : 実証的研究

Routers in Vision Mixture of Experts: An Empirical Study ( http://arxiv.org/abs/2401.15969v1 )

ライセンス: Link先を確認
Tianlin Liu, Mathieu Blondel, Carlos Riquelme, Joan Puigcerver(参考訳) Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。 MoEsの重要なコンポーネントはルータであり、組み込み(トークン)を特徴とするパラメータ(専門家)プロセスのサブセットを決定する。 本稿では,コンピュータビジョンタスクのためのMoEにおけるルータの総合的研究について述べる。 2つのパラメトリックルーティングテンソルを持つ異なるMoEを仮定する統一MoE式を導入する。 この定式化は、専門家とトークン間のバイナリまたはハードな割り当てを使用するスパースMoEと、専門家間のソフトな割り当てとトークンの重み付けの組み合わせを使用するソフトMoEの両方をカバーする。 スパースモエのためのルータはさらに2つの変種にグループ化することができる: 各トークンに専門家をマッチするトークン選択と、各専門家にマッチするトークン選択である。 我々は,既存のルータや導入した新しいルータを含む,6つの異なるルータで直接実験を行う。 私たちはそれを示します (i)元々言語モデリングのために開発された多くのルータは、視覚タスクに強く適応することができる。 (ii)sparse moeでは、専門家選択ルータは一般的にトークン選択ルータよりも優れており、 (iii)ソフトmoeは一般に、一定計算予算でスパースmoeを上回っている。 これらの結果は、vision moeモデルにおけるルータの重要な役割に関する新たな洞察を与える。

Mixture-of-Experts (MoE) models are a promising way to scale up model capacity without significantly increasing computational cost. A key component of MoEs is the router, which decides which subset of parameters (experts) process which feature embeddings (tokens). In this paper, we present a comprehensive study of routers in MoEs for computer vision tasks. We introduce a unified MoE formulation that subsumes different MoEs with two parametric routing tensors. This formulation covers both sparse MoE, which uses a binary or hard assignment between experts and tokens, and soft MoE, which uses a soft assignment between experts and weighted combinations of tokens. Routers for sparse MoEs can be further grouped into two variants: Token Choice, which matches experts to each token, and Expert Choice, which matches tokens to each expert. We conduct head-to-head experiments with 6 different routers, including existing routers from prior work and new ones we introduce. We show that (i) many routers originally developed for language modeling can be adapted to perform strongly in vision tasks, (ii) in sparse MoE, Expert Choice routers generally outperform Token Choice routers, and (iii) soft MoEs generally outperform sparse MoEs with a fixed compute budget. These results provide new insights regarding the crucial role of routers in vision MoE models.
翻訳日:2024-01-30 15:26:29 公開日:2024-01-29
# 大規模言語モデルを用いた認知行動療法の反応生成 : ソクラテス質問との比較

Response Generation for Cognitive Behavioral Therapy with Large Language Models: Comparative Study with Socratic Questioning ( http://arxiv.org/abs/2401.15966v1 )

ライセンス: Link先を確認
Kenta Izumi, Hiroki Tanaka, Kazuhiro Shidara, Hiroyoshi Adachi, Daisuke Kanayama, Takashi Kudo, and Satoshi Nakamura(参考訳) 認知行動療法(cbt)のようなカウンセリング技術から派生した、事前定義または規則に基づくシナリオによって制御される対話システムは、メンタルヘルスアプリにおいて重要な役割を果たす。 責任ある応答を必要とするにもかかわらず、新たに登場したLLMを使用してコンテキストに関連のある発話を生成することで、これらのアプリが強化されると考えられる。 本研究では,大阪府(大阪府)が提供するソーシャルメディアの共感的カウンセリングデータセットを用いて,トランスフォーマーに基づく対話モデルと,OpenAIが作成した最先端のLLMであるGPT-4の2種類のLLMを用いて,従来のソクラテス的質問に焦点をあてたCBTシナリオに基づく対話モジュールを構築した。 LLM生成応答を用いたシステムと、そうでないシステムを比較することにより、感情変化、認知変化、対話品質(共感など)などの主観的評価に対する生成応答の影響を調査する。 その結果, 大阪モデルを用いた場合, 顕著な改善は見られなかった。 GPT-4を使用すると、気分の変化、共感、その他の対話の質が著しく向上する。 GPT-4はカウンセリング能力が高いことが示唆された。 しかし、人間のカウンセリングデータセットで訓練された対話モデルを使用しても、シナリオベースの対話に比べて必ずしも良い結果をもたらすとは限らない。 GPT-4を含むLCM生成応答を提示し、実際のメンタルヘルスサービスでユーザーと直接対話させることは倫理的な問題を引き起こす可能性があるが、ルール、シナリオ、サンプル応答を使用するシステムにおいて、人間のプロフェッショナルがLSMを使用してサンプル応答やレスポンステンプレートを作成することは依然として可能である。

Dialogue systems controlled by predefined or rule-based scenarios derived from counseling techniques, such as cognitive behavioral therapy (CBT), play an important role in mental health apps. Despite the need for responsible responses, it is conceivable that using the newly emerging LLMs to generate contextually relevant utterances will enhance these apps. In this study, we construct dialogue modules based on a CBT scenario focused on conventional Socratic questioning using two kinds of LLMs: a Transformer-based dialogue model further trained with a social media empathetic counseling dataset, provided by Osaka Prefecture (OsakaED), and GPT-4, a state-of-the art LLM created by OpenAI. By comparing systems that use LLM-generated responses with those that do not, we investigate the impact of generated responses on subjective evaluations such as mood change, cognitive change, and dialogue quality (e.g., empathy). As a result, no notable improvements are observed when using the OsakaED model. When using GPT-4, the amount of mood change, empathy, and other dialogue qualities improve significantly. Results suggest that GPT-4 possesses a high counseling ability. However, they also indicate that even when using a dialogue model trained with a human counseling dataset, it does not necessarily yield better outcomes compared to scenario-based dialogues. While presenting LLM-generated responses, including GPT-4, and having them interact directly with users in real-life mental health care services may raise ethical issues, it is still possible for human professionals to produce example responses or response templates using LLMs in advance in systems that use rules, scenarios, or example responses.
翻訳日:2024-01-30 15:26:08 公開日:2024-01-29
# 時空間的注意グラフニューラルネットワークによる寿命予測

Spatio-Temporal Attention Graph Neural Network for Remaining Useful Life Prediction ( http://arxiv.org/abs/2401.15964v1 )

ライセンス: Link先を確認
Zhixin Huang and Yujiang He and Bernhard Sick(参考訳) 有用生命予測は産業システムの健康管理において重要な役割を担っている。 システムの複雑さが増大する中、データ駆動予測モデルは大きな研究関心を集めている。 既存の文献をレビューすると、多くの研究は空間的特徴と時間的特徴を完全に統合していないか、ただ一つの注意機構しか採用していないようだ。 さらに,データ正規化手法の選択には矛盾があり,特に動作条件が予測性能に影響を及ぼす可能性がある。 これらの観測を橋渡しするために,時空間注意グラフニューラルネットワークを提案する。 本モデルでは,グラフニューラルネットワークと時間畳み込みニューラルネットワークを組み合わせて,時間的特徴抽出を行う。 これらの抽出器のカスケードと時空間次元の多面的注意機構は、予測精度の向上とモデル説明性の向上を目的としている。 C-MAPSSデータセットを用いて、クラスタリング正規化とクラスタリング正規化の比較実験を行った。 その結果,本モデルでは統一正規化のみを用いて最先端の結果が得られた。 さらに、複数の運用条件でデータセットを扱う場合、クラスタ正規化は提案モデルの性能を最大27%向上させる。

Remaining useful life prediction plays a crucial role in the health management of industrial systems. Given the increasing complexity of systems, data-driven predictive models have attracted significant research interest. Upon reviewing the existing literature, it appears that many studies either do not fully integrate both spatial and temporal features or employ only a single attention mechanism. Furthermore, there seems to be inconsistency in the choice of data normalization methods, particularly concerning operating conditions, which might influence predictive performance. To bridge these observations, this study presents the Spatio-Temporal Attention Graph Neural Network. Our model combines graph neural networks and temporal convolutional neural networks for spatial and temporal feature extraction, respectively. The cascade of these extractors, combined with multi-head attention mechanisms for both spatio-temporal dimensions, aims to improve predictive precision and refine model explainability. Comprehensive experiments were conducted on the C-MAPSS dataset to evaluate the impact of unified versus clustering normalization. The findings suggest that our model performs state-of-the-art results using only the unified normalization. Additionally, when dealing with datasets with multiple operating conditions, cluster normalization enhances the performance of our proposed model by up to 27%.
翻訳日:2024-01-30 15:25:37 公開日:2024-01-29
# NoFunEval: 機能的正確性以外の要件について,コード LM がどう対処するか

NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness ( http://arxiv.org/abs/2401.15963v1 )

ライセンス: Link先を確認
Manav Singhal, Tushar Aggarwal, Abhijeet Awasthi, Nagarajan Natarajan, Aditya Kanade(参考訳) 既存のコード言語モデルの評価ベンチマーク(コードLM)は、LMが機能的に正しいコードを生成することができるかどうかにのみ焦点を絞っている。 現実世界のソフトウェアエンジニアリングでは、開発者は機能的正確性を超えて考える。 効率性、セキュリティ、保守性といったシステム設計全体の目標を満たすために、機能を実装するべき"方法"に関する要件がある。 LMが要求とコードセマンティクスの堅牢な理解を示すなら、彼らはLMをもっと信頼するだろう。 非機能要件と非機能要件の両方に対する単純な分類インスタンスのコードLMを評価するために,新しいベンチマークNoFunEvalを提案する。 我々は、開発者がドメイン知識をlmsに伝達する方法として、プロンプト手法であるコーディング概念(coco)を提案する。 我々は22コードlmsを広範囲に評価する。 私たちの発見では、ベンチマークでテストすると一般的にフェールし、トレーニングセットアップの基本的な盲点をほのめかしています。 驚いたことに、一般的なhumanevalベンチマークから派生した機能的訂正インスタンスの分類精度は低く、その理解の深さと、そもそも機能的修正コードの生成に成功している原因を問うものだ。 私たちはベンチマークと評価スクリプトをhttps://aka.ms/NoFunEval.comで公開します。

Existing evaluation benchmarks of language models of code (code LMs) focus almost exclusively on whether the LMs can generate functionally-correct code. In real-world software engineering, developers think beyond functional correctness. They have requirements on "how" a functionality should be implemented to meet overall system design objectives like efficiency, security, and maintainability. They would also trust the code LMs more if the LMs demonstrate robust understanding of requirements and code semantics. We propose a new benchmark NoFunEval to evaluate code LMs on non-functional requirements and simple classification instances for both functional and non-functional requirements. We propose a prompting method, Coding Concepts (CoCo), as a way for a developer to communicate the domain knowledge to the LMs. We conduct an extensive evaluation of twenty-two code LMs. Our finding is that they generally falter when tested on our benchmark, hinting at fundamental blindspots in their training setups. Surprisingly, even the classification accuracy on functional-correctness instances derived from the popular HumanEval benchmark is low, calling in question the depth of their comprehension and the source of their success in generating functionally-correct code in the first place. We will release our benchmark and evaluation scripts publicly at https://aka.ms/NoFunEval.
翻訳日:2024-01-30 15:25:21 公開日:2024-01-29
# Few-shot Point Cloud Segmentationのための蒸留による動的プロトタイプ適応

Dynamic Prototype Adaptation with Distillation for Few-shot Point Cloud Segmentation ( http://arxiv.org/abs/2401.16051v1 )

ライセンス: Link先を確認
Jie Liu, Wenzhe Yin, Haochen Wang, Yunlu CHen, Jan-Jakob Sonke, Efstratios Gavves(参考訳) あまりショットされていないポイントクラウドセグメンテーションは、注釈付きポイントクラウドの最小セットのみを参照として、以前は目に見えないカテゴリのポイント毎のマスクを生成する。 既存のプロトタイプベースのメソッドは、クエリポイントクラウドのセグメンテーションをガイドするサポートプロトタイプに依存しているが、サポートプロトタイプとクエリ機能の間に大きなオブジェクトのバリエーションが存在する場合、課題に遭遇する。 本稿では,各問合せ点クラウドのタスク固有プロトタイプを明示的に学習し,オブジェクト変動問題に取り組む動的プロトタイプ適応(dpa)を提案する。 dpaはプロトタイプの修正、クエリ特徴分散のサポートによるバニラのプロトタイプの調整、クエリポイントクラウドからタスク固有のコンテキストを抽出するプロトタイプからクエリへの注目による適応を実現している。 さらに, 早期の試作機と, 適応時の深層部との知識伝達を可能にする, 蒸留正則化項を導入する。 これらの適応を反復的に適用することにより、クエリポイントクラウド上の正確なマスク予測のためのタスク固有のプロトタイプを生成する。 2つの人気のあるベンチマークでの大規模な実験により、DPAは、それぞれS3DISとScanNetの2方向の1ショット設定の下で、7.43\%と6.39\%の差で最先端の手法を上回ることが示されている。 コードはhttps://github.com/jliu4ai/DPAで入手できる。

Few-shot point cloud segmentation seeks to generate per-point masks for previously unseen categories, using only a minimal set of annotated point clouds as reference. Existing prototype-based methods rely on support prototypes to guide the segmentation of query point clouds, but they encounter challenges when significant object variations exist between the support prototypes and query features. In this work, we present dynamic prototype adaptation (DPA), which explicitly learns task-specific prototypes for each query point cloud to tackle the object variation problem. DPA achieves the adaptation through prototype rectification, aligning vanilla prototypes from support with the query feature distribution, and prototype-to-query attention, extracting task-specific context from query point clouds. Furthermore, we introduce a prototype distillation regularization term, enabling knowledge transfer between early-stage prototypes and their deeper counterparts during adaption. By iteratively applying these adaptations, we generate task-specific prototypes for accurate mask predictions on query point clouds. Extensive experiments on two popular benchmarks show that DPA surpasses state-of-the-art methods by a significant margin, e.g., 7.43\% and 6.39\% under the 2-way 1-shot setting on S3DIS and ScanNet, respectively. Code is available at https://github.com/jliu4ai/DPA.
翻訳日:2024-01-30 15:18:35 公開日:2024-01-29
# 複雑な問合せ回答のためのタイプベースニューラルネットワーク予測アダプタ

Type-based Neural Link Prediction Adapter for Complex Query Answering ( http://arxiv.org/abs/2401.16045v1 )

ライセンス: Link先を確認
Lingning Song and Yi Zu and Shan Lu and Jieyue He(参考訳) 不完全知識グラフ(KGs)上の複雑な論理的クエリを答えることは、マルチホップ推論における基本的な課題である。 最近の研究は、このタスクをエンドツーエンドの最適化問題と定義し、トレーニングコストを大幅に削減し、クエリ応答のための事前訓練されたリンク予測器によるモデルの一般化を強化する。 しかし、既存のほとんどの提案は、KGで本質的に利用可能な重要な意味知識、例えば型情報を無視している。 そこで本研究では,タイプに基づくエンティティ関係グラフを構築する新しいモデルであるtype-based neural link prediction adapter (tenlpa)を提案する。 一方、型情報と複雑な論理的クエリを効果的に組み合わせるために、複雑なクエリ応答プロセス中にバックプロパゲーションによってトレーニングされた適応学習機構を導入し、ニューラルネットワーク予測器の適応調整を実現する。 3つの標準データセットの実験により、TENLPAモデルは、高い一般化とロバスト性を備えた複雑なクエリ応答における最先端のパフォーマンスを達成することが示された。

Answering complex logical queries on incomplete knowledge graphs (KGs) is a fundamental and challenging task in multi-hop reasoning. Recent work defines this task as an end-to-end optimization problem, which significantly reduces the training cost and enhances the generalization of the model by a pretrained link predictors for query answering. However, most existing proposals ignore the critical semantic knowledge inherently available in KGs, such as type information, which could help answer complex logical queries. To this end, we propose TypE-based Neural Link Prediction Adapter (TENLPA), a novel model that constructs type-based entity-relation graphs to discover the latent relationships between entities and relations by leveraging type information in KGs. Meanwhile, in order to effectively combine type information with complex logical queries, an adaptive learning mechanism is introduced, which is trained by back-propagating during the complex query answering process to achieve adaptive adjustment of neural link predictors. Experiments on 3 standard datasets show that TENLPA model achieves state-of-the-art performance on complex query answering with good generalization and robustness.
翻訳日:2024-01-30 15:18:09 公開日:2024-01-29
# FBPにおけるデータ駆動フィルタの設計:訓練可能なフーリエ系列を用いたCT再構成

Data-Driven Filter Design in FBP: Transforming CT Reconstruction with Trainable Fourier Series ( http://arxiv.org/abs/2401.16039v1 )

ライセンス: Link先を確認
Yipeng Sun, Linda-Sophie Schneider, Fuxin Fan, Mareike Thies, Mingxuan Gu, Siyuan Mei, Yuzhong Zhou, Siming Bayer, Andreas Maier(参考訳) 本研究では,fbp(filtered backprojection)フレームワークにおけるct再構成のためのフーリエ級数に基づくトレーサブルフィルタを提案する。 この方法は、フーリエ級数係数を最適化してフィルタを構成することにより、従来のFBP法に固有のノイズ低減の限界を克服する。 本手法は,他のディープラーニングフレームワークと比較して,学習可能なパラメータを最小に増やすことなく,様々な解像度スケールで堅牢な性能を実現し,計算効率を維持できる。 さらに、平均二乗誤差(MSE)アプローチで発生する曖昧な問題を効果的に解消し、高周波数スケールのL_1$ノルムを優先するガウスエッジ強化(GEE)損失関数を提案する。 fbpアルゴリズムにおけるモデルの基礎は、厳密な数学的手続きによって導かれる他のすべてのパラメータを含むデータ駆動フィルタに依存するため、優れた解釈性を保証する。 プラグイン・アンド・プレイのソリューションとして設計されたFourierシリーズベースのフィルタは,既存のCT再構成モデルに容易に組み込めるので,幅広い実用用途に利用できる。 本研究は,医療画像と科学画像の両方において,fbpの有用性を広げるロバストでスケーラブルな手法を提案する。

In this study, we introduce a Fourier series-based trainable filter for computed tomography (CT) reconstruction within the filtered backprojection (FBP) framework. This method overcomes the limitation in noise reduction, inherent in conventional FBP methods, by optimizing Fourier series coefficients to construct the filter. This method enables robust performance across different resolution scales and maintains computational efficiency with minimal increment for the trainable parameters compared to other deep learning frameworks. Additionally, we propose Gaussian edge-enhanced (GEE) loss function that prioritizes the $L_1$ norm of high-frequency magnitudes, effectively countering the blurring problems prevalent in mean squared error (MSE) approaches. The model's foundation in the FBP algorithm ensures excellent interpretability, as it relies on a data-driven filter with all other parameters derived through rigorous mathematical procedures. Designed as a plug-and-play solution, our Fourier series-based filter can be easily integrated into existing CT reconstruction models, making it a versatile tool for a wide range of practical applications. Our research presents a robust and scalable method that expands the utility of FBP in both medical and scientific imaging.
翻訳日:2024-01-30 15:17:50 公開日:2024-01-29
# 解剖学的構造における2次キネマティックサーフェスフィッティング

Second Order Kinematic Surface Fitting in Anatomical Structures ( http://arxiv.org/abs/2401.16035v1 )

ライセンス: Link先を確認
Wilhelm Wimmer, Herv\'e Delingette(参考訳) 解剖学的構造の対称性の検出と形態分類は、医用画像解析において重要な役割を果たす。 パラメトリック定常速度場による形状のキャラクタリゼーション手法であるキネマティックサーフェスフィッティングの適用は、コンピュータビジョンとコンピュータ支援設計において有望な結果を示している。 しかし、既存の研究は主に一階の回転速度場に焦点を当てており、解剖学的構造の複雑な曲がりくねった性質を十分に捉えていない可能性がある。 この制限に対処するため,キネマティックサーフェスフィッティングのための2次速度場を用いた革新的なアプローチを提案する。 この進歩は、より高い回転形状の複雑さを許容し、解剖学的構造における対称性検出の精度を向上させる。 合成形状と実際の解剖学的構造をテストすることにより,ロバストなフィッティング手法を導入し,その性能を検証する。 本手法は, 回転対称性(コア線)の検出を可能にするだけでなく, 曲率やねじれに関連する固有形状パラメータを導出することにより形態分類を容易にする。 本手法は, 内在的速度場パラメータを用いて人工内耳の形状を分類し, 有用性を示す。 その結果, 医用画像解析に有用なツールとしての有用性を示し, 複雑な解剖学的形状の評価に寄与した。

Symmetry detection and morphological classification of anatomical structures play pivotal roles in medical image analysis. The application of kinematic surface fitting, a method for characterizing shapes through parametric stationary velocity fields, has shown promising results in computer vision and computer-aided design. However, existing research has predominantly focused on first order rotational velocity fields, which may not adequately capture the intricate curved and twisted nature of anatomical structures. To address this limitation, we propose an innovative approach utilizing a second order velocity field for kinematic surface fitting. This advancement accommodates higher rotational shape complexity and improves the accuracy of symmetry detection in anatomical structures. We introduce a robust fitting technique and validate its performance through testing on synthetic shapes and real anatomical structures. Our method not only enables the detection of curved rotational symmetries (core lines) but also facilitates morphological classification by deriving intrinsic shape parameters related to curvature and torsion. We illustrate the usefulness of our technique by categorizing the shape of human cochleae in terms of the intrinsic velocity field parameters. The results showcase the potential of our method as a valuable tool for medical image analysis, contributing to the assessment of complex anatomical shapes.
翻訳日:2024-01-30 15:17:30 公開日:2024-01-29
# 量子グラフモデルとしての閉・開超伝導マイクロ波導波路ネットワーク

Closed and open superconducting microwave waveguide networks as a model for quantum graphs ( http://arxiv.org/abs/2401.16031v1 )

ライセンス: Link先を確認
Barbara Dietz, Tobias Klaus, Marco Masi, Maksym Miski-Oglu, Achim Richter, Tatjana Skipa, and Marcus Wunderle(参考訳) 超伝導導波路ネットワークを用いて,四面体とハニカムグラフの幾何学を用いて高精度な計測を行った。 これらは、非可換長さの直長方形導波路を接続する価度3の接合からなる。 実験は、ヘルムホルツ方程式が効果的に1次元であり、導波路ネットワークが頂点と結合に対応するジョイントと導波路を持つ量子グラフのモデルとして機能する単一の横断モードの周波数範囲で行われた。 テトラヘドラルネットワークはT接合から構成され、ハニカムネットワークはY接合のみで構成され、それぞれ90度と120度の相対角で導波路と結合する。 交点を通るモードの伝播を記述する頂点散乱行列は、周波数に強く依存し、T接合では非対称であり、したがって頂点におけるノイマン境界条件を持つ量子グラフと異なることを示す。 反対に、Y 接合において、類似性はある種のフレケニー範囲で達成できる。 閉導波路網のスペクトル特性と開導波路の散乱行列の揺らぎ特性について検討し、ハニカム導波路グラフに対するランダム行列理論の予測とよく一致した。

We report on high-precision measurements that were performed with superconducting waveguide networks with the geometry of a tetrahedral and a honeycomb graph. They consist of junctions of valency three that connect straight rectangular waveguides of incommensurable lengths. The experiments were performed in the frequency range of a single transversal mode, where the associated Helmholtz equation is effectively one dimensional and waveguide networks may serve as models of quantum graphs with the joints and waveguides corresponding to the vertices and bonds. The tetrahedral network comprises T junctions, while the honeycomb network exclusively consists of Y junctions, that join waveguides with relative angles 90 degree and 120 degree, respectively. We demonstrate that the vertex scattering matrix, which describes the propagation of the modes through the junctions strongly depends on frequency and is non-symmetric at a T junction and thus differs from that of a quantum graph with Neumann boundary conditions at the vertices. On the contrary, at a Y junction, similarity can be achieved in a certain frequeny range. We investigate the spectral properties of closed waveguide networks and fluctuation properties of the scattering matrix of open ones and find good agreement with random matrix theory predictions for the honeycomb waveguide graph.
翻訳日:2024-01-30 15:17:09 公開日:2024-01-29
# real fluoroscopy data を用いた腰椎3次元再建のための領域適応戦略

Domain adaptation strategies for 3D reconstruction of the lumbar spine using real fluoroscopy data ( http://arxiv.org/abs/2401.16027v1 )

ライセンス: Link先を確認
Sascha Jecklin, Youyang Shen, Amandine Gout, Daniel Suter, Lilian Calvet, Lukas Zingg, Jennifer Straub, Nicola Alessandro Cavalcanti, Mazda Farshad, Philipp F\"urnstahl, Hooman Esfandiari(参考訳) 本研究は,整形外科手術において,時間,費用,放射線,ワークフロー統合といった重要な障害に対処する。 近年,術中蛍光画像のみから脊椎の3次元解剖学的モデルを作成する方法が提案されている。 これは、解剖学の直接的術中3d再構築を作成することによって、従来の登録に基づく外科的ナビゲーションの必要性を否定する。 これらの進歩にもかかわらず、X23Dの実用化は、合成トレーニングデータと実際の術中画像との領域ギャップによって制限されている。 そこで我々は,同じ視点から合成および実蛍光画像からなるペアデータセットのための新しいデータ収集プロトコルを考案した。 このデータセットを利用することで、トランスファーラーニングによるディープラーニングモデルを洗練し、合成データと実際のX線データの領域ギャップを効果的に埋める。 また,本手法では,X線を合成領域のミラーに変換することで,実世界の環境において高精度なX23Dモデルを実現することができる。 その結果, 鏡視下手術を3回以上行うことで, 腰椎全体の正確な3次元再構築を迅速に行うことができた。 これまでの合成データに基づく研究の精度と一致する84%のF1スコアを達成した。 さらに計算時間はわずか81.1msで,手術統合に必要なリアルタイム機能を提供する。 理想的な画像設定と視角依存性を調べることで,臨床環境におけるシステムの実用性と信頼性をさらに確認した。 私たちの研究は、手術計画、ナビゲーション、ロボティクスの強化により、術中3d再構築の大きな一歩を踏み出した。

This study tackles key obstacles in adopting surgical navigation in orthopedic surgeries, including time, cost, radiation, and workflow integration challenges. Recently, our work X23D showed an approach for generating 3D anatomical models of the spine from only a few intraoperative fluoroscopic images. This negates the need for conventional registration-based surgical navigation by creating a direct intraoperative 3D reconstruction of the anatomy. Despite these strides, the practical application of X23D has been limited by a domain gap between synthetic training data and real intraoperative images. In response, we devised a novel data collection protocol for a paired dataset consisting of synthetic and real fluoroscopic images from the same perspectives. Utilizing this dataset, we refined our deep learning model via transfer learning, effectively bridging the domain gap between synthetic and real X-ray data. A novel style transfer mechanism also allows us to convert real X-rays to mirror the synthetic domain, enabling our in-silico-trained X23D model to achieve high accuracy in real-world settings. Our results demonstrated that the refined model can rapidly generate accurate 3D reconstructions of the entire lumbar spine from as few as three intraoperative fluoroscopic shots. It achieved an 84% F1 score, matching the accuracy of our previous synthetic data-based research. Additionally, with a computational time of only 81.1 ms, our approach provides real-time capabilities essential for surgery integration. Through examining ideal imaging setups and view angle dependencies, we've further confirmed our system's practicality and dependability in clinical settings. Our research marks a significant step forward in intraoperative 3D reconstruction, offering enhancements to surgical planning, navigation, and robotics.
翻訳日:2024-01-30 15:16:46 公開日:2024-01-29
# シンプルな政策最適化

Simple Policy Optimization ( http://arxiv.org/abs/2401.16025v1 )

ライセンス: Link先を確認
Zhengpeng Xie(参考訳) PPO (Proximal Policy Optimization) アルゴリズムは多くの分野で優れた性能を示しており、TRPO (Trust Region Policy Optimization) アルゴリズムの単純なバージョンと見なされている。 しかし、PPOの切断操作は必ずしも信頼領域の制約を効果的に強制するわけではないため、アルゴリズムの安定性に影響を与える潜在的な要因となる可能性がある。 本稿では,従来のポリシと現在のポリシのKL分散のための新しいクリッピング手法であるSPOアルゴリズムを提案する。 SPOは、ほぼすべての環境で信頼領域の制約を効果的に実施でき、一方、一階アルゴリズムの単純さは維持できる。 Atari 2600環境の比較実験では、SPOがPPOよりも強い性能を提供することがある。 コードはhttps://github.com/MyRepositories-hub/Simple-Policy-Optimizationで入手できる。

PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm. In this paper, we propose SPO (Simple Policy Optimization) algorithm, which introduces a novel clipping method for KL divergence between the old and current policies. SPO can effectively enforce the trust region constraints in almost all environments, while still maintaining the simplicity of a first-order algorithm. Comparative experiments in Atari 2600 environments show that SPO sometimes provides stronger performance than PPO. Code is available at https://github.com/MyRepositories-hub/Simple-Policy-Optimization.
翻訳日:2024-01-30 15:16:22 公開日:2024-01-29
# ベクトル-シンボリックアーキテクチャにおける学習規則による視覚的抽象推論の確率的推論

Probabilistic Abduction for Visual Abstract Reasoning via Learning Rules in Vector-symbolic Architectures ( http://arxiv.org/abs/2401.16024v1 )

ライセンス: Link先を確認
Michael Hersche, Francesco di Stefano, Thomas Hofmann, Abu Sebastian, Abbas Rahimi(参考訳) 抽象推論は人間の知性の基礎であり、それを人工知能(AI)で複製することは、現在進行中の課題である。 本研究では,ベクトル記号アーキテクチャ(VSA)による分散計算と演算子を用いて,抽象的推論能力を評価する視覚的テストであるRavenのプログレッシブ行列(RPM)を効率的に解くことに焦点を当てた。 RPMに関連するルール定式化をハードコーディングする代わりに、VSAルール定式化(Learning-VRF)をトレーニングデータに1回だけ通すだけで学習できます。 しかし、我々のアプローチは、コンパクトなパラメータで、透明で解釈可能である。 Learn-VRFは、I-RAVENの分布データの正確な予測を行い、未知の属性とルールのペアに関する分散能力を示し、大きな言語モデルを含む純粋な接続性ベースラインを著しく上回る。 私たちのコードはhttps://github.com/IBM/learn-vector-symbolic-architectures-rule-formulationsで利用可能です。

Abstract reasoning is a cornerstone of human intelligence, and replicating it with artificial intelligence (AI) presents an ongoing challenge. This study focuses on efficiently solving Raven's progressive matrices (RPM), a visual test for assessing abstract reasoning abilities, by using distributed computation and operators provided by vector-symbolic architectures (VSA). Instead of hard-coding the rule formulations associated with RPMs, our approach can learn the VSA rule formulations (hence the name Learn-VRF) with just one pass through the training data. Yet, our approach, with compact parameters, remains transparent and interpretable. Learn-VRF yields accurate predictions on I-RAVEN's in-distribution data, and exhibits strong out-of-distribution capabilities concerning unseen attribute-rule pairs, significantly outperforming pure connectionist baselines including large language models. Our code is available at https://github.com/IBM/learn-vector-symbolic-architectures-rule-formulations.
翻訳日:2024-01-30 15:16:08 公開日:2024-01-29
# トラップイオンアレイにおける非可換ビブロンダイナミクス

Non-Abelian vibron dynamics in trapped-ion arrays ( http://arxiv.org/abs/2401.16022v1 )

ライセンス: Link先を確認
L. Timm, H. Weimer and L. Santos(参考訳) トラップイオンアレイは量子シミュレーションに興味深い可能性をもたらす。 楕円形マイクロトラップの適切な配置とマイクロトラップ周波数の外部駆動が組み合わさって、精密な微調整を必要とせず、非アベリア振動子力学の堅牢な実現を可能にすることを示す。 この非可換な性質は、簡単なプラーペット配置で実験的に容易に観測できる。 この研究は、2次元および3次元イオンアレイにおける非アベリアスピン軌道結合と運動励起の研究に興味深い視点を開く。

Trapped-ion arrays offer interesting possibilities for quantum simulation. We show that a proper arrangement of elliptical micro-traps combined with the external driving of the micro-trap frequencies allows, without the need of any precise fine-tuning, for the robust realization of non-Abelian vibron dynamics. We show that this non-Abelian nature may be readily probed experimentally in a simple plaquette arrangement. This study opens interesting perspectives for the study of non-Abelian spin-orbit coupling with motional excitations in two- and three-dimensional ion arrays.
翻訳日:2024-01-30 15:15:48 公開日:2024-01-29
# コヒーレンスの相対エントロピーはベイズ計量学のパフォーマンスを定量化する

The relative entropy of coherence quantifies performance in Bayesian metrology ( http://arxiv.org/abs/2401.16020v1 )

ライセンス: Link先を確認
Ruvi Lecamwasam, Syed M Assad, Joseph J Hope, Ping Koy Lam, Jayne Thompson, Mile Gu(参考訳) 量子状態が重ね合わさることの能力は、それらを古典的世界から切り離す重要な特徴の1つである。 この「コヒーレンス」は資源理論によって厳密に定量化され、量子技術においてそのような性質をどのように活用するかを理解することを目的としている。 コヒーレンスの資源理論が量子計量学について何を明らかにするかについて多くの研究がなされており、そのほとんどがフィッシャー情報の観点からのものである。 しかしながら、コヒーレンスの相対エントロピーとその最近のPOVMへの一般化は、ベイズ計量の性能を自然に定量化する。 特に、コヒーレンス測度が状態のアンサンブルにどのように適用できるかを示す。 次に,パラメータ推定において,コヒーレンスのアンサンブル相対エントロピーは得られた情報と最適なホレボ情報との差に等しいことを示す。 この関係を CXI 等式と呼ぶ。 アンサンブルコヒーレンスにより、与えられた測定スキームではアクセスできない重ね合わせでどれだけ情報がロックされているかを可視化し、複数の状態のジョイント測定を用いて得られる利点を定量化することができる。 我々の結果は、パラメータがどのように状態にエンコードされているかに関わらず、ユニタリ、散逸、離散的な設定を含む。 我々は、射影測定と一般的なPOVMの両方を考慮する。 この研究は、量子資源理論の研究の新しい方向性を示唆し、コヒーレンスの相対エントロピーとそのPOVM一般化の新たな操作解釈を提供し、メトロジーにおける量子特徴の役割を研究するための新しいツールを導入する。

The ability of quantum states to be in superposition is one of the key features that sets them apart from the classical world. This `coherence' is rigorously quantified by resource theories, which aim to understand how such properties may be exploited in quantum technologies. There has been much research on what the resource theory of coherence can reveal about quantum metrology, almost all of which has been from the viewpoint of Fisher information. We prove however that the relative entropy of coherence, and its recent generalisation to POVMs, naturally quantify the performance of Bayesian metrology. In particular, we show how a coherence measure can be applied to an ensemble of states. We then prove that during parameter estimation, the ensemble relative entropy of coherence is equal to the difference between the information gained, and the optimal Holevo information. We call this relation the CXI equality. The ensemble coherence lets us visualise how much information is locked away in superposition inaccessible with a given measurement scheme, and quantify the advantage that would be gained by using a joint measurement on multiple states. Our results hold regardless of how the parameter is encoded in the state, encompassing unitary, dissipative, and discrete settings. We consider both projective measurements, and general POVMs. This work suggests new directions for research in quantum resource theories, provides a novel operation interpretation for the relative entropy of coherence and its POVM generalisation, and introduces a new tool to study the role of quantum features in metrology.
翻訳日:2024-01-30 15:15:39 公開日:2024-01-29
# 反射境界を持つ円形加速検出器の絡み合い収穫

Entanglement harvesting of circularly accelerated detectors with a reflecting boundary ( http://arxiv.org/abs/2401.16018v1 )

ライセンス: Link先を確認
Runhu Li, Zixu Zhao(参考訳) 反射境界の存在下で質量のないスカラー場と相互作用する円加速度検出器の遷移確率の性質について検討した。 軌道半径が増加するにつれて、遷移確率は特別な状況下でいくつかのピークが存在し、同じ加速とエネルギーギャップを持つ異なる軌道半径に対して同じ結果をもたらす可能性がある。 これらの行動はいくつかの臨界値によって特徴づけられる。 さらに,境界を持つ2つの円加速度検出器の絡み合い収穫現象を解析した。 2つの検出器は同じ加速度、軌道半径、角速度で共通の軸の周りを回転していると考えられる。 検出器が境界に近い場合、絡み合うための2つのピークが存在する可能性がある。 興味深いことに、軌道半径が大きくなると、ある状況での絡み合い収穫はまずゼロに減少し、その後ゼロに維持され、最終的に安定値に上昇する。 小さいエネルギーギャップでは、2つの検出器間の距離が増加するにつれて、絡み合いの収穫は検出器と境界の間のより大きな距離でゼロになる。

We study the properties of the transition probability for a circularly accelerated detector which interacts with the massless scalar fields in the presence of a reflecting boundary. As trajectory radius increases, the transition probability may exist some peaks in special circumstances, which lead to the possibility of same result for different trajectory radius with the same acceleration and energy gap. These behaviors can be characterized by some critical values. Furthermore, we analyze the entanglement harvesting phenomenon for two circularly accelerated detectors with a boundary. We consider that the two detectors are rotating around a common axis with the same acceleration, trajectory radius and angular velocity. When the detectors are close to the boundary, there may exist two peaks for entanglement harvesting. Interestingly, as trajectory radius increases, entanglement harvesting in some situations first decreases to zero, then maintains zero, and finally increases to a stable value. For a small energy gap, as the distance between the two detectors increases, the entanglement harvesting first takes zero at a larger distance between detectors and the boundary.
翻訳日:2024-01-30 15:15:10 公開日:2024-01-29
# GNNとCKFを組み合わせたトラック探索

Combined track finding with GNN & CKF ( http://arxiv.org/abs/2401.16016v1 )

ライセンス: Link先を確認
Lukas Heinrich, Benjamin Huth, Andreas Salzburger, Tilo Wettig(参考訳) トラック再構成におけるグラフニューラルネットワーク(GNN)の適用は、大型ハドロン衝突型加速器(HL-LHC)の高輝度アップグレードで生じる課題に対処するための有望なアプローチである。 GNNは高い多重性シナリオにおいて良好なトラックフィニング性能を示し、異種計算アーキテクチャ上で自然に並列化可能である。 典型的な高エネルギー物理検出器は、頂点再構成をサポートするため最内側層では高分解能であるが、外側部では低分解能である。 gnnは主に3d空間ポイント情報に依存しているため、外部領域でのトラック探索性能が低下する可能性がある。 本稿では,GNNをベースとしたトラック探索と,従来のコンビネータカルマンフィルタ(CKF)アルゴリズムを組み合わせることで,この問題を回避する方法を提案する。 これらの候補は、外部領域のCKFによって拾い上げられ、CKFは1次元計測でもよく機能する。 ACTSのインフラストラクチャを使って、ピクセル内の真理追跡に基づく概念実証と、$t\bar{t}$イベントをトレーニングした専用のGNNパイプラインをOpenDataDetectorに200個重ねて提示する。

The application of Graph Neural Networks (GNN) in track reconstruction is a promising approach to cope with the challenges arising at the High-Luminosity upgrade of the Large Hadron Collider (HL-LHC). GNNs show good track-finding performance in high-multiplicity scenarios and are naturally parallelizable on heterogeneous compute architectures. Typical high-energy-physics detectors have high resolution in the innermost layers to support vertex reconstruction but lower resolution in the outer parts. GNNs mainly rely on 3D space-point information, which can cause reduced track-finding performance in the outer regions. In this contribution, we present a novel combination of GNN-based track finding with the classical Combinatorial Kalman Filter (CKF) algorithm to circumvent this issue: The GNN resolves the track candidates in the inner pixel region, where 3D space points can represent measurements very well. These candidates are then picked up by the CKF in the outer regions, where the CKF performs well even for 1D measurements. Using the ACTS infrastructure, we present a proof of concept based on truth tracking in the pixels as well as a dedicated GNN pipeline trained on $t\bar{t}$ events with pile-up 200 in the OpenDataDetector.
翻訳日:2024-01-30 15:14:53 公開日:2024-01-29
# SERL: サンプル効率の良いロボット強化学習用ソフトウェアスイート

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning ( http://arxiv.org/abs/2401.16013v1 )

ライセンス: Link先を確認
Jianlan Luo, Zheyuan Hu, Charles Xu, You Liang Tan, Jacob Berg, Archit Sharma, Stefan Schaal, Chelsea Finn, Abhishek Gupta, Sergey Levine(参考訳) 近年、ロボット強化学習(RL)の分野で大きな進歩を遂げており、複雑な画像観察、現実世界での訓練、デモや先行経験などの補助的なデータの導入を可能にしている。 しかし、これらの進歩にもかかわらず、ロボットRLの使用は困難である。 実践者の間では、これらのアルゴリズムの特定の実装の詳細は、しばしばアルゴリズムの選択と同じくらいのパフォーマンスにおいて重要である(そうでないとしても)。 我々は,ロボットRLの普及と,ロボットRL法のさらなる発展に対する重要な課題が,そのような手法の比較不能性であると考えている。 この課題に対処するため,我々は,効率のよいオフポリシー深層rl法と,報奨計算と環境再設定の手法,広く採用されているロボットのための高品質なコントローラ,課題の多い例タスクを含む,注意深く実装されたライブラリを開発した。 このライブラリをコミュニティのリソースとして提供し,その設計選択を説明し,実験結果を示す。 意外なことに、我々の実装は、非常に効率的な学習を実現し、PCBボードアセンブリ、ケーブルルーティング、オブジェクト移動のポリシーを平均25分から50分の間に取得し、文献に類似したタスクに対して報告された最先端の結果よりも改善できる。 これらの政策は完璧またはほぼ完全な成功率を達成し、摂動下でも極端な堅牢性を実現し、創発的な回復と修正行動を示す。 これらの有望な成果と私たちの高品質なオープンソース実装が、ロボティクスコミュニティにとってロボットRLのさらなる発展を促進するツールになることを期待しています。 私たちのコード、ドキュメンテーション、ビデオはhttps://serl-robot.github.io/で確認できます。

In recent years, significant progress has been made in the field of robotic reinforcement learning (RL), enabling methods that handle complex image observations, train in the real world, and incorporate auxiliary data, such as demonstrations and prior experience. However, despite these advances, robotic RL remains hard to use. It is acknowledged among practitioners that the particular implementation details of these algorithms are often just as important (if not more so) for performance as the choice of algorithm. We posit that a significant challenge to widespread adoption of robotic RL, as well as further development of robotic RL methods, is the comparative inaccessibility of such methods. To address this challenge, we developed a carefully implemented library containing a sample efficient off-policy deep RL method, together with methods for computing rewards and resetting the environment, a high-quality controller for a widely-adopted robot, and a number of challenging example tasks. We provide this library as a resource for the community, describe its design choices, and present experimental results. Perhaps surprisingly, we find that our implementation can achieve very efficient learning, acquiring policies for PCB board assembly, cable routing, and object relocation between 25 to 50 minutes of training per policy on average, improving over state-of-the-art results reported for similar tasks in the literature. These policies achieve perfect or near-perfect success rates, extreme robustness even under perturbations, and exhibit emergent recovery and correction behaviors. We hope that these promising results and our high-quality open-source implementation will provide a tool for the robotics community to facilitate further developments in robotic RL. Our code, documentation, and videos can be found at https://serl-robot.github.io/
翻訳日:2024-01-30 15:14:29 公開日:2024-01-29
# 事前制約言語モデルと混同する混在メタファーの発見

Finding Challenging Metaphors that Confuse Pretrained Language Models ( http://arxiv.org/abs/2401.16012v1 )

ライセンス: Link先を確認
Yucheng Li, Frank Guerin, Chenghua Lin(参考訳) メタファーは幅広いNLPタスクに課題をもたらすと考えられている。 これにより、計算的メタファー処理の領域が生まれる。 しかし、どのようなメタファーが現在の最先端モデルに挑戦するのかは、まだ不明である。 本稿では,vuaメタファデータセット上で様々なnlpモデルをテストし,様々な下流タスクにおけるモデルの性能にどの程度影響するかを定量化する。 分析によると、vuaにはダウンストリームタスクの難しさをほとんど表さない多数のメタファーが含まれている。 研究者の注意をこれらの比喩から遠ざけ、代わりに挑戦的な比喩に焦点をあてたい。 ハードメタファーを特定するために,特定のモデルに挑戦するメタファーを識別する自動パイプラインを提案する。 分析の結果,検出されたハードメタファーはvuaと著しく対比し,機械翻訳の精度を16\%,qa性能を4\%,nliを7\%,メタファー識別を14\%以上低減した。

Metaphors are considered to pose challenges for a wide spectrum of NLP tasks. This gives rise to the area of computational metaphor processing. However, it remains unclear what types of metaphors challenge current state-of-the-art models. In this paper, we test various NLP models on the VUA metaphor dataset and quantify to what extent metaphors affect models' performance on various downstream tasks. Analysis reveals that VUA includes a large number of metaphors that pose little difficulty to downstream tasks. We would like to shift the attention of researchers away from these metaphors to instead focus on challenging metaphors. To identify hard metaphors, we propose an automatic pipeline that identifies metaphors that challenge a particular model. Our analysis demonstrates that our detected hard metaphors contrast significantly with VUA and reduce the accuracy of machine translation by 16\%, QA performance by 4\%, NLI by 7\%, and metaphor identification recall by over 14\% for various popular NLP systems.
翻訳日:2024-01-30 15:13:58 公開日:2024-01-29
# GPS:マルチスケール拡張ビューによるグラフコントラスト学習

GPS: Graph Contrastive Learning via Multi-scale Augmented Views from Adversarial Pooling ( http://arxiv.org/abs/2401.16011v1 )

ライセンス: Link先を確認
Wei Ju, Yiyang Gu, Zhengyang Mao, Ziyue Qiao, Yifang Qin, Xiao Luo, Hui Xiong, and Ming Zhang(参考訳) 自己教師付きグラフ表現学習(self-supervised graph representation learning)は、バイオインフォマティクスやソーシャルネットワークなど、さまざまな分野で大きな期待を示している。 グラフのコントラスト学習のアプローチの多くは、グラフ上の表現学習に有望なパフォーマンスを示しており、オリジナルグラフとその拡張ビュー(すなわちポジティブビュー)の一致を最大化することでモデルをトレーニングしている。 残念ながら、これらの手法は通常、人間の専門家の知識に基づいた事前定義された拡張戦略を含む。 さらに、これらの戦略は十分な監督信号を提供するために挑戦的なポジティブな見解を生み出さない可能性がある。 本稿では,これらの問題に対処するための新しいアプローチであるGraph Pooling ContraSt(GPS)を提案する。 グラフプーリングが冗長性を取り除き、グラフを適応的に粗いものにできるという事実に動機づけられ、グラフプーリングを再考し、挑戦的なポジティブなビューを提供し、セマンティクスを保存することを重視した多スケールのポジティブビューを自動的に生成する。 そして,両視点を類似性学習と一貫性学習を併用した共同コントラスト学習フレームワークに組み込むことで,対向的ロバスト性のためのエンコーダに対して,プールモジュールを逆向きに訓練する。 グラフ分類と移動学習の両タスクに関する12のデータセット実験により,提案手法の優位性を検証した。

Self-supervised graph representation learning has recently shown considerable promise in a range of fields, including bioinformatics and social networks. A large number of graph contrastive learning approaches have shown promising performance for representation learning on graphs, which train models by maximizing agreement between original graphs and their augmented views (i.e., positive views). Unfortunately, these methods usually involve pre-defined augmentation strategies based on the knowledge of human experts. Moreover, these strategies may fail to generate challenging positive views to provide sufficient supervision signals. In this paper, we present a novel approach named Graph Pooling ContraSt (GPS) to address these issues. Motivated by the fact that graph pooling can adaptively coarsen the graph with the removal of redundancy, we rethink graph pooling and leverage it to automatically generate multi-scale positive views with varying emphasis on providing challenging positives and preserving semantics, i.e., strongly-augmented view and weakly-augmented view. Then, we incorporate both views into a joint contrastive learning framework with similarity learning and consistency learning, where our pooling module is adversarially trained with respect to the encoder for adversarial robustness. Experiments on twelve datasets on both graph classification and transfer learning tasks verify the superiority of the proposed method over its counterparts.
翻訳日:2024-01-30 15:13:41 公開日:2024-01-29
# CTにおける2次元シングラムによる欠陥位置推定

A 2D Sinogram-Based Approach to Defect Localization in Computed Tomography ( http://arxiv.org/abs/2401.16104v1 )

ライセンス: Link先を確認
Yuzhong Zhou, Linda-Sophie Schneider, Fuxin Fan, Andreas Maier(参考訳) ディープラーニングの台頭は、画像処理の分野で、特に計算トモグラフィーの文脈において、トランスフォーメーション時代をもたらした。 深層学習は産業用CTの分野に多大な貢献をしている。 しかし、多くの欠陥検出アルゴリズムは再構成された領域に直接適用され、しばしば生センサデータを無視する。 本稿では, シングラムの使用に焦点を移す。 本研究では,画像再構成に頼らずにオブジェクト内の欠陥を識別・解析する3段階のディープラーニングアルゴリズムを提案する。 これら3つのステップは、欠陥セグメンテーション、マスク分離、欠陥解析である。 欠陥セグメンテーションにはU-Netベースのアーキテクチャを使用します。 提案手法はシミュレーションデータ上で92.02%の交点を達成し,512画素の検出器で平均1.3ピクセルの位置誤差を検出できる。

The rise of deep learning has introduced a transformative era in the field of image processing, particularly in the context of computed tomography. Deep learning has made a significant contribution to the field of industrial Computed Tomography. However, many defect detection algorithms are applied directly to the reconstructed domain, often disregarding the raw sensor data. This paper shifts the focus to the use of sinograms. Within this framework, we present a comprehensive three-step deep learning algorithm, designed to identify and analyze defects within objects without resorting to image reconstruction. These three steps are defect segmentation, mask isolation, and defect analysis. We use a U-Net-based architecture for defect segmentation. Our method achieves the Intersection over Union of 92.02% on our simulated data, with an average position error of 1.3 pixels for defect detection on a 512-pixel-wide detector.
翻訳日:2024-01-30 15:05:26 公開日:2024-01-29
# リチウム電池寿命予測のためのフレキシブル並列ニューラルネットワークアーキテクチャモデル

Flexible Parallel Neural Network Architecture Model for Early Prediction of Lithium Battery Life ( http://arxiv.org/abs/2401.16102v1 )

ライセンス: Link先を確認
Lidang Jiang, Zhuoxiang Li, Changyan Hu, Qingsong Huang, Ge He(参考訳) 電池寿命の早期予測(EPBL)は、リチウム電池の効率の向上と寿命の延長に不可欠である。 固定アーキテクチャを持つ従来のモデルは、異なるEPBLタスクにおける多様なデータ分散のために、不適合や過度に適合する問題にしばしば遭遇する。 InceptionBlock,3D畳み込みニューラルネットワーク(CNN),2D CNN,デュアルストリームネットワークを含む,フレキシブル並列ニューラルネットワーク(FPNN)の解釈可能なディープラーニングモデルを提案する。 提案モデルは,3d cnnを用いたビデオライクなフォーマットデータから電気化学的特徴を効果的に抽出し,インセプションブロックによる高度なマルチスケール特徴の抽象化を実現する。 FPNNは、EPBLの様々な複雑さのタスクを柔軟に処理するために、InceptionBlockの数を適応的に調整することができる。 MITデータセット上でのテストでは,入力周期データボリュームが10,10,30,40のとき,EPBLタスクの予測精度は2.47%,1.29%,1.08%,0.88%であった。 fpnnの解釈性は、その柔軟な単位構造とパラメータ選択に主に反映されている: その多様な分岐構造により、モデルは異なるスケールで特徴を捉えることができ、それによってマシンは、有益な特徴を学習することができる。 ここで提示されるアプローチは、リチウム電池の早期寿命予測のための正確で適応可能で理解可能なソリューションを提供し、バッテリーの健康モニタリング分野における新たな可能性を開く。

The early prediction of battery life (EPBL) is vital for enhancing the efficiency and extending the lifespan of lithium batteries. Traditional models with fixed architectures often encounter underfitting or overfitting issues due to the diverse data distributions in different EPBL tasks. An interpretable deep learning model of flexible parallel neural network (FPNN) is proposed, which includes an InceptionBlock, a 3D convolutional neural network (CNN), a 2D CNN, and a dual-stream network. The proposed model effectively extracts electrochemical features from video-like formatted data using the 3D CNN and achieves advanced multi-scale feature abstraction through the InceptionBlock. The FPNN can adaptively adjust the number of InceptionBlocks to flexibly handle tasks of varying complexity in EPBL. The test on the MIT dataset shows that the FPNN model achieves outstanding predictive accuracy in EPBL tasks, with MAPEs of 2.47%, 1.29%, 1.08%, and 0.88% when the input cyclic data volumes are 10, 20, 30, and 40, respectively. The interpretability of the FPNN is mainly reflected in its flexible unit structure and parameter selection: its diverse branching structure enables the model to capture features at different scales, thus allowing the machine to learn informative features. The approach presented herein provides an accurate, adaptable, and comprehensible solution for early life prediction of lithium batteries, opening new possibilities in the field of battery health monitoring.
翻訳日:2024-01-30 15:05:11 公開日:2024-01-29
# 光の量子状態間のワッサーシュタイン距離とエントロピック発散

Wasserstein distance and entropic divergences between quantum states of light ( http://arxiv.org/abs/2401.16098v1 )

ライセンス: Link先を確認
Soumyabrata Paul, S. Ramanan, V. Balakrishnan, S. Lakshmibala(参考訳) 量子光学において自然に発生する確率分布の対間の類似度を評価する。 我々は、異なる光の状態を比較するために、ワッサーシュタイン距離、クルバック・リーブラー偏差、バッタリア距離を用いる。 一般二成分系における波束再生現象や突然の絡み合い変化などの非古典的効果の同定におけるこれらの定量化器の有効性について検討した。 計算は関連する光学トモグラムで行われ、状態再構成を回避している。

We assess the extent of similarity between pairs of probability distributions that arise naturally in quantum optics. We employ the Wasserstein distance, the Kullback-Leibler divergence and the Bhattacharyya distance to compare different states of light. We investigate the effectiveness of these quantifiers in identifying nonclassical effects such as wave packet revival phenomena and sudden changes in entanglement in generic bipartite systems. The calculations are carried out on relevant optical tomograms, circumventing state reconstruction.
翻訳日:2024-01-30 15:04:44 公開日:2024-01-29
# 限界を押し上げる:$O\big((P + T)^2\big)$における非環状, ライブ, 1-セーフフリーチョイスネットにおける並行検出

Pushing the Limits: Concurrency Detection in Acyclic, Live, and 1-Safe Free-Choice Nets in $O\big((P + T)^2\big)$ ( http://arxiv.org/abs/2401.16097v1 )

ライセンス: Link先を確認
Thomas M. Prinz, Julien Klaus, Nick R.T.P. van Beest(参考訳) 並列性は複雑なシステムの振る舞いを記述しシミュレートする(petri)ネットの重要な側面である。 どの場所と遷移が並列に実行されるかを知ることは、ネットを理解し、因果性、排他性など他の特性の分析技術や計算を可能にする。 並列検出に基づくすべての手法は、この検出手法の効率に依存する。 Kovalyov と Esparza は、ライブネットでは$O\big((P+T)TP^2\big)$、ライブ無料ネットでは$O\big(P(P+T)^2\big)$で計算するアルゴリズムを開発した。 これらのアルゴリズムは計算の複雑さがかなり高いが、多くの並列ノードが長い計算時間に繋がる可能性がある。 さらに、両方のアルゴリズムは追加の労力なしで並列化できない。 本稿では, 並列性検出アルゴリズムのパレットを, 安全, ライブ, フリーチョイスネットのための並列パス (cp) アルゴリズムで補完する。 このアルゴリズムは並列化が可能であり、非巡回ネットは$O\big((P+T)^2\big)$、サイクリックネットは$O\big(P^3+PT^2\big)$である。 循環網の計算複雑性は改善されていないが、CPの利点、特に並列関係において多くのノードを含む場合の利点が評価されている。

Concurrency is an important aspect of (Petri) nets to describe and simulate the behavior of complex systems. Knowing which places and transitions could be executed in parallel helps to understand nets and enables analysis techniques and the computation of other properties, such as causality, exclusivity, etc.. All techniques based on concurrency detection depend on the efficiency of this detection methodology. Kovalyov and Esparza have developed algorithms that compute all concurrent places in $O\big((P+T)TP^2\big)$ for live nets (where $P$ and $T$ are the numbers of places and transitions) and in $O\big(P(P+T)^2\big)$ for live free-choice nets. Although these algorithms have a reasonably good computational complexity, large numbers of concurrent pairs of nodes may still lead to long computation times. Furthermore, both algorithms cannot be parallelized without additional effort. This paper complements the palette of concurrency detection algorithms with the Concurrent Paths (CP) algorithm for safe, live, free-choice nets. The algorithm allows parallelization and has a worst-case computational complexity of $O\big((P+T)^2\big)$ for acyclic nets and of $O\big(P^3+PT^2\big)$ for cyclic nets. Although the computational complexity of cyclic nets has not improved, the evaluation shows the benefits of CP, especially, if the net contains many nodes in concurrency relation.
翻訳日:2024-01-30 15:04:34 公開日:2024-01-29
# プライバシ保護のための無監督無監督ランダム森林

Federated unsupervised random forest for privacy-preserving patient stratification ( http://arxiv.org/abs/2401.16094v1 )

ライセンス: Link先を確認
Bastian Pfeifer, Christel Sirocchi, Marcus D. Bloice, Markus Kreuzthaler, Martin Urschler(参考訳) 精密医療の分野では、効果的な患者層化と病気のサブタイプ化は、マルチオミクスデータに適した革新的な方法を必要とする。 マルチオミクスデータに適用されるクラスタリング技術は、異なる患者のサブグループを特定するのに役立ち、疾患のばらつきをより詳細に理解することができる。 この研究は、教師なしランダムフォレストベースのクラスタリングとフェデレーションコンピューティングによる精密医学の進歩のための強力な枠組みを確立している。 教師なしランダムフォレストを用いた新しいマルチオミクスクラスタリング手法を提案する。 ランダムフォレストの教師なしの性質は、異なる患者グループに重要な分子的貢献者を解き放ち、クラスタ固有の特徴の重要性を決定できる。 さらに,プライバシの懸念が最重要である医療領域における重要な側面であるフェデレーション実行のために,本手法を設計した。 我々は、機械学習ベンチマークデータセットとThe Cancer Genome Atlas(TCGA)のがんデータに対するアプローチを検証する。 本手法は,疾患のサブタイプに関して最先端の手法と競合するが,クラスタの解釈性が大幅に向上する。 実験によると、フェデレーションコンピューティングによってローカルクラスタリングのパフォーマンスが向上する。

In the realm of precision medicine, effective patient stratification and disease subtyping demand innovative methodologies tailored for multi-omics data. Clustering techniques applied to multi-omics data have become instrumental in identifying distinct subgroups of patients, enabling a finer-grained understanding of disease variability. This work establishes a powerful framework for advancing precision medicine through unsupervised random-forest-based clustering and federated computing. We introduce a novel multi-omics clustering approach utilizing unsupervised random-forests. The unsupervised nature of the random forest enables the determination of cluster-specific feature importance, unraveling key molecular contributors to distinct patient groups. Moreover, our methodology is designed for federated execution, a crucial aspect in the medical domain where privacy concerns are paramount. We have validated our approach on machine learning benchmark data sets as well as on cancer data from The Cancer Genome Atlas (TCGA). Our method is competitive with the state-of-the-art in terms of disease subtyping, but at the same time substantially improves the cluster interpretability. Experiments indicate that local clustering performance can be improved through federated computing.
翻訳日:2024-01-30 15:04:03 公開日:2024-01-29
# ジェンダーステレオタイプを拡大する多言語テキスト・画像生成技術

Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You ( http://arxiv.org/abs/2401.16092v1 )

ライセンス: Link先を確認
Felix Friedrich, Katharina H\"ammerl, Patrick Schramowski, Jindrich Libovicky, Kristian Kersting, Alexander Fraser(参考訳) テキスト対画像生成モデルは最近、画像品質、柔軟性、テキストアライメントに驚くべき結果をもたらしており、その結果、急成長中のアプリケーションで採用されている。 多言語能力の向上により、より大きなコミュニティはこの種の技術にアクセスできるようになった。 しかし、ここで示すように、多言語モデルは単言語モデルと同様に(性)バイアスに悩まされる。 さらに、これらのモデルが言語間で同様の結果をもたらすという自然な期待もあるが、これはそうではなく、言語間で重要な違いがある。 そこで本稿では,ジェンダーバイアスのない多言語モデルの研究を促進するためのベンチマークMAGBIGを提案する。 多言語T2IモデルがMAGBIGと性別バイアスを増大させるかどうかを検討する。 この目的のために、我々は、ある職業または特性(形容詞を用いて)の人物の肖像画像をリクエストする多言語プロンプトを用いる。 我々の結果は、各性別が等しく生成されるべきという規範的な仮定から逸脱するだけでなく、言語間で大きな違いがあることを示している。 さらに,これらのバイアスに対する対策として,間接的,中立的な定式化を用いた迅速なエンジニアリング戦略について検討する。 残念ながら、それらは限られた範囲でしか役に立たず、テキストから画像へのアライメントが悪くなります。 その結果、この研究は画像生成装置における言語間の多様な表現に関するさらなる研究を要求する。

Text-to-image generation models have recently achieved astonishing results in image quality, flexibility, and text alignment and are consequently employed in a fast-growing number of applications. Through improvements in multilingual abilities, a larger community now has access to this kind of technology. Yet, as we will show, multilingual models suffer similarly from (gender) biases as monolingual models. Furthermore, the natural expectation is that these models will provide similar results across languages, but this is not the case and there are important differences between languages. Thus, we propose a novel benchmark MAGBIG intending to foster research in multilingual models without gender bias. We investigate whether multilingual T2I models magnify gender bias with MAGBIG. To this end, we use multilingual prompts requesting portrait images of persons of a certain occupation or trait (using adjectives). Our results show not only that models deviate from the normative assumption that each gender should be equally likely to be generated, but that there are also big differences across languages. Furthermore, we investigate prompt engineering strategies, i.e. the use of indirect, neutral formulations, as a possible remedy for these biases. Unfortunately, they help only to a limited extent and result in worse text-to-image alignment. Consequently, this work calls for more research into diverse representations across languages in image generators.
翻訳日:2024-01-30 15:03:46 公開日:2024-01-29
# 移動車両におけるベクトルダイヤモンド磁力計

A Vector Diamond Magnetometer in a Moving Vehicle ( http://arxiv.org/abs/2401.16090v1 )

ライセンス: Link先を確認
S. M. Graham, A. J. Newman, C. J. Stephen, A. M. Edmonds, D. J. Twitchen, M. L. Markham, G. W. Morley(参考訳) ダイヤモンド中の窒素空孔中心はベクトル磁気学に利用できる。 本研究では携帯型ベクトルダイヤモンド磁気センサを提案する。 そのベクトル能力とフィードバック制御とロバスト構造を組み合わせることで、移動プラットフォーム上での動作を可能にする。 トロリー上に配置されている間、実験室の磁気マッピングが示され、GPS座標でタグ付けされたx, y, z軸の磁場シフトを測定した移動バンで磁気センサが動作していることが示される。 これらのマッピング測定はフラックスゲート磁力計と同時に行われた測定と一致している。

Nitrogen vacancy centres in diamond can be used for vector magnetometry. In this work we present a portable vector diamond magnetometer. Its vector capability, combined with feedback control and robust structure enables operation on moving platforms. While placed on a trolley, magnetic mapping of a laboratory is demonstrated and the magnetometer is shown to be operational in a moving van with the measured magnetic field shifts for the x, y, and z axes being tagged with GPS coordinates. These mapping measurements are in agreement with measurements taken simultaneously with a fluxgate magnetometer.
翻訳日:2024-01-30 15:03:24 公開日:2024-01-29
# 機会の実体的平等のレンズを通してのアルゴリズム的会話の公正性

Fairness in Algorithmic Recourse Through the Lens of Substantive Equality of Opportunity ( http://arxiv.org/abs/2401.16088v1 )

ライセンス: Link先を確認
Andrew Bell, Joao Fonseca, Carlo Abrate, Francesco Bonchi, and Julia Stoyanovich(参考訳) 人工知能(ai)システムとのインタラクションにおいて、どのように行動し、その結果を変えるかに関するアルゴリズムシステムの結果に負の影響を受けている人たちへの推奨を提供するアルゴリズム的リコースが、人間にエージェントを与える手段として注目を集めている。 近年の研究では、ai意思決定分類器が「fair」(合理的な基準によっては)であるとしても、リコース自体は個人の初期状況の違いによる不公平であり、辺境人口の格差を和らげ、他人よりも多くの努力をするよう要求している。 世界の規範的な視点、特に時間を考慮した視点にまたがるリコースにおける公平性を評価するための、より多くの方法とメトリクスを定義する必要がある。 個人が行動するのに時間が掛かるほど、モデルやデータドリフトによって設定が変更される可能性があるからだ。 本稿では,この研究ギャップを解消するために,機会の実質的平等に規範的に整合した会話における公平性という2つの概念と,時間を考えることを提案する。 第1は、成功したリコースイベント毎に個人が実施する(しばしば繰り返される)努力を考慮し、第2は成功したリコースイベント毎に時間を考慮します。 本稿では,リアクションをシミュレートするエージェントベースのフレームワークを構築し,初期状況における差異を克服するためにどれだけの労力が必要かを示す。 そこで我々は, 努力を報い, 行動の公平性を改善するための介入を提案し, 既存の戦略と比較した。

Algorithmic recourse -- providing recommendations to those affected negatively by the outcome of an algorithmic system on how they can take action and change that outcome -- has gained attention as a means of giving persons agency in their interactions with artificial intelligence (AI) systems. Recent work has shown that even if an AI decision-making classifier is ``fair'' (according to some reasonable criteria), recourse itself may be unfair due to differences in the initial circumstances of individuals, compounding disparities for marginalized populations and requiring them to exert more effort than others. There is a need to define more methods and metrics for evaluating fairness in recourse that span a range of normative views of the world, and specifically those that take into account time. Time is a critical element in recourse because the longer it takes an individual to act, the more the setting may change due to model or data drift. This paper seeks to close this research gap by proposing two notions of fairness in recourse that are in normative alignment with substantive equality of opportunity, and that consider time. The first considers the (often repeated) effort individuals exert per successful recourse event, and the second considers time per successful recourse event. Building upon an agent-based framework for simulating recourse, this paper demonstrates how much effort is needed to overcome disparities in initial circumstances. We then proposes an intervention to improve the fairness of recourse by rewarding effort, and compare it to existing strategies.
翻訳日:2024-01-30 15:03:14 公開日:2024-01-29
# 高解像度画像品質データベース

High Resolution Image Quality Database ( http://arxiv.org/abs/2401.16087v1 )

ライセンス: Link先を確認
Huang Huang, Qiang Wan, Jari Korhonen(参考訳) デジタル写真や高解像度ディスプレイの技術は急速に進化し人気が高まり、高解像度画像に対するブラインド画像品質評価(BIQA)モデルへの需要が高まっている。 残念ながら、BIQAモデルのトレーニングに使用される大規模な画像品質データベースには、主に低解像度または一般解像度の画像が含まれている。 画像のリサイズ化は画質に影響するため、低解像度画像でトレーニングされたBIQAモデルの精度は高解像度画像に最適ではないと仮定する。 そこで我々は,解像度2880×2160ピクセルの1120枚の画像からなる高解像度画像品質データベース(HRIQ)を開発した。 本研究は, HRIQの主観的品質評価を制御実験室で収集する主観的研究であり, 精度の高いMOSが得られた。 高分解能画像の平均評価スコア(mos)を正確に予測するためのbiqaモデルのトレーニングにおける高分解能画像品質データベースの重要性を実証するために,従来型および深層学習型biqa手法をデータベースの異なる解像度バージョンでトレーニングし,テストした。 データベースはhttps://github.com/jarikorhonen/hriqで公開されている。

With technology for digital photography and high resolution displays rapidly evolving and gaining popularity, there is a growing demand for blind image quality assessment (BIQA) models for high resolution images. Unfortunately, the publicly available large scale image quality databases used for training BIQA models contain mostly low or general resolution images. Since image resizing affects image quality, we assume that the accuracy of BIQA models trained on low resolution images would not be optimal for high resolution images. Therefore, we created a new high resolution image quality database (HRIQ), consisting of 1120 images with resolution of 2880x2160 pixels. We conducted a subjective study to collect the subjective quality ratings for HRIQ in a controlled laboratory setting, resulting in accurate MOS at high resolution. To demonstrate the importance of a high resolution image quality database for training BIQA models to predict mean opinion scores (MOS) of high resolution images accurately, we trained and tested several traditional and deep learning based BIQA methods on different resolution versions of our database. The database is publicly available in https://github.com/jarikorhonen/hriq.
翻訳日:2024-01-30 15:02:47 公開日:2024-01-29
# 非フルーエント合成目標言語データによるニューラルマシン翻訳の改善

Non-Fluent Synthetic Target-Language Data Improve Neural Machine Translation ( http://arxiv.org/abs/2401.16086v1 )

ライセンス: Link先を確認
V\'ictor M. S\'anchez-Cartagena, Miquel Espl\`a-Gomis, Juan Antonio P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez(参考訳) ニューラルマシン翻訳の訓練に利用できる並行文の量は少ない場合、それらから新しい合成トレーニングサンプルを生成するのが一般的である。 並列データに類似した合成並列文を生成するために,いくつかの手法が提案されている。 これらのアプローチは、非流動的なターゲット側合成トレーニングサンプルが有害であり、翻訳性能が低下する可能性があるという仮定の下で機能する。 そこで,本研究では,多言語機械翻訳の枠組みにおいて,他言語の文であるかのように使用される場合,非流用目標文を用いた合成学習サンプルが翻訳性能を向上させることを実証する。 10個の低リソースおよび4つの高リソース翻訳タスクの実験を行い、コーパスに類似した合成学習サンプルを生成する最先端の手法と比較して、この単純な手法は翻訳性能を一貫して改善することを示した。 さらに、この改善は元のトレーニングコーパスのサイズとは無関係であり、結果として得られるシステムはドメインシフトに対してより堅牢であり、幻覚を少なくする。

When the amount of parallel sentences available to train a neural machine translation is scarce, a common practice is to generate new synthetic training samples from them. A number of approaches have been proposed to produce synthetic parallel sentences that are similar to those in the parallel data available. These approaches work under the assumption that non-fluent target-side synthetic training samples can be harmful and may deteriorate translation performance. Even so, in this paper we demonstrate that synthetic training samples with non-fluent target sentences can improve translation performance if they are used in a multilingual machine translation framework as if they were sentences in another language. We conducted experiments on ten low-resource and four high-resource translation tasks and found out that this simple approach consistently improves translation performance as compared to state-of-the-art methods for generating synthetic training samples similar to those found in corpora. Furthermore, this improvement is independent of the size of the original training corpus, the resulting systems are much more robust against domain shift and produce less hallucinations.
翻訳日:2024-01-30 15:02:28 公開日:2024-01-29
# 語レベルの言語アノテーションが低リソースニューラルマシン翻訳に与える影響の理解

Understanding the effects of word-level linguistic annotations in under-resourced neural machine translation ( http://arxiv.org/abs/2401.16078v1 )

ライセンス: Link先を確認
V\'ictor M. S\'anchez-Cartagena, Juan Antonio P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez(参考訳) 本稿では,文献に不完全な証拠が存在するニューラルネットワーク翻訳における単語レベルの言語アノテーションの効果について検討する。 この研究は、8つの言語ペア、2つのトレーニングコーパスサイズ、2つのアーキテクチャ、3種類のアノテーション、ダミータグ(言語情報は全くない)、パート・オブ・スパイチタグ、モーフォ・シンタクティック記述タグ(音声と形態素的特徴からなる)をカバーしている。 これらの言語アノテーションは、各単語の前に置かれる単一のタグとして入力または出力ストリームにインターリーブされる。 各シナリオでの性能を測定するために,自動評価メトリクスを使用し,自動エラー分類を行う。 実験の結果, ソース言語アノテーションが有用であり, モルフォ・シンタクティックな記述が一部の言語対よりも優れていることがわかった。 反対に、対象言語で単語に注釈を付けると、モーフォシンタクティブ記述タグの使用が出力の文法性を改善するにもかかわらず、自動評価メトリクスの観点で、part-of-speechタグはモーフォシンタク記述タグを体系的に上回る。 この結果の背景にある理由を詳細に分析する。

This paper studies the effects of word-level linguistic annotations in under-resourced neural machine translation, for which there is incomplete evidence in the literature. The study covers eight language pairs, different training corpus sizes, two architectures, and three types of annotation: dummy tags (with no linguistic information at all), part-of-speech tags, and morpho-syntactic description tags, which consist of part of speech and morphological features. These linguistic annotations are interleaved in the input or output streams as a single tag placed before each word. In order to measure the performance under each scenario, we use automatic evaluation metrics and perform automatic error classification. Our experiments show that, in general, source-language annotations are helpful and morpho-syntactic descriptions outperform part of speech for some language pairs. On the contrary, when words are annotated in the target language, part-of-speech tags systematically outperform morpho-syntactic description tags in terms of automatic evaluation metrics, even though the use of morpho-syntactic description tags improves the grammaticality of the output. We provide a detailed analysis of the reasons behind this result.
翻訳日:2024-01-30 15:02:09 公開日:2024-01-29
# フラクタル格子における異常量子輸送

Anomalous quantum transport in fractal lattices ( http://arxiv.org/abs/2401.16077v1 )

ライセンス: Link先を確認
Abel Rojo-Franc\`as, Priyanshu Pansari, Utso Bhattacharya, Bruno Juli\'a-D\'iaz, and Tobias Grass(参考訳) フラクタル格子は、異なるスケールで繰り返しパターンを持つ自己相似構造である。 他の非周期格子と同様に、翻訳対称性の欠如は量子局在効果を引き起こす。 低次元乱れ系とは対照的に、局所状態と拡張状態の共存はフラクタル構造において可能であり、微妙な輸送挙動をもたらす。 ここでは,2つのフラクタル格子,Sierpi\'nskiガスケットとSierpi\'nskiカーペットの動的性質について検討する。 Sierpi\'nski ガスケットでは、準拡散的な挙動が見出され、Sierpi\'nski カーペットは準弾道的な輸送特性を示す。 異なる力学挙動はシステムのスペクトル特性の定性的差異と一致していることを示す。 具体的には、Sierpi\'nskiのカーペットとは対照的に、Sierpi\'nskiのガスケットはレベル間隔分布の逆のパワー則の振る舞いを示す。 技術応用の観点からは、sierpi\'nski gasket における部分拡散挙動を量子メモリとして使用できることを示す。 フラクタルと正則格子を補間することにより、異なる輸送レジーム間の柔軟なチューニングが可能となる。

Fractal lattices are self-similar structures with repeated patterns on different scales. As in other aperiodic lattices, the absence of translational symmetry can give rise to quantum localization effects. In contrast to low-dimensional disordered systems, co-existence of localized and extended states is possible in fractal structures, and can lead to subtle transport behavior. Here, we study the dynamical properties of two fractal lattices, the Sierpi\'nski gasket and the Sierpi\'nski carpet. Despite their geometric similarity, the transport turns out to behave very differently: In the Sierpi\'nski gasket, we find a sub-diffusive behavior, whereas the Sierpi\'nski carpet exhibits sub-ballistic transport properties. We show that the different dynamical behavior is in line with qualitative differences of the systems' spectral properties. Specifically, in contrast to the Sierpi\'nski carpet, the Sierpi\'nski gasket exhibits an inverse power-law behavior of the level spacing distribution. From the point of view of technological applications, we demonstrate that the sub-diffusive behavior in the Sierpi\'nski gasket can be used as a quantum memory. By interpolating between fractal and regular lattices, a flexible tuning between different transport regimes becomes possible.
翻訳日:2024-01-30 15:01:45 公開日:2024-01-29
# find the cliffhanger: soap operasのマルチモーダルトレーラー

Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas ( http://arxiv.org/abs/2401.16076v1 )

ライセンス: Link先を確認
Carlo Bretti, Pascal Mettes, Hendrik Vincent Koops, Daan Odijk, Nanne van Noord(参考訳) トレーラーを作るには、より長いビデオから短いエンゲージメントの瞬間を慎重に取り出してまとめる必要がある。 これは視覚情報と対話情報の両方に基づいてモーメントを選択する必要がある。 本稿では,長編ビデオからトレーラーにふさわしいモーメントを選択する際に,トレーラー性を予測するマルチモーダル手法を提案する。 新たに導入されたソープオペラデータセットに,マルチモーダル情報を利用したトレーラの予測が課題であることを示す。 コードはhttps://github.com/carlobretti/cliffhangerで入手できる。

Creating a trailer requires carefully picking out and piecing together brief enticing moments out of a longer video, making it a chal- lenging and time-consuming task. This requires selecting moments based on both visual and dialogue information. We introduce a multi-modal method for predicting the trailerness to assist editors in selecting trailer- worthy moments from long-form videos. We present results on a newly introduced soap opera dataset, demonstrating that predicting trailerness is a challenging task that benefits from multi-modal information. Code is available at https://github.com/carlobretti/cliffhanger
翻訳日:2024-01-30 15:01:26 公開日:2024-01-29
# 神経形態的ヴァレンスと覚醒推定

Neuromorphic Valence and Arousal Estimation ( http://arxiv.org/abs/2401.16058v1 )

ライセンス: Link先を確認
Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Alberto Del Bimbo(参考訳) 顔とその基盤となる感情を認識することはバイオメトリックスの重要な側面である。 実際、顔からの感情状態の推定は、文学のいくつかの角度から取り組まれている。 本稿では,ニューロモルフィックデータを用いて顔からの価値と覚醒値を予測する新しい手法について述べる。 イベントベースのアノテートビデオの収集が難しいため,既存のrgbデータセットのニューロモルフィックな対応を生成するために,イベントカメラシミュレータを利用する。 シミュレーションデータ上でのトレーニングモデルが、原子価-覚醒推定の最先端結果をもたらすだけでなく、我々のトレーニングモデルは、感情認識の下流タスクにさらなるトレーニングを加えることなく、実データに直接適用できることを実証する。 本稿では,フレームベースとビデオベースの両方を用いて,課題を解決するための代替モデルを提案する。

Recognizing faces and their underlying emotions is an important aspect of biometrics. In fact, estimating emotional states from faces has been tackled from several angles in the literature. In this paper, we follow the novel route of using neuromorphic data to predict valence and arousal values from faces. Due to the difficulty of gathering event-based annotated videos, we leverage an event camera simulator to create the neuromorphic counterpart of an existing RGB dataset. We demonstrate that not only training models on simulated data can still yield state-of-the-art results in valence-arousal estimation, but also that our trained models can be directly applied to real data without further training to address the downstream task of emotion recognition. In the paper we propose several alternative models to solve the task, both frame-based and video-based.
翻訳日:2024-01-30 15:01:15 公開日:2024-01-29
# Stolen Subwords: 機械翻訳モデルステアリングにおける語彙の重要性

Stolen Subwords: Importance of Vocabularies for Machine Translation Model Stealing ( http://arxiv.org/abs/2401.16055v1 )

ライセンス: Link先を確認
Vil\'em Zouhar(参考訳) 学習ベースの機能を盗む場合、攻撃者は被害者の出力に基づいてローカルモデルを構築しようとしている。 攻撃者は、ローカルモデルのアーキテクチャ、最適化方法、特にNLPモデルでは、BPEのようなサブワード語彙を選択する必要がある。 機械翻訳タスクでは,(1)モデルステルスのシナリオにおいて語彙の選択が役割を担っているか,(2)被害者の語彙を抽出できるかどうかを検討する。 語彙自体がローカルモデルのパフォーマンスに大きな影響を与えないことが分かりました。 グレーボックスモデルアクセスが与えられた場合、出力(出力の復号化サブワード)を収集することで、被害者の語彙を収集することができる。 語彙選択の最小効果の結果は、ブラックボックスの知識蒸留においてより広く重要である。

In learning-based functionality stealing, the attacker is trying to build a local model based on the victim's outputs. The attacker has to make choices regarding the local model's architecture, optimization method and, specifically for NLP models, subword vocabulary, such as BPE. On the machine translation task, we explore (1) whether the choice of the vocabulary plays a role in model stealing scenarios and (2) if it is possible to extract the victim's vocabulary. We find that the vocabulary itself does not have a large effect on the local model's performance. Given gray-box model access, it is possible to collect the victim's vocabulary by collecting the outputs (detokenized subwords on the output). The results of the minimum effect of vocabulary choice are important more broadly for black-box knowledge distillation.
翻訳日:2024-01-30 15:00:59 公開日:2024-01-29
# アスペクト指向モデル駆動アプローチによるデバイス対応webサービスとそのモバイルクライアントの改善

Improving device-aware Web services and their mobile clients through an aspect-oriented, model-driven approach ( http://arxiv.org/abs/2401.16139v1 )

ライセンス: Link先を確認
Guadalupe Ortiz, Alfonso Garcia-de-Prado(参考訳) コンテキスト: モバイルデバイスは,インターネット接続においても,私たちの日常生活において重要な要素になっています。 その結果、インターネット経由でサービスを提供する場合、Webサービスは極めて重要になっている。 しかしながら、現在のWebサービスは、異なるタイプのデバイスからの呼び出しに関して非常に柔軟であり、特にモバイルデバイスから呼び出される際に、それらが適応可能である必要性を考えると、なおさらです。 目的:本稿では,異なるデバイスタイプから透過的に呼び出すことができ,それに続く応答を返すフレキシブルなwebサービスを作成するためのアプローチと,特定のデバイス特性とエンドユーザの嗜好の結果としてクライアントの適応性を完全に分離した方法で提供する。 方法: アスペクト指向プログラミングとモデル駆動開発は、複数のデバイスに対するサービスとクライアントコード適応の影響を低減し、開発者の作業を容易にするために使われてきた。 結果: モデル駆動の方法論は、システムモデルからコードへ従い、umlモデルのモバイルデバイスにどのサービスを適用するべきかをマークするオプションをwebサービス開発者に提供し、モデルから自動的に分離された適応コードを取得する。 結論:本論文で提示したアプローチは,統合プラットフォームにおけるモバイル対応型webサービスの開発に追従する可能性を示し,デバイス関連コードをメイン機能から完全に分離するだけでなく,モバイルクライアントを特定のデバイス特性にモジュール化した非意図的適応と,ユーザ嗜好の確定を可能にするためのアスペクト指向技術を利用することにより,そのメリットを享受することができる。

Context: Mobile devices have become an essential element in our daily lives, even for connecting to the Internet. Consequently, Web services have become extremely important when offering services through the Internet. However, current Web services are very inflexible as regards their invocation from different types of device, especially if we consider the need for them to be adaptable when being invoked from mobile devices. Objective: In this paper, we provide an approach for the creation of flexible Web services which can be invoked transparently from different device types and which return subsequent responses, as well as providing the client's adaptation as a result of the particular device characteristics and end-user preferences in a completely decoupled way. Method: Aspect-Oriented Programming and model-driven development have been used to reduce both the impact of service and client code adaptation for multiple devices as well as to facilitate the developer's task. Results: A model-driven methodology can be followed from system models to code, providing the Web service developer with the option of marking which services should be adapted to mobile devices in the UML models, and obtaining the decoupled adaptation code automatically from the models. Conclusion: We can conclude that the approach presented in this paper provides us with the possibility of following the development of mobile-aware Web services in an integrated platform, benefiting from the use of aspect-oriented techniques not only for maintaining device-related code completely decoupled from the main functionality one, but also allowing a modularized non-intrusive adaptation of mobile clients to the specific device characteristics as well as to final user preferences.
翻訳日:2024-01-30 14:55:05 公開日:2024-01-29
# x-peft: 極端なマルチプロファイルシナリオのための非常にパラメータ効率の良い微調整

X-PEFT: eXtremely Parameter-Efficient Fine-Tuning for Extreme Multi-Profile Scenarios ( http://arxiv.org/abs/2401.16137v1 )

ライセンス: Link先を確認
Namju Kwak and Taesup Kim(参考訳) パラメータ効率のよい微調整(PEFT)技術は、特定のタスクやプロファイルの最小限のパラメータを使って、事前訓練された言語モデル(PLM)を微調整することを目的としている。 アダプタチューニングは、フルモデルファインチューニングに比べてパラメータ効率が向上するが、プロファイル毎にPLMに付加されるパラメータの小さなセットを導入する。 これは複数のプロファイルを持つ実用的なアプリケーションにおいて問題となり、特にプロファイル数の増加が線形に追加パラメータの総数を増加させる場合に問題となる。 この問題を軽減するため,我々はx-peft(x-peft)という,非常に小さなコンパクトテンソルセットを新しいプロファイルに微調整することにより,与えられたアダプタを適応的に選択する新しいpeft方式を導入する。 提案手法を効果的に検証するために,多数の訓練済みあるいは未訓練の(ランダムな)アダプタを用いて実装する。 我々は,LMPタスクとGLUEタスクによるX-PEFTの性能評価を行い,従来のアダプタチューニングの有効性に適合するか上回っていることを示した。

Parameter-efficient fine-tuning (PEFT) techniques, such as adapter tuning, aim to fine-tune a pre-trained language model (PLM) using a minimal number of parameters for a specific task or profile. Although adapter tuning provides increased parameter efficiency compared to full-model fine-tuning, it introduces a small set of additional parameters attached to a PLM for each profile. This can become problematic in practical applications with multiple profiles, particularly when a significant increase in the number of profiles linearly boosts the total number of additional parameters. To mitigate this issue, we introduce X-PEFT, a novel PEFT method that leverages a multitude of given adapters by fine-tuning an extremely small set of compact tensors for a new profile, which serve as binary masks to adaptively select the given adapters. To efficiently validate our proposed method, we implement it using a large number of trained or untrained (random) adapters. We evaluate the performance of X-PEFT through LaMP and GLUE tasks and demonstrate that it either matches or surpasses the effectiveness of conventional adapter tuning, despite reducing the memory requirements per profile by a factor of 10,000 compared to it.
翻訳日:2024-01-30 14:54:36 公開日:2024-01-29
# tfheを用いた暗号化データのニューラルネットワークトレーニング

Neural Network Training on Encrypted Data with TFHE ( http://arxiv.org/abs/2401.16136v1 )

ライセンス: Link先を確認
Luis Montero, Jordan Frery, Celia Kherfallah, Roman Bredehoft, Andrei Stoian(参考訳) ニューラルネットワークのトレーニングをアウトソーシングする上で,悪意のある関係者からのデータの機密性を保ちながらアプローチを提案する。 完全に同型な暗号化を使用して、暗号化データで動作し、量子化されたニューラルネットワークモデルを学ぶ統一的なトレーニングアプローチを構築します。 データは、水平あるいは垂直に複数のパーティに分割して、機密データでのコラボレーションを可能にする。 複数のデータセット上でロジスティック回帰と多層パーセプトロンを訓練する。

We present an approach to outsourcing of training neural networks while preserving data confidentiality from malicious parties. We use fully homomorphic encryption to build a unified training approach that works on encrypted data and learns quantized neural network models. The data can be horizontally or vertically split between multiple parties, enabling collaboration on confidential data. We train logistic regression and multi-layer perceptrons on several datasets.
翻訳日:2024-01-30 14:54:13 公開日:2024-01-29
# 抜け穴のない真正非局所性試験における最小検出効率

Minimum Detection Efficiencies for Loophole-free Genuine Nonlocality Tests ( http://arxiv.org/abs/2401.16134v1 )

ライセンス: Link先を確認
Subhendu B. Ghosh, Snehasish Roy Chowdhury, Ranendu Adhikary, Arup Roy and Tamal Guha(参考訳) デバイスに依存しない技術のアーキテクチャにおいて重要な量子非局所性の証明は、深刻な実験的課題に直面している。 検出の抜け穴は、完全な検出器が使えないことに由来するもので、それらの中で大きな問題の1つである。 本研究では,関係当事者に課せられる因果的制約の種類から,様々な非局所性の検出に必要な最小検出効率(MDE)に着目した。 この文脈では、最近提案された$T_2$型非局所性は完全性から著しく逸脱することを示した。 さらに,Svetlichny の非局所性を示すのに必要な MDE を計算した。 最後に、ノイズの存在を必然的に考慮し、$T_2$型非局所性を証明する不完全検出器の堅牢性を示す。

The certification of quantum nonlocality, which has immense significance in architecting device-independent technologies, confronts severe experimental challenges. Detection loophole, originating from the unavailability of perfect detectors, is one of the major issues amongst them. In the present study we focus on the minimum detection efficiency (MDE) required to detect various forms of genuine nonlocality, originating from the type of causal constraints imposed on the involved parties. In this context, we demonstrate that the MDE needed to manifest the recently suggested $T_2$-type nonlocality deviates significantly from perfection. Additionally, we have computed the MDE necessary to manifest Svetlichny's nonlocality, with state-independent approach markedly reducing the previously established bound. Finally, considering the inevitable existence of noise we demonstrate the robustness of the imperfect detectors to certify $T_2$-type nonlocality.
翻訳日:2024-01-30 14:54:07 公開日:2024-01-29
# booleanoct:多変量ブール規則に基づく最適分類木

BooleanOCT: Optimal Classification Trees based on multivariate Boolean Rules ( http://arxiv.org/abs/2401.16133v1 )

ライセンス: Link先を確認
Jiancheng Tu, Wenqi Fan and Zhibin Wu(参考訳) 分類木のグローバルな最適化は、特に精度を向上し、サイズを最適化し、人間の理解性を向上する上で大きな可能性を証明している。 既存の最適分類木は、カートのような欲望に基づく木モデルよりも精度が大幅に向上するが、ランダムフォレストのようなより複雑なブラックボックスモデルと比較しても、それらは依然として不足している。 このギャップを埋めるために,多変量ブール規則に基づくMIP(mixed-integer Programming)の定式化を導入し,最適分類木を導出する。 提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。 このアプローチはBooleanOCTというオープンソースのPythonパッケージで実装されている。 UCI機械学習レポジトリの36データセットに対して,これらの手法を総合的にベンチマークした。 提案するモデルは,実世界のデータセット上で実用的可解性を示し,数万のデータセットサイズを効果的に処理する。 精度を最大化するために、このモデルは、小規模および中規模のデータセットにおいて、ランダムな森林に対して平均3.1\%と1.5\%の絶対的な改善を達成する。 バランスのとれた精度、コストに敏感なコスト、およびf1-scoreを含む様々な目的をターゲットにした実験は、小規模から中規模のデータセットにおける現在の最適分類木法に対するフレームワークの幅広い適用性とその優位性を示している。

The global optimization of classification trees has demonstrated considerable promise, notably in enhancing accuracy, optimizing size, and thereby improving human comprehensibility. While existing optimal classification trees substantially enhance accuracy over greedy-based tree models like CART, they still fall short when compared to the more complex black-box models, such as random forests. To bridge this gap, we introduce a new mixed-integer programming (MIP) formulation, grounded in multivariate Boolean rules, to derive the optimal classification tree. Our methodology integrates both linear metrics, including accuracy, balanced accuracy, and cost-sensitive cost, as well as nonlinear metrics such as the F1-score. The approach is implemented in an open-source Python package named BooleanOCT. We comprehensively benchmark these methods on the 36 datasets from the UCI machine learning repository. The proposed models demonstrate practical solvability on real-world datasets, effectively handling sizes in the tens of thousands. Aiming to maximize accuracy, this model achieves an average absolute improvement of 3.1\% and 1.5\% over random forests in small-scale and medium-sized datasets, respectively. Experiments targeting various objectives, including balanced accuracy, cost-sensitive cost, and F1-score, demonstrate the framework's wide applicability and its superiority over contemporary state-of-the-art optimal classification tree methods in small to medium-scale datasets.
翻訳日:2024-01-30 14:53:49 公開日:2024-01-29
# CIMIL-CRC : H&E染色画像からの大腸癌分子サブタイプ分類のための臨床応用多段階学習フレームワーク

CIMIL-CRC: a clinically-informed multiple instance learning framework for patient-level colorectal cancer molecular subtypes classification from H\&E stained images ( http://arxiv.org/abs/2401.16131v1 )

ライセンス: Link先を確認
Hadar Hezi, Matan Gelber, Alexander Balabanov, Yosef E. Maruvka, Moti Freiman(参考訳) 大腸癌に対する治療アプローチは、免疫療法がマイクロサテライト不安定症 (msi) 患者に有効であるが、マイクロサテライト安定型 (mss) サブタイプには効果がないため、分子サブタイプに大きく依存している。 ディープニューラルネットワーク(DNN)を利用して、ヘマトキシリンとエオシン(H\&E)染色スライディング画像(WSI)を分析してCRCサブタイプの分化を自動化することは有望である。 WSIsの規模が広いため、MIL(Multiple Instance Learning)技術は一般的に研究されている。 しかし、既存のmil法は分類のための最も代表的な画像パッチを特定することに焦点を当てており、重要な情報を失う可能性がある。 さらに、msiクラス腫瘍が近位(右側)結腸で主に発生する傾向など、臨床的に関連のある情報を見落としていることが多い。 DNNフレームワークである 'CIMIL-CRC' を紹介します。 1) 事前学習した特徴抽出モデルと主成分分析(PCA)を効率よく組み合わせ、全てのパッチから情報を集約することでMSI/MSS MIL問題を解決する。 2) 患者レベルの分類精度を高めるために, 臨床症状, 特に結腸内の腫瘍位置をモデルに統合する。 我々は,TCGA-CRC-DXコホートにおけるモデル開発のための5倍のクロスバリデーション実験装置を用いて,曲線下平均面積(AUC)を用いてCIMIL-CRC法を評価し,ベースラインパッチレベル分類,MILのみアプローチ,臨床インフォームパッチレベル分類アプローチと対比した。 私たちのCIMIL-CRCは、すべてのメソッド(AUROC: $0.92\pm0.002$ (95\% CI 0.91-0.92)、 vs. $0.79\pm0.02$ (95\% CI 0.76-0.82)、$0.86\pm0.01$ (95\% CI 0.85-0.88)、$0.87\pm0.01$ (95\% CI 0.86-0.88))を上回りました。 改善は統計的に有意であった。

Treatment approaches for colorectal cancer (CRC) are highly dependent on the molecular subtype, as immunotherapy has shown efficacy in cases with microsatellite instability (MSI) but is ineffective for the microsatellite stable (MSS) subtype. There is promising potential in utilizing deep neural networks (DNNs) to automate the differentiation of CRC subtypes by analyzing Hematoxylin and Eosin (H\&E) stained whole-slide images (WSIs). Due to the extensive size of WSIs, Multiple Instance Learning (MIL) techniques are typically explored. However, existing MIL methods focus on identifying the most representative image patches for classification, which may result in the loss of critical information. Additionally, these methods often overlook clinically relevant information, like the tendency for MSI class tumors to predominantly occur on the proximal (right side) colon. We introduce `CIMIL-CRC', a DNN framework that: 1) solves the MSI/MSS MIL problem by efficiently combining a pre-trained feature extraction model with principal component analysis (PCA) to aggregate information from all patches, and 2) integrates clinical priors, particularly the tumor location within the colon, into the model to enhance patient-level classification accuracy. We assessed our CIMIL-CRC method using the average area under the curve (AUC) from a 5-fold cross-validation experimental setup for model development on the TCGA-CRC-DX cohort, contrasting it with a baseline patch-level classification, MIL-only approach, and Clinically-informed patch-level classification approach. Our CIMIL-CRC outperformed all methods (AUROC: $0.92\pm0.002$ (95\% CI 0.91-0.92), vs. $0.79\pm0.02$ (95\% CI 0.76-0.82), $0.86\pm0.01$ (95\% CI 0.85-0.88), and $0.87\pm0.01$ (95\% CI 0.86-0.88), respectively). The improvement was statistically significant.
翻訳日:2024-01-30 14:53:21 公開日:2024-01-29
# 時間領域におけるasp解法における学習制約の一般化について

On the generalization of learned constraints for ASP solving in temporal domains ( http://arxiv.org/abs/2401.16124v1 )

ライセンス: Link先を確認
Javier Romero, Torsten Schaub, Klaus Strauch(参考訳) aspにおける動的問題の表現は、通常、変数と制約のコピーを使用して、それが直接エンコードされているか、あるいはアクションまたは時間言語を介しても、各タイムスタンプに1つずつ使われる。 変数と制約の乗算は接地中に行われ、解法は異なるインスタンス間の時間的関係について完全に無知である。 一方、今日のASPソルバのパフォーマンスの重要な要素は、コンフリクト駆動の制約学習である。 我々の疑問は、特定の時間ステップで学習した制約を他の時刻スタンプで一般化し再利用できるかどうか、そして最終的に時間的問題に対する全体的な問題解決性能を高めるかどうかである。 時間領域を十分に把握し,学習した動的制約を一般化できる条件について検討する。 そこで本研究では,翻訳プログラムに対して学習制約を他の時間点に一般化できるように,元の論理プログラムの簡単な翻訳を提案する。 さらに、学習した全ての制約を全ての時間ステップに一般化できる時間的問題の性質を特定する。 この性質は多くの計画問題によって満たされていることがわかった。 最後に、ASPソルバに一般化された制約を追加する影響を実証的に評価する。

The representation of a dynamic problem in ASP usually boils down to using copies of variables and constraints, one for each time stamp, no matter whether it is directly encoded or via an action or temporal language. The multiplication of variables and constraints is commonly done during grounding and the solver is completely ignorant about the temporal relationship among the different instances. On the other hand, a key factor in the performance of today's ASP solvers is conflict-driven constraint learning. Our question is now whether a constraint learned for particular time steps can be generalized and reused at other time stamps, and ultimately whether this enhances the overall solver performance on temporal problems. Knowing full well the domain of time, we study conditions under which learned dynamic constraints can be generalized. We propose a simple translation of the original logic program such that, for the translated programs, the learned constraints can be generalized to other time points. Additionally, we identify a property of temporal problems that allows us to generalize all learned constraints to all time steps. It turns out that this property is satisfied by many planning problems. Finally, we empirically evaluate the impact of adding the generalized constraints to an ASP solver
翻訳日:2024-01-30 14:52:33 公開日:2024-01-29
# もっとよくフィットするか? 個人ドライバに適応したインクリメンタル学習型マルチモーダルオブジェクト参照フレームワーク

Looking for a better fit? An Incremental Learning Multimodal Object Referencing Framework adapting to Individual Drivers ( http://arxiv.org/abs/2401.16123v1 )

ライセンス: Link先を確認
Amr Gomaa and Guillermo Reyes and Michael Feld and Antonio Kr\"uger(参考訳) 自動車産業の、自動および半自動車両への急速な進歩は、タッチベースや音声コマンドシステムのような従来の車両インタラクションの手法を、車両外の物体を参照するなど、幅広い非運転関連のタスクに不適当にしている。 その結果、運転時のより適切な相互作用として、ジェスチャー入力(手、視線、頭ポーズジェスチャーなど)へと研究が移行した。 しかし,運転の動的特性と個人差により,運転者のジェストラル入力性能には有意な差がある。 理論上、この固有の変数は、データ駆動機械学習モデルによって緩和される可能性があるが、一般的な方法論は、オブジェクト参照のための制約付きシングルインスタンストレーニングモデルに傾いている。 これらのモデルでは、個々のドライバーの発散挙動や様々な運転シナリオに継続的に適応する能力が限られている。 そこで本稿では,オブジェクトの駆動と参照という2つのタスクに携わるドライバの振る舞いや特徴に適応する,新しい回帰に基づく漸進的学習手法である‘textit{IcRegress} を提案する。 ドライバエクスペリエンス,安全性,利便性を高めるために,生涯学習を継続することで,マルチモーダルなジェストラルインタフェースをよりパーソナライズし,適応可能なソリューションを提案する。 提案手法は車外オブジェクト参照のユースケースを用いて評価され,手作業,運転経験,運転条件など,さまざまなドライバ特性にまたがる1つの訓練モデルに適応したインクリメンタルラーニングモデルの優位性を強調した。 最後に、再現性を促進し、デプロイを容易にし、さらなる研究を促進するために、我々は、オープンソースフレームワークとして、 \url{https://github.com/amrgomaaelhady/IcRegress}でアプローチを提供しています。

The rapid advancement of the automotive industry towards automated and semi-automated vehicles has rendered traditional methods of vehicle interaction, such as touch-based and voice command systems, inadequate for a widening range of non-driving related tasks, such as referencing objects outside of the vehicle. Consequently, research has shifted toward gestural input (e.g., hand, gaze, and head pose gestures) as a more suitable mode of interaction during driving. However, due to the dynamic nature of driving and individual variation, there are significant differences in drivers' gestural input performance. While, in theory, this inherent variability could be moderated by substantial data-driven machine learning models, prevalent methodologies lean towards constrained, single-instance trained models for object referencing. These models show a limited capacity to continuously adapt to the divergent behaviors of individual drivers and the variety of driving scenarios. To address this, we propose \textit{IcRegress}, a novel regression-based incremental learning approach that adapts to changing behavior and the unique characteristics of drivers engaged in the dual task of driving and referencing objects. We suggest a more personalized and adaptable solution for multimodal gestural interfaces, employing continuous lifelong learning to enhance driver experience, safety, and convenience. Our approach was evaluated using an outside-the-vehicle object referencing use case, highlighting the superiority of the incremental learning models adapted over a single trained model across various driver traits such as handedness, driving experience, and numerous driving conditions. Finally, to facilitate reproducibility, ease deployment, and promote further research, we offer our approach as an open-source framework at \url{https://github.com/amrgomaaelhady/IcRegress}.
翻訳日:2024-01-30 14:52:13 公開日:2024-01-29
# DeFlow: 自動運転におけるシーンフローネットワークのデコーダ

DeFlow: Decoder of Scene Flow Network in Autonomous Driving ( http://arxiv.org/abs/2401.16122v1 )

ライセンス: Link先を確認
Qingwen Zhang, Yi Yang, Heng Fang, Ruoyu Geng, Patric Jensfelt(参考訳) シーンフロー推定はシーン内の点の動きを予測し、特に自動運転におけるタスクを支援することにより、シーンの3次元運動場を決定する。 大規模なポイントクラウドを入力として持つ多くのネットワークは、voxelizationを使用して、リアルタイム実行のための擬似イメージを作成する。 しかしながら、ボキセル化過程は、しばしば点特異的な特徴の喪失をもたらす。 これにより、シーンフロータスクの機能を回復する上での課題が生まれます。 本稿では, Gated Recurrent Unit (GRU) の改良により, ボクセルに基づく特徴から点への遷移を可能にするDeFlowを紹介した。 シーンフロー推定性能をさらに高めるために,静的点と動的点のデータ不均衡を考慮した新しい損失関数を定式化する。 Argoverse 2のシーンフロータスクの評価から,DeFlowが大規模クラウドデータに対して最先端の結果を達成し,ネットワークの性能と効率が他と比較して向上していることが分かる。 コードはhttps://github.com/KTH-RPL/deflowで公開されている。

Scene flow estimation determines a scene's 3D motion field, by predicting the motion of points in the scene, especially for aiding tasks in autonomous driving. Many networks with large-scale point clouds as input use voxelization to create a pseudo-image for real-time running. However, the voxelization process often results in the loss of point-specific features. This gives rise to a challenge in recovering those features for scene flow tasks. Our paper introduces DeFlow which enables a transition from voxel-based features to point features using Gated Recurrent Unit (GRU) refinement. To further enhance scene flow estimation performance, we formulate a novel loss function that accounts for the data imbalance between static and dynamic points. Evaluations on the Argoverse 2 scene flow task reveal that DeFlow achieves state-of-the-art results on large-scale point cloud data, demonstrating that our network has better performance and efficiency compared to others. The code is open-sourced at https://github.com/KTH-RPL/deflow.
翻訳日:2024-01-30 14:51:39 公開日:2024-01-29
# 9-cyclotomic clifford+$\mathcal{d}$ gatesの$pu(3)$における算術性と被覆率

Arithmeticity and covering rate of the $9$-cyclotomic Clifford+$\mathcal{D}$ gates in $PU(3)$ ( http://arxiv.org/abs/2401.16120v1 )

ライセンス: Link先を確認
Shai Evra and Ori Parzanchevski(参考訳) clifford+t ゲート集合は pu(2) の位相的生成集合であり、単一の量子ビット上の量子計算の観点からよく研究されている。 PU(2)の完全なS-算術部分群を生成するという発見は、量子計算と数論の間の実りある相互作用をもたらし、特にこれらのゲートの単語がPU(2)をほぼ最適にカバーしているという証明につながった。 本稿では,PU(3) の類似ゲート Clifford+$\mathcal{D}$ について検討する。 この集合は PU(3) の完全な S-算術的部分群を生成し、より弱い準最適被覆特性を満たすことを示す。 我々の証明は PU(2) の証明とは異なる: どちらのゲート集合も自然に(Bruhat-Tits)木に作用するが、PU(2) では生成された群は木の頂点に推移的に作用し、これは算術性と効率性の両方を証明する主要な要素である。 PU(3) (Clifford+$\mathcal{D}$) の場合、木の作用は過渡的ではない。 これにより算術性の証明がかなり難しくなり、自己同型表現論による被覆率の研究がより深く関与し、被覆率が遅くなる。

The Clifford+T gate set is a topological generating set for PU(2), which has been well-studied from the perspective of quantum computation on a single qubit. The discovery that it generates a full S-arithmetic subgroup of PU(2) has led to a fruitful interaction between quantum computation and number theory, leading in particular to a proof that words in these gates cover PU(2) in an almost-optimal manner. In this paper we study an analogue gate set for PU(3) called Clifford+$\mathcal{D}$. We show that this set generates a full S-arithmetic subgroup of PU(3), and satisfies a slightly weaker almost-optimal covering property. Our proofs are different from those for PU(2): while both gate sets act naturally on a (Bruhat-Tits) tree, in PU(2) the generated group acts transitively on the vertices of the tree, and this is a main ingredient in proving both arithmeticity and efficiency. In the PU(3) (Clifford+$\mathcal{D}$) case the action on the tree is far from being transitive. This makes the proof of arithmeticity considerably harder, and the study of covering rate by automorphic representation theory becomes more involved and results in a slower covering rate.
翻訳日:2024-01-30 14:51:23 公開日:2024-01-29
# マルチモーダル感情分析のための三重対角表現学習

Triple Disentangled Representation Learning for Multimodal Affective Analysis ( http://arxiv.org/abs/2401.16119v1 )

ライセンス: Link先を確認
Ying Zhou, Xuefeng Liang, Han Chen, Yin Zhao(参考訳) マルチモーダル学習は,様々なモーダルの包括的情報,特に補完的情報により,感情分析タスクにおいて有意なアドバンテージを示している。 このように、多くの新しい研究は、入力データからモダリティ不変およびモダリティ固有表現を分離し、予測のためにそれらを融合することに焦点を当てている。 しかし,本研究では,モダリティ特有の表現はタスクと無関係あるいは相反する情報を含む可能性があり,学習された多様表現の有効性が低下することを示した。 本稿では, アンタングル化問題を再検討し, 入力データから, モダリティ不変, 有効モダリティ特化, 不効果的なモダリティ特化表現を非アンタングル化する三重アンタングル化手法TriDiRAを提案する。 モダリティ不変表現と効果的なモダリティ固有表現のみを用いることで、トリディラはモデルトレーニング中のモダリティ間の無関係かつ相反する情報の影響を著しく軽減することができる。 4つのベンチマークデータセットで実施した大規模な実験は、SOTA法より優れている3つの絡み合いの有効性と一般化を示した。

Multimodal learning has exhibited a significant advantage in affective analysis tasks owing to the comprehensive information of various modalities, particularly the complementary information. Thus, many emerging studies focus on disentangling the modality-invariant and modality-specific representations from input data and then fusing them for prediction. However, our study shows that modality-specific representations may contain information that is irrelevant or conflicting with the tasks, which downgrades the effectiveness of learned multimodal representations. We revisit the disentanglement issue, and propose a novel triple disentanglement approach, TriDiRA, which disentangles the modality-invariant, effective modality-specific and ineffective modality-specific representations from input data. By fusing only the modality-invariant and effective modality-specific representations, TriDiRA can significantly alleviate the impact of irrelevant and conflicting information across modalities during model training. Extensive experiments conducted on four benchmark datasets demonstrate the effectiveness and generalization of our triple disentanglement, which outperforms SOTA methods.
翻訳日:2024-01-30 14:50:57 公開日:2024-01-29
# 量子チェーク

Quantum Cheques ( http://arxiv.org/abs/2401.16116v1 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 一般に検証可能な量子マネーは、量子暗号において中心的な焦点となっている。 今のところ、このプリミティブの構成は標準的な仮定に基づいて存在しない。 そこで本研究では, $\textit{quantum cheques}$ (QCs) という別の概念を提案する。 量子チェークは公開鍵を使用して検証できるが、単一のユーザによってのみ検証できる。 具体的には、支払い者は、そのIDを使用して特定の受信者の量子チェークに署名し、受信者は銀行の助けなしにそれを検証でき、支払い者は別のIDを持つ別のユーザに同じチェークを割り当てることができない。 量子マネーとは違って、QCは銀行によって発行されたチークがすべて古典的である場合にのみ量子通信を必要とする。 本稿では,LWE(Learning-with-errors)の仮定に基づいてQCを構築する方法を示す。 このプロセスでは、独立した関心を持つ2つの新しいプリミティブを構築します。 まず、"\textit{signatures with public-verizable deletion}$"をlweで構築します。 このプリミティブは、メッセージ$m$の署名を可能にするので、受信者は、$m$の署名を再現できないことを公に証明する古典的な文字列を生成できる。 次に、このプリミティブを使って$\textit{2-message signature tokens}$を構築する方法を示します。 このプリミティブは、単一ビットに署名し、自己分解するために使用できるトークンの生成を可能にする。 最後に、2メッセージのシグネチャトークンをqcsの構築に使用できることを示す。

Publicly-verifiable quantum money has been a central focus in quantum cryptography. To date, no constructions for this primitive exist based on standard assumptions. In this study, we propose an alternative notion which we refer to as $\textit{quantum cheques}$ (QCs). A quantum cheque can be verified using a public-key but only by a single user. Specifically, the payer signs the quantum cheque for a particular recipient using their ID, and the recipient can validate it without the assistance of the bank, ensuring that the payer cannot assign the same cheque to another user with a different ID. Unlike quantum money, QCs only necessitate quantum communication when a cheque is issued by the bank, meaning all payments and deposits are entirely classical! We demonstrate how to construct QCs based on the well-studied learning-with-errors (LWE) assumption. In the process, we build two novel primitives which are of independent interest. Firstly, we construct $\textit{signatures with publicly-verifiable deletion}$ under LWE. This primitive enables the signing of a message $m$ such that the recipient can produce a classical string that publicly proves the inability to reproduce a signature of $m$. We then demonstrate how this primitive can be used to construct $\textit{2-message signature tokens}$. This primitive enables the production of a token that can be used to sign a single bit and then self-destructs. Finally, we show that 2-message signature tokens can be used to construct QCs.
翻訳日:2024-01-30 14:50:36 公開日:2024-01-29
# 2つの重力猫状態から仕事を抽出する

Extracting Work From Two Gravitational Cat States ( http://arxiv.org/abs/2401.16111v1 )

ライセンス: Link先を確認
Maryam Hadipour, Soroush Haseli(参考訳) 本研究は, 温熱環境が重力猫状態から抽出できる作業にどのように影響するかを考察する。 この研究の目的は、温度と重力相互作用が仕事の抽出に$m$の質量を持つ状態の間に与える影響について詳細に議論することである。 その結果, 温度の増加と状態間の相互作用は, 重力猫の状態から抽出できる作業量を減少させることがわかった。

This work examines how a thermal environment affects the work that can be extracted from gravitational cat states. The purpose of this work is to provide an in-depth discussion of the effects of temperature and gravitational interaction between states with masses $m$ on work extraction. The results show that the increase in temperature and the interaction between states decrease the amount of work that can be extracted from gravitational cat states.
翻訳日:2024-01-30 14:50:13 公開日:2024-01-29
# 視覚に基づく3次元物体検出のシナリオ一般化に向けて

Towards Scenario Generalization for Vision-based Roadside 3D Object Detection ( http://arxiv.org/abs/2401.16110v1 )

ライセンス: Link先を確認
Lei Yang, Xinyu Zhang, Jun Li, Li Wang, Chuang Zhang, Li Ju, Zhiwei Li, Yang Shen(参考訳) 道路沿いの認識は、視覚範囲を超えて認識能力を拡張し、盲点に対処することで、自動運転車の安全性を大幅に向上させることができる。 しかし,現在最先端の視覚に基づく道路サイド検出手法はラベル付きシーンでは精度が高いが,新しいシーンでは性能に劣る。 これは、ロードサイドカメラは設置後も静止状態のままであり、1つのシーンからのみデータを収集できるため、アルゴリズムがこれらの道路サイドの背景とカメラのポーズを満たしているためである。 本稿では,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための新しいシナリオ一般化フレームワークを提案する。 具体的には,2dからバードズ・アイ・ビュー・プロジェクションまでの背景特徴を減衰させることで,視覚中心パイプラインの背景過多を軽減するために,背景抑制モジュール(bsm)を用いる。 さらに、新しいシーンからのラベルのない画像を用いて半教師データ生成パイプライン(ssdg)を導入することにより、特定のカメラポーズを過度に満たすリスクに対処して、さまざまなカメラポーズのインスタンス前景を生成する。 提案手法を2つの大規模道路側ベンチマークで評価した。 提案手法は,車両の42.57%,歩行者の5.87%,自転車の14.89%,ダイルv2x-i異種ベンチマークのbevheightの4.89%という,従来の手法をはるかに上回っている。 大型の rope3d 異種ベンチマークでは,車では 14.48%,大型車では 12.41% の大幅な向上を達成した。 我々は,シナリオ一般化の能力を強調し,道路側知覚技術の探究に貢献することを目的としている。 コードは {\url{ https://github.com/yanglei18/SGV3D}}で入手できる。

Roadside perception can greatly increase the safety of autonomous vehicles by extending their perception ability beyond the visual range and addressing blind spots. However, current state-of-the-art vision-based roadside detection methods possess high accuracy on labeled scenes but have inferior performance on new scenes. This is because roadside cameras remain stationary after installation and can only collect data from a single scene, resulting in the algorithm overfitting these roadside backgrounds and camera poses. To address this issue, in this paper, we propose an innovative Scenario Generalization Framework for Vision-based Roadside 3D Object Detection, dubbed SGV3D. Specifically, we employ a Background-suppressed Module (BSM) to mitigate background overfitting in vision-centric pipelines by attenuating background features during the 2D to bird's-eye-view projection. Furthermore, by introducing the Semi-supervised Data Generation Pipeline (SSDG) using unlabeled images from new scenes, diverse instance foregrounds with varying camera poses are generated, addressing the risk of overfitting specific camera poses. We evaluate our method on two large-scale roadside benchmarks. Our method surpasses all previous methods by a significant margin in new scenes, including +42.57% for vehicle, +5.87% for pedestrian, and +14.89% for cyclist compared to BEVHeight on the DAIR-V2X-I heterologous benchmark. On the larger-scale Rope3D heterologous benchmark, we achieve notable gains of 14.48% for car and 12.41% for large vehicle. We aspire to contribute insights on the exploration of roadside perception techniques, emphasizing their capability for scenario generalization. The code will be available at {\url{ https://github.com/yanglei18/SGV3D}}
翻訳日:2024-01-30 14:50:06 公開日:2024-01-29
# 直接診断を超えて: 自動診断のためのLLMベースのマルチスペシャリストエージェントコンサルテーション

Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis ( http://arxiv.org/abs/2401.16107v1 )

ライセンス: Link先を確認
Haochun Wang, Sendong Zhao, Zewen Qiang, Nuwa Xi, Bing Qin, Ting Liu(参考訳) 自動診断は、患者の症状記述に基づいて診断が生成される医療におけるAIの重要な応用である。 これまでの研究は、症状の正常化とあらゆる疾患との関係をモデル化することで、この課題に直接アプローチしてきた。 しかし、臨床診断の過程では、患者はまず一般医に相談され、必要に応じて特定の領域の専門家に紹介され、より包括的な評価が行われる。 最終診断はしばしば、医療専門家グループ間の共同相談から生じる。 近年,自然言語理解における大規模言語モデルが注目されている。 本研究では,チューニングフリーのllmベースのエージェントを医療従事者として採用し,潜在的な疾患に対する薬剤の確率分布を適応的に活用し,現実の診断過程をモデル化するエージェント由来多専門家相談(amsc)フレームワークを提案する。 実験の結果,ベースラインに比べてアプローチが優れていることが示された。 特に,本手法ではパラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上させる。 さらに, 自動診断の文脈における暗黙的症状の役割について, 新たな視点を考察する。

Automatic diagnosis is a significant application of AI in healthcare, where diagnoses are generated based on the symptom description of patients. Previous works have approached this task directly by modeling the relationship between the normalized symptoms and all possible diseases. However, in the clinical diagnostic process, patients are initially consulted by a general practitioner and, if necessary, referred to specialists in specific domains for a more comprehensive evaluation. The final diagnosis often emerges from a collaborative consultation among medical specialist groups. Recently, large language models have shown impressive capabilities in natural language understanding. In this study, we adopt tuning-free LLM-based agents as medical practitioners and propose the Agent-derived Multi-Specialist Consultation (AMSC) framework to model the diagnosis process in the real world by adaptively fusing probability distributions of agents over potential diseases. Experimental results demonstrate the superiority of our approach compared with baselines. Notably, our approach requires significantly less parameter updating and training time, enhancing efficiency and practical utility. Furthermore, we delve into a novel perspective on the role of implicit symptoms within the context of automatic diagnosis.
翻訳日:2024-01-30 14:49:33 公開日:2024-01-29
# LLaMandement:フランスの立法提案の要約のための大規模言語モデル

LLaMandement: Large Language Models for Summarization of French Legislative Proposals ( http://arxiv.org/abs/2401.16182v1 )

ライセンス: Link先を確認
Joseph Gesnouin, Yannis Tannier, Christophe Gomes Da Silva, Hatim Tapory, Camille Brier, Hugo Simon, Raphael Rozenberg, Hermann Woehrel, Mehdi El Yakaabi, Thomas Binder, Guillaume Marie, Emilie Caron, Mathile Nogueira, Thomas Fontas, Laure Puydebois, Marie Theophile, Stephane Morandi, Mael Petit, David Creissac, Pauline Ennouchy, Elise Valetoux, Celine Visade, Severine Balloux, Emmanuel Cortes, Pierre-Etienne Devineau, Ulrich Tan, Esther Mac Namara, Su Yang(参考訳) 本報告は、フランス政府が精巧に調整した最先端の大規模言語モデルであるllamandementを紹介し、立法案の中立的な要約を作成し、議会セッションの処理効率と有効性を高めることを目的としている。 立法の修正を手作業で処理するという管理上の課題に対処し、ラムンダメントは重要な法的技術的マイルストーンであり、特殊な法律草案の頑健さに合致しながら、伝統的な人間の努力のスケーラビリティを超えるソリューションを提供する。 すべての微調整されたモデルとトレーニングデータをコミュニティにリリースします。

This report introduces LLaMandement, a state-of-the-art Large Language Model, fine-tuned by the French government and designed to enhance the efficiency and efficacy of processing parliamentary sessions (including the production of bench memoranda and documents required for interministerial meetings) by generating neutral summaries of legislative proposals. Addressing the administrative challenges of manually processing a growing volume of legislative amendments, LLaMandement stands as a significant legal technological milestone, providing a solution that exceeds the scalability of traditional human efforts while matching the robustness of a specialized legal drafter. We release all our fine-tuned models and training data to the community.
翻訳日:2024-01-30 14:42:42 公開日:2024-01-29
# 共振器強化光学格子における$^{171}$Yb原子配列の反復アセンブリ

Iterative assembly of $^{171}$Yb atom arrays in cavity-enhanced optical lattices ( http://arxiv.org/abs/2401.16177v1 )

ライセンス: Link先を確認
M.A. Norcia, H. Kim, W.B. Cairncross, M. Stone, A. Ryou, M. Jaffe, M.O. Brown, K. Barnes, P. Battaglino, A. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, E. Halperin, F. Hummel, A.M.W. Jones, J.M. Kindem, J. King, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J.A. Muniz, S. Narayanaswami, C. Nishiguchi, T. Paule, K.A. Pawlak, L.S. Peng, K.L. Pudenz, A. Smull, D. Stack, M. Urbanek, R.J.M. van de Veerdonk, Z. Vendeiro, L. Wadleigh, T. Wilkason, T.-Y. Wu, X. Xie, E. Zalys-Geller, X. Zhang, B.J. Bloom(参考訳) 個々のアドレス可能な原子の大きな配列を組み立て、維持することは、中性原子ベースの量子コンピュータとシミュレータの継続的なスケーリングの鍵となる要件である。 本研究では,光トワイザーとキャビティ強化光格子の相乗的結合と,繰り返し充填された貯留層からターゲットアレイをインクリメンタルに充填することに基づく,原子アレイの組み立てのための新しいパラダイムを示す。 このプロトコルでは、tweezersは原子の微視的再構成を提供し、キャビティエンハンスされた格子は、原子の迅速な低ロスイメージングを可能にする多くの深い光学的ポテンシャルの作成を可能にする。 このプロトコルを用いて1225箇所の配列の決定論的充填(サイトごとの占有率99%)を実証する。 貯留層は新鮮な原子で繰り返し充填されるため、配列は無期限に充填状態に維持することができる。 このプロトコルは、システム内の1つの原子の寿命を超える大規模な誤り訂正量子計算を実行する上で重要な機能である、ミッド・サーキット・リロードと互換性があることを期待する。

Assembling and maintaining large arrays of individually addressable atoms is a key requirement for continued scaling of neutral-atom-based quantum computers and simulators. In this work, we demonstrate a new paradigm for assembly of atomic arrays, based on a synergistic combination of optical tweezers and cavity-enhanced optical lattices, and the incremental filling of a target array from a repetitively filled reservoir. In this protocol, the tweezers provide microscopic rearrangement of atoms, while the cavity-enhanced lattices enable the creation of large numbers of deep optical potentials that allow for rapid low-loss imaging of atoms. We apply this protocol to demonstrate deterministic filling (99% per-site occupancy) of 1225-site arrays. Because the reservoir is repeatedly filled with fresh atoms, the array can be maintained in a filled state indefinitely. We anticipate that this protocol will be compatible with mid-circuit reloading, which will be a key capability for running large-scale error-corrected quantum computations whose durations exceed the lifetime of a single atom in the system.
翻訳日:2024-01-30 14:42:12 公開日:2024-01-29
# 構造保存型グラフトランスの検討

A Survey on Structure-Preserving Graph Transformers ( http://arxiv.org/abs/2401.16176v1 )

ライセンス: Link先を確認
Van Thuy Hoang and O-Joun Lee(参考訳) トランスフォーマーアーキテクチャは、自然言語処理やコンピュータビジョンなど、様々な領域で顕著な成功を収めている。 グラフ学習に関して、トランスフォーマーはノードのペア間の相互作用をキャプチャするだけでなく、基礎となる関係とグラフ間の近接を示すグラフ構造を保存し、異なるグラフ構造をキャプチャする表現力を示すために必要である。 そのため, バイオインフォマティクスやケモインフォマティクスにおけるグラフレベルタスクなど, 様々なタスクに様々な構造保存グラフ変換器が提案され, 広く利用されている。 しかし, グラフ構造保存に関する戦略は, 十分に整理され, 体系化されていない。 本稿では,構造保存グラフトランスフォーマの包括的概要を提供し,それらの手法を設計目標の観点から一般化する。 まず、戦略を4つの主なグループに分割する: ノード特徴変調、コンテキストノードサンプリング、グラフ書き換え、トランスフォーマーアーキテクチャの改善。 次に、グラフ構造保存のカバレッジと目標に応じて戦略をさらに分割する。 さらに、グラフ構造を保存し、グラフの性質を理解するためのグラフトランスフォーマーモデルの課題と今後の方向性についても論じる。

The transformer architecture has shown remarkable success in various domains, such as natural language processing and computer vision. When it comes to graph learning, transformers are required not only to capture the interactions between pairs of nodes but also to preserve graph structures connoting the underlying relations and proximity between them, showing the expressive power to capture different graph structures. Accordingly, various structure-preserving graph transformers have been proposed and widely used for various tasks, such as graph-level tasks in bioinformatics and chemoinformatics. However, strategies related to graph structure preservation have not been well organized and systematized in the literature. In this paper, we provide a comprehensive overview of structure-preserving graph transformers and generalize these methods from the perspective of their design objective. First, we divide strategies into four main groups: node feature modulation, context node sampling, graph rewriting, and transformer architecture improvements. We then further divide the strategies according to the coverage and goals of graph structure preservation. Furthermore, we also discuss challenges and future directions for graph transformer models to preserve the graph structure and understand the nature of graphs.
翻訳日:2024-01-30 14:41:54 公開日:2024-01-29
# 複数の視点から人間同士の密接な相互作用を再構築する

Reconstructing Close Human Interactions from Multiple Views ( http://arxiv.org/abs/2401.16173v1 )

ライセンス: Link先を確認
Qing Shuai, Zhiyuan Yu, Zhize Zhou, Lixin Fan, Haijun Yang, Can Yang, Xiaowei Zhou(参考訳) 本稿では,複数のキャリブレーションカメラで捉えた密接なインタラクションを行う複数の個人のポーズを再構築する上での課題について述べる。 人間密着によるノイズや偽の2Dキーポイント検出、密接な相互作用による個人へのキーポイントの関連性の曖昧さ、混み合ったシーンにおけるモーションデータの収集および注釈付けとしてのトレーニングデータの不足から、難易度が生じる。 これらの課題に対処する新しいシステムを導入する。 本システムは,学習に基づくポーズ推定コンポーネントと,それに対応するトレーニングと推論戦略を統合する。 ポーズ推定成分は、多視点2次元キーポイントヒートマップを入力として、3次元条件容積ネットワークを用いて各個人のポーズを再構成する。 ネットワークは画像の入力を必要としないため、テストシーンからの既知のカメラパラメータと大量の既存のモーションキャプチャデータを利用して、テストシーンにおける実際のデータ分布を模倣した大規模なトレーニングデータを合成することができる。 広汎な実験により,提案手法はポーズの精度において従来のアプローチをはるかに上回り,様々なカメラ設定や集団サイズで一般化可能であることが示された。 コードはプロジェクトページで利用可能です。 https://github.com/zju3dv/closemocap.com/。

This paper addresses the challenging task of reconstructing the poses of multiple individuals engaged in close interactions, captured by multiple calibrated cameras. The difficulty arises from the noisy or false 2D keypoint detections due to inter-person occlusion, the heavy ambiguity in associating keypoints to individuals due to the close interactions, and the scarcity of training data as collecting and annotating motion data in crowded scenes is resource-intensive. We introduce a novel system to address these challenges. Our system integrates a learning-based pose estimation component and its corresponding training and inference strategies. The pose estimation component takes multi-view 2D keypoint heatmaps as input and reconstructs the pose of each individual using a 3D conditional volumetric network. As the network doesn't need images as input, we can leverage known camera parameters from test scenes and a large quantity of existing motion capture data to synthesize massive training data that mimics the real data distribution in test scenes. Extensive experiments demonstrate that our approach significantly surpasses previous approaches in terms of pose accuracy and is generalizable across various camera setups and population sizes. The code is available on our project page: https://github.com/zju3dv/CloseMoCap.
翻訳日:2024-01-30 14:41:36 公開日:2024-01-29
# 準二次元の強結合スピン浴におけるスピンコヒーレンス時間の延長

Extended Spin-Coherence Time in Strongly-Coupled Spin Baths in Quasi Two-Dimensional Layers ( http://arxiv.org/abs/2401.16169v1 )

ライセンス: Link先を確認
Philip Sch\"atzle, Reyhaneh Ghassemizadeh, Daniel F. Urban, Thomas Wellens, Peter Knittel, Florentin Reiter, Jan Jeske and Walter Hahn(参考訳) 我々はNV$^-$-スピンのスピンコヒーレンス崩壊をダイヤモンド層中の窒素欠陥の強いカップリング浴と相互作用させる。 薄いダイヤモンド層に対して, スピンコヒーレンス時間はバルクダイヤモンドのそれを超えることを示し, バルク中の高い欠陥濃度によって課される限界を超えることを証明した。 短時間スピンコヒーレンス崩壊の伸長指数パラメータは、浴中の超微細構造相互作用によって制御されるため、ランダムノイズモデルに制約される。 本稿では, 強い相互作用を持つ浴室分割に適用したクラスタ相関拡張に基づく新しい手法を提案する。 量子テクノロジーデバイスのための材料開発を促進する。

We investigate the spin-coherence decay of NV$^-$-spins interacting with the strongly-coupled bath of nitrogen defects in diamond layers. For thin diamond layers, we demonstrate that the spin-coherence times exceed those of bulk diamond, thus allowing to surpass the limit imposed by high defect concentrations in bulk. We show that the stretched-exponential parameter for the short-time spin-coherence decay is governed by the hyperfine interaction in the bath, thereby constraining random-noise models. We introduce a novel method based on the cluster-correlation expansion applied to strongly-interacting bath partitions. Our results facilitate material development for quantum-technology devices.
翻訳日:2024-01-30 14:41:13 公開日:2024-01-29
# “you tell me”: gpt-4ベースのビヘイビアチェンジのデータセットが会話をサポートする

"You tell me": A Dataset of GPT-4-Based Behaviour Change Support Conversations ( http://arxiv.org/abs/2401.16167v1 )

ライセンス: Link先を確認
Selina Meyer and David Elsweiler(参考訳) 会話エージェントは、情報ニーズの上に感情的なニーズに対処するためにますます使われています。 関心を高めているユースケースのひとつはカウンセリングスタイルのメンタルヘルスと行動変化の介入であり、大規模な言語モデル(llm)ベースのアプローチが普及している。 この文脈でのこれまでの研究は、主にシステムに焦点を当てており、ユーザー行動の側面とそれがLLM生成テキストに与える影響を予見している。 そこで本研究では,GPT-4に基づく2つの対話エージェントを用いて,行動変化に関連するテキストベースのユーザインタラクションを含むデータセットを共有する。 このデータセットは、会話データ、ユーザ言語分析、知覚指標、およびllm生成ターンに対するユーザフィードバックを含み、実際のインタラクションに基づいてそのようなシステムの設計を知らせる貴重な洞察を提供する。

Conversational agents are increasingly used to address emotional needs on top of information needs. One use case of increasing interest are counselling-style mental health and behaviour change interventions, with large language model (LLM)-based approaches becoming more popular. Research in this context so far has been largely system-focused, foregoing the aspect of user behaviour and the impact this can have on LLM-generated texts. To address this issue, we share a dataset containing text-based user interactions related to behaviour change with two GPT-4-based conversational agents collected in a preregistered user study. This dataset includes conversation data, user language analysis, perception measures, and user feedback for LLM-generated turns, and can offer valuable insights to inform the design of such systems based on real interactions.
翻訳日:2024-01-30 14:41:01 公開日:2024-01-29
# 制約付き二レベル最適化:近近ラグランジュ値関数アプローチとヘッセン自由アルゴリズム

Constrained Bi-Level Optimization: Proximal Lagrangian Value function Approach and Hessian-free Algorithm ( http://arxiv.org/abs/2401.16164v1 )

ライセンス: Link先を確認
Wei Yao, Chengming Yu, Shangzhi Zeng, and Jin Zhang(参考訳) 本稿では,上層と下層の両方の変数を結合する制約を含む,制約付き二レベル最適化(BLO)問題のクラスを解くための新しいアプローチとアルゴリズムを提案する。 このような問題は最近、機械学習の幅広い適用性から、大きな注目を集めている。 しかし、従来の勾配法は必然的にヘッセン行列に関する計算集約的な計算に依存する。 この課題に対処するために、制約された下層問題に対処する滑らかな近似ラグランジアン値関数を考案することから始める。 この構造を用いることで、制約付きBLOの単一レベル再構成を導入し、元のBLO問題をスムーズな制約付き等価最適化問題に変換する。 この改定により,HV-HBA(Hessian-free gradient-based algorithm-termed proximal Lagrangian Value function-based Hessian-free Bi-level Algorithm)を単一ループで実装する。 したがって、LV-HBAは特に機械学習アプリケーションに適している。 さらに,LV-HBAの非漸近収束解析を行い,低レベル問題に対する従来の強い凸性仮定の必要性を排除し,非シングルトンシナリオの調整も可能とした。 実験結果はアルゴリズムの優れた実用性能を実証する。

This paper presents a new approach and algorithm for solving a class of constrained Bi-Level Optimization (BLO) problems in which the lower-level problem involves constraints coupling both upper-level and lower-level variables. Such problems have recently gained significant attention due to their broad applicability in machine learning. However, conventional gradient-based methods unavoidably rely on computationally intensive calculations related to the Hessian matrix. To address this challenge, we begin by devising a smooth proximal Lagrangian value function to handle the constrained lower-level problem. Utilizing this construct, we introduce a single-level reformulation for constrained BLOs that transforms the original BLO problem into an equivalent optimization problem with smooth constraints. Enabled by this reformulation, we develop a Hessian-free gradient-based algorithm-termed proximal Lagrangian Value function-based Hessian-free Bi-level Algorithm (LV-HBA)-that is straightforward to implement in a single loop manner. Consequently, LV-HBA is especially well-suited for machine learning applications. Furthermore, we offer non-asymptotic convergence analysis for LV-HBA, eliminating the need for traditional strong convexity assumptions for the lower-level problem while also being capable of accommodating non-singleton scenarios. Empirical results substantiate the algorithm's superior practical performance.
翻訳日:2024-01-30 14:40:45 公開日:2024-01-29
# ボーム力学の測地力学拡張によるハートマン効果

Hartman Effect from a Geometrodynamic Extension of Bohmian Mechanics ( http://arxiv.org/abs/2401.16162v1 )

ライセンス: Link先を確認
Said Lantigua and Jonas Maziero(参考訳) 本稿では,粒子の散乱問題に対する一般解の定電位障壁への導出について述べる。 この解は、アルクビエール型時空の測地線に沿って量子トンネルを行う粒子を仮定して、ボヘミア力学の地力学的アプローチによって構築される。 さらに、この解から、量子ポテンシャル、運動量、位置、トンネル時間に関する数学的式を、関連する各領域の時空幾何学の観点から決定する。 これにより、障壁内の量子ポテンシャルによって生じる時空歪みの結果、ハートマン効果を説明することができる。

This paper presents the derivation of a general solution to the scattering problem of particles incident onto a barrier of constant potential. This solution is constructed through a geometrodynamic approach to Bohmian mechanics, assuming that particles undergo quantum tunneling along geodesic trajectories in an Alcubierre-type spacetime. Furthermore, from this solution, mathematical expressions for the quantum potential, momentum, position, and tunneling time are determined in terms of the spacetime geometry for each relevant region. This allows us to explain the Hartman effect as a consequence of spacetime distortion generated by the quantum potential within the barrier.
翻訳日:2024-01-30 14:40:18 公開日:2024-01-29
# LLaVA-Mole: インストラクションファインタニングMLLMにおけるデータ衝突の軽減を目的としたLoRAエキスパートのスパースミックス

LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs ( http://arxiv.org/abs/2401.16160v1 )

ライセンス: Link先を確認
Shaoxiang Chen, Zequn Jie, Lin Ma(参考訳) 様々な画像テキスト・インストラクション・データに基づくインストラクション・ファインタニングは多機能なマルチモーダル言語モデル(MLLM)を得る鍵であり、命令データの異なる構成は異なる機能を持つ微調整モデルにつながる可能性がある。 しかし、異なるドメインから命令データを混合する場合、データ競合は避けられないことを発見し、それによって特定のドメインのタスクのパフォーマンスが低下する可能性がある。 この問題に対処するために,MLLMの微調整にLoRAの専門家の疎結合を適用することを提案する。 トランスフォーマー層内では、MLP層に特化したLoRA専門家セットを作成し、各トークンをルーティング関数に基づいてトップ-1エキスパートにルーティングすることで、一般的なローランド適応(LoRA)メソッドを拡張し、異なるドメインからのトークンの適応的な選択を可能にする。 LoRAの専門家はわずかに活性化されているため、トレーニングと推論のコストはオリジナルのLoRA法と比べてほぼ一定である。 LLaVA-1.5のララファインチュアリングを置き換えることで、最終モデルはLLaVA-Moleと名づけられる。 大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットと様々な構成を混合する際のデータ競合問題を効果的に軽減し、強いプレーンなLoRAベースラインに対して一貫したパフォーマンス向上を実現することが証明された。 最も重要なことは、混合データセット上では、LLaVA-MoLEは2倍のサンプルでトレーニングされたプレーンなLoRAベースラインよりも優れています。

Instruction finetuning on a variety of image-text instruction data is the key to obtaining a versatile Multimodal Large Language Model (MLLM), and different configurations of the instruction data can lead to finetuned models with different capabilities. However, we have discovered that data conflicts are inevitable when mixing instruction data from distinct domains, which can result in performance drops for tasks of a specific domain. To address this issue, we propose to apply a sparse mixture of LoRA experts for instruction finetuning MLLMs. Within the Transformer layers, we extend the popular Low-Rank Adaption (LoRA) method by creating a set of LoRA experts specifically for the MLP layer, and route each token to the top-1 expert based on a routing function, allowing adaptive choices for tokens from different domains. Since the LoRA experts are sparsely activated, the training and inference cost are kept roughly constant compared to the original LoRA method. By replacing the plain-LoRA finetuing of LLaVA-1.5, our final model is named LLaVA-MoLE. Extensive experiments proved that LLaVA-MoLE effectively mitigates the data conflict issue when mixing multiple distinct instruction datasets with various configurations, and achieves consistent performance gains over the strong plain-LoRA baselines. Most importantly, on the mixed datasets, LLaVA-MoLE can even outperform the plain-LoRA baseline trained with twice the samples.
翻訳日:2024-01-30 14:40:09 公開日:2024-01-29
# Mobile-Agent:視覚認識による自律型マルチモーダルモバイルデバイスエージェント

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception ( http://arxiv.org/abs/2401.16158v1 )

ライセンス: Link先を確認
Junyang Wang and Haiyang Xu and Jiabo Ye and Ming Yan and Weizhou Shen and Ji Zhang and Fei Huang and Jitao Sang(参考訳) マルチモーダル大規模言語モデル(mllm)に基づくモバイルデバイスエージェントが人気アプリケーションになりつつある。 本稿では,自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素を正確に識別し、特定する。 認識された視覚コンテキストに基づいて、複雑な操作タスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。 アプリやモバイルシステムのメタデータのXMLファイルに依存する以前のソリューションとは違って、Mobile-Agentは視覚中心の方法で多様なモバイル環境にまたがる適応性を向上し、システム固有のカスタマイズの必要性を排除します。 モバイルエージェントの性能を評価するため,モバイルデバイス操作評価のベンチマークであるMobile-Evalを導入した。 Mobile-Evalに基づいて,Mobile-Agentの総合評価を行った。 実験の結果,Mobile-Agentは精度と完成率に優れていた。 マルチアプリ操作のような困難な命令であっても、Mobile-Agentは要件を完了することができる。 コードとモデルはhttps://github.com/x-plug/mobileagentでオープンソース化される。

Mobile device agent based on Multimodal Large Language Models (MLLM) is becoming a popular application. In this paper, we introduce Mobile-Agent, an autonomous multi-modal mobile device agent. Mobile-Agent first leverages visual perception tools to accurately identify and locate both the visual and textual elements within the app's front-end interface. Based on the perceived vision context, it then autonomously plans and decomposes the complex operation task, and navigates the mobile Apps through operations step by step. Different from previous solutions that rely on XML files of Apps or mobile system metadata, Mobile-Agent allows for greater adaptability across diverse mobile operating environments in a vision-centric way, thereby eliminating the necessity for system-specific customizations. To assess the performance of Mobile-Agent, we introduced Mobile-Eval, a benchmark for evaluating mobile device operations. Based on Mobile-Eval, we conducted a comprehensive evaluation of Mobile-Agent. The experimental results indicate that Mobile-Agent achieved remarkable accuracy and completion rates. Even with challenging instructions, such as multi-app operations, Mobile-Agent can still complete the requirements. Code and model will be open-sourced at https://github.com/X-PLUG/MobileAgent.
翻訳日:2024-01-30 14:39:41 公開日:2024-01-29
# 制御可能な画像生成のための空間認識潜時初期化

Spatial-Aware Latent Initialization for Controllable Image Generation ( http://arxiv.org/abs/2401.16157v1 )

ライセンス: Link先を確認
Wenqiang Sun, Teng Li, Zehong Lin, Jun Zhang(参考訳) 近年,テキストから画像への拡散モデルにより,テキスト入力に条件付けされた高品質な画像を生成する能力が実証されている。 しかし,これらのモデルでは,空間配置情報に関するテキストの指示に正確に従わない。 従来の研究は主にレイアウト条件と交差注意マップの整合性に着目してきたが、初期化ノイズがレイアウト指導に与える影響を見落としている。 レイアウト制御をより良くするために,空間認識初期化雑音の活用を提案する。 具体的には,有限反転ステップを持つ逆参照画像が物体の位置に関する貴重な空間的認識を包含し,生成画像における類似したレイアウトが得られた。 この観測に基づいて,レイアウト条件毎に空間認識初期化ノイズをカスタマイズするオープン語彙フレームワークを開発した。 初期化ノイズを除く他のモジュールを変更することなく、他のトレーニングフリーレイアウトガイダンスフレームワークにプラグインアンドプレイモジュールとしてシームレスに統合することができる。 我々は,本手法を利用可能な安定拡散モデルとCOCOデータセットに基づいて定量的に定性的に評価する。 空間認識型潜在初期化により,高品質なコンテンツを保存しながらレイアウト指導の有効性を向上する。

Recently, text-to-image diffusion models have demonstrated impressive ability to generate high-quality images conditioned on the textual input. However, these models struggle to accurately adhere to textual instructions regarding spatial layout information. While previous research has primarily focused on aligning cross-attention maps with layout conditions, they overlook the impact of the initialization noise on the layout guidance. To achieve better layout control, we propose leveraging a spatial-aware initialization noise during the denoising process. Specifically, we find that the inverted reference image with finite inversion steps contains valuable spatial awareness regarding the object's position, resulting in similar layouts in the generated images. Based on this observation, we develop an open-vocabulary framework to customize a spatial-aware initialization noise for each layout condition. Without modifying other modules except the initialization noise, our approach can be seamlessly integrated as a plug-and-play module within other training-free layout guidance frameworks. We evaluate our approach quantitatively and qualitatively on the available Stable Diffusion model and COCO dataset. Equipped with the spatial-aware latent initialization, our method significantly improves the effectiveness of layout guidance while preserving high-quality content.
翻訳日:2024-01-30 14:39:23 公開日:2024-01-29
# アジャイルの取り組み推定:プランニングポーカー、バケットシステム、親和性推定手法の正確性と効率の比較

Agile Effort Estimation: Comparing the Accuracy and Efficiency of Planning Poker, Bucket System, and Affinity Estimation methods ( http://arxiv.org/abs/2401.16152v1 )

ライセンス: Link先を確認
Marko Po\v{z}enel, Luka F\"urst, Damjan Vavpoti\v{c}, Toma\v{z} Hovelja(参考訳) アジャイルの取り組み推定に関する論文は、主に異なる見積もり手法の正確さの比較に焦点を当てている一方、効率比較は、見積もり手法がどれくらい時間を消費したかが最前線になかった。 しかし、ソフトウェア開発における実用的な利用には、特に異なるアジャイルの労力見積もりの正確さが似ている場合、必要な時間が企業にとって非常に重要なコスト要因となる可能性がある。 そこで本研究では,提案手法の効率性,すなわち比較の余剰次元としての利用に要する時間を導入することにより,現行の標準精度比較を推し進める。 我々は,本文献ではまだ比較されていない3つのアジャイル活動推定手法,プランニングポーカー,バケットシステム,アフィニティ推定の比較を行った。 比較のために,29人の学生からなる8つの学生チームを用いて,プログラムプロジェクトを3週間で終了するコースにおいて,すべての作業推定手法を使わなければならなかった。 その結果, 学生が異なる手法に慣れた後, それらの精度は統計的に有意差はないが, 有効性が示唆された。 平均的なバケットシステムと親和性推定法はプランニングポーカーの半分の時間を要する。

Published studies on agile effort estimation predominantly focus on comparisons of the accuracy of different estimation methods, while efficiency comparisons, i.e. how much time the estimation methods consume was not in the forefront. However, for practical use in software development, the time required can be a very important cost factor for enterprises, especially when the accuracy of different agile effort estimations is similar. In this study, we thus try to advance the current standard accuracy comparison between methods by introducing efficiency i.e. time it takes to use a method as an additional dimension of comparison. We conduct this comparison between three agile effort estimation methods that were not yet compared in the literature, namely Planning Poker, Bucket System and Affinity Estimation. For the comparison, we used eight student teams with 29 students that had to use all the effort estimation methods during the course where they had to finish a programming project in 3 weeks. The results indicate that after the students get used to using the different methods the accuracy between them is not statistically significantly different, however, the efficiency is. On average Bucket System and Affinity Estimation methods take half as much time as Planning Poker.
翻訳日:2024-01-30 14:39:04 公開日:2024-01-29
# 量子力学による理論非依存境界飽和

A theory-independent bound saturated by quantum mechanics ( http://arxiv.org/abs/2401.16147v1 )

ライセンス: Link先を確認
Lin Htoo Zaw, Mirjam Weilenmann, Valerio Scarani(参考訳) ティレルソンの最初のプレセッションプロトコルの不等式は、最初に調和振動子に導入されたが、全ての一様精度のシステムに適用でき、量子性の単部テストとして機能する。 システムが一様沈着状態にあることを考えると、古典的な発振器の位置の兆候は、ある量子状態に反する不等式を満たす必要がある。 有限個の結果を持つ測度に対するこの不等式を理論に依存しない方法で考える。 観測可能なスペクトルの最小の正と負の値のみに依存する一般境界を導出する。 そのような2つの値が与えられたとき、我々はこの境界を飽和させる量子可観測性を構築する。 顕著な例はスピン-$3/2$粒子の角運動量である。 また,最近導入された制約条件付き確率の概念についても考察した。

Tsirelson's original inequality for the precession protocol, first introduced for the harmonic oscillator but applicable to all uniformly-precessing systems, serves as a monopartite test of quantumness. Given that the system is undergoing a uniform precession, the signs of the positions of a classical oscillator must satisfy that inequality, which is violated by certain quantum states. We consider this inequality for measurements with finitely many outcomes in a theory-independent manner. We derive a general bound which depends only on the minimum positive and negative values of the spectrum of the observable. Given any such two values, we construct a quantum observable that saturates this bound. A notable example is the angular momentum of a spin-$3/2$ particle. We also relate our findings to the recently-introduced notion of constrained conditional probabilities.
翻訳日:2024-01-30 14:38:42 公開日:2024-01-29
# 分割と克服:神経放射領域の訓練パラダイムを再考する

Divide and Conquer: Rethinking the Training Paradigm of Neural Radiance Fields ( http://arxiv.org/abs/2401.16144v1 )

ライセンス: Link先を確認
Rongkai Ma, Leo Lebrat, Rodrigo Santa Cruz, Gil Avraham, Yan Zuo, Clinton Fookes, Olivier Salvado(参考訳) ニューラルレイディアンス場(NeRF)は3次元シーンの高忠実度ビューを合成する可能性を示しているが、NeRFの標準トレーニングパラダイムはトレーニングセットの各画像に等しく重要であることを前提としている。 この仮定は、複雑なジオメトリを示す特定のビューをレンダリングする上で重要な課題となり、結果として準最適性能をもたらす。 本稿では,現在の学習パラダイムが持つ意味を詳しく検討し,nerfsによるより優れたレンダリング品質を実現するため,これを再設計する。 入力ビューを視覚的類似性に基づいて複数のグループに分割し、各グループで個々のモデルを訓練することで、各モデルは速度や効率を犠牲にすることなく特定の領域を専門化することができる。 その後、これらの特殊モデルの知識は教師と学生の蒸留パラダイムを通じて単一のエンティティに集約され、オンラインレンダリングの空間効率が向上する。 実験により,NeRF合成とTants&Templesという2つの公開データセットを用いた新しいトレーニングフレームワークの評価を行った。 我々のDaCトレーニングパイプラインは,最先端のベースラインモデルのレンダリング品質を高めつつ,コンバージェンスを最小限に抑えることを示す。

Neural radiance fields (NeRFs) have exhibited potential in synthesizing high-fidelity views of 3D scenes but the standard training paradigm of NeRF presupposes an equal importance for each image in the training set. This assumption poses a significant challenge for rendering specific views presenting intricate geometries, thereby resulting in suboptimal performance. In this paper, we take a closer look at the implications of the current training paradigm and redesign this for more superior rendering quality by NeRFs. Dividing input views into multiple groups based on their visual similarities and training individual models on each of these groups enables each model to specialize on specific regions without sacrificing speed or efficiency. Subsequently, the knowledge of these specialized models is aggregated into a single entity via a teacher-student distillation paradigm, enabling spatial efficiency for online render-ing. Empirically, we evaluate our novel training framework on two publicly available datasets, namely NeRF synthetic and Tanks&Temples. Our evaluation demonstrates that our DaC training pipeline enhances the rendering quality of a state-of-the-art baseline model while exhibiting convergence to a superior minimum.
翻訳日:2024-01-30 14:38:29 公開日:2024-01-29
# ローレンツ対称性違反の文脈におけるスカラー中性ボソン対生成の制御に及ぼす臨界磁場の影響

Effect of a critical magnetic field on the control of scalar neutral boson pair production in the context of Lorentz-symmetry violation ( http://arxiv.org/abs/2401.16143v1 )

ライセンス: Link先を確認
Andr\'es G. Jir\'on, Angel E. Obispo, J. Daniel Espinoza Loayza, Juan Carlos Quispe, Luis B. Castro(参考訳) 本研究では, ローレンツ対称性違反(lsv)による静電磁場中における中性スカラーボソン対の生成を, 標準模型拡張(sme)におけるcpt-even光子セクタのパリティ対セクタに着目して検討する。 不均一な静電場と均一な静磁場を含むクロスコンフィグレーションを用いて、ボソンズ対生成の確率の解析により、臨界磁場によって決定される3つの異なる状態を特定する。 臨界値以下では生成は指数的に抑制され、臨界値では生成したボソンの数密度は一定であり、臨界場より上は指数的増幅が存在する。 この挙動はフォン・ノイマンエンタングルメントエントロピー(英語版)を用いてボゾン真空のゆらぎを解析するためのさらなる研究を促す。

This study investigates the production of neutral scalar boson pairs in static electromagnetic fields resulting from Lorentz-symmetry violation (LSV), with a focus on the parity-even sector of the CPT-even photon sector in the Standard Model Extension (SME). Utilizing a cross-configuration involving inhomogeneous static electric fields and homogeneous static magnetic fields, the analysis of the probability of bosons pair production identifies three different regimes determined by critical magnetic field. Below the critical value, creation is exponentially suppressed; at the critical value, the number density of created bosons remains constant, and above the critical field, there is exponential amplification. This behavior prompts an additional investigation using von Neumann entanglement entropy to analyze fluctuations in the bosonic vacuum.
翻訳日:2024-01-30 14:38:08 公開日:2024-01-29
# CO2: 全通信計算オーバーラップによる効率的な分散トレーニング

CO2: Efficient Distributed Training with Full Communication-Computation Overlap ( http://arxiv.org/abs/2401.16265v1 )

ライセンス: Link先を確認
Weigao Sun, Zhen Qin, Weixuan Sun, Shidi Li, Dong Li, Xuyang Shen, Yu Qiao, Yiran Zhong(参考訳) 大規模言語モデルの基本的な成功は、大規模分散トレーニング技術の効果的実装にかかっている。 それでも、高速通信相互接続性を備えた大規模で高性能なクラスタの構築は、極めて高価であり、著名なエンティティにのみアクセス可能である。 本研究では,この障壁を低くし,限られた帯域クラスタによる大規模トレーニングを民主化する。 我々は、分散データ並列トレーニングにローカル更新と非同期通信を導入し、コミュニケーションとコミュニケーションの重複を解消するCO2と呼ばれる新しいアプローチを提案する。 CO2は、非常に限られた通信帯域で制約された広範なマルチノードクラスタでも高いスケーラビリティを実現することができる。 さらに,co2を併用したステイレネスギャップペナルティと外運動量クリッピング手法を提案し,その収束とトレーニング安定性を高める。 さらに、CO2は確立されたZeroシリーズオプティマイザとシームレスに統合され、モデルトレーニングによるモデル状態のメモリ消費を軽減します。 また,厳密な上界の確立を伴う収束の数学的証明も提供する。 さらに,コンピュータビジョンと自然言語処理の分野において,幅広いタスクを包含する広範な実践実験を通じて,本研究の成果を検証した。 これらの実験は、最大128のA100 GPUで構成される構成にデプロイする際のコンバージェンス、一般化、スケーラビリティの観点から、CO2の機能を示すのに役立つ。 その結果、800GbpsのRDMAや80GbpsのTCP/IP接続を持つクラスタにせよ、スケーラビリティを大幅に向上するCO2の優れた能力が強調された。

The fundamental success of large language models hinges upon the efficacious implementation of large-scale distributed training techniques. Nevertheless, building a vast, high-performance cluster featuring high-speed communication interconnectivity is prohibitively costly, and accessible only to prominent entities. In this work, we aim to lower this barrier and democratize large-scale training with limited bandwidth clusters. We propose a new approach called CO2 that introduces local-updating and asynchronous communication to the distributed data-parallel training, thereby facilitating the full overlap of COmunication with COmputation. CO2 is able to attain a high scalability even on extensive multi-node clusters constrained by very limited communication bandwidth. We further propose the staleness gap penalty and outer momentum clipping techniques together with CO2 to bolster its convergence and training stability. Besides, CO2 exhibits seamless integration with well-established ZeRO-series optimizers which mitigate memory consumption of model states with large model training. We also provide a mathematical proof of convergence, accompanied by the establishment of a stringent upper bound. Furthermore, we validate our findings through an extensive set of practical experiments encompassing a wide range of tasks in the fields of computer vision and natural language processing. These experiments serve to demonstrate the capabilities of CO2 in terms of convergence, generalization, and scalability when deployed across configurations comprising up to 128 A100 GPUs. The outcomes emphasize the outstanding capacity of CO2 to hugely improve scalability, no matter on clusters with 800Gbps RDMA or 80Gbps TCP/IP inter-node connections.
翻訳日:2024-01-30 14:31:30 公開日:2024-01-29
# 静的解析のための実世界R符号の解剖

On the Anatomy of Real-World R Code for Static Analysis ( http://arxiv.org/abs/2401.16228v1 )

ライセンス: Link先を確認
Florian Sihler, Lukas Pietzschmann, Raphael Straub, Matthias Tichy, Andor Diera, Abdelhalim Dahou(参考訳) コンテキスト r プログラミング言語は、特に統計計算の分野で、巨大で活発なコミュニティを持っています。 その解釈の性質は、Rプログラムの静的解析を妨げる実行時の関数の操作など、いくつかの興味深い構成を可能にする。 同時に、これらの機能やR言語が実際にどのように使われているかについて、既存の研究が不足している。 OBJECTIVE この論文では,5000万行以上の実世界のRプログラムとパッケージを大規模に静的に解析し,それらの特性と実際に使用されている特徴を識別する。 さらに,Rユーザのスクリプトとパッケージ作成者の実装の類似点と相違点を比較した。 我々は、lintrパッケージのような静的解析ツールに対する洞察と、潜在的なインタプリタ最適化と将来の研究領域を明らかにする。 方法 出版物および19450 の CRAN パッケージを350000 以上の R ファイルに対して,4230 の R スクリプトを解析し,興味のある特徴の量的情報を収集し,要約する。 RESULTS 名前ベースのインデックス処理,代入,ループの頻度は高いが,R の反射関数の大部分では低い頻度である。 さらに,本論文では,Rの外部関数インタフェース(FFI)に対するテスト機能や多数の呼び出しは見つからない。 CONCLUSION Rスクリプトとパッケージソースは、例えば、そのサイズ、他のパッケージを含める方法、Rの反射能力の使用方法などによって異なる。 私たちは頻繁に使用される機能を提供し、オペレータの割り当てや関数呼び出し、ロードのようなある種のリフレクティブ関数といった静的解析ツールによって優先順位付けされるべきです。

CONTEXT The R programming language has a huge and active community, especially in the area of statistical computing. Its interpreted nature allows for several interesting constructs, like the manipulation of functions at run-time, that hinder the static analysis of R programs. At the same time, there is a lack of existing research regarding how these features, or even the R language as a whole are used in practice. OBJECTIVE In this paper, we conduct a large-scale, static analysis of more than 50 million lines of real-world R programs and packages to identify their characteristics and the features that are actually used. Moreover, we compare the similarities and differences between the scripts of R users and the implementations of package authors. We provide insights for static analysis tools like the lintr package as well as potential interpreter optimizations and uncover areas for future research. METHOD We analyze 4230 R scripts submitted alongside publications and the sources of 19450 CRAN packages for over 350000 R files, collecting and summarizing quantitative information for features of interest. RESULTS We find a high frequency of name-based indexing operations, assignments, and loops, but a low frequency for most of R's reflective functions. Furthermore, we find neither testing functions nor many calls to R's foreign function interface (FFI) in the publication submissions. CONCLUSION R scripts and package sources differ, for example, in their size, the way they include other packages, and their usage of R's reflective capabilities. We provide features that are used frequently and should be prioritized by static analysis tools, like operator assignments, function calls, and certain reflective functions like load.
翻訳日:2024-01-30 14:31:04 公開日:2024-01-29
# 有限次元ZW-カルキュリーの最小性

Minimality in Finite-Dimensional ZW-Calculi ( http://arxiv.org/abs/2401.16225v1 )

ライセンス: Link先を確認
Marc de Visme, Renaud Vilmart(参考訳) ZW-計算(ZW-calculus)は、2次元量子系(量子ビット)を図式で表し、方程式理論でそれらを操作できるグラフィカル言語である。 形式論を拡張して有限次元ヒルベルト空間を qubit 系を超えて対応させる。 まず、全ての系が同じ任意の有限次元 d を持ち、与えられた方程式理論が完備であること、すなわち意味論的同値性は方程式によって完全に捉えられること、そして最小限のこと、すなわち、方程式はどちらも他の方程式の結果ではないことを示す。 さらにグラフィカル言語を拡張して、すべての有限次元ヒルベルト空間を同時に許容する。 また、与えられた方程式理論の完全性を示す。

The ZW-calculus is a graphical language capable of representing 2-dimensional quantum systems (qubit) through its diagrams, and manipulating them through its equational theory. We extend the formalism to accommodate finite dimensional Hilbert spaces beyond qubit systems. First we define a qudit version of the language, where all systems have the same arbitrary finite dimension d, and show that the provided equational theory is both complete -- i.e. semantical equivalence is entirely captured by the equations -- and minimal -- i.e. none of the equations are consequences of the others. We then extend the graphical language further to accommodate all finite dimensional Hilbert spaces at the same time. We again show the completeness of the provided equational theory.
翻訳日:2024-01-30 14:30:36 公開日:2024-01-29
# Diffutoon: 拡散モデルによる高分解能トーンシェーディング

Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models ( http://arxiv.org/abs/2401.16224v1 )

ライセンス: Link先を確認
Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang(参考訳) トーンシェーディング(Toon Shading)は、アニメーションの非フォトリアリスティックレンダリングタスクの一種である。 その主な目的は、平らでスタイリッシュな外観でオブジェクトを描画することである。 拡散モデルが画像合成手法の最前線に昇るにつれて、本論文は拡散モデルに基づくtoonシェーディングの革新的な形態へと発展し、フォトリアリスティックなビデオをアニメスタイルに直接レンダリングすることを目指している。 ビデオスタイリングにおいて、既存の手法は、特に一貫性の維持と高い視覚的品質の達成において、永続的な課題に直面する。 本稿では,トーンシェーディング問題をスタイライゼーション,一貫性強化,構造指導,着色の4つのサブプロブレムとしてモデル化する。 ビデオスタイライゼーションの課題に対処するため,我々は, \textit{diffutoon} と呼ばれる効果的なトーンシェーディング手法を提案する。 Diffutoonは、鮮明で高解像度で拡張された動画をアニメ形式でレンダリングすることができる。 また、追加のブランチを通じてプロンプトに応じてコンテンツを編集することもできる。 Diffutoonの有効性は、定量測定と人的評価によって評価される。 特にdiffutoonは、実験でオープンソースとクローズドソースの両方のベースラインアプローチを上回っています。 私たちの作業にはGithubのソースコードとサンプルビデオ(プロジェクトページ: https://ecnu-cilab.github.io/DiffutoonProjectPage/)の両方が添付されています。

Toon shading is a type of non-photorealistic rendering task of animation. Its primary purpose is to render objects with a flat and stylized appearance. As diffusion models have ascended to the forefront of image synthesis methodologies, this paper delves into an innovative form of toon shading based on diffusion models, aiming to directly render photorealistic videos into anime styles. In video stylization, extant methods encounter persistent challenges, notably in maintaining consistency and achieving high visual quality. In this paper, we model the toon shading problem as four subproblems: stylization, consistency enhancement, structure guidance, and colorization. To address the challenges in video stylization, we propose an effective toon shading approach called \textit{Diffutoon}. Diffutoon is capable of rendering remarkably detailed, high-resolution, and extended-duration videos in anime style. It can also edit the content according to prompts via an additional branch. The efficacy of Diffutoon is evaluated through quantitive metrics and human evaluation. Notably, Diffutoon surpasses both open-source and closed-source baseline approaches in our experiments. Our work is accompanied by the release of both the source code and example videos on Github (Project page: https://ecnu-cilab.github.io/DiffutoonProjectPage/).
翻訳日:2024-01-30 14:30:22 公開日:2024-01-29
# 小さなルールを結合して大きな論理規則を学ぶ

Learning big logical rules by joining small rules ( http://arxiv.org/abs/2401.16215v1 )

ライセンス: Link先を確認
C\'eline Hocquette and Andreas Niskanen and Rolf Morel and Matti J\"arvisalo and Andrew Cropper(参考訳) 帰納論理プログラミングにおける大きな課題は、大きなルールを学ぶことです。 この課題に対処するために、私たちは大きなルールを学ぶために小さなルールに参加するアプローチを導入します。 我々は制約駆動システムにアプローチを実装し、制約解決器を使用してルールを効率的に結合する。 ゲームプレイやドラッグデザインなど、多くの分野における私たちの実験は、私たちのアプローチが (i)100以上のリテラルで規則を学習し、 (II)予測精度で既存のアプローチを劇的に上回ります。

A major challenge in inductive logic programming is learning big rules. To address this challenge, we introduce an approach where we join small rules to learn big rules. We implement our approach in a constraint-driven system and use constraint solvers to efficiently join rules. Our experiments on many domains, including game playing and drug design, show that our approach can (i) learn rules with more than 100 literals, and (ii) drastically outperform existing approaches in terms of predictive accuracies.
翻訳日:2024-01-30 14:30:01 公開日:2024-01-29
# MultiMUC: MUC-4上の多言語テンプレート

MultiMUC: Multilingual Template Filling on MUC-4 ( http://arxiv.org/abs/2401.16209v1 )

ライセンス: Link先を確認
William Gantt, Shabnam Behzad, Hannah YoungEun An, Yunmo Chen, Aaron Steven White, Benjamin Van Durme, Mahsa Yarmohammadi(参考訳) MUC-4テンプレートフィリングベンチマークをアラビア語、中国語、ファージ語、韓国語、ロシア語の5言語に翻訳し、テンプレートフィリングのための最初の多言語並列コーパスであるMultiMUCを紹介する。 我々は,強い多言語機械翻訳システムから自動翻訳を取得し,本来の英語アノテーションを対象言語に手動で投影する。 すべての言語に対して、アノテーション付きテンプレート引数を含む、開発とテストの分割に関する人間の翻訳も提供します。 最後に、最先端のテンプレートフィリングモデルとChatGPTの両方でMultiMUCのベースラインを示す。

We introduce MultiMUC, the first multilingual parallel corpus for template filling, comprising translations of the classic MUC-4 template filling benchmark into five languages: Arabic, Chinese, Farsi, Korean, and Russian. We obtain automatic translations from a strong multilingual machine translation system and manually project the original English annotations into each target language. For all languages, we also provide human translations for sentences in the dev and test splits that contain annotated template arguments. Finally, we present baselines on MultiMUC both with state-of-the-art template filling models and with ChatGPT.
翻訳日:2024-01-30 14:29:55 公開日:2024-01-29
# 粒子物理学における量子アルゴリズム

Quantum algorithms in particle physics ( http://arxiv.org/abs/2401.16208v1 )

ライセンス: Link先を確認
Germ\'an Rodrigo(参考訳) 我々は、粒子物理学における量子アルゴリズムの利用を動機付け、高エネルギー衝突器における最新の応用の簡単な概要を提供する。 特に、量子アプローチがアンチktのようなジェットクラスタリングアルゴリズムの複雑さをいかに軽減するかを詳細に議論し、量子アルゴリズムがマルチループファインマン図の因果構成を効率的に識別するかを示す。 また,量子シミュレータや実量子デバイスにおける1ループファインマン積分の評価に,qfiaeと呼ばれる量子積分アルゴリズムを適用した。

We motivate the use of quantum algorithms in particle physics and provide a brief overview of the most recent applications at high-energy colliders. In particular, we discuss in detail how a quantum approach reduces the complexity of jet clustering algorithms, such as anti-kT , and show how quantum algorithms efficiently identify causal configurations of multiloop Feynman diagrams. We also present a quantum integration algorithm, called QFIAE, which is successfully applied to the evaluation of one-loop Feynman integrals in a quantum simulator or in a real quantum device.
翻訳日:2024-01-30 14:29:44 公開日:2024-01-29
# 学習エージェントとの契約

Contracting with a Learning Agent ( http://arxiv.org/abs/2401.16198v1 )

ライセンス: Link先を確認
Guru Guruganesh, Yoav Kolumbus, Jon Schneider, Inbal Talgam-Cohen, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Joshua R. Wang, S. Matthew Weinberg(参考訳) 多くの実生活契約関係は、主エージェント理論の中心にある清潔で静的なモデルとは完全に異なる。 通常は、主役とエージェントの戦略的相互作用が繰り返され、不確実性と時間とともに行われる。 理論上は魅力的だが、プレイヤーは複雑な動的戦略を実際に使うことはほとんどなく、しばしば複雑さを回避し、学習を通じて不確実性にアプローチすることを好んでいる。 我々は,学習エージェントとの繰り返し契約の研究を開始し,結果が得られないエージェントに焦点を当てた。 ノンレグレットエージェントに対する最適化は、一般的なゲームにおいて既知のオープン問題であり、複数のアクションの中でエージェントの選択が成功/失敗につながるような、標準契約設定におけるこの問題に対する最適な解決策を実現する。 約$\alpha > 0$の場合、まずエージェントにスカラー$\alpha$の線形コントラクトを提供し、それからスカラー$0$の線形コントラクトを提供するように切り替える。 このスイッチは、エージェントがアクション空間を通して ‘free-fall' し、この間、プリンシパルにゼロでない報酬をゼロコストで与える。 エージェントが明らかに悪用されているにもかかわらず、この動的契約は、最高の静的契約と比べて、 \emph{both} プレイヤーを良く引き離すことができる。 この結果は成功/失敗を超えて、主軸が動的に再スケールする任意の非線形契約へと一般化する。 最後に,我々の結果の時間軸知識への依存度を定量化し,学習エージェントに対する階層化の研究において,この考察を最初に取り上げる。

Many real-life contractual relations differ completely from the clean, static model at the heart of principal-agent theory. Typically, they involve repeated strategic interactions of the principal and agent, taking place under uncertainty and over time. While appealing in theory, players seldom use complex dynamic strategies in practice, often preferring to circumvent complexity and approach uncertainty through learning. We initiate the study of repeated contracts with a learning agent, focusing on agents who achieve no-regret outcomes. Optimizing against a no-regret agent is a known open problem in general games; we achieve an optimal solution to this problem for a canonical contract setting, in which the agent's choice among multiple actions leads to success/failure. The solution has a surprisingly simple structure: for some $\alpha > 0$, initially offer the agent a linear contract with scalar $\alpha$, then switch to offering a linear contract with scalar $0$. This switch causes the agent to ``free-fall'' through their action space and during this time provides the principal with non-zero reward at zero cost. Despite apparent exploitation of the agent, this dynamic contract can leave \emph{both} players better off compared to the best static contract. Our results generalize beyond success/failure, to arbitrary non-linear contracts which the principal rescales dynamically. Finally, we quantify the dependence of our results on knowledge of the time horizon, and are the first to address this consideration in the study of strategizing against learning agents.
翻訳日:2024-01-30 14:29:35 公開日:2024-01-29
# 空間的格差:パリにおける不動産価格のケーススタディ

Geospatial Disparities: A Case Study on Real Estate Prices in Paris ( http://arxiv.org/abs/2401.16197v1 )

ライセンス: Link先を確認
Agathe Fernandes Machado, Fran\c{c}ois Hu, Philipp Ratz, Ewen Gallic, Arthur Charpentier(参考訳) トラッカーの普及、さらに多くのIoTセンサー、コンピューティングパワーのコストの低下によって、地理空間情報は、現代の予測モデルにおいて重要な役割を果たすようになった。 予測能力を高める一方で、地理空間データは多くの歴史的社会経済パターンを持続する可能性があり、偏りと排他的慣行の復活に関する懸念を提起し、社会に不釣り合いな影響をもたらす。 そこで本論文では,予測モデルにおけるバイアスや校正誤差の同定と修正を重要視する。 地理空間情報の粒度の増大は、地理的スケールの異なる選択が、リライニングや排他的区分けのような格差を悪化させる可能性があるため、倫理的な懸念をさらに引き起こす。 これらの問題に対処するために,地理空間データから生じるバイアスを特定し緩和するためのツールキットを提案する。 古典的公平性の定義を拡張し、二項分類の焦点から逸脱した空間特性を持つ順序回帰ケースを組み込む。 この拡張により、データ集約レベルから生じる格差を計測し、より干渉の少ない修正アプローチを提唱することができる。 本手法をパリの不動産データセットを用いて示し,実践的応用例を示し,公平性と校正対策のための地理的集約レベルを選択することの意義を考察する。

Driven by an increasing prevalence of trackers, ever more IoT sensors, and the declining cost of computing power, geospatial information has come to play a pivotal role in contemporary predictive models. While enhancing prognostic performance, geospatial data also has the potential to perpetuate many historical socio-economic patterns, raising concerns about a resurgence of biases and exclusionary practices, with their disproportionate impacts on society. Addressing this, our paper emphasizes the crucial need to identify and rectify such biases and calibration errors in predictive models, particularly as algorithms become more intricate and less interpretable. The increasing granularity of geospatial information further introduces ethical concerns, as choosing different geographical scales may exacerbate disparities akin to redlining and exclusionary zoning. To address these issues, we propose a toolkit for identifying and mitigating biases arising from geospatial data. Extending classical fairness definitions, we incorporate an ordinal regression case with spatial attributes, deviating from the binary classification focus. This extension allows us to gauge disparities stemming from data aggregation levels and advocates for a less interfering correction approach. Illustrating our methodology using a Parisian real estate dataset, we showcase practical applications and scrutinize the implications of choosing geographical aggregation levels for fairness and calibration measures.
翻訳日:2024-01-30 14:29:10 公開日:2024-01-29
# コアセット選択のための深い特徴の寄与次元構造

Contributing Dimension Structure of Deep Feature for Coreset Selection ( http://arxiv.org/abs/2401.16193v1 )

ライセンス: Link先を確認
Zhijing Wan, Zhixiang Wang, Yuran Wang, Zheng Wang, Hongyuan Zhu, Shin'ichi Satoh(参考訳) Coreset selectionは、効率的な学習のための重要なトレーニングサンプルのサブセットを選択することを目指している。 ディープラーニングでは、特にトレーニングデータセットサイズの増加によって、注目を集めている。 サンプルの選択は、パフォーマンス向上におけるサンプルの表現と、オーバーフィッティング回避におけるサンプルの多様性の役割である。 既存の手法は通常、L2-ノルムのような類似度指標に基づいてデータの表現と多様性を計測する。 それらは、特徴、勾配、あるいはデータ間の他の情報の類似性によって導かれる分布マッチングを通じて、表現に取り組むことができる。 しかし, 有効多種多様な試料選択の結果は準最適に反映される。 これは、通常、類似度メトリクスは、最終類似度に大きく寄与する次元間の差を認めずに、単に集合次元の類似度を集約するからである。 その結果、多様性を適切にとらえることができない。 そこで本稿では,特徴に基づく多様性制約を提案し,選択したサブセットが最大多様性を示すように促す。 私たちの鍵は、新しい寄与次元構造(cds)メトリックの導入にあります。 高次元特徴の全体的な類似度を測定する類似度指標と異なり、cds計量は特徴次元における冗長性の低減だけでなく、最終類似度に大きく寄与する次元間の差も考慮している。 既存の手法では,CDSに類似したサンプルが好まれる傾向にあり,コアセット内のCDSタイプが減少し,モデル性能が低下する傾向にある。 これに対して,CDS制約を統合することにより,5種類の古典的選択手法の性能を向上させる。 3つのデータセットに対する実験により,提案手法の有効性を実証した。

Coreset selection seeks to choose a subset of crucial training samples for efficient learning. It has gained traction in deep learning, particularly with the surge in training dataset sizes. Sample selection hinges on two main aspects: a sample's representation in enhancing performance and the role of sample diversity in averting overfitting. Existing methods typically measure both the representation and diversity of data based on similarity metrics, such as L2-norm. They have capably tackled representation via distribution matching guided by the similarities of features, gradients, or other information between data. However, the results of effectively diverse sample selection are mired in sub-optimality. This is because the similarity metrics usually simply aggregate dimension similarities without acknowledging disparities among the dimensions that significantly contribute to the final similarity. As a result, they fall short of adequately capturing diversity. To address this, we propose a feature-based diversity constraint, compelling the chosen subset to exhibit maximum diversity. Our key lies in the introduction of a novel Contributing Dimension Structure (CDS) metric. Different from similarity metrics that measure the overall similarity of high-dimensional features, our CDS metric considers not only the reduction of redundancy in feature dimensions, but also the difference between dimensions that contribute significantly to the final similarity. We reveal that existing methods tend to favor samples with similar CDS, leading to a reduced variety of CDS types within the coreset and subsequently hindering model performance. In response, we enhance the performance of five classical selection methods by integrating the CDS constraint. Our experiments on three datasets demonstrate the general effectiveness of the proposed method in boosting existing methods.
翻訳日:2024-01-30 14:28:46 公開日:2024-01-29
# CTカルシウムスコアを用いた心機能評価を用いた心血管イベントのAI予測

AI prediction of cardiovascular events using opportunistic epicardial adipose tissue assessments from CT calcium score ( http://arxiv.org/abs/2401.16190v1 )

ライセンス: Link先を確認
Tao Hu, Joshua Freeze, Prerna Singh, Justin Kim, Yingnan Song, Hao Wu, Juhwan Lee, Sadeer Al-Kindi, Sanjay Rajagopalan, David L. Wilson, Ammar Hoori(参考訳) 背景:近年の研究では、動脈硬化関連大血管イベント(MACE)のリスクを予測するために、基本てんかん組織(EAT)の評価(ボリュームと平均HU)を用いている。 目的:新規で手作りのEAT特徴である"fat-omics"を作成し、EATの病態を捉え、MACE予測を改善する。 方法: 任意の手動修正を施した事前検証深層学習法を用いてEATを分割した。 放射能特性(形態,空間,強度)148点を抽出し,MACEの特徴低減と予測にCox弾性ネットを用いた。 結果: 従来の脂肪の特徴は限界予測(EAT-volume/EAT-mean-HU/BMIはC-index 0.53/0.55/0.57)であった。 15のfat-omics機能(c-index=0.69, test set)により有意な改善が得られた。 リスクの高い特徴としては,hu-of-voxels-having-elevated-hu-[-50, -30-hu]とhu- negative-skewnessがある。 その他の高リスクの特徴としては、厚みの不均一性を反映したEAT厚みのクルトーシスや、近位冠動脈近傍の脂肪沈着を強調させるEAT容積があげられる。 カプラン・メイヤーのCox型,高リスク群,低リスク群は高リスク群で,高リスク群は低リスク群の2.4倍であった(P<0.001。 結論: 予備的な知見は,より精巧に調整された,説明可能な食事評価を,心血管リスク予測の改善に活用する機会を示す。

Background: Recent studies have used basic epicardial adipose tissue (EAT) assessments (e.g., volume and mean HU) to predict risk of atherosclerosis-related, major adverse cardiovascular events (MACE). Objectives: Create novel, hand-crafted EAT features, 'fat-omics', to capture the pathophysiology of EAT and improve MACE prediction. Methods: We segmented EAT using a previously-validated deep learning method with optional manual correction. We extracted 148 radiomic features (morphological, spatial, and intensity) and used Cox elastic-net for feature reduction and prediction of MACE. Results: Traditional fat features gave marginal prediction (EAT-volume/EAT-mean-HU/ BMI gave C-index 0.53/0.55/0.57, respectively). Significant improvement was obtained with 15 fat-omics features (C-index=0.69, test set). High-risk features included volume-of-voxels-having-elevated-HU-[-50, -30-HU] and HU-negative-skewness, both of which assess high HU, which as been implicated in fat inflammation. Other high-risk features include kurtosis-of-EAT-thickness, reflecting the heterogeneity of thicknesses, and EAT-volume-in-the-top-25%-of-the-heart, emphasizing adipose near the proximal coronary arteries. Kaplan-Meyer plots of Cox-identified, high- and low-risk patients were well separated with the median of the fat-omics risk, while high-risk group having HR 2.4 times that of the low-risk group (P<0.001). Conclusion: Preliminary findings indicate an opportunity to use more finely tuned, explainable assessments on EAT for improved cardiovascular risk prediction.
翻訳日:2024-01-30 14:28:23 公開日:2024-01-29
# FIMP:マルチエージェント動作予測のための未来のインタラクションモデリング

FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction ( http://arxiv.org/abs/2401.16189v1 )

ライセンス: Link先を確認
Sungmin Woo, Minjung Kim, Donghyeong Kim, Sungjun Jang, Sangyoun Lee(参考訳) マルチエージェント動作予測は自動運転において重要な問題であるが、動的エージェントの曖昧な意図と複雑な相互作用のため、依然として課題である。 既往の研究は、将来の情報が得られず、不確実性が高いため、歴史のタイムステップにおける定型データを用いて、道路エンティティ間の相互作用を捉えようと試みている。 しかし、相互作用するエージェントの将来の状態を捉えるための十分なガイダンスがなければ、それらはしばしば非現実的な軌道重なりを生じる。 本研究では,動作予測のための未来のインタラクションモデリング(FIMP)を提案する。 FIMPは将来のデコーダを採用し、中間機能レベルで潜在的な将来情報を暗黙的に抽出し、将来の親和性学習とトップkフィルタリング戦略を通じて相互作用するエンティティペアを特定する。 実験により,今後のインタラクションモデリングにより,性能が著しく向上し,argoverse motion forecasting benchmarkの性能が向上することが示された。

Multi-agent motion prediction is a crucial concern in autonomous driving, yet it remains a challenge owing to the ambiguous intentions of dynamic agents and their intricate interactions. Existing studies have attempted to capture interactions between road entities by using the definite data in history timesteps, as future information is not available and involves high uncertainty. However, without sufficient guidance for capturing future states of interacting agents, they frequently produce unrealistic trajectory overlaps. In this work, we propose Future Interaction modeling for Motion Prediction (FIMP), which captures potential future interactions in an end-to-end manner. FIMP adopts a future decoder that implicitly extracts the potential future information in an intermediate feature-level, and identifies the interacting entity pairs through future affinity learning and top-k filtering strategy. Experiments show that our future interaction modeling improves the performance remarkably, leading to superior performance on the Argoverse motion forecasting benchmark.
翻訳日:2024-01-30 14:27:47 公開日:2024-01-29
# ソフトウェア工学プロジェクトにおけるLCMの使用と知覚に関する実証的研究

An Empirical Study on Usage and Perceptions of LLMs in a Software Engineering Project ( http://arxiv.org/abs/2401.16186v1 )

ライセンス: Link先を確認
Sanka Rasnayaka, Guanlin Wang, Ridwan Shariffdeen, Ganesh Neelakanta Iyer(参考訳) 大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。 汎用LLMの主な焦点はコード生成ではないが、彼らはドメイン内で有望な結果を示している。 しかし、学術ソフトウェア工学プロジェクトにおけるLLMの有用性は、まだ十分に解明されていない。 本研究では,最大6名からなるチームで働く214名の学生を対象に,LLMの有用性を検討した。 特に,本研究が実施される学術コースでは,LSMの使用を明示的に禁止する他のほとんどの学術コースとは対照的に,LSMを開発ツールチェーンに統合することが奨励された。 本稿では、aiが生成するコード、コード生成に使用されるプロンプト、およびコードをコードベースに統合するための人間の介入レベルを分析する。 また,コンピュータサイエンスの学生の視点から,知覚的有用性,影響要因,LLMの将来的展望の洞察を得るために,認知研究を実施している。 llmはソフトウェア開発の初期段階において,特に基礎的なコード構造の生成や構文やエラーデバッグにおいて重要な役割を担っていることが示唆された。 これらの知見は、ソフトウェア工学の学生の生産性を高めるツールとしてLLMを効果的に活用するためのフレームワークを提供し、人間とAIのコラボレーションを成功させるために学生を準備する教育的焦点をシフトする必要性を強調する。

Large Language Models (LLMs) represent a leap in artificial intelligence, excelling in tasks using human language(s). Although the main focus of general-purpose LLMs is not code generation, they have shown promising results in the domain. However, the usefulness of LLMs in an academic software engineering project has not been fully explored yet. In this study, we explore the usefulness of LLMs for 214 students working in teams consisting of up to six members. Notably, in the academic course through which this study is conducted, students were encouraged to integrate LLMs into their development tool-chain, in contrast to most other academic courses that explicitly prohibit the use of LLMs. In this paper, we analyze the AI-generated code, prompts used for code generation, and the human intervention levels to integrate the code into the code base. We also conduct a perception study to gain insights into the perceived usefulness, influencing factors, and future outlook of LLM from a computer science student's perspective. Our findings suggest that LLMs can play a crucial role in the early stages of software development, especially in generating foundational code structures, and helping with syntax and error debugging. These insights provide us with a framework on how to effectively utilize LLMs as a tool to enhance the productivity of software engineering students, and highlight the necessity of shifting the educational focus toward preparing students for successful human-AI collaboration.
翻訳日:2024-01-30 14:27:30 公開日:2024-01-29
# LLM4Vuln: LLMの脆弱性推論の分離と強化のための統一評価フレームワーク

LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning ( http://arxiv.org/abs/2401.16185v1 )

ライセンス: Link先を確認
Yuqiang Sun and Daoyuan Wu and Yue Xue and Han Liu and Wei Ma and Lyuye Zhang and Miaolei Shi and Yang Liu(参考訳) 大規模言語モデル(LLM)は、脆弱性検出などの人間レベルのインテリジェンスを必要とするものを含む、多くの下流タスクに対して重要なポテンティルを示してきた。 しかし、脆弱性検出にllmを使用するという最近の試みは、モデル自体に由来するものなのか、あるいはツールsupポートの起動や脆弱性知識の検索といった外部支援に由来するものなのかという、llmの脆弱性推論能力に関する深い理解を欠いているため、まだ初期段階にある。 本稿では,LSMの脆弱性推論能力を他の機能から切り離し,新たな情報(例えばSOTAモデルでの関数呼び出しなど)を積極的に求め,関連する脆弱性知識(例えば,ベクトルベースのマッチングと検索)を採用し,構造化された結果を出力するための指示に従うことを目的とする。 そこで本研究では,LSMの脆弱性推論を他の機能と分離したLLM4Vulnという統合評価フレームワークを提案し,他の機能拡張と組み合わせることで,LSMの脆弱性推論をどのように強化できるかを評価する。 LLM4Vulnの有効性を実証するため、2023年8月から11月にかけてCode4renaでハイリスクとして広範囲に監査された75の地中信頼度スマートコントラクト脆弱性を用いた制御実験を設計し、これらを3つのリプレッセンスtative LLM(GPT-4、Mixtral、Code Llama)で4,950のシナリオでテストした。 この結果から,知識エンハンスメント,コンテキスト補完,プロンプトスキーム,モデルなど,さまざまな効果に関する10の知見が得られただけでなく,1,000ドル以上のusdを付与した2つのパイロットバグ報奨プログラムにおいて,9つのゼロデイ脆弱性の特定が可能となった。

Large language models (LLMs) have demonstrated significant poten- tial for many downstream tasks, including those requiring human- level intelligence, such as vulnerability detection. However, recent attempts to use LLMs for vulnerability detection are still prelim- inary, as they lack an in-depth understanding of a subject LLM's vulnerability reasoning capability - whether it originates from the model itself or from external assistance, such as invoking tool sup- port and retrieving vulnerability knowledge. In this paper, we aim to decouple LLMs' vulnerability reason- ing capability from their other capabilities, including the ability to actively seek additional information (e.g., via function calling in SOTA models), adopt relevant vulnerability knowledge (e.g., via vector-based matching and retrieval), and follow instructions to out- put structured results. To this end, we propose a unified evaluation framework named LLM4Vuln, which separates LLMs' vulnerability reasoning from their other capabilities and evaluates how LLMs' vulnerability reasoning could be enhanced when combined with the enhancement of other capabilities. To demonstrate the effectiveness of LLM4Vuln, we have designed controlled experiments using 75 ground-truth smart contract vulnerabilities, which were extensively audited as high-risk on Code4rena from August to November 2023, and tested them in 4,950 different scenarios across three represen- tative LLMs (GPT-4, Mixtral, and Code Llama). Our results not only reveal ten findings regarding the varying effects of knowledge en- hancement, context supplementation, prompt schemes, and models but also enable us to identify 9 zero-day vulnerabilities in two pilot bug bounty programs with over 1,000 USD being awarded.
翻訳日:2024-01-30 14:27:06 公開日:2024-01-29
# LM潜在空間のセマンティックス--語彙定義によるアプローチ

On the Semantics of LM Latent Space: A Vocabulary-defined Approach ( http://arxiv.org/abs/2401.16184v1 )

ライセンス: Link先を確認
Jian Gu, Chunyang Chen, Aldeida Aleti(参考訳) ディープラーニングの領域では、トランスフォーマーのような言語モデル(LM)の潜伏空間を理解することが、パフォーマンスと解釈可能性を改善する上で不可欠である。 しかし、既存の分析は、LMセマンティクスに関する絶対的およびモデル中心の洞察を提供し、LM適応の本質的な側面を無視する点で不足することが多い。 そこで本研究では,lm潜在空間内に固定参照フレームを確立し,lm語彙を基礎とした絶対的意味解析を実現する,語彙定義意味論という先駆的手法を提案する。 我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前相対分析を超越する。 さらに,ロジットを計算し,微分性と局所等方性を強調する手法を提案し,lm適応時のデータ表現を意味的に校正するニューラルネットワークモジュールを提案する。 多様なテキスト理解データセットにまたがる広範な実験を通じて,本手法は検索強化生成とパラメータ効率向上のための最先端手法を超越し,その有効性と適用性を示す。 本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を向上させるための実用的ソリューションも提供する。

In the realm of deep learning, understanding the latent space of language models (LMs) like transformers is crucial for refining their performance and interpretability. However, existing analyses often fall short in providing absolute and model-centric insights into LM semantics, and neglect essential aspects of LM adaption. In response, we introduce a pioneering method called vocabulary-defined semantics, which establishes a fixed reference frame within the LM latent space, ensuring absolute semantic analysis grounded in LM vocabulary. Our approach transcends prior relative analyses, leveraging LM vocabulary for model-centric insights. Furthermore, we propose a novel technique to compute logits, emphasizing differentiability and local isotropy, and introduce a neural clustering module for semantically calibrating data representations during LM adaptation. Through extensive experiments across diverse text understanding datasets, our approach surpasses state-of-the-art methods of retrieval-augmented generation and parameters-efficient finetuning, showcasing its efficacy and broad applicability. Our findings not only shed light on LM mechanics but also offer practical solutions for enhancing LM performance and interpretability.
翻訳日:2024-01-30 14:26:30 公開日:2024-01-29
# ロバストなマルチリファレンスベースオブジェクト6dポーズ推定のための位置符号化の活用

Leveraging Positional Encoding for Robust Multi-Reference-Based Object 6D Pose Estimation ( http://arxiv.org/abs/2401.16284v1 )

ライセンス: Link先を確認
Jaewoo Park, Jaeguk Kim, and Nam Ik Cho(参考訳) 物体の姿勢を正確に推定することは、コンピュータビジョンとロボット工学において重要な課題である。 主なディープラーニングアプローチは、幾何学的表現の回帰と反復的なリファインメントの2つだ。 しかし、これらの手法は有効性を低下させるいくつかの制限がある。 本稿では,これらの限界を分析し,克服するための新しい戦略を提案する。 ぼやけた幾何表現の問題に取り組むために,物体の3次元座標に高周波成分を用いた位置符号化を用いる。 精細化手法における局所的最小問題に対処するために,本質行列制約に依存しない正規化画像平面に基づく多元参照精細化戦略を提案する。 最後に,適応型インスタンス正規化と単純なオクルージョン拡張法を用いて,モデルが対象オブジェクトに集中するのを助ける。 linemod、linemod-occlusion、ycb-video datasetsの実験では、既存の手法よりも優れています。 私たちはすぐにコードをリリースします。

Accurately estimating the pose of an object is a crucial task in computer vision and robotics. There are two main deep learning approaches for this: geometric representation regression and iterative refinement. However, these methods have some limitations that reduce their effectiveness. In this paper, we analyze these limitations and propose new strategies to overcome them. To tackle the issue of blurry geometric representation, we use positional encoding with high-frequency components for the object's 3D coordinates. To address the local minimum problem in refinement methods, we introduce a normalized image plane-based multi-reference refinement strategy that's independent of intrinsic matrix constraints. Lastly, we utilize adaptive instance normalization and a simple occlusion augmentation method to help our model concentrate on the target object. Our experiments on Linemod, Linemod-Occlusion, and YCB-Video datasets demonstrate that our approach outperforms existing methods. We will soon release the code.
翻訳日:2024-01-30 14:20:33 公開日:2024-01-29
# MAPLE:Few-Shot Claim検証のためのペアワイズ言語進化のマイクロ解析

MAPLE: Micro Analysis of Pairwise Language Evolution for Few-Shot Claim Verification ( http://arxiv.org/abs/2401.16282v1 )

ライセンス: Link先を確認
Xia Zeng, Arkaitz Zubiaga(参考訳) クレーム検証は、証拠に対するクレームの妥当性を評価する自動ファクトチェックパイプラインにおいて不可欠なステップである。 そこで本研究では,ごく限られたデータのみを監督対象とする,マイナショットクレーム検証の可能性について検討する。 提案手法は,小規模のseq2seqモデルと新しい意味尺度を用いて,クレームとその証拠の整合を探索する先駆的手法である。 マイクロ言語進化パスの革新的な利用は、ラベルなしのペアワイズデータを利用して、データアノテーションや計算リソースの需要を低くしながらクレーム検証を容易にする。 MAPLEは、FEVER、Climate FEVER、SciFactという3つのファクトチェックデータセットに対して、SOTAベースラインのSEED、PET、LLaMA 2に対する大幅なパフォーマンス向上を示している。 データとコードはここで入手できる。 https://github.com/xiazeng0223/maple

Claim verification is an essential step in the automated fact-checking pipeline which assesses the veracity of a claim against a piece of evidence. In this work, we explore the potential of few-shot claim verification, where only very limited data is available for supervision. We propose MAPLE (Micro Analysis of Pairwise Language Evolution), a pioneering approach that explores the alignment between a claim and its evidence with a small seq2seq model and a novel semantic measure. Its innovative utilization of micro language evolution path leverages unlabelled pairwise data to facilitate claim verification while imposing low demand on data annotations and computing resources. MAPLE demonstrates significant performance improvements over SOTA baselines SEED, PET and LLaMA 2 across three fact-checking datasets: FEVER, Climate FEVER, and SciFact. Data and code are available here: https://github.com/XiaZeng0223/MAPLE
翻訳日:2024-01-30 14:20:20 公開日:2024-01-29
# 大規模基礎的映像理解モデルを用いたカットアップ非トリミング映像におけるヒューマンフォール検出

Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model ( http://arxiv.org/abs/2401.16280v1 )

ライセンス: Link先を確認
Till Grutschus, Ola Karrar, Emir Esenov and Ekta Vats(参考訳) 本研究は,非トリミング映像における人間落下検出の下流課題における大規模映像理解基礎モデルの性能を考察し,マルチクラス行動検出のための事前訓練された視覚トランスフォーマ("fall", "lying", "other/activities of daily living (adl)" を活用した。 非トリミングビデオの単純なカットアップに依存する時間的行動局在の方法を示す。 この方法論には、タイムスタンプアクションアノテーションでデータセットを短いアクションクリップのラベル付きデータセットに変換する前処理パイプラインが含まれている。 シンプルで効果的なクリップサンプリング戦略が導入された。 提案手法の有効性は,HQFSD (High-Quality Fall Simulation Dataset) で実証的に評価されている。 実験結果は,提案パイプラインの性能を検証した。 結果はリアルタイムアプリケーションに期待でき、所定の実験条件下でHQFSDデータセットの最先端の0.96F1スコアで、ビデオレベルでフォールを検出する。 ソースコードはgithubから入手できる。

This work explores the performance of a large video understanding foundation model on the downstream task of human fall detection on untrimmed video and leverages a pretrained vision transformer for multi-class action detection, with classes: "Fall", "Lying" and "Other/Activities of daily living (ADL)". A method for temporal action localization that relies on a simple cutup of untrimmed videos is demonstrated. The methodology includes a preprocessing pipeline that converts datasets with timestamp action annotations into labeled datasets of short action clips. Simple and effective clip-sampling strategies are introduced. The effectiveness of the proposed method has been empirically evaluated on the publicly available High-Quality Fall Simulation Dataset (HQFSD). The experimental results validate the performance of the proposed pipeline. The results are promising for real-time application, and the falls are detected on video level with a state-of-the-art 0.96 F1 score on the HQFSD dataset under the given experimental settings. The source code will be made available on GitHub.
翻訳日:2024-01-30 14:20:03 公開日:2024-01-29
# 八角形埋め込みによる知識グラフと規則の獲得

Capturing Knowledge Graphs and Rules with Octagon Embeddings ( http://arxiv.org/abs/2401.16270v1 )

ライセンス: Link先を確認
Victor Charpenay, Steven Schockaert(参考訳) 領域ベースの知識グラフ埋め込みは、関係を幾何学的領域として表現する。 これは、モデルによってキャプチャされるルールが明確になるという利点があり、事前の知識を取り入れ、学習したモデルを検査することが簡単になる。 残念ながら、既存のアプローチはリレーショナルな構成をモデル化する能力に厳しく制限されており、従ってルールをモデル化する能力もあるため、リージョンベースのモデルの主な約束を達成できない。 これらの制限に対処するために、軸整列八角形からなる領域について検討する。 このような八角形は特に扱いやすく、交叉や合成は簡単に計算できるが、任意の知識グラフのモデル化には十分表現力がある。 また,我々の八角形埋め込みは,非自明なルールベースを適切に捕捉できることを示す。 最後に,本モデルが実験結果と競合することを示す。

Region based knowledge graph embeddings represent relations as geometric regions. This has the advantage that the rules which are captured by the model are made explicit, making it straightforward to incorporate prior knowledge and to inspect learned models. Unfortunately, existing approaches are severely restricted in their ability to model relational composition, and hence also their ability to model rules, thus failing to deliver on the main promise of region based models. With the aim of addressing these limitations, we investigate regions which are composed of axis-aligned octagons. Such octagons are particularly easy to work with, as intersections and compositions can be straightforwardly computed, while they are still sufficiently expressive to model arbitrary knowledge graphs. Among others, we also show that our octagon embeddings can properly capture a non-trivial class of rule bases. Finally, we show that our model achieves competitive experimental results.
翻訳日:2024-01-30 14:19:43 公開日:2024-01-29
# A.I. ありとあらゆる場所において

A.I. In All The Wrong Places ( http://arxiv.org/abs/2401.16268v1 )

ライセンス: Link先を確認
Marc B\"ohlen, Ruolin Chen, Xiaoxu Dong, Srikar Gopaladinne, Hemanth Gorla, Divya Kandukuri, Sean Mansfield(参考訳) このテキストは、2世代の生成型人工知能(a.i.)システムが学際的、大学レベルのa.i.のアートとデザインの実践コースに組み入れられた2年間のテスト期間を通じて得られた経験を記述している。 このテキストは、コースの結果を使って、トラップや制限を考慮しつつ、芸術とデザインにおける生成システムのための新しい機会を反映している。

This text describes experiences gained across a two-year test period during which two generations of Generative Artificial Intelligence (A.I.) systems were incorpo-rated into an interdisciplinary, university level course on A.I. for art and design practices. The text uses the results from the courses to reflect on new opportuni-ties for generative systems in art and design while considering traps and limits.
翻訳日:2024-01-30 14:19:28 公開日:2024-01-29
# Mosqu IoT: Aedes aegypti (Diptera: Culicidae)のモニタリングのためのIoTと機械学習に基づくシステム

MosquIoT: A System Based on IoT and Machine Learning for the Monitoring of Aedes aegypti (Diptera: Culicidae) ( http://arxiv.org/abs/2401.16258v1 )

ライセンス: Link先を確認
Javier Aira, Teresa Olivares Montes, Francisco M. Delicado, Dar\`io Vezzani(参考訳) 毎年何百万人もの人が蚊に感染している。 最も危険な種の1つは、デング、黄熱病、チクングニャ、ジカなどのウイルスの主要なベクターであるAedes aegyptiである。 モスキト予防と根絶キャンペーンは、公衆衛生上の大きな影響を避けるために不可欠である。 この点において、昆虫学的監視は重要な手段である。 現在、この従来の監視ツールは手動で実行されており、当局がより良い決定を下し、計画作業を改善し、実行をスピードアップし、利用可能なリソースをより良く管理するためにデジタルトランスフォーメーションを必要とする。 そのため、実証技術に基づく新しい技術ツールの設計と開発が必要となる。 しかし、そのようなツールはコスト効率、自律性、信頼性、実装が容易で、接続性やマルチプラットフォームソフトウェアアプリケーションによって有効にする必要がある。 本稿では,MosquIoTという革新的なシステムの設計,開発,テストについて述べる。 組み込みIoT(Internet of Things)とTiny Machine Learning(TinyML)技術を備えた従来のOvitrapに基づいており、Aeの検出と定量化を可能にしている。 エジプティの卵 この革新的で有望なソリューションは、aeの挙動を動的に理解するのに役立ちます。 都市部のイージープティの人口は 現在の反応性の 昆虫学的モニタリングモデルから 積極的で予測可能なデジタルモデルに移行しました

Millions of people around the world are infected with mosquito-borne diseases each year. One of the most dangerous species is Aedes aegypti, the main vector of viruses such as dengue, yellow fever, chikungunya, and Zika, among others. Mosquito prevention and eradication campaigns are essential to avoid major public health consequences. In this respect, entomological surveillance is an important tool. At present, this traditional monitoring tool is executed manually and requires digital transformation to help authorities make better decisions, improve their planning efforts, speed up execution, and better manage available resources. Therefore, new technological tools based on proven techniques need to be designed and developed. However, such tools should also be cost-effective, autonomous, reliable, and easy to implement, and should be enabled by connectivity and multi-platform software applications. This paper presents the design, development, and testing of an innovative system named MosquIoT. It is based on traditional ovitraps with embedded Internet of Things (IoT) and Tiny Machine Learning (TinyML) technologies, which enable the detection and quantification of Ae. aegypti eggs. This innovative and promising solution may help dynamically understand the behavior of Ae. aegypti populations in cities, shifting from the current reactive entomological monitoring model to a proactive and predictive digital one.
翻訳日:2024-01-30 14:19:20 公開日:2024-01-29
# 記録レベルの個人化差分プライバシーを用いたクロスサイロフェデレーション学習

Cross-silo Federated Learning with Record-level Personalized Differential Privacy ( http://arxiv.org/abs/2401.16251v1 )

ライセンス: Link先を確認
Junxu Liu, Jian Lou, Li Xiong, Jinfei Liu, Xiaofeng Meng(参考訳) 差分プライバシによって強化されたフェデレーション学習は、トレーニングプロセス中にクライアントのコントリビューションを保護することによって、クライアント側データのプライバシ保護を改善するための一般的なアプローチとして現れている。 既存のソリューションは、通常、すべてのレコードに対して統一されたプライバシー予算を仮定し、各レコードのプライバシー要件を満たすのに適さない1サイズのソリューションを提供する。 本稿では,記録レベル差分プライバシーを持つクロスサイロFLの非チャージ領域について検討する。 本稿では,クライアントレベルサンプリングと非一様レコードレベルサンプリングの両方を併用した2段階ハイブリッドサンプリング手法を用いて,プライバシ要件を満たす新しいフレームワークrPDP-FLを提案する。 決定的かつ非自明な問題は、パーソナライズされたプライバシー予算(epsilon})を考えると、記録ごとのサンプリング確率 q を選択することである。 我々は,q と {\epsilon} の非線形相関に関する重要な知見を解明し,この問題に対処するためのエレガントな数学的モデルを導出する,Simulation-CurveFitting という多目的解を導入する。 評価の結果,プライバシ保護のパーソナライズを考慮しないベースラインに対して,我々のソリューションが大きなパフォーマンス向上をもたらすことが示された。

Federated learning enhanced by differential privacy has emerged as a popular approach to better safeguard the privacy of client-side data by protecting clients' contributions during the training process. Existing solutions typically assume a uniform privacy budget for all records and provide one-size-fits-all solutions that may not be adequate to meet each record's privacy requirement. In this paper, we explore the uncharted territory of cross-silo FL with record-level personalized differential privacy. We devise a novel framework named rPDP-FL, employing a two-stage hybrid sampling scheme with both client-level sampling and non-uniform record-level sampling to accommodate varying privacy requirements. A critical and non-trivial problem is to select the ideal per-record sampling probability q given the personalized privacy budget {\epsilon}. We introduce a versatile solution named Simulation-CurveFitting, allowing us to uncover a significant insight into the nonlinear correlation between q and {\epsilon} and derive an elegant mathematical model to tackle the problem. Our evaluation demonstrates that our solution can provide significant performance gains over the baselines that do not consider personalized privacy preservation.
翻訳日:2024-01-30 14:18:57 公開日:2024-01-29
# マルチモーダル・多言語翻訳におけるレッドチーム化に向けて

Towards Red Teaming in Multimodal and Multilingual Translation ( http://arxiv.org/abs/2401.16247v1 )

ライセンス: Link先を確認
Christophe Ropers, David Dale, Prangthip Hansanti, Gabriel Mejia Gonzalez, Ivan Evtimov, Corinne Wong, Christophe Touret, Kristina Pereyra, Seohyun Sonia Kim, Cristian Canton Ferrer, Pierre Andrews and Marta R. Costa-juss\`a(参考訳) 自然言語処理の性能評価はますます複雑になっている。 特定の課題の1つは、評価データセットが直接または間接的にトレーニングデータと重複し、歪んだ結果とモデルパフォーマンスの過大評価につながる可能性があることである。 その結果、モデルの性能と信頼性を評価する手段としての人間評価への関心が高まっている。 このような方法のひとつがred teamingアプローチで、モデルが重大なエラーを発生させるエッジケースの生成を目的としている。 この方法論は、生成AIの標準的実践になりつつあるが、条件付きAIの領域への応用は、いまだほとんど解明されていない。 本稿では,機械翻訳(MT)の人間によるレッド・チーム化に関する最初の研究を行い,翻訳モデルの理解と性能向上に向けた重要なステップを示す。 私たちは、人間ベースのred teamingと自動化、学んだ教訓の報告、翻訳モデルとred teaming drillの両方に推奨を提供する研究の両方を調べました。 この先駆的な研究は、MT分野の研究と開発のための新たな道を開く。

Assessing performance in Natural Language Processing is becoming increasingly complex. One particular challenge is the potential for evaluation datasets to overlap with training data, either directly or indirectly, which can lead to skewed results and overestimation of model performance. As a consequence, human evaluation is gaining increasing interest as a means to assess the performance and reliability of models. One such method is the red teaming approach, which aims to generate edge cases where a model will produce critical errors. While this methodology is becoming standard practice for generative AI, its application to the realm of conditional AI remains largely unexplored. This paper presents the first study on human-based red teaming for Machine Translation (MT), marking a significant step towards understanding and improving the performance of translation models. We delve into both human-based red teaming and a study on automation, reporting lessons learned and providing recommendations for both translation models and red teaming drills. This pioneering work opens up new avenues for research and development in the field of MT.
翻訳日:2024-01-30 14:18:16 公開日:2024-01-29
# 精神保健モニタリングのためのソーシャルメディアにおける臨床的意義のあるタイムライン要約

Clinically meaningful timeline summarisation in social media for mental health monitoring ( http://arxiv.org/abs/2401.16240v1 )

ライセンス: Link先を確認
Jiayu Song, Jenny Chim, Adam Tsakalidis, Julia Ive, Dana Atzil-Slonim, Maria Liakata(参考訳) 本稿では,メンタルヘルスモニタリングに適したソーシャルメディア利用者のタイムラインを臨床的に有意義に要約する新たな課題を紹介する。 本稿では,高レベル情報と臨床専門家に有用な側面を包括する2層要約と,ユーザのソーシャルメディアタイムラインからの時間依存性の証拠を関連づけた非教師なし抽象要約手法を提案する。 主要な方法論的ノベルティは、長文を表すために適応された階層的変分オートエンコーダ(VAE)のバージョンに基づいて、LLMアノテーション付きキーフレーズでガイドされるタイムライン要約コンポーネントから得られる。 結果のタイムライン要約はLLM(LLaMA-2)に入力され、命令プロンプトによって得られた上位情報と、ユーザのタイムラインからの対応する証拠の両方を含む最終要約を生成する。 本研究は,新規建築のサマリーを,専門家によるサマリーの自動評価,臨床専門家による人的評価を通じて評価し,TH-VAEによる時系列サマリー化が臨床応用に富む論理的コヒーレントなサマリーをもたらすことを示す。

We introduce the new task of clinically meaningful summarisation of social media user timelines, appropriate for mental health monitoring. We develop a novel approach for unsupervised abstractive summarisation that produces a two-layer summary consisting of both high-level information, covering aspects useful to clinical experts, as well as accompanying time sensitive evidence from a user's social media timeline. A key methodological novelty comes from the timeline summarisation component based on a version of hierarchical variational autoencoder (VAE) adapted to represent long texts and guided by LLM-annotated key phrases. The resulting timeline summary is input into a LLM (LLaMA-2) to produce the final summary containing both the high level information, obtained through instruction prompting, as well as corresponding evidence from the user's timeline. We assess the summaries generated by our novel architecture via automatic evaluation against expert written summaries and via human evaluation with clinical experts, showing that timeline summarisation by TH-VAE results in logically coherent summaries rich in clinical utility and superior to LLM-only approaches in capturing changes over time.
翻訳日:2024-01-30 14:17:17 公開日:2024-01-29
# 動的特徴圧縮による効果的なコミュニケーション

Effective Communication with Dynamic Feature Compression ( http://arxiv.org/abs/2401.16236v1 )

ライセンス: Link先を確認
Pietro Talli, Francesco Pase, Federico Chiariotti, Andrea Zanella, and Michele Zorzi(参考訳) 産業用システムのリモートワイヤレス制御は、5gおよびbeyondシステムの主要なユースケースの1つだ。これらのケースでは、無線媒体上で共有する必要がある大量のセンサー情報が、高容量接続をオーバーロードする可能性がある。 したがって、送信戦略を最適化して無関係な情報を捨てることによる効果的な通信問題を解決することは大きな利点であるが、しばしば非常に複雑な作業である。 本研究では,作業を制御するロボット(例えば工場内の移動ロボット)に,観察者が知覚データを伝達しなければならないプロトタイプシステムについて考察する。 次に、意味的および効果的なコミュニケーション指向のソリューションがシステム全体の性能に与える影響を考慮し、リモート部分観測可能なマルコフ決定プロセス(POMDP)としてモデル化する。 我々は,アンサンブルベクトル量子化変分オートエンコーダ(vq-vae)符号化を考慮して通信問題を分割し,環境の現状と過去のメッセージの記憶の両方を考慮して,深層強化学習(drl)エージェントを動的に適応させるように訓練する。 提案手法をよく知られたCartPole参照制御問題に適用し,従来の手法に比べて大幅な性能向上を実現した。

The remote wireless control of industrial systems is one of the major use cases for 5G and beyond systems: in these cases, the massive amounts of sensory information that need to be shared over the wireless medium may overload even high-capacity connections. Consequently, solving the effective communication problem by optimizing the transmission strategy to discard irrelevant information can provide a significant advantage, but is often a very complex task. In this work, we consider a prototypal system in which an observer must communicate its sensory data to a robot controlling a task (e.g., a mobile robot in a factory). We then model it as a remote Partially Observable Markov Decision Process (POMDP), considering the effect of adopting semantic and effective communication-oriented solutions on the overall system performance. We split the communication problem by considering an ensemble Vector Quantized Variational Autoencoder (VQ-VAE) encoding, and train a Deep Reinforcement Learning (DRL) agent to dynamically adapt the quantization level, considering both the current state of the environment and the memory of past messages. We tested the proposed approach on the well-known CartPole reference control problem, obtaining a significant performance increase over traditional approaches.
翻訳日:2024-01-30 14:16:15 公開日:2024-01-29
# プレイヤープレッシャマップ - 異なるゲームコンテキストにおける選手のパフォーマンス評価のためのサッカーにおける新しいプレッシャ表現

Player Pressure Map - A Novel Representation of Pressure in Soccer for Evaluating Player Performance in Different Game Contexts ( http://arxiv.org/abs/2401.16235v1 )

ライセンス: Link先を確認
Chaoyi Gu, Jiaming Na, Yisheng Pei, Varuna De Silva(参考訳) サッカーでは、コンテキストプレイヤーのパフォーマンス指標はコーチにとって貴重なものである。 例えば、試合中にプレッシャーの下で実行する能力は、エリートと平均を区別する。 適切な圧力測定により、プレイヤーのパフォーマンスを正確に評価し、ターゲットとするトレーニングシナリオを設計して弱点に対処することができる。 本研究の主な目的は,サッカーゲームシーンにおいて,保持チームが経験したプレッシャーを捉えるために,トラッキングデータとイベント映像の両方を活用することである。 本稿では,ゲームシーンを表現するためのプレイヤー圧力マップを提案する。 チームや個人に対するプレッシャーを視覚化し評価するための効果的なツールとして機能するだけでなく、プレイヤーのパフォーマンスにアクセスするバックボーンとしても利用することができる。 全体的に、私たちのモデルは、データ指向の戦術決定を行うために、選手のパフォーマンスをより深く理解するコーチとアナリストを提供します。

In soccer, contextual player performance metrics are invaluable to coaches. For example, the ability to perform under pressure during matches distinguishes the elite from the average. Appropriate pressure metric enables teams to assess players' performance accurately under pressure and design targeted training scenarios to address their weaknesses. The primary objective of this paper is to leverage both tracking and event data and game footage to capture the pressure experienced by the possession team in a soccer game scene. We propose a player pressure map to represent a given game scene, which lowers the dimension of raw data and still contains rich contextual information. Not only does it serve as an effective tool for visualizing and evaluating the pressure on the team and each individual, but it can also be utilized as a backbone for accessing players' performance. Overall, our model provides coaches and analysts with a deeper understanding of players' performance under pressure so that they make data-oriented tactical decisions.
翻訳日:2024-01-30 14:15:34 公開日:2024-01-29
# データベース間ライブネス検出: 比較バイオメトリック解析からの考察

Cross-Database Liveness Detection: Insights from Comparative Biometric Analysis ( http://arxiv.org/abs/2401.16232v1 )

ライセンス: Link先を確認
Oleksandr Kuznetsov, Dmytro Zakharov, Emanuele Frontoni, Andrea Maranesi, Serhii Bohucharskyi(参考訳) 生体認証が現代のアイデンティティ検証システムの鍵となる時代には、これらの生体認証サンプルの信頼性が最重要視されている。 本物と偽造されたバイオメトリックのサンプルを区別するライブ検出は、この課題の最前線にある。 本研究は,その複雑さと実世界の関連性で有名なテストパラダイムであるクロスデータベースシナリオの性能に着目した,生活度検出モデルの包括的評価を行う。 我々の研究は、個々のデータセットのモデルを慎重に評価し、パフォーマンス指標のニュアンスを明らかにすることから始まった。 半分の総誤差率、偽受け入れ率、偽拒絶率といった指標を掘り下げて、モデルの強みと弱みに関する貴重な洞察を見出しました。 重要なのは、当社のデータベース横断テストの調査が、ひとつのデータセットでのトレーニングと、別のデータセットへのデプロイの間の亀裂を強調する、独自の視点を提供したことです。 畳み込みネットワークからより複雑な戦略まで、現存する方法論との比較分析は、現在の風景に対する我々の理解を深めた。 最先端のモデルでさえ、パフォーマンスのばらつきは、この領域における固有の課題を暗示した。 本論文は, バイオメトリック・ライブネス検出における, よりきめ細やかな, データの多様性, 適応可能なアプローチのための, 発見のレポジトリとして機能する。 真正性と偽装のダイナミックダンスでは、生体認証セキュリティの進化リズムをナビゲートするための青写真を提供します。

In an era where biometric security serves as a keystone of modern identity verification systems, ensuring the authenticity of these biometric samples is paramount. Liveness detection, the capability to differentiate between genuine and spoofed biometric samples, stands at the forefront of this challenge. This research presents a comprehensive evaluation of liveness detection models, with a particular focus on their performance in cross-database scenarios, a test paradigm notorious for its complexity and real-world relevance. Our study commenced by meticulously assessing models on individual datasets, revealing the nuances in their performance metrics. Delving into metrics such as the Half Total Error Rate, False Acceptance Rate, and False Rejection Rate, we unearthed invaluable insights into the models' strengths and weaknesses. Crucially, our exploration of cross-database testing provided a unique perspective, highlighting the chasm between training on one dataset and deploying on another. Comparative analysis with extant methodologies, ranging from convolutional networks to more intricate strategies, enriched our understanding of the current landscape. The variance in performance, even among state-of-the-art models, underscored the inherent challenges in this domain. In essence, this paper serves as both a repository of findings and a clarion call for more nuanced, data-diverse, and adaptable approaches in biometric liveness detection. In the dynamic dance between authenticity and deception, our work offers a blueprint for navigating the evolving rhythms of biometric security.
翻訳日:2024-01-30 14:15:17 公開日:2024-01-29
# 熱力学計算における誤差低減

Error Mitigation for Thermodynamic Computing ( http://arxiv.org/abs/2401.16231v1 )

ライセンス: Link先を確認
Maxwell Aifer, Denis Melanson, Kaelan Donatella, Gavin Crooks, Thomas Ahle, and Patrick J. Coles(参考訳) 物理ベースのコンピューティングは、デジタルコンピューティングに比べて速度とエネルギー効率を提供するが、エラーを軽減しなければならない。 例えば、量子コンピューティングにおいて多くの誤り軽減法が提案されている。 しかし、この誤差軽減フレームワークは他の物理ベースの計算パラダイムには適用されていない。 本研究では,確率的AIや生成AIといった人工知能(AI)応用との関連性から,近年注目されている熱力学コンピューティングについて考察する。 このパラダイムにおけるエラーの主な原因は、アナログハードウェアコンポーネントのインプレシションである。 そこで,本研究では,ガウスサンプリングおよび線形代数学の応用において,全誤差を線形から二次依存 ($\epsilon$から$\epsilon^2$) に還元する手法を提案する。 この方法は、様々なラウンドイベントに関連する不正確な分布のアンサンブルからサンプリングし、これらのサンプルをマージする。 我々は,1000以上の次元に対するこの手法のスケーラビリティを数値的に示す。 最後に,本手法を実際の熱力学計算機に実装し,行列反転の誤差低減率を20-%とした最初の熱力学的誤差緩和実験を行った。

While physics-based computing can offer speed and energy efficiency compared to digital computing, it also is subject to errors that must be mitigated. For example, many error mitigation methods have been proposed for quantum computing. However this error mitigation framework has yet to be applied to other physics-based computing paradigms. In this work, we consider thermodynamic computing, which has recently captured attention due to its relevance to artificial intelligence (AI) applications, such as probabilistic AI and generative AI. A key source of errors in this paradigm is the imprecision of the analog hardware components. Here, we introduce a method that reduces the overall error from a linear to a quadratic dependence (from $\epsilon$ to $\epsilon^2$) on the imprecision $\epsilon$, for Gaussian sampling and linear algebra applications. The method involves sampling from an ensemble of imprecise distributions associated with various rounding events and then merging these samples. We numerically demonstrate the scalability of this method for dimensions greater than 1000. Finally, we implement this method on an actual thermodynamic computer and show $20\%$ error reduction for matrix inversion; the first thermodynamic error mitigation experiment.
翻訳日:2024-01-30 14:14:49 公開日:2024-01-29
# 自動評価指標を超えて:実践的社会科学コンテンツ分析課題におけるトピックモデルの評価

Beyond Automated Evaluation Metrics: Evaluating Topic Models On Practical Social Science Content Analysis Tasks ( http://arxiv.org/abs/2401.16348v1 )

ライセンス: Link先を確認
Zongxia Li, Andrew Mao, Daniel Stephens, Pranav Goel, Emily Walpole, Alden Dima, Juan Fung, Jordan Boyd-Graber(参考訳) トピックモデルはテキストコレクションを理解するための一般的なツールであるが、その評価は議論のポイントとなっている。 コヒーレンスなどの自動評価指標はよく用いられるが、その妥当性はニューラルトピックモデル(NTM)に疑問視され、現実の応用におけるモデルの利点を見落としることができる。 そこで我々は,対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。 トピックモデルを分類器と組み合わせて、人間がコンテンツ分析や文書アノテーションを行うのを助ける能力をテストする。 シミュレーションされた実際のユーザと専門家によるパイロットスタディから、Contextual Neural Topic Modelはクラスタ評価の指標と人間の評価に最善を尽くすが、LDAは他の2つのNTMと競合する。 現在の自動メトリクスは、トピックモデリング機能の完全な図示を提供していないが、NTMの正しい選択は、実践的なタスクにおける古典的なモデルよりも優れていることを示す。

Topic models are a popular tool for understanding text collections, but their evaluation has been a point of contention. Automated evaluation metrics such as coherence are often used, however, their validity has been questioned for neural topic models (NTMs) and can overlook the benefits of a model in real world applications. To this end, we conduct the first evaluation of neural, supervised and classical topic models in an interactive task based setting. We combine topic models with a classifier and test their ability to help humans conduct content analysis and document annotation. From simulated, real user and expert pilot studies, the Contextual Neural Topic Model does the best on cluster evaluation metrics and human evaluations; however, LDA is competitive with two other NTMs under our simulated experiment and user study results, contrary to what coherence scores suggest. We show that current automated metrics do not provide a complete picture of topic modeling capabilities, but the right choice of NTMs can be better than classical models on practical tasks.
翻訳日:2024-01-30 14:07:43 公開日:2024-01-29
# DNNからの一般化可能な相互作用プリミティブの定義と抽出

Defining and Extracting generalizable interaction primitives from DNNs ( http://arxiv.org/abs/2401.16318v1 )

ライセンス: Link先を確認
Lu Chen, Siyu Lou, Benhao Huang, Quanshi Zhang(参考訳) ディープニューラルネットワーク(DNN)によって符号化された知識を、多くの情報を失うことなく、いくつかの象徴的な原始パターンに忠実に要約することは、説明可能なAIにおける中核的な課題である。 この目的のために、Ren et al. (2023c) は DNN の推論スコアを入力変数間の小さな相互作用の集合として説明できることを示す一連の定理を導出した。 しかし、一般化力の欠如により、DNNが符号化した忠実な原始パターンのような相互作用を考えることは依然として困難である。 そこで,同じタスクで訓練された異なるDNNに対して,これらのDNNが共有するインタラクションを抽出する新しい手法を開発した。 実験により、抽出された相互作用は、異なるDNNが共有する共通知識をよりよく反映できることが示された。

Faithfully summarizing the knowledge encoded by a deep neural network (DNN) into a few symbolic primitive patterns without losing much information represents a core challenge in explainable AI. To this end, Ren et al. (2023c) have derived a series of theorems to prove that the inference score of a DNN can be explained as a small set of interactions between input variables. However, the lack of generalization power makes it still hard to consider such interactions as faithful primitive patterns encoded by the DNN. Therefore, given different DNNs trained for the same task, we develop a new method to extract interactions that are shared by these DNNs. Experiments show that the extracted interactions can better reflect common knowledge shared by different DNNs.
翻訳日:2024-01-30 14:07:24 公開日:2024-01-29
# 量子コンピュータの利点とリスクを評価する

Assessing the Benefits and Risks of Quantum Computers ( http://arxiv.org/abs/2401.16317v1 )

ライセンス: Link先を確認
Travis L. Scholten and Carl J. Williams and Dustin Moody and Michele Mosca and William "whurley" Hurley and William J. Zeng and Matthias Troyer and Jay M. Gambetta(参考訳) 量子コンピューティングは、国家の繁栄とセキュリティに大きく影響する可能性のある新興技術である。 経済的な利益と国家安全保障のリスクが表れる時間枠を理解することは、この技術の慎重な開発を確実にするために不可欠である。 この問題について、セキュリティの専門家や政策決定者に対して、現在量子コンピュータの潜在的な使用とリスクについて知られていることをレビューし、現在の研究文献を活用する。 現在利用可能な量子コンピュータの成熟度は、大規模で工業的に関係のある問題で生産に使用できるレベルには達していないが、現在セキュリティ上のリスクが生じるとは考えていない。 我々は、新しい近似手法(変分アルゴリズム、エラー軽減、回路編み)とビジネス関連量子アプリケーションの商業的探索という2つの大規模トレンドを特定し、近い将来に有用で実用的な量子コンピューティングを可能にする。 重要なことに、これらの手法は、現在使用されている暗号システム上での暗号解析に必要なリソースを変更することはない。 暗号解析の現在および既知のアルゴリズムを解析した結果、現在および近未来の量子コンピュータで動作可能なもの(そして誤り訂正を必要とするもの)を超える大きさの回路が必要であることがわかったが、これらの問題に対する量子アルゴリズムの改善が文献で行われていることを認めている。 さらに、サイバーセキュリティのリスクは、我々が調査し議論する新しい量子セーフ暗号プロトコルへの移行によって、十分に管理できる。 以上を踏まえると、量子コンピュータは、暗号的に関連のある計算を行うことができる前に、経済的に影響のある計算を行うことができるという信頼性の高い期待がある。

Quantum computing is an emerging technology with potentially far-reaching implications for national prosperity and security. Understanding the timeframes over which economic benefits and national security risks may manifest themselves is vital for ensuring the prudent development of this technology. To inform security experts and policy decision makers on this matter, we review what is currently known on the potential uses and risks of quantum computers, leveraging current research literature. The maturity of currently-available quantum computers is not yet at a level such that they can be used in production for large-scale, industrially-relevant problems, but they are not believed to currently pose security risks. We identify 2 large-scale trends -- new approximate methods (variational algorithms, error mitigation, and circuit knitting) and the commercial exploration of business-relevant quantum applications -- which, together, may enable useful and practical quantum computing in the near future. Crucially, these methods do not appear likely to change the required resources for cryptanalysis on currently-used cryptosystems. From an analysis we perform of the current and known algorithms for cryptanalysis, we find they require circuits of a size exceeding those that can be run by current and near-future quantum computers (and which will require error correction), though we acknowledge improvements in quantum algorithms for these problems are taking place in the literature. In addition, the risk to cybersecurity can be well-managed by the migration to new, quantum-safe cryptographic protocols, which we survey and discuss. Given the above, we conclude there is a credible expectation that quantum computers will be capable of performing computations which are economically-impactful before they will be capable of performing ones which are cryptographically-relevant.
翻訳日:2024-01-30 14:07:13 公開日:2024-01-29
# 翻訳精度チャレンジセットによる機械翻訳メタ評価

Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets ( http://arxiv.org/abs/2401.16313v1 )

ライセンス: Link先を確認
Nikita Moghe, Arnisa Fazla, Chantal Amrhein, Tom Kocmi, Mark Steedman, Alexandra Birch, Rico Sennrich, Liane Guillou(参考訳) 最近の機械翻訳(MT)メトリクスは、人間の判断に関連付けることで、その効果を校正するが、異なるエラータイプにまたがる彼らの振る舞いについての洞察は得られない。 チャレンジセットは、メートル法行動の特定の次元を探索するために使用されるが、そのようなデータセットは非常に少なく、限られた数の現象や限られた数の言語対に焦点を当てている。 68の翻訳精度の誤りを識別できるかどうかを判断するために,146の言語ペアにまたがる対照的なチャレンジセットであるacesを紹介する。 これらの現象は、単語/文字レベルでの単純な変更から、会話や現実世界の知識に基づくより複雑なエラーまで様々である。 我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで大規模な研究を行う。 評価指標のパフォーマンスをベンチマークし、連続したキャンペーンよりも漸進的なパフォーマンスを評価し、様々な言語現象に対する感度を測定する。 また,大規模言語モデル(LLM)がMT評価器として有効であることを示す。 以上の結果から,異なる計量系は異なる現象に悩まされ,LCM法では信頼性の高い性能を示すことができないことが示された。 分析の結果、ほとんどの指標は原文を無視し、表面レベルの重なり合いを好み、必ずしも有益ではないベースモデルの特性を組み込む傾向にあることがわかった。 ACESを拡張して、SPAN-ACESと表記されるエラースパンアノテーションを含むようにし、このデータセットを使用して、これらのメトリクスにも大幅な改善が必要であることを示すスパンベースのエラーメトリクスを評価します。 最後に、スコアの代わりにエラーラベルにフォーカスする、アンサンブルする、ソース文に明示的にフォーカスする戦略を設計する、セマンティックコンテンツにフォーカスする、表現のための正しいベースモデルを選択するなど、よりよいMTメトリクスを構築するための一連の推奨事項を提供する。

Recent machine translation (MT) metrics calibrate their effectiveness by correlating with human judgement but without any insights about their behaviour across different error types. Challenge sets are used to probe specific dimensions of metric behaviour but there are very few such datasets and they either focus on a limited number of phenomena or a limited number of language pairs. We introduce ACES, a contrastive challenge set spanning 146 language pairs, aimed at discovering whether metrics can identify 68 translation accuracy errors. These phenomena range from simple alterations at the word/character level to more complex errors based on discourse and real-world knowledge. We conduct a large-scale study by benchmarking ACES on 50 metrics submitted to the WMT 2022 and 2023 metrics shared tasks. We benchmark metric performance, assess their incremental performance over successive campaigns, and measure their sensitivity to a range of linguistic phenomena. We also investigate claims that Large Language Models (LLMs) are effective as MT evaluators by evaluating on ACES. Our results demonstrate that different metric families struggle with different phenomena and that LLM-based methods fail to demonstrate reliable performance. Our analyses indicate that most metrics ignore the source sentence, tend to prefer surface-level overlap and end up incorporating properties of base models which are not always beneficial. We expand ACES to include error span annotations, denoted as SPAN-ACES and we use this dataset to evaluate span-based error metrics showing these metrics also need considerable improvement. Finally, we provide a set of recommendations for building better MT metrics, including focusing on error labels instead of scores, ensembling, designing strategies to explicitly focus on the source sentence, focusing on semantic content and choosing the right base model for representations.
翻訳日:2024-01-30 14:06:45 公開日:2024-01-29
# 修正ランドウ・セプタ型低ノイズ量子チャネルの高次元分解性

Degradability of Modified Landau-Streater Type Low-Noise Quantum Channels in High Dimensions ( http://arxiv.org/abs/2401.16312v1 )

ライセンス: Link先を確認
Yun-Feng Lo, Yen-Chi Lee, Min-Hsiu Hsieh(参考訳) 本稿では,量子チャネルの劣化性に着目し,低雑音状態における量子ビット偏極チャネルの高次元拡張に着目した。 Sutter et al. と Leditzky et al. が確立した $\eta$-approximate degradable channel の基礎の上に構築し, 改良ランドウ・サトイヤー (MLS) チャネルの導入と検討を行う。 これらのチャネルは qubit の分極上に広がり、最近提案されたRoofeh と Karimipour による Werner-Holevo チャネルはより高次元のヒルベルト空間に拡張される(次元 $d=2j+1$,$j$ は正の半整数である)。 本研究は,$o(\varepsilon^2)$分解性パターンへの適合性に着目し,$d=2$の場合におけるleditzkyらの研究結果と整合し拡張する。 SU($2$) ジェネレータを SU($d$) に置き換えることで、一般化されたゲルマン行列を将来の研究に含める可能性を探ることができる。 その結果、低ノイズ領域における量子チャネルの超加法的理解が深まり、より広いスペクトルの量子チャネルにわたってo(\varepsilon^2)$分解可能性をもたらすような状態や構造への将来の探索の土台となった。

This paper delves into the degradability of quantum channels, with a specific focus on high-dimensional extensions of qubit depolarizing channels in low-noise regimes. We build upon the foundation of $\eta$-approximate degradable channels, as established by Sutter et al. and Leditzky et al., to introduce and examine the Modified Landau-Streater (MLS) channels. These channels expand upon the qubit depolarizing and the recently proposed modified Werner-Holevo channels by Roofeh and Karimipour, extending them to higher-dimensional Hilbert spaces (with dimension $d=2j+1$, where $j$ are positive half-integers). Our investigation centers on their conformity to the $O(\varepsilon^2)$ degradability pattern, aligning with and extending Leditzky et al.'s findings in the $d=2$ case. By replacing the SU($2$) generators with SU($d$) in our treatment, we may explore the potential inclusion of generalized Gell-Mann matrices in future research. Our results enhance the understanding of super-additivity in quantum channels within the low-noise regime and lay the groundwork for future explorations into conditions and structures that could lead to $O(\varepsilon^2)$ degradability across a broader spectrum of quantum channels.
翻訳日:2024-01-30 14:06:14 公開日:2024-01-29
# LLMsによるセキュリティコードレビュー - 反応を深く掘り下げる

Security Code Review by LLMs: A Deep Dive into Responses ( http://arxiv.org/abs/2401.16310v1 )

ライセンス: Link先を確認
Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin, Chong Wang, Yangxiao Cai(参考訳) セキュリティコードレビューは、自動ツールと、開発中のセキュリティ欠陥を検出する手作業を組み合わせたものだ。 大規模言語モデル(LLM)の急速な開発は、ソフトウェア開発における有望な可能性を示し、自動セキュリティコードレビューの新たな可能性を開く。 セキュリティ欠陥検出のための実用的コードレビューにLLMを適用する際の課題を検討するため,実世界のコードレビューからセキュリティ欠陥を含む549個のコードファイルに対して,最先端の3つのLLM(Gemini Pro, GPT-4, GPT-3.5)の検出性能を比較した。 ランダムに選択された100個のコードファイルに基づいて,最良性能のLLM-promptの組み合わせによって生成される82の応答を解析し,これらの応答に存在する品質問題を5つのテーマと16のカテゴリに分類した。 以上の結果から, LLMの応答は冗長性, 曖昧性, 不完全性に悩まされることが多く, その簡潔さ, 理解可能性, セキュリティ欠陥検出の遵守の必要性が示唆された。 本研究は,セキュリティコードレビューにおけるLLM生成応答の欠陥を明らかにし,今後のLLMの最適化方法を明らかにする。

Security code review aims to combine automated tools and manual efforts to detect security defects during development. The rapid development of Large Language Models (LLMs) has shown promising potential in software development, as well as opening up new possibilities in automated security code review. To explore the challenges of applying LLMs in practical code review for security defect detection, this study compared the detection performance of three state-of-the-art LLMs (Gemini Pro, GPT-4, and GPT-3.5) under five prompts on 549 code files that contain security defects from real-world code reviews. Through analyzing 82 responses generated by the best-performing LLM-prompt combination based on 100 randomly selected code files, we extracted and categorized quality problems present in these responses into 5 themes and 16 categories. Our results indicate that the responses produced by LLMs often suffer from verbosity, vagueness, and incompleteness, highlighting the necessity to enhance their conciseness, understandability, and compliance to security defect detection. This work reveals the deficiencies of LLM-generated responses in security code review and paves the way for future optimization of LLMs towards this task.
翻訳日:2024-01-30 14:05:46 公開日:2024-01-29
# MixSup: ラベル効率のよいLiDARベースの3Dオブジェクト検出のための混合粒度スーパービジョン

MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2401.16305v1 )

ライセンス: Link先を確認
Yuxue Yang, Lue Fan, Zhaoxiang Zhang(参考訳) ラベル効率のよいLiDARベースの3Dオブジェクト検出は、現在弱い/半教師付き手法によって支配されている。 そこで我々は,MixSupを提案する。これは,大規模で安価な粗いラベルと,Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する,より実用的なパラダイムである。 私たちはまず、点雲が通常無テクスチャであり、意味論を学ぶのが難しいことを観察することから始めます。 しかし、点雲はセンサーからの距離に対して幾何学的に豊かでスケール不変であり、ポーズや形状などの物体の形状を学ぶのは比較的容易である。 このように、MixSupは大量の粗いクラスタレベルのラベルを活用してセマンティクスと高価なボックスレベルのラベルを学習し、正確なポーズと形状を学ぶ。 メインストリーム検出器のラベル割り当てを再設計し,mixsupにシームレスに統合することで,実用性と普遍性を実現する。 様々な検出器を用いて, nuScenes, Waymo Open Dataset, KITTIの有効性を検証する。 mixsupは、完全な教師付きパフォーマンスの最大97.31%を達成し、安価なクラスタアノテーションと10%のボックスアノテーションを使用する。 さらに,自動粗いラベル付けのためのセグメンテーションモデルに基づくポイントSAMを提案し,アノテーションの負担を軽減した。 コードはhttps://github.com/BraveGroup/PointSAM-for-MixSupで公開されている。

Label-efficient LiDAR-based 3D object detection is currently dominated by weakly/semi-supervised methods. Instead of exclusively following one of them, we propose MixSup, a more practical paradigm simultaneously utilizing massive cheap coarse labels and a limited number of accurate labels for Mixed-grained Supervision. We start by observing that point clouds are usually textureless, making it hard to learn semantics. However, point clouds are geometrically rich and scale-invariant to the distances from sensors, making it relatively easy to learn the geometry of objects, such as poses and shapes. Thus, MixSup leverages massive coarse cluster-level labels to learn semantics and a few expensive box-level labels to learn accurate poses and shapes. We redesign the label assignment in mainstream detectors, which allows them seamlessly integrated into MixSup, enabling practicality and universality. We validate its effectiveness in nuScenes, Waymo Open Dataset, and KITTI, employing various detectors. MixSup achieves up to 97.31% of fully supervised performance, using cheap cluster annotations and only 10% box annotations. Furthermore, we propose PointSAM based on the Segment Anything Model for automated coarse labeling, further reducing the annotation burden. The code is available at https://github.com/BraveGroup/PointSAM-for-MixSup.
翻訳日:2024-01-30 14:05:23 公開日:2024-01-29
# データ効率の良い視覚位置認識のためのレグレッシブトランス

Regressing Transformers for Data-efficient Visual Place Recognition ( http://arxiv.org/abs/2401.16304v1 )

ライセンス: Link先を確認
Mar\'ia Leyva-Vallina, Nicola Strisciuglio and Nicolai Petkov(参考訳) 視覚位置認識はコンピュータビジョン、特にローカライゼーションやナビゲーションシステムにおいて重要なタスクである。 画像記述子は、類似した画像に対して小さな距離を持つように訓練され、潜在空間において異なる画像に対してより大きな距離を持つように訓練される。 しかし、このアプローチは、特にバイナリペアワイドラベルによるトレーニングや複雑な再ランク戦略が必要な場合には、正確な距離ベースの画像類似性表現を保証するのに苦労する。 本研究は,位置認識を回帰問題とし,学習のための類似性基盤としてカメラとビューの重なりを用いた新しい視点を提案する。 画像記述子をグレードの類似度ラベルに直接合わせるように最適化することで、このアプローチは、高価な再ランク付けなしにランキング機能を強化し、データ効率の良いトレーニングといくつかのベンチマークデータセットにわたる強力な一般化を提供する。

Visual place recognition is a critical task in computer vision, especially for localization and navigation systems. Existing methods often rely on contrastive learning: image descriptors are trained to have small distance for similar images and larger distance for dissimilar ones in a latent space. However, this approach struggles to ensure accurate distance-based image similarity representation, particularly when training with binary pairwise labels, and complex re-ranking strategies are required. This work introduces a fresh perspective by framing place recognition as a regression problem, using camera field-of-view overlap as similarity ground truth for learning. By optimizing image descriptors to align directly with graded similarity labels, this approach enhances ranking capabilities without expensive re-ranking, offering data-efficient training and strong generalization across several benchmark datasets.
翻訳日:2024-01-30 14:05:00 公開日:2024-01-29
# 補助学習とタスク特化適応による分子特性予測の強化

Enhancing Molecular Property Prediction with Auxiliary Learning and Task-Specific Adaptation ( http://arxiv.org/abs/2401.16299v1 )

ライセンス: Link先を確認
Vishal Dey and Xia Ning(参考訳) 事前学習されたグラフニューラルネットワークは様々な分子特性予測タスクに広く採用されている。 分子の構造的および関係的特徴を符号化する能力があるにもかかわらず、そのような事前訓練されたGNNを目標タスクで微調整することは、一般化の貧弱につながる。 そこで本研究では,複数タスクの協調学習により,事前学習したGNNの目標タスクへの適応について検討する。 これにより、GNNは一般的な機能とタスク固有の機能の両方を学ぶことができる。 しかしながら、主な課題は、対象タスクと補助タスクの関連性を決定することである。 そこで本研究では,タスクの勾配を適応的に組み合わせたり,タスク重みをバイレベル最適化によって学習することで,補助タスクの関連性を計測し,タスクを統合するための複数の戦略を検討する。 さらに, 係り合う補助的作業勾配を回転によって整合させることを学習する, 新たな勾配手術ベースのアプローチ, Rotation of Conflicting Gradients(\mathtt{RCGrad}$)を提案する。 最先端の事前訓練GNNを用いた実験は,提案手法の有効性を実証し,微調整よりも最大7.7%改善した。 このことは, 分子特性予測のための事前学習されたGNNの一般化性向上に有効な手法として, 目的タスクの微調整とともに補助タスクを組み込むことが示唆された。

Pretrained Graph Neural Networks have been widely adopted for various molecular property prediction tasks. Despite their ability to encode structural and relational features of molecules, traditional fine-tuning of such pretrained GNNs on the target task can lead to poor generalization. To address this, we explore the adaptation of pretrained GNNs to the target task by jointly training them with multiple auxiliary tasks. This could enable the GNNs to learn both general and task-specific features, which may benefit the target task. However, a major challenge is to determine the relatedness of auxiliary tasks with the target task. To address this, we investigate multiple strategies to measure the relevance of auxiliary tasks and integrate such tasks by adaptively combining task gradients or by learning task weights via bi-level optimization. Additionally, we propose a novel gradient surgery-based approach, Rotation of Conflicting Gradients ($\mathtt{RCGrad}$), that learns to align conflicting auxiliary task gradients through rotation. Our experiments with state-of-the-art pretrained GNNs demonstrate the efficacy of our proposed methods, with improvements of up to 7.7% over fine-tuning. This suggests that incorporating auxiliary tasks along with target task fine-tuning can be an effective way to improve the generalizability of pretrained GNNs for molecular property prediction.
翻訳日:2024-01-30 14:04:45 公開日:2024-01-29
# 医療画像分割のための選択的不確実性に基づくアクティブラーニング

Breaking the Barrier: Selective Uncertainty-based Active Learning for Medical Image Segmentation ( http://arxiv.org/abs/2401.16298v1 )

ライセンス: Link先を確認
Siteng Ma, Haochang Wu, Aonghus Lawlor, Ruihai Dong(参考訳) アクティブラーニング(al)は、アノテーションのワークロードの軽減とパフォーマンスの向上を目的として、医療画像分割に広く応用されている。 エントロピーやベイジアンのような従来の不確実性に基づくAL法は、しばしばすべてのピクセルレベルのメトリクスの集約に依存する。 しかし、不均衡な環境では、これらの手法はターゲット領域の重要さを無視する傾向にある。 腫瘍、病変、腫瘍など。 さらに不確実性に基づく選択は冗長性をもたらす。 これらの要因は不満足なパフォーマンスを招き、多くの場合、ランダムサンプリングが低パフォーマンスである。 そこで本研究では,不確実性に基づく選択的alと呼ばれる新しい手法を導入し,すべての画素のメトリクスを総和する従来の手法を回避した。 フィルタリングプロセスを通じて,我々の戦略は,対象領域内の画素と決定境界付近の画素を優先する。 これにより、前述の対象領域と冗長性に対する無視が解消される。 提案手法は,5つの異なる不確実性に基づく手法と2つの異なるデータセットにまたがって大幅に改善され,ラベル付きデータが少なくて教師付きベースラインに到達し,常に最高性能を達成する。 私たちのコードはhttps://github.com/HelenMa9998/Selective\_Uncertainty\_ALで利用可能です。

Active learning (AL) has found wide applications in medical image segmentation, aiming to alleviate the annotation workload and enhance performance. Conventional uncertainty-based AL methods, such as entropy and Bayesian, often rely on an aggregate of all pixel-level metrics. However, in imbalanced settings, these methods tend to neglect the significance of target regions, eg., lesions, and tumors. Moreover, uncertainty-based selection introduces redundancy. These factors lead to unsatisfactory performance, and in many cases, even underperform random sampling. To solve this problem, we introduce a novel approach called the Selective Uncertainty-based AL, avoiding the conventional practice of summing up the metrics of all pixels. Through a filtering process, our strategy prioritizes pixels within target areas and those near decision boundaries. This resolves the aforementioned disregard for target areas and redundancy. Our method showed substantial improvements across five different uncertainty-based methods and two distinct datasets, utilizing fewer labeled data to reach the supervised baseline and consistently achieving the highest overall performance. Our code is available at https://github.com/HelenMa9998/Selective\_Uncertainty\_AL.
翻訳日:2024-01-30 14:04:19 公開日:2024-01-29
# 二重特徴量と例に基づく説明法

Dual feature-based and example-based explanation methods ( http://arxiv.org/abs/2401.16294v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov, Boris V. Kozlov, Stanislav R. Kirpichenko, and Lev V. Utkin(参考訳) 地域的およびグローバル的説明への新しいアプローチを提案する。 これは、説明されたインスタンスの周りの有限個の点に対して構築された凸包を選択することに基づいている。 凸包(convex hull)は、生成されたポリトープの極点の凸結合の形でインスタンスの双対表現を考えることができる。 ユークリッド特徴空間における新しいインスタンスを摂動する代わりに、凸結合係数のベクトルは単位単純集合から一様に生成され、新しい二重データセットを形成する。 双対線形サロゲートモデルは、双対データセット上で訓練される。 説明特徴重要値は、単純な行列計算によって計算される。 このアプローチは、よく知られたモデル LIME の修正と見なすことができる。 二重表現は、本質的に例に基づく説明を得ることができます。 ニューラル加算モデルは、例ベースの説明手法を実装するためのツールとしても考えられている。 このアプローチを研究するために、実データを用いた多くの数値実験が行われる。 提案アルゴリズムのコードは利用可能である。

A new approach to the local and global explanation is proposed. It is based on selecting a convex hull constructed for the finite number of points around an explained instance. The convex hull allows us to consider a dual representation of instances in the form of convex combinations of extreme points of a produced polytope. Instead of perturbing new instances in the Euclidean feature space, vectors of convex combination coefficients are uniformly generated from the unit simplex, and they form a new dual dataset. A dual linear surrogate model is trained on the dual dataset. The explanation feature importance values are computed by means of simple matrix calculations. The approach can be regarded as a modification of the well-known model LIME. The dual representation inherently allows us to get the example-based explanation. The neural additive model is also considered as a tool for implementing the example-based explanation approach. Many numerical experiments with real datasets are performed for studying the approach. The code of proposed algorithms is available.
翻訳日:2024-01-30 14:03:58 公開日:2024-01-29
# オブジェクト予測における有効三重検証のためのテクスチュアルエンターメント

Textual Entailment for Effective Triple Validation in Object Prediction ( http://arxiv.org/abs/2401.16293v1 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Silva, Cristian Berr\'io, Jos\'e Manuel G\'omez-P\'erez(参考訳) 知識ベース人口は、典型的にはテキストコーパスから抽出される事実を用いて知識グラフを拡張しようとする。 近年,大規模コーパスで事前学習された言語モデルには,クローゼ型戦略を用いて取得可能な事実知識が含まれていることが示されている。 このようなアプローチは事実のゼロショットリコールを可能にし、教師付きベースラインと比較してオブジェクト予測の競合結果を示す。 しかし、プロンプトに基づくファクト検索は不安定であり、使用するプロンプトやコンテキストに大きく依存するので、意図しない結果や幻覚的な結果が得られる可能性がある。 その結果,テキストによる三重検証により,異なる学習環境における言語モデル予測が向上することがわかった。 さらに,既存のナレッジグラフや名前付きエンティティが認識されるテキストパスを含む他の情報源から抽出された候補事実の検証にも,補足ベースの三重検証が有効であることを示す。

Knowledge base population seeks to expand knowledge graphs with facts that are typically extracted from a text corpus. Recently, language models pretrained on large corpora have been shown to contain factual knowledge that can be retrieved using cloze-style strategies. Such approach enables zero-shot recall of facts, showing competitive results in object prediction compared to supervised baselines. However, prompt-based fact retrieval can be brittle and heavily depend on the prompts and context used, which may produce results that are unintended or hallucinatory.We propose to use textual entailment to validate facts extracted from language models through cloze statements. Our results show that triple validation based on textual entailment improves language model predictions in different training regimes. Furthermore, we show that entailment-based triple validation is also effective to validate candidate facts extracted from other sources including existing knowledge graphs and text passages where named entities are recognized.
翻訳日:2024-01-30 14:03:45 公開日:2024-01-29
# MachineLearnAthon: アクション指向機械学習の実践的概念

MachineLearnAthon: An Action-Oriented Machine Learning Didactic Concept ( http://arxiv.org/abs/2401.16291v1 )

ライセンス: Link先を確認
Michal Tk\'a\v{c}, Jakub Sieber, Lara Kuhlmann, Matthias Brueggenolte, Alexandru Rinciog, Michael Henke, Artur M. Schweidtmann, Qinghe Gao, Maximilian F. Theisen, Radwa El Shawi(参考訳) 機械学習(ML)技術は、近年、社会科学から自然科学、工学まで、様々な分野にまたがっている。 MLの幅広い応用と進化の加速は、この技術のより信頼性と責任性を高めることを目的とした専用の教育概念の必要性を増す。 しかし、MLを教えるのは大変な仕事です。 MLアルゴリズムの方法論的複雑さとは別に、理論と実装に関して、分野の学際的および経験的な性質を考慮する必要がある。 本稿では,数学,プログラミング,ドメインの専門知識が異質な分野の学生を包括する,革新的なディダクティックな概念である machinelearnathon format を紹介する。 コンセプトの中心は、実世界の問題を解決するために産業用データセットを使用するmlチャレンジである。 これらはmlパイプライン全体をカバーし、データリテラシーと実践的なスキルを、データ準備からデプロイメント、評価まで促進する。

Machine Learning (ML) techniques are encountered nowadays across disciplines, from social sciences, through natural sciences to engineering. The broad application of ML and the accelerated pace of its evolution lead to an increasing need for dedicated teaching concepts aimed at making the application of this technology more reliable and responsible. However, teaching ML is a daunting task. Aside from the methodological complexity of ML algorithms, both with respect to theory and implementation, the interdisciplinary and empirical nature of the field need to be taken into consideration. This paper introduces the MachineLearnAthon format, an innovative didactic concept designed to be inclusive for students of different disciplines with heterogeneous levels of mathematics, programming and domain expertise. At the heart of the concept lie ML challenges, which make use of industrial data sets to solve real-world problems. These cover the entire ML pipeline, promoting data literacy and practical skills, from data preparation, through deployment, to evaluation.
翻訳日:2024-01-30 14:03:26 公開日:2024-01-29
# GAPS:幾何学的問題解決法

GAPS: Geometry-Aware Problem Solver ( http://arxiv.org/abs/2401.16287v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Yinghui Jiang, Yashar Moshfeghi(参考訳) 幾何学的問題解決は、NLPコミュニティにおける深刻な課題である。 既存のアプローチは、しばしば数学の単語問題を解くために設計されたモデルに依存し、幾何学の数学問題の特異な特徴を無視する。 さらに、現在の研究は主に幾何学計算の問題に焦点を当て、証明のような他の重要な側面を見下ろしている。 本研究では,GAPS(Geometry-Aware Problem Solver)モデルを提案することによって,これらの制約に対処する。 GAPSは、独自の問題型分類器の助けを借りて、様々なタイプの幾何問題に対する解プログラムを生成するように設計されている。 これを実現するため、GAPSは、ソリューションプログラムを演算子とオペランドの合成として扱い、生成プロセスを分離する。 さらに,GAPSの幾何学的要素を正確に認識する能力を向上する幾何学的要素拡張手法を提案する。 これらの改良を活用して、GAPSは幾何学数学問題の解法における顕著な性能を示す。 UniGeoデータセットで行った実験は、最先端モデルであるGeoformerよりもGAPSの方が優れていることを示す。 具体的には、GAPSは計算タスクで5.3%以上、証明タスクで41.1%の精度向上を実現している。 中でもgapsは97.5%という印象的な精度を達成し、幾何学的証明タスクの解決において大きな進歩を遂げている。

Geometry problem solving presents a formidable challenge within the NLP community. Existing approaches often rely on models designed for solving math word problems, neglecting the unique characteristics of geometry math problems. Additionally, the current research predominantly focuses on geometry calculation problems, while overlooking other essential aspects like proving. In this study, we address these limitations by proposing the Geometry-Aware Problem Solver (GAPS) model. GAPS is specifically designed to generate solution programs for geometry math problems of various types with the help of its unique problem-type classifier. To achieve this, GAPS treats the solution program as a composition of operators and operands, segregating their generation processes. Furthermore, we introduce the geometry elements enhancement method, which enhances the ability of GAPS to recognize geometry elements accurately. By leveraging these improvements, GAPS showcases remarkable performance in resolving geometry math problems. Our experiments conducted on the UniGeo dataset demonstrate the superiority of GAPS over the state-of-the-art model, Geoformer. Specifically, GAPS achieves an accuracy improvement of more than 5.3% for calculation tasks and an impressive 41.1% for proving tasks. Notably, GAPS achieves an impressive accuracy of 97.5% on proving problems, representing a significant advancement in solving geometry proving tasks.
翻訳日:2024-01-30 14:03:08 公開日:2024-01-29
# コンテンツに基づく誤情報検出のための関連するシンボル特徴のキャプチャ

Capturing Pertinent Symbolic Features for Enhanced Content-Based Misinformation Detection ( http://arxiv.org/abs/2401.16285v1 )

ライセンス: Link先を確認
Flavio Merenda and Jos\'e Manuel G\'omez-P\'erez(参考訳) 誤情報の拡散を防ぐことは難しい。 誤解を招く内容の検出は、言語学的および領域的多様性の極端に高いハードルとなる。 コンテンツベースモデルでは、ソーシャルメディア投稿やウェブ記事などのテキストデータから表現を学習することで、認識言語を識別することができた。 しかし、この異種現象の代表的なサンプルを集約し、有効な実世界の応用を実装することは、いまだ解明されていない。 本稿では,誤情報の言語に関する分析研究に基づいて,この現象を特徴付ける言語的属性と,最も一般的な誤情報データセットの特徴について分析する。 ニューラルネットワークモデルと組み合わせた記号的知識の適切な利用は,誤解を招くコンテンツの検出に有効であることを実証する。 提案手法は,追加のトレーニングデータを必要としないマルチタスク変換学習に対して,有効かつ堅牢な代替手段を提供することを示す。 さらに, 構造化知識は, 精度だけでなく, 時間効率, 資源利用の観点からも, 誤情報検出のような複雑で予測不能な現実世界問題に対処するのに必要となる余分な向上をもたらすことを示す。

Preventing the spread of misinformation is challenging. The detection of misleading content presents a significant hurdle due to its extreme linguistic and domain variability. Content-based models have managed to identify deceptive language by learning representations from textual data such as social media posts and web articles. However, aggregating representative samples of this heterogeneous phenomenon and implementing effective real-world applications is still elusive. Based on analytical work on the language of misinformation, this paper analyzes the linguistic attributes that characterize this phenomenon and how representative of such features some of the most popular misinformation datasets are. We demonstrate that the appropriate use of pertinent symbolic knowledge in combination with neural language models is helpful in detecting misleading content. Our results achieve state-of-the-art performance in misinformation datasets across the board, showing that our approach offers a valid and robust alternative to multi-task transfer learning without requiring any additional training data. Furthermore, our results show evidence that structured knowledge can provide the extra boost required to address a complex and unpredictable real-world problem like misinformation detection, not only in terms of accuracy but also time efficiency and resource utilization.
翻訳日:2024-01-30 14:02:48 公開日:2024-01-29
# cDVGAN:マルチクラス重力波信号と格子生成のためのフレキシブルモデル

cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation ( http://arxiv.org/abs/2401.16356v1 )

ライセンス: Link先を確認
Tom Dooney, Lyana Curier, Daniel Tan, Melissa Lopez, Chris Van Den Broeck, Stefano Bromuri(参考訳) 重力波(GW)とGW検出器グリッチの現実的な時間領域観測のシミュレーションは、GWデータ解析の進歩に役立つ。 シミュレーションされたデータは、信号検索のためのデータセットの拡張、機械学習のためのデータセットのバランス、検出スキームの検証によって下流タスクで使用できる。 本研究では、重力波(GW)と検出器グリッチを表す複数の時間領域観測のクラスをシミュレートする、ジェネレーティブ・アドバーサリアル・ネットワーク・フレームワークにおける新しい条件モデルである条件微分型GAN(cDVGAN)を提案する。 cDVGANはまた、条件付きクラスベクトルの補間によってクラス間のばらつきにまたがる一般化されたハイブリッドサンプルを生成することもできる。 cDVGANは、GANの典型的な2人対戦ゲームに追加のプレイヤーを導入し、補助判別器が1次微分時間列を解析する。 その結果, 合成データの提供により, 元のデータの特徴をよりよく把握できることがわかった。 cDVGAN条件は3つのクラスで、LIGO blip と Tomte glitch の事象を観測3回目(O3)から2回、そして3回目は2回目(BBH)の融合を表す。 提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。 具体的には,cdvgan生成データを用いた学習畳み込みニューラルネットワーク(cnns)が,他の最先端ganモデルからの合成データを超えて,検出器ノイズに埋め込まれたサンプルの検出を改善していることを示す。 我々の最高の合成データセットは、ベースラインGANの合成データセットと比較して、AUCのパフォーマンスが4.2%向上する。 さらに,CNNをcDVGANのハイブリッドサンプルでトレーニングすることで,標準クラスのみをトレーニングし,LIGO検出器バックグラウンドに埋め込まれた実サンプルを同定する(cDVGANの4%のAUC改善)。

Simulating realistic time-domain observations of gravitational waves (GWs) and GW detector glitches can help in advancing GW data analysis. Simulated data can be used in downstream tasks by augmenting datasets for signal searches, balancing data sets for machine learning, and validating detection schemes. In this work, we present Conditional Derivative GAN (cDVGAN), a novel conditional model in the Generative Adversarial Network framework for simulating multiple classes of time-domain observations that represent gravitational waves (GWs) and detector glitches. cDVGAN can also generate generalized hybrid samples that span the variation between classes through interpolation in the conditioned class vector. cDVGAN introduces an additional player into the typical 2-player adversarial game of GANs, where an auxiliary discriminator analyzes the first-order derivative time-series. Our results show that this provides synthetic data that better captures the features of the original data. cDVGAN conditions on three classes, two denoised from LIGO blip and tomte glitch events from its 3rd observing run (O3), and the third representing binary black hole (BBH) mergers. Our proposed cDVGAN outperforms 4 different baseline GAN models in replicating the features of the three classes. Specifically, our experiments show that training convolutional neural networks (CNNs) with our cDVGAN-generated data improves the detection of samples embedded in detector noise beyond the synthetic data from other state-of-the-art GAN models. Our best synthetic dataset yields as much as a 4.2% increase in area-under-the-curve (AUC) performance compared to synthetic datasets from baseline GANs. Moreover, training the CNN with hybrid samples from our cDVGAN outperforms CNNs trained only on the standard classes, when identifying real samples embedded in LIGO detector background (4% AUC improvement for cDVGAN).
翻訳日:2024-01-30 13:56:26 公開日:2024-01-29
# PathMMU: 病理の理解と推論のための大規模マルチモーダルエキスパートレベルベンチマーク

PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology ( http://arxiv.org/abs/2401.16355v1 )

ライセンス: Link先を確認
Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang, Yunlong Zhang, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao Lin, Lin Yang(参考訳) 大規模なマルチモーダルモデルの出現は、AI、特に病理学において顕著な可能性を解き放っている。 しかし、専門的で高品質なベンチマークの欠如は、彼らの開発と正確な評価を妨げた。 そこで我々は,LMMのための最大かつ高品質な専門家評価型病理診断ベンチマークPathMMUを紹介する。 33,573個のマルチモーダル・マルチチョイス問題と21,599枚の画像からなり、各質問に合致する正しい回答の説明がある。 PathMMUの構築はGPT-4Vのロバストな能力を生かし、約30,000枚の画像キャプチャーペアを使用してQ\&Aを生成する。 ここでは,PathMMUの権威を最大化するために,PathMMUの検証とテストセットの厳格な基準の下で各質問を精査し,同時にPathMMUのエキスパートレベルのパフォーマンスベンチマークを設定する。 我々は,14のオープンソースおよび3つのクローズドソースlmmのゼロショット評価,画像腐敗に対するロバスト性など,広範な評価を行う。 また、PathMMUへの適応性を評価するために、代表LMMを微調整する。 実験の結果、先進的なLMMは挑戦的なPathMMUベンチマークに苦戦し、トップパフォーマンスのLMMであるGPT-4Vは51.7%のゼロショットのパフォーマンスしか達成せず、ヒトの病理学者が示した71.4倍よりも大幅に低かった。 微調整の後、オープンソースのLMMでさえ60\%以上のパフォーマンスでGPT-4Vを超えることができるが、いまだに病理学者が示した専門知識に欠けている。 PathMMUが貴重な洞察を提供し、より専門的で次世代のLLMの開発を促進することを期待しています。

The emergence of large multimodal models has unlocked remarkable potential in AI, particularly in pathology. However, the lack of specialized, high-quality benchmark impeded their development and precise evaluation. To address this, we introduce PathMMU, the largest and highest-quality expert-validated pathology benchmark for LMMs. It comprises 33,573 multimodal multi-choice questions and 21,599 images from various sources, and an explanation for the correct answer accompanies each question. The construction of PathMMU capitalizes on the robust capabilities of GPT-4V, utilizing approximately 30,000 gathered image-caption pairs to generate Q\&As. Significantly, to maximize PathMMU's authority, we invite six pathologists to scrutinize each question under strict standards in PathMMU's validation and test sets, while simultaneously setting an expert-level performance benchmark for PathMMU. We conduct extensive evaluations, including zero-shot assessments of 14 open-sourced and three closed-sourced LMMs and their robustness to image corruption. We also fine-tune representative LMMs to assess their adaptability to PathMMU. The empirical findings indicate that advanced LMMs struggle with the challenging PathMMU benchmark, with the top-performing LMM, GPT-4V, achieving only a 51.7\% zero-shot performance, significantly lower than the 71.4\% demonstrated by human pathologists. After fine-tuning, even open-sourced LMMs can surpass GPT-4V with a performance of over 60\%, but still fall short of the expertise shown by pathologists. We hope that the PathMMU will offer valuable insights and foster the development of more specialized, next-generation LLMs for pathology.
翻訳日:2024-01-30 13:55:50 公開日:2024-01-29
# 浄化教育(AToP:Adversarial Training on Purification) : ロバストネスと一般化の両立

Adversarial Training on Purification (AToP): Advancing Both Robustness and Generalization ( http://arxiv.org/abs/2401.16352v1 )

ライセンス: Link先を確認
Guang Lin, Chao Li, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao(参考訳) ディープニューラルネットワークは、よく設計された敵攻撃に弱いことが知られている。 対戦訓練(AT)に基づく最も成功した防御技術は、特定の攻撃に対して最適な堅牢性を達成することができるが、目に見えない攻撃に対してうまく一般化できない。 対向浄化(AP)に基づく他の効果的な防御技術は、一般化を高めることができるが、最適な堅牢性は達成できない。 一方、両手法は劣化した標準精度の1つの共通制限を共有している。 そこで本研究では, 乱数変換による摂動破壊(rt)と, 逆損失による浄化モデル(ft)の2成分からなる, 敵意学習(adversarial training on clean, atop)と呼ばれる新しい枠組みを提案する。 RTは、既知の攻撃に対する過度な学習を避けるために不可欠であり、その結果、目に見えない攻撃に対するロバストネスの一般化をもたらし、FTはロバストネスの改善に不可欠である。 そこで我々はCIFAR-10, CIFAR-100, ImageNetteに対して, 提案手法が最先端の結果を達成し, 目に見えない攻撃に対する一般化能力を示すことを実証するために, 広範囲にわたる実験を行った。

The deep neural networks are known to be vulnerable to well-designed adversarial attacks. The most successful defense technique based on adversarial training (AT) can achieve optimal robustness against particular attacks but cannot generalize well to unseen attacks. Another effective defense technique based on adversarial purification (AP) can enhance generalization but cannot achieve optimal robustness. Meanwhile, both methods share one common limitation on the degraded standard accuracy. To mitigate these issues, we propose a novel framework called Adversarial Training on Purification (AToP), which comprises two components: perturbation destruction by random transforms (RT) and purifier model fine-tuned (FT) by adversarial loss. RT is essential to avoid overlearning to known attacks resulting in the robustness generalization to unseen attacks and FT is essential for the improvement of robustness. To evaluate our method in an efficient and scalable way, we conduct extensive experiments on CIFAR-10, CIFAR-100, and ImageNette to demonstrate that our method achieves state-of-the-art results and exhibits generalization ability against unseen attacks.
翻訳日:2024-01-30 13:55:18 公開日:2024-01-29
# FedFair^3: フェデレートラーニングにおける3つのフェアネスの解放

FedFair^3: Unlocking Threefold Fairness in Federated Learning ( http://arxiv.org/abs/2401.16350v1 )

ライセンス: Link先を確認
Simin Javaherian, Sanjeev Panta, Shelby Williams, Md Sirajul Islam, Li Chen(参考訳) フェデレートラーニング(FL)は、クライアントの生データを公開せずに機械学習の新たなパラダイムである。 多くのクライアントと実践的なシナリオでは、フェデレーション学習における公平かつ効率的なクライアント参加を促すことが最も重要であり、データ分散とデバイス特性の多様性を考えると、これは困難である。 既存の研究では、公正性を考慮した異なるクライアント選択手法が提案されているが、高いユーティリティを持つクライアントを同時に選びながら、公平な精度を達成できない。 本稿では,フェデレート学習における3倍の公平性を解放するフェアクライアント選択手法を提案する。 公正なクライアント選択戦略を持つことに加えて、クライアント参加のための一定数のラウンドを強制し、クライアントに対する公平な正確性を確保する。 実験の結果、FedFair^3は最先端のベースラインと比較して、IIDデータでは18.15%、非IIDデータでは54.78%の精度で精度が低下することを示した。 さらに、平均で24.36%のトレーニング時間が短縮された。

Federated Learning (FL) is an emerging paradigm in machine learning without exposing clients' raw data. In practical scenarios with numerous clients, encouraging fair and efficient client participation in federated learning is of utmost importance, which is also challenging given the heterogeneity in data distribution and device properties. Existing works have proposed different client-selection methods that consider fairness; however, they fail to select clients with high utilities while simultaneously achieving fair accuracy levels. In this paper, we propose a fair client-selection approach that unlocks threefold fairness in federated learning. In addition to having a fair client-selection strategy, we enforce an equitable number of rounds for client participation and ensure a fair accuracy distribution over the clients. The experimental results demonstrate that FedFair^3, in comparison to the state-of-the-art baselines, achieves 18.15% less accuracy variance on the IID data and 54.78% on the non-IID data, without decreasing the global accuracy. Furthermore, it shows 24.36% less wall-clock training time on average.
翻訳日:2024-01-30 13:54:57 公開日:2024-01-29
# ConFit: データ拡張とコントラスト学習によるResume-Job Matchingの改善

ConFit: Improving Resume-Job Matching using Data Augmentation and Contrastive Learning ( http://arxiv.org/abs/2401.16349v1 )

ライセンス: Link先を確認
Xiao Yu, Jinzhong Zhang, Zhou Yu(参考訳) 信頼できる履歴書-ジョブマッチングシステムは、企業が履歴書のプールから適切な候補者を見つけるのを助け、求職者が求人のリストから関連するジョブを見つけるのを助ける。 しかし、求職者は少数のジョブにしか適用できないため、履歴ジョブデータセットのインタラクションレコードは乏しい。 複雑なモデリング技術を用いた多くの先行研究とは異なり、データ拡張と単純なコントラスト学習アプローチを用いて、この疎結合問題に取り組む。 ConFitはまず、履歴書またはジョブポストの特定のセクションを言い換えることで、拡張された履歴書ジョブデータセットを作成する。 confitでは、コントラスト学習を使用して、バッチ当たり$b$ペアから1バッチ当たり$o(b^2)$まで、トレーニングサンプルをさらに増やす。 実世界の2つのデータセット上でConFitを評価し,その先行手法(BM25とOpenAI text-ada-002)をそれぞれ19%,nDCG@10では31%,ランキング履歴では3。

A reliable resume-job matching system helps a company find suitable candidates from a pool of resumes, and helps a job seeker find relevant jobs from a list of job posts. However, since job seekers apply only to a few jobs, interaction records in resume-job datasets are sparse. Different from many prior work that use complex modeling techniques, we tackle this sparsity problem using data augmentations and a simple contrastive learning approach. ConFit first creates an augmented resume-job dataset by paraphrasing specific sections in a resume or a job post. Then, ConFit uses contrastive learning to further increase training samples from $B$ pairs per batch to $O(B^2)$ per batch. We evaluate ConFit on two real-world datasets and find it outperforms prior methods (including BM25 and OpenAI text-ada-002) by up to 19% and 31% absolute in nDCG@10 for ranking jobs and ranking resumes, respectively.
翻訳日:2024-01-30 13:54:38 公開日:2024-01-29
# 入力モダリティの多元集合間のクロスモーダル座標

Cross-Modal Coordination Across a Diverse Set of Input Modalities ( http://arxiv.org/abs/2401.16347v1 )

ライセンス: Link先を確認
Jorge S\'anchez and Rodrigo Laguna(参考訳) クロスモーダル検索は、異なるモダリティのクエリを用いて、与えられたモダリティのサンプルを検索するタスクである。 幅広い実用的な応用のために、この問題は主に視覚と言語、例えばテキストから画像の検索に焦点が当てられ、CLIPのようなモデルがそのようなタスクの解決に有効であることが証明されている。 このような協調表現を学習するための支配的なアプローチは、一致するビューが近く、非マッチングペアからのビューが互いに遠ざかる共通の空間にそれらを投影することである。 このクロスモーダルコーディネーションは、他のペアワイズ結合にも適用されてきたが、任意の数の多様なモダリティに拡張することは、文献で十分に研究されていない問題である。 本稿では,この問題に対する2つの異なるアプローチを提案する。 1つ目は、CLIPのコントラッシブな目的を任意の数の入力モダリティに拡張することに基づいており、2つ目は、コントラッシブな定式化から離脱し、クロスモーダルな類似性を2つの単純かつ直感的な制約を反映したターゲットに回帰させることによって調整問題に取り組む。 入力モダリティの異なる組み合わせで2つの異なるデータセット上で実験を行い、アプローチが単純かつ効果的であるだけでなく、新しい方法で検索問題に取り組むことが可能であることを示す。 ペア・アズ・インタラクションのより多様な集合をキャプチャすると同時に,学習表現を用いて2つ以上のモダリティからの埋め込みを組み合わせることで,検索性能を向上させることができることを示した。

Cross-modal retrieval is the task of retrieving samples of a given modality by using queries of a different one. Due to the wide range of practical applications, the problem has been mainly focused on the vision and language case, e.g. text to image retrieval, where models like CLIP have proven effective in solving such tasks. The dominant approach to learning such coordinated representations consists of projecting them onto a common space where matching views stay close and those from non-matching pairs are pushed away from each other. Although this cross-modal coordination has been applied also to other pairwise combinations, extending it to an arbitrary number of diverse modalities is a problem that has not been fully explored in the literature. In this paper, we propose two different approaches to the problem. The first is based on an extension of the CLIP contrastive objective to an arbitrary number of input modalities, while the second departs from the contrastive formulation and tackles the coordination problem by regressing the cross-modal similarities towards a target that reflects two simple and intuitive constraints of the cross-modal retrieval task. We run experiments on two different datasets, over different combinations of input modalities and show that the approach is not only simple and effective but also allows for tackling the retrieval problem in novel ways. Besides capturing a more diverse set of pair-wise interactions, we show that we can use the learned representations to improve retrieval performance by combining the embeddings from two or more such modalities.
翻訳日:2024-01-30 13:54:16 公開日:2024-01-29
# Developer-ChatGPT会話におけるライブラリバージョンの役割

The role of library versions in Developer-ChatGPT conversations ( http://arxiv.org/abs/2401.16340v1 )

ライセンス: Link先を確認
Rachna Raj and Diego Elias Costa(参考訳) 大規模言語モデル(LLM)の最新のブレークスルーは、開発者が複雑なタスクを行えるように、ChatGPTのようなソフトウェア開発ツールを強化した。 開発者はChatGPTを使ってコードを書き、コードの変更をレビューし、プログラムをデバッグする。 これらのインタラクションにおいて、ChatGPTは、しばしば外部ライブラリに依存するコードスニペットを推奨する。 しかし、ライブラリからのコードは時間とともに変更され、一度修正されたコードスニペットが無効になり、推奨コードの再利用が困難になる。 本研究では,4000以上のDeveloper-ChatGPTインタラクションのデータセットであるDevGPTを分析し,コード関連会話におけるライブラリバージョンの役割を理解する。 コード関連の会話やChatGPTが特定のライブラリのインストールを推奨する場合に、ライブラリのバージョン制約が言及される頻度を定量化する。 この結果から,外部依存性のあるコードを常に推奨し,分析するためには,ライブラリのバージョン制約が会話の9%にのみ現れることがわかった。 ほとんどの会話では、より高品質なレスポンスを受け取る方法として(ChatGPTによって指定されるのとは対照的に)ユーザによってバージョン制約が促される。 さらに,ライブラリのバージョン制約が質的手法を通じて会話にどのように使われるかを検討し,さらなる研究の必要となる潜在的な問題をいくつか特定する。

The latest breakthroughs in large language models (LLM) have empowered software development tools, such as ChatGPT, to aid developers in complex tasks. Developers use ChatGPT to write code, review code changes, and even debug their programs. In these interactions, ChatGPT often recommends code snippets that depend on external libraries. However, code from libraries changes over time, invalidating a once-correct code snippet and making it difficult to reuse recommended code. In this study, we analyze DevGPT, a dataset of more than 4,000 Developer-ChatGPT interactions, to understand the role of library versions in code-related conversations. We quantify how often library version constraints are mentioned in code-related conversations and when ChatGPT recommends the installation of specific libraries. Our findings show that, albeit to constantly recommend and analyze code with external dependencies, library version constraints only appear in 9% of the conversations. In the majority of conversations, the version constraints are prompted by users (as opposed to being specified by ChatGPT) as a method for receiving better quality responses. Moreover, we study how library version constraints are used in the conversation through qualitative methods, identifying several potential problems that warrant further research.
翻訳日:2024-01-30 13:53:49 公開日:2024-01-29
# SAT-CEPモニター:複雑なイベント処理と衛星リモートセンシングを組み合わせた大気質監視ソフトウェアアーキテクチャ

SAT-CEP-monitor: An air quality monitoring software architecture combining complex event processing with satellite remote sensing ( http://arxiv.org/abs/2401.16339v1 )

ライセンス: Link先を確認
Badr-Eddine Boudriki Semlali, Chaker El Amrani, Guadalupe Ortiz, Juan Boubeta-Puig, Alfonso Garcia-de-Prado(参考訳) 大気汚染は人間の健康に深刻な被害をもたらす主要な問題である。 都市は、人為的ガス排出による空気質の低下に最も影響を受けている。 大気質モニタリングには複数の提案があるが、ほとんどの場合、リモートセンシングアプローチではニアリアルタイム(nrt)でのデータの処理が不可能であり、地上データアプローチではアクセシビリティの制限やネットワークカバレッジの低さの領域に到達できないという2つの制限が課されている。 複雑なイベント処理と各種衛星センサからのリモートセンシングデータを効率的に組み合わせて,NRTの空気質をモニタし,意思決定者を支援するソフトウェアアーキテクチャを提案する。 提案手法は,モロッコとスペインのいくつかの地域での大気質レベルを計算し,衛星情報をNRTで抽出・処理することで説明する。 本研究は地上局および衛星センサデータによる大気質の検証も行う。

Air pollution is a major problem today that causes serious damage to human health. Urban areas are the most affected by the degradation of air quality caused by anthropogenic gas emissions. Although there are multiple proposals for air quality monitoring, in most cases, two limitations are imposed: the impossibility of processing data in Near Real-Time (NRT) for remote sensing approaches and the impossibility of reaching areas of limited accessibility or low network coverage for ground data approaches. We propose a software architecture that efficiently combines complex event processing with remote sensing data from various satellite sensors to monitor air quality in NRT, giving support to decision-makers. We illustrate the proposed solution by calculating the air quality levels for several areas of Morocco and Spain, extracting and processing satellite information in NRT. This study also validates the air quality measured by ground stations and satellite sensor data.
翻訳日:2024-01-30 13:53:29 公開日:2024-01-29
# 反復データ平滑化:RLHFにおける逆行オーバーフィッティングと過度最適化の緩和

Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF ( http://arxiv.org/abs/2401.16335v1 )

ライセンス: Link先を確認
Banghua Zhu, Michael I. Jordan and Jiantao Jiao(参考訳) Reinforcement Learning from Human Feedback (RLHF)は、言語モデルを人間中心の値と密接に整合させる重要なテクニックである。 RLHFの初期フェーズでは、ランキングデータから報酬モデルを用いて人間の価値を学習する。 報奨モデルの性能は1つの時代を経て低下し、学習した報奨モデルに対する過剰な最適化は最終的に真の目標を妨げることが観察される。 本稿では,「イテレーティブデータ平滑化」(ids)と呼ばれる報酬学習アルゴリズムの設計に理論的知見を活用し,これらの課題を考察する。 コアとなる考え方は、各トレーニングエポックの間、モデルをデータで更新するだけでなく、モデルを使用して日付を更新し、ハードラベルをソフトラベルに置き換える、ということです。 私たちの経験的発見は、従来の手法よりもこのアプローチの優れたパフォーマンスを強調しています。

Reinforcement Learning from Human Feedback (RLHF) is a pivotal technique that aligns language models closely with human-centric values. The initial phase of RLHF involves learning human values using a reward model from ranking data. It is observed that the performance of the reward model degrades after one epoch of training, and optimizing too much against the learned reward model eventually hinders the true objective. This paper delves into these issues, leveraging the theoretical insights to design improved reward learning algorithm termed 'Iterative Data Smoothing' (IDS). The core idea is that during each training epoch, we not only update the model with the data, but also update the date using the model, replacing hard labels with soft labels. Our empirical findings highlight the superior performance of this approach over the traditional methods.
翻訳日:2024-01-30 13:53:11 公開日:2024-01-29
# 言語モデルにおけるアライメントとヘルプフルネスのトレードオフ

Tradeoffs Between Alignment and Helpfulness in Language Models ( http://arxiv.org/abs/2401.16332v1 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine, and Amnon Shashua(参考訳) 言語モデルのアライメントはAIの安全性の重要なコンポーネントとなり、望ましい行動を強化し、望ましくない行動を抑制することによって、人間と言語モデルの安全な相互作用を可能にする。 しばしば、モデルをチューニングしたり、プリセットされたアライメントプロンプトを挿入することで行われる。 近年,トレーニング後の表現を変更することによってモデルの動作を変化させる表現工学がllmの調整に有効であることが示されている(zou et al., 2023a)。 表現工学は、敵対的攻撃に対する抵抗や社会的バイアスの低減など、アライメント指向のタスクの成果をもたらすが、モデルが基本的なタスクを実行する能力の低下を引き起こすことも示されている。 本稿では,アライメントの増大とモデルの有用性の低下のトレードオフについて検討する。 この2つの量の境界を提供する理論的枠組みを提案し,その妥当性を実証的に示す。 興味深いことに、典型的には有用性は減少するが、表現工学のベクトルのノルムと2次的に作用するのに対し、アライメントは線形に増大し、表現工学を使うのが効率的であるレジームを示す。 その結果を実証的に検証し,その境界をアライメントのための表現工学の有用性に表した。

Language model alignment has become an important component of AI safety, allowing safe interactions between humans and language models, by enhancing desired behaviors and inhibiting undesired ones. It is often done by tuning the model or inserting preset aligning prompts. Recently, representation engineering, a method which alters the model's behavior via changing its representations post-training, was shown to be effective in aligning LLMs (Zou et al., 2023a). Representation engineering yields gains in alignment oriented tasks such as resistance to adversarial attacks and reduction of social biases, but was also shown to cause a decrease in the ability of the model to perform basic tasks. In this paper we study the tradeoff between the increase in alignment and decrease in helpfulness of the model. We propose a theoretical framework which provides bounds for these two quantities, and demonstrate their relevance empirically. Interestingly, we find that while the helpfulness generally decreases, it does so quadratically with the norm of the representation engineering vector, while the alignment increases linearly with it, indicating a regime in which it is efficient to use representation engineering. We validate our findings empirically, and chart the boundaries to the usefulness of representation engineering for alignment.
翻訳日:2024-01-30 13:52:54 公開日:2024-01-29
# Sigma-Lognormalモデルによる3次元オンエアシグネチャの合成

Synthesis of 3D on-air signatures with the Sigma-Lognormal model ( http://arxiv.org/abs/2401.16329v1 )

ライセンス: Link先を確認
Miguel A. Ferrer, Moises Diaz, Cristina Carmona-Duarte, Jose J. Quintana Hernandez, Rejean Plamondon(参考訳) 署名合成は,自動署名検証における意思決定を支援する人工標本を生成する計算手法である。 キャンバス上の動的および静的な2次元の筆跡を合成することを中心に、この主題に多くの研究がなされている。 本稿では,指先の動きに合わせて複雑な神経運動制御を模倣した,対数正規性原理を利用した合成3Dオンエアシグネチャを生成する枠組みを提案する。 本論文は, 人工個体と複製標本の発達に関わる通常の事例に対処するため, 1) 完全3次元新規署名の軌跡と速度, (2) 署名の3次元軌跡のみが知られている場合の運動情報, (3) 3次元実署名の複製サンプルの合成に寄与する。 検証は,実物を模倣した合成3次元署名データベースを作成し,実および合成データベースと類似した実および熟練の偽造品の自動署名検証を行った。 また,重複による3次元自動署名検証器の訓練により誤りの低減が図られた。 さらに,提案手法は3次元空気の書き起こしとジェスチャーの合成にも有効であることを示した。 最後に、認識テストにより、生成された標本の人間の類似性が確認された。 生成されたデータベースは、研究目的でのみ公開されています。

Signature synthesis is a computation technique that generates artificial specimens which can support decision making in automatic signature verification. A lot of work has been dedicated to this subject, which centres on synthesizing dynamic and static two-dimensional handwriting on canvas. This paper proposes a framework to generate synthetic 3D on-air signatures exploiting the lognormality principle, which mimics the complex neuromotor control processes at play as the fingertip moves. Addressing the usual cases involving the development of artificial individuals and duplicated samples, this paper contributes to the synthesis of: (1) the trajectory and velocity of entirely 3D new signatures; (2) kinematic information when only the 3D trajectory of the signature is known, and (3) duplicate samples of 3D real signatures. Validation was conducted by generating synthetic 3D signature databases mimicking real ones and showing that automatic signature verifications of genuine and skilled forgeries report performances similar to those of real and synthetic databases. We also observed that training 3D automatic signature verifiers with duplicates can reduce errors. We further demonstrated that our proposal is also valid for synthesizing 3D air writing and gestures. Finally, a perception test confirmed the human likeness of the generated specimens. The databases generated are publicly available, only for research purposes, at .
翻訳日:2024-01-30 13:52:32 公開日:2024-01-29
# PICL:部分微分方程式に対する物理インフォームドコントラスト学習

PICL: Physics Informed Contrastive Learning for Partial Differential Equations ( http://arxiv.org/abs/2401.16327v1 )

ライセンス: Link先を確認
Cooper Lorsung and Amir Barati Farimani(参考訳) ニューラル作用素は、最近、部分微分方程式(PDE)シュロゲートモデルとして人気が高まっている。 関数ではなく解関数の学習は、複雑なpdesに対する高速で正確な解を計算するための強力なアプローチであることが証明されている。 様々な代理モデリングタスクにおけるニューラル演算子のパフォーマンスを評価する作業は数多く行われているが、これらの作業は通常、一度に1つの方程式上でのパフォーマンスを評価する。 本研究では,複数の支配方程式にまたがるニューラル演算子一般化を同時に改善する汎用コントラスト損失を利用した新しいコントラスト事前学習フレームワークを開発する。 制御方程式係数は、系間の接地相似性を測定するために用いられる。 物理に変形したシステム進化と潜在空間モデル出力の組み合わせは入力データにアンカーされ、距離関数で使用される。 物理インフォームド・コントラクティブ事前学習は, フーリエニューラル演算子の固定未来タスクにおける精度と一般化を両立させ, 自己回帰ロールアウトに匹敵する性能と, 1次元熱, バーガーズ, 線形対流方程式の超分解能タスクを向上することがわかった。

Neural operators have recently grown in popularity as Partial Differential Equation (PDEs) surrogate models. Learning solution functionals, rather than functions, has proven to be a powerful approach to calculate fast, accurate solutions to complex PDEs. While much work has been done evaluating neural operator performance on a wide variety of surrogate modeling tasks, these works normally evaluate performance on a single equation at a time. In this work, we develop a novel contrastive pretraining framework utilizing Generalized Contrastive Loss that improves neural operator generalization across multiple governing equations simultaneously. Governing equation coefficients are used to measure ground-truth similarity between systems. A combination of physics-informed system evolution and latent-space model output are anchored to input data and used in our distance function. We find that physics-informed contrastive pretraining improves both accuracy and generalization for the Fourier Neural Operator in fixed-future task, with comparable performance on the autoregressive rollout, and superresolution tasks for the 1D Heat, Burgers', and linear advection equations.
翻訳日:2024-01-30 13:52:01 公開日:2024-01-29
# NISQ装置におけるローカー・キベルソンはしごのシミュレーション

Simulation of a Rohksar-Kivelson ladder on a NISQ device ( http://arxiv.org/abs/2401.16326v1 )

ライセンス: Link先を確認
Sabhyata Gupta, Younes Javanmard, tobias J. Osborne, Luis Santos(参考訳) NISQデバイス上でのRohksar-Kivelsonラグのダイナミクスを研究するための量子古典的アルゴリズムを提案する。 我々は、ゲージ不変性、追加対称性、およびラダー幾何学におけるリング交換に対してラケットがどのようにブロックされているかに関連する重要な性質により、複雑性が大幅に減少することを示した。 これにより、現在のNISQデバイスの性能によく適合する、少数のキュービットを持つサイズのラッパの効率的なシミュレーションが可能になる。 スケールされた量子ゲートを用いたIBM-Qマシンにおいて,最大8ドルの格子をシミュレーションしてはしごの手順を説明する。

We present a quantum-classical algorithm to study the dynamics of the Rohksar-Kivelson plaquette ladder on NISQ devices. We show that complexity is largely reduced using gauge invariance, additional symmetries, and a crucial property associated to how plaquettes are blocked against ring-exchange in the ladder geometry. This allows for an efficient simulation of sizable plaquette ladders with a small number of qubits, well suited for the capabilities of present NISQ devices. We illustrate the procedure for ladders with simulation of up to $8$ plaquettes in an IBM-Q machine, employing scaled quantum gates.
翻訳日:2024-01-30 13:51:29 公開日:2024-01-29
# 強化学習による非古典的集団スピン状態の準備

Prepare Non-classical Collective Spin State by Reinforcement Learning ( http://arxiv.org/abs/2401.16320v1 )

ライセンス: Link先を確認
X. L. Zhao, Y. M. Zhao, M. Li, T. T. Li, Q. Liu, S. Guo, and X. X. Yi(参考訳) 非古典的状態を生成するために,強化学習を工学的制御分野に適用する手法を提案する。 線形制御項を動的に制御するように設計した開集合スピンモデルに対してスピン圧縮状態を作成するための応用によって例示される。 本発明の強化学習剤は、散逸脱落を特徴とする環境において、コヒーレントスピン状態から生じる制御パルスの時間的シーケンスを決定する。 一定の制御シナリオと比較すると、このアプローチは集団スピンのスクイーズと絡み合いを維持する様々な制御シーケンスを提供する。 制御パルスの高密度適用により,結果の性能が向上することが観察された。 さらに、制御アクションを追加することで、パフォーマンスがわずかに向上している。 提案手法は,大規模システムにおける有効性の向上を示す。 また,貯水池の熱励起は制御結果に有害である。 これはクローズドループシミュレーションによるオープンループ戦略であり、測定によって引き起こされる量子状態の崩壊を回避することを確認する必要がある。 最適化モジュールと制御システムの柔軟な置換性のおかげで、この研究は、他の量子システムを操作するための応用の道を開いた。

We propose a scheme leveraging reinforcement learning to engineer control fields for generating non-classical states. It is exemplified by the application to prepare spin squeezed state for an open collective spin model where a linear control term is designed to govern the dynamics. The reinforcement learning agent determines the temporal sequence of control pulses, commencing from coherent spin state in an environment characterized by dissipation and dephasing. When compared to constant control scenarios, this approach provides various control sequences maintaining collective spin squeezing and entanglement. It is observed that denser application of the control pulses enhances the performance of the outcomes. Furthermore, there is a minor enhancement in the performance by adding control actions. The proposed strategy demonstrates increased effectiveness for larger systems. And thermal excitations of the reservoir are detrimental to the control outcomes. It should be confirmed that this is an open-loop strategy by closed-loop simulation, circumventing collapse of quantum state induced by measurements. Thanks to the flexible replaceability of the optimization modules and the controlled system, this research paves the way for its application in manipulating other quantum systems.
翻訳日:2024-01-30 13:51:09 公開日:2024-01-29
# デモデータセットの探索によるゼロショット模倣ポリシー

Zero-shot Imitation Policy via Search in Demonstration Dataset ( http://arxiv.org/abs/2401.16398v1 )

ライセンス: Link先を確認
Federco Malato, Florian Leopold, Andrew Melnik, Ville Hautamaki(参考訳) 行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。 計算コストの高いトレーニング手順を克服し、ポリシー適応問題に対処するために、事前学習された基礎モデルの潜在空間を用いて、デモンストレーションデータセットをインデックス化し、同様の関連する体験に即座にアクセスし、これらの状況から行動のコピーを行う。 選択された類似状況からのアクションは、エージェントの現在の状況の表現と選択された経験が潜時空間に分散するまで、エージェントによって実行される。 そこで本稿では,専門家のデモンストレーションのデータセット上での動的探索問題として制御問題を定式化する。 ビデオプリトレーニングモデルの潜在表現におけるbasalt minerl-datasetのアプローチをテストした。 われわれのモデルを、最先端のImitation LearningベースのMinecraftエージェントと比較する。 提案手法は,多種多様なシナリオにおいて,有意義なデモンストレーションを効果的に再現し,Minecraft環境におけるエージェントの人間的行動を示す。 実験結果から,学習モデルよりも精度と知覚的評価の点から,検索によるアプローチの有効性が明らかとなった。

Behavioral cloning uses a dataset of demonstrations to learn a policy. To overcome computationally expensive training procedures and address the policy adaptation problem, we propose to use latent spaces of pre-trained foundation models to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent's current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a dynamic search problem over a dataset of experts' demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video Pre-Training model. We compare our model to state-of-the-art, Imitation Learning-based Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach clearly wins in terms of accuracy and perceptual evaluation over learning-based models.
翻訳日:2024-01-30 13:43:59 公開日:2024-01-29
# amazonの2023年の干ばつ:sentinel-1はリオネグロの川を極端に縮める

Amazon's 2023 Drought: Sentinel-1 Reveals Extreme Rio Negro River Contraction ( http://arxiv.org/abs/2401.16393v1 )

ライセンス: Link先を確認
Fabien H Wagner, Samuel Favrichon, Ricardo Dalagnol, Mayumi CM Hirye, Adugna Mullissa and Sassan Saatchi(参考訳) 世界最大の熱帯雨林であるアマゾンは、歴史的な干ばつに直面している。 アマゾン川の主要支流の1つであるリオネグロ川は、2023年10月に1世紀で最低水準に達した。 2022年と2023年にリオネグロ川流域の12日毎に10mの空間分解能Sentinel-1衛星レーダー画像を用いてU-net深層学習モデルを構築した。 水面モデルの精度はf1-score 0.93で高い値を示した。 12日間のモザイクによる水面の時系列はSentinel-1の予測から得られた。 水面マスクは、共同研究センター(f1-score: 0.708)のグローバル表面水(gsw)製品とブラジルのmapbiomas water initiative(f1-score: 0.686)と比較的一貫した一致を示した。 地図の主な誤りは、浸水した森林地帯、浸水した低木、雲による欠落エラーであった。 リオネグロの水面は2023年11月25日頃に最低水準に達し、2022-2023年に観測された最大水面の68.1 % (9,559.9 km$^2$) まで減少した。 合成開口レーダ(SAR)データと深層学習技術との併用により,熱帯海域の水面マッピングのリアルタイム化が著しく向上する。

The Amazon, the world's largest rainforest, faces a severe historic drought. The Rio Negro River, one of the major Amazon River tributaries, reaches its lowest level in a century in October 2023. Here, we used a U-net deep learning model to map water surfaces in the Rio Negro River basin every 12 days in 2022 and 2023 using 10 m spatial resolution Sentinel-1 satellite radar images. The accuracy of the water surface model was high with an F1-score of 0.93. The 12 days mosaic time series of water surface was generated from the Sentinel-1 prediction. The water surface mask demonstrated relatively consistent agreement with the Global Surface Water (GSW) product from Joint Research Centre (F1-score: 0.708) and with the Brazilian Mapbiomas Water initiative (F1-score: 0.686). The main errors of the map were omission errors in flooded woodland, in flooded shrub and because of clouds. Rio Negro water surfaces reached their lowest level around the 25th of November 2023 and were reduced to 68.1\% (9,559.9 km$^2$) of the maximum water surfaces observed in the period 2022-2023 (14,036.3 km$^2$). Synthetic Aperture Radar (SAR) data, in conjunction with deep learning techniques, can significantly improve near real-time mapping of water surface in tropical regions.
翻訳日:2024-01-30 13:43:43 公開日:2024-01-29
# 量子プライベートメンバーシップアグリゲーション

Quantum Private Membership Aggregation ( http://arxiv.org/abs/2401.16390v1 )

ライセンス: Link先を確認
Alptug Aytekin, Mohamed Nomeir, Sennur Ulukus(参考訳) 我々は、絡み合った量子状態を用いて、n$パーティのプライベートセットメンバーシップアグリゲーションの問題を考える。 この設定では、絡み合った状態を共有する$N$partyは、普遍集合 $\mathcal{K}$ に関して、各要素(メッセージ)が$N$partyの中で繰り返される回数を \emph{privately} に知ることを目的としている。 この問題には、プライベート比較、ランキング、投票などの応用がある。 本稿では,古典情報を識別可能な量子状態にマッピングする符号化アルゴリズムと,マッピングされた状態の識別可能性を利用する復号アルゴリズムを提案する。 提案されたスキームは、$n$ party private summation modulo $p$の計算にも使うことができる。

We consider the problem of private set membership aggregation of $N$ parties by using an entangled quantum state. In this setting, the $N$ parties, which share an entangled state, aim to \emph{privately} know the number of times each element (message) is repeated among the $N$ parties, with respect to a universal set $\mathcal{K}$. This problem has applications in private comparison, ranking, voting, etc. We propose an encoding algorithm that maps the classical information into distinguishable quantum states, along with a decoding algorithm that exploits the distinguishability of the mapped states. The proposed scheme can also be used to calculate the $N$ party private summation modulo $P$.
翻訳日:2024-01-30 13:43:11 公開日:2024-01-29
# 事前学習モデルによる継続的な学習:調査

Continual Learning with Pre-Trained Models: A Survey ( http://arxiv.org/abs/2401.16386v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan(参考訳) 今日では、現実世界のアプリケーションはしばしばストリーミングデータに直面し、データが進化するにつれて学習システムが新しい知識を吸収する必要がある。 継続的な学習(CL)は、この目標を達成することを目的としており、一方で、新しい知識を学ぶ際に、以前の知識の破滅的な忘れを克服する。 典型的なclメソッドは、入力データで成長するためにスクラッチからモデルを構築します。 しかし、事前訓練モデル(PTM)時代の到来は、特にPTMの堅牢な表現能力を活用することにおいて、大きな研究の関心を呼んだ。 本稿では, PTM を用いた CL の最近の進歩を概観する。 既存の方法論を3つの異なるグループに分類し、類似性、相違点、それぞれの利点と欠点の比較分析を行った。 さらに,比較の公平性に関する懸念を強調するために,様々な最先端手法と対比した実証的研究を行った。 これらの評価を再現するソースコードは、https://github.com/sun-hailong/LAMDA-PILOTで公開されている。

Nowadays, real-world applications often face streaming data, which requires the learning system to absorb new knowledge as data evolves. Continual Learning (CL) aims to achieve this goal and meanwhile overcome the catastrophic forgetting of former knowledge when learning new ones. Typical CL methods build the model from scratch to grow with incoming data. However, the advent of the pre-trained model (PTM) era has sparked immense research interest, particularly in leveraging PTMs' robust representational capabilities. This paper presents a comprehensive survey of the latest advancements in PTM-based CL. We categorize existing methodologies into three distinct groups, providing a comparative analysis of their similarities, differences, and respective advantages and disadvantages. Additionally, we offer an empirical study contrasting various state-of-the-art methods to highlight concerns regarding fairness in comparisons. The source code to reproduce these evaluations is available at: https://github.com/sun-hailong/LAMDA-PILOT
翻訳日:2024-01-30 13:42:58 公開日:2024-01-29
# 最小不満足な部分プログラムを見つけることで論理プログラムを学ぶ

Learning logic programs by finding minimal unsatisfiable subprograms ( http://arxiv.org/abs/2401.16383v1 )

ライセンス: Link先を確認
Andrew Cropper and C\'eline Hocquette(参考訳) 帰納的論理プログラミング(ILP)の目標は、トレーニング例とバックグラウンド知識を一般化する論理プログラムを探すことである。 我々は,最小不満足なサブプログラム (MUSP) を識別する ILP アプローチを導入する。 その結果,検索空間の探索は効率的かつ健全に行えることがわかった。 プログラム合成やゲームプレイを含む複数のドメインにおける実験により,学習時間を99%削減できることを示した。

The goal of inductive logic programming (ILP) is to search for a logic program that generalises training examples and background knowledge. We introduce an ILP approach that identifies minimal unsatisfiable subprograms (MUSPs). We show that finding MUSPs allows us to efficiently and soundly prune the search space. Our experiments on multiple domains, including program synthesis and game playing, show that our approach can reduce learning times by 99%.
翻訳日:2024-01-30 13:42:43 公開日:2024-01-29
# 適応システムにおけるkdmに基づくアーキテクチャ適合性検査手法

A KDM-Based Approach for Architecture Conformance Checking in Adaptive Systems ( http://arxiv.org/abs/2401.16382v1 )

ライセンス: Link先を確認
Daniel San Mart\'in and Guisella Angulo and Valter Vieira de Camargo(参考訳) アダプティブシステム(AS)は、ASを設計するための抽象化を提供する広く認知されている参照モデルであるMAPE-Kによって品質目標が達成されない場合、その振る舞いを監視し、調整を行うことができる。 これらの抽象化をシステム構造で明確にすることで、特にアーキテクチャのメンテナンスと理解性を高めるという点において、多くのメリットが生まれる。 しかし、既存のASの多くはMAPE-Kに従って設計されていないため、これらの抽象化はアーキテクチャに隠されている。 この問題に対処するために、アーキテクチャ適合性チェック(ACC)は、システムの現在のアーキテクチャ(CA)が計画されたアーキテクチャ(PA)またはMAPE-Kのような参照モデルによって規定される規則に準拠しているかどうかを検証するための貴重なテクニックとして現れます。 本稿では,MAPE-K参照モデルに基づく適応型アーキテクチャの仕様策定,現在の適応型アーキテクチャの回復,適合性チェックプロセス,アーキテクチャ視覚化など,ドメイン固有のアプローチであるREMEDYを提案する。 さらに,本手法はMAPE-Kモデルからよく知られた規則を取り入れたASに特化している。 REMEDY DSLの評価は汎用DSLとの比較を含み、その結果は生産性の向上を示す。 REMEDYはアーキテクチャ非適合問題の同定と修正を容易にし、適応システムの全体的な品質を向上させる。

Adaptive Systems (ASs) are capable to monitor their behavior and make adjustments when quality goals are not achieved through the MAPE-K, a widely recognized reference model that offers abstractions for designing ASs. By making these abstractions evident in the system structure, numerous benefits emerge, particularly in terms of enhancing the architecture's maintenance and comprehensibility. However, it is observed that many existing ASs are not designed in accordance with MAPE-K, causing these abstractions to remain hidden in their architecture. To address this issue, Architectural Conformance Checking (ACC) emerges as a valuable technique for verifying whether the current architecture (CA) of a system adheres to the rules prescribed by the planned architecture (PA) or a reference model, such as MAPE-K. In this paper, we present REMEDY, a domain-specific approach that encompasses the specification of the planned adaptive architecture based on the MAPE-K reference model, the recovery of the current adaptive architecture, the conformance checking process, and architecture visualizations. Furthermore, our approach is specifically tailored for ASs, incorporating well-known rules from the MAPE-K model. The evaluation of the REMEDY DSL involves a comparison with a general-purpose DSL, and the results demonstrate improvements in productivity. REMEDY facilitates the identification and correction of architectural non-conformance issues, thereby enhancing the overall quality of adaptive systems.
翻訳日:2024-01-30 13:42:36 公開日:2024-01-29
# ジョブショップスケジューリング問題に対する高効率符号化と量子コンピュータへの応用

Highly Efficient Encoding for Job-Shop Scheduling Problems and its Application on Quantum Computers ( http://arxiv.org/abs/2401.16381v1 )

ライセンス: Link先を確認
Mathias Schmid, Sarah Braun, Rudolf Sollacher, Michael J. Hartmann(参考訳) 組合せ最適化問題は、量子コンピューティングが変換的影響を持つアプリケーションであると考えられている。 産業的な文脈では、一連のマシン上で実行される一連のジョブの最適なスケジュールを見つけることを目的としたジョブショップスケジューリングの問題は非常に興味深い。 ここでは,従来採用されていたジョブショップスケジューリング問題を効率的に符号化する手法を提案する。 $N$ジョブと$N$演算からなる問題に対して、必要なビットストリングの数は、時間インデックスエンコーディングと比較して少なくとも$N / \log_2(N)$で減少する。 これは量子コンピュータのジョブショップスケジューリング問題を解決するのに特に有用である。 我々のアプローチは、複数のマシンで操作を実行できる、フレキシブルで通常のジョブショップスケジューリング問題に適用される。 本稿では, 変分量子アルゴリズムを用いて, 従来検討されていた戦略よりも, 量子アルゴリズムの性能が著しく向上することを示す。 重要な点として、私たちが開発している符号化は、さらにコンパクトな古典表現を可能にし、量子ハードウェアへの適用性を超えても非常に有用である。

Combinatorial optimization problems are considered to be an application, where quantum computing can have transformative impact. In the industrial context, job shop scheduling problems that aim at finding the optimal schedule for a set of jobs to be run on a set of machines are of immense interest. Here we introduce an efficient encoding of job shop scheduling problems, which requires much fewer bit-strings for counting all possible schedules than previously employed encodings. For problems consisting of $N$ jobs with $N$ operations, the number of required bit-strings is at least reduced by a factor $N / \log_2(N)$ as compared to time indexed encodings. This is particularly beneficial for solving job shop scheduling problems on quantum computers, since much fewer qubits are needed to represent the problem. Our approach applies to the large class of flexible and usual job-shop scheduling problems, where operations can possibly be executed on multiple machines. Using variational quantum algorithms, we show that the encoding we introduce leads to significantly better performance of quantum algorithms than previously considered strategies. Importantly, the encoding we develop also enables significantly more compact classical representations and will therefore be highly useful even beyond applicability on quantum hardware.
翻訳日:2024-01-30 13:42:11 公開日:2024-01-29
# Web: 計算とデータ効率のよい言語モデリングのためのレシピ

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling ( http://arxiv.org/abs/2401.16380v1 )

ライセンス: Link先を確認
Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly(参考訳) 大規模な言語モデルは、しばしば構造化されず、騒々しく、言い回しが不十分なWebの大量のスクラップで訓練されている。 現在のスケーリング法則では、そのようなデータから学ぶには、トレーニング対象のモデルのサイズに応じて成長する計算とデータの両方を必要とする。 これは、事前トレーニングに伴う計算コストと持続時間が大きいことと、Web上の高品質なデータの差し迫った不足のため、実現不可能である。 本稿では,web上の文書を"like wikipedia" や "question-answer format" といったスタイルでパラフローするように促された,既定の命令調整モデルを用いて,実および合成レプリアーゼ上でllmを事前学習する web rephrase augmented pre-training (\textbf{wrap}$) を提案する。 まず、自然にノイズの多いC4データセットでWRAPを使用することで、事前トレーニングを$\sim3x$で高速化する。 同じ事前トレーニングされた計算予算で、パイルの異なるサブセットの平均で、パープレキシティを10%以上向上させ、13のタスクでゼロショットの質問応答精度を2%以上向上させる。 第二に、モデルの性能に対する言い換えスタイルの影響について検討し、トレーニングデータの構成がOOD設定におけるLCMの性能にどのように影響するかを洞察する。 我々の利益は、合成データが単に実際のデータよりも有用であるという事実による。 (i)下流評価様式を忠実に反映したスタイル多様性を取り入れ、 (ii)ウェブスクラッドデータよりも「品質」が高い。

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
翻訳日:2024-01-30 13:41:48 公開日:2024-01-29
# 密度行列を密度パウリテンソルに分解する

Decomposing dense matrices into dense Pauli tensors ( http://arxiv.org/abs/2401.16378v1 )

ライセンス: Link先を確認
Tyson Jones(参考訳) 行列を重み付けされたパウリ弦の和に分解することは、指数的スケーリングによって容易には妨げられない量子コンピュータ科学者の共通の振舞いである。 しかし、注意してください、ナイーブ分解は必要以上に立方的に高価です! 本稿では,2^N-by-2^N複素行列とO(2^N)時間におけるN末端パウリテンソルの間の内積をグレイ符号を利用して計算する固定メモリ分岐アルゴリズムを導出する。 提案手法は, 行列を O(8^N) 時間で重み付けしたパウリ弦の和に変換することを許す。 我々はPythonでアルゴリズムを実装し、Githubでオープンソースでホストし、最近の最先端のメソッドである"PauliComposer"をベンチマークし、メモリオーバーヘッドが指数関数的に増加し、N < 8で1.5倍から5倍のスピードアップを実現した。 我々のスキームは、他の方法で最適化された処理が可能であるかもしれない入力行列のスパーシリティ、対角性、ハーミティティ、その他の性質を利用しない。 したがって、このアルゴリズムは、パウリ基底において密度の高い任意の複素行列の分解や、分解されたパウリテンソルが未定の先駆体であるような分解に適している。

Decomposing a matrix into a weighted sum of Pauli strings is a common chore of the quantum computer scientist, whom is not easily discouraged by exponential scaling. But beware, a naive decomposition can be cubically more expensive than necessary! In this manuscript, we derive a fixed-memory, branchless algorithm to compute the inner product between a 2^N-by-2^N complex matrix and an N-term Pauli tensor in O(2^N) time, by leveraging the Gray code. Our scheme permits the embarrassingly parallel decomposition of a matrix into a weighted sum of Pauli strings in O(8^N) time. We implement our algorithm in Python, hosted open-source on Github, and benchmark against a recent state-of-the-art method called the "PauliComposer" which has an exponentially growing memory overhead, achieving speedups in the range of 1.5x to 5x for N < 8. Note that our scheme does not leverage sparsity, diagonality, Hermitivity or other properties of the input matrix which might otherwise enable optimised treatment in other methods. As such, our algorithm is well-suited to decomposition of dense, arbitrary, complex matrices which are expected dense in the Pauli basis, or for which the decomposed Pauli tensors are a priori unknown.
翻訳日:2024-01-30 13:41:16 公開日:2024-01-29
# Spot the Error: Wireframe Locatorを用いた非自己回帰グラフレイアウト生成

Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator ( http://arxiv.org/abs/2401.16375v1 )

ライセンス: Link先を確認
Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin(参考訳) レイアウト生成は、要素の有意義な構成を達成するためにグラフィックデザインにおいて重要なステップである。 以前のほとんどの作品は、要素属性トークン(すなわち、カテゴリ、サイズ、位置)を結合することで、シーケンス生成問題と見なす。 これまでのところ、autoregressive approach(ar)は有望な結果を得ているが、グローバルコンテキストモデリングには制限があり、以前に生成されたトークンにしか対応できないため、エラー伝搬に苦しめられている。 最近の非自己回帰的試み(NAR)は、より広い文脈範囲と反復的復号化による洗練の柔軟性を提供する競争結果を示している。 しかし、現在の作品は、不正確である洗練のための誤ったトークンを認識するために単純なヒューリスティックのみを使用する。 本稿ではまず,ARとNARフレームワークの違いをよりよく理解するために,詳細な分析を行う。 さらに,画像配置の空間的パターン(重なり,アライメントなど)のキャプチャに画素空間がより敏感であることから,生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。 対象空間における要素列の相補的モダリティとして機能し,全体的な性能に大きく寄与することを示す。 2つの公開データセットの実験は、我々のアプローチがARとNARのベースラインよりも優れていることを示している。 広範な研究により、興味深い発見とともに異なるモジュールの有効性が証明された。 私たちのコードはhttps://github.com/ffffatgoose/spoterrorで利用できます。

Layout generation is a critical step in graphic design to achieve meaningful compositions of elements. Most previous works view it as a sequence generation problem by concatenating element attribute tokens (i.e., category, size, position). So far the autoregressive approach (AR) has achieved promising results, but is still limited in global context modeling and suffers from error propagation since it can only attend to the previously generated tokens. Recent non-autoregressive attempts (NAR) have shown competitive results, which provides a wider context range and the flexibility to refine with iterative decoding. However, current works only use simple heuristics to recognize erroneous tokens for refinement which is inaccurate. This paper first conducts an in-depth analysis to better understand the difference between the AR and NAR framework. Furthermore, based on our observation that pixel space is more sensitive in capturing spatial patterns of graphic layouts (e.g., overlap, alignment), we propose a learning-based locator to detect erroneous tokens which takes the wireframe image rendered from the generated layout sequence as input. We show that it serves as a complementary modality to the element sequence in object space and contributes greatly to the overall performance. Experiments on two public datasets show that our approach outperforms both AR and NAR baselines. Extensive studies further prove the effectiveness of different modules with interesting findings. Our code will be available at https://github.com/ffffatgoose/SpotError.
翻訳日:2024-01-30 13:40:50 公開日:2024-01-29
# 光キャビティにおける群振動強結合分子の解析モデル

Analytic Model for Molecules Under Collective Vibrational Strong Coupling in Optical Cavities ( http://arxiv.org/abs/2401.16374v1 )

ライセンス: Link先を確認
Jacob Horak, Dominik Sidler, Wei-Ming Huang, Michael Ruggenthaler and Angel Rubio(参考訳) 振動強い結合 (VSC) 下でのN分子のアンサンブルからなるモデル系について解析を行った。 単一の裸分子モデルは、1つの有効電子からなり、複数の原子核に調和的に結合する。 核間相互作用に対して事前の調和近似は課されない。 キャビティ内にあるボルン・オッペンハイマーの分割、すなわち古典的核と変位場座標を仮定すると、着飾ったN-電子問題は希薄な極限で解析的に解ける。 より詳しくは、VSC下での電子スクリーニング効果の非摂動的処理の関連性を示す、対応するキャビティ-ハートリー方程式の自己整合解について述べる。 我々は、調和モデルco2分子のアンサンブルの導出を例示し、共通の単純化が非物理的効果をもたらすことを示している(例えば、中性原子の質量中心運動に対する横磁場のスプリアスカップリング)。 さらに, この自己整合解は, キャビティによる赤方偏光とそれに伴う屈折率の簡易な解析式を示し, キャビティの偏光性依存的デチューニングと解釈できる。 最後に,不調和な分子間相互作用は,分子アンサンブル内での局所的な強結合効果の形成に不可欠である可能性を強調した。

Analytical results are presented for a model system consisting of an ensemble of N molecules under vibrational strong coupling (VSC). The single bare molecular model is composed of one effective electron, which couples harmonically to multiple nuclei. A priori no harmonic approximation is imposed for the inter-nuclear interactions. Within the cavity Born-Oppenheimer partitioning, i.e., when assuming classical nuclei and displacement field coordinates, the dressed N-electron problem can be solved analytically in the dilute limit. In more detail, we present a self-consistent solution of the corresponding cavity-Hartree equations, which illustrates the relevance of the non-perturbative treatment of electronic screening effects under VSC. We exemplify our derivations for an ensemble of harmonic model CO2 molecules, which shows that common simplifications can introduce non-physical effects (e.g., a spurious coupling of the transverse field to the center-of-mass motion for neutral atoms). In addition, our self-consistent solution reveals a simple analytic expression for the cavity-induced red shift and the associated refractive index, which can be interpreted as a polarizability-dependent detuning of the cavity. Finally, we highlight that anharmonic intra-molecular interactions might become essential for the formation of local strong coupling effects within a molecular ensemble under collective VSC.
翻訳日:2024-01-30 13:40:23 公開日:2024-01-29
# 持続的プロセスシステムのためのフレキシブルかつ効率的な設計フレームワークとしてのベイズ最適化

Bayesian optimization as a flexible and efficient design framework for sustainable process systems ( http://arxiv.org/abs/2401.16373v1 )

ライセンス: Link先を確認
Joel A. Paulson and Calvin Tsay(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、科学、工学、経済学、製造など、様々な応用分野において、ノイズの多い高評価ブラックボックス関数を最適化するための強力な技術である。 本稿では,次世代プロセスシステム設計のためのboにおける最近の開発,課題,機会の概要について述べる。 モチベーションのあるアプリケーションをいくつか説明した後、これらのアプリケーションの重要な問題に対してより効率的に取り組むために、先進的なboメソッドがどのように開発されたかについて議論する。 本稿では,確率モデルの品質向上に関する課題と機会,次のサンプル点を選択するための内部最適化手順の選択,サンプル効率向上のための問題構造の利用についてまとめる。

Bayesian optimization (BO) is a powerful technology for optimizing noisy expensive-to-evaluate black-box functions, with a broad range of real-world applications in science, engineering, economics, manufacturing, and beyond. In this paper, we provide an overview of recent developments, challenges, and opportunities in BO for design of next-generation process systems. After describing several motivating applications, we discuss how advanced BO methods have been developed to more efficiently tackle important problems in these applications. We conclude the paper with a summary of challenges and opportunities related to improving the quality of the probabilistic model, the choice of internal optimization procedure used to select the next sample point, and the exploitation of problem structure to improve sample efficiency.
翻訳日:2024-01-30 13:39:59 公開日:2024-01-29
# TQCompressor:置換によるニューラルネットワークのテンソル分解法の改善

TQCompressor: improving tensor decomposition methods in neural networks via permutations ( http://arxiv.org/abs/2401.16367v1 )

ライセンス: Link先を確認
V. Abronin, A. Naumov, D. Mazur, D. Bystrov, K. Tsarova, Ar. Melnikov, I. Oseledets, S. Dolgov, R. Brasher, M. Perelshtein(参考訳) 本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。 nlpタスクにおける事前学習された言語モデルの計算と記憶の要求によって生じる課題を調査し,クロネッカー分解に対する置換に基づく拡張を提案する。 この拡張により、通常は因子化と関連づけられるモデル表現性の損失を減らすことができる。 本手法を GPT-2$_{small}$ に適用する。 圧縮の結果、81mlnのTQCompressedGPT-2モデルが得られた。 124mlnと比較します GPT-2$_{small}$ TQCompressedGPT-2を公開しています。 我々は,openwebtextの3.1%のみを用いて,多段階知識蒸留を含む訓練戦略により,tqcompressedgpt-2の性能をさらに向上させる。 TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を上回り、資源制約環境におけるモデルの効率的かつ効果的な展開の進展を示す。

We introduce TQCompressor, a novel method for neural network model compression with improved tensor decompositions. We explore the challenges posed by the computational and storage demands of pre-trained language models in NLP tasks and propose a permutation-based enhancement to Kronecker decomposition. This enhancement makes it possible to reduce loss in model expressivity which is usually associated with factorization. We demonstrate this method applied to the GPT-2$_{small}$. The result of the compression is TQCompressedGPT-2 model, featuring 81 mln. parameters compared to 124 mln. in the GPT-2$_{small}$. We make TQCompressedGPT-2 publicly available. We further enhance the performance of the TQCompressedGPT-2 through a training strategy involving multi-step knowledge distillation, using only a 3.1% of the OpenWebText. TQCompressedGPT-2 surpasses DistilGPT-2 and KnGPT-2 in comparative evaluations, marking an advancement in the efficient and effective deployment of models in resource-constrained environments.
翻訳日:2024-01-30 13:39:46 公開日:2024-01-29
# 深部生成モデルを用いた異常検出のための疑似健康画像再構成の評価:脳内FDG PETへの応用

Evaluation of pseudo-healthy image reconstruction for anomaly detection with deep generative models: Application to brain FDG PET ( http://arxiv.org/abs/2401.16363v1 )

ライセンス: Link先を確認
Ravi Hassanaly, Camille Brianceau, Ma\"elys Solal, Olivier Colliot, Ninon Burgos(参考訳) 近年,教師なし異常検出のための疑似健康再建が普及している。 このアプローチは、退屈なピクセル単位のデータアノテーションを必要としないという大きな利点があり、まれな疾患を含むあらゆる種類の異常を一般化する可能性がある。 健常者の画像のみを用いて深層生成モデルを訓練することにより、擬似健康画像の再構築を学習する。 この擬似健康再構築は、異常を検出して局所化する入力と比較される。 このような方法の評価は、テストデータで使用可能な基底真理病変マスクに依存することが多いが、アプリケーションによっては存在しない可能性がある。 そこで本研究では,現実的異常画像のシミュレーションに基づく評価手法を提案する。 これにより、異なる種類の異常に対して生成モデルを広範囲にテストし、同一対象に対応する正常画像と異常画像のペアを用いてそれらの性能を測定することができる。 これは、臨床医の専門知識を必要とするより高度な検証ステップの前に、擬似健康画像の再構築のための生成モデルの能力を検証するための予備的な自動ステップとして使用できる。 本稿では,アルツハイマー病などの認知症に特異的な神経変性マーカーをできるだけ早く検出するために,畳み込み変分オートエンコーダを用いた3次元脳FDG PETの再構成に適用する。

Over the past years, pseudo-healthy reconstruction for unsupervised anomaly detection has gained in popularity. This approach has the great advantage of not requiring tedious pixel-wise data annotation and offers possibility to generalize to any kind of anomalies, including that corresponding to rare diseases. By training a deep generative model with only images from healthy subjects, the model will learn to reconstruct pseudo-healthy images. This pseudo-healthy reconstruction is then compared to the input to detect and localize anomalies. The evaluation of such methods often relies on a ground truth lesion mask that is available for test data, which may not exist depending on the application. We propose an evaluation procedure based on the simulation of realistic abnormal images to validate pseudo-healthy reconstruction methods when no ground truth is available. This allows us to extensively test generative models on different kinds of anomalies and measuring their performance using the pair of normal and abnormal images corresponding to the same subject. It can be used as a preliminary automatic step to validate the capacity of a generative model to reconstruct pseudo-healthy images, before a more advanced validation step that would require clinician's expertise. We apply this framework to the reconstruction of 3D brain FDG PET using a convolutional variational autoencoder with the aim to detect as early as possible the neurodegeneration markers that are specific to dementia such as Alzheimer's disease.
翻訳日:2024-01-30 13:39:28 公開日:2024-01-29
# 量子プロセス行列のイメージ化:新しいデノナイジング手法を設計するための新しいツール

Quantum process matrices as images: new tools to design novel denoising methods ( http://arxiv.org/abs/2401.16362v1 )

ライセンス: Link先を確認
Massimiliano Guarneri, Andrea Chiuri(参考訳) 実験測度から量子チャネルを特徴づけるプロセス行列を推定することは、量子情報の鍵となる問題である。 測定された数に影響を与えるノイズは、期待値と大きく異なる行列をもたらすことがあり、主に使用されるes-調律手順、すなわち最大度推定 (mle) もいくつかの欠点によって特徴づけられる。 騒音を下げるためには、例えば各測定に要する時間などの実験資源を増やす必要がある。 本稿では,適切なニューラルネットワークに基づく代替手法を実装,最適化し,特定の量子チャネル,すなわち制御相を用いて実験を行った。 この有望な方法は、プロセス行列の要素とimのピクセルの間に確立されるアナロジーに依存する。

Inferring a process matrix characterizing a quantum channel from experimental measure- ments is a key issue of quantum information. Sometimes the noise affecting the measured counts brings to matrices very different from the expected ones and the mainly used es- timation procedure, i.e. the maximum likelihood estimation (MLE), is also characterized by several drawbacks. To lower the noise could be necessary to increase the experimental resources, e.g. time for each measurement. In this paper, an alternative procedure, based on suitable Neural Networks, has been implemented and optimized to obtain a denoised process matrix and this approach has been tested with a specific quantum channel, i.e. a Control Phase. This promising method relies on the analogy that can be established between the elements of a process matrix and the pixels of an im
翻訳日:2024-01-30 13:39:07 公開日:2024-01-29
# 野生霊長類行動解析のためのコンピュータビジョン

Computer Vision for Primate Behavior Analysis in the Wild ( http://arxiv.org/abs/2401.16424v1 )

ライセンス: Link先を確認
Richard Vogg, Timo L\"uddecke, Jonathan Henrich, Sharmita Dey, Matthias Nuske, Valentin Hassler, Derek Murphy, Julia Fischer, Julia Ostner, Oliver Sch\"ulke, Peter M. Kappeler, Claudia Fichtel, Alexander Gail, Stefan Treue, Hansj\"org Scherberger, Florentin W\"org\"otter, Alexander S. Ecker(参考訳) コンピュータビジョンの進歩と、ますます広まるビデオベースの行動監視は、動物の認知と行動の研究方法を変える大きな可能性を秘めている。 しかし、エキサイティングな展望と、今日実際に実現できるもの、特に野生の動画との間には、かなり大きなギャップがある。 本論では,行動科学者に現在の方法から期待できることを導き,コンピュータビジョン研究者を,動物行動の先行研究に関連する問題へと導くことで,このギャップを解消する上で貢献したい。 まず,物体検出,複数個体追跡,(相互)行動認識,個人識別など,映像に基づく動物行動研究に直接関連するコンピュータビジョン問題に対する最先端の手法に関する調査を行った。 次に、実践的な視点から最大の課題である、労力効率のよい学習のための方法をレビューする。 最後に、私たちは動物行動のためのコンピュータビジョンの新たな分野の展望に近づき、この分野は共通のフレーム単位の処理を超越して、ビデオは第一級市民として扱うべきだと論じる。

Advances in computer vision as well as increasingly widespread video-based behavioral monitoring have great potential for transforming how we study animal cognition and behavior. However, there is still a fairly large gap between the exciting prospects and what can actually be achieved in practice today, especially in videos from the wild. With this perspective paper, we want to contribute towards closing this gap, by guiding behavioral scientists in what can be expected from current methods and steering computer vision researchers towards problems that are relevant to advance research in animal behavior. We start with a survey of the state-of-the-art methods for computer vision problems that are directly relevant to the video-based study of animal behavior, including object detection, multi-individual tracking, (inter)action recognition and individual identification. We then review methods for effort-efficient learning, which is one of the biggest challenges from a practical perspective. Finally, we close with an outlook into the future of the emerging field of computer vision for animal behavior, where we argue that the field should move fast beyond the common frame-by-frame processing and treat video as a first-class citizen.
翻訳日:2024-01-30 13:31:39 公開日:2024-01-29
# synchformer:スパースキューからの効率的な同期

Synchformer: Efficient Synchronization from Sparse Cues ( http://arxiv.org/abs/2401.16423v1 )

ライセンス: Link先を確認
Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman(参考訳) 私たちのゴールは、YouTubeなど、同期の容易さを損なうような 'in-the-wild' ビデオに焦点を当てた、オーディオ-視覚同期です。 コントリビューションには、新しい音声-視覚同期モデル、マルチモーダルセグメントレベルのコントラスト事前学習による同期モデルから特徴抽出を分離するトレーニングが含まれる。 このアプローチは、密度とスパース設定の両方で最先端の性能を実現する。 また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ視覚同期性について検討する。

Our objective is audio-visual synchronization with a focus on 'in-the-wild' videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization model, and training that decouples feature extraction from synchronization modelling through multi-modal segment-level contrastive pre-training. This approach achieves state-of-the-art performance in both dense and sparse settings. We also extend synchronization model training to AudioSet a million-scale 'in-the-wild' dataset, investigate evidence attribution techniques for interpretability, and explore a new capability for synchronization models: audio-visual synchronizability.
翻訳日:2024-01-30 13:31:21 公開日:2024-01-29
# マルチリーナー環境における戦略的利用

Strategic Usage in a Multi-Learner Setting ( http://arxiv.org/abs/2401.16422v1 )

ライセンス: Link先を確認
Eliot Shekhtman and Sarah Dean(参考訳) 現実世界のシステムは、サービスのセットを選択するユーザのプールを伴います。 オンライン学習アルゴリズムの普及に伴い、これらのサービスは、ユーザから収集したデータを活用して、サービス品質などの報酬を最大化することができる。 一方、ユーザは自分の報酬関数を追求するために、どのサービスを使うかを戦略的に選択することができる。 戦略的な振る舞いは、望ましい分類を達成するために観測可能な機能の操作において現れるが、これは多くの場合、ユーザにとってコストがかかるか、持続不可能であり、マルチサービスの動的システムの完全な振る舞いを捉えることができない。 そこで,本研究では,戦略利用者が肯定的な分類を追求するために利用可能な複数のサービスの中から選択する環境を分析した。 再現可能な設定に焦点をあて,全てのユーザが異なるタイミングで観察された場合でも,ナイーブなリトレーニングはなおも振動を引き起こすことを示す。 我々は合成データと実世界のデータから得られた結果を提供し,理論的な知見を実証的に検証する。

Real-world systems often involve some pool of users choosing between a set of services. With the increase in popularity of online learning algorithms, these services can now self-optimize, leveraging data collected on users to maximize some reward such as service quality. On the flipside, users may strategically choose which services to use in order to pursue their own reward functions, in the process wielding power over which services can see and use their data. Extensive prior research has been conducted on the effects of strategic users in single-service settings, with strategic behavior manifesting in the manipulation of observable features to achieve a desired classification; however, this can often be costly or unattainable for users and fails to capture the full behavior of multi-service dynamic systems. As such, we analyze a setting in which strategic users choose among several available services in order to pursue positive classifications, while services seek to minimize loss functions on their observations. We focus our analysis on realizable settings, and show that naive retraining can still lead to oscillation even if all users are observed at different times; however, if this retraining uses memory of past observations, convergent behavior can be guaranteed for certain loss function classes. We provide results obtained from synthetic and real-world data to empirically validate our theoretical findings.
翻訳日:2024-01-30 13:31:07 公開日:2024-01-29
# 2つの石が1つの鳥にぶつかる:より長い補間のための2レベル位置符号化

Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation ( http://arxiv.org/abs/2401.16421v1 )

ライセンス: Link先を確認
Zhenyu He, Guhao Feng, Shengjie Luo, Kai Yang, Di He, Jingjing Xu, Zhi Zhang, Hongxia Yang, Liwei Wang(参考訳) 本研究では,言語系列の固有セグメンテーションを活用し,Bilevel Positional Encoding (BiPE)と呼ばれる新しい位置符号化法を設計する。 それぞれの位置について、BiPEはセグメント内エンコーディングとセグメント間エンコーディングをブレンドします。 セグメント内エンコーディングはセグメント内の位置を特定し、絶対的な位置エンコーディングを通じてモデルが意味情報をキャプチャするのに役立つ。 セグメント間符号化はセグメントインデックスを規定し、セグメント間の関係をモデル化し、相対的な位置符号化による外挿能力の向上を目指す。 理論的分析は、位置情報の絡み合いが学習をより効果的にすることを示している。 実験の結果,BiPEは多種多様なテキストモダリティにおいて,幅広いタスクにまたがる長さの補間能力に優れていた。

In this work, we leverage the intrinsic segmentation of language sequences and design a new positional encoding method called Bilevel Positional Encoding (BiPE). For each position, our BiPE blends an intra-segment encoding and an inter-segment encoding. The intra-segment encoding identifies the locations within a segment and helps the model capture the semantic information therein via absolute positional encoding. The inter-segment encoding specifies the segment index, models the relationships between segments, and aims to improve extrapolation capabilities via relative positional encoding. Theoretical analysis shows this disentanglement of positional information makes learning more effective. The empirical results also show that our BiPE has superior length extrapolation capabilities across a wide range of tasks in diverse text modalities.
翻訳日:2024-01-30 13:30:45 公開日:2024-01-29
# InternLM-XComposer2:視覚言語大モデルにおける自由形式のテキスト画像合成と理解の習得

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model ( http://arxiv.org/abs/2401.16420v1 )

ライセンス: Link先を確認
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang(参考訳) InternLM-XComposer2は、自由形式のテキスト画像合成と理解に優れた最先端の視覚言語モデルである。 このモデルは従来の視覚言語理解を超えており、アウトライン、詳細なテキスト仕様、参照画像といった様々な入力からインターリーブされたテキスト画像コンテンツを作成し、高度にカスタマイズ可能なコンテンツ作成を可能にする。 InternLM-XComposer2は、事前訓練された言語知識の完全性を維持するために画像トークンのみに追加のLoRAパラメータを適用し、正確な視覚理解と文学的才能とのテキスト合成のバランスを崩す部分LoRA(PLoRA)アプローチを提案する。 InternLM2-7BをベースとしたInternLM-XComposer2の高品質な長文マルチモーダルコンテンツ作成における優位性と、既存のマルチモーダルモデルよりも優れているだけでなく、GPT-4VやGemini Proよりも優れた性能を示す。 これはマルチモーダル理解の領域における卓越した熟練度を強調している。 7Bパラメータを持つInternLM-XComposer2モデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We introduce InternLM-XComposer2, a cutting-edge vision-language model excelling in free-form text-image composition and comprehension. This model goes beyond conventional vision-language understanding, adeptly crafting interleaved text-image content from diverse inputs like outlines, detailed textual specifications, and reference images, enabling highly customizable content creation. InternLM-XComposer2 proposes a Partial LoRA (PLoRA) approach that applies additional LoRA parameters exclusively to image tokens to preserve the integrity of pre-trained language knowledge, striking a balance between precise vision understanding and text composition with literary talent. Experimental results demonstrate the superiority of InternLM-XComposer2 based on InternLM2-7B in producing high-quality long-text multi-modal content and its exceptional vision-language understanding performance across various benchmarks, where it not only significantly outperforms existing multimodal models but also matches or even surpasses GPT-4V and Gemini Pro in certain assessments. This highlights its remarkable proficiency in the realm of multimodal understanding. The InternLM-XComposer2 model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2024-01-30 13:30:32 公開日:2024-01-29
# ガウス過程とホースシューによる半パラメトリック・ベイズ的ネットワーク学習

Semi-parametric Expert Bayesian Network Learning with Gaussian Processes and Horseshoe Priors ( http://arxiv.org/abs/2401.16419v1 )

ライセンス: Link先を確認
Yidou Weng, Finale Doshi-Velez(参考訳) 本稿では,線形パラメータと構造制約を持つ専門家ベイズネットワーク (sebn) における半パラメトリックレーラ対数学習モデルを提案する。 我々は最小の非線形成分を導入する前にガウスのプロセスとホースホウを用いる。 新しいエッジの追加よりも専門家グラフの変更を優先するために、微分ホースシュースケールを最適化する。 実世界の未知のデータセットでは、ユーザ入力に対応するために多様なグラフを作成し、識別可能性の問題に対処し、解釈可能性を高める。 合成およびUCI肝障害データセットの評価-構造的ハミング距離やテスト可能性などの指標を用いて、我々のモデルは最先端の半パラメトリックベイズネットワークモデルより優れていることを示した。

This paper proposes a model learning Semi-parametric rela- tionships in an Expert Bayesian Network (SEBN) with linear parameter and structure constraints. We use Gaussian Pro- cesses and a Horseshoe prior to introduce minimal nonlin- ear components. To prioritize modifying the expert graph over adding new edges, we optimize differential Horseshoe scales. In real-world datasets with unknown truth, we gen- erate diverse graphs to accommodate user input, addressing identifiability issues and enhancing interpretability. Evalua- tion on synthetic and UCI Liver Disorders datasets, using metrics like structural Hamming Distance and test likelihood, demonstrates our models outperform state-of-the-art semi- parametric Bayesian Network model.
翻訳日:2024-01-30 13:30:06 公開日:2024-01-29
# エラーフィードバック機構としてのブール論理

Boolean Logic as an Error feedback mechanism ( http://arxiv.org/abs/2401.16418v1 )

ライセンス: Link先を確認
Louis Leconte(参考訳) ブール論理バックプロパゲーションの概念は、重みとアクティベーションをブール数とするニューラルネットワークを構築するために導入された。 ほとんどの計算は、トレーニングと推論フェーズの両方において、実際の算術ではなくブール論理で行うことができる。 しかし、基礎となる離散最適化問題はNPハードであり、ブール論理には保証がない。 本研究では, 標準非凸仮定の下での最初の収束解析を提案する。

The notion of Boolean logic backpropagation was introduced to build neural networks with weights and activations being Boolean numbers. Most of computations can be done with Boolean logic instead of real arithmetic, both during training and inference phases. But the underlying discrete optimization problem is NP-hard, and the Boolean logic has no guarantee. In this work we propose the first convergence analysis, under standard non-convex assumptions.
翻訳日:2024-01-30 13:29:53 公開日:2024-01-29
# Endo-4DGS : 4Dガウス切開による内視鏡的単眼切開術

Endo-4DGS: Distilling Depth Ranking for Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting ( http://arxiv.org/abs/2401.16416v1 )

ライセンス: Link先を確認
Yiming Huang and Beilei Cui and Long Bai and Ziqi Guo and Mengya Xu and Hongliang Ren(参考訳) ロボットによる最小侵襲手術の分野では、動的シーン再構成は下流の作業を大幅に強化し、手術結果を改善することができる。 ニューラル・ラジアンス・フィールド(NeRF)をベースとした手法は、最近、シーンを再構成する異常な能力で有名になった。 それでもこれらの手法は、遅い推論、長い訓練、そしてかなりの計算要求によって妨げられている。 さらに、ステレオカメラに関連する高いコストと物流上の課題のためにしばしば実現不可能となるステレオ深度推定に依存するものもある。 また,現在,変形可能なシーンの単眼的再現性は不十分である。 これらの障害を克服するために,4次元ガウススプラッティング(GS)を利用して地上の真理深度データを必要としない,革新的でリアルタイムな動的再構成手法であるEndo-4DGSを提案する。 時間成分を組み込んで3次元GSを拡張し、軽量のMLPを利用して時相ガウス変形を捉える。 これにより,動的手術シーンの再現が容易になる。 また,Depth-Anythingを統合して,モノクラービューから擬似深度マップを生成し,深度誘導再構成プロセスを強化する。 提案手法は, リアルタイムにレンダリングし, 効率よく計算し, 顕著な精度で再構成できることが証明された2つの外科的データセットで検証されている。 これらの結果は、外科的補助を改善するためのEndo-4DGSの大きな可能性を示している。

In the realm of robot-assisted minimally invasive surgery, dynamic scene reconstruction can significantly enhance downstream tasks and improve surgical outcomes. Neural Radiance Fields (NeRF)-based methods have recently risen to prominence for their exceptional ability to reconstruct scenes. Nonetheless, these methods are hampered by slow inference, prolonged training, and substantial computational demands. Additionally, some rely on stereo depth estimation, which is often infeasible due to the high costs and logistical challenges associated with stereo cameras. Moreover, the monocular reconstruction quality for deformable scenes is currently inadequate. To overcome these obstacles, we present Endo-4DGS, an innovative, real-time endoscopic dynamic reconstruction approach that utilizes 4D Gaussian Splatting (GS) and requires no ground truth depth data. This method extends 3D GS by incorporating a temporal component and leverages a lightweight MLP to capture temporal Gaussian deformations. This effectively facilitates the reconstruction of dynamic surgical scenes with variable conditions. We also integrate Depth-Anything to generate pseudo-depth maps from monocular views, enhancing the depth-guided reconstruction process. Our approach has been validated on two surgical datasets, where it has proven to render in real-time, compute efficiently, and reconstruct with remarkable accuracy. These results underline the vast potential of Endo-4DGS to improve surgical assistance.
翻訳日:2024-01-30 13:29:46 公開日:2024-01-29
# 限られた情報の下で操作する学習

Learning to Manipulate under Limited Information ( http://arxiv.org/abs/2401.16412v1 )

ライセンス: Link先を確認
Wesley H. Holliday and Alexander Kristoffersen and Eric Pacuit(参考訳) 社会的選択理論の古典的な結果により、合理的な優先投票方法は、時に個人に不誠実な選好を報告させるインセンティブを与える。 このような戦略的な操作に対して、異なる投票方法が多かれ少なかれ耐性を持つ程度は、投票方法を比較する上で重要な考慮事項となっている。 ここでは,異なる大きさのニューラルネットワークが,他の有権者の投票方法に関して,様々な種類の制限のある情報を考慮し,所定の投票方法の利益性を向上させることができるかどうかを判断する。 5~21人の有権者と3~6人の候補者による委員会規模の選挙において、6種類の制限情報の下で8種類の投票方法を操作するために、26のサイズの約4万のニューラルネットワークをトレーニングした。 ボルダのような投票手法は限られた情報を持つネットワークで高度に操作可能であるのに対して、インスタント・ランオフのような他の手法は、完全な情報を持つ理想的なマニピュレータによって非常に利益を上げているにもかかわらず、そうではない。

By classic results in social choice theory, any reasonable preferential voting method sometimes gives individuals an incentive to report an insincere preference. The extent to which different voting methods are more or less resistant to such strategic manipulation has become a key consideration for comparing voting methods. Here we measure resistance to manipulation by whether neural networks of varying sizes can learn to profitably manipulate a given voting method in expectation, given different types of limited information about how other voters will vote. We trained nearly 40,000 neural networks of 26 sizes to manipulate against 8 different voting methods, under 6 types of limited information, in committee-sized elections with 5-21 voters and 3-6 candidates. We find that some voting methods, such as Borda, are highly manipulable by networks with limited information, while others, such as Instant Runoff, are not, despite being quite profitably manipulated by an ideal manipulator with full information.
翻訳日:2024-01-30 13:29:24 公開日:2024-01-29
# ReTaSA:連続目標シフト対応のための非パラメトリック関数推定手法

ReTaSA: A Nonparametric Functional Estimation Approach for Addressing Continuous Target Shift ( http://arxiv.org/abs/2401.16410v1 )

ライセンス: Link先を確認
Hwanwoo Kim, Xin Zhang, Jiwei Zhao, Qinglong Tian(参考訳) 分散シフトの存在は、現代の機械学習モデルを現実世界のアプリケーションにデプロイする上で大きな課題となる。 この研究は回帰設定における目標シフト問題に焦点を当てている(Zhang et al., 2013; Nguyen et al., 2016)。 より具体的には、連続的な対象変数y(応答変数としても知られる)は、訓練元とテスト領域において異なる限界分布を持つが、yに与えられた特徴xの条件分布は同じである。 ほとんどの文献は有限な対象空間を持つ分類タスクに焦点を当てているが、回帰問題は無限次元の対象空間を持ち、既存の手法の多くを適用できない。 本研究では, 積分方程式から重み関数を推定することにより, 連続目標シフト問題に対処可能であることを示す。 非パラメトリック正則化法としてretasaを提案し,不定積分方程式の解法と推定重要度重み関数の理論的正当性を提供する。 提案手法の有効性は,合成および実世界のデータセットに関する広範な数値的研究で実証されている。

The presence of distribution shifts poses a significant challenge for deploying modern machine learning models in real-world applications. This work focuses on the target shift problem in a regression setting (Zhang et al., 2013; Nguyen et al., 2016). More specifically, the target variable y (also known as the response variable), which is continuous, has different marginal distributions in the training source and testing domain, while the conditional distribution of features x given y remains the same. While most literature focuses on classification tasks with finite target space, the regression problem has an infinite dimensional target space, which makes many of the existing methods inapplicable. In this work, we show that the continuous target shift problem can be addressed by estimating the importance weight function from an ill-posed integral equation. We propose a nonparametric regularized approach named ReTaSA to solve the ill-posed integral equation and provide theoretical justification for the estimated importance weight function. The effectiveness of the proposed method has been demonstrated with extensive numerical studies on synthetic and real-world datasets.
翻訳日:2024-01-30 13:29:07 公開日:2024-01-29
# 絡み合った電子の可能な源としてのクーパー対ビームスプリッター

A Cooper-pair beam splitter as a feasible source of entangled electrons ( http://arxiv.org/abs/2401.16408v1 )

ライセンス: Link先を確認
B. Sharmila, F. M. Souza, H. M. Vasconcelos and L. Sanz(参考訳) 超伝導体クーパー対ビームスプリッタに取り付けられた2つの量子ドットからなる系から生じる絡み合った電子対の生成について検討する。 我々はandreev反射、cotuneling、coulomb相互作用の3つのプロセスを考慮に入れている。 これらの過程は、電子が空間的に分離された量子ドットの中で、絡み合った電子状態の形成において重要な役割を果たす。 摂動理論を用いて, 絡み合った状態の形成の背後にある複雑な過程の簡単な図式化を可能にする解析的有効モデルを得る。 量子相互情報, 負性, 共起性などの絡み合い定量化器を用いて, 実験結果を検証した。 最後に、特定のスピン値を持つ量子ドットの1つに由来する2つの電子の検出に関連する共分散を定義し、計算する。 このオブザーバブルの時間発展は、全てのエンタングルメント量子化器のダイナミクスに従い、量子情報プロトコルにおける将来の応用において、エンタングル電子の生成をマッピングするための有用なツールとなることを示唆する。

We investigate the generation of an entangled electron pair emerging from a system composed of two quantum dots attached to a superconductor Cooper pair beam splitter. We take into account three processes: Crossed Andreev Reflection, cotuneling, and Coulomb interaction. Together, these processes play crucial roles in the formation of entangled electronic states, with electrons being in spatially separated quantum dots. By using perturbation theory, we derive an analytical effective model that allows a simple picture of the intricate process behind the formation of the entangled state. Several entanglement quantifiers, including quantum mutual information, negativity, and concurrence, are employed to validate our findings. Finally, we define and calculate the covariance associated with the detection of two electrons, each originating from one of the quantum dots with a specific spin value. The time evolution of this observable follows the dynamics of all entanglement quantifiers, thus suggesting that it can be a useful tool for mapping the creation of entangled electrons in future applications within quantum information protocols.
翻訳日:2024-01-30 13:28:50 公開日:2024-01-29
# K-fold クロス検証は機械学習の最良のモデル選択法か?

Is K-fold cross validation the best model selection method for Machine Learning? ( http://arxiv.org/abs/2401.16407v1 )

ライセンス: Link先を確認
Juan M Gorriz, F Segovia, J Ramirez, A Ortiz and J. Suckling(参考訳) 複雑なパターンをコンパクトに表現できる技術として、機械学習は予測推論の重要な可能性を持っている。 K-fold cross-validation (CV) は、機械学習の結果が偶然に生成され、しばしば従来の仮説テストより優れている可能性を確認する最も一般的なアプローチである。 この改善は、パラメトリックな記述を持たない精度など、機械学習の分類から直接得られる尺度を使用する。 機械学習パイプライン内の頻繁な分析にアプローチするために、データパーティション(すなわち折り畳み)からの置換テストや単純な統計を加算して、信頼区間を推定することができる。 残念ながら、パラメトリックテストも非パラメトリックテストも、小さなサンプルサイズのデータセットの分割や、異種データソースからの学習に関する本質的な問題を解決できない。 機械学習が学習パラメータやデータ分散に強く依存しているという事実は、過剰な偽陽性や複製に関する難しさを再カプセル化する。 この問題の起源は、小さなサンプルサイズ、低い数の予測器、異種データソースなど、共通の実験的な状況のシミュレーションによって示される。 K-fold CVと実際の誤差(K-fold CUBV)のアッパーバウンドに基づく新しい統計的テストを行い、濃度不等式の評価により、CVを用いた機械学習の不確実な予測をemph{worst case}でバウンドする。 線形分類器に対する K-fold CV と組み合わせた近似正ベイジアン上界は経験的誤差を推定するために用いられる。 神経画像データセットによるパフォーマンスは、過剰な偽陽性を回避しながら機械学習から得られる精度値を検証し、効果を検出するための堅牢な基準であることを示唆している。

As a technique that can compactly represent complex patterns, machine learning has significant potential for predictive inference. K-fold cross-validation (CV) is the most common approach to ascertaining the likelihood that a machine learning outcome is generated by chance and frequently outperforms conventional hypothesis testing. This improvement uses measures directly obtained from machine learning classifications, such as accuracy, that do not have a parametric description. To approach a frequentist analysis within machine learning pipelines, a permutation test or simple statistics from data partitions (i.e. folds) can be added to estimate confidence intervals. Unfortunately, neither parametric nor non-parametric tests solve the inherent problems around partitioning small sample-size datasets and learning from heterogeneous data sources. The fact that machine learning strongly depends on the learning parameters and the distribution of data across folds recapitulates familiar difficulties around excess false positives and replication. The origins of this problem are demonstrated by simulating common experimental circumstances, including small sample sizes, low numbers of predictors, and heterogeneous data sources. A novel statistical test based on K-fold CV and the Upper Bound of the actual error (K-fold CUBV) is composed, where uncertain predictions of machine learning with CV are bounded by the \emph{worst case} through the evaluation of concentration inequalities. Probably Approximately Correct-Bayesian upper bounds for linear classifiers in combination with K-fold CV is used to estimate the empirical error. The performance with neuroimaging datasets suggests this is a robust criterion for detecting effects, validating accuracy values obtained from machine learning whilst avoiding excess false positives.
翻訳日:2024-01-30 13:28:33 公開日:2024-01-29
# スパースファインチューニングの大規模言語モデルへの拡張

Scaling Sparse Fine-Tuning to Large Language Models ( http://arxiv.org/abs/2401.16405v1 )

ライセンス: Link先を確認
Alan Ansell and Ivan Vuli\'c and Hannah Sterz and Anna Korhonen and Edoardo M. Ponti(参考訳) 大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整(命令や人間のフィードバックなど)が難しい。 パラメータ効率の高いスパースファインチューニング(SFT)手法のファミリーは性能面で有望であることが証明されているが、そのメモリ要求はLLMのサイズに比例して増加する。 本研究では, LLaMA 2 7B や 13B などの最先端 LLM に細粒度調整を施す。 任意の時間において、所望の密度レベルでは、パラメータのインデックスとこれらのパラメータのデルタの配列を事前訓練された値に対して維持する。 私たちはこう繰り返します。 (a)アクティブデルタの更新。 (b)刈り込み指数(そのデルタの大きさの変化に基づく)と (c)指標の再成長 再成長のために,数個の候補パラメータの累積勾配と,効率的なsm3オプティマイザを用いて推定した近似モーメントの2つの基準を検討した。 標準データセット混合物上でのLCMの命令チューニングを実験した結果、SFTはLoRA(低ランク適応)のようなパラメータ効率のよい微調整法よりも性能が優れ、実行時間も同等であることが判明した。 さらに、SFTは量子化と効率的なオプティマイザの両方と互換性があることを示す。 我々は https://github.com/AlanAnsell/peft で SFT のコードをリリースした。

Large Language Models (LLMs) are difficult to fully fine-tune (e.g., with instructions or human feedback) due to their sheer number of parameters. A family of parameter-efficient sparse fine-tuning (SFT) methods have proven promising in terms of performance but their memory requirements increase proportionally to the size of the LLMs. In this work, we scale sparse fine-tuning to state-of-the-art LLMs like LLaMA 2 7B and 13B. At any given time, for a desired density level, we maintain an array of parameter indices and the deltas of these parameters relative to their pretrained values. We iterate among: (a) updating the active deltas, (b) pruning indices (based on the change of magnitude of their deltas) and (c) regrowth of indices. For regrowth, we explore two criteria based on either the accumulated gradients of a few candidate parameters or their approximate momenta estimated using the efficient SM3 optimizer. We experiment with instruction-tuning of LLMs on standard dataset mixtures, finding that SFT is often superior to popular parameter-efficient fine-tuning methods like LoRA (low-rank adaptation) in terms of performance and comparable in terms of run time. We additionally show that SFT is compatible with both quantization and efficient optimizers, to facilitate scaling to ever-larger model sizes. We release the code for SFT at https://github.com/AlanAnsell/peft and for the instruction-tuning experiments at https://github.com/ducdauge/sft-llm.
翻訳日:2024-01-30 13:28:03 公開日:2024-01-29
# ViLexNorm:ベトナムのソーシャルメディアテキストのための語彙正規化コーパス

ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text ( http://arxiv.org/abs/2401.16403v1 )

ライセンス: Link先を確認
Thanh-Nhi Nguyen, Thanh-Phong Le, Kiet Van Nguyen(参考訳) 語彙正規化(英語: Lexical normalization)は、自然言語処理(NLP)の基本課題であり、単語を標準形式に変換することである。 このプロセスは、下流の様々なNLPタスクに大きな恩恵をもたらすことが証明されている。 本研究ではベトナムの語彙正規化タスクのために開発された最初のコーパスであるベトナム語彙正規化(ViLexNorm)を紹介する。 このコーパスは、ベトナムで最も人気のあるソーシャルメディアプラットフォームに関する公式コメントから引用された、人間の注釈によって慎重に注釈付けされた1万件以上の文からなる。 コーパスの評価には多種多様な手法が用いられ, 最適性能のシステムは57.74%の誤差低減率 (ERR) 測定値 (van der Goot, 2019a) とLeft-As-Is (LAI) 基準値を用いて達成された。 ViLexNormでトレーニングされたモデルを用いることで、ベトナムの語彙正規化タスクが他のNLPタスクに与える影響を実証することができる。 私たちのコーパスは研究目的でのみ公開されている。

Lexical normalization, a fundamental task in Natural Language Processing (NLP), involves the transformation of words into their canonical forms. This process has been proven to benefit various downstream NLP tasks greatly. In this work, we introduce Vietnamese Lexical Normalization (ViLexNorm), the first-ever corpus developed for the Vietnamese lexical normalization task. The corpus comprises over 10,000 pairs of sentences meticulously annotated by human annotators, sourced from public comments on Vietnam's most popular social media platforms. Various methods were used to evaluate our corpus, and the best-performing system achieved a result of 57.74% using the Error Reduction Rate (ERR) metric (van der Goot, 2019a) with the Leave-As-Is (LAI) baseline. For extrinsic evaluation, employing the model trained on ViLexNorm demonstrates the positive impact of the Vietnamese lexical normalization task on other NLP tasks. Our corpus is publicly available exclusively for research purposes.
翻訳日:2024-01-30 13:27:35 公開日:2024-01-29
# 視覚異常検出に関する調査 : 挑戦,アプローチ,展望

A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect ( http://arxiv.org/abs/2401.16402v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Jiangning Zhang, Yuqi Cheng, Xiaonan Huang, Guansong Pang, Weiming Shen(参考訳) 視覚異常検出(VAD)は、視覚データの正常性の概念から逸脱を識別する試みであり、工業的欠陥検査や医学的病変検出など様々な領域に広く適用されている。 本調査は,vadの最近の進歩を包括的に検討し,次の3つの課題を明らかにする。 1)訓練データの不足、 2)視覚的モダリティの多様性,及び 3)階層的異常の複雑さ。 vadの背景とその一般的な概念定義の簡単な概要から始め、サンプル数、データモダリティ、異常階層の観点から、段階的にvadの進歩を分類し、強調し、議論する。 VAD分野の詳細な分析を通じて、最終的にVADの今後の展開を要約し、この調査の重要な発見と貢献をまとめる。

Visual Anomaly Detection (VAD) endeavors to pinpoint deviations from the concept of normality in visual data, widely applied across diverse domains, e.g., industrial defect inspection, and medical lesion detection. This survey comprehensively examines recent advancements in VAD by identifying three primary challenges: 1) scarcity of training data, 2) diversity of visual modalities, and 3) complexity of hierarchical anomalies. Starting with a brief overview of the VAD background and its generic concept definitions, we progressively categorize, emphasize, and discuss the latest VAD progress from the perspective of sample number, data modality, and anomaly hierarchy. Through an in-depth analysis of the VAD field, we finally summarize future developments for VAD and conclude the key findings and contributions of this survey.
翻訳日:2024-01-30 13:27:16 公開日:2024-01-29
# 複数の産業プロセスのための新しい画像品質データベース

A New Image Quality Database for Multiple Industrial Processes ( http://arxiv.org/abs/2401.13956v2 )

ライセンス: Link先を確認
Xuanchao Ma, Yanlin Jiang, Hongyan Liu, Chengxu Zhou, Ke Gu(参考訳) 近年、スモーク検出、セキュリティ監視、ワークピース検査など、複数の産業プロセスにおける画像処理技術の幅広い応用が目撃されている。 画像の取得、圧縮、送信、記憶、表示の過程において、様々な種類の歪みタイプとレベルが画像に導入され、画像の品質が大幅に低下し、最終的な表示効果と明快さが強く低下する可能性がある。 既存の画像品質評価手法の信頼性を検証するため,50のソース画像毎に異なるレベルの歪み型を適用して生成した3000の歪み画像を含む,新たな産業プロセス画像データベース(IPID)を構築した。 上記3000枚の画像に対して主観的検査を行い,良好な実験環境において主観的品質評価を収集した。 最後に、目的画像品質評価アルゴリズムの性能を検討するために、IPIDデータベース上で比較実験を行う。 実験の結果,画像品質評価手法では,複数の歪み型を含む画像の品質予測が困難であった。

Recent years have witnessed a broader range of applications of image processing technologies in multiple industrial processes, such as smoke detection, security monitoring, and workpiece inspection. Different kinds of distortion types and levels must be introduced into an image during the processes of acquisition, compression, transmission, storage, and display, which might heavily degrade the image quality and thus strongly reduce the final display effect and clarity. To verify the reliability of existing image quality assessment methods, we establish a new industrial process image database (IPID), which contains 3000 distorted images generated by applying different levels of distortion types to each of the 50 source images. We conduct the subjective test on the aforementioned 3000 images to collect their subjective quality ratings in a well-suited laboratory environment. Finally, we perform comparison experiments on IPID database to investigate the performance of some objective image quality assessment algorithms. The experimental results show that the state-of-the-art image quality assessment methods have difficulty in predicting the quality of images that contain multiple distortion types.
翻訳日:2024-01-30 11:42:29 公開日:2024-01-29
# 古典的に硬いハミルトニアンのクラスにおける基底状態を解く多項式時間量子アルゴリズム

A polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians ( http://arxiv.org/abs/2401.13946v2 )

ライセンス: Link先を確認
Zhong-Xia Shang and Zi-Han Chen and Chao-Yang Lu and Jian-Wei Pan and Ming-Cheng Chen(参考訳) 本研究では,古典的堅いハミルトニアンのクラスにおける基底状態を解く多項式時間量子アルゴリズムを提案する。 我々のアルゴリズムに現れた指数的スピードアップのメカニズムは、既存の全ての量子アルゴリズムとは異なる。 そのアイデアは、純粋な状態を表現するために密度行列を使用するために、マッピング $f:\text{ }\rho\rightarrow |\rho\rangle$を導入することである。 この写像は、$|\rho\rangle$の測定値から$|\rho\rangle$の情報を得る効率的な方法を与えることで意味を成す。 この写像の下で、リンドブラッドのマスター方程式(LME)は、自然な想像時間進化を含む非エルミート・ハミルトニアンを持つシュリンガー方程式となる。 したがって、 LME の定常状態は LME のリウヴィリア作用素の基底状態 $L^\dag L$ と $L$ に対応する。 lme のランタイムは $\mathcal{o}(log(\zeta^{-1}))$ scaling with $\zeta$ 他のアルゴリズムでの$\mathcal{o}(poly(\zeta^{-1})$ scaling と比較して初期状態と基底状態の間の重なりを示す。 ハミルトンの$L^\dag L$は、LMEのシミュレーションが難しいと信じている場合、古典的なコンピュータでは難しいことが保証される。 さらに、既知の基底エネルギー $e_0$ を持つ任意の局所ハミルトン $h$ に対して、l$ が存在して $h-e_0=l^\dag l$ となるかどうかを判定し解く多項式時間古典手順を与える。 その後,アルゴリズムに現れる非線形力学を含む,アルゴリズムのいくつかの重要な側面を論じ,解析する。

In this work, we present a polynomial-time quantum algorithm for solving the ground states of a class of classically hard Hamiltonians. The mechanism of the exponential speedup that appeared in our algorithm is different from all existing quantum algorithms. The idea is to introduce a mapping $f:\text{ }\rho\rightarrow |\rho\rangle$ to use density matrices to represent pure states. We show that this mapping makes sense by giving an efficient method to obtain the information of $|\rho\rangle$ from measurements on $\rho$. Under this mapping, the Lindblad master equation (LME) becomes a Schr\"odinger equation with non-Hermitian Hamiltonian which contains natural imaginary time evolution. The steady state of the LME, therefore, corresponds to the ground state of $L^\dag L$ with $L$ the Liouvillian operator of the LME. We show the runtime of the LME has the $\mathcal{O}(log(\zeta^{-1}))$ scaling with $\zeta$ the overlap between the initial state and the ground state compared with the $\mathcal{O}(poly(\zeta^{-1}))$ scaling in other algorithms. The Hamiltonians $L^\dag L$ are guaranteed to be difficult for classical computers if we believe the simulation of LME is difficult. Further, for any given local Hamiltonian $H$ with known ground energy $E_0$, we give a polynomial-time classical procedure to judge and solve whether there exists $L$ such that $H-E_0=L^\dag L$. Later, We discuss and analyze several important aspects of the algorithm including the non-linear dynamics that appeared in the algorithm.
翻訳日:2024-01-30 11:41:54 公開日:2024-01-29
# 重要な情報:アルゴリズム決定の影響を受ける人々の情報ニーズを探る

Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions ( http://arxiv.org/abs/2401.13324v4 )

ライセンス: Link先を確認
Timoth\'ee Schmude, Laura Koesten, Torsten M\"oller, Sebastian Tschiatschek(参考訳) AIシステムの説明は、アルゴリズム意思決定(ADM)によって影響を受ける人々の情報要求にほとんど対処しない。 影響を受ける利害関係者に重要な情報を伝達するこのギャップは、AI法のような規制フレームワークの理解と遵守を妨げる可能性がある。 このギャップに対処するため、我々は「xai novice question bank(xai novice question bank)」という2つの adm ユースケースにおける影響のあるステークホルダの情報ニーズのカタログ(雇用予測とヘルスモニタリング)を提示し、カテゴリデータ、システムコンテキスト、システム使用状況、システム仕様をカバーする。 インタヴュー調査で、参加者は質問に応じて説明を受けた。 参加者はさらに理解と決定の自信を報告し、説明を受けた後に自信が増す傾向にある一方で、参加者は理解が不完全であると感じた理由を理解できないなどの理解課題にも遭遇したことを示した。 説明は、システムのリスクとメリットに対する参加者の認識にさらに影響を与え、ユースケースに応じて確認または変更した。 リスクが高いと感じた場合、参加者は、なぜ、どのようにシステムを実行したのかといった、意図に関する説明に特に関心を示した。 本研究は,admシステムの導入を決定する際に関連する情報や課題の概要を提示することにより,影響のあるステークホルダーを説明可能性に含めることを支援することを目的とする。 私たちは、影響のあるステークホルダーの聴衆に将来の説明のデザインを知らせる6つの重要な含意のリストをまとめることで、調査結果を締めくくった。

Explanations of AI systems rarely address the information needs of people affected by algorithmic decision-making (ADM). This gap between conveyed information and information that matters to affected stakeholders can impede understanding and adherence to regulatory frameworks such as the AI Act. To address this gap, we present the "XAI Novice Question Bank": A catalog of affected stakeholders' information needs in two ADM use cases (employment prediction and health monitoring), covering the categories data, system context, system usage, and system specifications. Information needs were gathered in an interview study where participants received explanations in response to their inquiries. Participants further reported their understanding and decision confidence, showing that while confidence tended to increase after receiving explanations, participants also met understanding challenges, such as being unable to tell why their understanding felt incomplete. Explanations further influenced participants' perceptions of the systems' risks and benefits, which they confirmed or changed depending on the use case. When risks were perceived as high, participants expressed particular interest in explanations about intention, such as why and to what end a system was put in place. With this work, we aim to support the inclusion of affected stakeholders into explainability by contributing an overview of information and challenges relevant to them when deciding on the adoption of ADM systems. We close by summarizing our findings in a list of six key implications that inform the design of future explanations for affected stakeholder audiences.
翻訳日:2024-01-30 11:41:01 公開日:2024-01-29
# TurboSVM-FL: 遅延クライアントのためのSVM集約によるフェデレーション学習を促進する

TurboSVM-FL: Boosting Federated Learning through SVM Aggregation for Lazy Clients ( http://arxiv.org/abs/2401.12012v3 )

ライセンス: Link先を確認
Mengdi Wang, Anna Bodonhelyi, Efe Bozkir, Enkelejda Kasneci(参考訳) フェデレーション学習(federated learning)は、分散協調機械学習パラダイムであり、近年、強い勢いを増している。 統合学習では、中央サーバが定期的にクライアントとモデルをコーディネートし、ローカルデータへのアクセスを必要とせずにクライアントがローカルにトレーニングしたモデルを集約する。 その可能性にもかかわらず、フェデレーション学習の実装は、主にデータの多様性による収束が遅いという、いくつかの課題に遭遇し続けている。 遅い収束は、クライアントが計算能力とストレージスペースによって強く制限される可能性があるクロスデバイス・フェデレーション学習シナリオにおいて特に問題となるため、補助的な目的語やより大きなトレーニングイテレーションのようなクライアント側で追加の計算やメモリコストを誘導する対策は現実的ではない。 本稿では,クライアント側で計算負荷を発生させることなく,特にクライアントが"怠慢"である場合のフェデレーション分類タスクの収束を著しく加速し,次のグローバルアグリゲーションのためにのみモデルをトレーニングする,新しいフェデレーション集約戦略であるTurboSVM-FLを提案する。 TurboSVM-FLは、サポートベクトルマシンを広範囲に利用して、クラス埋め込み上で選択的集約と最大マージンのスプレッドアウト正規化を行う。 我々は,FEMNIST,CelebA,シェークスピアを含む複数のデータセット上でTurboSVM-FLを評価する。 以上の結果から,TurboSVM-FLはコンバージェンスレートのアルゴリズムよりも優れ,通信ラウンドの削減や精度,F1スコア,MCCといった優れたテスト指標の提供が可能であることが示唆された。

Federated learning is a distributed collaborative machine learning paradigm that has gained strong momentum in recent years. In federated learning, a central server periodically coordinates models with clients and aggregates the models trained locally by clients without necessitating access to local data. Despite its potential, the implementation of federated learning continues to encounter several challenges, predominantly the slow convergence that is largely due to data heterogeneity. The slow convergence becomes particularly problematic in cross-device federated learning scenarios where clients may be strongly limited by computing power and storage space, and hence counteracting methods that induce additional computation or memory cost on the client side such as auxiliary objective terms and larger training iterations can be impractical. In this paper, we propose a novel federated aggregation strategy, TurboSVM-FL, that poses no additional computation burden on the client side and can significantly accelerate convergence for federated classification task, especially when clients are "lazy" and train their models solely for few epochs for next global aggregation. TurboSVM-FL extensively utilizes support vector machine to conduct selective aggregation and max-margin spread-out regularization on class embeddings. We evaluate TurboSVM-FL on multiple datasets including FEMNIST, CelebA, and Shakespeare using user-independent validation with non-iid data distribution. Our results show that TurboSVM-FL can significantly outperform existing popular algorithms on convergence rate and reduce communication rounds while delivering better test metrics including accuracy, F1 score, and MCC.
翻訳日:2024-01-30 11:40:35 公開日:2024-01-29
# エッジでのアクティブラーニングのためのARQ

ARQ for Active Learning at the Edge ( http://arxiv.org/abs/2311.08053v3 )

ライセンス: Link先を確認
Victor Croisfelt, Shashi Raj Pandey, Osvaldo Simeone and Petar Popovski(参考訳) 従来の再送(arq)プロトコルは、受信機における個々の送信機のパケットの正しい受信を保証するために設計されている。 送信者が教師と通信する学習者である場合、この目標は、教師から最も関連性の高いラベル情報を抽出する学習者の実際の目的と相反する。 アクティブな学習の観点から、本稿は以下の重要なプロトコル設計問題に対処する。 (i)アクティブバッチ選択:最も有用な情報を取得し、必要な通信ラウンドの数を減らすために、どの入力を教師に送るべきか。 (ii)バッチエンコーディング:各通信ラウンドに必要な通信リソースを減らすために、データポイントのバッチを組み合わせることができるか? 具体的には,線形混合機構によりベイズアクティブラーニングと圧縮を統合した新しいプロトコルであるcc-bakd(com communication-constrained bayesian active knowledge distillation)を導入する。 既存のアクティブラーニングプロトコルとの比較は,提案手法の利点を示している。

Conventional retransmission (ARQ) protocols are designed with the goal of ensuring the correct reception of all the individual transmitter's packets at the receiver. When the transmitter is a learner communicating with a teacher, this goal is at odds with the actual aim of the learner, which is that of eliciting the most relevant label information from the teacher. Taking an active learning perspective, this paper addresses the following key protocol design questions: (i) Active batch selection: Which batch of inputs should be sent to the teacher to acquire the most useful information and thus reduce the number of required communication rounds? (ii) Batch encoding: Can batches of data points be combined to reduce the communication resources required at each communication round? Specifically, this work introduces Communication-Constrained Bayesian Active Knowledge Distillation (CC-BAKD), a novel protocol that integrates Bayesian active learning with compression via a linear mix-up mechanism. Comparisons with existing active learning protocols demonstrate the advantages of the proposed approach.
翻訳日:2024-01-30 11:40:03 公開日:2024-01-29
# シャドウベース核殻モデルのための量子部分空間アルゴリズム

Shadow-based quantum subspace algorithm for the nuclear shell model ( http://arxiv.org/abs/2306.08885v4 )

ライセンス: Link先を確認
Ruyu Yang, Tianren Wang, Bing-Nan Lu, Ying Li, and Xiaosi Xu(参考訳) 近年,様々な分野におけるノイズの多い中間規模量子(NISQ)計算の応用が研究されている。 量子計算が古典的コンピュータより優れている重要な領域の1つは、核のような多体系の基底状態問題である。 しかし、NISQ時代に量子コンピュータを使って意味のあるスケールのシステムを解くことは依然として困難である。 原子核系の基底エネルギーを計算するために,古典影と部分空間対角化技術を組み合わせた新しいアルゴリズムを提案する。 我々の部分空間は行列で構成され、部分空間の基礎は量子状態の古典的な影である。 我々はCohen-KurathシェルモデルとUSDシェルモデルによって記述された核上で,我々のアルゴリズムをテストする。 ハイゼンベルクのスケーリングにより,ショット数の増加に伴い,結果の精度が向上することが判明した。

In recent years, researchers have been exploring the applications of noisy intermediate-scale quantum (NISQ) computation in various fields. One important area in which quantum computation can outperform classical computers is the ground state problem of a many-body system, e.g., the nucleus. However, using a quantum computer in the NISQ era to solve a meaningful-scale system remains a challenge. To calculate the ground energy of nuclear systems, we propose a new algorithm that combines classical shadow and subspace diagonalization techniques. Our subspace is composed of matrices, with the basis of the subspace being the classical shadow of the quantum state. We test our algorithm on nuclei described by Cohen-Kurath shell model and USD shell model. We find that the accuracy of the results improves as the number of shots increases, following the Heisenberg scaling.
翻訳日:2024-01-30 11:39:48 公開日:2024-01-29
# リスク対策と上層確率:コヒーレンスと成層化

Risk Measures and Upper Probabilities: Coherence and Stratification ( http://arxiv.org/abs/2206.03183v4 )

ライセンス: Link先を確認
Christian Fr\"ohlich and Robert C. Williamson(参考訳) 機械学習は一般に、アグリゲーションが期待に基づいて構築されることを示す古典的な確率論を前提としている。 現在、機械学習の数学的基礎として、古典的確率論のよりリッチな代替を考える動機づけとなる複数の理由がある。 我々は、スペクトルリスク測度、コケ積分、ローレンツノルムとして知られる、強力で豊富な代替集合汎関数のクラスを体系的に検討する。 我々は、様々な特徴付け結果を示し、このスペクトルファミリをなぜ特別なものにするかを示す。 そうすることで、すべてのコヒーレントなリスク測度の自然な成層化に到達し、それらは再配置不変バナッハ空間の理論の結果を活用して誘導される。 我々は、この新たな不確実性に対するアプローチが、実践的な機械学習問題にどのように対処するかを実証的に示す。

Machine learning typically presupposes classical probability theory which implies that aggregation is built upon expectation. There are now multiple reasons to motivate looking at richer alternatives to classical probability theory as a mathematical foundation for machine learning. We systematically examine a powerful and rich class of alternative aggregation functionals, known variously as spectral risk measures, Choquet integrals or Lorentz norms. We present a range of characterization results, and demonstrate what makes this spectral family so special. In doing so we arrive at a natural stratification of all coherent risk measures in terms of the upper probabilities that they induce by exploiting results from the theory of rearrangement invariant Banach spaces. We empirically demonstrate how this new approach to uncertainty helps tackling practical machine learning problems.
翻訳日:2024-01-30 11:39:36 公開日:2024-01-29
# 直交多項式を持つ開系の非摂動力学のディジタル量子シミュレーション

Digital quantum simulation of non-perturbative dynamics of open systems with orthogonal polynomials ( http://arxiv.org/abs/2203.14653v5 )

ライセンス: Link先を確認
Jos\'e D. Guimar\~aes, Mikhail I. Vasilevskiy and Lu\'is S. Barbosa(参考訳) 量子力学の古典的非摂動論的シミュレーションは、いくつかのスケーラビリティの問題、すなわち、シミュレーションの時間の長さまたは開システムの大きさの関数としての計算労力の指数関数的スケーリングに直面している。 本研究では、時間進化密度演算子と直交多項式アルゴリズム(TEDOPA)を量子コンピュータ上で用いることを提案し、これを量子TEDOPA(Q-TEDOPA)と呼び、ボソニック環境(連続フォノン浴)に線形に結合したオープン量子系の非摂動力学をシミュレートする。 ハミルトニアンの基底を変更することにより、TEDOPAは局所的近傍相互作用のみを持つ高調波発振器の連鎖を発生させ、超伝導量子プロセッサのような量子ビット接続に制限された量子デバイスの実装に適合する。 量子デバイス上でのtedopaの実装を詳細に分析し,本研究で検討したシステムの時間発展シミュレーションにおいて,計算資源の指数関数的スケーリングを回避できることを示す。 提案手法をIBMQデバイス上の非マルコフ高調波発振器環境への中等結合強度条件下での2つの光ハーベスティング分子間の励起子輸送シミュレーションに応用した。 Q-TEDOPAの応用は、量子生物学系の力学や強い相関した凝縮物質系の力学など、異なる領域に属する摂動技術では解決できない問題にまたがる。

Classical non-perturbative simulations of open quantum systems' dynamics face several scalability problems, namely, exponential scaling of the computational effort as a function of either the time length of the simulation or the size of the open system. In this work, we propose the use of the Time Evolving Density operator with Orthogonal Polynomials Algorithm (TEDOPA) on a quantum computer, which we term as Quantum TEDOPA (Q-TEDOPA), to simulate non-perturbative dynamics of open quantum systems linearly coupled to a bosonic environment (continuous phonon bath). By performing a change of basis of the Hamiltonian, the TEDOPA yields a chain of harmonic oscillators with only local nearest-neighbour interactions, making this algorithm suitable for implementation on quantum devices with limited qubit connectivity such as superconducting quantum processors. We analyse in detail the implementation of the TEDOPA on a quantum device and show that exponential scalings of computational resources can potentially be avoided for time-evolution simulations of the systems considered in this work. We applied the proposed method to the simulation of the exciton transport between two light-harvesting molecules in the regime of moderate coupling strength to a non-Markovian harmonic oscillator environment on an IBMQ device. Applications of the Q-TEDOPA span problems which can not be solved by perturbation techniques belonging to different areas, such as the dynamics of quantum biological systems and strongly correlated condensed matter systems.
翻訳日:2024-01-30 11:38:55 公開日:2024-01-29
# 現実的な可変ハッシュテーブルの検証

Verifying a Realistic Mutable Hash Table ( http://arxiv.org/abs/2107.08824v5 )

ライセンス: Link先を確認
Samuel Chassot, Viktor Kun\v{c}ak(参考訳) 本研究では,Scala 標準ライブラリから変更可能な LongMap を検証し,単一配列内のオープンアドレスを用いたハッシュテーブルをステンレスプログラム検証器を用いて検証する。 参照実装として、タプルのリストに基づいて不変なマップを書きます。 次に、LongMapの操作がこのアソシエーションリストの操作に対応することを示す。 ハッシュテーブル配列のリサイズ化を表現するため,新しい参照スワップ構造をステンレスで導入する。 これにより、エイリアスを導入することなくデコレータパターンを適用することができます。 検証作業によって、大きなハッシュテーブルに現れるオリジナルの実装のバグを発見し、修正しました。 性能分析の結果、検証されたバージョンはオリジナルのデータ構造の1.5要素以内であることが判明した。

In this work, we verify the mutable LongMap from the Scala standard library, a hash table using open addressing within a single array, using the Stainless program verifier. As a reference implementation, we write an immutable map based on a list of tuples. We then show that LongMap's operations correspond to operations of this association list. To express the resizing of the hash table array, we introduce a new reference swapping construct in Stainless. This allows us to apply the decorator pattern without introducing aliasing. Our verification effort led us to find and fix a bug in the original implementation that manifests for large hash tables. Our performance analysis shows the verified version to be within a 1.5 factor of the original data structure.
翻訳日:2024-01-30 11:37:51 公開日:2024-01-29
# 量子型: 量子ビットと量子ゲートを越えて

Quantum types: going beyond qubits and quantum gates ( http://arxiv.org/abs/2401.15073v2 )

ライセンス: Link先を確認
Tam\'as Varga, Yaiza Aragon\'es-Soria, Manuel Oriol(参考訳) 量子コンピューティングは、大きな応用可能性を持つ成長分野である。 量子プログラムのプログラミングの仕方を学ぶことは、量子ビットの動作の理解と量子ゲートの使い方の学習を意味する。 これは論理ゲートとビットを使って古典的なアルゴリズムを作成するのに似ている。 すべての概念を学習した後でも、ほとんどの開発者が量子プログラミングを受け入れるのを妨げる新しいアルゴリズムを作成するのは難しい。 この記事では、高レベルの抽象化の必要性を概説し、Rhymeという開発者フレンドリーなプログラミング言語でそれらをいくつか提案する。 新しい量子型は、ビット、整数、フロート、文字、配列、文字列を含む古典的な型の拡張である。 このような型をコードスニペットで使う方法を示します。

Quantum computing is a growing field with significant potential applications. Learning how to code quantum programs means understanding how qubits work and learning to use quantum gates. This is analogous to creating classical algorithms using logic gates and bits. Even after learning all concepts, it is difficult to create new algorithms, which hinders the acceptance of quantum programming by most developers. This article outlines the need for higher-level abstractions and proposes some of them in a developer-friendly programming language called Rhyme. The new quantum types are extensions of classical types, including bits, integers, floats, characters, arrays, and strings. We show how to use such types with code snippets.
翻訳日:2024-01-30 11:33:02 公開日:2024-01-29
# GPT-4からGeminiとBeyondへ:4つのモダリティによるMLLMの景観の一般化性, 信頼性, 因果性を評価する

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities ( http://arxiv.org/abs/2401.15071v2 )

ライセンス: Link先を確認
Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang(参考訳) MLLM(Multi-modal Large Language Models)は,マルチモーダルコンテンツに対して合理的な応答を生成する能力を示す。 しかし、最近のMLLMベースのアプリケーションのパフォーマンスと、最も強力なOpenAIのGPT-4とGoogleのGeminiがデプロイされているにもかかわらず、一般大衆の期待との間にはまだ大きなギャップがある。 本稿では,最近のプロプライエタリでオープンソースであるmllmの汎用性,信頼性,因果的推論能力について,ie,テキスト,コード,画像,ビデオの4つのモードにまたがって定性的な研究を行い,最終的にmllmの透明性向上を目指す。 これらの特性は、様々な下流アプリケーションをサポートする上で、MLLMの信頼性を定義するいくつかの代表的な要因であると考えている。 具体的には、GPT-4 と Gemini と6つのオープンソース LLM と MLLM を評価した。 全体として230のケースを手作業で評価し,定性的な結果を12のスコア(4つのモダリティの3つの特性)にまとめる。 全体として、より信頼性の高いダウンストリームマルチモーダルアプリケーションに向けて、プロプライエタリとオープンソースの両方のmllmの機能と制限を理解するのに有用な14の実証的発見を明らかにする。

Multi-modal Large Language Models (MLLMs) have shown impressive abilities in generating reasonable responses with respect to multi-modal contents. However, there is still a wide gap between the performance of recent MLLM-based applications and the expectation of the broad public, even though the most powerful OpenAI's GPT-4 and Google's Gemini have been deployed. This paper strives to enhance understanding of the gap through the lens of a qualitative study on the generalizability, trustworthiness, and causal reasoning capabilities of recent proprietary and open-source MLLMs across four modalities: ie, text, code, image, and video, ultimately aiming to improve the transparency of MLLMs. We believe these properties are several representative factors that define the reliability of MLLMs, in supporting various downstream applications. To be specific, we evaluate the closed-source GPT-4 and Gemini and 6 open-source LLMs and MLLMs. Overall we evaluate 230 manually designed cases, where the qualitative results are then summarized into 12 scores (ie, 4 modalities times 3 properties). In total, we uncover 14 empirical findings that are useful to understand the capabilities and limitations of both proprietary and open-source MLLMs, towards more reliable downstream multi-modal applications.
翻訳日:2024-01-30 11:32:51 公開日:2024-01-29
# プロジェクトベース学習におけるAIの未来をグラフ化する:学生との共設計探索

Charting the Future of AI in Project-Based Learning: A Co-Design Exploration with Students ( http://arxiv.org/abs/2401.14915v2 )

ライセンス: Link先を確認
Chengbo Zheng, Kangyu Yuan, Bingcan Guo, Reza Hadi Mogavi, Zhenhui Peng, Shuai Ma, Xiaojuan Ma(参考訳) 学習における人工知能(AI)の利用の増加は、プロジェクトベース学習(PBL)における学習成果を評価する上で、新たな課題を提示している。 本稿では,PBL評価のための新素材として,学生のAI活用データの可能性を検討するための共同設計研究を紹介する。 我々は18人の大学生とワークショップを行い、PBLでAIを自由に活用できる代替世界について推測し、その過程を報告し、彼らのスキルと貢献を評価した。 本研究は,pblにおける学生のai活用に関する様々なシナリオと,学生の教育目標転換のビジョンを基礎とした利用分析を行った。 また、AIに対する異なる態度を持つ学生は、AIの使用の分析と理解の仕方において、異なる好みを示した。 これらの知見に基づいて,学生とAIのインタラクションとAIによる学習の理解に関する今後の研究機会について論じる。

The increasing use of Artificial Intelligence (AI) by students in learning presents new challenges for assessing their learning outcomes in project-based learning (PBL). This paper introduces a co-design study to explore the potential of students' AI usage data as a novel material for PBL assessment. We conducted workshops with 18 college students, encouraging them to speculate an alternative world where they could freely employ AI in PBL while needing to report this process to assess their skills and contributions. Our workshops yielded various scenarios of students' use of AI in PBL and ways of analyzing these uses grounded by students' vision of education goal transformation. We also found students with different attitudes toward AI exhibited distinct preferences in how to analyze and understand the use of AI. Based on these findings, we discuss future research opportunities on student-AI interactions and understanding AI-enhanced learning.
翻訳日:2024-01-30 11:32:23 公開日:2024-01-29
# 騒音のパワー:RAGシステムのための検索の再定義

The Power of Noise: Redefining Retrieval for RAG Systems ( http://arxiv.org/abs/2401.14887v2 )

ライセンス: Link先を確認
Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 検索型世代 (rag) システムは従来の大規模言語モデル (llm) を大きく上回っている。 RAGシステムは、情報検索(IR)フェーズを通じて取得した外部データを組み込んで、事前訓練された知識と限られたコンテキストウインドウに制限された標準LLMの制限を克服することで、生成能力を向上する。 この分野のほとんどの研究は、RAGシステム内のLLMの生成的側面に主に集中している。 本研究は、IR成分がRAGシステムに与える影響を徹底的かつ批判的に分析することによって、このギャップを埋めるものである。 本稿では,検索すべき文書の種類に焦点をあてて,レトリバーが有効なragのプロンプト定式化のために持つべき特性を分析する。 我々は,プロンプトに対する文書の関連性,その位置,文脈に含まれる数など,様々な要素を評価した。 以上の結果から,無関係な文書を含むことにより,品質低下の最初の仮定と矛盾する精度が30%以上向上する可能性が示唆された。 これらの結果は,検索を言語生成モデルと統合する特殊な戦略を開発する必要性を浮き彫りにして,今後の研究の基盤となる。

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.
翻訳日:2024-01-30 11:32:08 公開日:2024-01-29
# MaLLaM -- マレーシアの大規模言語モデル

MaLLaM -- Malaysia Large Language Model ( http://arxiv.org/abs/2401.14680v2 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) マレーシアのコンテキストで、スクラッチから事前トレーニングされた大規模言語モデルのギャップに対処するために、私たちは、事前トレーニングされたバイトペアエンコーディング(bpe)トークンライザに基づいた90億トークンに相当する、実質的な349gbデータセット上で、11億、30億、50億のパラメータを持つモデルを、1つのエポックでトレーニングしました。 MaLLaMはマレー語における自然言語理解と生成タスクの強化に貢献している。 900億トークンの小さなデータセットでトレーニングされているにもかかわらず、命令チューニングされたMaLLaMモデルは競合的に動作します。 ChatGPT3.5やマレーシアのMistralと比較すると、MaLLaMの指導訓練モデルは優れた習熟度を示し、マレーシア語のニュアンスを捕捉し理解するためのアプローチの有効性を裏付けている。 MaLLaMモデルは、マレーシアの文脈に根ざした包括的な言語表現を提供する、この分野への重要な貢献を示す。 この取り組みは、マレーシアに存在する言語ニュアンス特有の自然言語理解と生成タスクの強化への道を開くことを目的としている。 マレー語の文脈における大規模言語モデルの能力向上における,MaLLaMのトレーニング方法論,データセット構成,および潜在的影響について論じる。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930fでリリース

Addressing the gap in Large Language Model pretrained from scratch with Malaysian context, We trained models with 1.1 billion, 3 billion, and 5 billion parameters on a substantial 349GB dataset, equivalent to 90 billion tokens based on our pretrained Byte Pair Encoding (BPE) tokenizer for a single epoch. MaLLaM contributes to enhanced natural language understanding and generation tasks in the Malay language. Although trained on a smaller dataset of 90 billion tokens, our instruction-tuned MaLLaM models perform competitively. When compared to ChatGPT3.5 and Malaysian Mistral, MaLLaM's instruction-tuned models demonstrate notable proficiency, underscoring the effectiveness of our approach in capturing and understanding the nuances of the Malaysian language. MaLLaM models mark a significant contribution to the field, providing comprehensive language representations grounded in Malaysian context. This endeavor aims to pave the way for enhanced natural language understanding and generation tasks specific to the linguistic nuances present in Malaysia. We discuss the training methodology, dataset composition, and the potential impact of MaLLaM in advancing the capabilities of large language models within the context of the Malay language. All models released at https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f
翻訳日:2024-01-30 11:31:48 公開日:2024-01-29
# AVELA - エンジニアリングのリテラシーとアクセスのビジョン - テクノロジが不十分な理由を理解する

AVELA - A Vision for Engineering Literacy & Access: Understanding Why Technology Alone Is Not Enough ( http://arxiv.org/abs/2401.14581v2 )

ライセンス: Link先を確認
Kyle Johnson, Vicente Arroyos, Celeste Garcia, Liban Hussein, Aisha Cora, Tsewone Melaku, Jay L. Cunningham, R. Benjamin Shapiro, Vikram Iyer(参考訳) 黒とラテンのコミュニティにおける不平等な技術アクセスは、携帯電話、タブレット、コンピュータなどの消費者電子製品の発展による技術アクセス性の向上にもかかわらず、永続的な経済的、社会的正義、人権の問題である。 我々は,黒人とラテン系都市社会における社会技術的アクセスの不平等を状況的に把握し,多くの学生が支援システムの欠如により利用可能な技術への関与をためらっていることを発見した。 avela - エンジニアリングリテラシーとアクセスのためのビジョンで、文化的にレスポンシブなレッスン、メンタエンボディされたコミュニティ表現、サービス学習を活用する。 4年間に渡り,100以上の教室で2500人以上の中学生に教える200人以上の教員を指導し,そのモデルの効果を評価するために,大学匿名組織会員を対象に24回の半構造化インタビューを行った。 我々は、アクセス障壁を特定し、将来のSTEM教育プログラムを設計するための原則化された勧告を提供する。

Unequal technology access for Black and Latine communities has been a persistent economic, social justice, and human rights issue despite increased technology accessibility due to advancements in consumer electronics like phones, tablets, and computers. We contextualize socio-technical access inequalities for Black and Latine urban communities and find that many students are hesitant to engage with available technologies due to a lack of engaging support systems. We present a holistic student-led STEM engagement model through AVELA - A Vision for Engineering Literacy and Access leveraging culturally responsive lessons, mentor embodied community representation, and service learning. To evaluate the model's impact after 4 years of mentoring 200+ university student instructors in teaching to 2,500+ secondary school students in 100+ classrooms, we conducted 24 semi-structured interviews with college AnonymizedOrganization members. We identify access barriers and provide principled recommendations for designing future STEM education programs.
翻訳日:2024-01-30 11:31:24 公開日:2024-01-29
# 質量保存型パーセプトロンを用いた解釈可能な物理概念的キャッチメント・スケール水文モデルの開発

Towards Interpretable Physical-Conceptual Catchment-Scale Hydrological Modeling using the Mass-Conserving-Perceptron ( http://arxiv.org/abs/2401.14521v2 )

ライセンス: Link先を確認
Yuan-Heng Wang, Hoshin V. Gupta(参考訳) 本研究は,MCP(Mass-Conserving Perceptron)を基本計算単位とする有向グラフアーキテクチャを用いて,機械学習技術の相似・解釈可能・キャッチメントスケール水理学モデル開発への適用性について検討する。 ここでは、大きなキャッチメントのサンプルにまたがる普遍的な適用可能性(ブレッドス)ではなく、単一の場所でアーキテクチャの複雑さ(深度)に焦点を当てる。 目的は、与えられたキャッチメントの入力状態と出力の振る舞いを説明できる支配的なプロセスを表す最小の表現(細胞状態とフローパスの数)を見つけることであり、特にフローダイナミクスの全範囲(高、中、低)をシミュレートすることである。 3つの細胞状態と2つの主要なフロー経路を持つハイモッド型アーキテクチャは、このような表現を研究位置において達成するが、入力・バイパス機構の追加はハイドログラフのタイミングと形状を著しく改善し、一方双方向の地下水の物質交換はベースフローのシミュレーションを大幅に向上させる。 全体としては,複数の診断指標をモデル評価に使用することの重要性を示しつつ,フローダイナミクスの全範囲にわたる情報抽出に適したトレーニングメトリクスの設計の必要性を強調する。 さらに,様々な水文環境におけるキャッチメントの適切な最小表現を決定するために,ニューラルネットワークによる探索を用いて,地域規模のmcpに基づく水文モデリング(大規模サンプルデータを用いた)のステージを設定した。

We investigate the applicability of machine learning technologies to the development of parsimonious, interpretable, catchment-scale hydrologic models using directed-graph architectures based on the mass-conserving perceptron (MCP) as the fundamental computational unit. Here, we focus on architectural complexity (depth) at a single location, rather than universal applicability (breadth) across large samples of catchments. The goal is to discover a minimal representation (numbers of cell-states and flow paths) that represents the dominant processes that can explain the input-state-output behaviors of a given catchment, with particular emphasis given to simulating the full range (high, medium, and low) of flow dynamics. We find that a HyMod-like architecture with three cell-states and two major flow pathways achieves such a representation at our study location, but that the additional incorporation of an input-bypass mechanism significantly improves the timing and shape of the hydrograph, while the inclusion of bi-directional groundwater mass exchanges significantly enhances the simulation of baseflow. Overall, our results demonstrate the importance of using multiple diagnostic metrics for model evaluation, while highlighting the need for designing training metrics that are better suited to extracting information across the full range of flow dynamics. Further, they set the stage for interpretable regional-scale MCP-based hydrological modeling (using large sample data) by using neural architecture search to determine appropriate minimal representations for catchments in different hydroclimatic regimes.
翻訳日:2024-01-30 11:31:04 公開日:2024-01-29
# コンテキスト対応ペルソナリファインメントによる長期会話におけるコモンセンス強化メモリ構築と管理

Commonsense-augmented Memory Construction and Management in Long-term Conversations via Context-aware Persona Refinement ( http://arxiv.org/abs/2401.14215v2 )

ライセンス: Link先を確認
Hana Kim, Kai Tzu-iunn Ong, Seoyeon Kim, Dongha Lee, Jinyoung Yeo(参考訳) 話者のペルソナの記憶と活用は、長期的な会話における応答生成の一般的なプラクティスである。 しかし、人間によるデータセットは多くの場合、応答品質を阻害する非形成的なパーソナライズ文を提供する。 本稿では,コモンセンスに基づくペルソナ拡張を利用して,このような課題を長期会話で解決する新しい枠組みを提案する。 先行研究は、他と矛盾するペルソナを作らないことに焦点を当てる一方で、コンテクストの背景を設計戦略で洗練することにより、矛盾するペルソナをリッチな話者情報を含む文に変換することに重点を置いている。 マルチセッション環境におけるペルソナ拡張の先駆者として,本フレームワークは人間のようなペルソナ改良による応答生成を促進する。 私たちの研究の補足ビデオはhttps://caffeine-15bbf.web.app/で閲覧できます。

Memorizing and utilizing speakers' personas is a common practice for response generation in long-term conversations. Yet, human-authored datasets often provide uninformative persona sentences that hinder response quality. This paper presents a novel framework that leverages commonsense-based persona expansion to address such issues in long-term conversation. While prior work focuses on not producing personas that contradict others, we focus on transforming contradictory personas into sentences that contain rich speaker information, by refining them based on their contextual backgrounds with designed strategies. As the pioneer of persona expansion in multi-session settings, our framework facilitates better response generation via human-like persona refinement. The supplementary video of our work is available at https://caffeine-15bbf.web.app/.
翻訳日:2024-01-30 11:29:15 公開日:2024-01-29
# 適応重みクラスタリングとサーバ側蒸留によるコミュニケーション効率の良いフェデレーション学習

Communication-Efficient Federated Learning through Adaptive Weight Clustering and Server-Side Distillation ( http://arxiv.org/abs/2401.14211v2 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi and Nirvana Meratnia(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングを行うための有望なテクニックである。 潜在的な利点にもかかわらず、flはトレーニング中のサーバ-クライアント間通信の繰り返しによる過剰な通信コストによって妨げられている。 この課題に対処するために、スパーシフィケーションや重みクラスタリングのようなモデル圧縮技術が適用され、モデル集約スキームの変更や、モデル圧縮率の調整だけでなく、成長データに対するモデルの継続的な改善の可能性を制限するため、面倒なハイパーパラメータチューニングを必要とすることが多い。 本稿では,動的重みクラスタリングとサーバ側の知識蒸留を組み合わせた新しい手法であるFedCompressを提案する。 各種公開データセットの包括的評価を通じて,コミュニケーションコストや推論速度の観点から,ベースラインと比較して,アプローチの有効性を示す。 私たちは受け入れ次第、実装を公開します。

Federated Learning (FL) is a promising technique for the collaborative training of deep neural networks across multiple devices while preserving data privacy. Despite its potential benefits, FL is hindered by excessive communication costs due to repeated server-client communication during training. To address this challenge, model compression techniques, such as sparsification and weight clustering are applied, which often require modifying the underlying model aggregation schemes or involve cumbersome hyperparameter tuning, with the latter not only adjusts the model's compression rate but also limits model's potential for continuous improvement over growing data. In this paper, we propose FedCompress, a novel approach that combines dynamic weight clustering and server-side knowledge distillation to reduce communication costs while learning highly generalizable models. Through a comprehensive evaluation on diverse public datasets, we demonstrate the efficacy of our approach compared to baselines in terms of communication costs and inference speed. We will make our implementation public upon acceptance.
翻訳日:2024-01-30 11:29:00 公開日:2024-01-29
# bayesprompt: debiased domain abstractionによる限定的推論による大規模事前学習言語モデルの提案

BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction ( http://arxiv.org/abs/2401.14166v2 )

ライセンス: Link先を確認
Jiangmeng Li, Fei Song, Yifan Jin, Wenwen Qiang, Changwen Zheng, Fuchun Sun, Hui Xiong(参考訳) 大規模事前学習言語モデル(PLM)に基づく新規かつ効果的な微調整パラダイムとして、プロンプトチューニングは下流タスクと事前学習対象とのギャップを減らすことを目的としている。 プロンプトチューニングはさまざまなタスクにおいて継続的な進歩をもたらしたが、このようなアプローチは依然として永続的な欠陥である。 分布分析の観点から、本現象の背後にある本質的な問題は、PLMに含まれる過度な概念的知識と、ターゲット下流領域に対する橋渡しされた知識であり、その結果、PLMは、普遍的な知識埋め込み空間において、対象ドメインに対応する知識分布を誤って配置する。 この目的のために,下流タスクの目標領域を偏りなく近似し,それらの領域を抽象化して識別的プロンプトを生成し,plmに対する非曖昧なガイダンスを提供する。 このような直観に導かれ、ドメイン無関係な知識からの干渉に対してドメイン識別情報を含むプロンプトを学ぶための、単純かつ効果的なアプローチ、すなわちベイズプロンプトを提案する。 bayesprompt は既知の分布を原始的に活用し、対象領域の偏りのある事実分布を近似し、さらに近似分布から特定の代表的特徴を均一にサンプリングし、plm の究極のプロンプトを生成する。 ドメイン適応に関する理論的洞察を提供する。 提案手法は,ベンチマーク上での最先端性能を実証的に達成する。

As a novel and effective fine-tuning paradigm based on large-scale pre-trained language models (PLMs), prompt-tuning aims to reduce the gap between downstream tasks and pre-training objectives. While prompt-tuning has yielded continuous advancements in various tasks, such an approach still remains a persistent defect: prompt-tuning methods fail to generalize to specific few-shot patterns. From the perspective of distribution analyses, we disclose that the intrinsic issues behind the phenomenon are the over-multitudinous conceptual knowledge contained in PLMs and the abridged knowledge for target downstream domains, which jointly result in that PLMs mis-locate the knowledge distributions corresponding to the target domains in the universal knowledge embedding space. To this end, we intuitively explore to approximate the unabridged target domains of downstream tasks in a debiased manner, and then abstract such domains to generate discriminative prompts, thereby providing the de-ambiguous guidance for PLMs. Guided by such an intuition, we propose a simple yet effective approach, namely BayesPrompt, to learn prompts that contain the domain discriminative information against the interference from domain-irrelevant knowledge. BayesPrompt primitively leverages known distributions to approximate the debiased factual distributions of target domains and further uniformly samples certain representative features from the approximated distributions to generate the ultimate prompts for PLMs. We provide theoretical insights with the connection to domain adaptation. Empirically, our method achieves state-of-the-art performance on benchmarks.
翻訳日:2024-01-30 11:28:43 公開日:2024-01-29