このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230906となっている論文です。

PDF登録状況(公開日: 20230906)

TitleAuthorsAbstract論文公表日・翻訳日
# IoTの展望をナビゲートする - 法医学、セキュリティ問題、アプリケーション、研究課題、未来を解明する

Navigating the IoT landscape: Unraveling forensics, security issues, applications, research challenges, and future ( http://arxiv.org/abs/2309.02707v1 )

ライセンス: Link先を確認
Shams Forruque Ahmed, Shanjana Shuravi, Afsana Bhuyian, Shaila Afrin, Aanushka Mehjabin, Sweety Angela Kuldeep, Md. Sakib Bin Alam, Amir H. Gandomi, (参考訳) インターネットの急速な拡大を考えると、セキュリティ攻撃やサイバー犯罪の可能性が高まっている。 しかし、IoT(Internet of Things)デバイスに実装されていないセキュリティメカニズムは、サイバー攻撃の影響を受けやすく、ユーザに直接影響する可能性がある。 したがって、そのような攻撃の調査と緩和にはIoTの法医学が必要である。 多くの研究がIoTアプリケーションと課題を調査しているが、IoTの法医学的問題とセキュリティ上の問題の両方に重点を置いているのはごくわずかである。 そこで,本論文では,異なる分野におけるIoTに関する法医学的およびセキュリティ上の問題についてレビューする。 IoT研究と開発における今後の展望と課題も強調されている。 文献で示されているように、ほとんどのIoTデバイスは、標準化されたセキュリティ対策が欠如しているため、攻撃に対して脆弱である。 無許可のユーザは、アクセスやデータ漏洩、さらには重要なインフラストラクチャのコントロールの恩恵を受けることができる。 消費者のセキュリティを意識したニーズを満たすために、IoTは、高度にスケーラブルで適応可能なFLIPベースのシステムを設計することによって、スマートホームシステムの開発に使用することができる。 ブロックチェーンベースの認証メカニズムをマルチチェーン構造に利用することで、さまざまな信頼ドメイン間でのセキュリティ保護が強化される。 ディープラーニングは、サイバー攻撃事件を検出し、追跡するための高性能なシステムを備えたネットワーク法医学フレームワークの開発に利用することができる。 さらに、研究者は、ビッグデータを使用してIoTベースのスマートシステムを開発する際に、作成および配信されるデータ量を制限することを検討する必要がある。 このレビューの結果は、研究者が特定された問題に対する潜在的な解決策を求めることを刺激し、IoT分野を前進させる。

Given the exponential expansion of the internet, the possibilities of security attacks and cybercrimes have increased accordingly. However, poorly implemented security mechanisms in the Internet of Things (IoT) devices make them susceptible to cyberattacks, which can directly affect users. IoT forensics is thus needed for investigating and mitigating such attacks. While many works have examined IoT applications and challenges, only a few have focused on both the forensic and security issues in IoT. Therefore, this paper reviews forensic and security issues associated with IoT in different fields. Future prospects and challenges in IoT research and development are also highlighted. As demonstrated in the literature, most IoT devices are vulnerable to attacks due to a lack of standardized security measures. Unauthorized users could get access, compromise data, and even benefit from control of critical infrastructure. To fulfil the security-conscious needs of consumers, IoT can be used to develop a smart home system by designing a FLIP-based system that is highly scalable and adaptable. Utilizing a blockchain-based authentication mechanism with a multi-chain structure can provide additional security protection between different trust domains. Deep learning can be utilized to develop a network forensics framework with a high-performing system for detecting and tracking cyberattack incidents. Moreover, researchers should consider limiting the amount of data created and delivered when using big data to develop IoT-based smart systems. The findings of this review will stimulate academics to seek potential solutions for the identified issues, thereby advancing the IoT field.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# 自律・協調型スマートホームセキュリティシステム(ACSHSS)

Autonomous and Collaborative Smart Home Security System (ACSHSS) ( http://arxiv.org/abs/2309.02899v1 )

ライセンス: Link先を確認
Hassan Jalil Hadi, Khaleeq Un Nisa, Sheetal Harris, (参考訳) まず、提案されたソリューションは、建物の安全性とセキュリティのために、リモートでアクセス可能な統合IoTリソースを提供する。 Sha Ort Messaging System (SMS) を用いて、その年齢をGlobal System for Mobile (GSM) システムでユーザに送信する。 SMSアラートは、何らかのセンサが動作の異常を検出する場合、ユーザに送信される。 第2に、認証機構が展開され、認証されたユーザだけがリソースにアクセスできるようにする。 第3に、IoTリソースへのアクセスにおける悪意のあるアプローチでは、所有者からタイムリーなアラートを受け取る必要がある。 ネットワーク侵入検知システム(NIDS)は、モノのインターネットにアクセス中に不審な活動が発生した場合、リアルタイム情報を検出するために配置される。

Firstly, the proposed solution provides remotely accessible integrated IoT resources for the safety and security of the building. By using Sha ort Messaging System (SMS), the age is sent to the user by the Global System for Mobile (GSM) system. An SMS alert is sent to the user in case any sensor detects an abnormality in their operation. Secondly, an authentication mechanism is deployed to enable only authorized users to access resources. Thirdly, in case of a malicious approach in accessing IoT resources, a timely alert should be received by the owner. A Network Intrusion Detection System (NIDS) is deployed to detect and real-time information in case of any suspicious activity while accessing the Internet of Things network.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# スマートカードによる支払いはあり得ない

Provably Unlinkable Smart Card-based Payments ( http://arxiv.org/abs/2309.03128v1 )

ライセンス: Link先を確認
Sergiu Bursuc, Ross Horne, Sjouke Mauw, Semen Yurkov, (参考訳) 最も普及しているスマートカードベースの支払い方法であるEMVは、現在ユーザに対してプライバシを提供していない。 トランザクションの詳細とカード番号はクリアテキストで送信され、カード所有者のプロファイリングと追跡を可能にする。 プライバシー問題に対する公衆の認識が高まり、GDPRなどの法律が生まれつつあるため、EMVの基本的なセキュリティ保証や機能的特性を損なうことなく、匿名化や無リンク化の可能性を検討する必要があると信じている。 本稿では,このようなプロトコルの設計において,機能要件とプライバシ要件のトレードオフに留意する。 本稿では,これらの要件を満たす拡張支払プロトコルであるUTXプロトコルについて述べる。

The most prevalent smart card-based payment method, EMV, currently offers no privacy to its users. Transaction details and the card number are sent in cleartext, enabling the profiling and tracking of cardholders. Since public awareness of privacy issues is growing and legislation, such as GDPR, is emerging, we believe it is necessary to investigate the possibility of making payments anonymous and unlinkable without compromising essential security guarantees and functional properties of EMV. This paper draws attention to trade-offs between functional and privacy requirements in the design of such a protocol. We present the UTX protocol - an enhanced payment protocol satisfying such requirements, and we formally certify key security and privacy properties using techniques based on the applied pi-calculus.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# MALITE:制約デバイスに対する軽量マルウェアの検出と分類

MALITE: Lightweight Malware Detection and Classification for Constrained Devices ( http://arxiv.org/abs/2309.03294v1 )

ライセンス: Link先を確認
Sidharth Anand, Barsha Mitra, Soumyadeep Dey, Abhinav Rao, Rupsa Dhar, Jaideep Vaidya, (参考訳) 今日、マルウェアは組織にとって主要なサイバー脅威の1つだ。 マルウェアは、携帯電話、タブレット、IoT(Internet-of-Things)デバイスのような組み込みデバイスのような、メモリ、バッテリー、計算能力に制限のあるデバイスを含む、ほぼすべての種類のコンピューティングデバイスに浸透した。 その結果、マルウェアに感染したシステムやデバイスのプライバシーとセキュリティは深刻な危険にさらされている。 近年、研究者はマルウェアの検出と分類に機械学習ベースの戦略を活用している。 マルウェア分析のアプローチは、リソース制約のある環境では、メソッドが本質的に軽量である場合にのみ適用できる。 本稿では,各種マルウェア群を分類し,良性および悪意のあるバイナリを識別する軽量なマルウェア解析システムであるMALITEを提案する。 MALITEは、バイナリをグレースケールまたはRGBイメージに変換し、低メモリとバッテリ電力を消費し、計算的に安価なマルウェア分析戦略を使用する。 我々は、軽量ニューラルネットワークベースのアーキテクチャであるMALITE-MNと、スライドウィンドウから抽出したヒストグラム特徴を利用した超軽量なランダム森林ベースのMALITE-HRFを設計した。 6つの公開データセット(Malimg、Microsoft BIG、Dumpware10、MOTIF、Drebin、CICAndMal2017)の性能を評価し、4つの最新マルウェア分類手法と比較した。 その結果、MALITE-MNとMALITE-HRFは、マルウェアを正確に識別し分類するだけでなく、メモリと計算能力の両面で、より少ない数桁のリソースを消費し、リソースに制約のある環境にずっと適していることがわかった。

Today, malware is one of the primary cyberthreats to organizations. Malware has pervaded almost every type of computing device including the ones having limited memory, battery and computation power such as mobile phones, tablets and embedded devices like Internet-of-Things (IoT) devices. Consequently, the privacy and security of the malware infected systems and devices have been heavily jeopardized. In recent years, researchers have leveraged machine learning based strategies for malware detection and classification. Malware analysis approaches can only be employed in resource constrained environments if the methods are lightweight in nature. In this paper, we present MALITE, a lightweight malware analysis system, that can classify various malware families and distinguish between benign and malicious binaries. MALITE converts a binary into a gray scale or an RGB image and employs low memory and battery power consuming as well as computationally inexpensive malware analysis strategies. We have designed MALITE-MN, a lightweight neural network based architecture and MALITE-HRF, an ultra lightweight random forest based method that uses histogram features extracted by a sliding window. We evaluate the performance of both on six publicly available datasets (Malimg, Microsoft BIG, Dumpware10, MOTIF, Drebin and CICAndMal2017), and compare them to four state-of-the-art malware classification techniques. The results show that MALITE-MN and MALITE-HRF not only accurately identify and classify malware but also respectively consume several orders of magnitude lower resources (in terms of both memory as well as computation capabilities), making them much more suitable for resource constrained environments.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# ブロックチェーンを用いた請求管理の新しいアプローチ

A Novel Approach for Invoice Management using Blockchain ( http://arxiv.org/abs/2309.03303v1 )

ライセンス: Link先を確認
Nikhil Sontakke, Shivansh Rastogi, Sejal Utekar, Shriraj Sonawane, (参考訳) 電子請求(Electronic Invoicing)は、ブロックチェーン技術が使われている別の分野だ。 さらに、支払い方法を変更し、請求書を発行し、取引を検証する権限がある。 ブロックチェーンベースの請求システムを使用することで、顧客のデジタルウォレットから企業のデジタルウォレットへの円滑な支払いが可能になる。 トランザクションは追跡と監視が簡単で、ブロックチェーンを使用して取引所の全履歴を取得することができる。 店主は偽の請求書を作成し、高額の納税当局に提出することもある。 顧客、店主、納税機関間の請求システムに透明性をもたらすためには、ブロックチェーンを使った請求システムをブロックチェーンの概念を使って実装し、我が国の請求システムを円滑に機能させる必要がある。 ブロックチェーン技術は、安全で透明で改ざんしやすいシステムを提供することで、請求書発行と支払いのプロセスに革命をもたらすことができる。 ブロックチェーンベースの請求システムは、円滑な支払いを容易にし、トランザクションの追跡と監視を容易にし、すべての取引の改ざん防止履歴を提供する。 ブロックチェーンを使用することで、詐欺を防ぎ、顧客や店主、納税当局の間で透明性を高めることができる。 さらに、顧客とビジネスの両方でデジタルウォレットを使用することで、プロセスの合理化が可能になり、従来の請求方法の時間とリソースを削減できる。 全体として、ブロックチェーン技術は、請求システムにより大きな効率と信頼をもたらし、関係するすべての関係者に利益をもたらす。 不正行為を防ぎ、透明性を高め、請求と支払いのプロセスを合理化する。 この技術はより安全で効率的な請求システムを作り、最終的には関係者全員に利益をもたらす。

Electronic invoicing is another area where blockchain technology is being used. Additionally, it has the power to alter how payments are made, invoices are issued, and transactions are validated. Using a blockchain-based invoicing system will enable smooth payments from a customer's digital wallet to a business's digital wallet. Transactions are simple to track and monitor, and the blockchain may be used to retrieve an exchange's full history. Sometimes shopkeepers create fake bills and submit them to the higher tax-paying authorities. To bring transparency to this billing system between customers, shopkeepers, and tax-paying authorities billing system using blockchain is to be implemented using the concept of Blockchain and make the billing system in our country work smoothly. Blockchain technology can revolutionize the invoicing and payment process by providing a secure, transparent and tamper-proof system. A blockchain-based billing system can facilitate smooth payments, allow for easy tracking and monitoring of transactions, and provide a tamper-proof history of all exchanges. The use of blockchain can prevent fraud and increase transparency among customers, shopkeepers, and tax-paying authorities. Furthermore, it can streamline the process by using digital wallets for both customers and businesses, reducing time and resources for traditional invoicing methods. Overall, blockchain technology can bring greater efficiency and trust to the billing system, benefiting all parties involved. It can prevent fraud, increase transparency and streamline the invoicing and payment process. This technology can create a more secure and efficient billing system ultimately benefiting all parties involved.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# 5G Nb-IoTにおけるTLSの量子後暗号方式の探索:可能性と推奨

Exploring Post-Quantum Cryptographic Schemes for TLS in 5G Nb-IoT: Feasibility and Recommendations ( http://arxiv.org/abs/2309.03338v1 )

ライセンス: Link先を確認
Kadir Sabanci, Mumin Cebe, (参考訳) Narrowband Internet of Things (NB-IoT)は、スマートシティから産業自動化まで、幅広いアプリケーションを可能にする無線通信技術である。 5G拡張の一部として、NB-IoTは数十億のデバイスを低電力で低コストで接続することを約束している。 しかし、量子コンピュータの出現により、入ってくるNB-IoT時代は、これらのデバイスによって既に脅威にさらされており、大規模にセキュアなNB-IoTデバイスに適応可能な、従来の暗号アルゴリズムを破る可能性がある。 この文脈では、NB-IoTアプリケーションを保護するために、後量子鍵交換とシグネチャアルゴリズムを用いることの有効性について検討する。 我々は,NB-IoTネットワークの特徴を表現し,量子後アルゴリズムを用いてセキュアな通信を行うために,現実的なns-3環境を開発する。 以上の結果から,NIST選択後鍵交換プロトコルKyberは大きなオーバーヘッドを伴わないが,量子後シグネチャスキームは非現実的な遅延時間とスループットの低下をもたらす可能性が示唆された。

Narrowband Internet of Things (NB-IoT) is a wireless communication technology that enables a wide range of applications, from smart cities to industrial automation. As a part of the 5G extension, NB-IoT promises to connect billions of devices with low-power and low-cost requirements. However, with the advent of quantum computers, the incoming NB-IoT era is already under threat by these devices, which might break the conventional cryptographic algorithms that can be adapted to secure NB-IoT devices on large scale. In this context, we investigate the feasibility of using post-quantum key exchange and signature algorithms for securing NB-IoT applications. We develop a realistic ns-3 environment to represent the characteristics of NB-IoT networks and analyze the usage of post-quantum algorithms to secure communication. Our findings suggest that using NIST-selected post-quantum key-exchange protocol Kyber does not introduce significant overhead, but post-quantum signature schemes can result in impractical latency times and lower throughputs
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# 過激派迫害戦争に敗れた理由

This is How You Lose the Transient Execution War ( http://arxiv.org/abs/2309.03376v1 )

ライセンス: Link先を確認
Allison Randal, (参考訳) 2018年には、投機的および外部実行、フォールトインジェクション、マイクロアーキテクチャーサイドチャネルに関連する新たな脆弱性が注目された。 一時的な実行の脆弱性の背後にあるテクニックは新しいものではなく、組み合わせたテクニックはより洗練されており、セキュリティへの影響は以前考えられていたよりも深刻だった。 過渡的実行脆弱性の変種に対して、多くの軽減策が提案され、実装されている。 Meltdown型例外ベースの一時的な実行脆弱性はトラクタブルであることが証明されているが、Spectre型脆弱性や他の憶測ベースの一時的な実行脆弱性は、対策にはるかに耐性がある。 提案された緩和策は、ハードウェアベンダやソフトウェア開発者によって広く採用されているが、一般的にデプロイされている緩和策を組み合わせることで、効果的で包括的なソリューションが得られず、派生案の小さなサブセットからのみ保護される。 長年にわたり、新しく提案された緩和策は、より効果的で包括的なアプローチでパフォーマンスを向上させる傾向にあるが、しかしながら、古い緩和策は、セキュリティ上の利点が限定され、パフォーマンス上の罰が禁じられているにもかかわらず、最も人気がある。 このまま進めば、新たな変種が発見されても、既知の変種と将来の変種の両方に対して脆弱でありながら、性能上のペナルティが増大することで、多くの世代のハードウェアが不安定になるのを楽しみにすることができる。

A new class of vulnerabilities related to speculative and out-of-order execution, fault-injection, and microarchitectural side channels rose to attention in 2018. The techniques behind the transient execution vulnerabilities were not new, but the combined application of the techniques was more sophisticated, and the security impact more severe, than previously considered possible. Numerous mitigations have been proposed and implemented for variants of the transient execution vulnerabilities. While Meltdown-type exception-based transient execution vulnerabilities have proven to be tractable, Spectre-type vulnerabilities and other speculation-based transient execution vulnerabilities have been far more resistant to countermeasures. A few proposed mitigations have been widely adopted by hardware vendors and software developers, but combining those commonly deployed mitigations does not produce an effective and comprehensive solution, it only protects against a small subset of the variants. Over the years, newly proposed mitigations have been trending towards more effective and comprehensive approaches with better performance, and yet, older mitigations remain the most popular despite limited security benefits and prohibitive performance penalties. If we continue this way, we can look forward to many generations of hardware debilitated by performance penalties from increasing layers of mitigations as new variants are discovered, and yet still vulnerable to both known and future variants.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-06
# ウェブサイトのパスワード作成ポリシーを大規模に計測する

Measuring Website Password Creation Policies At Scale ( http://arxiv.org/abs/2309.03384v1 )

ライセンス: Link先を確認
Suood Alroomi, Frank Li, (参考訳) 研究者は、パスワード作成ポリシーがユーザ・コセンパスワードのセキュリティとユーザビリティにどのように影響するかを幅広く調査し、エビデンスベースのポリシーガイドラインを作成している。 しかし、Web認証が実際に改善するためには、Webサイトが実際にこれらのレコメンデーションを実装する必要がある。 これまで、パスワード生成ポリシーが実際にサイトによってデプロイされているかは、限定的に調査されてきた。 現存する研究はほとんど日付が付けられており、すべての研究は手作業による評価に頼っており、少数のサイト(少なくとも150箇所はトップサイト)を評価している。 ですから、現在使われているパスワードポリシーについて、広く理解されていないのです。 本稿では,Webサイトのパスワード生成ポリシーを推定する自動手法を開発し,それを用いて20K以上のサイトのポリシーを2桁(135倍)以上にわたって大規模に適用する。 本研究は, 導入される共通方針, 弱い政策の潜在的な原因, 実際に認証を改善するための方向性を明らかにする。 最終的に、我々の研究は、Web上でのパスワード生成ポリシーの大規模な理解を初めて提供する。

Researchers have extensively explored how password creation policies influence the security and usability of user-chosen passwords, producing evidence-based policy guidelines. However, for web authentication to improve in practice, websites must actually implement these recommendations. To date, there has been limited investigation into what password creation policies are actually deployed by sites. Existing works are mostly dated and all studies relied on manual evaluations, assessing a small set of sites (at most 150, skewed towards top sites). Thus, we lack a broad understanding of the password policies used today. In this paper, we develop an automated technique for inferring a website's password creation policy, and apply it at scale to measure the policies of over 20K sites, over two orders of magnitude (135x) more sites than prior work. Our findings identify the common policies deployed, potential causes of weak policies, and directions for improving authentication in practice. Ultimately, our study provides the first large-scale understanding of password creation policies on the web.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-06
# 大規模漂白データベースのトラバースと検索速度の最適化

Optimizing Traversing and Retrieval Speed of Large Breached Databases ( http://arxiv.org/abs/2309.12364v1 )

ライセンス: Link先を確認
Mayank Gite, (参考訳) ブリーチされたデータは、機密情報や機密情報の不正アクセス、盗難、暴露を指す。 通常、悪質なアクターや不正使用者がセキュアなシステムやネットワークに侵入すると、個人識別可能な情報(PII)、保護または個人健康情報(PHI)、支払いカード業界(PCI)情報、その他の機密データを漏洩する。 データ漏洩は、ハッキング、フィッシング、インサイダーの脅威、マルウェア、物理的盗難などの悪意ある活動の結果であることが多い。 漏洩したデータの誤用は、個人情報の盗難、詐欺、スパム、脅迫につながる可能性がある。 データ漏洩を経験する組織は、法的および財政的な影響、評判の損耗、顧客やユーザへの損害に直面する可能性がある。 漂白されたレコードは一般にダークウェブで販売されるか、様々な公共フォーラムで販売される。 これらの悪意ある活動に対処するために、漏洩したデータベースを収集し、潜在的損害を軽減することができる。 これらのデータベースは非常に大きく、最大150GB以上のサイズに達することができる。 通常、漏洩したデータはCSV(Comma Separated Value)フォーマットに格納される。 大きな漏洩したデータベースの分析とトラバースは、かなりの計算能力を必要とする。 しかし,本研究では,高価なクラウドマシンや仮想プライベートサーバ(VPS)を借りることなく,データベースのトラバース速度を最適化する手法を検討する。 この最適化により、個々のセキュリティ研究者は、パーソナルコンピュータシステム上で大規模なデータベースを分析し、処理でき、コストを大幅に削減できる。

Breached data refers to the unauthorized access, theft, or exposure of confidential or sensitive information. Breaches typically occur when malicious actors or unauthorized users breach secure systems or networks, resulting in compromised personally identifiable information (PII), protected or personal health information (PHI), payment card industry (PCI) information, or other sensitive data. Data breaches are often the result of malicious activities such as hacking, phishing, insider threats, malware, or physical theft. The misuse of breached data can lead to identity theft, fraud, spamming, or blackmailing. Organizations that experience data breaches may face legal and financial consequences, reputational damage, and harm to their customers or users. Breached records are commonly sold on the dark web or made available on various public forums. To counteract these malicious activities, it is possible to collect breached databases and mitigate potential harm. These databases can be quite large, reaching sizes of up to 150 GB or more. Typically, breached data is stored in the CSV (Comma Separated Value) format due to its simplicity and lightweight nature, which reduces storage requirements. Analyzing and traversing large breached databases necessitates substantial computational power. However, this research explores techniques to optimize database traversal speed without the need to rent expensive cloud machines or virtual private servers (VPS). This optimization will enable individual security researchers to analyze and process large databases on their personal computer systems while significantly reducing costs.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-06
# 通信ネットワークにおける大規模言語モデルにおけるバックドア攻撃の包括的概要

A Comprehensive Overview of Backdoor Attacks in Large Language Models within Communication Networks ( http://arxiv.org/abs/2308.14367v2 )

ライセンス: Link先を確認
Haomiao Yang, Kunlan Xiang, Mengyu Ge, Hongwei Li, Rongxing Lu, Shui Yu, (参考訳) LLM(Large Language Models)は、言語理解と生成における例外的な能力のため、将来のモバイル通信ネットワークに効率的でインテリジェントなサービスを提供することを目指している。 しかし、LLMのパフォーマンスに対する非常に高いデータと計算リソースの要求は、開発者はトレーニングのアウトソーシングや、サードパーティのデータとコンピューティングリソースの利用に頼らざるを得ない。 これらの戦略は、ネットワーク内のモデルを悪質に操作されたトレーニングデータと処理に公開し、攻撃者がバックドア攻撃と呼ばれるモデルに隠れたバックドアを埋め込む機会を提供する。 LLMのバックドア攻撃は、LLMに隠れたバックドアを埋め込むことで、モデルが正常に良性サンプルで実行されるが、有毒なものでは劣化した性能を示す。 この問題は、信頼性とセキュリティが最重要である通信ネットワークにおいて特に問題となる。 バックドア攻撃に関する広範な研究にもかかわらず、通信ネットワークで使用されるLLMの文脈内での詳細な調査は依然として行われておらず、そのような攻撃の体系的なレビューは今のところ行われていない。 本研究では,LLMにおけるバックドア攻撃の分類を,入力トリガー,即時トリガー,命令トリガー,実演トリガーの4つの主要なカテゴリに分類する。 さらに、ベンチマークデータセットの包括的な分析を行う。 最後に、潜在的な問題とオープンな課題を特定し、通信ネットワークにおけるLLMのセキュリティと整合性を高めるための今後の研究の方向性について貴重な洞察を提供する。

The Large Language Models (LLMs) are poised to offer efficient and intelligent services for future mobile communication networks, owing to their exceptional capabilities in language comprehension and generation. However, the extremely high data and computational resource requirements for the performance of LLMs compel developers to resort to outsourcing training or utilizing third-party data and computing resources. These strategies may expose the model within the network to maliciously manipulated training data and processing, providing an opportunity for attackers to embed a hidden backdoor into the model, termed a backdoor attack. Backdoor attack in LLMs refers to embedding a hidden backdoor in LLMs that causes the model to perform normally on benign samples but exhibit degraded performance on poisoned ones. This issue is particularly concerning within communication networks where reliability and security are paramount. Despite the extensive research on backdoor attacks, there remains a lack of in-depth exploration specifically within the context of LLMs employed in communication networks, and a systematic review of such attacks is currently absent. In this survey, we systematically propose a taxonomy of backdoor attacks in LLMs as used in communication networks, dividing them into four major categories: input-triggered, prompt-triggered, instruction-triggered, and demonstration-triggered attacks. Furthermore, we conduct a comprehensive analysis of the benchmark datasets. Finally, we identify potential problems and open challenges, offering valuable insights into future research directions for enhancing the security and integrity of LLMs in communication networks.
翻訳日:2024-03-19 07:22:30 公開日:2023-09-06
# AI for Investment - プラットフォームの破壊

AI for Investment: A Platform Disruption ( http://arxiv.org/abs/2311.06251v1 )

ライセンス: Link先を確認
Mohammad Rasouli, Ravi Chiruvolu, Ali Risheh(参考訳) 投資の状況がより競争力を持つようになるにつれ、取引のソーシングの効率化と取引の洞察の向上が、ファンドの主要な戦略となっている。 資金はすでにこの2つのタスクに多大な労力を費やしているが、従来のアプローチではスケールできない。 多くのサードパーティソフトウェアプロバイダが、生産性ソリューションでこのニーズに対処するために最近登場したが、それはファンドのパーソナライズ不足、プライバシの制約、ソフトウェアユースケースの自然な制限のために失敗する。 そのため、ほとんどの主要なファンドと小さなファンドは、自社のAIプラットフォーム、すなわち業界のためのゲームチェンジャーの開発を始めています。 これらのプラットフォームはファンドとの直接のやりとりによって賢くなり、パーソナライズされたユースケースを提供するのに使うことができる。 大規模言語モデルの最近の発展、例えばChatGPTは、他のファンドが独自のAIプラットフォームを開発する機会となった。 今やAIプラットフォームを持っていないことは競争上の不利ではないが、2年で終わるだろう。 資金は、こうしたaiプラットフォームの実用的な計画と対応するリスクアセスメントを必要とする。

With the investment landscape becoming more competitive, efficiently scaling deal sourcing and improving deal insights have become a dominant strategy for funds. While funds are already spending significant efforts on these two tasks, they cannot be scaled with traditional approaches; hence, there is a surge in automating them. Many third party software providers have emerged recently to address this need with productivity solutions, but they fail due to a lack of personalization for the fund, privacy constraints, and natural limits of software use cases. Therefore, most major funds and many smaller funds have started developing their in-house AI platforms: a game changer for the industry. These platforms grow smarter by direct interactions with the fund and can be used to provide personalized use cases. Recent developments in large language models, e.g. ChatGPT, have provided an opportunity for other funds to also develop their own AI platforms. While not having an AI platform now is not a competitive disadvantage, it will be in two years. Funds require a practical plan and corresponding risk assessments for such AI platforms.
翻訳日:2024-01-15 16:19:03 公開日:2023-09-06
# 超微細相互作用によるスピン蓄積による核スピンのスピン軌道トルク

Spin-orbit torque on nuclear spins exerted by a spin accumulation via hyperfine interactions ( http://arxiv.org/abs/2305.12390v2 )

ライセンス: Link先を確認
Adam B. Cahaya, Alejandro O. Leon and Mohammad H. Fauzi(参考訳) スピントランスファーとスピン軌道トルクは、様々な材料や装置の磁気自由度を制御することができる。 しかしながら、電子間の角モータの移動は広く研究されているが、核スピンの寄与は未だ研究されていない。 本稿では、フェルミ接触と双極子相互作用からなる超微細結合が、核スピンに作用するスピン軌道トルクの応用を仲介できることを示す。 我々の出発点は、電子スピンの蓄積を伴う金属中の大きな核スピンである。 その後、超微粒子相互作用により、核スピンは電子スピン密度を変化させる。 スピン密度の平衡成分と非平衡成分との反応は、それぞれ場状成分と減衰状成分を持つ核上のトルクである。 この核スピン軌道トルクは、核磁気モーメントを大きさと方向で安定化制御し、核スピントロニクスを実現するためのステップである。

Spin-transfer and spin-orbit torques allow controlling magnetic degrees of freedom in various materials and devices. However, while the transfer of angular momenta between electrons has been widely studied, the contribution of nuclear spins has yet to be explored further. This article demonstrates that the hyperfine coupling, which consists of Fermi contact and dipolar interactions, can mediate the application of spin-orbit torques acting on nuclear spins. Our starting point is a sizable nuclear spin in a metal with electronic spin accumulation. Then, via the hyperfine interactions, the nuclear spin modifies the an electronic spin density. The reactions to the equilibrium and nonequilibrium components of the spin density is a torque on the nucleus with field-like and damping-like components, respectively. This nuclear spin-orbit torque is a step toward stabilizing and controlling nuclear magnetic momenta, in magnitude and direction, and realizing nuclear spintronics.
翻訳日:2023-10-24 08:01:59 公開日:2023-09-06
# GitHubワークフローの自動補完に向けて

Toward Automatically Completing GitHub Workflows ( http://arxiv.org/abs/2308.16774v3 )

ライセンス: Link先を確認
Antonio Mastropaolo, Fiorella Zampetti, Gabriele Bavota, Massimiliano Di Penta(参考訳) 継続的インテグレーションとデリバリ(CI/CD)は、近年ソフトウェア開発の核心にあります。 それらのメリットは、CI/CDパイプラインのセットアップとメンテナンスに要するコストにある。 さまざまなタスクで開発者をサポートするために、いくつかの推奨システムが提案されているが、CI/CDパイプラインのセットアップとメンテナンスに関しては、ほとんど自動サポートがない。 GH-WCOM(GitHub Workflow COMpletion)は、開発者が特定のCI/CDパイプライン、すなわちGitHubワークフローを書くのをサポートするトランスフォーマーベースのアプローチである。 このようなタスクに対処するため,GH-WCOMはツールオプションやスクリプティング要素など,非常に特殊なワークフロー要素を推奨しながら,トランスフォーマーの学習を支援する抽象化プロセスを設計した。 我々の実証研究は、GH-WCOMが最大34.23%の正確な予測を提供しており、モデルの信頼性は推奨の正確性に関する信頼できるプロキシであることを示している。

Continuous integration and delivery (CI/CD) are nowadays at the core of software development. Their benefits come at the cost of setting up and maintaining the CI/CD pipeline, which requires knowledge and skills often orthogonal to those entailed in other software-related tasks. While several recommender systems have been proposed to support developers across a variety of tasks, little automated support is available when it comes to setting up and maintaining CI/CD pipelines. We present GH-WCOM (GitHub Workflow COMpletion), a Transformer-based approach supporting developers in writing a specific type of CI/CD pipelines, namely GitHub workflows. To deal with such a task, we designed an abstraction process to help the learning of the transformer while still making GH-WCOM able to recommend very peculiar workflow elements such as tool options and scripting elements. Our empirical study shows that GH-WCOM provides up to 34.23% correct predictions, and the model's confidence is a reliable proxy for the recommendations' correctness likelihood.
翻訳日:2023-10-23 11:44:10 公開日:2023-09-06
# 構成可能な飛行ソフトウェアシステムにおける変数制約の要求解析

Requirements Analysis of Variability Constraints in a Configurable Flight Software System ( http://arxiv.org/abs/2309.03392v1 )

ライセンス: Link先を確認
Chin Khor and Robyn Lutz(参考訳) 可変性制約は、構成可能なシステムの要件の不可欠な部分である。 オプションの法的組み合わせに関する要件で指定された制約は、システム・トゥ・ビーの潜在的有効構成の空間を定義する。 本稿では,複数の宇宙ミッションで使用される飛行ソフトウェアフレームワークの変動性に関する要件制約について報告する。 現在のフレームワークをオープンソースにした実践者にとっての課題は、ソフトウェア要件仕様に集中するのではなく、その可変性に関連する要件と制約の仕様が複数のドキュメントに分散していることです。 このような分散は、設計選択の副作用、開発者の努力の増加、運用中のバグの誤解に寄与します。 我々の経験に基づいて,フライトソフトウェアフレームワークにおいて,製品ラインの機能モデルに似た,新しいソフトウェア変数モデルを提案する。 我々は,このモデルを開発した構造化技術を説明し,その利用を実証し,フライトソフトウェアのキーサービスモジュール上で評価する。 その結果、軽量モデリング技術は、欠如と一貫性のない可変性に関する要件と制約を見つけるのに役立ちました。 より一般に、このような可変性モデリング技術は、開発者が仕様を一元化し、他の構成可能なシステムにおける分散可変性に関する要件と制約の分析を改善する効率的な方法であることが示唆される。

Variability constraints are an integral part of the requirements for a configurable system. The constraints specified in the requirements on the legal combinations of options define the space of potential valid configurations for the system-to-be. This paper reports on our experience with the variability-related requirements constraints of a flight software framework used by multiple space missions. A challenge that we saw for practitioners using the current framework, now open-sourced, is that the specifications of its variability-related requirements and constraints are dispersed across several documents, rather than being centralized in the software requirements specification. Such dispersion can contribute to misunderstandings of the side-effects of design choices, increased effort for developers, and bugs during operations. Based on our experience, we propose a new software variability model, similar to a product-line feature model, in the flight software framework. We describe the structured technique by which our model is developed, demonstrate its use, and evaluate it on a key service module of the flight software. Results show that our lightweight modeling technique helped find missing and inconsistent variability-related requirements and constraints. More generally, we suggest that a variability modeling technique such as this can be an efficient way for developers to centralize the specification and improve the analysis of dispersed variability-related requirements and constraints in other configurable systems.
翻訳日:2023-10-23 09:05:44 公開日:2023-09-06
# マイクロサービス依存マトリックス

The Microservice Dependency Matrix ( http://arxiv.org/abs/2309.02804v1 )

ライセンス: Link先を確認
Amr S. Abdelfattah, Tomas Cerny(参考訳) マイクロサービスは10年以上にわたって認識されてきた。 彼らはシステム設計を再構築し、特定のマイクロサービスに取り組む開発チームの分散化と独立を可能にした。 疎結合のマイクロサービスは望ましいが、依存関係が発生することは避けられない。 しかしながら、これらの依存関係は開発チームによって認識されないことが多い。 システムが進化するにつれて、1つのマイクロサービスに変更を加えると、波及効果が引き起こされ、依存マイクロサービスの調整が必要になり、メンテナンスと運用の労力が増加する。 マイクロサービス間で異なるタイプの依存関係を追跡することは、開発チームの変更の結果を予測する上で極めて重要です。 本稿では,EDM(Endpoint Dependency Matrix)とDDM(Data Dependency Matrix)を,この問題に対処するためのツールとして紹介する。 我々は,これらの依存関係を追跡するための自動アプローチを提案し,ケーススタディを通じてその抽出を実証する。

Microservices have been recognized for over a decade. They reshaped system design enabling decentralization and independence of development teams working on particular microservices. While loosely coupled microservices are desired, it is inevitable for dependencies to arise. However, these dependencies often go unnoticed by development teams. As the system evolves, making changes to one microservice may trigger a ripple effect, necessitating adjustments in dependent microservices and increasing maintenance and operational efforts. Tracking different types of dependencies across microservices becomes crucial in anticipating the consequences of development team changes. This paper introduces the Endpoint Dependency Matrix (EDM) and Data Dependency Matrix (DDM) as tools to address this challenge. We present an automated approach for tracking these dependencies and demonstrate their extraction through a case study.
翻訳日:2023-10-23 09:05:24 公開日:2023-09-06
# 悪意行動系列の単一モデルを用いたnpmおよびpypiにおける悪意パッケージ検出

Malicious Package Detection in NPM and PyPI using a Single Model of Malicious Behavior Sequence ( http://arxiv.org/abs/2309.02637v1 )

ライセンス: Link先を確認
Junan Zhang, Kaifeng Huang, Bihuan Chen, Chong Wang, Zhenhao Tian, Xin Peng(参考訳) オープンソースソフトウェア(OSS)サプライチェーンは攻撃面を拡大し、パッケージレジストリが攻撃対象を魅力的なものにする。 最近、パッケージレジストリNPMとPyPIは悪意のあるパッケージで溢れている。 既存の悪意あるNPMとPyPIパッケージ検出アプローチの有効性は、2つの課題によって妨げられている。 最初の課題は、異なるエコシステムからの悪意あるパッケージの知識を統一的に活用して、多言語で悪意のあるパッケージ検出を可能にする方法である。 第2の課題は、悪意を正しく捉えられるように、順次に悪意のある行動をモデル化する方法である。 この2つの課題に対処するため,NPMとPyPIの悪意のあるパッケージを検出するためにCerebroを提案する。 我々は,悪意のある行動のハイレベルな抽象化に基づく特徴セットをキュレートし,多言語知識の融合を可能にする。 抽出した特徴を行動シーケンスに整理し、逐次的悪意のある行動のモデル化を行う。 悪意ある振る舞いのセマンティクスを理解するためにBERTモデルを微調整する。 広範囲な評価は、Cerebroの最先端技術に対する効果と現実的に許容できる効率を実証している。 Cerebroは、PyPIとNPMで306と196の新しい悪意のあるパッケージを検出し、公式のPyPIとNPMチームから385の感謝状を受け取った。

Open-source software (OSS) supply chain enlarges the attack surface, which makes package registries attractive targets for attacks. Recently, package registries NPM and PyPI have been flooded with malicious packages. The effectiveness of existing malicious NPM and PyPI package detection approaches is hindered by two challenges. The first challenge is how to leverage the knowledge of malicious packages from different ecosystems in a unified way such that multi-lingual malicious package detection can be feasible. The second challenge is how to model malicious behavior in a sequential way such that maliciousness can be precisely captured. To address the two challenges, we propose and implement Cerebro to detect malicious packages in NPM and PyPI. We curate a feature set based on a high-level abstraction of malicious behavior to enable multi-lingual knowledge fusing. We organize extracted features into a behavior sequence to model sequential malicious behavior. We fine-tune the BERT model to understand the semantics of malicious behavior. Extensive evaluation has demonstrated the effectiveness of Cerebro over the state-of-the-art as well as the practically acceptable efficiency. Cerebro has successfully detected 306 and 196 new malicious packages in PyPI and NPM, and received 385 thank letters from the official PyPI and NPM teams.
翻訳日:2023-10-23 09:05:13 公開日:2023-09-06
# スマートコントラクトとDeFiセキュリティの実証レビュー:脆弱性検出と自動修復

Empirical Review of Smart Contract and DeFi Security: Vulnerability Detection and Automated Repair ( http://arxiv.org/abs/2309.02391v2 )

ライセンス: Link先を確認
Peng Qian, Rui Cao, Zhenguang Liu, Wenqing Li, Ming Li, Lun Zhang, Yufeng Xu, Jianhai Chen, Qinming He(参考訳) 分散ファイナンス(DeFi)はピアツーピアの金融エコシステムとして登場しており、参加者は無許可のブロックチェーンで製品を取引できる。 ブロックチェーンとスマートコントラクトをベースにしたdefiエコシステムは、近年爆発的な成長を遂げています。 残念ながら、スマートコントラクトは大量の価値を持ち、攻撃の魅力的なターゲットとなっている。 これまでのところ、スマートコントラクトやDeFiプロトコルに対する攻撃は、数十億ドルの損失をもたらし、DeFiエコシステム全体のセキュリティを脅かしている。 研究者はスマートコントラクトとdefiプロトコルのさまざまなセキュリティツールを対策として提案している。 しかし、これらの取り組みに関する包括的な調査はまだ欠落しており、スマートコントラクトとデフィの状況に対するセキュリティの姿勢を強化する方法についての我々の理解に重大なギャップを残しています。 このギャップを埋めるために、脆弱性検出と自動修復の両方の観点から、スマートコントラクトとDeFiセキュリティの分野における進歩をレビューする。 まず、DeFiスマートコントラクトのセキュリティ問題と課題を分析します。 具体的には、さまざまなDeFi攻撃事件を解明し、攻撃を6つのカテゴリにまとめる。 次に,スマートコントラクトとdefi脆弱性を検出可能な42の最先端技術に関する実証研究を行う。 特に,複雑なdefiプロトコルの解析における従来のスマートコントラクトバグ検出ツールの有効性を評価する。 さらに、スマートコントラクトとDeFiプロトコルのための既存の8つの自動修復ツールを調査し、その利点と欠点について考察する。 この作業をできる限り幅広いオーディエンスに役立てるために、私たちはまた、将来対処すべきdefiエコシステムにおけるいくつかのオープンイシューと課題を特定します。

Decentralized Finance (DeFi) is emerging as a peer-to-peer financial ecosystem, enabling participants to trade products on a permissionless blockchain. Built on blockchain and smart contracts, the DeFi ecosystem has experienced explosive growth in recent years. Unfortunately, smart contracts hold a massive amount of value, making them an attractive target for attacks. So far, attacks against smart contracts and DeFi protocols have resulted in billions of dollars in financial losses, severely threatening the security of the entire DeFi ecosystem. Researchers have proposed various security tools for smart contracts and DeFi protocols as countermeasures. However, a comprehensive investigation of these efforts is still lacking, leaving a crucial gap in our understanding of how to enhance the security posture of the smart contract and DeFi landscape. To fill the gap, this paper reviews the progress made in the field of smart contract and DeFi security from the perspective of both vulnerability detection and automated repair. First, we analyze the DeFi smart contract security issues and challenges. Specifically, we lucubrate various DeFi attack incidents and summarize the attacks into six categories. Then, we present an empirical study of 42 state-of-the-art techniques that can detect smart contract and DeFi vulnerabilities. In particular, we evaluate the effectiveness of traditional smart contract bug detection tools in analyzing complex DeFi protocols. Additionally, we investigate 8 existing automated repair tools for smart contracts and DeFi protocols, providing insight into their advantages and disadvantages. To make this work useful for as wide of an audience as possible, we also identify several open issues and challenges in the DeFi ecosystem that should be addressed in the future.
翻訳日:2023-10-23 09:03:59 公開日:2023-09-06
# Unityの強み:コードレビュー生成を改善するクロスタスク知識蒸留

Unity is Strength: Cross-Task Knowledge Distillation to Improve Code Review Generation ( http://arxiv.org/abs/2309.03362v1 )

ライセンス: Link先を確認
Oussama Ben Sghaier, Lucas Maes, Houari Sahraoui(参考訳) コードレビューはソフトウェア開発における基本的なプロセスであり、コード品質の確保とエラーやバグの可能性の低減に重要な役割を果たします。 しかし、コードレビューは複雑で、主観的で、時間がかかります。 コメント生成とコードリファインメントは、このプロセスの2つの重要なタスクであり、その自動化は伝統的に異なるアプローチで文学の中で別々に取り組まれてきた。 本稿では,これら2つのタスクを同時に処理するクロスタスク知識蒸留に基づく,新しいディープラーニングアーキテクチャであるdiscorevを提案する。 提案手法では,コメント生成モデルの微調整をコードリファインメントモデルで指導する。 フィードバックに基づく学習目標と埋め込みアライメント目標の2つの戦略を用いて,このガイダンスを実装した。 我々は,独立した学習と微調整に基づく最先端手法と比較し,クロスタスク知識蒸留に基づくアプローチを評価した。 その結果,bleuスコアで測定したレビューコメントの質が向上した。

Code review is a fundamental process in software development that plays a critical role in ensuring code quality and reducing the likelihood of errors and bugs. However, code review might be complex, subjective, and time-consuming. Comment generation and code refinement are two key tasks of this process and their automation has traditionally been addressed separately in the literature using different approaches. In this paper, we propose a novel deep-learning architecture, DISCOREV, based on cross-task knowledge distillation that addresses these two tasks simultaneously. In our approach, the fine-tuning of the comment generation model is guided by the code refinement model. We implemented this guidance using two strategies, feedback-based learning objective and embedding alignment objective. We evaluated our approach based on cross-task knowledge distillation by comparing it to the state-of-the-art methods that are based on independent training and fine-tuning. Our results show that our approach generates better review comments as measured by the BLEU score.
翻訳日:2023-10-23 08:55:20 公開日:2023-09-06
# ソースコードとLLMを用いたメソッドレベルバグ重大度予測

Method-Level Bug Severity Prediction using Source Code Metrics and LLMs ( http://arxiv.org/abs/2309.03044v1 )

ライセンス: Link先を確認
Ehsan Mashhadi, Hossein Ahmadvand, Hadi Hemmati(参考訳) 過去数十年、ソフトウェアバグの予測に多大な研究努力が注がれている。 しかし、このドメインの既存の作業の多くは、すべてのバグを同じ扱いをするが、実際にはそうではない。 欠陥予測手法では,特定されたバグの重大度を推定し,高い重大度がすぐに注目されるようにすることが重要である。 本研究では,大規模な言語モデル(LLM)を用いたソースコードメトリクス,ソースコード表現,および2つの顕著なデータセットのバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。 8つの異なる機械学習モデルをトレーニングするために、メソッドレベルの粒度で複数のソースメトリクスを利用する。 その結果、決定木とランダムフォレストモデルは、複数の評価指標について他のモデルよりも優れていることが示唆された。 次に、トレーニング済みのCodeBERT LLMを用いて、バグの重大度を予測するソースコード表現の有効性について検討する。 CodeBERTファインタニングは、ソースコードメトリクスの古典的予測モデルと比較して、いくつかの評価指標に対して29%-140%の範囲でバグの重大度予測結果を大幅に改善する。 最後に、CodeBERTモデルの有効性を高める2つのアーキテクチャを用いて、ソースコードメトリクスを追加入力としてCodeBERTに統合する。

In the past couple of decades, significant research efforts are devoted to the prediction of software bugs. However, most existing work in this domain treats all bugs the same, which is not the case in practice. It is important for a defect prediction method to estimate the severity of the identified bugs so that the higher-severity ones get immediate attention. In this study, we investigate source code metrics, source code representation using large language models (LLMs), and their combination in predicting bug severity labels of two prominent datasets. We leverage several source metrics at method-level granularity to train eight different machine-learning models. Our results suggest that Decision Tree and Random Forest models outperform other models regarding our several evaluation metrics. We then use the pre-trained CodeBERT LLM to study the source code representations' effectiveness in predicting bug severity. CodeBERT finetuning improves the bug severity prediction results significantly in the range of 29%-140% for several evaluation metrics, compared to the best classic prediction model on source code metric. Finally, we integrate source code metrics into CodeBERT as an additional input, using our two proposed architectures, which both enhance the CodeBERT model effectiveness.
翻訳日:2023-10-23 08:54:11 公開日:2023-09-06
# エクスプロイトテスト技術によるIoTシステムの早期安全分析支援

Supporting Early-Safety Analysis of IoT Systems by Exploiting Testing Techniques ( http://arxiv.org/abs/2309.02985v1 )

ライセンス: Link先を確認
Diego Clerissi, Juri Di Rocco, Davide Di Ruscio, Claudio Di Sipio, Felicien Ihirwe, Leonardo Mariani, Daniela Micucci, Maria Teresa Rossi, Riccardo Rubei(参考訳) IoT systems complexity and susceptibility to failures pose significant challenges in ensuring their reliable operation Failures can be internally generated or caused by external factors impacting both the systems correctness and its surrounding environment To investigate these complexities various modeling approaches have been proposed to raise the level of abstraction facilitating automation and analysis FailureLogic Analysis FLA is a technique that helps predict potential failure scenarios by defining how a components failure logic behaves and spreads throughout the system However manually specifying FLA rules can be arduous and errorprone leading to incomplete or inaccurate specifications In this paper we propose adopting testing methodologies to improve the completeness and correctness of these rules How failures may propagate within an IoT system can be observed by systematically injecting failures while running test cases to collect evidence useful to add complete and refine FLA rules

IoT systems complexity and susceptibility to failures pose significant challenges in ensuring their reliable operation Failures can be internally generated or caused by external factors impacting both the systems correctness and its surrounding environment To investigate these complexities various modeling approaches have been proposed to raise the level of abstraction facilitating automation and analysis FailureLogic Analysis FLA is a technique that helps predict potential failure scenarios by defining how a components failure logic behaves and spreads throughout the system However manually specifying FLA rules can be arduous and errorprone leading to incomplete or inaccurate specifications In this paper we propose adopting testing methodologies to improve the completeness and correctness of these rules How failures may propagate within an IoT system can be observed by systematically injecting failures while running test cases to collect evidence useful to add complete and refine FLA rules
翻訳日:2023-10-23 08:53:49 公開日:2023-09-06
# オンライン金融誤情報とその関連性を探る:計算的視点

Investigating Online Financial Misinformation and Its Consequences: A Computational Perspective ( http://arxiv.org/abs/2309.12363v1 )

ライセンス: Link先を確認
Aman Rangapur, Haoran Wang and Kai Shu(参考訳) デジタルプラットフォームを通じた情報の急速な普及は、特に金融の分野で、ニュースや情報へのアクセスと消費の方法に革命をもたらした。 しかし、このデジタル時代はまた、個人、市場、そして経済全体に有害な影響を及ぼすような、金融上の誤報の急増を招いている。 本研究の目的は、オンライン金融誤報のタイプ、ソース、影響などに関する総合的な調査を行うことである。 まず、金融不正情報の特徴と現れを議論し、虚偽のクレームと誤解を招くコンテンツを包含する。 経済における金融誤報の有害な結果を示す様々なケーススタディを考察する。 最後に、金融不正情報検出の潜在的影響と影響を強調する。 早期発見と緩和戦略は投資家の保護、市場の透明性の強化、金融安定の維持に役立つ。 我々は、オンライン金融誤報の問題に対処し、個人や企業を有害な影響から守るために、より深い認識、教育、規制の重要性を強調します。 結論として、オンライン金融誤報の広汎な問題とその広範にわたる結果に光を当てる。 誤った情報の種類、出所、影響を理解することで、ステークホルダーは、より情報に富み、弾力性のある金融エコシステムを育むための効果的な検出および予防対策を実施することができる。

The rapid dissemination of information through digital platforms has revolutionized the way we access and consume news and information, particularly in the realm of finance. However, this digital age has also given rise to an alarming proliferation of financial misinformation, which can have detrimental effects on individuals, markets, and the overall economy. This research paper aims to provide a comprehensive survey of online financial misinformation, including its types, sources, and impacts. We first discuss the characteristics and manifestations of financial misinformation, encompassing false claims and misleading content. We explore various case studies that illustrate the detrimental consequences of financial misinformation on the economy. Finally, we highlight the potential impact and implications of detecting financial misinformation. Early detection and mitigation strategies can help protect investors, enhance market transparency, and preserve financial stability. We emphasize the importance of greater awareness, education, and regulation to address the issue of online financial misinformation and safeguard individuals and businesses from its harmful effects. In conclusion, this research paper sheds light on the pervasive issue of online financial misinformation and its wide-ranging consequences. By understanding the types, sources, and impacts of misinformation, stakeholders can work towards implementing effective detection and prevention measures to foster a more informed and resilient financial ecosystem.
翻訳日:2023-10-01 12:47:24 公開日:2023-09-06
# 学生の成功モデル:最も重要な要因

Students Success Modeling: Most Important Factors ( http://arxiv.org/abs/2309.13052v1 )

ライセンス: Link先を確認
Sahar Voghoei, James M. Byars, Scott Jackson King, Soheil Shapouri, Hamed Yaghoobian, Khaled M. Rasheed, Hamid R. Arabnia(参考訳) 高等教育機関における保持率の重要性は、データ分析者にリスクの高い学生を予測するための様々な方法を提案するよう促している。 本研究は,同じ励ましに動機づけられ,60,822人の留学生の記録から,多種多様なカテゴリの121の特徴を学習した深層学習モデルを提案する。 このモデルは、卒業する可能性があり、別の学校に転校する可能性があり、高校を中退し、未卒業のままでいる生徒を特定することを目的としている。 本研究は,学生のカリキュラム進行の異なる段階に対する予測手法の調整を行う。 この目的のために導入された時間的側面は、モデルにLSTMの層を組み込むことによって説明される。 実験の結果,大学生とリスクの高い学生の区別は早い段階で合理的に達成可能であり,その後急速に改善するが,後者のカテゴリ(ドロップアウト vs. 転送)の解決は,時間とともに蓄積されたデータに依存することがわかった。 しかし、このモデルは3年間学校にとどまる学生の運命を著しく予測している。 モデルはまた、機関レベルと学生レベルの両方において、予測手順における最も重い特徴を示すよう割り当てられている。 大規模で多様なサンプルサイズと,100以上の抽出あるいは工学的な特徴の調査は,学生の成功に影響を与える変数,適切な精度でドロップアウトを予測すること,大学間の転校に関する調査の少ない問題に光を当てることを可能にした。 さらに、(学校レベルの予測とは対照的に)個人レベルの予測を提供し、転校結果に対処することにより、学習成果の予測におけるMLの使用を改善する。

The importance of retention rate for higher education institutions has encouraged data analysts to present various methods to predict at-risk students. The present study, motivated by the same encouragement, proposes a deep learning model trained with 121 features of diverse categories extracted or engineered out of the records of 60,822 postsecondary students. The model undertakes to identify students likely to graduate, the ones likely to transfer to a different school, and the ones likely to drop out and leave their higher education unfinished. This study undertakes to adjust its predictive methods for different stages of curricular progress of students. The temporal aspects introduced for this purpose are accounted for by incorporating layers of LSTM in the model. Our experiments demonstrate that distinguishing between to-be-graduate and at-risk students is reasonably achievable in the earliest stages, and then it rapidly improves, but the resolution within the latter category (dropout vs. transfer) depends on data accumulated over time. However, the model remarkably foresees the fate of students who stay in the school for three years. The model is also assigned to present the weightiest features in the procedure of prediction, both on institutional and student levels. A large, diverse sample size along with the investigation of more than one hundred extracted or engineered features in our study provide new insights into variables that affect students success, predict dropouts with reasonable accuracy, and shed light on the less investigated issue of transfer between colleges. More importantly, by providing individual-level predictions (as opposed to school-level predictions) and addressing the outcomes of transfers, this study improves the use of ML in the prediction of educational outcomes.
翻訳日:2023-10-01 12:36:40 公開日:2023-09-06
# イラン法・規制の文脈的トピックモデリングと内容分析

A Contextual Topic Modeling and Content Analysis of Iranian laws and Regulations ( http://arxiv.org/abs/2309.13051v1 )

ライセンス: Link先を確認
Zahra Hemmat, Mohammad Mehraeen, Rahmatolloah Fattahi(参考訳) 憲法は国家の最高法的文書であり、他の法律の制定の指針として機能する。 憲法は、国家の政治権力の政治原理、構造、階層構造、地位、限界を定義している。 市民の権利を規定し保証する。 本研究はイランの法律の話題モデリングを目標とした。 この研究の一環として、doticのウェブサイトから11760件の法律が集められた。 次に, LDA を用いた正規化のタイトルと内容についてトピック・モデリングを行った。 トピックモデリングによるデータ分析により、経済、税関、住宅および都市開発、農業、保険、法律および司法、文化、情報技術、政治、政府を含む10のトピックが特定された。 最大のトピックである経済は規制の29%を占め、最小は政治と政府であり、2%を占めている。 本研究は,2016-2023年における法律テキストの探索と正規化の傾向の同定に,トピックモデリング手法を用いる。 本研究では, 規則化は, 経済や風習に関係した法則のかなりの割合を占めることが明らかとなった。 文化のレギュラー化は2023年に増加した。 毎年制定される法律は、社会の状況や立法者の懸念を反映することができる。

A constitution is the highest legal document of a country and serves as a guide for the establishment of other laws. The constitution defines the political principles, structure, hierarchy, position, and limits of the political power of a country's government. It determines and guarantees the rights of citizens. This study aimed at topic modeling of Iranian laws. As part of this research, 11760 laws were collected from the Dotic website. Then, topic modeling was conducted on the title and content of the regularizations using LDA. Data analysis with topic modeling led to the identification of 10 topics including Economic, Customs, Housing and Urban Development, Agriculture, Insurance, Legal and judicial, Cultural, Information Technology, Political, and Government. The largest topic, Economic, accounts for 29% of regulations, while the smallest are Political and Government, accounting for 2%. This research utilizes a topic modeling method in exploring law texts and identifying trends in regularizations from 2016-2023. In this study, it was found that regularizations constitute a significant percentage of law, most of which are related to economics and customs. Cultural regularizations have increased in 2023. It can be concluded any law enacted each year can reflect society's conditions and legislators' top concerns.
翻訳日:2023-10-01 12:36:10 公開日:2023-09-06
# ハイブリッド手法による米国中等教育システムにおけるAlphabetの人種分離のデコード:データベースとテキストマイニング

Decoding the Alphabet Soup of Degrees in the United States Postsecondary Education System Through Hybrid Method: Database and Text Mining ( http://arxiv.org/abs/2309.13050v1 )

ライセンス: Link先を確認
Sahar Voghoei, James Byars, John A Miller, Khaled Rasheed, and Hamid A Arabnia(参考訳) 本稿では,国立学生クリアリングハウス(nsc)の学生追跡レポートであいまいに表現されたポスト・セカンダリー・アワードのレベル(独身者,修士など)を予測するモデルを提案する。 モデルは2つのモジュールのハイブリッドになります。 第1のモジュールは、nscレポートに埋め込まれた関連する省略要素を、米国後期教育機関が使用する学位タイトルの950近い略語から作成した包括的なデータベースを参照して解釈する。 第2のモジュールは、CNN-BiLSTMでモデル化された特徴分類とテキストマイニングの組み合わせである。 この論文で提案されたモデルは、解像度の異なる4つのマルチラベルデータセットでトレーニングされ、最も洗練されたデータセットで97.83\%の精度を返した。 このような学位レベルの詳細な分類は、学生の成功とモビリティのモデリングパターンに関する洞察を提供するだろう。 これまでこのような分類戦略は、手作業の方法と単純なテキスト解析ロジックを使う以外は試みられていない。

This paper proposes a model to predict the levels (e.g., Bachelor, Master, etc.) of postsecondary degree awards that have been ambiguously expressed in the student tracking reports of the National Student Clearinghouse (NSC). The model will be the hybrid of two modules. The first module interprets the relevant abbreviatory elements embedded in NSC reports by referring to a comprehensive database that we have made of nearly 950 abbreviations for degree titles used by American postsecondary educators. The second module is a combination of feature classification and text mining modeled with CNN-BiLSTM, which is preceded by several steps of heavy pre-processing. The model proposed in this paper was trained with four multi-label datasets of different grades of resolution and returned 97.83\% accuracy with the most sophisticated dataset. Such a thorough classification of degree levels will provide insights into the modeling patterns of student success and mobility. To date, such a classification strategy has not been attempted except using manual methods and simple text parsing logic.
翻訳日:2023-10-01 12:35:50 公開日:2023-09-06
# ai駆動パーソナライズドオフロード装置処方薬:糖尿病関連足底潰瘍および合併症予防のための最先端アプローチ

AI-Driven Personalised Offloading Device Prescriptions: A Cutting-Edge Approach to Preventing Diabetes-Related Plantar Forefoot Ulcers and Complications ( http://arxiv.org/abs/2309.13049v1 )

ライセンス: Link先を確認
Sayed Ahmed, Muhammad Ashad Kabir, Muhammad E. H. Chowdhury, Susan Nancarrow(参考訳) 糖尿病に関連する足の潰瘍と合併症は、糖尿病患者にとって重要な関心事であり、下肢切断や生活の質の低下といった深刻な健康上の影響をもたらす。 本章では、このような状況を防止するための高度なソリューションとして、ai駆動のパーソナライズドオフロードデバイス処方薬を適用することについて論じる。 人工知能の能力を活用することで、この最先端のアプローチは、各患者の特定の要件に合わせた降ろし装置の処方を可能にする。 これには、履物や足の装具などの脱装具に対する患者の好みや、患者の使用意図やライフスタイルに合った適応が含まれる。 一連の研究、実世界のデータ分析と機械学習アルゴリズムを通じて、リスクの高い領域を識別し、カスタムの正統性インソール、靴の適応、あるいは特殊な履物を含む正確なオフロード戦略を推奨する。 患者に特異的に作用する因子を含有し、圧力点に積極的に対処し、最適な足の力学を促進することにより、これらのパーソナライズされたオフロード装置は、足の潰瘍の発生およびそれに伴う合併症を最小化することができる。 この章では、足の合併症のリスクがある糖尿病患者に対して、オフロードデバイス(履物とインソール)の個人化処方薬を推奨するAIを活用した臨床決定支援システム(CDSS)を提案する。 この革新的なアプローチは、糖尿病の足のケアにおける変革的な飛躍を意味し、予防的医療介入に有望な機会を提供する。

Diabetes-related foot ulcers and complications are a significant concern for individuals with diabetes, leading to severe health implications such as lower-limb amputation and reduced quality of life. This chapter discusses applying AI-driven personalised offloading device prescriptions as an advanced solution for preventing such conditions. By harnessing the capabilities of artificial intelligence, this cutting-edge approach enables the prescription of offloading devices tailored to each patient's specific requirements. This includes the patient's preferences on offloading devices such as footwear and foot orthotics and their adaptations that suit the patient's intention of use and lifestyle. Through a series of studies, real-world data analysis and machine learning algorithms, high-risk areas can be identified, facilitating the recommendation of precise offloading strategies, including custom orthotic insoles, shoe adaptations, or specialised footwear. By including patient-specific factors to promote adherence, proactively addressing pressure points and promoting optimal foot mechanics, these personalised offloading devices have the potential to minimise the occurrence of foot ulcers and associated complications. This chapter proposes an AI-powered Clinical Decision Support System (CDSS) to recommend personalised prescriptions of offloading devices (footwear and insoles) for patients with diabetes who are at risk of foot complications. This innovative approach signifies a transformative leap in diabetic foot care, offering promising opportunities for preventive healthcare interventions.
翻訳日:2023-10-01 12:35:32 公開日:2023-09-06
# 音声言語処理における盲点への取り組み

Addressing the Blind Spots in Spoken Language Processing ( http://arxiv.org/abs/2309.06572v1 )

ライセンス: Link先を確認
Amit Moryossef(参考訳) 本稿では,言語処理(NLP)における非言語的手がかりの重要かつ過度に見過ごされる役割について考察する。 我々は、人間のコミュニケーションを理解するには、非言語的要素を含むために、テキスト的あるいは話し言葉を超えた、より包括的なアプローチが必要であると主張する。 我々は手話処理の進歩から,これらの非言語的手がかりをテキスト形式に書き起こす汎用的な自動ジェスチャーセグメンテーションと書き起こしモデルの開発を提案する。 このような手法は、音声言語理解における盲点を橋渡しし、NLPモデルのスコープと適用性を高めることを目的としている。 サンプルのモチベーションを通じて、テキストベースモデルのみに依存する限界を実証する。 従来のNLPパイプラインとシームレスに統合可能な,非言語的キューを組み込むための計算効率が高く柔軟なアプローチを提案する。 結論として, 研究コミュニティに対し, 普遍的転写法の発展に寄与すること, 実世界のマルチモーダル相互作用の複雑さを捉える上での有効性を検証するよう求めた。

This paper explores the critical but often overlooked role of non-verbal cues, including co-speech gestures and facial expressions, in human communication and their implications for Natural Language Processing (NLP). We argue that understanding human communication requires a more holistic approach that goes beyond textual or spoken words to include non-verbal elements. Borrowing from advances in sign language processing, we propose the development of universal automatic gesture segmentation and transcription models to transcribe these non-verbal cues into textual form. Such a methodology aims to bridge the blind spots in spoken language understanding, enhancing the scope and applicability of NLP models. Through motivating examples, we demonstrate the limitations of relying solely on text-based models. We propose a computationally efficient and flexible approach for incorporating non-verbal cues, which can seamlessly integrate with existing NLP pipelines. We conclude by calling upon the research community to contribute to the development of universal transcription methods and to validate their effectiveness in capturing the complexities of real-world, multi-modal interactions.
翻訳日:2023-09-17 14:02:11 公開日:2023-09-06
# ハイパーグラフ表現を用いた合成テキスト生成

Synthetic Text Generation using Hypergraph Representations ( http://arxiv.org/abs/2309.06550v1 )

ライセンス: Link先を確認
Natraj Raman and Sameena Shah(参考訳) 文書の合成変種を生成することは、しばしばテキストからテキストへの変換として表される。 本稿では,まず文書をセマンティックフレームに分解し,この中間スパース形式を用いてテキストを生成するLCMベースの代替手法を提案する。 フレームはハイパーグラフを用いてモデル化され、フレーム内容を原則的に摂動することができる。 具体的には、新しいハイパーエッジをトポロジカル解析により掘り出し、階層構造や時間的ダイナミクスを含む複雑なポリエイド関係を許容する。 我々のソリューションは、多様で一貫性があり、スタイル、感情、形式、構成、事実が異なる文書を生成する。

Generating synthetic variants of a document is often posed as text-to-text transformation. We propose an alternate LLM based method that first decomposes a document into semantic frames and then generates text using this interim sparse format. The frames are modeled using a hypergraph, which allows perturbing the frame contents in a principled manner. Specifically, new hyperedges are mined through topological analysis and complex polyadic relationships including hierarchy and temporal dynamics are accommodated. We show that our solution generates documents that are diverse, coherent and vary in style, sentiment, format, composition and facts.
翻訳日:2023-09-17 14:01:53 公開日:2023-09-06
# フレームワークに基づく大規模言語モデルの自由応答の質的分析:アルゴリズム的忠実性

Framework-Based Qualitative Analysis of Free Responses of Large Language Models: Algorithmic Fidelity ( http://arxiv.org/abs/2309.06364v1 )

ライセンス: Link先を確認
Aliya Amirova, Theodora Fteropoulli, Nafiso Ahmed, Martin R. Cowie, Joel Z. Leibo(参考訳) 現在、大規模生成言語モデル(LLM)を用いて、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する無料応答をシミュレートすることが可能である。 質的方法論は、自然言語で自由に行われるオープンなインタビューや会話の手動分析を含む幅広い技術群を含んでいる。 ここでは, LLMが生成する人工シリコン参加者を, 実人口に一般化可能な洞察を生み出すための質的手法を用いて, 生産的に研究できるかどうかを考察する。 我々の分析における重要な概念はアルゴリズムの忠実さである。Argyle et al. (2023) によって導入された用語で、LLMが生成する人間のサブ集団の信念と態度を反映する程度を捉えている。 定義上、アルゴリズムの忠実度が高いことは、LSMから派生した潜在信念が現実の人間に一般化する可能性があることを示唆している。 そこで我々はLLMを用いて、特定の人口統計学的特徴に適合するシリコン参加者へのインタビューを生成した。 フレームワークに基づく定性分析を用いて,人間とシリコンの双方から得られた重要なテーマが極めて類似していることを示した。 しかし、インタビューの構造とトーンを分析すると、さらに顕著な違いが見つかりました。 また, aher et al. (2023) が記述した過正確な歪みの証拠も見いだした。 結論として,gpt-3.5は,ヒトに一般化する研究を期待するほどアルゴリズム的忠実性が不十分であることがわかった。 しかし、llm研究の急速なペースによって、将来これが変わる可能性がある。 そこで我々は,LLMに基づく質的研究の妥当性を評価するために,現在,先天的な規範を確立する必要性を強調している。

Today, using Large-scale generative Language Models (LLMs) it is possible to simulate free responses to interview questions like those traditionally analyzed using qualitative research methods. Qualitative methodology encompasses a broad family of techniques involving manual analysis of open-ended interviews or conversations conducted freely in natural language. Here we consider whether artificial "silicon participants" generated by LLMs may be productively studied using qualitative methods aiming to produce insights that could generalize to real human populations. The key concept in our analysis is algorithmic fidelity, a term introduced by Argyle et al. (2023) capturing the degree to which LLM-generated outputs mirror human sub-populations' beliefs and attitudes. By definition, high algorithmic fidelity suggests latent beliefs elicited from LLMs may generalize to real humans, whereas low algorithmic fidelity renders such research invalid. Here we used an LLM to generate interviews with silicon participants matching specific demographic characteristics one-for-one with a set of human participants. Using framework-based qualitative analysis, we showed the key themes obtained from both human and silicon participants were strikingly similar. However, when we analyzed the structure and tone of the interviews we found even more striking differences. We also found evidence of the hyper-accuracy distortion described by Aher et al. (2023). We conclude that the LLM we tested (GPT-3.5) does not have sufficient algorithmic fidelity to expect research on it to generalize to human populations. However, the rapid pace of LLM research makes it plausible this could change in the future. Thus we stress the need to establish epistemic norms now around how to assess validity of LLM-based qualitative research, especially concerning the need to ensure representation of heterogeneous lived experiences.
翻訳日:2023-09-17 14:00:26 公開日:2023-09-06
# 可変制御バリア機能を有する非アフィン制御系の安全神経制御

Safe Neural Control for Non-Affine Control Systems with Differentiable Control Barrier Functions ( http://arxiv.org/abs/2309.04492v1 )

ライセンス: Link先を確認
Wei Xiao and Ross Allen and Daniela Rus(参考訳) 本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。 制御バリア関数(CBF)を用いることで,状態制約と制御制約による二次コストの最適化を準最適に2次プログラム(QP)のシーケンスに還元できることが示されている。 最近提案した高次CBF(HOCBF)は、任意の相対次数の制約を満たすことができる。 このアプローチの主な課題は、アフィン制御ダイナミクスが必要であり、CBFベースのQPの解は、ポイントワイズで解かれるので、準最適である。 これらの課題に対処するために,神経常微分方程式に基づく学習モデルに高次cbfを取り入れ,非親和性制御系の安全性を保証する。 識別可能なCBFはパラメータの観点から訓練可能であるため、システム状態が安全な設定境界から不必要に離れないようにCBFの保守性に対処することができる。 さらに、模倣学習モデルは、通常オンラインで引き起こされる複雑な最適制御ポリシーを学習することができる。 本稿では,LiDARに基づく自動運転における提案手法の有効性について述べる。

This paper addresses the problem of safety-critical control for non-affine control systems. It has been shown that optimizing quadratic costs subject to state and control constraints can be sub-optimally reduced to a sequence of quadratic programs (QPs) by using Control Barrier Functions (CBFs). Our recently proposed High Order CBFs (HOCBFs) can accommodate constraints of arbitrary relative degree. The main challenges in this approach are that it requires affine control dynamics and the solution of the CBF-based QP is sub-optimal since it is solved point-wise. To address these challenges, we incorporate higher-order CBFs into neural ordinary differential equation-based learning models as differentiable CBFs to guarantee safety for non-affine control systems. The differentiable CBFs are trainable in terms of their parameters, and thus, they can address the conservativeness of CBFs such that the system state will not stay unnecessarily far away from safe set boundaries. Moreover, the imitation learning model is capable of learning complex and optimal control policies that are usually intractable online. We illustrate the effectiveness of the proposed framework on LiDAR-based autonomous driving and compare it with existing methods.
翻訳日:2023-09-17 13:59:11 公開日:2023-09-06
# 動的システムとしての物語

Narrative as a Dynamical System ( http://arxiv.org/abs/2309.06600v1 )

ライセンス: Link先を確認
Isidoros Doxas (1 and 2), James Meiss (3), Steven Bottone (1), Tom Strelich (4 and 5), Andrew Plummer (5 and 6), Adrienne Breland (5 and 7), Simon Dennis (8 and 9), Kathy Garvin-Doxas (9 and 10), Michael Klymkowsky (3) ( (1) Northrop Grumman Corporation, (2) Some work performed at the University of Colorado, Boulder, (3) University of Colorado, Boulder, (4) Fusion Constructive LLC, (5) Work performed at Northop Grumman Corporation (6) Current Address JP Morgan, (7) Current address, GALT Aerospace, (8) University of Melbourne, (9) Work performed at the University of Colorado, Boulder, (10) Boulder Internet Technologies)(参考訳) 人間の活動、特に物語が物理学的な意味での力学系として扱われる証拠が増えており、その進化が作用積分によって記述され、a点からb点までの全ての可能な経路の平均は作用の極値によって与えられる。 約500の異なる物語を平均化して3つの経路を構築し,平均的な経路が行動原理と一致することを示す。

There is increasing evidence that human activity in general, and narrative in particular, can be treated as a dynamical system in the physics sense; a system whose evolution is described by an action integral, such that the average of all possible paths from point A to point B is given by the extremum of the action. We create by construction three such paths by averaging about 500 different narratives, and we show that the average path is consistent with an action principle.
翻訳日:2023-09-17 13:47:41 公開日:2023-09-06
# ETP:ECG-Textプレトレーニングによる伝達可能なECG表現の学習

ETP: Learning Transferable ECG Representations via ECG-Text Pre-training ( http://arxiv.org/abs/2309.07145v1 )

ライセンス: Link先を確認
Che Liu, Zhongwei Wan, Sibo Cheng, Mi Zhang, Rossella Arcucci(参考訳) 心臓血管医療の分野では、心電図(ECG)は重要な非侵襲的診断ツールとして機能する。 近年の自己教師型学習(SSL)の進歩はECG表現学習に有望であるが,これらの手法は注釈付きサンプルを必要とすることが多く,微調整段階には存在しないクラスとの闘いも少なくない。 これらの制約に対処するために、ECG信号とテキストレポートをリンクするクロスモーダル表現を学習するための革新的なフレームワークであるECG-Text Pre-training (ETP)を導入する。 このフレームワークはECGドメインのゼロショット分類タスクを初めて活用する。 ETPはECGエンコーダと事前訓練された言語モデルを使用して、ECG信号を対応するテキストレポートと整合させる。 PTB-XLとCPSC2018データセットで示されたように、提案フレームワークは線形評価とゼロショット分類の両方に優れており、堅牢で一般化可能なクロスモーダルECG特徴学習能力を示している。

In the domain of cardiovascular healthcare, the Electrocardiogram (ECG) serves as a critical, non-invasive diagnostic tool. Although recent strides in self-supervised learning (SSL) have been promising for ECG representation learning, these techniques often require annotated samples and struggle with classes not present in the fine-tuning stages. To address these limitations, we introduce ECG-Text Pre-training (ETP), an innovative framework designed to learn cross-modal representations that link ECG signals with textual reports. For the first time, this framework leverages the zero-shot classification task in the ECG domain. ETP employs an ECG encoder along with a pre-trained language model to align ECG signals with their corresponding textual reports. The proposed framework excels in both linear evaluation and zero-shot classification tasks, as demonstrated on the PTB-XL and CPSC2018 datasets, showcasing its ability for robust and generalizable cross-modal ECG feature learning.
翻訳日:2023-09-17 13:39:24 公開日:2023-09-06
# C-CLIP: コントラスト画像テキストエンコーダによる記述-合成ギャップのクローズ

C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap ( http://arxiv.org/abs/2309.03921v1 )

ライセンス: Link先を確認
William Theisen and Walter Scheirer(参考訳) 画像とソーシャルメディア投稿のコメントの相互作用は、全体的なメッセージを理解する上で非常に重要である。 マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。 しかし、CLIPモデルの現在のトレーニング体制は、サイトや言語に関係なく、ソーシャルメディア上のコンテンツと一致するには不十分である。 現在のCLIPトレーニングデータは、"`descriptive''テキストと呼ばれるものに基づいています。 これはソーシャルメディアではめったに見られず、ほとんどのテキストコンテンツは自然界で‘commentative’である。 キャプションは、その中に何があるのかを記述するのではなく、画像に関連する注釈とより広い文脈を提供する。 現在のCLIPモデルは、画像キャプチャペアがコメント関係を示すような検索タスクでは不十分である。 このギャップを埋めることは、ソーシャルメディアに関連するいくつかの重要なアプリケーション分野にとって有益だろう。 例えば、オープンソースのインテリジェンス・オペレーション(OSINT)に焦点を当てたグループは、発見と分析のために非技術系ユーザーに簡単にデータを公開することで、進行中のロシアによるウクライナ侵攻のような災害時の活動を支援することができる。 このギャップを埋めるために、画像テキストエンコーダを明示的に注釈付きペアで訓練すると、検索結果が大幅に改善され、その結果は様々な非英語言語にまたがる。

The interplay between the image and comment on a social media post is one of high importance for understanding its overall message. Recent strides in multimodal embedding models, namely CLIP, have provided an avenue forward in relating image and text. However the current training regime for CLIP models is insufficient for matching content found on social media, regardless of site or language. Current CLIP training data is based on what we call ``descriptive'' text: text in which an image is merely described. This is something rarely seen on social media, where the vast majority of text content is ``commentative'' in nature. The captions provide commentary and broader context related to the image, rather than describing what is in it. Current CLIP models perform poorly on retrieval tasks where image-caption pairs display a commentative relationship. Closing this gap would be beneficial for several important application areas related to social media. For instance, it would allow groups focused on Open-Source Intelligence Operations (OSINT) to further aid efforts during disaster events, such as the ongoing Russian invasion of Ukraine, by easily exposing data to non-technical users for discovery and analysis. In order to close this gap we demonstrate that training contrastive image-text encoders on explicitly commentative pairs results in large improvements in retrieval results, with the results extending across a variety of non-English languages.
翻訳日:2023-09-11 17:05:19 公開日:2023-09-06
# 薬物発見のためのタンパク質-リガンド結合親和性予測を改善するハイブリッド量子古典核融合ニューラルネットワーク

A hybrid quantum-classical fusion neural network to improve protein-ligand binding affinity predictions for drug discovery ( http://arxiv.org/abs/2309.03919v1 )

ライセンス: Link先を確認
S. Banerjee, S. He Yuxun, S. Konakanchi, L. Ogunfowora, S. Roy, S. Selvaras, L. Domingo, M. Chehimi, M. Djukic and C. Johnson(参考訳) 薬物発見の分野は、予測される薬物分子と標的タンパク質との結合親和性の正確な予測、特にそのようなタンパク質が疾患の進行に直接影響を及ぼす場合である。 しかし、結合親和性の推定には重要な金融資源と計算資源が必要である。 最先端の方法論は古典的機械学習(ML)技術を採用しているが、新しいハイブリッド量子機械学習(QML)モデルは、その固有の並列性とデータ次元の指数的な増加を管理する能力のために、パフォーマンスの向上を約束している。 これらの進歩にもかかわらず、既存のモデルは収束安定性と予測精度に関する問題に遭遇する。 本稿では,薬物発見における親和性予測に適したハイブリッド量子古典深層学習モデルを提案する。 具体的には、3次元および空間的グラフ畳み込みニューラルネットワークを最適化量子アーキテクチャに統合する。 シミュレーションの結果、既存の古典的モデルと比較して予測精度が6%向上し、従来の古典的手法に比べてはるかに安定した収束性能を示した。

The field of drug discovery hinges on the accurate prediction of binding affinity between prospective drug molecules and target proteins, especially when such proteins directly influence disease progression. However, estimating binding affinity demands significant financial and computational resources. While state-of-the-art methodologies employ classical machine learning (ML) techniques, emerging hybrid quantum machine learning (QML) models have shown promise for enhanced performance, owing to their inherent parallelism and capacity to manage exponential increases in data dimensionality. Despite these advances, existing models encounter issues related to convergence stability and prediction accuracy. This paper introduces a novel hybrid quantum-classical deep learning model tailored for binding affinity prediction in drug discovery. Specifically, the proposed model synergistically integrates 3D and spatial graph convolutional neural networks within an optimized quantum architecture. Simulation results demonstrate a 6% improvement in prediction accuracy relative to existing classical models, as well as a significantly more stable convergence performance compared to previous classical approaches.
翻訳日:2023-09-11 17:04:53 公開日:2023-09-06
# 脊髄刺激を受けた患者の慢性痛に対するレコメンデーション

A recommender for the management of chronic pain in patients undergoing spinal cord stimulation ( http://arxiv.org/abs/2309.03918v1 )

ライセンス: Link先を確認
Tigran Tchrakian, Mykhaylo Zayats, Alessandra Pascale, Dat Huynh, Pritish Parida, Carla Agurto Rios, Sergiy Zhuk, Jeffrey L. Rogers, ENVISION Studies Physician Author Group, Boston Scientific Research Scientists Consortium(参考訳) 脊髄刺激 (scs) は慢性痛の治療に用いられる治療法である。 移植された装置を介して脊髄に電気刺激を伝達し、適切な刺激パラメータが与えられると痛みの信号をマスキングしたりブロックしたりすることができる。 適切な刺激パラメータの選択は通常、提供者のケアの下でクリニックで行われるが、在宅SCS最適化は患者によって管理される。 本稿では,SCSを施行した慢性痛患者の痛み管理のためのレコメンデーションシステムを提案する。 特に,コンテクスト・マルチアーム・バンディット(cmab)アプローチを用いて,病態改善を目的とした患者に対してscs設定を推奨するシステムを開発した。 これらのリコメンデーションは、デジタルヘルスのエコシステムにもかかわらず患者に直接送信され、患者監視システムと組み合わせることで、慢性的な痛み患者を取り巻く治療ループを閉じる。 総合的結果の新しい尺度である quality of life metrics (ps) と患者状態 (ps) の組合せを用いて, scs を応用した幻想的研究対象 (clinicaltrials.gov id: nct03240588) のコホートでシステムを評価した。 scs勧告は、全被験者(n=21)の85\%において、臨床成績(painおよび/またはqol)の統計的に有意な改善をもたらした。 推奨を受ける前の中等度PS (N=7) では, 100\%は統計的に有意な改善を示し, 5/7はPSの居住時間を改善した。 この分析は、SCS患者がSCS推奨の恩恵を受ける可能性を示し、SCS療法で既に得られる利益に加えて、さらなる臨床改善をもたらすことを示唆している。

Spinal cord stimulation (SCS) is a therapeutic approach used for the management of chronic pain. It involves the delivery of electrical impulses to the spinal cord via an implanted device, which when given suitable stimulus parameters can mask or block pain signals. Selection of optimal stimulation parameters usually happens in the clinic under the care of a provider whereas at-home SCS optimization is managed by the patient. In this paper, we propose a recommender system for the management of pain in chronic pain patients undergoing SCS. In particular, we use a contextual multi-armed bandit (CMAB) approach to develop a system that recommends SCS settings to patients with the aim of improving their condition. These recommendations, sent directly to patients though a digital health ecosystem, combined with a patient monitoring system closes the therapeutic loop around a chronic pain patient over their entire patient journey. We evaluated the system in a cohort of SCS-implanted ENVISION study subjects (Clinicaltrials.gov ID: NCT03240588) using a combination of quality of life metrics and Patient States (PS), a novel measure of holistic outcomes. SCS recommendations provided statistically significant improvement in clinical outcomes (pain and/or QoL) in 85\% of all subjects (N=21). Among subjects in moderate PS (N=7) prior to receiving recommendations, 100\% showed statistically significant improvements and 5/7 had improved PS dwell time. This analysis suggests SCS patients may benefit from SCS recommendations, resulting in additional clinical improvement on top of benefits already received from SCS therapy.
翻訳日:2023-09-11 17:04:38 公開日:2023-09-06
# r2d2: 電波天文学における近時間高ダイナミックレンジイメージングのためのディープニューラルネットワークシリーズ

R2D2: Deep neural network series for near real-time high-dynamic range imaging in radio astronomy ( http://arxiv.org/abs/2309.03291v1 )

ライセンス: Link先を確認
Aghabiglou A, Chu C S, Jackson A, Dabbech A, Wiaux Y(参考訳) 天文学における電波干渉計(RI)による高分解能高ダイナミックレンジ合成イメージングのための新しいAI手法を提案する。 R2D2は"{R}esidual-to-{R}esidual {D}NN series for high-{D}ynamic range imaging"の略で、ハイブリッドディープニューラルネットワーク(DNN)とデータ一貫性更新に依存するモデルベースのデータ駆動アプローチである。 その再構成は、DNNの出力として推定される残像の連続として構築され、それぞれが前回の残像の残像を入力とする。 この手法は、モデルコンポーネントが残留汚い画像から反復的に識別され、CLEANがよく知られた例であるマッチング追従アプローチの学習版として解釈することができる。 本稿では,標準のU-Netと新しいアンロールアーキテクチャの2つの特徴を持つDNNアーキテクチャ上に構築されたR2D2モデルの2つの変種を提案する。 我々は、超大型アレイ(VLA)によるS帯の電波銀河Cygnus~Aの高感度観測における単色強度イメージングの応用を実証した。 R2D2 は CLEAN と最近の RI アルゴリズム AIRI と uSARA に対して検証され、それぞれ学習された暗黙の正則化と高度な手作りのスパーシティベース正則化をRI データに注入する。 R2D2モデルは、シリーズのごくわずかの条件で、CLEANよりもはるかに優れた高精度の画像を提供し、AIRIとuSARAの精度と一致する。 計算効率の面では、r2d2はairiとusaraのコストのごく一部で動作し、クリーンよりも高速で、riのリアルタイム精密イメージングへのドアを開く。

We present a novel AI approach for high-resolution high-dynamic range synthesis imaging by radio interferometry (RI) in astronomy. R2D2, standing for "{R}esidual-to-{R}esidual {D}NN series for high-{D}ynamic range imaging", is a model-based data-driven approach relying on hybrid deep neural networks (DNNs) and data-consistency updates. Its reconstruction is built as a series of residual images estimated as the outputs of DNNs, each taking the residual dirty image of the previous iteration as an input. The approach can be interpreted as a learned version of a matching pursuit approach, whereby model components are iteratively identified from residual dirty images, and of which CLEAN is a well-known example. We propose two variants of the R2D2 model, built upon two distinctive DNN architectures: a standard U-Net, and a novel unrolled architecture. We demonstrate their use for monochromatic intensity imaging on highly-sensitive observations of the radio galaxy Cygnus~A at S band, from the Very Large Array (VLA). R2D2 is validated against CLEAN and the recent RI algorithms AIRI and uSARA, which respectively inject a learned implicit regularization and an advanced handcrafted sparsity-based regularization into the RI data. With only few terms in its series, the R2D2 model is able to deliver high-precision imaging, significantly superior to CLEAN and matching the precision of AIRI and uSARA. In terms of computational efficiency, R2D2 runs at a fraction of the cost of AIRI and uSARA, and is also faster than CLEAN, opening the door to real-time precision imaging in RI.
翻訳日:2023-09-11 17:03:39 公開日:2023-09-06
# 電磁誘導透過による温アルカリ蒸気中の緩やかな光の生成

Producing slow light in warm alkali vapor using electromagnetically induced transparency ( http://arxiv.org/abs/2011.09229v3 )

ライセンス: Link先を確認
Kenneth DeRose, Kefeng Jiang, Jianqiao Li, Macbeth Julius, Linzhao Zhuo, Scott Wenner, and S. Bali(参考訳) 我々は,400m/s未満の速度で高温のルビジウム蒸気を伝播する光パルスを,cより100万倍近い速度で生成する方法について,学生に親しみやすい指導を行った。 我々は、低速光パルス発生における電磁誘導透過(EIT)の役割を解明し、必要な実験条件を達成する方法について論じる。 光セットアップを行い、必要な大きさ、周波数、強度、時間幅、偏光純度のポンプ、プローブ、および基準パルスの作成のための詳細を提供する。 EITベースのスロー光パルスは、量子メモリを作成するための最も広く研究されているアーキテクチャを提供する。 したがって、ここで提示される基本的な概念は、最先端の量子技術の開発に携わる物理学や工学の専攻者にとって有用である。

We present undergraduate-friendly instructions on how to produce light pulses propagating through warm Rubidium vapor with speeds less than 400 m/s, i.e., nearly a million times slower than c. We elucidate the role played by electromagnetically induced transparency (EIT) in producing slow light pulses, and discuss how to achieve the required experimental conditions. The optical set up is presented, and details provided for preparation of pump, probe, and reference pulses of the required size, frequency, intensity, temporal width, and polarization purity. EIT-based slow light pulses provide the most widely studied architecture for creating quantum memories. Therefore, the basic concepts presented here are useful for physics and engineering majors who wish to get involved in the development of cutting-edge quantum technologies.
翻訳日:2023-09-08 18:36:23 公開日:2023-09-06
# 補間を支援する学習表現

Learning Representations that Support Extrapolation ( http://arxiv.org/abs/2007.05059v3 )

ライセンス: Link先を確認
Taylor W. Webb, Zachary Dulberg, Steven M. Frankland, Alexander A. Petrov, Randall C. O'Reilly, Jonathan D. Cohen(参考訳) 外挿(外挿) -- 経験の範囲を超えた推論を行う能力 - は、人間の知能の要点である。 対照的に、現代のニューラルネットワークアルゴリズムが示す一般化は、トレーニングコーパスのデータポイント間の補間に限られている。 本稿では,外挿を支援する表現学習の課題について考察する。 トレーニングデータによって定義された凸領域からの距離の関数として外挿の段階的評価を可能にする新しい視覚類似ベンチマークを導入する。 また、オブジェクト間の関係を強調する表現を促進するシンプルな手法である時間的文脈正規化を導入する。 この手法によって外挿能力が大幅に向上し、多くの競合技術を大きく上回ることが分かりました。

Extrapolation -- the ability to make inferences that go beyond the scope of one's experiences -- is a hallmark of human intelligence. By contrast, the generalization exhibited by contemporary neural network algorithms is largely limited to interpolation between data points in their training corpora. In this paper, we consider the challenge of learning representations that support extrapolation. We introduce a novel visual analogy benchmark that allows the graded evaluation of extrapolation as a function of distance from the convex domain defined by the training data. We also introduce a simple technique, temporal context normalization, that encourages representations that emphasize the relations between objects. We find that this technique enables a significant improvement in the ability to extrapolate, considerably outperforming a number of competitive techniques.
翻訳日:2023-09-08 18:35:53 公開日:2023-09-06
# カーネル化概念消去

Kernelized Concept Erasure ( http://arxiv.org/abs/2201.12191v4 )

ライセンス: Link先を確認
Shauli Ravfogel and Francisco Vargas and Yoav Goldberg and Ryan Cotterell(参考訳) テキストデータに対するニューラルモデルの表現空間は、トレーニング中に教師なしの方法で現れる。 これらの表現が人間の解釈可能な概念をどのようにエンコードするかを理解することは根本的な問題である。 神経表現における概念の同定のための顕著なアプローチの1つは、表現から概念の予測を妨げる線形部分空間の探索である。 しかし、多くの線形消去アルゴリズムは扱いやすく解釈可能であるが、ニューラルネットワークは必ずしも概念を線形に表現するわけではない。 非線形符号化された概念を識別するために,概念消去のための線形ミニマックスゲームのカーネル化を提案する。 我々は,特定の非線形敵が概念を予測できないことを実証する。 しかし、保護は異なる非線形敵に伝達されない。 したがって、非線型符号化の概念を徹底的に消去することは未解決の問題である。

The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
翻訳日:2023-09-08 18:28:18 公開日:2023-09-06
# 逐次予測器の比較

Comparing Sequential Forecasters ( http://arxiv.org/abs/2110.00115v5 )

ライセンス: Link先を確認
Yo Joong Choe and Aaditya Ramdas(参考訳) 2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。 比較的基本的な質問は、オンラインやポストホックの予測と、予測と結果の生成方法に関する検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか、ということだ。 本稿では,予測スコアの時間差を推定する新しい逐次推論手順を設計することによって,この問題に対する厳密な回答を示す。 これを実現するために,信頼区間の連続的監視が可能な信頼区間列である信頼シーケンス(cs)を採用し,任意のデータ依存停止時間("anytime-valid")で有効である。 CSの幅は、スコア差の基本的なばらつきに適応する。 彼らの構築はゲーム理論の統計フレームワークであり、弱いヌル仮説を逐次テストするためのe-プロセスとp-プロセスを更に特定する。 我々の主な定理は任意の有界点に適用され、後に無界点に対する別の方法を提供する。 実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。

Consider two forecasters, each making a single prediction for a sequence of events over time. We ask a relatively basic question: how might we compare these forecasters, either online or post-hoc, while avoiding unverifiable assumptions on how the forecasts and outcomes were generated? In this paper, we present a rigorous answer to this question by designing novel sequential inference procedures for estimating the time-varying difference in forecast scores. To do this, we employ confidence sequences (CS), which are sequences of confidence intervals that can be continuously monitored and are valid at arbitrary data-dependent stopping times ("anytime-valid"). The widths of our CSs are adaptive to the underlying variance of the score differences. Underlying their construction is a game-theoretic statistical framework, in which we further identify e-processes and p-processes for sequentially testing a weak null hypothesis -- whether one forecaster outperforms another on average (rather than always). Our methods do not make distributional assumptions on the forecasts or outcomes; our main theorems apply to any bounded scores, and we later provide alternative methods for unbounded scores. We empirically validate our approaches by comparing real-world baseball and weather forecasters.
翻訳日:2023-09-08 18:27:03 公開日:2023-09-06
# BoXHED2.0:動的生存分析のスケーラビリティ向上

BoXHED2.0: Scalable boosting of dynamic survival analysis ( http://arxiv.org/abs/2103.12591v5 )

ライセンス: Link先を確認
Arash Pakbin, Xiaochen Wang, Bobak J. Mortazavi, Donald K.K. Lee(参考訳) 現代における生存分析の応用は、時間に依存した共変量を含んでいる。 PythonパッケージのBoXHED2.0は完全に非パラメトリックで、繰り返しイベントや競合するリスクを含む、リバイバル設定よりもはるかに一般的なものだ。 BoXHED2.0は、コアがC++で記述されており、GPUやマルチコアCPUの使用もサポートしているため、パラメトリックブースターサバイバルモデルと同等の速度にスケーラブルである。 BoXHED2.0はPyPIやwww.github.com/BoXHEDからも入手できる。

Modern applications of survival analysis increasingly involve time-dependent covariates. The Python package BoXHED2.0 is a tree-boosted hazard estimator that is fully nonparametric, and is applicable to survival settings far more general than right-censoring, including recurring events and competing risks. BoXHED2.0 is also scalable to the point of being on the same order of speed as parametric boosted survival models, in part because its core is written in C++ and it also supports the use of GPUs and multicore CPUs. BoXHED2.0 is available from PyPI and also from www.github.com/BoXHED.
翻訳日:2023-09-08 18:25:31 公開日:2023-09-06
# 報酬関数学習のための人間の嗜好モデル

Models of human preference for learning reward functions ( http://arxiv.org/abs/2206.02231v3 )

ライセンス: Link先を確認
W. Bradley Knox, Stephane Hatgis-Kessell, Serena Booth, Scott Niekum, Peter Stone, Alessandro Allievi(参考訳) 強化学習の有用性は、報酬機能の調整と人間の利害関係者の利益によって制限される。 アライメントの有望な方法の1つは、人間のフィードバック(rlhf)からの強化学習の一種である軌道セグメントのペア間の人間の生成した好みから報酬機能を学ぶことである。 これらの人間の好みは、通常、各セグメントの報酬の合計である部分的なリターンによってのみ通知される。 この仮定は欠陥があり、各セグメントの後悔、つまり最適な意思決定からセグメントの逸脱を判断する尺度によってではなく、人間の好みをモデル化することを提案している。 後悔によって生じる無限個の選好が与えられた場合、これらの選好を生成する報奨関数と等価な報奨関数を同定できることを証明し、その先行部分回帰モデルが複数の文脈においてこの識別可能性特性を欠いていることを証明した。 提案した後悔選好モデルが,トレーニングデータに制限のある部分回帰選好モデルよりも優れていることを実証的に示す。 さらに,提案する後悔選好モデルは,実際の人間選好を予測し,その選好から報奨機能を学習し,より人間に合った政策へと導くことを見出した。 概して、この研究は、選好モデルの選択が影響があることを証明し、提案した後悔選好モデルは、最近の研究の中核的な仮定を改善する。 我々は、実験コード、収集した人間の嗜好データセット、そしてそのようなデータセットを集めるためのトレーニングと嗜好誘発インターフェースをオープンソース化しました。

The utility of reinforcement learning is limited by the alignment of reward functions with the interests of human stakeholders. One promising method for alignment is to learn the reward function from human-generated preferences between pairs of trajectory segments, a type of reinforcement learning from human feedback (RLHF). These human preferences are typically assumed to be informed solely by partial return, the sum of rewards along each segment. We find this assumption to be flawed and propose modeling human preferences instead as informed by each segment's regret, a measure of a segment's deviation from optimal decision-making. Given infinitely many preferences generated according to regret, we prove that we can identify a reward function equivalent to the reward function that generated those preferences, and we prove that the previous partial return model lacks this identifiability property in multiple contexts. We empirically show that our proposed regret preference model outperforms the partial return preference model with finite training data in otherwise the same setting. Additionally, we find that our proposed regret preference model better predicts real human preferences and also learns reward functions from these preferences that lead to policies that are better human-aligned. Overall, this work establishes that the choice of preference model is impactful, and our proposed regret preference model provides an improvement upon a core assumption of recent research. We have open sourced our experimental code, the human preferences dataset we gathered, and our training and preference elicitation interfaces for gathering a such a dataset.
翻訳日:2023-09-08 18:19:22 公開日:2023-09-06
# 逆境戦略の空間

The Space of Adversarial Strategies ( http://arxiv.org/abs/2209.04521v2 )

ライセンス: Link先を確認
Ryan Sheatsley, Blaine Hoak, Eric Pauley, Patrick McDaniel(参考訳) 機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。 しかし、この現象に対する我々の理解は、かなり断片化された知識のプールに由来する。現在、脅威モデルにおける異なる仮定と、比較不能な最適性の定義を持つ、いくつかの攻撃がある。 本稿では,最悪の(即ち最適)敵を特徴付けるための体系的アプローチを提案する。 まず,攻撃成分を表面や旅行者に微粒化することで,敵対的機械学習における攻撃の拡張的分解を導入する。 分解することで、コンポーネントを列挙して576のアタックを生成します(そのうち568は以前未調査でした)。 次に,アッパーバウンド攻撃性能を示す理論攻撃であるPareto Ensemble Attack (PEA)を提案する。 新しい攻撃では、ロバストモデルと非ロバストモデルと7つのデータセット、計算コストを組み込んだ3つの拡張lpベースの脅威モデルの両方で、PEAに対するパフォーマンスを測定する。 ドメイン、モデル堅牢性、脅威モデルは、攻撃の有効性に大きな影響を及ぼす可能性がある。 機械学習の安全性を計測する将来の研究は、(1)ドメインモデルと脅威モデルに文脈化され、(2)今日使われているいくつかの既知の攻撃を越えていくべきである。

Adversarial examples, inputs designed to induce worst-case behavior in machine learning models, have been extensively studied over the past decade. Yet, our understanding of this phenomenon stems from a rather fragmented pool of knowledge; at present, there are a handful of attacks, each with disparate assumptions in threat models and incomparable definitions of optimality. In this paper, we propose a systematic approach to characterize worst-case (i.e., optimal) adversaries. We first introduce an extensible decomposition of attacks in adversarial machine learning by atomizing attack components into surfaces and travelers. With our decomposition, we enumerate over components to create 576 attacks (568 of which were previously unexplored). Next, we propose the Pareto Ensemble Attack (PEA): a theoretical attack that upper-bounds attack performance. With our new attacks, we measure performance relative to the PEA on: both robust and non-robust models, seven datasets, and three extended lp-based threat models incorporating compute costs, formalizing the Space of Adversarial Strategies. From our evaluation we find that attack performance to be highly contextual: the domain, model robustness, and threat model can have a profound influence on attack efficacy. Our investigation suggests that future studies measuring the security of machine learning should: (1) be contextualized to the domain & threat models, and (2) go beyond the handful of known attacks used today.
翻訳日:2023-09-08 18:06:52 公開日:2023-09-06
# 3次元ニューラルネットワーク埋め込み確率:ロバストな6次元ポーズ推定のための確率的逆グラフィックス

3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for Robust 6D Pose Estimation ( http://arxiv.org/abs/2302.03744v3 )

ライセンス: Link先を確認
Guangyao Zhou, Nishad Gothoskar, Lirui Wang, Joshua B. Tenenbaum, Dan Gutfreund, Miguel L\'azaro-Gredilla, Dileep George, Vikash K. Mansinghka(参考訳) 3dシーンを知覚し理解する能力は、コンピュータビジョンやロボット工学の多くの応用に不可欠である。 逆グラフィックスは,2次元画像から3次元シーン構造を推測することを目的とした,3次元シーン理解への魅力的なアプローチである。 本稿では,不確かさを定量化し,6次元ポーズ推定タスクにおけるロバスト性を達成するために,逆グラフィックスフレームワークに確率的モデリングを導入する。 具体的には,RGB-D画像上の統一確率モデルとして3D Neural Embedding Likelihood (3DNEL)を提案する。 3DNELは、RGBから学習した神経埋め込みと深度情報を組み合わせて、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を改善する。 YCB-Videoデータセットのパフォーマンスは最先端と同等だが、挑戦的なレシエーションではずっと堅牢だ。 差別的アプローチとは対照的に、3dnelの確率的生成形式はシーン内の複数の物体を共同でモデル化し、原理的に不確かさを定量化し、重い咬合下で物体のポーズ追跡を扱う。 最後に、3dnelは、シーンとオブジェクトに関する事前知識を組み込むための原則付きフレームワークを提供し、ビデオからのカメラポーズ追跡のような追加タスクへの自然な拡張を可能にする。

The ability to perceive and understand 3D scenes is crucial for many applications in computer vision and robotics. Inverse graphics is an appealing approach to 3D scene understanding that aims to infer the 3D scene structure from 2D images. In this paper, we introduce probabilistic modeling to the inverse graphics framework to quantify uncertainty and achieve robustness in 6D pose estimation tasks. Specifically, we propose 3D Neural Embedding Likelihood (3DNEL) as a unified probabilistic model over RGB-D images, and develop efficient inference procedures on 3D scene descriptions. 3DNEL effectively combines learned neural embeddings from RGB with depth information to improve robustness in sim-to-real 6D object pose estimation from RGB-D images. Performance on the YCB-Video dataset is on par with state-of-the-art yet is much more robust in challenging regimes. In contrast to discriminative approaches, 3DNEL's probabilistic generative formulation jointly models multiple objects in a scene, quantifies uncertainty in a principled way, and handles object pose tracking under heavy occlusion. Finally, 3DNEL provides a principled framework for incorporating prior knowledge about the scene and objects, which allows natural extension to additional tasks like camera pose tracking from video.
翻訳日:2023-09-08 17:47:05 公開日:2023-09-06
# 非構造化データベース探索のための浅層深度を用いた変分量子探索

Variational Quantum Search with Shallow Depth for Unstructured Database Search ( http://arxiv.org/abs/2212.09505v2 )

ライセンス: Link先を確認
Junpeng Zhan(参考訳) 強力な量子コンピュータの出現により、より効率的な量子アルゴリズムの探求は、ノイズの多い中間スケール量子時代の古典的量子超越性を達成する上で重要となる。 グロバーの探索アルゴリズムとその一般化、量子振幅増幅は、様々な重要な科学的問題の解法において二次的なスピードアップを提供するが、量子回路の深さが量子ビット数とともに指数関数的に増加するにつれて、その指数時間複雑性はスケーラビリティに制限される。 この課題を克服するために,変動量子アルゴリズムとパラメータ化量子回路に基づく新しいアルゴリズムである変分量子探索(vqs)を提案する。 深さ10アンザッツは、$k$$(k \geq 1$)良い要素の総確率を、$n$+1 qubitsで表される2^n$要素のうち、$k/2^n$から$1に近いものへと増幅することができ、VQSの量子回路の最大深さは、量子ビットの数とともに直線的に増加することを示す。 実験の結果,最大26キュービットの回路深さにおけるGroverアルゴリズムに対するVQSの有効性と指数的優位性を検証した。 vqsの深さ56回路はグローバーアルゴリズムの深さ270,989回路を置き換えることができる。 VQSはその可能性を想定し、重要な問題の解決を加速する約束を持っている。

With the advent of powerful quantum computers, the quest for more efficient quantum algorithms becomes crucial in attaining quantum supremacy over classical counterparts in the noisy intermediate-scale quantum era. While Grover's search algorithm and its generalization, quantum amplitude amplification, offer quadratic speedup in solving various important scientific problems, their exponential time complexity limits scalability as the quantum circuit depths grow exponentially with the number of qubits. To overcome this challenge, we propose Variational Quantum Search (VQS), a novel algorithm based on variational quantum algorithms and parameterized quantum circuits. We show that a depth-10 Ansatz can amplify the total probability of $k$ ($k \geq 1$) good elements, out of $2^n$ elements represented by $n$+1 qubits, from $k/2^n$ to nearly 1, as verified for $n$ up to 26, and that the maximum depth of quantum circuits in the VQS increases linearly with the number of qubits. Our experimental results have validated the efficacy of VQS and its exponential advantage over Grover's algorithm in circuit depth for up to 26 qubits. We demonstrate that a depth-56 circuit in VQS can replace a depth-270,989 circuit in Grover's algorithm. Envisioning its potential, VQS holds promise to accelerate solutions to critical problems.
翻訳日:2023-09-08 17:45:36 公開日:2023-09-06
# 情報理論を用いた目的関数の選択法

How to select an objective function using information theory ( http://arxiv.org/abs/2212.06566v2 )

ライセンス: Link先を確認
Timothy O. Hodson, Thomas M. Over, Tyler J. Smith, Lucy M. Marshall(参考訳) 機械学習や科学計算では、モデル性能は客観的関数で測定される。 しかし、なぜ別の目的を選ぶのか? モデル内の情報を最大化するために、最も可能性の高い客観的関数を選択するか、最も少ないビットでエラーを表現するかを選択する。 異なる目的を評価するために、それらを可能性関数に変換する。 確率として、それらの相対的な大きさは、ある目的が他の目標よりもどのくらい好まれるかを表し、その大きさのログは、モデルが期待する不確実性を表す。

In machine learning or scientific computing, model performance is measured with an objective function. But why choose one objective over another? Information theory gives one answer: To maximize the information in the model, select the most likely objective function or whichever represents the error in the fewest bits. To evaluate different objectives, transform them into likelihood functions. As likelihoods, their relative magnitudes represent how much we should prefer one objective versus another, and the log of their magnitude represents the expected uncertainty of the model.
翻訳日:2023-09-08 17:44:51 公開日:2023-09-06
# スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer ( http://arxiv.org/abs/2303.09681v4 )

ライセンス: Link先を確認
Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng(参考訳) イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。 しかし、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイベントフレームを形成することで、一時的な依存関係を全て無視するかのどちらかである。 一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。 上記の課題に触発されて、イベントベースのポーズトラッキングのための、エンドツーエンドのスパース深層学習アプローチを提案する。 1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。 2)本手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。 3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。 実験により,SOTA(State-of-the-art (SOTA) ANN) よりも優れた性能を示すとともに,FLOPSの80%の計算量削減を実現している。 さらに,提案手法は,人間のポーズトラッキングの回帰タスクにおいて,SOTA SNNよりも優れていた。 私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。

Event camera, as an emerging biologically-inspired vision sensor for capturing motion dynamics, presents new potential for 3D human pose tracking, or video-based 3D human pose estimation. However, existing works in pose tracking either require the presence of additional gray-scale images to establish a solid starting pose, or ignore the temporal dependencies all together by collapsing segments of event streams to form static event frames. Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs, a.k.a. dense deep learning) has been showcased in many event-based tasks, the use of ANNs tends to neglect the fact that compared to the dense frame-based image sequences, the occurrence of events from an event camera is spatiotemporally much sparser. Motivated by the above mentioned issues, we present in this paper a dedicated end-to-end sparse deep learning approach for event-based pose tracking: 1) to our knowledge this is the first time that 3D human pose tracking is obtained from events only, thus eliminating the need of accessing to any frame-based images as part of input; 2) our approach is based entirely upon the framework of Spiking Neural Networks (SNNs), which consists of Spike-Element-Wise (SEW) ResNet and a novel Spiking Spatiotemporal Transformer; 3) a large-scale synthetic dataset is constructed that features a broad and diverse set of annotated 3D human motions, as well as longer hours of event stream data, named SynEventHPD. Empirical experiments demonstrate that, with superior performance over the state-of-the-art (SOTA) ANNs counterparts, our approach also achieves a significant computation reduction of 80% in FLOPS. Furthermore, our proposed method also outperforms SOTA SNNs in the regression task of human pose tracking. Our implementation is available at https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released upon paper acceptance.
翻訳日:2023-09-08 17:39:33 公開日:2023-09-06
# 時間平均制約を考慮した制御系オンライン最適化のためのプライマル・ディダル・コンテクストベイズ最適化

Primal-Dual Contextual Bayesian Optimization for Control System Online Optimization with Time-Average Constraints ( http://arxiv.org/abs/2304.06104v2 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) 本稿では,制約付き閉ループ制御システムのオンライン性能最適化の問題点について検討する。 一定の規則性条件下での動的最適解に対して,線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。 さらに、アルゴリズムは平均時間制約違反をゼロとし、制約関数の平均値が所望の制約を満たすことを保証する。 本手法はガウシアンプロセスから採取したサンプルインスタンスと, 連続発振型原子炉パラメータチューニング問題の両方に適用し, シミュレーション結果から, ほぼ最適性能を同時に提供し, 平均的な制約実現性を維持することを示す。 これは、提示されたケーススタディに対する大きな累積的後悔または厳しい制約違反に苦しむ現在の最先端の手法とは対照的である。

This paper studies the problem of online performance optimization of constrained closed-loop control systems, where both the objective and the constraints are unknown black-box functions affected by exogenous time-varying contextual disturbances. A primal-dual contextual Bayesian optimization algorithm is proposed that achieves sublinear cumulative regret with respect to the dynamic optimal solution under certain regularity conditions. Furthermore, the algorithm achieves zero time-average constraint violation, ensuring that the average value of the constraint function satisfies the desired constraint. The method is applied to both sampled instances from Gaussian processes and a continuous stirred tank reactor parameter tuning problem; simulation results show that the method simultaneously provides close-to-optimal performance and maintains constraint feasibility on average. This contrasts current state-of-the-art methods, which either suffer from large cumulative regret or severe constraint violations for the case studies presented.
翻訳日:2023-09-08 17:27:36 公開日:2023-09-06
# 医用画像分類のための自己監督:1クラス100のラベル付きトレーニングサンプルによる最先端のパフォーマンス

Self-supervision for medical image classification: state-of-the-art performance with ~100 labeled training samples per class ( http://arxiv.org/abs/2304.05163v2 )

ライセンス: Link先を確認
Maximilian Nielsen, Laura Wenderoth, Thilo Sentker, Ren\'e Werner(参考訳) 医用画像解析のための自己教師型深層学習(DL)は、既にエンドツーエンドの訓練型監視型DLの事実上の標準に取って代わるものか? 医療画像分類におけるこの問題に特に焦点をあて、この分野で現在最も制限されている要因の1つ、ラベル付きデータの(非)利用性に焦点をあてた。 3つの一般的な医用画像法(骨髄顕微鏡,消化管内視鏡,皮膚内視鏡)と公開データセットに基づいて,ラベルのない自己蒸留法(DINO)における自己監督型DLの性能を解析した。 画像ラベルを使わずに画像表現を学習した後、従来の機械学習分類器を適用する。 分類器は、体系的に異なるラベル付きデータ(1クラスあたり1-1000サンプル)で適合する。 学習した画像表現を活用し、利用可能なラベル付きデータの1%から10%、クラス当たり約100のラベル付きサンプルで、3つのイメージモダリティとデータセットの最先端の分類性能を実現する。

Is self-supervised deep learning (DL) for medical image analysis already a serious alternative to the de facto standard of end-to-end trained supervised DL? We tackle this question for medical image classification, with a particular focus on one of the currently most limiting factors of the field: the (non-)availability of labeled data. Based on three common medical imaging modalities (bone marrow microscopy, gastrointestinal endoscopy, dermoscopy) and publicly available data sets, we analyze the performance of self-supervised DL within the self-distillation with no labels (DINO) framework. After learning an image representation without use of image labels, conventional machine learning classifiers are applied. The classifiers are fit using a systematically varied number of labeled data (1-1000 samples per class). Exploiting the learned image representation, we achieve state-of-the-art classification performance for all three imaging modalities and data sets with only a fraction of between 1% and 10% of the available labeled data and about 100 labeled samples per class.
翻訳日:2023-09-08 17:27:19 公開日:2023-09-06
# 実践における知識グラフ: ユーザ,課題,可視化の機会を特徴づける

Knowledge Graphs in Practice: Characterizing their Users, Challenges, and Visualization Opportunities ( http://arxiv.org/abs/2304.01311v3 )

ライセンス: Link先を確認
Harry Li, Gabriel Appleby, Camelia Daniela Brumar, Remco Chang, Ashley Suh(参考訳) 本研究は、企業と学術の両方で幅広いユースケースで働いている19人の知識グラフ実践者へのインタビューから得られた知見を提示する。 本研究では,視覚的デザインによって緩和できるKGの作成,探索,分析において,KG実践者が経験した重要な課題を明らかにする。 以上の結果から,kg実践者のうち,kg製作者,アナリスト,消費者の3人がそれぞれ独自の専門知識とニーズを持っていることが明らかとなった。 我々は、KGビルダーがスキーマインクルーダーの恩恵を受けることを発見した。一方、KGアナリストは、中間クエリ結果を提供するカスタマイズ可能なクエリビルダーが必要である。 kg ユーザに対しては,ノードリンク図の有効性の欠如,および kg の採用と理解を促進するためのドメイン固有可視化の必要性が指摘されている。 最後に、KGを効果的に実践するには、現在のツールや技術、コラボレーションワークフローに対処しない、技術的および社会的ソリューションの両方が必要です。 インタビューの分析から,消化可能性と発見可能性のバランスをとる知識カード,時間的変化を追跡するタイムラインビュー,有機的発見をサポートするインターフェース,AIと機械学習予測のセマンティック説明など,KGのユーザビリティ向上のための可視化研究の方向性を抽出した。

This study presents insights from interviews with nineteen Knowledge Graph (KG) practitioners who work in both enterprise and academic settings on a wide variety of use cases. Through this study, we identify critical challenges experienced by KG practitioners when creating, exploring, and analyzing KGs that could be alleviated through visualization design. Our findings reveal three major personas among KG practitioners - KG Builders, Analysts, and Consumers - each of whom have their own distinct expertise and needs. We discover that KG Builders would benefit from schema enforcers, while KG Analysts need customizable query builders that provide interim query results. For KG Consumers, we identify a lack of efficacy for node-link diagrams, and the need for tailored domain-specific visualizations to promote KG adoption and comprehension. Lastly, we find that implementing KGs effectively in practice requires both technical and social solutions that are not addressed with current tools, technologies, and collaborative workflows. From the analysis of our interviews, we distill several visualization research directions to improve KG usability, including knowledge cards that balance digestibility and discoverability, timeline views to track temporal changes, interfaces that support organic discovery, and semantic explanations for AI and machine learning predictions.
翻訳日:2023-09-08 17:26:59 公開日:2023-09-06
# 節の絡み合い, 理論を探る例

Entanglement of Sections, Examples Looking for a Theory ( http://arxiv.org/abs/2304.01072v3 )

ライセンス: Link先を確認
M. H. Freedman and M. B. Hastings(参考訳) 量子情報は状態の絡み合いに関するものである。 この出発点にパラメータを追加し、単一の状態がバンドルの非バナッシングセクションとなるようにします。 例を通してセクションの絡み合いのパターンを考察する。

Quantum information is about the entanglement of states. To this starting point we add parameters whereby a single state becomes a non-vanishing section of a bundle. We consider through examples the possible entanglement patterns of sections.
翻訳日:2023-09-08 17:26:35 公開日:2023-09-06
# 空間結合型QDLPC符号

Spatially-Coupled QDLPC Codes ( http://arxiv.org/abs/2305.00137v3 )

ライセンス: Link先を確認
Siyi Yang, Robert Calderbank(参考訳) 空間結合符号 (SC) は畳み込みLDPC符号のクラスであり、高い性能と低遅延デコーダとの互換性により古典的符号化理論においてよく研究されている。 本稿では,古典的2次元空間結合符号(2D-SC)の量子対としてトーリック符号を記述し,空間結合型量子LDPC(SC-QLDPC)符号を一般化として導入する。 畳み込み構造を用いて、2D-SC符号のパリティチェック行列を2つの不定値の多項式として表現し、2D-SC符号が安定化符号となるために必要な代数的条件を導出する。 この代数的フレームワークは、新しいコードファミリの構築を促進する。 本稿では,小記憶が量子ビットの物理的接続を容易にし,局所符号化と低遅延ウィンドウの復号化を可能にした点に注目する。 本稿では,2D-SCハイパーグラフ積 (HGP) 符号のタンナーグラフにおいて,各成分符号のショートサイクルから生じるショートサイクルを最適化するために,代数的フレームワークを用いる。 先行研究は1/10未満のQLDPC符号に焦点をあてるが、2D-SC HGP符号は少ないメモリ、高いレート(約1/3)、優れた閾値で構築する。

Spatially-coupled (SC) codes is a class of convolutional LDPC codes that has been well investigated in classical coding theory thanks to their high performance and compatibility with low-latency decoders. We describe toric codes as quantum counterparts of classical two-dimensional spatially-coupled (2D-SC) codes, and introduce spatially-coupled quantum LDPC (SC-QLDPC) codes as a generalization. We use the convolutional structure to represent the parity check matrix of a 2D-SC code as a polynomial in two indeterminates, and derive an algebraic condition that is both necessary and sufficient for a 2D-SC code to be a stabilizer code. This algebraic framework facilitates the construction of new code families. While not the focus of this paper, we note that small memory facilitates physical connectivity of qubits, and it enables local encoding and low-latency windowed decoding. In this paper, we use the algebraic framework to optimize short cycles in the Tanner graph of 2D-SC hypergraph product (HGP) codes that arise from short cycles in either component code. While prior work focuses on QLDPC codes with rate less than 1/10, we construct 2D-SC HGP codes with small memories, higher rates (about 1/3), and superior thresholds.
翻訳日:2023-09-08 17:17:17 公開日:2023-09-06
# ClimSim:ハイブリッドマルチスケール気候シミュレータにおける高分解能物理エミュレータのトレーニングのためのオープンな大規模データセット

ClimSim: An open large-scale dataset for training high-resolution physics emulators in hybrid multi-scale climate simulators ( http://arxiv.org/abs/2306.08754v3 )

ライセンス: Link先を確認
Sungduk Yu, Walter M. Hannah, Liran Peng, Jerry Lin, Mohamed Aziz Bhouri, Ritwik Gupta, Bj\"orn L\"utjens, Justus C. Will, Gunnar Behrens, Julius J. M. Busecke, Nora Loose, Charles Stern, Tom Beucler, Bryce E. Harrop, Benjamin R. Hilman, Andrea M. Jenney, Savannah L. Ferretti, Nana Liu, Anima Anandkumar, Noah D. Brenowitz, Veronika Eyring, Nicholas Geneva, Pierre Gentine, Stephan Mandt, Jaideep Pathak, Akshay Subramaniam, Carl Vondrick, Rose Yu, Laure Zanna, Tian Zheng, Ryan P. Abernathey, Fiaz Ahmed, David C. Bader, Pierre Baldi, Elizabeth A. Barnes, Christopher S. Bretherton, Peter M. Caldwell, Wayne Chuang, Yilun Han, Yu Huang, Fernando Iglesias-Suarez, Sanket Jantre, Karthik Kashinath, Marat Khairoutdinov, Thorsten Kurth, Nicholas J. Lutsko, Po-Lun Ma, Griffin Mooers, J. David Neelin, David A. Randall, Sara Shamekh, Mark A. Taylor, Nathan M. Urban, Janni Yuval, Guang J. Zhang, Michael S. Pritchard(参考訳) 現代の気候予測は、計算の制約による空間的および時間的解決が不十分である。 その結果は、嵐のような臨界過程の不正確で不正確な予測である。 物理と機械学習(ML)を組み合わせたハイブリッドな手法は、新しい世代の高忠実度気候シミュレータを導入し、計算ハングリーで短い高解像度のシミュレーションをMLエミュレータにアウトソーシングすることでムーアの法則を助長することができる。 しかし、このハイブリッドML-物理シミュレーションアプローチは、ドメイン固有の治療を必要としており、トレーニングデータや関連する、使いやすいワークフローがないため、MLの専門家にはアクセスできない。 ClimSimは、ハイブリッドML物理研究のために設計された、史上最大のデータセットである。 気候科学者とML研究者のコンソーシアムによって開発されたマルチスケール気候シミュレーションを含んでいる。 570億対の多変量入力および出力ベクトルからなり、ホストの気候シミュレータのマクロスケールの物理状態に対する局所ネスト、高分解能、高忠実性物理学の影響を分離する。 データセットはグローバルにカバーされており、複数年にわたってサンプリング頻度が高く、結果としてエミュレータがダウンストリーム結合と互換性を持つように設計されている。 我々は,MLの課題とその得点を明らかにするために,決定論的および確率的回帰ベースラインを実装した。 データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res, https://huggingface.co/datasets/LEAP/ClimSim_low-res, https://huggingface.co/datasets/LEAP/ClimSim_low-res_aqua-planet)とコード(https://leap-stc.github.io/ClimSim)は、ML-物理と高忠実な気候シミュレーションのハイブリッド開発をサポートするために、オープンソースとしてリリースされた。

Modern climate projections lack adequate spatial and temporal resolution due to computational constraints. A consequence is inaccurate and imprecise predictions of critical processes such as storms. Hybrid methods that combine physics with machine learning (ML) have introduced a new generation of higher fidelity climate simulators that can sidestep Moore's Law by outsourcing compute-hungry, short, high-resolution simulations to ML emulators. However, this hybrid ML-physics simulation approach requires domain-specific treatment and has been inaccessible to ML experts because of lack of training data and relevant, easy-to-use workflows. We present ClimSim, the largest-ever dataset designed for hybrid ML-physics research. It comprises multi-scale climate simulations, developed by a consortium of climate scientists and ML researchers. It consists of 5.7 billion pairs of multivariate input and output vectors that isolate the influence of locally-nested, high-resolution, high-fidelity physics on a host climate simulator's macro-scale physical state. The dataset is global in coverage, spans multiple years at high sampling frequency, and is designed such that resulting emulators are compatible with downstream coupling into operational climate simulators. We implement a range of deterministic and stochastic regression baselines to highlight the ML challenges and their scoring. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res, https://huggingface.co/datasets/LEAP/ClimSim_low-res, and https://huggingface.co/datasets/LEAP/ClimSim_low-res_aqua-planet) and code (https://leap-stc.github.io/ClimSim) are released openly to support the development of hybrid ML-physics and high-fidelity climate simulations for the benefit of science and society.
翻訳日:2023-09-08 17:08:22 公開日:2023-09-06
# 第二応答理論:量子重ね合わせの伝播に関する理論的形式論

Second Response Theory: A Theoretical Formalism for the Propagation of Quantum Superpositions ( http://arxiv.org/abs/2306.07924v4 )

ライセンス: Link先を確認
Mart\'in A. Mosquera(参考訳) 一般電子量子状態の伝播は、分子系と外部駆動場との相互作用に関する情報を提供する。 これらは非断熱量子現象に関する理解を与えることもできる。 確立された手法は主に、当初は基底状態波動関数によってのみ記述された量子系を伝播することに焦点を当てている。 本研究では,前述した2次応答理論と呼ばれる結合クラスター理論内のサイズ拡張形式を拡張し,基底状態を含む異なる状態の一般線形結合によって記述された量子系を伝播させ,そのような伝播を時間依存型クラスター作用素の特殊集合でどのように行うかを示す。 我々の理論は、量子力学的観測値、確率、コヒーレンスを決定するために、数値的に正確な結果と強い整合性を示す。 本稿では, 2次応答理論における非定常状態と, 線形および二次応答理論における行列要素の予測能力について論じる。 本研究はまた、基底状態のクラスタ振幅の潜在的な不安定性を持つシステムを扱う近似正規化手法についても論じ、標準ユニタリ理論の参照結果と比較する。

The propagation of general electronic quantum states provides information of the interaction of molecular systems with external driving fields. These can also offer understandings regarding non-adiabatic quantum phenomena. Well established methods focus mainly on propagating a quantum system that is initially described exclusively by the ground state wavefunction. In this work, we expand a previously developed size-extensive formalism within coupled cluster theory, called second response theory, so it propagates quantum systems that are initially described by a general linear combination of different states, which can include the ground state, and show how with a special set of time-dependent cluster operators such propagations are performed. Our theory shows strong consistency with numerically exact results for the determination of quantum mechanical observables, probabilities, and coherences. We discuss unperturbed non-stationary states within second response theory and their ability to predict matrix elements that agree with those found in linear and quadratic response theories. This work also discusses an approximate regularized methodology to treat systems with potential instabilities in their ground-state cluster amplitudes, and compares such approximations with respect to reference results from standard unitary theory.
翻訳日:2023-09-08 17:07:11 公開日:2023-09-06
# アレイ型スパイキングニューラルネットワークにおける効率よく正確なメモリ

An Efficient and Accurate Memristive Memory for Array-based Spiking Neural Networks ( http://arxiv.org/abs/2306.06551v3 )

ライセンス: Link先を確認
Hritom Das, Rocco D. Febbo, SNB Tushar, Nishith N. Chakraborty, Maximilian Liehr, Nathaniel Cady, Garrett S. Rose(参考訳) memristorは、その大きさと不揮発性のため、ニューロモルフィックコンピューティングにおける重み付けシナプス接続の誘惑的なソリューションを提供する。 しかし、memristorは一般的に使用される電圧パルスベースのプログラミングアプローチでは信頼できないため、プログラミングの失敗を避けるために正確に形づくられたパルスを必要とする。 本稿では,memristive synapsesを読み書きする際に,より予測可能なアナログメモリ動作を提供する,電流リミティングに基づくソリューションを提案する。 提案する設計では、リード電流は1t1r設計に比べて約19倍最適化できる。 さらに,提案した設計は1T1Rに比べて約9倍のエネルギーを節約できる。 また、3T1Rの設計は、MOSFETのプロセス変動やメムリスタ固有の確率的挙動の影響を受けない有望な書き込み動作を示す。 試験に用いられるメムリスタはハフニウム系であり、65nmハイブリッドCMOS-メムリスタプロセスで製造された。 提案設計では, 印加電圧と書き込み動作に対する抵抗の線形特性も示している。 シミュレーションと測定データは、電圧パルスベースのプログラミングと現在のコンプライアンスベースのプログラミングに関して、同様のパターンを示す。 この行動がスパイキングニューラルネットワークなどの神経形態特異的な応用に与える影響をさらに観察した。

Memristors provide a tempting solution for weighted synapse connections in neuromorphic computing due to their size and non-volatile nature. However, memristors are unreliable in the commonly used voltage-pulse-based programming approaches and require precisely shaped pulses to avoid programming failure. In this paper, we demonstrate a current-limiting-based solution that provides a more predictable analog memory behavior when reading and writing memristive synapses. With our proposed design READ current can be optimized by about 19x compared to the 1T1R design. Moreover, our proposed design saves about 9x energy compared to the 1T1R design. Our 3T1R design also shows promising write operation which is less affected by the process variation in MOSFETs and the inherent stochastic behavior of memristors. Memristors used for testing are hafnium oxide based and were fabricated in a 65nm hybrid CMOS-memristor process. The proposed design also shows linear characteristics between the voltage applied and the resulting resistance for the writing operation. The simulation and measured data show similar patterns with respect to voltage pulse-based programming and current compliance-based programming. We further observed the impact of this behavior on neuromorphic-specific applications such as a spiking neural network
翻訳日:2023-09-08 17:06:14 公開日:2023-09-06
# 空洞内の単一原子との相互作用時間制御による2光子間の条件相ゲート

Conditional phase gate between two photons through control of the interaction time with a single atom in a cavity ( http://arxiv.org/abs/2306.01897v2 )

ライセンス: Link先を確認
Arkan Hassan and Julio Gea-Banacloche(参考訳) We show that the simultaneous interaction of two single-photon fields with a single atom in the V configuration can in principle produce a conditional phase gate of arbitrarily high fidelity, for an appropriate choice of the interaction time, as long as the fields con be described by a single temporal mode (as in an optical cavity); this requires a ``gated'' interaction, where, e.g., dynamical coupling techniques could be used to get the fields in and out of the cavity, and a large detuning induced by a strong external field could be used to turn the atom-field interaction on and off at the right times. これらの仮定により, 単一原子を含むキャビティに対して最大のゲート忠実度が得られ, 系の非線形性に「希薄」な原子がさらに増えることが示唆された。 また,非キャビティモードにおける自然放出損失が不確かさをいかに低下させるか,また2レベルと5レベルの2つの代替原子レベルスキームについても検討する。

We show that the simultaneous interaction of two single-photon fields with a single atom in the V configuration can in principle produce a conditional phase gate of arbitrarily high fidelity, for an appropriate choice of the interaction time, as long as the fields con be described by a single temporal mode (as in an optical cavity); this requires a ``gated'' interaction, where, e.g., dynamical coupling techniques could be used to get the fields in and out of the cavity, and a large detuning induced by a strong external field could be used to turn the atom-field interaction on and off at the right times. With these assumptions, our analysis shows that the largest gate fidelities are obtained for a cavity containing a single atom, and that adding more atoms in effect ``dilutes'' the system's nonlinearity. We also study how spontaneous emission losses into non-cavity modes degrade the fidelity, and consider as well a couple of alternate atomic level schemes, namely two- and five-level systems.
翻訳日:2023-09-08 17:05:02 公開日:2023-09-06
# 連続時間ガウス過程回帰による時間分解能を有するイベントベースステレオビジュアルオドメトリー

Event-based Stereo Visual Odometry with Native Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v4 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、追加センサーがないため、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but, absent additional sensors, sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation in the estimation state. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-09-08 17:04:47 公開日:2023-09-06
# FarSight:広い距離と高度で物理駆動の全身生体計測システム

FarSight: A Physics-Driven Whole-Body Biometric System at Large Distance and Altitude ( http://arxiv.org/abs/2306.17206v2 )

ライセンス: Link先を確認
Feng Liu, Ryan Ashbaugh, Nicholas Chimitt, Najmul Hassan, Ali Hassani, Ajay Jaiswal, Minchul Kim, Zhiyuan Mao, Christopher Perry, Zhiyuan Ren, Yiyang Su, Pegah Varghaei, Kai Wang, Xingguang Zhang, Stanley Chan, Arun Ross, Humphrey Shi, Zhangyang Wang, Anil Jain and Xiaoming Liu(参考訳) 全身生体認証は、法執行機関、国境警備、および監視における膨大な応用のために重要な研究分野である。 本稿では,全身(顔,歩行,身体形状の融合)バイオメトリック認識のための革新的なソフトウェアシステムであるfarsightの設計,開発,評価を行う。 FarSightは、高層プラットフォームやドローンからのビデオを入力として受け入れ、ギャラリーから候補者のIDリストを出力する。 このシステムは、いくつかの課題に対処するために設計されている。 (i)低画質の画像 (ii)大きなヨーとピッチアングル。 (iii)人内変動が大きい場合と人間類似度が大きい場合のロバストな特徴抽出 (iv) トレーニングとテストセットの間の大きなドメイン間ギャップ。 farsightは、画像の物理とディープラーニングモデルを組み合わせて、画像復元と生体機能エンコーディングを強化している。 我々は新たに取得したIARPAバイオメトリック認識とAltitude and Range (BRIAR)データセットを用いてFarSightの有効性を検証する。 特に、FarSightはBRIARデータセットの大幅なパフォーマンス向上を示し、+11.82%のランク-20識別と+11.3%のTAR@1% FARが得られた。

Whole-body biometric recognition is an important area of research due to its vast applications in law enforcement, border security, and surveillance. This paper presents the end-to-end design, development and evaluation of FarSight, an innovative software system designed for whole-body (fusion of face, gait and body shape) biometric recognition. FarSight accepts videos from elevated platforms and drones as input and outputs a candidate list of identities from a gallery. The system is designed to address several challenges, including (i) low-quality imagery, (ii) large yaw and pitch angles, (iii) robust feature extraction to accommodate large intra-person variabilities and large inter-person similarities, and (iv) the large domain gap between training and test sets. FarSight combines the physics of imaging and deep learning models to enhance image restoration and biometric feature encoding. We test FarSight's effectiveness using the newly acquired IARPA Biometric Recognition and Identification at Altitude and Range (BRIAR) dataset. Notably, FarSight demonstrated a substantial performance increase on the BRIAR dataset, with gains of +11.82% Rank-20 identification and +11.3% TAR@1% FAR.
翻訳日:2023-09-08 16:58:59 公開日:2023-09-06
# 効率的なスペクトル画像分割のためのスパースグラフ定式化

A Sparse Graph Formulation for Efficient Spectral Image Segmentation ( http://arxiv.org/abs/2306.13166v2 )

ライセンス: Link先を確認
Rahul Palnitkar and Jeova Farias Sales Rocha Neto(参考訳) スペクトルクラスタリングは、セグメンテーション問題を解決する最も伝統的な方法の1つである。 正規化カットに基づいて、グラフで定義された目的関数を使って画像を分割する。 数学的魅力にもかかわらず、スペクトルアプローチは実践的な問題や性能不足のために伝統的に科学界によって無視されている。 本稿では,単純なグリッドグラフへの余分なノードの包含に基づくスパースグラフ定式化を採用する。 グリッドはピクセルの空間配置をエンコードするが、余分なノードはピクセルの色データを説明する。 元の正規化カットアルゴリズムをこのグラフに適用すると、解釈可能な解を持つスペクトル画像分割の単純でスケーラブルな方法が導かれる。 また, 提案手法は, 実データと合成データのセグメンテーションにおいて, 従来の非教師付きアルゴリズムと近代的アルゴリズムの両方を実行することを実証した。

Spectral Clustering is one of the most traditional methods to solve segmentation problems. Based on Normalized Cuts, it aims at partitioning an image using an objective function defined by a graph. Despite their mathematical attractiveness, spectral approaches are traditionally neglected by the scientific community due to their practical issues and underperformance. In this paper, we adopt a sparse graph formulation based on the inclusion of extra nodes to a simple grid graph. While the grid encodes the pixel spatial disposition, the extra nodes account for the pixel color data. Applying the original Normalized Cuts algorithm to this graph leads to a simple and scalable method for spectral image segmentation, with an interpretable solution. Our experiments also demonstrate that our proposed methodology over performs both traditional and modern unsupervised algorithms for segmentation in both real and synthetic data.
翻訳日:2023-09-08 16:57:06 公開日:2023-09-06
# 大規模言語モデルの継続的な事前学習: モデルをいかに(再)ウォームするか?

Continual Pre-Training of Large Language Models: How to (re)warm your model? ( http://arxiv.org/abs/2308.04014v2 )

ライセンス: Link先を確認
Kshitij Gupta, Benjamin Th\'erien, Adam Ibrahim, Mats L. Richter, Quentin Anthony, Eugene Belilovsky, Irina Rish, Timoth\'ee Lesort(参考訳) 大規模言語モデル(LLM)は数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になったら再起動する。 より安価で効率的な解決策は、これらのモデルの継続的な事前トレーニングを可能にすることである。 しかし、新しいデータによって誘導される分布シフトは、通常過去のデータにおける劣化性能をもたらす。 本研究は,効率的な継続事前学習に向けた一歩として,異なるウォームアップ戦略の効果を検討する。 私たちの仮説は、新しいデータセットでトレーニングするときの計算効率を改善するために、学習率を再び高めなければならないということです。 我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを継続するPile(上流データ,300Bトークン)上で事前トレーニングされたモデルのウォームアップフェーズについて,線形ウォームアップおよびコサイン崩壊スケジュールに従って検討した。 我々はPythia 410M言語モデルアーキテクチャに関する全ての実験を行い、検証の難易度を通して性能を評価する。 我々は,事前学習チェックポイント,最大学習率,ウォームアップ長の異なる実験を行った。 私たちの結果は、リワーミングモデルが最初に上流データと下流データの損失を増加させる一方で、長期的にはダウンストリームパフォーマンスを改善し、大きなダウンストリームデータセットに対してscratch$\unicode{x2013}$evenからトレーニングされたモデルを上回ることを示しています。

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to restart the process over again once new data becomes available. A much cheaper and more efficient solution would be to enable the continual pre-training of these models, i.e. updating pre-trained models with new data instead of re-training them from scratch. However, the distribution shift induced by novel data typically results in degraded performance on past data. Taking a step towards efficient continual pre-training, in this work, we examine the effect of different warm-up strategies. Our hypothesis is that the learning rate must be re-increased to improve compute efficiency when training on a new dataset. We study the warmup phase of models pre-trained on the Pile (upstream data, 300B tokens) as we continue to pre-train on SlimPajama (downstream data, 297B tokens), following a linear warmup and cosine decay schedule. We conduct all experiments on the Pythia 410M language model architecture and evaluate performance through validation perplexity. We experiment with different pre-training checkpoints, various maximum learning rates, and various warmup lengths. Our results show that while rewarming models first increases the loss on upstream and downstream data, in the longer run it improves the downstream performance, outperforming models trained from scratch$\unicode{x2013}$even for a large downstream dataset.
翻訳日:2023-09-08 16:30:19 公開日:2023-09-06
# 量子skyrmionの安定性:射影的測定と量子ゼノ効果

Stability of a quantum skyrmion: projective measurements and the quantum Zeno effect ( http://arxiv.org/abs/2308.11014v2 )

ライセンス: Link先を確認
Fabio Salvati, Mikhail I. Katsnelson, Andrey A. Bagrov, Tom Westerhout(参考訳) 磁気スキャミオンは渦状準粒子であり、長寿命と顕著な位相特性が特徴である。 これにより、磁気情報ストレージや処理デバイスにおける情報キャリアの役割に期待できる候補となる。 古典系におけるスカイミオンの研究においてかなりの進歩があったが、量子の場合についてはほとんど知られていない: 量子スカイミオンは系の局所磁化を探索することで直接観察することはできず、トポロジカル保護の概念は量子領域において解明される。 ここでは、量子スカイミオンの潜在的堅牢性について、古典的なものと比較して検討する。 局所射影計測対象の量子スキャミオンのダイナミクスを理論的に解析し、外部摂動によってスキャミオン量子状態の性質がほとんど変化しないことを示す。 さらに、量子スキャミオン上で繰り返し測定を行うことで、量子ゼノ効果の類似物によって完全に安定化できることを示した。

Magnetic skyrmions are vortex-like quasiparticles characterized by long lifetime and remarkable topological properties. That makes them a promising candidate for the role of information carriers in magnetic information storage and processing devices. Although considerable progress has been made in studying skyrmions in classical systems, little is known about the quantum case: quantum skyrmions cannot be directly observed by probing the local magnetization of the system, and the notion of topological protection is elusive in the quantum realm. Here, we explore the potential robustness of quantum skyrmions in comparison to their classical counterparts. We theoretically analyze the dynamics of a quantum skyrmion subject to local projective measurements and demonstrate that the properties of the skyrmionic quantum state change very little upon external perturbations. We further show that by performing repetitive measurements on a quantum skyrmion, it can be completely stabilized through an analog of the quantum Zeno effect.
翻訳日:2023-09-08 16:17:17 公開日:2023-09-06
# 不均一モデルによる個人化フェデレーション学習に向けて

Towards Personalized Federated Learning via Heterogeneous Model Reassembly ( http://arxiv.org/abs/2308.08643v2 )

ライセンス: Link先を確認
Jiaqi Wang, Xingyi Yang, Suhan Cui, Liwei Che, Lingjuan Lyu, Dongkuan Xu, Fenglong Ma(参考訳) 本稿では,クライアントが異なるネットワーク構造を持つモデルを持つフェデレート学習におけるモデル不均一性の問題に対処することに焦点を当てる。 この問題を追跡するために,ヘテロジニアスモデルの再組み立てを利用して個別の連合学習を実現するpfedhrという新しいフレームワークを提案する。 特に,サーバ側でのモデルマッチング最適化タスクとして,ヘテロジニアスモデルパーソナライズの問題にアプローチする。 さらに、pFedHRは人間の介入を最小限に抑えた情報的かつ多様な個人化候補を自動かつ動的に生成する。 さらに,提案手法は,クライアントデータと異なる分布を持つ公開データを用いることで生じる悪影響をある程度緩和するものである。 実験の結果、pFedHRはIIDと非IIDの両方の設定下で3つのデータセットのベースラインよりも優れていた。 さらに、pFedHRは、異なる公開データを使用することによる悪影響を効果的に低減し、多様なパーソナライズされたモデルを自動で動的に生成する。

This paper focuses on addressing the practical yet challenging problem of model heterogeneity in federated learning, where clients possess models with different network structures. To track this problem, we propose a novel framework called pFedHR, which leverages heterogeneous model reassembly to achieve personalized federated learning. In particular, we approach the problem of heterogeneous model personalization as a model-matching optimization task on the server side. Moreover, pFedHR automatically and dynamically generates informative and diverse personalized candidates with minimal human intervention. Furthermore, our proposed heterogeneous model reassembly technique mitigates the adverse impact introduced by using public data with different distributions from the client data to a certain extent. Experimental results demonstrate that pFedHR outperforms baselines on three datasets under both IID and Non-IID settings. Additionally, pFedHR effectively reduces the adverse impact of using different public data and dynamically generates diverse personalized models in an automated manner.
翻訳日:2023-09-08 16:16:22 公開日:2023-09-06
# 意識の尺度としての知性

Intelligence as a Measure of Consciousness ( http://arxiv.org/abs/2309.00646v2 )

ライセンス: Link先を確認
Igor \v{S}evo(参考訳) 意識の兆候に対する人工システムの評価はますます関心が高まり、この点において、厳密な心理測定の枠組みが大きな言語モデルを評価する上で重要である可能性がある。 最も顕著な意識理論は、科学とメタフィジカルの両方で、人間のような意識に必要な要素として、異なる種類の情報結合について論じている。 ヒトと動物の脳における情報結合、人間の認知発達、創発的能力、および精神表現発達を、大きな言語モデルにおける類似現象と比較することにより、g因子やIQのような知能の心理測定は、間接的に意識経験の程度を近似する、と私は論じる。 私は、科学とメタフィジカルの両方の意識理論の幅広い情報源に基づいて、全てのシステムは、精神測定で確認可能な意識の程度を有しており、知能の心理測定尺度は、人工的または人間的のように、異なるシステム間での意識経験の相対的類似性を測定するのに使用できると論じている。

Evaluating artificial systems for signs of consciousness is increasingly becoming a pressing concern, and a rigorous psychometric measurement framework may be of crucial importance in evaluating large language models in this regard. Most prominent theories of consciousness, both scientific and metaphysical, argue for different kinds of information coupling as a necessary component of human-like consciousness. By comparing information coupling in human and animal brains, human cognitive development, emergent abilities, and mental representation development to analogous phenomena in large language models, I argue that psychometric measures of intelligence, such as the g-factor or IQ, indirectly approximate the extent of conscious experience. Based on a broader source of both scientific and metaphysical theories of consciousness, I argue that all systems possess a degree of consciousness ascertainable psychometrically and that psychometric measures of intelligence may be used to gauge relative similarities of conscious experiences across disparate systems, be they artificial or human.
翻訳日:2023-09-08 15:58:03 公開日:2023-09-06
# 合成臨床ノートに基づく公開共有型臨床大言語モデル

Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes ( http://arxiv.org/abs/2309.00237v2 )

ライセンス: Link先を確認
Sunjun Kweon, Junu Kim, Jiyoun Kim, Sujeong Im, Eunbyeol Cho, Seongsu Bae, Jungwoo Oh, Gyubok Lee, Jong Hak Moon, Seng Chan You, Seungjin Baek, Chang Hoon Han, Yoon Bin Jung, Yohan Jo, Edward Choi(参考訳) 患者の臨床ノートを扱うために調整された大規模言語モデルの開発は、厳格なプライバシー規制のためにこれらのノートのアクセシビリティと使用性が制限されることがしばしば妨げられている。 これらの課題に対処するため,我々はまず,生物医学文献から抽出した公開症例報告を用いて,大規模な臨床ノートを作成する。 次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。 asclepiusは合成データに基づいて訓練されているが、実際の臨床記録を用いて実世界のアプリケーションでの性能を評価する。 我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。 合成ノートを用いたアプローチをさらに検証するために,Asclepiusと実際の臨床ノートで訓練した変種を比較した。 本研究は, ハイパフォーマンスな臨床言語モデルを構築する際に, 実物の代用として有効であることを示すものである。 この結論は、GPT-4と医療専門家による詳細な評価によって裏付けられている。 asclepiusの開発に使用される重み、コード、データを含むすべてのリソースは、将来の研究のために公開アクセス可能である。

The development of large language models tailored for handling patients' clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research.
翻訳日:2023-09-08 15:57:19 公開日:2023-09-06
# Wordle: 人生のマイクロコスム。 Luck, Skill, Cheating, Loyalty, and Influence!

Wordle: A Microcosm of Life. Luck, Skill, Cheating, Loyalty, and Influence! ( http://arxiv.org/abs/2309.02110v2 )

ライセンス: Link先を確認
James P. Dilger(参考訳) WordleはNew York Times(nytimes.com)が提供している人気のオンラインワードゲームである。 現在、全世界で約200万人の英語版プレイヤーがいる。 プレイヤーは毎日の単語(ターゲット語)を推測する6つの試みがあり、各試みの後、各文字の正しさと位置に関する色分けされた情報を受け取る。 パズルの完成に成功するか、最終的に失敗した試みのどちらかの後に、ソフトウェアは情報理論を用いてプレイヤーの運とスキルを評価し、全てのプレイヤーのランダムなサンプルの第1、第2、第6の推測データを表示することができる。 最近私は、後者のデータが簡単にコピーしてスプレッドシートにペーストできるフォーマットで表示されていることを発見しました。 私は2023年5月から2023年8月まで、wordleプレーヤーの最初の推測に関するデータをコンパイルし、wordleプレイヤーに関する興味深い情報を推測しました。 A) 毎日約0.2-0.5%のプレイヤーが1回の挑戦でパズルを解く。 2,315の候補語のうちの1つをランダムに推測する確率は0.043%なので、4000万のプレイヤーがゲームの外でターゲット語を取得してカンニングすることを意味する。 b) プレイヤーの少なくとも1/3は、お気に入りの開始語又は数回のサイクルを有する。 また、対象語が繰り返されることはないことをプレイヤーは認識すべきであるが、ほとんどのプレイヤーは対象語として出現した後も開始語に忠実であるように見える。 C) 2023年8月15日,約30,000人のプレーヤーが,クロスワードパズルのヒントに基づいて,突然開始語を変更しました! ワードルプレイヤーは 影響を受けます! この調査はソーシャルメディアの投稿、調査、Google Trendsに留まらず、Wordleでの不正行為に関する確固とした定量的証拠を提供する。

Wordle is a popular, online word game offered by the New York Times (nytimes.com). Currently there are some 2 million players of the English version worldwide. Players have 6 attempts to guess the daily word (target word) and after each attempt, the player receives color-coded information about the correctness and position of each letter in the guess. After either a successful completion of the puzzle or the final unsuccessful attempt, software can assess the player's luck and skill using Information Theory and can display data for the first, second, ..., sixth guesses of a random sample of all players. Recently, I discovered that the latter data is presented in a format that can easily be copied and pasted into a spreadsheet. I compiled data on Wordle players' first guesses from May 2023 - August 2023 and inferred some interesting information about Wordle players. A) Every day, about 0.2-0.5% of players solve the puzzle in one attempt. Because the odds of guessing the one of 2,315 possible target words at random is 0.043%, this implies that 4,000 - 10,000 players cheat by obtaining the target word outside of playing the game! B) At least 1/3 of the players have a favorite starting word, or cycle through several. And even though players should be aware that target words are never repeated, most players appear to remain loyal to their starting word even after its appearance as a target word. C) On August 15, 2023, about 30,000 players abruptly changed their starting word, presumably based on a crossword puzzle clue! Wordle players can be influenced! This study goes beyond social media postings, surveys, and Google Trends to provide solid, quantitative evidence about cheating in Wordle.
翻訳日:2023-09-08 15:49:41 公開日:2023-09-06
# ストリーミングモデルにおける分布特性の検証

Testing properties of distributions in the streaming model ( http://arxiv.org/abs/2309.03245v1 )

ライセンス: Link先を確認
Sampriti Roy, Yadu Vasudev(参考訳) テストアルゴリズムに利用可能なメモリがバウンドされている場合、標準アクセスモデルと条件アクセスモデルにおける分散テストについて検討する。 どちらのシナリオでも、サンプルはオンライン形式で表示され、ゴールは、与えられた時間に何個のサンプルを格納できるかというメモリ制約を受けるサンプルの最適な数を用いて、分布の特性をテストすることである。 まず、条件付きアクセスオラクルに従ってサンプルが描画された場合、サンプルの複雑さと同一性をテストするための空間複雑さのトレードオフを提供する。 その結果,ほぼ最適に記憶されるサンプル数に対するメモリ制約により,単調分布の簡潔な表現を効率的に学習できることを示した。 また, 単調分布のアルゴリズムは, より大規模な分解可能分布に拡張可能であることを示す。

We study distribution testing in the standard access model and the conditional access model when the memory available to the testing algorithm is bounded. In both scenarios, the samples appear in an online fashion and the goal is to test the properties of distribution using an optimal number of samples subject to a memory constraint on how many samples can be stored at a given time. First, we provide a trade-off between the sample complexity and the space complexity for testing identity when the samples are drawn according to the conditional access oracle. We then show that we can learn a succinct representation of a monotone distribution efficiently with a memory constraint on the number of samples that are stored that is almost optimal. We also show that the algorithm for monotone distributions can be extended to a larger class of decomposable distributions.
翻訳日:2023-09-08 15:31:13 公開日:2023-09-06
# EGIC:セマンティックセグメンテーションによる低ビットレート生成画像圧縮の強化

EGIC: Enhanced Low-Bit-Rate Generative Image Compression Guided by Semantic Segmentation ( http://arxiv.org/abs/2309.03244v1 )

ライセンス: Link先を確認
Nikolai K\"orber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder(参考訳) 本稿では,1つのモデルから歪み知覚曲線を効率的にトラバースできる新しい画像圧縮手法EGICを紹介する。 具体的には、MSE最適化とGAN最適化デコーダ出力の間の残差を予測する暗黙的に符号化された画像補間法を提案する。 受信側では、残余がGANベースの再構成に与える影響を制御することができる。 GANベースのビルディングブロックの改善とともに、EGICはHiFiC、MRIC、DIRACなど、認識指向および歪み指向のベースラインを多種多様に上回り、歪み端ではVTM-20.0とほぼ同等に動作している。 EGICは実装が簡単で、非常に軽量(例えばHiFiCと比較して0.18xモデルパラメータ)で、補間特性に優れたため、低ビット範囲を対象とする実用的なアプリケーションには有望な候補である。

We introduce EGIC, a novel generative image compression method that allows traversing the distortion-perception curve efficiently from a single model. Specifically, we propose an implicitly encoded variant of image interpolation that predicts the residual between a MSE-optimized and GAN-optimized decoder output. On the receiver side, the user can then control the impact of the residual on the GAN-based reconstruction. Together with improved GAN-based building blocks, EGIC outperforms a wide-variety of perception-oriented and distortion-oriented baselines, including HiFiC, MRIC and DIRAC, while performing almost on par with VTM-20.0 on the distortion end. EGIC is simple to implement, very lightweight (e.g. 0.18x model parameters compared to HiFiC) and provides excellent interpolation characteristics, which makes it a promising candidate for practical applications targeting the low bit range.
翻訳日:2023-09-08 15:31:00 公開日:2023-09-06
# AutoBAによるバイオインフォマティクスの自動解析

Automated Bioinformatics Analysis via AutoBA ( http://arxiv.org/abs/2309.03242v1 )

ライセンス: Link先を確認
Juexiao Zhou, Bin Zhang, Xiuying Chen, Haoyang Li, Xiaopeng Xu, Siyuan Chen, Xin Gao(参考訳) 急速に成長し進化するオミクスデータにより、分析を扱うための合理化および適応可能なツールの需要は増え続けている。 このニーズに応えて,従来のオミクスデータ分析のために設計された大規模言語モデルに基づく自律型AIエージェントであるAuto Bioinformatics Analysis (AutoBA)を導入する。 AutoBAは、様々なバイオインフォマティクスタスクの詳細なステップバイステッププランを提供しながら、最小限のユーザ入力を要求することで分析プロセスを単純化する。 バイオインフォマティクスの専門家による厳密な検証を通じて、AutoBAの堅牢性と適応性は、全ゲノムシークエンシング(WGS)、RNAシークエンシング(RNA-seq)、単細胞RNAシークエンシング(RNA-seq)、ChIP-seq、空間転写学など、様々なオミクス解析ケースで確認されている。 入力データの変化に基づく自己設計分析プロセスに対するAutoBAのユニークな能力は、その汎用性をさらに強調する。 オンラインバイオインフォマティクスサービスと比較すると、AutoBAは分析をローカルにデプロイし、データのプライバシを保存する。 さらに、事前に定義されたパイプラインとは異なり、AutoBAは新たなバイオインフォマティクスツールと同期して適応性を持つ。 全体として、AutoBAは複雑なオミクスデータ分析の堅牢性と適応性を提供する便利なツールである。

With the fast-growing and evolving omics data, the demand for streamlined and adaptable tools to handle the analysis continues to grow. In response to this need, we introduce Auto Bioinformatics Analysis (AutoBA), an autonomous AI agent based on a large language model designed explicitly for conventional omics data analysis. AutoBA simplifies the analytical process by requiring minimal user input while delivering detailed step-by-step plans for various bioinformatics tasks. Through rigorous validation by expert bioinformaticians, AutoBA's robustness and adaptability are affirmed across a diverse range of omics analysis cases, including whole genome sequencing (WGS), RNA sequencing (RNA-seq), single-cell RNA-seq, ChIP-seq, and spatial transcriptomics. AutoBA's unique capacity to self-design analysis processes based on input data variations further underscores its versatility. Compared with online bioinformatic services, AutoBA deploys the analysis locally, preserving data privacy. Moreover, different from the predefined pipeline, AutoBA has adaptability in sync with emerging bioinformatics tools. Overall, AutoBA represents a convenient tool, offering robustness and adaptability for complex omics data analysis.
翻訳日:2023-09-08 15:30:42 公開日:2023-09-06
# GPTは計算機なしで数学的問題を解くことができる

GPT Can Solve Mathematical Problems Without a Calculator ( http://arxiv.org/abs/2309.03241v1 )

ライセンス: Link先を確認
Zhen Yang, Ming Ding, Qingsong Lv, Zhihuan Jiang, Zehai He, Yuyi Guo, Jinfeng Bai, Jie Tang(参考訳) 従来の研究では、大きな言語モデルは算術演算、特に8桁の乗算や十進数と分数を含む演算を計算機ツールを使わずに正確に行うことができないと推定されていた。 本稿ではこの誤解に挑戦することを目的とする。 十分なトレーニングデータを持つ20億パラメータの言語モデルでは、データの漏洩なしにほぼ100%の精度で、gpt-4(マルチ桁乗算精度はわずか4.3%)を大幅に上回って、正確にマルチ桁演算を実行できる。 また,マルチステップ演算やテキストに記述された数学問題を含むデータセットの glm-10b から微調整した mathglm が,5,000 例の中国数学問題テストセットで gpt-4 と同等の性能を実現することを実証した。

Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.
翻訳日:2023-09-08 15:30:19 公開日:2023-09-06
# repsgg:シーングラフ生成のためのエンティティと関係の新しい表現

RepSGG: Novel Representations of Entities and Relationships for Scene Graph Generation ( http://arxiv.org/abs/2309.03240v1 )

ライセンス: Link先を確認
Hengyue Liu, Bir Bhanu(参考訳) SGG(Scene Graph Generation)は近年大きな進歩を遂げている。 しかしながら、以前のほとんどの作品は、境界ボックスの提案、アンカー、学習可能なクエリに基づく固定サイズのエンティティ表現に大きく依存している。 各表現の濃度はパフォーマンスと計算オーバーヘッドのトレードオフが異なるため、高い代表的特徴の抽出はsggにとって困難かつ不可欠である。 本研究では,対象をクエリとして,対象をキーとして,それらの関係をペアワイズクエリとキーの間の最大注意重みとして定式化する,repsggと呼ばれる新しいアーキテクチャを提案する。 エンティティとリレーションのためのよりきめ細かい柔軟な表現力を持つrepsggは、関係推論のための意味論的差別的および代表的ポイントをサンプリングすることを学ぶ。 さらに、長い尾の分布もまた、SGGの一般化に重大な課題をもたらす。 トレーニング中の実行時のパフォーマンスに基づいてアフィン変換によって関係ロジットを変更できるように,実行時パフォーマンス誘導ロジット調整(PGLA)戦略を提案する。 この戦略は、支配クラスとレアクラスの間のよりバランスのとれたパフォーマンスを促進する。 実験の結果,repsggは,提案手法の有効性と効率を実証し,視覚的ゲノムおよびオープン画像v6データセット上で,最先端または同等の性能を高速に達成できることが示されている。

Scene Graph Generation (SGG) has achieved significant progress recently. However, most previous works rely heavily on fixed-size entity representations based on bounding box proposals, anchors, or learnable queries. As each representation's cardinality has different trade-offs between performance and computation overhead, extracting highly representative features efficiently and dynamically is both challenging and crucial for SGG. In this work, a novel architecture called RepSGG is proposed to address the aforementioned challenges, formulating a subject as queries, an object as keys, and their relationship as the maximum attention weight between pairwise queries and keys. With more fine-grained and flexible representation power for entities and relationships, RepSGG learns to sample semantically discriminative and representative points for relationship inference. Moreover, the long-tailed distribution also poses a significant challenge for generalization of SGG. A run-time performance-guided logit adjustment (PGLA) strategy is proposed such that the relationship logits are modified via affine transformations based on run-time performance during training. This strategy encourages a more balanced performance between dominant and rare classes. Experimental results show that RepSGG achieves the state-of-the-art or comparable performance on the Visual Genome and Open Images V6 datasets with fast inference speed, demonstrating the efficacy and efficiency of the proposed methods.
翻訳日:2023-09-08 15:30:02 公開日:2023-09-06
# POIレベルの群流推論のための時空間コントラスト自己監督学習

Spatio-Temporal Contrastive Self-Supervised Learning for POI-level Crowd Flow Inference ( http://arxiv.org/abs/2309.03239v1 )

ライセンス: Link先を確認
Songyu Ke, Ting Li, Li Song, Yanping Sun, Qintian Sun, Junbo Zhang, Yu Zheng(参考訳) Points of Interest (POIs) におけるクラウドフローの正確な取得は、効果的な交通管理、公共サービス、都市計画において重要である。 この重要性にもかかわらず、都市センシング技術の限界により、ほとんどの情報源のデータ品質は、各POIにおける群衆の流れを監視するのに不十分である。 これにより、低品質データからの正確な群集フローの推測が重要かつ困難な課題となる。 複雑さは3つの要因によって高められる。 1) \emph{The scarcity and rarity of labeled data} 2)pois間の複雑な時空間依存性 3)厳密なクラウドフローとgpsレポートの無数の相関関係。 これらの課題に対処するため、クラウドフロー推論問題を自己教師付き属性グラフ表現学習タスクとして再放送し、新規な 'underline{C}ontrastive \underline{S}elf-learning framework for \underline{S}patio-\underline{T}emporal data (\model) を導入する。 提案手法は,POIとその距離に基づいて構築された空間隣接グラフの構築から始める。 次に,ラベルなし時空間データを多量に活用するために,コントラスト学習手法を用いる。 我々は、同様のインスタンスからターゲットのサブグラフの表現を予測するために、交換された予測手法を採用する。 事前学習フェーズの後、モデルは正確な群衆フローデータで微調整される。 実世界の2つのデータセットを用いて行った実験では、広範囲な雑音データに基づいて事前訓練されたモデルが、スクラッチからトレーニングしたモデルより一貫して優れていることを示した。

Accurate acquisition of crowd flow at Points of Interest (POIs) is pivotal for effective traffic management, public service, and urban planning. Despite this importance, due to the limitations of urban sensing techniques, the data quality from most sources is inadequate for monitoring crowd flow at each POI. This renders the inference of accurate crowd flow from low-quality data a critical and challenging task. The complexity is heightened by three key factors: 1) \emph{The scarcity and rarity of labeled data}, 2) \emph{The intricate spatio-temporal dependencies among POIs}, and 3) \emph{The myriad correlations between precise crowd flow and GPS reports}. To address these challenges, we recast the crowd flow inference problem as a self-supervised attributed graph representation learning task and introduce a novel \underline{C}ontrastive \underline{S}elf-learning framework for \underline{S}patio-\underline{T}emporal data (\model). Our approach initiates with the construction of a spatial adjacency graph founded on the POIs and their respective distances. We then employ a contrastive learning technique to exploit large volumes of unlabeled spatio-temporal data. We adopt a swapped prediction approach to anticipate the representation of the target subgraph from similar instances. Following the pre-training phase, the model is fine-tuned with accurate crowd flow data. Our experiments, conducted on two real-world datasets, demonstrate that the \model pre-trained on extensive noisy data consistently outperforms models trained from scratch.
翻訳日:2023-09-08 15:29:39 公開日:2023-09-06
# 意図的デザイン選択が感情認識モデルの開発と評価に及ぼす影響

Implicit Design Choices and Their Impact on Emotion Recognition Model Development and Evaluation ( http://arxiv.org/abs/2309.03238v1 )

ライセンス: Link先を確認
Mimansa Jaiswal(参考訳) 感情認識は、感情の知覚と生成の両方に固有の主観性があるため、複雑なタスクである。 感情の主観性は、正確で堅牢な計算モデルを開発する上で大きな課題をもたらす。 本論文は感情認識の批判的側面を考察し、感情生成の心理的要因を考慮した多様なデータセットの収集から始める。 非表現的トレーニングデータの課題に対処するため、この研究はマルチモーダルストレス感情データセット(Multimodal Stressed Emotion dataset)を収集する。 ラベル主観性の問題に対処するため,データ拡張手法とアノテーションスキームが感情知覚やアノテータラベルに与える影響を包括的に分析した。 さらに、モデルトレーニング中に学習した感情表現からストレスのような重要な要因を分離するために、敵対的ネットワークを利用することで、自然な境界変数やバリエーションを扱う。 この研究は、センシティブな人口統計学変数の漏洩に関する懸念に対処するために、敵対的学習を活用して、センシティブな人口統計学情報をマルチモーダルエンコーディングから取り除く。 さらに、コスト効率の良い実世界のモデルテストのニーズに合わせて、最適化された社会学的評価指標を提案する。 この研究は、データセット、ラベル、モデリング、人口統計学およびメンバーシップ変数エンコーディングにおける課題の多面的研究を通じて、堅牢で実用的な感情認識を推進し、評価を行う。 この土台は、センシティブな人口統計情報をエンコードする可能性が低い、コスト効率が高く、一般化された感情認識モデルのためのものである。

Emotion recognition is a complex task due to the inherent subjectivity in both the perception and production of emotions. The subjectivity of emotions poses significant challenges in developing accurate and robust computational models. This thesis examines critical facets of emotion recognition, beginning with the collection of diverse datasets that account for psychological factors in emotion production. To handle the challenge of non-representative training data, this work collects the Multimodal Stressed Emotion dataset, which introduces controlled stressors during data collection to better represent real-world influences on emotion production. To address issues with label subjectivity, this research comprehensively analyzes how data augmentation techniques and annotation schemes impact emotion perception and annotator labels. It further handles natural confounding variables and variations by employing adversarial networks to isolate key factors like stress from learned emotion representations during model training. For tackling concerns about leakage of sensitive demographic variables, this work leverages adversarial learning to strip sensitive demographic information from multimodal encodings. Additionally, it proposes optimized sociological evaluation metrics aligned with cost-effective, real-world needs for model testing. This research advances robust, practical emotion recognition through multifaceted studies of challenges in datasets, labels, modeling, demographic and membership variable encoding in representations, and evaluation. The groundwork has been laid for cost-effective, generalizable emotion recognition models that are less likely to encode sensitive demographic information.
翻訳日:2023-09-08 15:29:10 公開日:2023-09-06
# 画像による連合学習:垂直分解と事前学習されたバックボーンは打ち負かすのが難しい

Federated Learning Over Images: Vertical Decompositions and Pre-Trained Backbones Are Difficult to Beat ( http://arxiv.org/abs/2309.03237v1 )

ライセンス: Link先を確認
Erdong Hu, Yuxin Tang, Anastasios Kyrillidis, Chris Jermaine(参考訳) フェデレーション環境での学習のためのアルゴリズムを注意深く評価し,様々な画像分類タスクにおける有用性をテストする。 画像の多様な集合を持たないデータセットの学習が結果に影響を与えるかどうか、事前学習した特徴抽出「バックボーン」を使用するか、学習者のパフォーマンスを評価するか(分類精度が不十分であると主張する)など、これまで十分に考慮されていなかった多くの課題について考察する。 全体として、さまざまな設定において、ニューラルネットワークを垂直に分解することで最良の結果が得られることが分かり、より標準的な和解手法よりも優れています。

We carefully evaluate a number of algorithms for learning in a federated environment, and test their utility for a variety of image classification tasks. We consider many issues that have not been adequately considered before: whether learning over data sets that do not have diverse sets of images affects the results; whether to use a pre-trained feature extraction "backbone"; how to evaluate learner performance (we argue that classification accuracy is not enough), among others. Overall, across a wide variety of settings, we find that vertically decomposing a neural network seems to give the best results, and outperforms more standard reconciliation-used methods.
翻訳日:2023-09-08 15:28:44 公開日:2023-09-06
# ディープフェイクアルゴリズムの比較解析

Comparative Analysis of Deep-Fake Algorithms ( http://arxiv.org/abs/2309.03295v1 )

ライセンス: Link先を確認
Nikhil Sontakke, Sejal Utekar, Shivansh Rastogi, Shriraj Sonawane(参考訳) 高品質のデジタルカメラを備えたスマートフォンが普及し、ビデオや画像を録画、編集、共有するための幅広いソフトウェアアプリやディープラーニングaiプラットフォームへのアクセスが容易になったため、"フェイキング"ビデオという新たな現象が生まれている。 deepfakeアルゴリズムは、本物とは事実上区別がつかない偽の画像やビデオを作成できる。 したがって、デジタルビジュアルメディアの完全性を検出し評価できる技術が不可欠である。 deepfakes(ディープラーニングベースの偽ビデオとしても知られる)は、画像やビデオをオリジナルと事実上区別できない方法で操作し、変更する能力があるため、近年大きな関心事となっている。 これらのディープフェイクビデオは、誤った情報を拡散したり、個人を偽装したり、偽ニュースを作ったりといった悪意ある目的に使用できる。 ディープフェイク検出技術は、顔認識、モーション分析、音声と視覚の同期といった様々なアプローチを使用して偽ビデオを特定し、フラグを立てる。 しかし、ディープフェイク技術の急速な進歩により、これらの動画を高精度に検出することがますます困難になっている。 本稿では,deepfake作成・検出技術の現状について概観する。 本稿では,ディープフェイク作成に使用する深層学習アプローチと,それを検出する技術について検討する。 さらに,現在のディープフェイク検出手法の限界と課題を分析し,今後の研究方向性について考察する。 本論文は、ディープフェイクの社会への悪影響とデジタルビジュアルメディアの整合性を確保するために、ディープフェイク検出技術における継続的な研究と開発の重要性を強調した。

Due to the widespread use of smartphones with high-quality digital cameras and easy access to a wide range of software apps for recording, editing, and sharing videos and images, as well as the deep learning AI platforms, a new phenomenon of 'faking' videos has emerged. Deepfake algorithms can create fake images and videos that are virtually indistinguishable from authentic ones. Therefore, technologies that can detect and assess the integrity of digital visual media are crucial. Deepfakes, also known as deep learning-based fake videos, have become a major concern in recent years due to their ability to manipulate and alter images and videos in a way that is virtually indistinguishable from the original. These deepfake videos can be used for malicious purposes such as spreading misinformation, impersonating individuals, and creating fake news. Deepfake detection technologies use various approaches such as facial recognition, motion analysis, and audio-visual synchronization to identify and flag fake videos. However, the rapid advancement of deepfake technologies has made it increasingly difficult to detect these videos with high accuracy. In this paper, we aim to provide a comprehensive review of the current state of deepfake creation and detection technologies. We examine the various deep learning-based approaches used for creating deepfakes, as well as the techniques used for detecting them. Additionally, we analyze the limitations and challenges of current deepfake detection methods and discuss future research directions in this field. Overall, the paper highlights the importance of continued research and development in deepfake detection technologies in order to combat the negative impact of deepfakes on society and ensure the integrity of digital visual media.
翻訳日:2023-09-08 15:20:30 公開日:2023-09-06
# 再帰分解による侵入応答のスケーラブル学習

Scalable Learning of Intrusion Responses through Recursive Decomposition ( http://arxiv.org/abs/2309.03292v1 )

ライセンス: Link先を確認
Kim Hammar and Rolf Stadler(参考訳) 本稿では,ITインフラにおける自動侵入応答について検討し,攻撃者と防御者の相互作用を部分的に観察された確率ゲームとして定式化する。 この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃と防衛戦略が共進化するアプローチに従う。 以前の研究で提案されたソリューションは、このアプローチが小さなインフラストラクチャで実現可能であることを証明しているが、インフラストラクチャサイズによる計算複雑性の指数関数的な増加のため、現実的なシナリオにはスケールしない。 本稿では,ゲームを並列に解けるサブゲームに再帰的に分解する手法を導入することで,この問題に対処する。 最適停止理論を適用することで,これらのサブゲームにおける最善の応答戦略が閾値構造を示し,効率的に計算できることを示す。 この分解ゲームを解決するために,確率近似を用いてナッシュ平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを導入する。 実際の侵入行動と応答行動の実行が可能なエミュレーション環境で学習戦略を評価する。 以上の結果から,dfspは平衡を近似し,現実的インフラ構成の最先端アルゴリズムを有意に上回ることがわかった。

We study automated intrusion response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed stochastic game. To solve the game we follow an approach where attack and defense strategies co-evolve through reinforcement learning and self-play toward an equilibrium. Solutions proposed in previous work prove the feasibility of this approach for small infrastructures but do not scale to realistic scenarios due to the exponential growth in computational complexity with the infrastructure size. We address this problem by introducing a method that recursively decomposes the game into subgames which can be solved in parallel. Applying optimal stopping theory we show that the best response strategies in these subgames exhibit threshold structures, which allows us to compute them efficiently. To solve the decomposed game we introduce an algorithm called Decompositional Fictitious Self-Play (DFSP), which learns Nash equilibria through stochastic approximation. We evaluate the learned strategies in an emulation environment where real intrusions and response actions can be executed. The results show that the learned strategies approximate an equilibrium and that DFSP significantly outperforms a state-of-the-art algorithm for a realistic infrastructure configuration.
翻訳日:2023-09-08 15:19:58 公開日:2023-09-06
# 対称性分解エンタングルメントエントロピー,スペクトルと境界等角場理論

Symmetry-resolved Entanglement Entropy, Spectra & Boundary Conformal Field Theory ( http://arxiv.org/abs/2309.03287v1 )

ライセンス: Link先を確認
Yuya Kusuki, Sara Murciano, Hirosi Ooguri and Sridip Pal(参考訳) 我々は、任意の有限あるいはコンパクトリー群の下で不変である1+1$D共形場理論(CFT)の基底状態における1つの単一区間における対称性分解(SR)絡み合いエントロピー(EE)の包括的解析を行う。 我々は境界CFTアプローチを用いて全EEの研究を行い、SREEの普遍的な先行順序の挙動とその最初の修正を可能にし、考慮中の既約表現に明示的に依存し、絡み合いの公平さを損なう。 これらの計算を行うための2つの異なるスキームを提案する。 第一は、還元密度行列の荷電モーメントの評価に依存する。 これは、理論の境界状態に対して対称性を生成する欠陥線の作用を研究することを含む。 この視点はまた、異常対称性が存在する場合の対称性分解の研究の不可能性について議論する道を開く。 第2のスキームは、SREEとオービフォールドCFTの分割関数とを並列に描画する。 このアプローチにより、チャージモーメントを使わずにSREEを直接計算できる。 この観点からは、異常対称性に対する対称性解決されたEEを定義することは、障害からガウイングへと生じる。 最後に、有限対称性群の下でのCFT不変量に対する対称性分解エンタングルメントスペクトルを導出する。 コンパクトリー群を持つ CFT の同様の問題を再検討し、$U(1)$解決絡み合いスペクトルに対する改善公式を明示的に導出する。 タウバー形式を用いて、上述のeeスペクトルを最適下界と上界を証明して厳密に推定することができる。 アーベルの場合、境界上で数値的なチェックを行い、完全一致を求める。

We perform a comprehensive analysis of the symmetry-resolved (SR) entanglement entropy (EE) for one single interval in the ground state of a $1+1$D conformal field theory (CFT), that is invariant under an arbitrary finite or compact Lie group, $G$. We utilize the boundary CFT approach to study the total EE, which enables us to find the universal leading order behavior of the SREE and its first correction, which explicitly depends on the irreducible representation under consideration and breaks the equipartition of entanglement. We present two distinct schemes to carry out these computations. The first relies on the evaluation of the charged moments of the reduced density matrix. This involves studying the action of the defect-line, that generates the symmetry, on the boundary states of the theory. This perspective also paves the way for discussing the infeasibility of studying symmetry resolution when an anomalous symmetry is present. The second scheme draws a parallel between the SREE and the partition function of an orbifold CFT. This approach allows for the direct computation of the SREE without the need to use charged moments. From this standpoint, the infeasibility of defining the symmetry-resolved EE for an anomalous symmetry arises from the obstruction to gauging. Finally, we derive the symmetry-resolved entanglement spectra for a CFT invariant under a finite symmetry group. We revisit a similar problem for CFT with compact Lie group, explicitly deriving an improved formula for $U(1)$ resolved entanglement spectra. Using the Tauberian formalism, we can estimate the aforementioned EE spectra rigorously by proving an optimal lower and upper bound on the same. In the abelian case, we perform numerical checks on the bound and find perfect agreement.
翻訳日:2023-09-08 15:19:39 公開日:2023-09-06
# 単一磁束量子回路から室温へのフォトニックリンク

Photonic link from single flux quantum circuits to room temperature ( http://arxiv.org/abs/2309.03284v1 )

ライセンス: Link先を確認
Mohan Shen, Jiacheng Xie, Yuntao Xu, Sihao Wang, Risheng Cheng, Wei Fu, Yiyu Zhou, Hong X. Tang(参考訳) 低温環境と室温環境の間の広帯域でエネルギー効率の高い信号伝達は、超伝導量子回路や古典論理回路において大きなボトルネックとなっている。 フォトニックリンクは、高い帯域幅と低い熱負荷を同時に提供することで、この課題を克服することを約束している。 しかし、極低温電気光学変調器の開発は、超伝導回路の厳密な要求により、電気信号のフォトニック読み出しの鍵となる。 例えば、ラピッド単一磁束量子回路(rsfq)は、従来の回路で使用される電圧レベルの信号よりもはるかに低い数ミリボルト(mv)の小さな信号振幅で動作している。 本稿では,1m長のSEOM上に42mVの極低半波電圧V{\piを印加した新しい超伝導電気光学変調器(SEOM)により,追加の電気増幅を行なわずにRSFQ回路を初めて直接的に読み取ることを示す。 超伝導体の低オーミック損失を利用して、基本V{\pi}帯域幅のトレードオフを破り、低温で0.2mのSEOMで最大17GHzの光帯域を示す。 本研究は,今後の大型超伝導回路と室温電子回路間の高帯域信号伝送を実現するための有効なソリューションを提案する。

Broadband, energy-efficient signal transfer between cryogenic and room-temperature environment has been a major bottleneck for superconducting quantum and classical logic circuits. Photonic links promise to overcome this challenge by offering simultaneous high bandwidth and low thermal load. However, the development of cryogenic electro-optic modulators -- a key component for photonic readout of electrical signals -- has been stifled by the stringent requirements of superconducting circuits. Rapid single flux quantum circuits (RSFQ), for example, operate with a tiny signal amplitude of only a few millivolts (mV), far below the volt-level signal used in conventional circuits. Here, we demonstrate the first direct optical readout of an RSFQ circuit without additional electrical amplification enabled by a novel superconducting electro-optic modulator (SEOM) featuring a record-low half-wave voltage V{\pi} of 42 mV on a 1 m-long SEOM. Leveraging the low ohmic loss of superconductors, we break the fundamental V{\pi}-bandwidth trade-off and demonstrate electro-optic bandwidth up to 17 GHz on a 0.2 m-long SEOM at cryogenic temperatures. Our work presents a viable solution toward high-bandwidth signal transfer between future large-scale superconducting circuits and room-temperature electronics.
翻訳日:2023-09-08 15:19:09 公開日:2023-09-06
# 量子ニューラルネットワークに 独自の周波数を選ばせ

Let Quantum Neural Networks Choose Their Own Frequencies ( http://arxiv.org/abs/2309.03279v1 )

ライセンス: Link先を確認
Ben Jaderberg, Antonio A. Gentile, Youssef Achari Berrada, Elvira Shishenina and Vincent E. Elfving(参考訳) 機械学習モデルとしてのパラメータ化量子回路は、典型的には入力特徴の部分フーリエ級数として表現され、特徴写像のジェネレータハミルトンにより周波数が一意に決定される。 通常、これらのデータエンコーディングジェネレータは事前に選択され、表現できる関数の空間を固定する。 この研究では、量子モデルをジェネレータにトレーニング可能なパラメータの集合を含むように一般化し、トレーニング可能な周波数(TF)量子モデルへと導く。 TFモデルでは,非正規空間周波数やフレキシブルスペクトルの富度など,手前の課題を解く上で望ましい特性を持つジェネレータを学習する方法を数値的に示す。 最後に,各符号化操作に1つのパラメータのみを付加したTFモデルを用いて,Navier-Stokes方程式の解法精度の向上を示す。 TFモデルは従来の固定周波数モデルを含むため、変分量子機械学習において妥当なデフォルト選択を提供することができる。

Parameterized quantum circuits as machine learning models are typically well described by their representation as a partial Fourier series of the input features, with frequencies uniquely determined by the feature map's generator Hamiltonians. Ordinarily, these data-encoding generators are chosen in advance, fixing the space of functions that can be represented. In this work we consider a generalization of quantum models to include a set of trainable parameters in the generator, leading to a trainable frequency (TF) quantum model. We numerically demonstrate how TF models can learn generators with desirable properties for solving the task at hand, including non-regularly spaced frequencies in their spectra and flexible spectral richness. Finally, we showcase the real-world effectiveness of our approach, demonstrating an improved accuracy in solving the Navier-Stokes equations using a TF model with only a single parameter added to each encoding operation. Since TF models encompass conventional fixed frequency models, they may offer a sensible default choice for variational quantum machine learning.
翻訳日:2023-09-08 15:18:49 公開日:2023-09-06
# 無限範囲量子スピングラスの場における平衡ダイナミクス

Equilibrium dynamics of infinite-range quantum spin glasses in a field ( http://arxiv.org/abs/2309.03255v1 )

ライセンス: Link先を確認
Maria Tikhanovskaya, Subir Sachdev, Rhine Samajdar(参考訳) 無限範囲のランダム交換相互作用を持つ量子イジングモデルのスピンガラス相に対する低エネルギースペクトルとパリレプリカ対称性の破れ関数を横・縦(h$)フィールドで決定する。 すべての$h$に対して、スピンガラス状態は完全なレプリカ対称性の破れを持ち、局所スピンスペクトルは周波数とともに線形に消滅するスペクトル密度とギャップレスであることを示す。 これらの結果は、低周波で正確な結果が得られるように作用汎関数$\unicode{x2014}$arguedを用いて得られる。 また、無限範囲の球面量子$p$-rotorモデルの解を非ゼロ$h$で提示する: ここで、スピンガラス状態は1ステップのレプリカ対称性の破れを持ち、ギャップレス性は追加の限界安定性条件を仮定した後のみ現れる。 トラップされたRydberg原子のランダムな配列の実験への接続が注目される。

We determine the low-energy spectrum and Parisi replica symmetry breaking function for the spin glass phase of the quantum Ising model with infinite-range random exchange interactions and transverse and longitudinal ($h$) fields. We show that, for all $h$, the spin glass state has full replica symmetry breaking, and the local spin spectrum is gapless with a spectral density which vanishes linearly with frequency. These results are obtained using an action functional$\unicode{x2014}$argued to yield exact results at low frequencies$\unicode{x2014}$that expands in powers of a spin glass order parameter, which is is bilocal in time, and a matrix in replica space. We also present the exact solution of the infinite-range spherical quantum $p$-rotor model at nonzero $h$: here, the spin glass state has one-step replica symmetry breaking, and gaplessness only appears after imposition of an additional marginal stability condition. Possible connections to experiments on random arrays of trapped Rydberg atoms are noted.
翻訳日:2023-09-08 15:18:31 公開日:2023-09-06
# 時間的知識グラフ推論のための時間的誘導経路ニューラルネットワーク

Temporal Inductive Path Neural Network for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.03251v1 )

ライセンス: Link先を確認
Hao Dong, Pengyang Wang, Meng Xiao, Zhiyuan Ning, Pengfei Wang, Yuanchun Zhou(参考訳) 時間的知識グラフ(TKG)は、時間次元を組み込んだ伝統的な知識グラフ(KG)の拡張である。 TKGの推論は、歴史的事象に基づく将来の事実の予測を目的とした重要な課題である。 重要な課題は、歴史的部分グラフと時間的パターン内の構造的依存関係を明らかにすることである。 既存のアプローチの多くは、グラフのノードが知識表現において重要な役割を果たすため、エンティティモデリングに依存するtkgモデルである。 しかし、現実世界のシナリオは、しばしば多数のエンティティを伴い、時間とともに新しいエンティティが出現する。 これにより、エンティティ依存のメソッドが大量のエンティティに対処することが難しくなり、新しいエンティティを効果的に扱うことも大きな課題となる。 そこで我々は,実体に依存しない視点で歴史情報をモデル化するTiPNN(Temporal Inductive Path Neural Network)を提案する。 具体的には、TiPNNは履歴から情報を包括的にキャプチャし、カプセル化するために、ヒストリー時間グラフという統一グラフを採用している。 その後、定義した問合せ対応時間経路を用いて、履歴時間グラフ上の問合せに関連する履歴経路情報をモデル化する。 大規模な実験では,提案モデルが大幅な性能向上を達成するだけでなく,帰納的設定も扱えるとともに,履歴時間グラフによる証拠の推論を容易にすることが示されている。

Temporal Knowledge Graph (TKG) is an extension of traditional Knowledge Graph (KG) that incorporates the dimension of time. Reasoning on TKGs is a crucial task that aims to predict future facts based on historical occurrences. The key challenge lies in uncovering structural dependencies within historical subgraphs and temporal patterns. Most existing approaches model TKGs relying on entity modeling, as nodes in the graph play a crucial role in knowledge representation. However, the real-world scenario often involves an extensive number of entities, with new entities emerging over time. This makes it challenging for entity-dependent methods to cope with extensive volumes of entities, and effectively handling newly emerging entities also becomes a significant challenge. Therefore, we propose Temporal Inductive Path Neural Network (TiPNN), which models historical information in an entity-independent perspective. Specifically, TiPNN adopts a unified graph, namely history temporal graph, to comprehensively capture and encapsulate information from history. Subsequently, we utilize the defined query-aware temporal paths to model historical path information related to queries on history temporal graph for the reasoning. Extensive experiments illustrate that the proposed model not only attains significant performance enhancements but also handles inductive settings, while additionally facilitating the provision of reasoning evidence through history temporal graphs.
翻訳日:2023-09-08 15:18:11 公開日:2023-09-06
# 地理空間研究におけるグラフ理論の応用

Graph Theory Applications in Advanced Geospatial Research ( http://arxiv.org/abs/2309.03249v1 )

ライセンス: Link先を確認
Surajit Ghosh, Archita Mallick, Anuva Chowdhury, Kounik De Sarkar(参考訳) 地理空間科学(geospatial sciences)には、環境監視輸送からインフラ計画、位置ベースの分析やサービスまで、幅広い応用が含まれている。 数学におけるグラフ理論のアルゴリズムは、空間的関係を効率的にモデル化し分析する能力から、これらの領域において欠かせないツールとして登場してきた。 本稿では,地理空間科学におけるグラフ理論アルゴリズムの適用について検討し,ネットワーク解析,空間接続性,地理情報システム,その他の空間問題解決シナリオにおけるその役割を明らかにする。 モデリングプロセスを支援するグラフ理論の重要な概念とアルゴリズムに関する包括的なアイデアを提供する。 本報告は,実世界の地理空間的課題と機会に取り組む上でのグラフ理論の実際的意義に関する洞察を提供する。 この分野での広範な研究、革新的技術、方法論を列挙している。

Geospatial sciences include a wide range of applications, from environmental monitoring transportation to infrastructure planning, as well as location-based analysis and services. Graph theory algorithms in mathematics have emerged as indispensable tools in these domains due to their capability to model and analyse spatial relationships efficiently. This technical report explores the applications of graph theory algorithms in geospatial sciences, highlighting their role in network analysis, spatial connectivity, geographic information systems, and various other spatial problem-solving scenarios. It provides a comprehensive idea about the key concepts and algorithms of graph theory that assist the modelling processes. The report provides insights into the practical significance of graph theory in addressing real-world geospatial challenges and opportunities. It lists the extensive research, innovative technologies and methodologies implemented in this field.
翻訳日:2023-09-08 15:17:49 公開日:2023-09-06
# 運動解析によるロバスト視覚追跡

Robust Visual Tracking by Motion Analyzing ( http://arxiv.org/abs/2309.03247v1 )

ライセンス: Link先を確認
Mohammed Leo and Kurban Ubul and ShengJie Cheng and Michael Ma(参考訳) 近年,ビデオオブジェクト・セグメンテーション (VOS) がビデオオブジェクト追跡 (VOT) の補完手法として出現している。 VOSはターゲット周辺のすべてのピクセルの分類に重点を置いており、正確な形状のラベル付けを可能にしている。 しかし、従来のセグメンテーションモジュールは通常、隣接するフレーム間の情報を無視して、フレームごとにピクセルを分類する。 本稿では,固有テンソル構造を用いて運動パターンを分析することで,この制限に対処する新しいアルゴリズムを提案する。 タッカー2テンソル分解によって得られるテンソル構造は、ターゲットの動きを記述するのに有効であることが証明される。 この情報を取り入れることで、SOTAによるLaSOT\cite{fan2019lasot}, AVisT\cite{noman2022avist}, OTB100\cite{7001050}, GOT-10k\cite{huang2019got} LaSOT\cite{fan2019lasot}の4つのベンチマークの競争結果を得た。 さらに,提案するトラッカーはリアルタイム動作が可能であり,実用的応用に価値が付加される。

In recent years, Video Object Segmentation (VOS) has emerged as a complementary method to Video Object Tracking (VOT). VOS focuses on classifying all the pixels around the target, allowing for precise shape labeling, while VOT primarily focuses on the approximate region where the target might be. However, traditional segmentation modules usually classify pixels frame by frame, disregarding information between adjacent frames. In this paper, we propose a new algorithm that addresses this limitation by analyzing the motion pattern using the inherent tensor structure. The tensor structure, obtained through Tucker2 tensor decomposition, proves to be effective in describing the target's motion. By incorporating this information, we achieved competitive results on Four benchmarks LaSOT\cite{fan2019lasot}, AVisT\cite{noman2022avist}, OTB100\cite{7001050}, and GOT-10k\cite{huang2019got} LaSOT\cite{fan2019lasot} with SOTA. Furthermore, the proposed tracker is capable of real-time operation, adding value to its practical application.
翻訳日:2023-09-08 15:17:39 公開日:2023-09-06
# evoclinical: 自動がん登録システムのためのアクティブトランスファー学習を備えたサイバーサイバーデジタルツインの進化

EvoCLINICAL: Evolving Cyber-Cyber Digital Twin with Active Transfer Learning for Automated Cancer Registry System ( http://arxiv.org/abs/2309.03246v1 )

ライセンス: Link先を確認
Chengjie Lu, Qinghua Xu, Tao Yue, Shaukat Ali, Thomas Schwitalla, Jan F. Nyg{\aa}rd(参考訳) ノルウェーがん登録 (CRN) は、ノルウェーの異なる医療機関(例えば、医療機関、病院)から癌メッセージを受け取ることで、がん患者の情報を収集している。 このようなメッセージは、GURIという自動がん登録システムによって検証される。 がん研究の基礎を築き、そのステークホルダーに重要ながん関連統計を提供するため、その正しい手術は重要である。 guri用のcyber digital twin(ccdt)の構築は、実システムとの集中的なインタラクションを必要とせずに、guriの運用状態の様々な実験と高度な分析を容易化する。 しかし、新しい診断・治療、技術進歩などにより、GURIは常に進化している。 したがって、ccdtはguriと同期するように進化するべきです。 このような同期を実現する上での鍵となる課題は、ccdtの進化には新しいguriでラベル付けされた豊富なデータが必要であることである。 この課題に対処するために、我々は、前バージョンのGURI向けに開発されたCCDTを事前訓練されたモデルとみなし、新しいGURIバージョンをクエリすることでラベル付けされたデータセットを微調整するEvoCLINICALを提案する。 EvoCLINICALは遺伝的アルゴリズムを用いて、候補データセットからがんメッセージの最適なサブセットを選択し、GURIをクエリする。 3つの進化過程におけるEvoCLINicalの評価を行った。 精度,リコール,F1スコアはいずれも91%以上であり,EvoCLINicalの有効性を示した。 さらに,EvoCLINicalの能動的学習部をランダム選択に置き換えて,EvoCLINicalの全体的な性能に対する伝達学習の寄与を研究する。 その結果, アクティブラーニングの学習能力は, 連続的に向上することがわかった。

The Cancer Registry of Norway (CRN) collects information on cancer patients by receiving cancer messages from different medical entities (e.g., medical labs, and hospitals) in Norway. Such messages are validated by an automated cancer registry system: GURI. Its correct operation is crucial since it lays the foundation for cancer research and provides critical cancer-related statistics to its stakeholders. Constructing a cyber-cyber digital twin (CCDT) for GURI can facilitate various experiments and advanced analyses of the operational state of GURI without requiring intensive interactions with the real system. However, GURI constantly evolves due to novel medical diagnostics and treatment, technological advances, etc. Accordingly, CCDT should evolve as well to synchronize with GURI. A key challenge of achieving such synchronization is that evolving CCDT needs abundant data labelled by the new GURI. To tackle this challenge, we propose EvoCLINICAL, which considers the CCDT developed for the previous version of GURI as the pretrained model and fine-tunes it with the dataset labelled by querying a new GURI version. EvoCLINICAL employs a genetic algorithm to select an optimal subset of cancer messages from a candidate dataset and query GURI with it. We evaluate EvoCLINICAL on three evolution processes. The precision, recall, and F1 score are all greater than 91%, demonstrating the effectiveness of EvoCLINICAL. Furthermore, we replace the active learning part of EvoCLINICAL with random selection to study the contribution of transfer learning to the overall performance of EvoCLINICAL. Results show that employing active learning in EvoCLINICAL increases its performances consistently.
翻訳日:2023-09-08 15:17:15 公開日:2023-09-06
# 音声テキスト共有潜時表現を用いた忠実誘導による高能率音声キャプション

Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation ( http://arxiv.org/abs/2309.03340v1 )

ライセンス: Link先を確認
Arvind Krishna Sridhar, Yinyi Guo, Erik Visser, Rehana Mahfuz(参考訳) マルチモーダルテキスト生成タスク用に事前学習されたトランスフォーマーアーキテクチャを開発する研究が盛んである。 性能は向上するが、このようなモデルはしばしば過度にパラメータ化されるため、幻覚と大きなメモリフットプリントに悩まされ、エッジデバイスへのデプロイが困難になる。 本稿では,これら2つの課題に対処し,自動音声キャプションの適用について述べる。 まず,幻覚音声キャプション生成のためのデータ拡張手法を提案し,音声テキスト共有潜在空間に基づく類似性が幻覚検出に適していることを示す。 そこで本研究では,より少ないデータで学習した大規模モデルと同等の性能を持つ小型音声キャプションモデルを実現する,パラメータ効率の高い推定時間忠実復号アルゴリズムを提案する。 ビーム復号ステップの間、小さなモデルは音声テキスト共有潜在表現を使用して、生成されたテキストと対応する入力オーディオを意味的に整合させる。 グリーディロールアウト中間ビームの潜在表現投影とオーディオクリップとのコサイン類似性を組み込むことにより、ビーム確率に忠実な誘導を導入する。 提案手法は,従来の音声キャプションと意味的類似度指標を用いて,性能と複雑性のトレードオフを図りながら,ベースラインに対するアルゴリズムの有効性を検証した。

There has been significant research on developing pretrained transformer architectures for multimodal-to-text generation tasks. Albeit performance improvements, such models are frequently overparameterized, hence suffer from hallucination and large memory footprint making them challenging to deploy on edge devices. In this paper, we address both these issues for the application of automated audio captioning. First, we propose a data augmentation technique for generating hallucinated audio captions and show that similarity based on an audio-text shared latent space is suitable for detecting hallucination. Then, we propose a parameter efficient inference time faithful decoding algorithm that enables smaller audio captioning models with performance equivalent to larger models trained with more data. During the beam decoding step, the smaller model utilizes an audio-text shared latent representation to semantically align the generated text with corresponding input audio. Faithful guidance is introduced into the beam probability by incorporating the cosine similarity between latent representation projections of greedy rolled out intermediate beams and audio clip. We show the efficacy of our algorithm on benchmark datasets and evaluate the proposed scheme against baselines using conventional audio captioning and semantic similarity metrics while illustrating tradeoffs between performance and complexity.
翻訳日:2023-09-08 15:11:00 公開日:2023-09-06
# SADIR:3次元画像再構成のための形状認識拡散モデル

SADIR: Shape-Aware Diffusion Models for 3D Image Reconstruction ( http://arxiv.org/abs/2309.03335v1 )

ライセンス: Link先を確認
Nivetha Jayakumar, Tonmoy Hossain, Miaomiao Zhang(参考訳) 限られた2次元画像からの3次元画像再構成は、コンピュータビジョンと画像解析における長年にわたる課題である。 ディープラーニングベースのアプローチはこの分野で優れたパフォーマンスを達成しているが、既存のディープネットワークは画像に表示されるオブジェクトの形状構造を効果的に活用できないことが多い。 その結果、復元された物体のトポロジーはよく保存されず、不連続、穴、異なる部分間の不一致接続などのアーティファクトが存在する。 本稿では,これらの問題に対処する3次元画像再構成のための拡散モデルに基づく形状認識ネットワーク,SADIRを提案する。 3次元復元のための画像強度の空間相関を主とする従来の手法とは対照的に,本モデルでは,トレーニングデータから学習した形状事前情報を用いて復元過程を導出する。 そこで我々は,変形モデルに基づく平均形状を同時に学習する共同学習ネットワークを開発した。 各復元された画像は、平均形状の変形型と見なされる。 我々は,脳と心臓の磁気共鳴画像(MRI)におけるSADIRモデルの有効性を検証した。 実験結果から,本手法は画像中の物体の形状構造をよりよく保存し,再現誤差を低くしてベースラインよりも優れていた。

3D image reconstruction from a limited number of 2D images has been a long-standing challenge in computer vision and image analysis. While deep learning-based approaches have achieved impressive performance in this area, existing deep networks often fail to effectively utilize the shape structures of objects presented in images. As a result, the topology of reconstructed objects may not be well preserved, leading to the presence of artifacts such as discontinuities, holes, or mismatched connections between different parts. In this paper, we propose a shape-aware network based on diffusion models for 3D image reconstruction, named SADIR, to address these issues. In contrast to previous methods that primarily rely on spatial correlations of image intensities for 3D reconstruction, our model leverages shape priors learned from the training data to guide the reconstruction process. To achieve this, we develop a joint learning network that simultaneously learns a mean shape under deformation models. Each reconstructed image is then considered as a deformed variant of the mean shape. We validate our model, SADIR, on both brain and cardiac magnetic resonance images (MRIs). Experimental results show that our method outperforms the baselines with lower reconstruction error and better preservation of the shape structure of objects within the images.
翻訳日:2023-09-08 15:10:40 公開日:2023-09-06
# マルチリレーショナルグラフ学習による胸部X線分類のエキスパート不確かさと重症度

Expert Uncertainty and Severity Aware Chest X-Ray Classification by Multi-Relationship Graph Learning ( http://arxiv.org/abs/2309.03331v1 )

ライセンス: Link先を確認
Mengliang Zhang, Xinyue Hu, Lin Gu, Liangchen Liu, Kazuma Kobayashi, Tatsuya Harada, Ronald M. Summers and Yingying Zhu(参考訳) 胸部X線(CXR)を呈する患者は、しばしば複数の肺疾患を患っている。 複雑な病理、画像中の異なる肺病変の微妙なテクスチャ変化、および患者の状態の違いにより患者の状態を評価する場合、放射線科医は、長期臨床訓練や専門的指導を受けたとしても不確かになる可能性があり、cxrレポートに基づく疾患ラベルの抽出に多くのノイズが生じる。 本稿では,cxrレポートから疾患ラベルを再抽出し,疾患の重症度と分類の不確実性を考慮してより現実的化する。 私たちの貢献は次のとおりです。 1) 臨床専門家と議論するキーワードを用いた規則に基づくアプローチにより, 重症度と不確実性を有するラベルを抽出した。 2) 胸部x線診断のさらなる説明性を向上させるため, 専門的不確実性認識損失関数を用いたマルチリレーショナルグラフ学習法を考案した。 3. マルチリレーショナルグラフ学習手法は, 疾患分類結果も解釈できる。 実験の結果,疾患の重症度と不確実性を考慮したモデルが従来の最先端手法を上回っていることがわかった。

Patients undergoing chest X-rays (CXR) often endure multiple lung diseases. When evaluating a patient's condition, due to the complex pathologies, subtle texture changes of different lung lesions in images, and patient condition differences, radiologists may make uncertain even when they have experienced long-term clinical training and professional guidance, which makes much noise in extracting disease labels based on CXR reports. In this paper, we re-extract disease labels from CXR reports to make them more realistic by considering disease severity and uncertainty in classification. Our contributions are as follows: 1. We re-extracted the disease labels with severity and uncertainty by a rule-based approach with keywords discussed with clinical experts. 2. To further improve the explainability of chest X-ray diagnosis, we designed a multi-relationship graph learning method with an expert uncertainty-aware loss function. 3. Our multi-relationship graph learning method can also interpret the disease classification results. Our experimental results show that models considering disease severity and uncertainty outperform previous state-of-the-art methods.
翻訳日:2023-09-08 15:10:21 公開日:2023-09-06
# MEGANet: 弱境界ポリプセグメンテーションのためのマルチスケールエッジガイドアテンションネットワーク

MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation ( http://arxiv.org/abs/2309.03329v1 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Quang-Thuc Nguyen and Minh-Triet Tran and Ngan Le(参考訳) 大腸癌の早期診断には,効率的なポリープ分画が重要な役割を担っている。 しかし、ポリプのセグメンテーションには、背景の複雑な分布、ポリプのサイズや形状の変化、不連続の境界など、多くの課題がある。 前景(すなわちポリープ自体)と背景(輪郭組織)の境界を定義することは困難である。 これらの課題を軽減するために,大腸内視鏡画像内のポリプセグメンテーションに適したマルチスケールエッジガイド注意ネットワーク(MEGANet)を提案する。 このネットワークは、注目機構を備えた古典的エッジ検出技術の融合からインスピレーションを得ている。 これらの技術を組み合わせることで、MEGANetは、特にエッジとバウンダリの高周波情報を効果的に保存する。 MEGANetはエンドツーエンドのフレームワークとして設計されており、入力画像から機能をキャプチャして抽象化するエンコーダ、有能な機能に焦点を当てるデコーダ、ポリプバウンダリをアクセントするLaplacian Operatorを使用するEdge-Guided Attention Module(EGA)の3つの主要なモジュールを含んでいる。 5つのベンチマークデータセットに対する定性的かつ定量的な大規模な実験は、私たちのEGANetが6つの評価基準の下で既存のSOTAメソッドよりも優れていることを示した。 我々のコードは \url{https://github.com/DinhHieuHoang/MEGANet} で入手できる。

Efficient polyp segmentation in healthcare plays a critical role in enabling early diagnosis of colorectal cancer. However, the segmentation of polyps presents numerous challenges, including the intricate distribution of backgrounds, variations in polyp sizes and shapes, and indistinct boundaries. Defining the boundary between the foreground (i.e. polyp itself) and the background (surrounding tissue) is difficult. To mitigate these challenges, we propose Multi-Scale Edge-Guided Attention Network (MEGANet) tailored specifically for polyp segmentation within colonoscopy images. This network draws inspiration from the fusion of a classical edge detection technique with an attention mechanism. By combining these techniques, MEGANet effectively preserves high-frequency information, notably edges and boundaries, which tend to erode as neural networks deepen. MEGANet is designed as an end-to-end framework, encompassing three key modules: an encoder, which is responsible for capturing and abstracting the features from the input image, a decoder, which focuses on salient features, and the Edge-Guided Attention module (EGA) that employs the Laplacian Operator to accentuate polyp boundaries. Extensive experiments, both qualitative and quantitative, on five benchmark datasets, demonstrate that our EGANet outperforms other existing SOTA methods under six evaluation metrics. Our code is available at \url{https://github.com/DinhHieuHoang/MEGANet}
翻訳日:2023-09-08 15:10:00 公開日:2023-09-06
# 弱駆動型散逸光学格子におけるブリルアンモード:単純理論モデルとポンプ-プローブ分光

Brillouin modes in weakly driven dissipative optical lattices: simple theoretical model vs pump-probe spectroscopy ( http://arxiv.org/abs/2309.03325v1 )

ライセンス: Link先を確認
David Cubero, Kefeng Jiang, Alexander Staron, Casey Scoggins, Daniel Wingert, Stone Oliver, and Samir Bali(参考訳) 3次元の散逸性光学格子に閉じ込められた原子はポテンシャル井戸の内部で振動し、時には隣接する井戸に飛びつき、あらゆる方向に拡散する。 弱いプローブビームによる照明は格子を変調し、プローブの移動方向と垂直に移動するブリルアンモードと呼ばれる原子密度波を伝播させる。 これらのモードを理論的に実験的に検討し、空間周期が基礎となる光学ポテンシャルの周期の倍数ではない駆動電位摂動の場合、低温閉じ込め原子におけるブリルアンモード生成のより深い理解を可能にする。 有向伝搬における2つの異なるメカニズムの役割を解明し、一つは伝搬変調と井戸内で振動する原子の平均速度との速度マッチングと、もう一つは変調周波数と発振周波数との周波数マッチングから生じるものである。

Atoms confined in a three-dimensional dissipative optical lattice oscillate inside potential wells, occasionally hopping to adjacent wells, thereby diffusing in all directions. Illumination by a weak probe beam modulates the lattice, yielding propagating atomic density waves, referred to as Brillouin modes which travel perpendicular to the direction of travel of the probe. We investigate theoretically and experimentally these modes in the case of a driving potential perturbation whose spatial period is not a multiple of the period of the underlying optical potential, allowing for a deeper understanding of Brillouin mode generation in cold confined atoms. The role of two distinct mechanisms for directed propagation is elucidated, one arising from a velocity-matching between the propagating modulation and the average velocity of the atom oscillating inside a well, and the other arising from a frequency-matching between the the modulation frequency and the oscillation frequencies.
翻訳日:2023-09-08 15:09:32 公開日:2023-09-06
# REBOOT: 効率的なリアルタイムデキスタラスマニピュレーションのための再利用データ

REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation ( http://arxiv.org/abs/2309.03322v1 )

ライセンス: Link先を確認
Zheyuan Hu, Aaron Rovinsky, Jianlan Luo, Vikash Kumar, Abhishek Gupta, Sergey Levine(参考訳) モデルベースの制御システムと模倣学習アルゴリズムの両方にとって、コンタクトリッチなインタラクションを含む巧妙な操作タスクは大きな課題となる。 この複雑さは、接触を動的に確立し破壊し、非包括力のバランスをとり、大きな自由度を制御するために、多指ロボットハンドの必要性から生じる。 強化学習(rl)は、その汎用的適用性と、最適な操作戦略を自律的に獲得する能力から、有望なアプローチを提供する。 しかし、実世界の応用は、大量のサンプルを生成し、環境をリセットし、報酬信号を得る必要性によってしばしば妨げられる。 本稿では,これらの課題を軽減すべく,rlを用いた巧妙な操作スキルを学ぶための効率的なシステムを提案する。 我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。 この組み合わせにより、異なるタスクやオブジェクトからのデータを新しいタスクのトレーニングの出発点として活用し、学習効率を大幅に向上できます。 さらに,本システムは,模倣に基づくピックアップポリシと学習報酬機能による学習リセットを取り入れ,手動リセットや報酬エンジニアリングの必要性をなくし,実世界のトレーニングサイクルを完了させる。 例えば,4本指のロボットハンドを用いた実世界の複雑な操作スキルの迅速な獲得など,新しいタスクの再生バッファ初期化として過去のデータを再利用するメリットを実証する。 (ビデオ:https://sites.google.com/view/reboot-dexterous)

Dexterous manipulation tasks involving contact-rich interactions pose a significant challenge for both model-based control systems and imitation learning algorithms. The complexity arises from the need for multi-fingered robotic hands to dynamically establish and break contacts, balance non-prehensile forces, and control large degrees of freedom. Reinforcement learning (RL) offers a promising approach due to its general applicability and capacity to autonomously acquire optimal manipulation strategies. However, its real-world application is often hindered by the necessity to generate a large number of samples, reset the environment, and obtain reward signals. In this work, we introduce an efficient system for learning dexterous manipulation skills with RL to alleviate these challenges. The main idea of our approach is the integration of recent advances in sample-efficient RL and replay buffer bootstrapping. This combination allows us to utilize data from different tasks or objects as a starting point for training new tasks, significantly improving learning efficiency. Additionally, our system completes the real-world training cycle by incorporating learned resets via an imitation-based pickup policy as well as learned reward functions, eliminating the need for manual resets and reward engineering. We demonstrate the benefits of reusing past data as replay buffer initialization for new tasks, for instance, the fast acquisition of intricate manipulation skills in the real world on a four-fingered robotic hand. (Videos: https://sites.google.com/view/reboot-dexterous)
翻訳日:2023-09-08 15:09:14 公開日:2023-09-06
# CoNeS:マルチシーケンスMRI翻訳のためのシフト変調を用いた条件付きニューラルネットワーク

CoNeS: Conditional neural fields with shift modulation for multi-sequence MRI translation ( http://arxiv.org/abs/2309.03320v1 )

ライセンス: Link先を確認
Yunjie Chen, Marius Staring, Olaf M. Neve, Stephan R. Romeijn, Erik F. Hensen, Berit M. Verbist, Jelmer M. Wolterink, Qian Tao(参考訳) マルチシーケンスMRI(Multi-sequence magnetic resonance imaging)は、現代の臨床研究とディープラーニング研究の両方に広く応用されている。 しかし、臨床実践では、画像取得プロトコルやコントラスト剤による患者の禁忌により、MRIの1つ以上の配列が欠落し、マルチシーケンスデータに基づいて訓練された深層学習モデルの利用が制限されることがしばしば起こる。 有望なアプローチの1つは、生成モデルを利用して欠落した配列を合成することである。 この問題に対処する最先端の手法は、通常はスペクトルバイアスに悩まされる畳み込みニューラルネットワーク(CNN)に基づいている。 本稿では、ボクセル座標を入力として取り込んだモデルであるシフト変調付き条件付きニューラルネットワーク(CoNeS)を提案し、マルチシーケンスMRI変換のための対象画像の表現を学習する。 提案モデルは、画素間マッピングのデコーダとしてcnnの代わりに多層パーセプトロン(mlp)を用いる。 したがって、各対象画像は、学習された潜在コードによるシフト変調により、ソース画像上で条件付けられたニューラルフィールドとして表現される。 BraTS 2018と前庭神経癌患者の社内臨床データセットによる実験により、提案手法は、視覚的および定量的に多系列MRI翻訳における最先端の方法より優れていることが示された。 さらに,従来のcnnモデルに共通するスペクトルバイアス問題を克服できることを示すため,スペクトル解析を行った。 臨床下流作業における合成画像の利用を更に評価するために,合成画像を用いたセグメンテーションネットワークの推論を行った。

Multi-sequence magnetic resonance imaging (MRI) has found wide applications in both modern clinical studies and deep learning research. However, in clinical practice, it frequently occurs that one or more of the MRI sequences are missing due to different image acquisition protocols or contrast agent contraindications of patients, limiting the utilization of deep learning models trained on multi-sequence data. One promising approach is to leverage generative models to synthesize the missing sequences, which can serve as a surrogate acquisition. State-of-the-art methods tackling this problem are based on convolutional neural networks (CNN) which usually suffer from spectral biases, resulting in poor reconstruction of high-frequency fine details. In this paper, we propose Conditional Neural fields with Shift modulation (CoNeS), a model that takes voxel coordinates as input and learns a representation of the target images for multi-sequence MRI translation. The proposed model uses a multi-layer perceptron (MLP) instead of a CNN as the decoder for pixel-to-pixel mapping. Hence, each target image is represented as a neural field that is conditioned on the source image via shift modulation with a learned latent code. Experiments on BraTS 2018 and an in-house clinical dataset of vestibular schwannoma patients showed that the proposed method outperformed state-of-the-art methods for multi-sequence MRI translation both visually and quantitatively. Moreover, we conducted spectral analysis, showing that CoNeS was able to overcome the spectral bias issue common in conventional CNN models. To further evaluate the usage of synthesized images in clinical downstream tasks, we tested a segmentation network using the synthesized images at inference.
翻訳日:2023-09-08 15:08:49 公開日:2023-09-06
# 機械学習によるフィットネス近似

Fitness Approximation through Machine Learning ( http://arxiv.org/abs/2309.03318v1 )

ライセンス: Link先を確認
Itai Tzruia, Tomer Halperin, Moshe Sipper, Achiya Elyasaf(参考訳) 本稿では、Gymnasium(ゲーム)シミュレータの進化的エージェントに着目し、機械学習(ML)モデルを用いた遺伝的アルゴリズム(GA)におけるフィットネス近似を実行するための新しいアプローチを提案する。 サンプルのデータセットと実際のフィットネススコアを維持することで、私たちは、フィットネス近似MLモデルの進化的な実行を通じて継続的に更新します。 異なる方法を比較します。 1)実際のフィットネスと近似フィットネスの切り替え 2)人口をサンプリングし、 3) 試料の重み付け。 実験の結果は、ほぼ適合性の計算の比率に応じて、完全に実行されたGAと同一またはわずかに低いフィットネススコアを持つ進化ランタイムにおいて、顕著な改善が示されている。 我々のアプローチは汎用的で、多くの異なるドメインに簡単に適用できます。

We present a novel approach to performing fitness approximation in genetic algorithms (GAs) using machine-learning (ML) models, focusing on evolutionary agents in Gymnasium (game) simulators -- where fitness computation is costly. Maintaining a dataset of sampled individuals along with their actual fitness scores, we continually update throughout an evolutionary run a fitness-approximation ML model. We compare different methods for: 1) switching between actual and approximate fitness, 2) sampling the population, and 3) weighting the samples. Experimental findings demonstrate significant improvement in evolutionary runtimes, with fitness scores that are either identical or slightly lower than that of the fully run GA -- depending on the ratio of approximate-to-actual-fitness computation. Our approach is generic and can be easily applied to many different domains.
翻訳日:2023-09-08 15:08:23 公開日:2023-09-06
# ロボット卓球:高速学習システムにおける事例研究

Robotic Table Tennis: A Case Study into a High Speed Learning System ( http://arxiv.org/abs/2309.03315v1 )

ライセンス: Link先を確認
David B. D'Ambrosio, Jonathan Abelian, Saminda Abeyruwan, Michael Ahn, Alex Bewley, Justin Boyd, Krzysztof Choromanski, Omar Cortes, Erwin Coumans, Tianli Ding, Wenbo Gao, Laura Graesser, Atil Iscen, Navdeep Jaitly, Deepali Jain, Juhana Kangaspunta, Satoshi Kataoka, Gus Kouretas, Yuheng Kuang, Nevena Lazic, Corey Lynch, Reza Mahjourian, Sherry Q. Moore, Thinh Nguyen, Ken Oslund, Barney J Reed, Krista Reymann, Pannag R. Sanketi, Anish Shankar, Pierre Sermanet, Vikas Sindhwani, Avi Singh, Vincent Vanhoucke, Grace Vesom, and Peng Xu(参考訳) 実世界のロボット学習システムを深く掘り下げて,これまでの研究で,数百の卓球集会を人間と行うことができ,ボールを目的の目標に正確に戻すことができることを示した。 このシステムは、高度に最適化された知覚サブシステム、高速低レイテンシロボットコントローラ、現実世界の損傷を防止し、ゼロショット転送のためのポリシーを訓練するシミュレーションパラダイム、そして物理的なロボットに対する自律的なトレーニングと評価を可能にする自動現実環境リセットを組み立てる。 我々は,様々なレイテンシ源の緩和,トレーニングとデプロイメントの分散シフトの考慮,知覚システムの堅牢性,ポリシのハイパーパラメータへの感受性,行動空間の選択など,一般的に広く普及しない多数の設計決定を含む,完全なシステム記述を補完する。 システムのコンポーネントと実験結果の詳細を示すビデオは、https://youtu.be/ufcnwjb42i0で見ることができる。

We present a deep-dive into a real-world robotic learning system that, in previous work, was shown to be capable of hundreds of table tennis rallies with a human and has the ability to precisely return the ball to desired targets. This system puts together a highly optimized perception subsystem, a high-speed low-latency robot controller, a simulation paradigm that can prevent damage in the real world and also train policies for zero-shot transfer, and automated real world environment resets that enable autonomous training and evaluation on physical robots. We complement a complete system description, including numerous design decisions that are typically not widely disseminated, with a collection of studies that clarify the importance of mitigating various sources of latency, accounting for training and deployment distribution shifts, robustness of the perception system, sensitivity to policy hyper-parameters, and choice of action space. A video demonstrating the components of the system and details of experimental results can be found at https://youtu.be/uFcnWjB42I0.
翻訳日:2023-09-08 15:08:11 公開日:2023-09-06
# 2体相互作用を持つポインタ状態と量子ダーウィン主義

Pointer states and quantum Darwinism with 2-body interactions ( http://arxiv.org/abs/2309.03299v1 )

ライセンス: Link先を確認
Paul Duruisseau, Akram Touil, and Sebastian Deffner(参考訳) 量子ダーウィン主義は量子宇宙における古典的客観性の出現を説明する。 しかし、これまで量子ダーウィン論のほとんどの研究は特定のモデルとその定常的性質に焦点を当ててきた。 量子-古典遷移の理解を深めるためには、ハミルトンが古典的現実をサポートするために満たさなければならない一般的な基準を特定することが望ましい。 この目的のために,すべてのモデルを2体インタラクションで分類し,システムと環境の分離可能な相互作用を持つモデルのみがポインタ基底をサポート可能であることを示す。 さらに、「完璧な」量子ダーウィン論は、環境内相互作用が存在しない場合にのみ現れることを示す。 我々の分析は、続く力学の解によって補完される。 情報スクランブルを示すシステムでは、古典的客観性の動的出現は、非局所的な量子相関の拡散と直接競合している。 本研究で得られた厳密な知見は, 4つの代表モデルの数値解析で示される。

Quantum Darwinism explains the emergence of classical objectivity within a quantum universe. However, to date most research in quantum Darwinism has focused on specific models and their stationary properties. To further our understanding of the quantum-to-classical transition it appears desirable to identify the general criteria a Hamiltonian has to fulfill to support classical reality. To this end, we categorize all models with 2-body interactions, and we show that only those with separable interaction of system and environment can support a pointer basis. We further show that "perfect" quantum Darwinism can only emerge if there are no intra-environmental interactions. Our analysis is complemented by the solution of the ensuing dynamics. We find that in systems that exhibit information scrambling, the dynamical emergence of classical objectivity is in direct competition with the non-local spread of quantum correlations. Our rigorous findings are illustrated with the numerical analysis of four representative models.
翻訳日:2023-09-08 15:07:53 公開日:2023-09-06
# 補足合成データを用いたアクティブシューター検出とロバストトラッキング

Active shooter detection and robust tracking utilizing supplemental synthetic data ( http://arxiv.org/abs/2309.03381v1 )

ライセンス: Link先を確認
Joshua R. Waite, Jiale Feng, Riley Tavassoli, Laura Harris, Sin Yong Tan, Subhadeep Chakraborty, Soumik Sarkar(参考訳) アメリカにおける銃暴力に関する懸念が高まり、公共の安全を改善するシステムの開発に焦点が当てられている。 このようなシステムを開発する1つのアプローチは、乱射事件の予防や緩和に役立つシューターを検出し追跡することである。 そこで本研究では,銃の装填によってシステムが脅威を見失わないため,追跡性が向上する銃ではなく,全体として射撃者を検出することを提案した。 しかし、銃器の公開データは、銃のデータセット単独よりもはるかに限定的で、作成が難しい。 そこで我々は,unreal engine環境から得られた合成データを用いたトレーニングの有効性を向上させるために,ドメインランダム化とトランスファー学習の利用を検討する。 これにより、モデルがより広い範囲のデータでトレーニングされ、異なる状況に一般化する能力が向上します。 これらの技術をyolov8とdeep oc-sortで使用し,raspberry piとjetson nanoの両方を含むエッジハードウェア上で動作可能なシューティングトラッキングシステムの初期バージョンを実装した。

The increasing concern surrounding gun violence in the United States has led to a focus on developing systems to improve public safety. One approach to developing such a system is to detect and track shooters, which would help prevent or mitigate the impact of violent incidents. In this paper, we proposed detecting shooters as a whole, rather than just guns, which would allow for improved tracking robustness, as obscuring the gun would no longer cause the system to lose sight of the threat. However, publicly available data on shooters is much more limited and challenging to create than a gun dataset alone. Therefore, we explore the use of domain randomization and transfer learning to improve the effectiveness of training with synthetic data obtained from Unreal Engine environments. This enables the model to be trained on a wider range of data, increasing its ability to generalize to different situations. Using these techniques with YOLOv8 and Deep OC-SORT, we implemented an initial version of a shooter tracking system capable of running on edge hardware, including both a Raspberry Pi and a Jetson Nano.
翻訳日:2023-09-08 14:59:41 公開日:2023-09-06
# RoDia: 音声からのルーマニア方言識別のための新しいデータセット

RoDia: A New Dataset for Romanian Dialect Identification from Speech ( http://arxiv.org/abs/2309.03378v1 )

ライセンス: Link先を確認
Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu(参考訳) 方言識別は,音声認識や話者検証など,様々な応用の強化など,音声処理や言語技術において重要な課題である。 ほとんどの研究は広範に話されている言語における方言識別に費やされてきたが、ルーマニアのような低資源言語における方言識別には限定的な注意が払われている。 この研究ギャップを解決するために,ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。 RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市環境と農村環境の両方をカバーする。 データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。 上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。 そこで我々はロディアがルーマニア語の方言識別の課題に取り組む研究を刺激する貴重な資源であると信じている。 私たちはデータセットとコードをhttps://github.com/codrut2/rodiaで公開しています。

Dialect identification is a critical task in speech processing and language technology, enhancing various applications such as speech recognition, speaker verification, and many others. While most research studies have been dedicated to dialect identification in widely spoken languages, limited attention has been given to dialect identification in low-resource languages, such as Romanian. To address this research gap, we introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We publicly release our dataset and code at https://github.com/codrut2/RoDia.
翻訳日:2023-09-08 14:59:25 公開日:2023-09-06
# マルチクイットの真の絡み合いテストの改善

Improved tests of genuine entanglement for multiqudits ( http://arxiv.org/abs/2309.03369v1 )

ライセンス: Link先を確認
Xia Zhang, Naihuan Jing, Hui Zhao, Ming Liu, Haitao Ma(参考訳) 我々は、密度行列の一般化されたブロッホ表現を用いて、重要な多部量子状態のクラスに対する真の多部量子絡み合いの基準を改良する。 実用的基準はワイル作用素に基づいて設計されており、高次元系における真の多重粒子絡みの検出に使用できる。 このテストは、最近のいくつかの基準よりもかなり強いことが示されている。

We give an improved criterion of genuine multipartite entanglement for an important class of multipartite quantum states using generalized Bloch representations of the density matrices. The practical criterion is designed based on the Weyl operators and can be used for detecting genuine multipartite entanglement in higher dimensional systems. The test is shown to be significantly stronger than some of the most recent criteria.
翻訳日:2023-09-08 14:59:06 公開日:2023-09-06
# 低リソースダウンストリームタスクのための自己改善型マスクデジタル標高モデル

Self-Supervised Masked Digital Elevation Models Encoding for Low-Resource Downstream Tasks ( http://arxiv.org/abs/2309.03367v1 )

ライセンス: Link先を確認
Priyam Mazumdar, Aiman Soliman, Volodymyr Kindratenko, Luigi Marini, Kenton McHenry(参考訳) ラベル付きデータの品質の欠如は、ディープラーニングモデルをトレーニングするための大きなボトルネックの1つです。 タスクが複雑化するにつれて、過剰適合と不安定な学習に対するペナルティが高くなる。 今日の典型的なパラダイムは自己監督学習(Self-Supervised Learning)であり、モデルが非構造化データとラベルなしデータの大規模なコーパスから学習を試み、その知識を必要なタスクに伝達する。 他のモダリティにおける自己スーパービジョンの例としては、大きな言語モデルのためのBERT、音声認識のためのWav2Vec、そして全てトランスフォーマーを使用してマスク付き予測タスクを解決するMasked AutoEncoderがある。 GeoAIは、何十年にもわたって収集されてきたデータから、自己管理の方法論を活用することができる。 我々のゴールは、地表面の詳細な地形を提供するDEM(Digital Elevation Models)から建物と道路のセグメンテーションを抽出することである。 提案したアーキテクチャは、ImageNet上で事前訓練されたMasked Autoencoderであり(ImageNetとDEMの間に大きなドメイン差があるという制限がある)、セグメントをデコードするためのUperNet Headを備えている。 約5%と0.5%のデータをそれぞれ活用し,450および50のトレーニング画像のみを用いて実験を行った。 建物のセグメンテーションタスクでは、450枚の画像と69.1%のIoUと50枚の画像しか持たない82.1%のIntersection over Union (IoU)が得られる。 より困難な道路検出タスクでは、450枚の画像で82.7%のIoU、わずか50枚の画像で73.2%のIoUが得られる。 今日の地球表面に関する手書きのデータセットは、常に変化する地形の性質のために、すぐに時代遅れになる。 これにより、さまざまなダウンストリームタスクに使用できるデータ効率の学習者の必要性が明確になる。

The lack of quality labeled data is one of the main bottlenecks for training Deep Learning models. As the task increases in complexity, there is a higher penalty for overfitting and unstable learning. The typical paradigm employed today is Self-Supervised learning, where the model attempts to learn from a large corpus of unstructured and unlabeled data and then transfer that knowledge to the required task. Some notable examples of self-supervision in other modalities are BERT for Large Language Models, Wav2Vec for Speech Recognition, and the Masked AutoEncoder for Vision, which all utilize Transformers to solve a masked prediction task. GeoAI is uniquely poised to take advantage of the self-supervised methodology due to the decades of data collected, little of which is precisely and dependably annotated. Our goal is to extract building and road segmentations from Digital Elevation Models (DEM) that provide a detailed topography of the earths surface. The proposed architecture is the Masked Autoencoder pre-trained on ImageNet (with the limitation that there is a large domain discrepancy between ImageNet and DEM) with an UperNet Head for decoding segmentations. We tested this model with 450 and 50 training images only, utilizing roughly 5% and 0.5% of the original data respectively. On the building segmentation task, this model obtains an 82.1% Intersection over Union (IoU) with 450 Images and 69.1% IoU with only 50 images. On the more challenging road detection task the model obtains an 82.7% IoU with 450 images and 73.2% IoU with only 50 images. Any hand-labeled dataset made today about the earths surface will be immediately obsolete due to the constantly changing nature of the landscape. This motivates the clear necessity for data-efficient learners that can be used for a wide variety of downstream tasks.
翻訳日:2023-09-08 14:59:01 公開日:2023-09-06
# ViewMix: 自己指導型学習におけるロバスト表現の拡張

ViewMix: Augmentation for Robust Representation in Self-Supervised Learning ( http://arxiv.org/abs/2309.03360v1 )

ライセンス: Link先を確認
Arjon Das, Xin Zhong(参考訳) 統合埋め込みアーキテクチャに基づく自己教師型学習手法は、データ拡張の構成を、その強力な表現学習能力の重要な要素とみなしている。 地域的なドロップアウト戦略は、教師付き手法におけるオブジェクトのより少ない指示的部分に焦点を合わせるためにモデルを導くことが証明されているが、正のペアを生成する自己監督手法では採用されていない。 これは,地域ドロップアウト手法が自己管理手法の入力サンプリングプロセスに適していないためである。 正の対から情報画素を落とすことは非効率な訓練をもたらすが、特定の物体のパッチを別の対に置き換えることで、異なる正の対間の一致を最大化することを防ぐことができる。 さらに, 共同埋め込み表現学習法は, 初等訓練結果の頑健さを損なわない。 そこで本稿では,画像の異なるビューを生成する際に,各ビューから別のビューへパッチをカット・ペーストする,自己教師型学習のためのViewMix拡張ポリシーを提案する。 この拡張戦略によって生み出された異なる視点を活用することで、複数のジョイント埋め込みベースの自己監督手法がより優れたローカライゼーション能力を獲得し、対応するベースライン手法を一貫して上回った。 また,viewmix拡張ポリシーの導入により,最先端手法における表現の堅牢性が向上することが示されている。 さらに, 計算時間の実験と解析により, ViewMix のオーバヘッドが他の計算時間に比べて増加しないことが示された。

Joint Embedding Architecture-based self-supervised learning methods have attributed the composition of data augmentations as a crucial factor for their strong representation learning capabilities. While regional dropout strategies have proven to guide models to focus on lesser indicative parts of the objects in supervised methods, it hasn't been adopted by self-supervised methods for generating positive pairs. This is because the regional dropout methods are not suitable for the input sampling process of the self-supervised methodology. Whereas dropping informative pixels from the positive pairs can result in inefficient training, replacing patches of a specific object with a different one can steer the model from maximizing the agreement between different positive pairs. Moreover, joint embedding representation learning methods have not made robustness their primary training outcome. To this end, we propose the ViewMix augmentation policy, specially designed for self-supervised learning, upon generating different views of the same image, patches are cut and pasted from one view to another. By leveraging the different views created by this augmentation strategy, multiple joint embedding-based self-supervised methodologies obtained better localization capability and consistently outperformed their corresponding baseline methods. It is also demonstrated that incorporating ViewMix augmentation policy promotes robustness of the representations in the state-of-the-art methods. Furthermore, our experimentation and analysis of compute times suggest that ViewMix augmentation doesn't introduce any additional overhead compared to other counterparts.
翻訳日:2023-09-08 14:58:30 公開日:2023-09-06
# アンサンブル線形補間器:センシングの役割

Ensemble linear interpolators: The role of ensembling ( http://arxiv.org/abs/2309.03354v1 )

ライセンス: Link先を確認
Mingqi Wu, Qiang Sun(参考訳) インターポレータは不安定です。 例えば、mininum $\ell_2$ norm least square interpolatorは、ノイズのあるデータを扱う際に境界のないテストエラーを示す。 本稿では,個々の補間器のサンプル外予測リスクによって測定されたアンサンブルの安定化と一般化性能の向上について検討する。 バッグングは、並列に実装できる一般的なランダム化に基づくアンサンブル法であるため、タグ付き線形補間器に着目する。 マルチプライヤ・ブートストラップを用いた最小二乗推定器を導入し,スケッチした最小二乗推定器の平均値として定式化することができる。 提案された乗算ブートストラップは、Bernolliブートストラップと呼ばれるより興味深いバリエーションとともに、特別なケースとして置き換えられた古典的なブートストラップを含んでいる。 試料サイズが特徴寸法に比例してスケールする比例状態に着目し,過パラメータ化および過パラメータ化状態におけるスケッチおよび袋詰めされた最小二乗推定器の標本外予測リスクについて検討した。 その結果,スケッチやバッグングの統計的役割が明らかになった。 特に、スケッチはアスペクト比を変更し、最小$\ell_2$ norm estimatorの補間閾値をシフトする。 しかし, 過度な分散による補間しきい値付近では, スケッチ推定器の危険性は引き続き非有界である。 対照的に、バグングはこのばらつきを効果的に軽減し、サンプル外の予測リスクを限定する。 この安定性向上特性をさらに理解するために,バギングが暗黙の正則化の形式として機能し,バギング推定器と明示的な正則化の同値性によって裏付けられることを確かめる。 いくつかの拡張についても論じる。

Interpolators are unstable. For example, the mininum $\ell_2$ norm least square interpolator exhibits unbounded test errors when dealing with noisy data. In this paper, we study how ensemble stabilizes and thus improves the generalization performance, measured by the out-of-sample prediction risk, of an individual interpolator. We focus on bagged linear interpolators, as bagging is a popular randomization-based ensemble method that can be implemented in parallel. We introduce the multiplier-bootstrap-based bagged least square estimator, which can then be formulated as an average of the sketched least square estimators. The proposed multiplier bootstrap encompasses the classical bootstrap with replacement as a special case, along with a more intriguing variant which we call the Bernoulli bootstrap. Focusing on the proportional regime where the sample size scales proportionally with the feature dimensionality, we investigate the out-of-sample prediction risks of the sketched and bagged least square estimators in both underparametrized and overparameterized regimes. Our results reveal the statistical roles of sketching and bagging. In particular, sketching modifies the aspect ratio and shifts the interpolation threshold of the minimum $\ell_2$ norm estimator. However, the risk of the sketched estimator continues to be unbounded around the interpolation threshold due to excessive variance. In stark contrast, bagging effectively mitigates this variance, leading to a bounded limiting out-of-sample prediction risk. To further understand this stability improvement property, we establish that bagging acts as a form of implicit regularization, substantiated by the equivalence of the bagged estimator with its explicitly regularized counterpart. We also discuss several extensions.
翻訳日:2023-09-08 14:58:07 公開日:2023-09-06
# ブラインド法医学によるデジタルビデオの音源カメラ識別と検出

Source Camera Identification and Detection in Digital Videos through Blind Forensics ( http://arxiv.org/abs/2309.03353v1 )

ライセンス: Link先を確認
Venkata Udaya Sameer, Shilpa Mukhopadhyay, Ruchira Naskar and Ishaan Dali(参考訳) デジタルビデオにおけるソースカメラの識別は、未知のデジタルビデオをそのソースデバイスに関連付けるという問題である。 デジタルビデオのソース検出における既存の技術は、PRNU(Photo Response Non-Uniformity)という形でビデオ内の実際のソースの指紋を見つけ、各デバイスにおけるSPN(Sensor Pattern Noise)と照合する。 最も高い相関は正しい源を示す。 機械学習を用いた特徴量に基づく手法を用いて,映像ソースの識別の問題を検討する。 本稿では,特徴抽出,特徴選択,その後の情報源分類に基づく,映像ソース認証と識別の盲点法医学的手法を提案する。 主な目的は、ビデオのクレームソースが実際に元のソースであるかどうかを決定することである。 そうでなければ、元のソースを特定します。 従来の指紋認証法と比較して,提案手法の有効性が実証された。

Source camera identification in digital videos is the problem of associating an unknown digital video with its source device, within a closed set of possible devices. The existing techniques in source detection of digital videos try to find a fingerprint of the actual source in the video in form of PRNU (Photo Response Non--Uniformity), and match it against the SPN (Sensor Pattern Noise) of each possible device. The highest correlation indicates the correct source. We investigate the problem of identifying a video source through a feature based approach using machine learning. In this paper, we present a blind forensic technique of video source authentication and identification, based on feature extraction, feature selection and subsequent source classification. The main aim is to determine whether a claimed source for a video is actually its original source. If not, we identify its original source. Our experimental results prove the efficiency of the proposed method compared to traditional fingerprint based technique.
翻訳日:2023-09-08 14:57:34 公開日:2023-09-06
# ニューラルネットワークによる高分解能画像の高速SAR粗さ推定

Using Neural Networks for Fast SAR Roughness Estimation of High Resolution Images ( http://arxiv.org/abs/2309.03351v1 )

ライセンス: Link先を確認
Li Fan, Jeova Farias Sales Rocha Neto(参考訳) 合成開口レーダ(sar)画像の解析はリモートセンシングアプリケーションにおいて重要なステップであり,本質的なスペックルノイズのため課題となっている。 1つの典型的な解決策は、$G_I^0$分布を用いてデータをモデル化し、その粗さ情報を抽出することである。 これにより、特に高解像度画像において、SARデータから粗さパラメータを迅速かつ確実に推定する必要がある。 残念なことに、従来のパラメータ推定手順は遅く、予測失敗を起こしやすい。 本研究では,まず,G_I^0$サンプルのパラメータを推定する方法を学習し,次に未知データの粗さを推定するニューラルネットワークに基づく推定フレームワークを提案する。 このアプローチは,単純なネットワークを用いた場合であっても,従来の推定手順よりも,推定誤差が少なく,障害発生率が低い推定器に繋がることを示す。 さらに,この手法を一般化して画像入力を処理できることを示すとともに,合成データから数秒間トレーニングしても,高分解能実sar画像に対してリアルタイムの画素単位の粗さ推定が可能となる。

The analysis of Synthetic Aperture Radar (SAR) imagery is an important step in remote sensing applications, and it is a challenging problem due to its inherent speckle noise. One typical solution is to model the data using the $G_I^0$ distribution and extract its roughness information, which in turn can be used in posterior imaging tasks, such as segmentation, classification and interpretation. This leads to the need of quick and reliable estimation of the roughness parameter from SAR data, especially with high resolution images. Unfortunately, traditional parameter estimation procedures are slow and prone to estimation failures. In this work, we proposed a neural network-based estimation framework that first learns how to predict underlying parameters of $G_I^0$ samples and then can be used to estimate the roughness of unseen data. We show that this approach leads to an estimator that is quicker, yields less estimation error and is less prone to failures than the traditional estimation procedures for this problem, even when we use a simple network. More importantly, we show that this same methodology can be generalized to handle image inputs and, even if trained on purely synthetic data for a few seconds, is able to perform real time pixel-wise roughness estimation for high resolution real SAR imagery.
翻訳日:2023-09-08 14:57:18 公開日:2023-09-06
# 視覚言語モデルのための分布認識型プロンプトチューニング

Distribution-Aware Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2309.03406v1 )

ライセンス: Link先を確認
Eulrang Cho, Jooyeon Kim, Hyunwoo J. Kim(参考訳) 事前学習された視覚言語モデル(VLM)は、大規模データから学習した知識を活用して、様々な下流タスクにおいて印象的な性能を示した。 一般に、ターゲットタスクにおけるVLMの性能は、入力画像やテキストにコンテキストを追加するプロンプトチューニングによってさらに向上することができる。 対象タスクからのデータを活用することで,様々なプロンプトチューニング手法が文献で研究されている。 プロンプトチューニングの鍵は、モデルパラメータが固定された学習可能なベクトルによる2つのモダリティ間の特徴空間アライメントである。 それぞれのモダリティの埋め込みが潜在空間に 'well-arranged' されると、アライメントがより効果的になる。 この観測にインスパイアされ、我々は視覚言語モデルのための分散対応プロンプトチューニング(DAPT)を提案した。 具体的には、クラス間の距離を最大化し、同じクラスからの埋め込み間の距離によって測定される分散内を最小化することで、プロンプトを学習する。 11のベンチマークデータセットに対する広範な実験により,本手法が一般化可能性を大幅に向上することが示された。 コードはhttps://github.com/mlvlab/daptで入手できる。

Pre-trained vision-language models (VLMs) have shown impressive performance on various downstream tasks by utilizing knowledge learned from large data. In general, the performance of VLMs on target tasks can be further improved by prompt tuning, which adds context to the input image or text. By leveraging data from target tasks, various prompt-tuning methods have been studied in the literature. A key to prompt tuning is the feature space alignment between two modalities via learnable vectors with model parameters fixed. We observed that the alignment becomes more effective when embeddings of each modality are `well-arranged' in the latent space. Inspired by this observation, we proposed distribution-aware prompt tuning (DAPT) for vision-language models, which is simple yet effective. Specifically, the prompts are learned by maximizing inter-dispersion, the distance between classes, as well as minimizing the intra-dispersion measured by the distance between embeddings from the same class. Our extensive experiments on 11 benchmark datasets demonstrate that our method significantly improves generalizability. The code is available at https://github.com/mlvlab/DAPT.
翻訳日:2023-09-08 14:51:00 公開日:2023-09-06
# 混合過程におけるコミュニケーションと参考歌の役割:プロフェッショナルミックスエンジニアの視点から

The Role of Communication and Reference Songs in the Mixing Process: Insights from Professional Mix Engineers ( http://arxiv.org/abs/2309.03404v1 )

ライセンス: Link先を確認
Soumya Sai Vanka, MAryam Safi, Jean-Baptiste Rolland, and Gy\"orgy Fazekas(参考訳) 効果的な音楽の混合には技術的および創造的な微妙さが必要だが、クライアントとの明確なコミュニケーションは不可欠である。 混合エンジニアは、クライアントの期待や好みを理解し、望ましい音を達成するために協力する必要があります。 ミックスの所望の音に対する暗黙の合意は、しばしば、アーティストとエンジニアの間で交換される参照歌やデモミックスのようなガイドを使って確立され、時には意味的な言葉を使って口頭で表現される。 本稿では,技術者がクライアントとどのように相互作用し,そのフィードバックを用いてミキシングプロセスのガイドを行うかを理解することを目的とした2段階の探索的研究の成果を示す。 第1フェーズでは,コミュニケーション戦略,創造的プロセス,意思決定基準に関する洞察を収集するために,混合技術者5人と半構造化面接を行った。 これらの質問紙からの推測に基づき,第2段階で22名の混合技術者からなる大規模グループを対象にオンラインアンケートを設計,実施した。 本研究の結果は, 混合プロセスにおける協調, 共感, 意図の重要性を浮き彫りにし, これらの実践を支援するスマートなマルチトラック混合システムの開発に寄与することができる。 これらの知見の意義を強調することにより,音楽制作の協調性に関する研究の進展に寄与し,革新的なミキシングツールの設計と実装に有効なレコメンデーションを提供する。

Effective music mixing requires technical and creative finesse, but clear communication with the client is crucial. The mixing engineer must grasp the client's expectations, and preferences, and collaborate to achieve the desired sound. The tacit agreement for the desired sound of the mix is often established using guides like reference songs and demo mixes exchanged between the artist and the engineer and sometimes verbalised using semantic terms. This paper presents the findings of a two-phased exploratory study aimed at understanding how professional mixing engineers interact with clients and use their feedback to guide the mixing process. For phase one, semi-structured interviews were conducted with five mixing engineers with the aim of gathering insights about their communication strategies, creative processes, and decision-making criteria. Based on the inferences from these interviews, an online questionnaire was designed and administered to a larger group of 22 mixing engineers during the second phase. The results of this study shed light on the importance of collaboration, empathy, and intention in the mixing process, and can inform the development of smart multi-track mixing systems that better support these practices. By highlighting the significance of these findings, this paper contributes to the growing body of research on the collaborative nature of music production and provides actionable recommendations for the design and implementation of innovative mixing tools.
翻訳日:2023-09-08 14:50:42 公開日:2023-09-06
# 長い配列における合理的異常検出

Reasonable Anomaly Detection in Long Sequences ( http://arxiv.org/abs/2309.03401v1 )

ライセンス: Link先を確認
Yalong Jiang, Changkang Li(参考訳) ビデオ異常検出は、サンプルを表現するアプローチが欠如しているため、難しい作業である。 既存のほとんどのアプローチの視覚的表現は、適切な検出を達成するのに十分な手がかりを与えることができない観察の短期的なシーケンスによって制限されている。 本稿では,オブジェクトの動作パターンを長期的シーケンスから学習することで完全に表現することを提案する。 まず, 長期観測で一貫した時間依存性を表現するために, スタック状態機械(ssm)モデルを提案する。 SSMモデルでは、過去の状態に基づいて将来の状態を予測し、固有な正常なパターンの予測と観察されたパターンのばらつきにより、正常な動きパターンに反する異常を判定する。 データセットと既存のデータに対する提案手法を評価するために,広範な実験を行った。 最先端の手法の改善が観察できる。 私たちのコードはhttps://github.com/AllenYLJiang/Anomaly-Detection-in-Sequencesで利用可能です。

Video anomaly detection is a challenging task due to the lack in approaches for representing samples. The visual representations of most existing approaches are limited by short-term sequences of observations which cannot provide enough clues for achieving reasonable detections. In this paper, we propose to completely represent the motion patterns of objects by learning from long-term sequences. Firstly, a Stacked State Machine (SSM) model is proposed to represent the temporal dependencies which are consistent across long-range observations. Then SSM model functions in predicting future states based on past ones, the divergence between the predictions with inherent normal patterns and observed ones determines anomalies which violate normal motion patterns. Extensive experiments are carried out to evaluate the proposed approach on the dataset and existing ones. Improvements over state-of-the-art methods can be observed. Our code is available at https://github.com/AllenYLJiang/Anomaly-Detection-in-Sequences.
翻訳日:2023-09-08 14:50:18 公開日:2023-09-06
# bpニューラルネットワークを用いた新しい虹彩認識法とgpu(graphics processing unit)による並列計算

A novel method for iris recognition using BP neural network and parallel computing by the aid of GPUs (Graphics Processing Units) ( http://arxiv.org/abs/2309.03390v1 )

ライセンス: Link先を確認
Farahnaz Hosseini, Hossein Ebrahimpour, Samaneh Askari(参考訳) 本稿では,虹彩認識システムの設計における新しい手法を提案する。 この方法では、まずアイリス画像からハールウェーブレットの特徴を抽出する。 これらの特徴を利用する利点は、高速抽出と各虹彩に固有の点である。 次に、下位伝播ニューラルネットワーク(BPNN)を分類器として使用する。 本システムでは, BPNN並列アルゴリズムとそのGPU実装をCUDAの助けを借りて, 学習プロセスの高速化に活用している。 最後に,このアルゴリズムを連続的に行う方法として,システム性能と高速化結果を示す。

In this paper, we seek a new method in designing an iris recognition system. In this method, first the Haar wavelet features are extracted from iris images. The advantage of using these features is the high-speed extraction, as well as being unique to each iris. Then the back propagation neural network (BPNN) is used as a classifier. In this system, the BPNN parallel algorithms and their implementation on GPUs have been used by the aid of CUDA in order to speed up the learning process. Finally, the system performance and the speeding outcomes in a way that this algorithm is done in series are presented.
翻訳日:2023-09-08 14:50:02 公開日:2023-09-06
# 離散時間進化を改善するための簡単な方法

Simple Ways to improve Discrete Time Evolution ( http://arxiv.org/abs/2309.03389v1 )

ライセンス: Link先を確認
Johann Ostmeyer(参考訳) 数値物理学のほとんどすべての分野において$\exp(Ht)$のような指数作用素の鈴木・トラッター分解が必要である。 しばしば、検討中の指数は、例えば量子コンピュータ上の局所ゲートとして、2つ以上の演算子に分割されなければならない。 本研究では,これらの汎用的スズキ-トローター分解に対して,ちょうど2つの作用素に対して導出される高最適化スキームがいかに適用可能かを示す。 この最初のトリックの後、効率的な分解の方法と、利用可能な多種多様な変数をどう選択するかを説明します。 さらに,スズキ-トローター分解が正準アンサッツであるような多くの問題は,taylor や chebyshev 展開のような異なる方法でよりよくアプローチできることを示す。 特に, 複素零点を用いた線形因数分解に基づいて, 切り離された多項式展開を効率よく, 数値的に安定に実装する方法を導出する。

Suzuki-Trotter decompositions of exponential operators like $\exp(Ht)$ are required in almost every branch of numerical physics. Often the exponent under consideration has to be split into more than two operators, for instance as local gates on quantum computers. In this work, we demonstrate how highly optimised schemes originally derived for exactly two operators can be applied to such generic Suzuki-Trotter decompositions. After this first trick, we explain what makes an efficient decomposition and how to choose from the large variety available. Furthermore we demonstrate that many problems for which a Suzuki-Trotter decomposition might appear to be the canonical ansatz, are better approached with different methods like Taylor or Chebyshev expansions. In particular, we derive an efficient and numerically stable method to implement truncated polynomial expansions based on a linear factorisation using their complex zeros.
翻訳日:2023-09-08 14:49:55 公開日:2023-09-06
# SNNは真にエネルギー効率が高いか? ハードウェア・パースペクティブの$$

Are SNNs Truly Energy-efficient? $-$ A Hardware Perspective ( http://arxiv.org/abs/2309.03388v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Ruokai Yin, Abhishek Moitra, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、バイオインスパイアされたアクティベーション関数とスパースバイナリスパイクデータ表現を利用して、そのエネルギー効率のよい機械学習能力に注目を集めている。 最近のSNNアルゴリズムの進歩は、大規模コンピュータビジョンタスクにおいて高い精度を達成するが、そのエネルギー効率の主張は、特定の非現実的な推定基準に依存する。 本研究では,SATAとSpikeSimという,大規模SNN推論のための2つのハードウェアベンチマークプラットフォームについて検討する。 SATAはスポーシティ対応のシストリックアレイアクセラレータであり、SpikeSimはインメモリコンピューティング(IMC)ベースのアナログクロスバーに実装されたSNNを評価している。 これらのツールを用いて,最近のsnアルゴリズムの実際のエネルギー効率改善は,ハードウェアのボトルネックにより推定値と大きく異なることがわかった。 ハードウェア上でのSNNの効率的なデプロイには,時間経過の計算とデータ移動,神経モジュールのオーバーヘッド,SNNのクロスバー非理想に対する脆弱性など,重要な障害を特定し,対処する。

Spiking Neural Networks (SNNs) have gained attention for their energy-efficient machine learning capabilities, utilizing bio-inspired activation functions and sparse binary spike-data representations. While recent SNN algorithmic advances achieve high accuracy on large-scale computer vision tasks, their energy-efficiency claims rely on certain impractical estimation metrics. This work studies two hardware benchmarking platforms for large-scale SNN inference, namely SATA and SpikeSim. SATA is a sparsity-aware systolic-array accelerator, while SpikeSim evaluates SNNs implemented on In-Memory Computing (IMC) based analog crossbars. Using these tools, we find that the actual energy-efficiency improvements of recent SNN algorithmic works differ significantly from their estimated values due to various hardware bottlenecks. We identify and address key roadblocks to efficient SNN deployment on hardware, including repeated computations & data movements over timesteps, neuronal module overhead, and vulnerability of SNNs towards crossbar non-idealities.
翻訳日:2023-09-08 14:49:40 公開日:2023-09-06
# 自律走行における運動予測の効率的なベースライン

Efficient Baselines for Motion Prediction in Autonomous Driving ( http://arxiv.org/abs/2309.03387v1 )

ライセンス: Link先を確認
Carlos G\'omez-Hu\'elamo, Marcos V. Conde, Rafael Barea, Manuel Oca\~na, Luis M. Bergasa(参考訳) 複数の周辺エージェントの動作予測(MP)は、単純なロボットから自律走行スタック(ADS)まで、任意の複雑な環境において重要なタスクである。 現在の手法では、入力データが通常、物理情報のレンダリングトップビューであり、最も関連性の高いエージェントの過去のトラジェクトリであるエンドツーエンドパイプラインを使用してこの問題に対処している。 その意味では、信頼できるADSは時間に基づいて合理的な予測を生成する必要がある。 しかし、多くのアプローチが単純なConvNetとLSTMを使って社会的潜在機能を得るが、State-Of-The-Art(SOTA)モデルは、情報ソース(マップと過去のトラジェクトリ)の両方を使用する場合、リアルタイムアプリケーションには複雑すぎるかもしれない。 さらに、これらのモデルの性能は、特に注釈付き高精細(HD)マップを得るのに費用がかかる交通シナリオごとに利用可能な入力数に大きく依存する。 本研究では,よく知られたargoverse 1モーション予測ベンチマークの効率的なベースラインを提案する。 我々は,注意機構やGNNを含むMPのためのSOTA技術を用いたコンパクトモデルの開発を目指している。 軽量なモデルでは, 移動可能な領域からの点や可算中心線といった標準的な社会的情報や解釈可能な地図情報を, ブラックボックスのcnnベースあるいは過剰複雑グラフ法とは対照的に, 運動的制約に基づく新しい前処理ステップを用いて利用し, 他の sota 法よりも操作性やパラメータの少ない精度で高次的マルチモーダルトラジェクタを生成できる。 私たちのコードはhttps://github.com/cram3r95/mapfe4mpで公開しています。

Motion Prediction (MP) of multiple surroundings agents is a crucial task in arbitrarily complex environments, from simple robots to Autonomous Driving Stacks (ADS). Current techniques tackle this problem using end-to-end pipelines, where the input data is usually a rendered top-view of the physical information and the past trajectories of the most relevant agents; leveraging this information is a must to obtain optimal performance. In that sense, a reliable ADS must produce reasonable predictions on time. However, despite many approaches use simple ConvNets and LSTMs to obtain the social latent features, State-Of-The-Art (SOTA) models might be too complex for real-time applications when using both sources of information (map and past trajectories) as well as little interpretable, specially considering the physical information. Moreover, the performance of such models highly depends on the number of available inputs for each particular traffic scenario, which are expensive to obtain, particularly, annotated High-Definition (HD) maps. In this work, we propose several efficient baselines for the well-known Argoverse 1 Motion Forecasting Benchmark. We aim to develop compact models using SOTA techniques for MP, including attention mechanisms and GNNs. Our lightweight models use standard social information and interpretable map information such as points from the driveable area and plausible centerlines by means of a novel preprocessing step based on kinematic constraints, in opposition to black-box CNN-based or too-complex graphs methods for map encoding, to generate plausible multimodal trajectories achieving up-to-pair accuracy with less operations and parameters than other SOTA methods. Our code is publicly available at https://github.com/Cram3r95/mapfe4mp .
翻訳日:2023-09-08 14:49:20 公開日:2023-09-06
# 慢性疾患予測のためのコミュニティベース階層型ポジカル・アンラベルド(pu)モデル融合

Community-Based Hierarchical Positive-Unlabeled (PU) Model Fusion for Chronic Disease Prediction ( http://arxiv.org/abs/2309.03386v1 )

ライセンス: Link先を確認
Yang Wu, Xurui Li, Xuhong Zhang, Yangyang Kang, Changlong Sun and Xiaozhong Liu(参考訳) PU学習(英: Positive-Unlabeled Learning)は、慢性疾患スクリーニング問題に対処するために使用できる、少数の陽性データインスタンスとともに、ラベルのないデータが多数存在するバイナリ分類問題によって提示される課題である。 最先端のPU学習手法は様々なリスク推定装置の開発をもたらしたが、異なる集団間の差異は無視されている。 そこで本研究では,新しい正ラベル学習木(putree)アルゴリズムを提案する。 PUtreeは、慢性疾患予測のタスクにおいて、年齢や収入のブラケットなどのコミュニティを考慮するように設計されている。 本稿では,コミュニティベースのPUモデルを階層的に構築し,提供物を集約する二分決定手法を提案する。 最適化された非リーフPUノード分割のために,木上の各PUモデルを抽出することができる。 さらに,マスク回復型データ拡張戦略により,個々のコミュニティにおけるモデルの十分なトレーニングが可能になる。 さらに,本提案手法は,階層的なPU関係を捉えるための逆PUリスク推定器と,各ツリーパスからのデータを統合するモデル融合ネットワークを備え,ロバストなバイナリ分類結果をもたらす。 PUtreeの優れた性能と2つのベンチマークと新しい糖尿病予測データセットのバリエーションを示す。

Positive-Unlabeled (PU) Learning is a challenge presented by binary classification problems where there is an abundance of unlabeled data along with a small number of positive data instances, which can be used to address chronic disease screening problem. State-of-the-art PU learning methods have resulted in the development of various risk estimators, yet they neglect the differences among distinct populations. To address this issue, we present a novel Positive-Unlabeled Learning Tree (PUtree) algorithm. PUtree is designed to take into account communities such as different age or income brackets, in tasks of chronic disease prediction. We propose a novel approach for binary decision-making, which hierarchically builds community-based PU models and then aggregates their deliverables. Our method can explicate each PU model on the tree for the optimized non-leaf PU node splitting. Furthermore, a mask-recovery data augmentation strategy enables sufficient training of the model in individual communities. Additionally, the proposed approach includes an adversarial PU risk estimator to capture hierarchical PU-relationships, and a model fusion network that integrates data from each tree path, resulting in robust binary classification results. We demonstrate the superior performance of PUtree as well as its variants on two benchmarks and a new diabetes-prediction dataset.
翻訳日:2023-09-08 14:48:48 公開日:2023-09-06
# 強不均質磁場中における捕捉イオンのレーザー冷却の実験的検討

Experimental implementation of laser cooling of trapped ions in strongly inhomogeneous magnetic fields ( http://arxiv.org/abs/2309.03385v1 )

ライセンス: Link先を確認
Christian Mangeng, Yanning Yin, Richard Karl, and Stefan Willitsch(参考訳) 2つの永久リング磁石によって発生する強い四極子磁場の存在下で、分割線形ポールトラップに閉じ込められた$^{40}$ca$^+$ イオンのドップラーレーザー冷却を実証した。 800から1600G/mmの磁場勾配は、捕捉されたイオンのエネルギーレベルに高い位置依存的なゼーマンシフトをもたらす。 適切な波長と偏光を持つ2つの397 nm冷却レーザービームと1つの866 nmレプタンパーレーザービームを用いて効率的なレーザー冷却を実証する。 イオンのクーロン結晶は磁場がない状態で閉じ込められたものと同様の世俗的な温度を示す。 さらに、ゼーマン効果の位置依存性を利用してフィールド強度のマップを生成する。 この研究は、これらの種間の低温相互作用を研究するためのイオンと磁気トラップからなる、低温イオンと中性分子のハイブリッドトラップ実験の開発の基礎を形成し、非均一磁場にトラップイオンを用いる量子科学実験の新しい可能性を開く。

We demonstrate the Doppler laser cooling of $^{40}$Ca$^+$ ions confined in a segmented linear Paul trap in the presence of a strong quadrupolar magnetic field generated by two permanent ring magnets. Magnetic field gradients of 800 to 1600 G/mm give rise to a highly position-dependent Zeeman shift on the energy levels of the trapped ions. Efficient laser cooling is demonstrated using two 397 nm cooling laser beams with appropriate wavelengths and polarizations and one 866 nm repumper laser beam. Coulomb crystals of ions are found to exhibit similar secular temperatures to those trapped in absence of the magnetic field. In addition, the position dependency of the Zeeman effect is used to generate a map of the field strength. This work forms the basis for developing hybrid trapping experiments for cold ions and neutral molecules that consist of an ion and a magnetic trap to study cold interactions between these species, and opens up new possibilities for quantum-science experiments that employ trapped ions in inhomogeneous magnetic fields.
翻訳日:2023-09-08 14:48:29 公開日:2023-09-06
# 胸部腹部CTにおける腎異常分画の検討

Kidney abnormality segmentation in thorax-abdomen CT scans ( http://arxiv.org/abs/2309.03383v1 )

ライセンス: Link先を確認
Gabriel Efrain Humpire Mamani and Nikolas Lessmann and Ernst Th. Scholten and Mathias Prokop and Colin Jacobs and Bram van Ginneken(参考訳) 本研究は,嚢胞,病変,腫瘤,転移,原発性腫瘍などの腎異常を同定し,定量化する臨床医を支援するために,腎パレンキマと腎異常を区分する深層学習手法を提案する。 胸腹部CTでは215例の造影CT検査を行い,その半数に1例以上の異常を認めた。 最初の3D U-Netネットワークの独自のバージョンの実装から始まり、エンド・ツー・エンドのマルチレゾリューション・アプローチ、タスク固有のデータ拡張のセット、トップ・k$を使った修正されたロス関数、空間的なドロップアウトの4つの追加コンポーネントを組み込んだ。 さらに,後処理戦略を考案した。 アブレーション試験では, 腎異常セグメンテーションが改善し, 4例中3例は腎発作セグメンテーションが改善した。 その後、データセット上でnnUNetフレームワークをトレーニングしました。 最適化された3D U-NetとnnUNetを特別な後処理と組み合わせることで、我々は圧倒的に優れた結果を得た。 2つのテストセット(異常なし20スキャン、異常なし30スキャン)で腎実質を分節する0.965点と0.947点のdiceスコアを達成し、それぞれ0.944点と0.925点の独立した観察者よりも優れていた。 それらを含む30検体内の腎臓異常の分画において、トップパフォーマンス法はDiceスコア0.585を達成し、独立した第2のヒト観察者が0.664を達成し、コンピュータ化された方法のさらなる改善の可能性を示した。 すべてのトレーニングデータは、cc-by 4.0ライセンスのhttps://doi.org/10.5281/zenodo.8014289で研究コミュニティに提供されている。

In this study, we introduce a deep learning approach for segmenting kidney parenchyma and kidney abnormalities to support clinicians in identifying and quantifying renal abnormalities such as cysts, lesions, masses, metastases, and primary tumors. Our end-to-end segmentation method was trained on 215 contrast-enhanced thoracic-abdominal CT scans, with half of these scans containing one or more abnormalities. We began by implementing our own version of the original 3D U-Net network and incorporated four additional components: an end-to-end multi-resolution approach, a set of task-specific data augmentations, a modified loss function using top-$k$, and spatial dropout. Furthermore, we devised a tailored post-processing strategy. Ablation studies demonstrated that each of the four modifications enhanced kidney abnormality segmentation performance, while three out of four improved kidney parenchyma segmentation. Subsequently, we trained the nnUNet framework on our dataset. By ensembling the optimized 3D U-Net and the nnUNet with our specialized post-processing, we achieved marginally superior results. Our best-performing model attained Dice scores of 0.965 and 0.947 for segmenting kidney parenchyma in two test sets (20 scans without abnormalities and 30 with abnormalities), outperforming an independent human observer who scored 0.944 and 0.925, respectively. In segmenting kidney abnormalities within the 30 test scans containing them, the top-performing method achieved a Dice score of 0.585, while an independent second human observer reached a score of 0.664, suggesting potential for further improvement in computerized methods. All training data is available to the research community under a CC-BY 4.0 license on https://doi.org/10.5281/zenodo.8014289
翻訳日:2023-09-08 14:48:12 公開日:2023-09-06
# ジョセフソンパラメトリック発振器を用いたイジングマシン

A Josephson Parametric Oscillator-Based Ising Machine ( http://arxiv.org/abs/2309.03407v1 )

ライセンス: Link先を確認
Sasan Razmkhah, Mehdi Kamal, Nobuyuki Yoshikawa, Massoud Pedram(参考訳) イジングマシンはNP完全組合せ最適化問題を高速に解くための有望なソリューションとして登場し、従来の計算手法の能力を超越している。 加熱過程におけるハミルトン基底状態の効率的な決定により、Isingマシンは最適化問題に対処するためにCPUを効率的に補完することができる。 これらのイジングマシンを実現するために、二安定発振器はイジングモデルの原子スピンと相互作用をエミュレートするために必須である。 本研究では,スケーラブルな超伝導イジングマシンの基本単位として,ジョセフソンパラメトリック振動子(jpo)を用いたタイル構造を提案する。 超伝導体ベースの発振器であるJPOの双安定特性を利用して、提案機は7.5GHzの周波数で動作でき、CMOSベースのシステムに比べて消費電力は大幅に少ない(3桁)。 さらに、提案したタイル構造とLHZアーキテクチャとの互換性により、大規模統合の実現性が保証される。 騒音環境下でのタイルのシミュレーションを行い,その機能検証を行った。 その結果をハミルトニアンモデルの解析解と比較し,その動作特性を検証した。 この検証は、Isingマシンの実装におけるJPOベースのタイルの有効性と有効性を示し、量子コンピューティングにおける効率的でスケーラブルな組合せ最適化のための新しい道を開く。

Ising machines have emerged as a promising solution for rapidly solving NP-complete combinatorial optimization problems, surpassing the capabilities of traditional computing methods. By efficiently determining the ground state of the Hamiltonian during the annealing process, Ising machines can effectively complement CPUs in tackling optimization challenges. To realize these Ising machines, a bi-stable oscillator is essential to emulate the atomic spins and interactions of the Ising model. This study introduces a Josephson parametric oscillator (JPO)-based tile structure, serving as a fundamental unit for scalable superconductor-based Ising machines. Leveraging the bi-stable nature of JPOs, which are superconductor-based oscillators, the proposed machine can operate at frequencies of 7.5GHz while consuming significantly less power (by three orders of magnitude) than CMOS-based systems. Furthermore, the compatibility of the proposed tile structure with the Lechner-Hauke-Zoller (LHZ) architecture ensures its viability for large-scale integration. We conducted simulations of the tile in a noisy environment to validate its functionality. We verified its operational characteristics by comparing the results with the analytical solution of its Hamiltonian model. This verification demonstrates the feasibility and effectiveness of the JPO-based tile in implementing Ising machines, opening new avenues for efficient and scalable combinatorial optimization in quantum computing.
翻訳日:2023-09-08 14:37:22 公開日:2023-09-06
# 近所の計測とモデリング

Measuring and Modeling Neighborhoods ( http://arxiv.org/abs/2110.14014v5 )

ライセンス: Link先を確認
Cory McCartan, Jacob R. Brown, and Kosuke Imai(参考訳) 粒度の地理的データは、地域がどのように形成され、どのように政治に影響を及ぼすかを理解する新しい機会を提供する。 同時に、地域固有の主観性は、それらの測定とモデリングにおいて方法論的な課題を生み出す。 我々は、回答者が自分の近所を地図上に描いたりできるオープンソースの調査機器を開発した。 また,地域と回答者の特性がどのように主観的地域を決定するかを分析する統計モデルを提案する。 我々は、マイアミ、ニューヨーク、フェニックスの有権者から主観的な近隣住民を収集し、ニューヨーク市の住民に市政委員会の地区に含める関心のある地域を惹きつけるよう求めた。 我々の分析によると、他の要因を一定に保ちながら、白人の回答者は近隣により多くの白人住民がいる国勢調査ブロックを含めている。 同様に、民主党と共和党は共同党派地域を含める傾向にある。 さらに,本モデルでは,標準近傍測度よりも精度の高いサンプル外予測を行う。

Granular geographic data present new opportunities to understand how neighborhoods are formed, and how they influence politics. At the same time, the inherent subjectivity of neighborhoods creates methodological challenges in measuring and modeling them. We develop an open-source survey instrument that allows respondents to draw their neighborhoods on a map. We also propose a statistical model to analyze how the characteristics of respondents and local areas determine subjective neighborhoods. We conduct two surveys: collecting subjective neighborhoods from voters in Miami, New York City, and Phoenix, and asking New York City residents to draw a community of interest for inclusion in their city council district. Our analysis shows that, holding other factors constant, White respondents include census blocks with more White residents in their neighborhoods. Similarly, Democrats and Republicans are more likely to include co-partisan areas. Furthermore, our model provides more accurate out-of-sample predictions than standard neighborhood measures.
翻訳日:2023-09-07 20:39:25 公開日:2023-09-06
# lipschitz-constrained self-attention による注意的収縮流

Attentive Contractive Flow with Lipschitz-constrained Self-Attention ( http://arxiv.org/abs/2109.12135v4 )

ライセンス: Link先を確認
Avideep Mukherjee, Badri Narayan Patro, Vinay P. Namboodiri(参考訳) 正規化フローは、可逆変換を用いて分布から抽出可能な密度推定を求めるエレガントな方法を提供する。 主な課題は、可逆性制約を保ちつつモデルの表現性を向上させることである。 そこで我々は,局所的な自己着想を取り入れることを提案する。 しかし, 従来の自己拘束機構は可逆流を得るための要求を満たせず, 流れの正規化に内在的に組み込むことはできない。 そこで本研究では,フローベース生成モデル(contractive flow)の特別なカテゴリを利用する,Attentive Contractive Flow (ACF) という新しい手法を提案する。 我々は, ACFをプラグアンドプレイ方式で, 各種のアートフローモデルに導入できることを実証した。 これは、これらのモデルの表現力を向上するだけでなく(ディム計量当たりのビットの改善)、トレーニングにおいてはるかに高速な収束をもたらすことが示される。 テスト画像間の補間を含む定性的な結果は、サンプルがより現実的で、データ内の局所的な相関をよく捉えていることを示す。 さらに, AWGNを用いて摂動解析を行い, ACFモデル(特にドット積変種)が付加雑音に対してより良く, より一貫した耐性を示すことを示す。

Normalizing flows provide an elegant method for obtaining tractable density estimates from distributions by using invertible transformations. The main challenge is to improve the expressivity of the models while keeping the invertibility constraints intact. We propose to do so via the incorporation of localized self-attention. However, conventional self-attention mechanisms don't satisfy the requirements to obtain invertible flows and can't be naively incorporated into normalizing flows. To address this, we introduce a novel approach called Attentive Contractive Flow (ACF) which utilizes a special category of flow-based generative models - contractive flows. We demonstrate that ACF can be introduced into a variety of state of the art flow models in a plug-and-play manner. This is demonstrated to not only improve the representation power of these models (improving on the bits per dim metric), but also to results in significantly faster convergence in training them. Qualitative results, including interpolations between test images, demonstrate that samples are more realistic and capture local correlations in the data well. We evaluate the results further by performing perturbation analysis using AWGN demonstrating that ACF models (especially the dot-product variant) show better and more consistent resilience to additive noise.
翻訳日:2023-09-07 20:38:46 公開日:2023-09-06
# Neural-IMLS:表面再構成のための自己制御型最小二乗移動ネットワーク

Neural-IMLS: Self-supervised Implicit Moving Least-Squares Network for Surface Reconstruction ( http://arxiv.org/abs/2109.04398v4 )

ライセンス: Link先を確認
Zixiong Wang, Pengfei Wang, Pengshuai Wang, Qiujie Dong, Junjie Gao, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang(参考訳) 入力点雲、特に実際のスキャンがうるさいため、表面の再構成は非常に困難である。 マルチレイヤーパーセプトロン (MLP) と暗黙移動最小二乗関数 (IMLS) が基底表面の二重表現を提供するのを観察し, 自己監督型生点雲から雑音耐性符号距離関数 (SDF) を直接学習する新しいアプローチであるニューラルIMLSを導入する。 我々は、MLSを用いて、MLPによって報告される距離値の正規化を行い、MLSを実行するためのデータポイントの正規化を行う。 また,MLP と IMLS の相互学習機構の恩恵を受けるニューラルネットワークが収束すると,ゼロレベルセットが基礎となる表面を近似した忠実な SDF が生成されることも証明した。 合成スキャンや実スキャンなど,様々なベンチマークで広範な実験を行った。 実験結果から, ノイズや欠落部分のある様々なベンチマークにおいて, 忠実な形状を再構築できることが示唆された。 ソースコードは~\url{https://github.com/bearprin/Neural-IMLS} にある。

Surface reconstruction is very challenging when the input point clouds, particularly real scans, are noisy and lack normals. Observing that the Multilayer Perceptron (MLP) and the implicit moving least-square function (IMLS) provide a dual representation of the underlying surface, we introduce Neural-IMLS, a novel approach that directly learns the noise-resistant signed distance function (SDF) from unoriented raw point clouds in a self-supervised fashion. We use the IMLS to regularize the distance values reported by the MLP while using the MLP to regularize the normals of the data points for running the IMLS. We also prove that at the convergence, our neural network, benefiting from the mutual learning mechanism between the MLP and the IMLS, produces a faithful SDF whose zero-level set approximates the underlying surface. We conducted extensive experiments on various benchmarks, including synthetic scans and real scans. The experimental results show that {\em Neural-IMLS} can reconstruct faithful shapes on various benchmarks with noise and missing parts. The source code can be found at~\url{https://github.com/bearprin/Neural-IMLS}.
翻訳日:2023-09-07 20:38:25 公開日:2023-09-06
# LIMDD:安定化状態を含む量子コンピューティングシミュレーションのための決定図

LIMDD: A Decision Diagram for Simulation of Quantum Computing Including Stabilizer States ( http://arxiv.org/abs/2108.00931v5 )

ライセンス: Link先を確認
Lieuwe Vinkhuijzen, Tim Coopmans, David Elkouss, Vedran Dunjko, Alfons Laarman(参考訳) 量子状態と量子演算の表現とシミュレーションの効率的な方法は、量子回路の最適化に不可欠である。 決定図(DD)は、もともとブール関数を表すためによく研究されたデータ構造であり、量子システムの関連する側面を捉えることができるが、その限界はよく理解されていない。 本研究では,既存のdd系構造と安定化器形式とのギャップを解明し,そのギャップを橋渡しする。 まず,ddsは重要な量子状態を簡潔に表現することが提案されたが,特定の安定状態に対して指数空間を必要とすることを示した。 これを解決するために、より強力な決定図であるローカル可逆マップDD(LIMDD)を導入します。 ポリサイズのLIMDDで表される量子状態の集合は、安定状態と他の決定図の変形の結合を厳密に含んでいることを証明する。 最後に、LIMDDを効率的にシミュレートできる回路が存在するが、出力状態は2つの最先端シミュレーションパラダイム(Clifford + $T$回路の安定化器分解技術とMatrix-Product States)で簡潔に表現できない。 2つのアプローチを組み合わせることで、limddsは量子コンピューティングのシミュレーションと解析のための、より強力なソリューションへの道を開いた。

Efficient methods for the representation and simulation of quantum states and quantum operations are crucial for the optimization of quantum circuits. Decision diagrams (DDs), a well-studied data structure originally used to represent Boolean functions, have proven capable of capturing relevant aspects of quantum systems, but their limits are not well understood. In this work, we investigate and bridge the gap between existing DD-based structures and the stabilizer formalism, an important tool for simulating quantum circuits in the tractable regime. We first show that although DDs were suggested to succinctly represent important quantum states, they actually require exponential space for certain stabilizer states. To remedy this, we introduce a more powerful decision diagram variant, called Local Invertible Map-DD (LIMDD). We prove that the set of quantum states represented by poly-sized LIMDDs strictly contains the union of stabilizer states and other decision diagram variants. Finally, there exist circuits which LIMDDs can efficiently simulate, while their output states cannot be succinctly represented by two state-of-the-art simulation paradigms: the stabilizer decomposition techniques for Clifford + $T$ circuits and Matrix-Product States. By uniting two successful approaches, LIMDDs thus pave the way for fundamentally more powerful solutions for simulation and analysis of quantum computing.
翻訳日:2023-09-07 20:38:00 公開日:2023-09-06
# パルス再構成によるパラメトリックハミルトニアンの制御最適化

Control optimization for parametric hamiltonians by pulse reconstruction ( http://arxiv.org/abs/2102.12316v4 )

ライセンス: Link先を確認
Piero Luchi, Francesco Turro, Valentina Amitrano and Francesco Pederiva, Xian Wu, Kyle Wendt, Jonathan L Dubois and Sofia Quaglioni(参考訳) 最適な制御技術は、カスタマイズされた量子ゲートを生成するために必要な制御パルスを調整する手段を提供する。 しかし、カスタマイズされたゲートを生成するのに必要な大量の(古典的な)計算は、特にパルス最適化を繰り返す必要がある場合、このアプローチの有効性を急速に損なう可能性がある。 本研究では,時間変動量に依存するハミルトニアンの制御パルスを生成するのに必要な計算時間を短縮する手法を提案する。 単純な補間スキームを用いて,所定のパラメータ値の離散セットに対して予め求めたパルス群から制御パルスを正確に再構成する。 高い忠実度と計算労力の大幅な削減を図った再構成が得られる。 超伝導量子ビットに基づく2つの相互作用中性子のユニタリ(実)時間発展のデバイスレベル量子シミュレーションへの提案手法の適用結果について報告する。

Optimal control techniques provide a means to tailor the control pulses required to generate customized quantum gates, which helps to improve the resilience of quantum simulations to gate errors and device noise. However, the significant amount of (classical) computation required to generate customized gates can quickly undermine the effectiveness of this approach, especially when pulse optimization needs to be iterated. We propose a method to reduce the computational time required to generate the control pulse for a Hamiltonian that is parametrically dependent on a time-varying quantity. We use simple interpolation schemes to accurately reconstruct the control pulses from a set of pulses obtained in advance for a discrete set of predetermined parameter values. We obtain a reconstruction with very high fidelity and a significant reduction in computational effort. We report the results of the application of the proposed method to device-level quantum simulations of the unitary (real) time evolution of two interacting neutrons based on superconducting qubits.
翻訳日:2023-09-07 20:37:37 公開日:2023-09-06
# 因果学習を用いたブラックボックス予測アルゴリズムの動作説明

Explaining the Behavior of Black-Box Prediction Algorithms with Causal Learning ( http://arxiv.org/abs/2006.02482v4 )

ライセンス: Link先を確認
Numair Sani, Daniel Malinsky, Ilya Shpitser(参考訳) ブラックボックス予測モデル(例えば、画像ピクセルデータで訓練されたディープニューラルネットワーク)のポストホックな説明可能性に対する因果的アプローチがますます人気になっている。 しかし、既存のアプローチには2つの重要な欠点がある。 (i)「説明単位」とは、例えば画像画素のような関連する予測モデルへのマイクロレベルの入力であり、アルゴリズムの振る舞いをどう変えるかを理解するのに役立つマクロレベルの特徴を解釈するよりも、より有用である。 (II) 既存のアプローチでは、特徴量と対象モデル予測の間に未測定の矛盾は存在しないと仮定しており、説明単位がマクロレベルの変数である場合に保持できない。 私たちの焦点は、アナリストがターゲット予測アルゴリズムの内部動作にアクセスできず、特定の入力に応答してモデルの出力を問い合わせる能力のみを提供する重要な設定にあります。 このような状況下での因果的説明を提供するために,特徴間の任意の不測な相違を可能にする因果的図形表現の学習を提案する。 得られたグラフは、モデル予測に因果的に影響を及ぼす解釈可能な特徴と、共起によるモデル予測にのみ関連している特徴とを区別できることを示す。 我々のアプローチは、適切な説明が介入論的な意味で「異論者」である要因を指し示す因果説明の反実理論によって動機付けられている。

Causal approaches to post-hoc explainability for black-box prediction models (e.g., deep neural networks trained on image pixel data) have become increasingly popular. However, existing approaches have two important shortcomings: (i) the "explanatory units" are micro-level inputs into the relevant prediction model, e.g., image pixels, rather than interpretable macro-level features that are more useful for understanding how to possibly change the algorithm's behavior, and (ii) existing approaches assume there exists no unmeasured confounding between features and target model predictions, which fails to hold when the explanatory units are macro-level variables. Our focus is on the important setting where the analyst has no access to the inner workings of the target prediction algorithm, rather only the ability to query the output of the model in response to a particular input. To provide causal explanations in such a setting, we propose to learn causal graphical representations that allow for arbitrary unmeasured confounding among features. We demonstrate the resulting graph can differentiate between interpretable features that causally influence model predictions versus those that are merely associated with model predictions due to confounding. Our approach is motivated by a counterfactual theory of causal explanation wherein good explanations point to factors that are "difference-makers" in an interventionist sense.
翻訳日:2023-09-07 20:36:57 公開日:2023-09-06
# 量子データの鍛造:古典的にiqpベースの量子テストを打ち破る

Forging quantum data: classically defeating an IQP-based quantum test ( http://arxiv.org/abs/1912.05547v3 )

ライセンス: Link先を確認
Gregory D. Kahanamoku-Meyer(参考訳) 近年、量子コンピューティングの実験は、古典的なコンピュータが特定の計算を行う能力を上回るものとなり、これは「量子計算の優位性」と呼ばれるマイルストーンとなった。 しかし、これらの実験で量子デバイスの出力を検証するには、非常に大きな古典的計算が必要であった。 量子能力を示すためのエキサイティングな次のステップは、より大きなシステムサイズをテストし、検証できるように、効率的な古典的検証による量子計算の利点のテストを実装することである。 量子性の効率的な検証のための最初の提案の一つは、クラスIQPの回路内に秘密の古典的ビットストリングを隠して、回路の出力分布からのサンプルが秘密と相関する(arXiv:0809.0847)。 このプロトコルの古典的硬さは、IQP回路を直接シミュレートすることが難しいという証拠によって支持されているが、他の(非シミュレート的な)古典的攻撃に対するプロトコルのセキュリティは未解決のままである。 本研究では,このプロトコルが古典的偽造に対して安全でないことを実証する。 古典的な)証明器が量子であることを検証者に納得させるだけでなく、実際に与えられたプロトコルインスタンスの裏にある秘密鍵を抽出できる古典的なアルゴリズムを記述する。 さらに, 鍵抽出アルゴリズムは, 数百キュービットという問題に対して, 効果的であることを示す。 最後に,本アルゴリズムの実装と,原論文の著者によるオンライン投稿の「25ドルチャレンジ」の根底にある秘密ベクトルについて述べる。

Recently, quantum computing experiments have for the first time exceeded the capability of classical computers to perform certain computations -- a milestone termed "quantum computational advantage." However, verifying the output of the quantum device in these experiments required extremely large classical computations. An exciting next step for demonstrating quantum capability would be to implement tests of quantum computational advantage with efficient classical verification, such that larger system sizes can be tested and verified. One of the first proposals for an efficiently-verifiable test of quantumness consists of hiding a secret classical bitstring inside a circuit of the class IQP, in such a way that samples from the circuit's output distribution are correlated with the secret (arXiv:0809.0847). The classical hardness of this protocol has been supported by evidence that directly simulating IQP circuits is hard, but the security of the protocol against other (non-simulating) classical attacks has remained an open question. In this work we demonstrate that the protocol is not secure against classical forgery. We describe a classical algorithm that can not only convince the verifier that the (classical) prover is quantum, but can in fact can extract the secret key underlying a given protocol instance. Furthermore, we show that the key extraction algorithm is efficient in practice for problem sizes of hundreds of qubits. Finally, we provide an implementation of the algorithm, and give the secret vector underlying the "$25 challenge" posted online by the authors of the original paper.
翻訳日:2023-09-07 20:36:33 公開日:2023-09-06
# 非定常熱・物質移動シミュレーションを高速化する新しい物理形機械学習戦略

A novel physics-informed machine learning strategy to accelerate unsteady heat and mass transfer simulations ( http://arxiv.org/abs/2206.06817v2 )

ライセンス: Link先を確認
Joongoo Jeon, Juhyeong Lee, Ricardo Vinuesa, Sung Joong Kim(参考訳) 中央処理装置(cpus)の性能の急速な向上にもかかわらず、非定常熱と物質移動のシミュレーションは特に大きな領域において計算コストが非常に高い。 機械学習(ML)の大きな波が加速計算流体力学(CFD)研究で伝播している一方で、最近の研究では、トレーニングと予測時間のギャップが単一トレーニングアプローチで増加するにつれてエラー増加を完全に抑制することは非現実的であることが明らかになっている。 本研究では,ML-CFDクロス計算を用いた非定常熱および物質移動シミュレーションを高速化するための残差に基づく物理情報伝達学習(RePIT)戦略を提案する。 我々の仮説は、連続ML-CFDクロス計算が周期的に実行され、増大する残差を低減できるだけでなく、最新のCFD時系列データ(トランスファーラーニングアプローチ)でネットワークパラメータを更新する、というものである。 ML-CFDのクロスポイントは、第一原理解法(物理インフォームド方式)の残留モニタリング手法に類似した手法を用いて決定される。 提案手法の有効性を自然対流シミュレーションに基づいて評価し,単一訓練法と比較した。 単回トレーニングでは, 残留尺度変化は100時間程度で発生し, 非物理的パターンを示す予測時系列と, 基礎的真理との大きな違いがみられた。 逆に、RePIT戦略は、設定範囲内で連続性を保ち、すべての変数と位置に対する基底真理と良好な一致を示した。 シミュレーションはパラメータ更新時間を含む1.9回加速された。 結論として、この普遍戦略は、高い精度を維持しながらCFDシミュレーションの計算コストを大幅に削減する可能性がある。

Despite the rapid advancements in the performance of central processing units (CPUs), the simulation of unsteady heat and mass transfer is computationally very costly, particularly in large domains. While a big wave of machine learning (ML) has propagated in accelerating computational fluid dynamics (CFD) studies, recent research has revealed that it is unrealistic to completely suppress the error increase as the gap between the training and prediction times increases in single training approach. In this study, we propose a residual-based physics-informed transfer learning (RePIT) strategy to accelerate unsteady heat and mass transfer simulations using ML-CFD cross computation. Our hypothesis is that long-term CFD simulations become feasible if continuous ML-CFD cross computation is periodically carried out to not only reduce increased residuals but also update network parameters with the latest CFD time series data (transfer learning approach). The cross point of ML-CFD is determined using a method similar to residual monitoring methods of first principle solvers (physics-informed manner). The feasibility of the proposed strategy was evaluated based on natural convection simulation and compared to the single training approach. In the single training approach, a residual scale change occurred around 100 timesteps leading to predicted time series exhibiting non-physical pattern as well as a large difference from the ground truth. Conversely, it was confirmed that the RePIT strategy maintained the continuity residual within the set range and showed good agreement with the ground truth for all variables and locations. The simulation was accelerated by 1.9 times, including the parameter-updating time. In conclusion, this universal strategy has the potential to significantly reduce the computational cost of CFD simulations while maintaining high accuracy.
翻訳日:2023-09-07 20:28:55 公開日:2023-09-06
# 時間依存型Schr\"{o}ディンガー方程式に対する正確な五角形行列解

An Accurate Pentadiagonal Matrix Solution for the Time-Dependent Schr\"{o}dinger Equation ( http://arxiv.org/abs/2205.13467v4 )

ライセンス: Link先を確認
Ankit Kumar(参考訳) 量子力学的時間進化作用素のユニタリ形式の一つはケイリーの近似によって与えられる。 同様の数値的な実装は、ハミルトニアンの第二導関数を三点公式に置き換えることであり、これは線型方程式の三対角系へと繋がる。 本研究では,精度の高い5点ステンシルを用いて,暗黙の五角形クランク・ニコルソンスキームに波動関数を識別する。 結果解は標準解よりはるかに正確であることが証明された。 また, 2成分のウェーブパック力学の解法と, 実験室の観点からの製品状態が, 質量中心から見て製品状態のままであるような条件の導出についても論じた。 これは複雑な二成分力学を2つの独立した単粒子問題に分離するための深い応用である。

One of the unitary forms of the quantum mechanical time evolution operator is given by Cayley's approximation. A numerical implementation of the same involves the replacement of second derivatives in Hamiltonian with the three-point formula, which leads to a tridiagonal system of linear equations. In this work, we invoke the highly accurate five-point stencil to discretize the wave function onto an Implicit-Explicit pentadiagonal Crank-Nicolson scheme. It is demonstrated that the resultant solutions are significantly more accurate than the standard ones. We also discuss the resolution of bipartite wavepacket dynamics and derive conditions under which a product state from the laboratory perspective remains a product state from the center-of-mass point of view. This has profound applications for decoupling complicated bipartite dynamics into two independent single-particle problems.
翻訳日:2023-09-07 20:28:23 公開日:2023-09-06
# クラウドファンディング成功予測のための視覚情報の抽出

Extraction of Visual Information to Predict Crowdfunding Success ( http://arxiv.org/abs/2203.14806v2 )

ライセンス: Link先を確認
S. J. Blanchard, T. J. Noseworthy, E. Pancer, M. Poole(参考訳) 研究者は、起業家の活動とダイナミクスに関する洞察を得るために、クラウドファンディングプラットフォームに目を向けるようになった。 これまでの研究は、テクノロジー、コミュニケーション、マーケティング戦略などクラウドファンディングの成功に影響を及ぼす様々な要因を調査してきたが、画像から自動的に抽出される視覚要素の役割は、あまり注目されていない。 これは、クラウドファンディングプラットフォームが注意グラフと高解像度画像の重要性を強調していることを考えると驚きであり、以前の研究では、画像特性が製品評価に大きな影響を与えることが示されている。 実際、Kickstarterのデータを利用した経験的記事(n = 202)の包括的なレビューは、その分析に視覚情報の組み入れに焦点を当てている。 その結果、画像数でコントロールできるのは29.70%に過ぎず、画像の詳細は12%に満たないことがわかった。 本稿では,画像処理とビジネス領域との関連性に関する文献を概観し,視覚的数(画像数,動画数)と画像詳細の2種類の視覚的変数について述べる。 色, 構成, 図形的関係を論じる以前の研究に基づいて, 顔の数, 描写された概念の数, それらの概念を識別する容易さなど, クラウドファンディングでまだ検討されていない視覚的シーン要素を紹介した。 ビジュアルカウントと画像詳細の予測値を示すために、kickstarterのデータを分析した。 結果は、ビジュアルカウント機能は成功の予測要因のトップ3のうちの2つであることを強調する。 以上の結果から,カラーマターなどの画像の詳細な特徴が多用され,視覚的シーン要素の計測も有用であることが示唆された。 我々は、著者が画像の詳細を抽出するのに役立つrとpythonのコードでこの記事を補足する(https://osf.io/ujnzp/)。

Researchers have increasingly turned to crowdfunding platforms to gain insights into entrepreneurial activity and dynamics. While previous studies have explored various factors influencing crowdfunding success, such as technology, communication, and marketing strategies, the role of visual elements that can be automatically extracted from images has received less attention. This is surprising, considering that crowdfunding platforms emphasize the importance of attention-grabbing and high-resolution images, and previous research has shown that image characteristics can significantly impact product evaluations. Indeed, a comprehensive review of empirical articles (n = 202) that utilized Kickstarter data, focusing on the incorporation of visual information in their analyses. Our findings reveal that only 29.70% controlled for the number of images, and less than 12% considered any image details. In this manuscript, we review the literature on image processing and its relevance to the business domain, highlighting two types of visual variables: visual counts (number of pictures and number of videos) and image details. Building upon previous work that discussed the role of color, composition and figure-ground relationships, we introduce visual scene elements that have not yet been explored in crowdfunding, including the number of faces, the number of concepts depicted, and the ease of identifying those concepts. To demonstrate the predictive value of visual counts and image details, we analyze Kickstarter data. Our results highlight that visual count features are two of the top three predictors of success. Our results also show that simple image detail features such as color matter a lot, and our proposed measures of visual scene elements can also be useful. We supplement our article with R and Python codes that help authors extract image details (https://osf.io/ujnzp/).
翻訳日:2023-09-07 20:27:57 公開日:2023-09-06
# ワッサーシュタイン力学による強い後部収縮速度

Strong posterior contraction rates via Wasserstein dynamics ( http://arxiv.org/abs/2203.10754v3 )

ライセンス: Link先を確認
Emanuele Dolera, Stefano Favaro, Edoardo Mainini(参考訳) ベイズ統計学において、後部収縮率(PCR)は、サンプルサイズが無限に近づくにつれて、後部分布が真のモデルの任意の小さな近傍に集中する速度を、適切な方法で定量化する。 本稿では,関数のパラメータ空間上での強いノルム距離に関して,PCRの新しいアプローチを開発する。 Critical to our approach is the combination of a local Lipschitz-continuity for the posterior distribution with a dynamic formulation of the Wasserstein distance, which allows to set forth an interesting connection between PCRs and some classical problems arising in mathematical analysis, probability and statistics, e.g., Laplace methods for approximating integrals, Sanov's large deviation principles in the Wasserstein distance, rates of convergence of mean Glivenko-Cantelli theorems, and estimates of weighted Poincar\'e-Wirtinger constants. まず、正則無限次元指数族におけるモデルに対するPCR定理を提示し、モデルの十分な統計量を利用して、その定理を一般支配モデルに拡張する。 これらの結果は、無限次元におけるラプラス積分と重み付けポアンカル・ワイルティンガー定数を独立に評価する新しい手法の開発に依存している。 提案手法は,正規パラメトリックモデル,多項モデル,有限次元および無限次元ロジスティック・ガウスモデル,無限次元線形回帰モデルに適用できる。 一般に,本手法は有限次元モデルにおいて最適PCRに導かれるが,無限次元モデルでは先行分布がPCRに与える影響を明確に示す。

In Bayesian statistics, posterior contraction rates (PCRs) quantify the speed at which the posterior distribution concentrates on arbitrarily small neighborhoods of a true model, in a suitable way, as the sample size goes to infinity. In this paper, we develop a new approach to PCRs, with respect to strong norm distances on parameter spaces of functions. Critical to our approach is the combination of a local Lipschitz-continuity for the posterior distribution with a dynamic formulation of the Wasserstein distance, which allows to set forth an interesting connection between PCRs and some classical problems arising in mathematical analysis, probability and statistics, e.g., Laplace methods for approximating integrals, Sanov's large deviation principles in the Wasserstein distance, rates of convergence of mean Glivenko-Cantelli theorems, and estimates of weighted Poincar\'e-Wirtinger constants. We first present a theorem on PCRs for a model in the regular infinite-dimensional exponential family, which exploits sufficient statistics of the model, and then extend such a theorem to a general dominated model. These results rely on the development of novel techniques to evaluate Laplace integrals and weighted Poincar\'e-Wirtinger constants in infinite-dimension, which are of independent interest. The proposed approach is applied to the regular parametric model, the multinomial model, the finite-dimensional and the infinite-dimensional logistic-Gaussian model and the infinite-dimensional linear regression. In general, our approach leads to optimal PCRs in finite-dimensional models, whereas for infinite-dimensional models it is shown explicitly how the prior distribution affect PCRs.
翻訳日:2023-09-07 20:27:27 公開日:2023-09-06
# deepad: アルツハイマー病進行のロバストなディープラーニングモデルによる実世界臨床応用

DeepAD: A Robust Deep Learning Model of Alzheimer's Disease Progression for Real-World Clinical Applications ( http://arxiv.org/abs/2203.09096v4 )

ライセンス: Link先を確認
Somaye Hashemifar, Claudia Iriondo, Evan Casey, Mohsen Hejrati(参考訳) 患者の将来の軌跡を予測する能力は、アルツハイマー病(AD)のような複雑な疾患の治療薬の開発に向けた重要なステップである。 しかし、病気の進行を予測するために開発されたほとんどの機械学習アプローチは、単一タスクモデルまたは単一モダリティモデルであり、高次元画像を用いたマルチタスク学習を含む設定では直接適用できない。 さらに、これらのアプローチのほとんどは単一のデータセット(すなわちコホート)で訓練されており、他のコホートには一般化できない。 本稿では,複数コホートからの経時的臨床・神経画像データを分析し,AD進行を予測するためのマルチモーダル・マルチタスク深層学習モデルを提案する。 提案モデルでは,3次元畳み込みニューラルネットワークの高次元MRI特徴と臨床および人口統計情報を含む他のデータモダリティを統合し,患者の将来の軌跡を予測する。 本モデルでは,研究固有の画像バイアス,特に研究間領域シフトを緩和するために,敵対的損失を用いる。 さらに,シャープネス・アウェア・最小化(SAM)最適化手法を適用し,モデル一般化をさらに改善した。 提案モデルでは, 実験結果の評価と検証のために, 各種データセット上で実験を行った。 私たちの結果は 1)我々のモデルはベースラインモデルよりも大幅に改善され、 2) 3次元畳み込みニューラルネットワークから抽出したニューロイメージング特徴を用いたモデルは,MRI由来の容積特徴に適用した場合に,同じモデルより優れている。

The ability to predict the future trajectory of a patient is a key step toward the development of therapeutics for complex diseases such as Alzheimer's disease (AD). However, most machine learning approaches developed for prediction of disease progression are either single-task or single-modality models, which can not be directly adopted to our setting involving multi-task learning with high dimensional images. Moreover, most of those approaches are trained on a single dataset (i.e. cohort), which can not be generalized to other cohorts. We propose a novel multimodal multi-task deep learning model to predict AD progression by analyzing longitudinal clinical and neuroimaging data from multiple cohorts. Our proposed model integrates high dimensional MRI features from a 3D convolutional neural network with other data modalities, including clinical and demographic information, to predict the future trajectory of patients. Our model employs an adversarial loss to alleviate the study-specific imaging bias, in particular the inter-study domain shifts. In addition, a Sharpness-Aware Minimization (SAM) optimization technique is applied to further improve model generalization. The proposed model is trained and tested on various datasets in order to evaluate and validate the results. Our results showed that 1) our model yields significant improvement over the baseline models, and 2) models using extracted neuroimaging features from 3D convolutional neural network outperform the same models when applied to MRI-derived volumetric features.
翻訳日:2023-09-07 20:27:02 公開日:2023-09-06
# ソースおよび容量条件下におけるカーネル分類の誤差スケーリング則

Error Scaling Laws for Kernel Classification under Source and Capacity Conditions ( http://arxiv.org/abs/2201.12655v3 )

ライセンス: Link先を確認
Hugo Cui, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) カーネル分類の問題を考える。 サンプル数による予測誤差の減衰率の最悪のケース境界はいくつかの分類器で知られているが、実際のデータセットの学習曲線を正確に記述できないことが多い。 本研究では, 標準の情報源とキャパシティ条件を満たす重要なデータセットのクラスについて検討し, 数値的に示すような実データ集合を多数含む。 ガウス設計の下では、ソース係数とキャパシティ係数の関数として誤分類(予測)誤差の減衰率を導出する。 我々は2つの標準カーネル分類設定、すなわちマージン最大化サポートベクターマシン(svm)とリッジ分類を行い、この2つの手法を対比する。 我々のレートは、このクラスのデータセットの学習曲線を強く記述しており、実際のデータでも観察されている。 我々の結果は、実際のデータセットで正確であるカーネル分類のスケーリング法則の指数の明示的な予測と見なすこともできる。

We consider the problem of kernel classification. While worst-case bounds on the decay rate of the prediction error with the number of samples are known for some classifiers, they often fail to accurately describe the learning curves of real data sets. In this work, we consider the important class of data sets satisfying the standard source and capacity conditions, comprising a number of real data sets as we show numerically. Under the Gaussian design, we derive the decay rates for the misclassification (prediction) error as a function of the source and capacity coefficients. We do so for two standard kernel classification settings, namely margin-maximizing Support Vector Machines (SVM) and ridge classification, and contrast the two methods. We find that our rates tightly describe the learning curves for this class of data sets, and are also observed on real data. Our results can also be seen as an explicit prediction of the exponents of a scaling law for kernel classification that is accurate on some real datasets.
翻訳日:2023-09-07 20:26:39 公開日:2023-09-06
# 最適かつ差動的にプライベートなデータ取得:中央および局所的メカニズム

Optimal and Differentially Private Data Acquisition: Central and Local Mechanisms ( http://arxiv.org/abs/2201.03968v2 )

ライセンス: Link先を確認
Alireza Fallah, Ali Makhdoumi, Azarakhsh Malekian, Asuman Ozdaglar(参考訳) プライバシに敏感なユーザからデータを収集するプラットフォームの問題を考え,その基盤となる関心パラメータを推定する。 我々は、個人が金銭的報酬やサービスと引き換えに彼女の(検証可能な)データを共有できるが、同時に、差動プライバシーを使って定量化する(プライベートな)異質なプライバシーコストを持つベイズ最適メカニズム設計問題として、この問題を定式化する。 ユーザに対してプライバシ保証を提供するための2つの一般的な差分プライバシー設定について検討する。 いずれの設定においても,推定誤差の最小上限を定め,ユーザに対する不均質なプライバシ損失レベルに対する最適推定値を導出する。 この特徴に基づいて,ユーザのプライバシ感を真に報告する推定器と支払いの最適選択として,メカニズム設計の問題を提起する。 プライバシ感受性の分布に関する規則性条件の下で,プライバシ設定の両方において,この問題を解決する効率的なアルゴリズム機構を考案する。 中央設定における我々のメカニズムは、時間$\mathcal{O}(n \log n)$で実装することができ、$n$はユーザ数であり、ローカル設定における我々のメカニズムは、PTAS(Polynomial Time Approximation Scheme)を許容する。

We consider a platform's problem of collecting data from privacy sensitive users to estimate an underlying parameter of interest. We formulate this question as a Bayesian-optimal mechanism design problem, in which an individual can share her (verifiable) data in exchange for a monetary reward or services, but at the same time has a (private) heterogeneous privacy cost which we quantify using differential privacy. We consider two popular differential privacy settings for providing privacy guarantees for the users: central and local. In both settings, we establish minimax lower bounds for the estimation error and derive (near) optimal estimators for given heterogeneous privacy loss levels for users. Building on this characterization, we pose the mechanism design problem as the optimal selection of an estimator and payments that will elicit truthful reporting of users' privacy sensitivities. Under a regularity condition on the distribution of privacy sensitivities we develop efficient algorithmic mechanisms to solve this problem in both privacy settings. Our mechanism in the central setting can be implemented in time $\mathcal{O}(n \log n)$ where $n$ is the number of users and our mechanism in the local setting admits a Polynomial Time Approximation Scheme (PTAS).
翻訳日:2023-09-07 20:26:24 公開日:2023-09-06
# 演算量子平均ケース距離

Operational Quantum Average-Case Distances ( http://arxiv.org/abs/2112.14283v5 )

ライセンス: Link先を確認
Filip B. Maciejewski and Zbigniew Pucha{\l}a and Micha{\l} Oszmaniec(参考訳) 一般実験において, 量子状態, 測定値, チャネル間の距離測定を, その統計的識別性に基づいて導入する。 具体的には、量子オブジェクトがランダム回路に絡み合っているプロトコルの出力統計値間の平均全変動距離(tvd)を分析し、標準ベースで測定する。 近似4設計の回路では、平均tvdは基礎となるオブジェクトの単純な明示関数 -- 平均ケース距離 (acd) によって近似できることを示す。 量子優位実験におけるノイズの影響を解析し、量子メモリのない高次元状態やチャネルの効率的な識別に応用する。 NISQ装置の品質を評価するのにACDの方が、トレース距離やダイヤモンド標準のような一般的な距離測定よりも適していると主張する。

We introduce distance measures between quantum states, measurements, and channels based on their statistical distinguishability in generic experiments. Specifically, we analyze the average Total Variation Distance (TVD) between output statistics of protocols in which quantum objects are intertwined with random circuits and measured in standard basis. We show that for circuits forming approximate 4-designs, the average TVDs can be approximated by simple explicit functions of the underlying objects -- the average-case distances (ACDs). We apply them to analyze the effects of noise in quantum advantage experiments and for efficient discrimination of high-dimensional states and channels without quantum memory. We argue that ACDs are better suited for assessing the quality of NISQ devices than common distance measures such as trace distance or the diamond norm.
翻訳日:2023-09-07 20:25:59 公開日:2023-09-06
# 準2次元双極子縮合における自己結合液滴

Self-bound droplets in quasi-two-dimensional dipolar condensates ( http://arxiv.org/abs/2112.09314v4 )

ライセンス: Link先を確認
Yuqi Wang, Tao Shi, Su Yi(参考訳) 擬二次元幾何学における自己有界双極子滴の基底状態特性をガウス状態理論を用いて研究する。 その結果, 真空とコヒーレント状態の2つの量子相が存在することがわかった。 さらに、多重量子相の結果として、放射径と原子数曲線が二重ディップ構造を示すことを示す。 特に、自己結合型液滴の臨界原子数は量子位相によって決定され、量子状態の区別とガウス状態理論の検証が可能となる。

We study the ground-state properties of self-bound dipolar droplets in quasi-two-dimensional geometry by using the Gaussian state theory. We show that there exist two quantum phases corresponding to the macroscopic squeezed vacuum and squeezed coherent states. We further show that the radial size versus atom number curve exhibits a double-dip structure, as a result of the multiple quantum phases. In particular, we find that the critical atom number for the self-bound droplets is determined by the quantum phases, which allows us to distinguish the quantum state and validates the Gaussian state theory.
翻訳日:2023-09-07 20:25:49 公開日:2023-09-06
# 因果条件シフト下での転送可能な時系列予測

Transferable Time-Series Forecasting under Causal Conditional Shift ( http://arxiv.org/abs/2111.03422v3 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Tom Z.J Fu, Zhifeng Hao, Kun Zhang(参考訳) 本稿では,実際に頻繁に遭遇するにもかかわらず,文献であまり探索されていない時系列予測のための半教師付きドメイン適応の問題に焦点をあてる。 時系列領域適応に関する既存の方法は、主に静的データのために設計されたパラダイムに従い、データオフセット、時間ラグ、および変動データ分散によって生じるドメイン固有の複雑な条件依存を処理できない。 これらの課題に対処するために,時系列データにおける変分条件付き依存関係を分析し,因果構造が通常領域間で安定であることを見出し,さらに因果条件付きシフト仮定を提起する。 この仮定に則って,時系列データの因果生成過程を考察し,時系列予測に基づく半教師付き領域適応問題に対するエンドツーエンドモデルを提案する。 提案手法は, クロスドメインデータ間のグランガーカウサル構造を検出するだけでなく, 正確かつ解釈可能な予測結果を用いて, クロスドメイン時系列予測問題に対処する。 さらに, 対象領域の一般化誤差を経験的リスクと異なる領域からの因果構造との相違によって限定した, 提案手法の優位性を理論的に解析する。 時系列予測における半教師付き領域適応法の有効性を,合成データと実データの両方で実証した。

This paper focuses on the problem of semi-supervised domain adaptation for time-series forecasting, which is underexplored in literatures, despite being often encountered in practice. Existing methods on time-series domain adaptation mainly follow the paradigm designed for the static data, which cannot handle domain-specific complex conditional dependencies raised by data offset, time lags, and variant data distributions. In order to address these challenges, we analyze variational conditional dependencies in time-series data and find that the causal structures are usually stable among domains, and further raise the causal conditional shift assumption. Enlightened by this assumption, we consider the causal generation process for time-series data and propose an end-to-end model for the semi-supervised domain adaptation problem on time-series forecasting. Our method can not only discover the Granger-Causal structures among cross-domain data but also address the cross-domain time-series forecasting problem with accurate and interpretable predicted results. We further theoretically analyze the superiority of the proposed method, where the generalization error on the target domain is bounded by the empirical risks and by the discrepancy between the causal structures from different domains. Experimental results on both synthetic and real data demonstrate the effectiveness of our method for the semi-supervised domain adaptation method on time-series forecasting.
翻訳日:2023-09-07 20:25:40 公開日:2023-09-06
# 機械読解における推論ショートカットの測定と緩和に関する調査

A Survey on Measuring and Mitigating Reasoning Shortcuts in Machine Reading Comprehension ( http://arxiv.org/abs/2209.01824v2 )

ライセンス: Link先を確認
Xanh Ho, Johannes Mario Meissner, Saku Sugawara, and Akiko Aizawa(参考訳) ショートカット学習の問題はNLPで広く知られており、近年は重要な研究分野となっている。 データ内の意図しない相関により、高度な言語理解と推論能力を示すことを意図したタスクを簡単に解決できる。 本稿では,機械読影理解(MRC)の分野に着目し,様々なショートカットに悩まされるハイレベルな言語理解を示す重要な課題である。 近道の計測と緩和のための利用可能な手法を要約し,近道研究のさらなる進展を示唆する。 重要な点として, MRCにおけるショートカット緩和に関する懸念として, 1) 公共チャレンジセットの欠如, 有効かつ再利用可能な評価に必要な構成要素, (2) 他の領域で顕著な特定の緩和手法の欠如, を挙げる。

The issue of shortcut learning is widely known in NLP and has been an important research focus in recent years. Unintended correlations in the data enable models to easily solve tasks that were meant to exhibit advanced language understanding and reasoning capabilities. In this survey paper, we focus on the field of machine reading comprehension (MRC), an important task for showcasing high-level language understanding that also suffers from a range of shortcuts. We summarize the available techniques for measuring and mitigating shortcuts and conclude with suggestions for further progress in shortcut research. Importantly, we highlight two concerns for shortcut mitigation in MRC: (1) the lack of public challenge sets, a necessary component for effective and reusable evaluation, and (2) the lack of certain mitigation techniques that are prominent in other areas.
翻訳日:2023-09-07 20:20:25 公開日:2023-09-06
# 多基準決定問題に対する統一ベイズ的枠組み

Unified Bayesian Frameworks for Multi-criteria Decision-making Problems ( http://arxiv.org/abs/2208.13390v4 )

ライセンス: Link先を確認
Majid Mohammadi(参考訳) 本稿では,MCDM法と課題の確率論的解釈を利用して,多基準意思決定(MCDM)問題の様々な側面に取り組むためのベイズ的枠組みを紹介する。 ベイズモデルの柔軟性を活用することで、提案フレームワークは、グループ決定問題や基準相関などのMCDMの主要な課題に対する統計的にエレガントな解決策を提供する。 さらに、これらのモデルは、通常の分布や三角形の分布を含む意思決定者(DM)の選好における様々な不確実性や、インターバル選好に対応できる。 大規模グループMCDMシナリオに対処するため、確率混合モデルを開発し、DMの同種部分群の同定を可能にする。 さらに,DM選好に基づく基準と代替品の相対的重要性を評価するために,確率的ランキング方式を考案した。 様々な数値的な例を用いて,提案手法の有効性を実証し,その特徴を他の手法と比較して強調する。

This paper introduces Bayesian frameworks for tackling various aspects of multi-criteria decision-making (MCDM) problems, leveraging a probabilistic interpretation of MCDM methods and challenges. By harnessing the flexibility of Bayesian models, the proposed frameworks offer statistically elegant solutions to key challenges in MCDM, such as group decision-making problems and criteria correlation. Additionally, these models can accommodate diverse forms of uncertainty in decision makers' (DMs) preferences, including normal and triangular distributions, as well as interval preferences. To address large-scale group MCDM scenarios, a probabilistic mixture model is developed, enabling the identification of homogeneous subgroups of DMs. Furthermore, a probabilistic ranking scheme is devised to assess the relative importance of criteria and alternatives based on DM(s) preferences. Through experimentation on various numerical examples, the proposed frameworks are validated, demonstrating their effectiveness and highlighting their distinguishing features in comparison to alternative methods.
翻訳日:2023-09-07 20:20:11 公開日:2023-09-06
# スケルトンに基づく行動認識のための生成的行動記述プロンプト

Generative Action Description Prompts for Skeleton-based Action Recognition ( http://arxiv.org/abs/2208.05318v2 )

ライセンス: Link先を確認
Wangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang(参考訳) 骨格に基づく行動認識は近年注目されている。 骨格に基づく行動認識への現在のアプローチは、通常ワンホット分類タスクとして定式化され、アクション間の意味的関係を完全に活用しない。 例えば、"make victory sign" と "thumb up" は、手のジェスチャーの2つのアクションであり、その大きな違いは手の動きにある。 この情報はアクションクラスのカテゴリ別の1-hotエンコーディングとは無関係であるが、アクション記述から明らかにすることができる。 したがって、訓練における行動記述の利用は表現学習の恩恵を受ける可能性がある。 本研究では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。 具体的には,事前学習された大規模言語モデルを知識エンジンとして活用し,行動の身体部分の動きに対するテキスト記述を自動的に生成し,テキストエンコーダを用いて異なる身体部分の特徴ベクトルを生成し,行動表現学習のための骨格エンコーダを監督するマルチモーダルトレーニングスキームを提案する。 提案手法は,計算コストを増加させることなく,様々なベースラインモデルに対して顕著に改善できることを示す。 GAPは、NTU RGB+D、NTU RGB+D 120、NW-UCLAなど、人気のあるスケルトンベースのアクション認識ベンチマークにおいて、新しい最先端技術を実現している。 ソースコードはhttps://github.com/MartinXM/GAPで公開されている。

Skeleton-based action recognition has recently received considerable attention. Current approaches to skeleton-based action recognition are typically formulated as one-hot classification tasks and do not fully exploit the semantic relations between actions. For example, "make victory sign" and "thumb up" are two actions of hand gestures, whose major difference lies in the movement of hands. This information is agnostic from the categorical one-hot encoding of action classes but could be unveiled from the action description. Therefore, utilizing action description in training could potentially benefit representation learning. In this work, we propose a Generative Action-description Prompts (GAP) approach for skeleton-based action recognition. More specifically, we employ a pre-trained large-scale language model as the knowledge engine to automatically generate text descriptions for body parts movements of actions, and propose a multi-modal training scheme by utilizing the text encoder to generate feature vectors for different body parts and supervise the skeleton encoder for action representation learning. Experiments show that our proposed GAP method achieves noticeable improvements over various baseline models without extra computation cost at inference. GAP achieves new state-of-the-arts on popular skeleton-based action recognition benchmarks, including NTU RGB+D, NTU RGB+D 120 and NW-UCLA. The source code is available at https://github.com/MartinXM/GAP.
翻訳日:2023-09-07 20:19:20 公開日:2023-09-06
# 一般化 Lotka-Volterra モデルにおける創発的非エルミート物理学

Emergent non-Hermitian physics in generalized Lotka-Volterra model ( http://arxiv.org/abs/2207.04473v2 )

ライセンス: Link先を確認
Tengzhou Zhang and Zi Cai(参考訳) 本稿では,一般のロトカ・ボルテラ方程式によって記述された捕食者-捕食者の生態モデルから生じる非エルミート物理学について考察する。 位相空間において、この非線形方程式はカオス的および局所的力学の両方を示し、臨界点によって分離される。 これらの異なるダイナミクスは、線形化された運動方程式における有効ハミルトニアンの周期性と非エルミティキシーの間の相互作用に由来する。 さらに、代数的発散のような臨界点の力学は、非エルミート物理学の文脈において例外的な点として理解することができる。

In this paper, we study the non-Hermitian physics emerging from a predator-prey ecological model described by a generalized Lotka-Volterra equation. In the phase space, this nonlinear equation exhibits both chaotic and localized dynamics, which are separated by a critical point. These distinct dynamics originate from the interplay between the periodicity and non-Hermiticity of the effective Hamiltonian in the linearized equation of motion. Moreover, the dynamics at the critical point, such as algebraic divergence, can be understood as an exceptional point in the context of non-Hermitian physics.
翻訳日:2023-09-07 20:17:05 公開日:2023-09-06
# 量子ネットワークにおける会議鍵合意

Conference key agreement in a quantum network ( http://arxiv.org/abs/2207.01643v2 )

ライセンス: Link先を確認
Alexander Pickston, Joseph Ho, Andr\'es Ulibarrena, Federico Grasselli, Massimiliano Proietti, Christopher L. Morrison, Peter Barrow, Francesco Graffitti and Alessandro Fedrizzi(参考訳) 量子会議鍵契約(QCKA)により、複数のユーザが共有マルチパーティの絡み合った状態からセキュアなキーを確立することができる。 N-qubit Greenberger-Horne-Zeilinger(GHZ)状態の単一コピーを用いて、セキュアなN-user会議鍵ビットを消去する一方、N-1エンタングルメントペアは従来のペアワイズプロトコルで消費される。 我々は、GHZ状態またはQCKAに必要なベルペア数を、ネットワークルーティング技術を用いて取り除くことができるフォトニック6ユーザ量子ネットワークからなるテストベッドにおいて、GHZ状態がもたらす利点を実証する。 asymptotic limitでは,2つのプロトコルを比較することで,カンファレンスキーレートが2倍以上向上したことを報告する。 有限鍵効果を考慮した場合、GHZプロトコルのリソースアドバンテージが持続することを示すためにデータセットを外挿する。

Quantum conference key agreement (QCKA) allows multiple users to establish a secure key from a shared multi-partite entangled state. In a quantum network, this protocol can be efficiently implemented using a single copy of a N-qubit Greenberger-Horne-Zeilinger (GHZ) state to distil a secure N-user conference key bit, whereas up to N-1 entanglement pairs are consumed in the traditional pair-wise protocol. We demonstrate the advantage provided by GHZ states in a testbed consisting of a photonic six-user quantum network, where four users can distil either a GHZ state or the required number of Bell pairs for QCKA using network routing techniques. In the asymptotic limit, we report a more than two-fold enhancement of the conference key rate when comparing the two protocols. We extrapolate our data set to show that the resource advantage for the GHZ protocol persists when taking into account finite-key effects.
翻訳日:2023-09-07 20:16:57 公開日:2023-09-06
# エネルギーによるグラフの畳み込みの理解

Understanding convolution on graphs via energies ( http://arxiv.org/abs/2206.10991v5 )

ライセンス: Link先を確認
Francesco Di Giovanni, James Rowbottom, Benjamin P. Chamberlain, Thomas Markovich, Michael M. Bronstein(参考訳) グラフニューラルネットワーク(GNN)は一般的にメッセージパッシングによって動作し、隣人から受信した情報に基づいてノードの状態が更新される。 ほとんどのメッセージパッシングモデルはグラフ畳み込みとして機能し、エッジ上に伝播する前に共有線形変換によって特徴が混合される。 ノード分類タスクでは、グラフの畳み込みには2つの制限がある。 これらのモデルがローパスフィルタとして振る舞うため、両方の現象が生じるとよく信じられているため、特徴のディリクレエネルギーは層に沿って減少し、最終的に特徴が区別できないような滑らかな効果をもたらす。 本研究では,単純なグラフ畳み込みモデルが実際に高周波数を増大させ,過度にシャープ化されるという漸近的な振る舞いを生じさせることを厳密に証明する。 対称重みを持つ線形グラフ畳み込みは、ディリクレエネルギーを一般化する多粒子エネルギーを最小化することを示し、この設定では、重み行列は正の(負の)固有値を通じてエッジワイズアトラクション(反発)を誘導し、特徴が平滑化されているかシャープ化されているかを制御する。 また、解析を非線形GNNに拡張し、既存の時間連続GNNが常に低周波数で支配されていることを示す。 最後に,実世界実験とアブレーションにより理論的知見を検証した。

Graph Neural Networks (GNNs) typically operate by message-passing, where the state of a node is updated based on the information received from its neighbours. Most message-passing models act as graph convolutions, where features are mixed by a shared, linear transformation before being propagated over the edges. On node-classification tasks, graph convolutions have been shown to suffer from two limitations: poor performance on heterophilic graphs, and over-smoothing. It is common belief that both phenomena occur because such models behave as low-pass filters, meaning that the Dirichlet energy of the features decreases along the layers incurring a smoothing effect that ultimately makes features no longer distinguishable. In this work, we rigorously prove that simple graph-convolutional models can actually enhance high frequencies and even lead to an asymptotic behaviour we refer to as over-sharpening, opposite to over-smoothing. We do so by showing that linear graph convolutions with symmetric weights minimize a multi-particle energy that generalizes the Dirichlet energy; in this setting, the weight matrices induce edge-wise attraction (repulsion) through their positive (negative) eigenvalues, thereby controlling whether the features are being smoothed or sharpened. We also extend the analysis to non-linear GNNs, and demonstrate that some existing time-continuous GNNs are instead always dominated by the low frequencies. Finally, we validate our theoretical findings through ablations and real-world experiments.
翻訳日:2023-09-07 20:16:38 公開日:2023-09-06
# 非凸ペアワイズ融合に基づくクラスタ化フェデレーション学習

Clustered Federated Learning based on Nonconvex Pairwise Fusion ( http://arxiv.org/abs/2211.04218v2 )

ライセンス: Link先を確認
Xue Yu, Ziyi Liu, Wu Wang and Yifan Sun(参考訳) 本研究では、FLの定式化の1つであるクラスタ化フェデレーション学習(FL)について検討し、デバイスをクラスタに分割し、各クラスタがそのデータを局所化モデルに最適に適合させる。 パラメータのペア差に非凸ペナルティを組み込んだクラスタリングFLフレームワークを提案する。 このフレームワークは、クラスタの数とクラスタ内のデバイスセットを事前に知ることなく、クラスタ構造を自動的に識別することができる。 提案手法を実装するために,Fusion Penalized Federated Clustering (FPFC) と呼ばれる新しいFL法を提案する。 乗算器の標準交互方向法(ADMM)に基づいて、FPFCは並列に実装され、各通信ラウンドにおけるデバイスのサブセットのみを更新し、デバイス毎の可変負荷を可能にする。 これらの戦略は、プライバシーを確保しながら通信コストを大幅に削減し、flにとって実用的なものとなる。 また、FL設定におけるハイパーパラメータチューニングのための新しいウォームアップ戦略を提案し、FPFCの非同期変種(asyncFPFC)を探索する。 理論解析は、一般の非凸損失を持つFPFCの収束保証を提供し、二乗損失を持つ線形モデルの下で統計収束率を確立する。 大規模な実験は、ロバスト性や一般化能力を含む既存の手法よりもFPFCの利点を実証している。

This study investigates clustered federated learning (FL), one of the formulations of FL with non-i.i.d. data, where the devices are partitioned into clusters and each cluster optimally fits its data with a localized model. We propose a clustered FL framework that incorporates a nonconvex penalty to pairwise differences of parameters. This framework can automatically identify cluster structures without a priori knowledge of the number of clusters and the set of devices in each cluster. To implement the proposed framework, we introduce a novel clustered FL method called Fusion Penalized Federated Clustering (FPFC). Building upon the standard alternating direction method of multipliers (ADMM), FPFC is implemented in parallel, updates only a subset of devices at each communication round, and allows for variable workload per device. These strategies significantly reduce the communication cost while ensuring privacy, making it practical for FL. We also propose a new warmup strategy for hyperparameter tuning in FL settings and explore the asynchronous variant of FPFC (asyncFPFC). Theoretical analysis provides convergence guarantees for FPFC with general nonconvex losses and establishes the statistical convergence rate under a linear model with squared loss. Extensive experiments demonstrate the advantages of FPFC over existing methods, including robustness and generalization capability.
翻訳日:2023-09-07 20:08:32 公開日:2023-09-06
# 理論的に抽出されたワイヤーフレーム解析:教師付きから自己教師付き学習へ

Holistically-Attracted Wireframe Parsing: From Supervised to Self-Supervised Learning ( http://arxiv.org/abs/2210.12971v2 )

ライセンス: Link先を確認
Nan Xue, Tianfu Wu, Song Bai, Fu-Dong Wang, Gui-Song Xia, Liangpei Zhang, Philip H.S. Torr(参考訳) 本稿では,線分と接合部で形成される線枠を含む2次元画像の幾何学的解析法である線枠解析(hawp)について述べる。 HAWPは、閉形式4D幾何ベクトル場を用いて線分を符号化するパシモニクス・ホロスティック・アトラクション(HAT)場表現を利用する。 The proposed HAWP consists of three sequential components empowered by end-to-end and HAT-driven designs: (1) generating a dense set of line segments from HAT fields and endpoint proposals from heatmaps, (2) binding the dense line segments to sparse endpoint proposals to produce initial wireframes, and (3) filtering false positive proposals through a novel endpoint-decoupled line-of-interest aligning (EPD LOIAlign) module that captures the co-occurrence between endpoint proposals and HAT fields for better verification. 我々の新しい設計のおかげで、HAWPv2は完全教師付き学習において強力なパフォーマンスを示し、HAWPv3は自己教師付き学習において優れた再現性スコアと効率的なトレーニング(単一のGPU上で24GPU時間)を達成する。 さらに、HAWPv3は、ワイヤーフレームの真理ラベルを提供することなく、配布外画像のワイヤフレーム解析の有望な可能性を示す。

This article presents Holistically-Attracted Wireframe Parsing (HAWP), a method for geometric analysis of 2D images containing wireframes formed by line segments and junctions. HAWP utilizes a parsimonious Holistic Attraction (HAT) field representation that encodes line segments using a closed-form 4D geometric vector field. The proposed HAWP consists of three sequential components empowered by end-to-end and HAT-driven designs: (1) generating a dense set of line segments from HAT fields and endpoint proposals from heatmaps, (2) binding the dense line segments to sparse endpoint proposals to produce initial wireframes, and (3) filtering false positive proposals through a novel endpoint-decoupled line-of-interest aligning (EPD LOIAlign) module that captures the co-occurrence between endpoint proposals and HAT fields for better verification. Thanks to our novel designs, HAWPv2 shows strong performance in fully supervised learning, while HAWPv3 excels in self-supervised learning, achieving superior repeatability scores and efficient training (24 GPU hours on a single GPU). Furthermore, HAWPv3 exhibits a promising potential for wireframe parsing in out-of-distribution images without providing ground truth labels of wireframes.
翻訳日:2023-09-07 20:08:07 公開日:2023-09-06
# 最適収束保証付き二階min-max最適化法

Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee ( http://arxiv.org/abs/2210.12860v3 )

ライセンス: Link先を確認
Tianyi Lin, Panayotis Mertikopoulos and Michael I. Jordan(参考訳) 我々は,非制約のmin-max最適化問題の大域的サドル点を求めるために,正確なニュートン型正規化手法を提案し,解析する。 1次法と比較して,2次情報による収束率のグローバル化はより深く関与するため,min-max最適化のための2次法の理解は比較的限られている。 本稿では,不正確な場合であっても,2次情報を用いて段階外手法を高速化する方法を検討する。 具体的には、提案アルゴリズムが有界集合内に留まる反復を生成し、平均的な反復は制限ギャップ関数の項で$O(\epsilon^{-2/3})$イテレーション内に$\epsilon$-saddle点に収束することを示す。 我々のアルゴリズムはこの文脈で理論的に確立された下限に一致し、解析は有界性を必要としない二階法に対して単純で直感的な収束解析を提供する。 最後に,提案アルゴリズムの効率性を実証する,合成および実データに関する一連の数値実験を示す。

We propose and analyze exact and inexact regularized Newton-type methods for finding a global saddle point of \emph{convex-concave} unconstrained min-max optimization problems. Compared to first-order methods, our understanding of second-order methods for min-max optimization is relatively limited, as obtaining global rates of convergence with second-order information is much more involved. In this paper, we examine how second-order information can be used to speed up extra-gradient methods, even under inexactness. Specifically, we show that the proposed algorithms generate iterates that remain within a bounded set and the averaged iterates converge to an $\epsilon$-saddle point within $O(\epsilon^{-2/3})$ iterations in terms of a restricted gap function. Our algorithms match the theoretically established lower bound in this context and our analysis provides a simple and intuitive convergence analysis for second-order methods without any boundedness requirements. Finally, we present a series of numerical experiments on synthetic and real data that demonstrate the efficiency of the proposed algorithms.
翻訳日:2023-09-07 20:07:45 公開日:2023-09-06
# 量子ゲージネットワーク:新しい種類のテンソルネットワーク

Quantum Gauge Networks: A New Kind of Tensor Network ( http://arxiv.org/abs/2210.12151v4 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) テンソルネットワークは低次元量子物理学をシミュレートするための強力なツールであるが、テンソルネットワークアルゴリズムは高い空間次元において非常に計算コストが高い。 量子ゲージネットワーク(quantum gauge network)は、シミュレーションの計算コストがより大きな空間次元に対して明示的に増加しないテンソルネットワークアンサッツの一種である。 量子力学のゲージ図から着想を得た。量子力学は空間の各パッチの局所波動関数で構成され、隣接するパッチはユニタリ接続によって関連付けられる。 量子ゲージネットワーク(qgn)は、局所波動関数のヒルベルト空間次元と接続が切断される以外、同様の構造を持つ。 一般化波動関数あるいは行列積状態(MPS)からQGNを得る方法について述べる。 多くの作用素に対する任意の波動関数の2k$-point相関関数はすべて、結合次元 $o(m^k)$ の qgn によって正確に符号化できる。 対照的に、わずか$k=1$の場合、指数的に大きい2^{M/6}$の結合次元は、一般に量子ビットのMPSに対して必要である。 任意の空間次元における量子力学の近似シミュレーションのための簡単なQGNアルゴリズムを提供する。 近似力学は時間に依存しないハミルトニアンの正確なエネルギー保存を達成でき、空間対称性も正確に維持できる。 フェルミオンハミルトニアンの量子クエンチを最大3次元の空間次元でシミュレートしてアルゴリズムをベンチマークする。

Although tensor networks are powerful tools for simulating low-dimensional quantum physics, tensor network algorithms are very computationally costly in higher spatial dimensions. We introduce quantum gauge networks: a different kind of tensor network ansatz for which the computation cost of simulations does not explicitly increase for larger spatial dimensions. We take inspiration from the gauge picture of quantum dynamics, which consists of a local wavefunction for each patch of space, with neighboring patches related by unitary connections. A quantum gauge network (QGN) has a similar structure, except the Hilbert space dimensions of the local wavefunctions and connections are truncated. We describe how a QGN can be obtained from a generic wavefunction or matrix product state (MPS). All $2k$-point correlation functions of any wavefunction for $M$ many operators can be encoded exactly by a QGN with bond dimension $O(M^k)$. In comparison, for just $k=1$, an exponentially larger bond dimension of $2^{M/6}$ is generically required for an MPS of qubits. We provide a simple QGN algorithm for approximate simulations of quantum dynamics in any spatial dimension. The approximate dynamics can achieve exact energy conservation for time-independent Hamiltonians, and spatial symmetries can also be maintained exactly. We benchmark the algorithm by simulating the quantum quench of fermionic Hamiltonians in up to three spatial dimensions.
翻訳日:2023-09-07 20:07:23 公開日:2023-09-06
# 暗号通貨取引ペアの最適設定

Optimal Settings for Cryptocurrency Trading Pairs ( http://arxiv.org/abs/2210.10971v2 )

ライセンス: Link先を確認
Di Zhang, Qiang Niu, Youzhou Zhou(参考訳) 暗号通貨の目標は分散化である。 原則として、全ての通貨は等しい状態にある。 伝統的な株式市場とは異なり、デフォルト通貨(fiat)は存在せず、取引ペアは自由に設定できる。 しかし、2通貨ごとに取引市場を設置するのは現実的ではない。 経営コストを抑え、十分な流動性を確保するためには、これらの大量取引ペアをカバーし、すべての硬貨が到達可能であることを優先しなければならない。 これは最適化の問題である。 その特異性は次の通りである。 1) ほとんど(>99.5%)の取引ペア間の取引量は直接観察できない。 2)接続制約、すなわち、全ての通貨が取引可能であることを保証します。 この問題を解決するために、2段階のプロセスを使います。 1) 正規化された非正規化固有値分解(regularized eigenvalue decomposition)に基づいて不足値を埋める。 2) 最適取引ペアの探索は, 分枝および束縛過程に基づき, ヒューリスティック探索および刈り取り戦略を用いて行う。 実験の結果は以下の通りである。 1) 発行枚数に制限がない場合は,より分散的な取引ペアの設定が得られ,大規模な通貨ペア間の取引ペアの確立を提唱する。 2)すべての交換において最適化の余地がある。 不適切な取引ペアの設定は、主に小さなコインを引用するように主観的に設定したり、時間内に現れる大きなコインを追跡しなかったりすることで引き起こされる。 3)トレーディングペアが少なすぎるとカバレッジが低下し、トレーディングペアが頻繁に市場に調整される必要がある。 取引所は適切なバランスをとるべきである。

The goal of cryptocurrencies is decentralization. In principle, all currencies have equal status. Unlike traditional stock markets, there is no default currency of denomination (fiat), thus the trading pairs can be set freely. However, it is impractical to set up a trading market between every two currencies. In order to control management costs and ensure sufficient liquidity, we must give priority to covering those large-volume trading pairs and ensure that all coins are reachable. We note that this is an optimization problem. Its particularity lies in: 1) the trading volume between most (>99.5%) possible trading pairs cannot be directly observed. 2) It satisfies the connectivity constraint, that is, all currencies are guaranteed to be tradable. To solve this problem, we use a two-stage process: 1) Fill in missing values based on a regularized, truncated eigenvalue decomposition, where the regularization term is used to control what extent missing values should be limited to zero. 2) Search for the optimal trading pairs, based on a branch and bound process, with heuristic search and pruning strategies. The experimental results show that: 1) If the number of denominated coins is not limited, we will get a more decentralized trading pair settings, which advocates the establishment of trading pairs directly between large currency pairs. 2) There is a certain room for optimization in all exchanges. The setting of inappropriate trading pairs is mainly caused by subjectively setting small coins to quote, or failing to track emerging big coins in time. 3) Too few trading pairs will lead to low coverage; too many trading pairs will need to be adjusted with markets frequently. Exchanges should consider striking an appropriate balance between them.
翻訳日:2023-09-07 20:07:01 公開日:2023-09-06
# サンプル効率のよいパーソナライゼーション: ユーザパラメータを低ランク+スパースコンポーネントとしてモデル化する

Sample-Efficient Personalization: Modeling User Parameters as Low Rank Plus Sparse Components ( http://arxiv.org/abs/2210.03505v3 )

ライセンス: Link先を確認
Soumyabrata Pal, Prateek Varshney, Prateek Jain, Abhradeep Guha Thakurta, Gagan Madan, Gaurav Aggarwal, Pradeep Shenoy and Gaurav Srivastava(参考訳) ユーザ/ドメイン/企業毎の機械学習(ml)予測のパーソナライズは,実用的なレコメンデーションシステムにとって重要である。 標準的なパーソナライズアプローチでは、制限可能な固定されたグローバルモデルに入力されるユーザ/ドメイン固有の埋め込みを学習する。 一方、ユーザ/ドメイン毎のパーソナライズ/ファインチューニングモデル(メタラーニング)は、ストレージ/インフラストラクチャ構造コストが高い。 さらに、スケーラブルなパーソナライゼーションアプローチに関する厳密な理論的研究は非常に限られている。 そこで本稿では,ネットワークの重みを低ランク成分とスパース成分の和としてモデル化するメタラーニング手法を提案する。 これは、複数の個人/ユーザの共通情報を低ランクな部分でキャプチャし、スパース部はユーザ固有の慣用句をキャプチャする。 次に, 線形設定におけるフレームワークについて検討し, 問題は, 少数の線形測定値を用いてランク-$r$ と $k$-カラム-スパース行列の和を推定する問題に還元する。 そこで本研究では,逐次ハードしきい値-amht-lrs-を用いた計算効率の高い交互最小化法を提案する。 理論的には、実現可能なガウス的データ設定に対して、AMHT-LRSがほぼ最適なサンプル複雑性で効率よく問題を解くことを示す。 最後に、パーソナライズにおける重要な課題は、各ユーザの機密データのプライバシを確保することだ。 我々は,強い一般化保証をも備えた微分プライベートな手法を提案することにより,この問題を緩和する。

Personalization of machine learning (ML) predictions for individual users/domains/enterprises is critical for practical recommendation systems. Standard personalization approaches involve learning a user/domain specific embedding that is fed into a fixed global model which can be limiting. On the other hand, personalizing/fine-tuning model itself for each user/domain -- a.k.a meta-learning -- has high storage/infrastructure cost. Moreover, rigorous theoretical studies of scalable personalization approaches have been very limited. To address the above issues, we propose a novel meta-learning style approach that models network weights as a sum of low-rank and sparse components. This captures common information from multiple individuals/users together in the low-rank part while sparse part captures user-specific idiosyncrasies. We then study the framework in the linear setting, where the problem reduces to that of estimating the sum of a rank-$r$ and a $k$-column sparse matrix using a small number of linear measurements. We propose a computationally efficient alternating minimization method with iterative hard thresholding -- AMHT-LRS -- to learn the low-rank and sparse part. Theoretically, for the realizable Gaussian data setting, we show that AMHT-LRS solves the problem efficiently with nearly optimal sample complexity. Finally, a significant challenge in personalization is ensuring privacy of each user's sensitive data. We alleviate this problem by proposing a differentially private variant of our method that also is equipped with strong generalization guarantees.
翻訳日:2023-09-07 20:06:35 公開日:2023-09-06
# unrolling と bilevel optimization を用いた変分モデルの学習

Learning Variational Models with Unrolling and Bilevel Optimization ( http://arxiv.org/abs/2209.12651v5 )

ライセンス: Link先を確認
Christoph Brauer, Niklas Breustedt, Timo de Wolff, Dirk A. Lorenz(参考訳) 本稿では,リスク最小化による教師付き学習の文脈における変動モデルの学習の問題を考える。 我々のゴールは、バイレベル最適化とアルゴリズムのアンロールによる変分モデルの学習の2つのアプローチをより深く理解することである。 前者は、変動モデルがリスク最小化問題より低いレベルの最適化問題であると考え、後者は、その問題をおよそ解くアルゴリズムによって下位レベルの最適化問題を置き換える。 どちらのアプローチも実際は使用されるが、アンローリングは計算の観点からはるかに単純である。 2つのアプローチを解析・比較するために,簡単な玩具モデルを検討し,リスクと各推定器を明示的に計算する。 アンローリングは二段階最適化手法よりも優れているが、アンローリングの性能はさらなるパラメータに大きく依存し、時には予期せぬ方法でも良いことが示される: アンローリングアルゴリズムのステップサイズは、非常に重要な問題である(そして、ステップサイズを学ぶことは大きな改善をもたらす)が、アンローリングされたイテレーションの数は、マイナーな役割を担っている。

In this paper we consider the problem of learning variational models in the context of supervised learning via risk minimization. Our goal is to provide a deeper understanding of the two approaches of learning of variational models via bilevel optimization and via algorithm unrolling. The former considers the variational model as a lower level optimization problem below the risk minimization problem, while the latter replaces the lower level optimization problem by an algorithm that solves said problem approximately. Both approaches are used in practice, but unrolling is much simpler from a computational point of view. To analyze and compare the two approaches, we consider a simple toy model, and compute all risks and the respective estimators explicitly. We show that unrolling can be better than the bilevel optimization approach, but also that the performance of unrolling can depend significantly on further parameters, sometimes in unexpected ways: While the stepsize of the unrolled algorithm matters a lot (and learning the stepsize gives a significant improvement), the number of unrolled iterations plays a minor role.
翻訳日:2023-09-07 20:06:12 公開日:2023-09-06
# jsdp: javaの確率動的プログラミングライブラリ

jsdp: a Java Stochastic Dynamic Programming Library ( http://arxiv.org/abs/2209.09979v2 )

ライセンス: Link先を確認
Roberto Rossi(参考訳) 確率的プログラミングは不確実性の下で意思決定の問題をモデル化し解決するためのフレームワークである。 確率動的プログラミング(Stochastic Dynamic Programming)は、最適ポリシーの発見に「関数型方程式」アプローチを採用する確率的プログラミングの一分野である。 MapReduceフレームワークを運用するためにJavaで実装されたコンストラクト(ラムダ式、関数インターフェイス、コレクション、集約演算子)を活用することで、jsdpは確率動的プログラムのモデリングと解決のための汎用ライブラリを提供する。

Stochastic Programming is a framework for modelling and solving problems of decision making under uncertainty. Stochastic Dynamic Programming is a branch of Stochastic Programming that takes a "functional equation" approach to the discovery of optimal policies. By leveraging constructs - lambda expressions, functional interfaces, collections and aggregate operators - implemented in Java to operationalise the MapReduce framework, jsdp provides a general purpose library for modelling and solving Stochastic Dynamic Programs.
翻訳日:2023-09-07 20:05:54 公開日:2023-09-06
# 時間制約によるDeep Metric Learning

Deep Metric Learning with Chance Constraints ( http://arxiv.org/abs/2209.09060v3 )

ライセンス: Link先を確認
Yeti Z. Gurbuz, Ogul Can and A. Aydin Alatan(参考訳) deep metric learning (dml) は、埋め込み空間におけるペア内/クラス間近接違反の経験的損失を最小化することを目的としている。 有限確率制約の実現可能性問題とDMLを関連付ける。 本稿では,プロキシベースdmlの最小化が一定の確率制約を満たすこと,また,プロキシベースのメソッドの最悪の場合の一般化性能は,対応するクラスサンプルのドメイン全体をカバーするクラスプロキシ周辺の最小ボール半径によって特徴付けられること,クラスごとの複数のプロキシがパフォーマンスに寄与することを示す。 プロキシベースのdmlインスタンスの最小化による確率制約を考慮し、dmlをそのような制約の交叉において実現可能な点の探索として再構成し、反復射影によって大まかに解決すべき問題を解決できるスケーラブルなアルゴリズムを提供する。 単純に、正規化されたプロキシベースの損失をトレーニングし、意図的に選択された新しいサンプルの埋め込みでプロキシを再初期化する。 提案手法を4つのよく受け入れられたDMLの損失に適用し,4つのDMLベンチマークに対して広範囲な評価を行った。 コードは、https://github.com/yetigurbuz/ccp-dmlで入手できる。

Deep metric learning (DML) aims to minimize empirical expected loss of the pairwise intra-/inter- class proximity violations in the embedding space. We relate DML to feasibility problem of finite chance constraints. We show that minimizer of proxy-based DML satisfies certain chance constraints, and that the worst case generalization performance of the proxy-based methods can be characterized by the radius of the smallest ball around a class proxy to cover the entire domain of the corresponding class samples, suggesting multiple proxies per class helps performance. To provide a scalable algorithm as well as exploiting more proxies, we consider the chance constraints implied by the minimizers of proxy-based DML instances and reformulate DML as finding a feasible point in intersection of such constraints, resulting in a problem to be approximately solved by iterative projections. Simply put, we repeatedly train a regularized proxy-based loss and re-initialize the proxies with the embeddings of the deliberately selected new samples. We applied our method with 4 well-accepted DML losses and show the effectiveness with extensive evaluations on 4 popular DML benchmarks. Code is available at: https://github.com/yetigurbuz/ccp-dml
翻訳日:2023-09-07 20:05:44 公開日:2023-09-06
# スクイーズ光を用いた浮上光学におけるリコイル加熱抑制

Suppressing Recoil Heating in Levitated Optomechanics using Squeezed Light ( http://arxiv.org/abs/2209.05858v2 )

ライセンス: Link先を確認
C. Gonzalez-Ballestero and J. A. Zieli\'nska and M. Rossi and A. Militaru and M. Frimmer and L. Novotny and P. Maurer and O. Romero-Isart(参考訳) 自由空間浮遊光力学におけるレーザー再コイル加熱は、光学的に閉じ込められたナノ粒子に励起光を照射することにより任意に抑制できることを示す。 スクイーズの存在は、散乱した光が与えられた機械的自由度を伝達する情報量を制御できる方法で、量子電磁力学の光-物質相互作用を修飾する。 さらに,測定精度とバックアクションノイズのトレードオフを分析し,標準量子限界を超える光検出が可能であることを示す。 現状の圧縮光源では, 1つのガウスモードを適切な入射方向でスクイーズすることで, レーザー再コイル加熱を少なくとも60%, 適切なモード整合モードで98%削減することができると予測した。 我々の結果は、運動と振動の自由度の両方において有効であり、フィードバック冷却スキームの改善と、量子構造における光学浮揚ナノ粒子のコヒーレンス時間の増加に繋がる。

We theoretically show that laser recoil heating in free-space levitated optomechanics can be arbitrarily suppressed by shining squeezed light onto an optically trapped nanoparticle. The presence of squeezing modifies the quantum electrodynamical light-matter interaction in a way that enables us to control the amount of information that the scattered light carries about a given mechanical degree of freedom. Moreover, we analyze the trade-off between measurement imprecision and back-action noise and show that optical detection beyond the standard quantum limit can be achieved. We predict that, with state-of-the-art squeezed light sources, laser recoil heating can be reduced by at least 60% by squeezing a single Gaussian mode with an appropriate incidence direction, and by 98% by squeezing a properly mode-matched mode. Our results, which are valid both for motional and librational degrees of freedom, will lead to improved feedback cooling schemes as well as boost the coherence time of optically levitated nanoparticles in the quantum regime.
翻訳日:2023-09-07 20:05:20 公開日:2023-09-06
# ニューラルスパイク復号のためのトポロジ的深層学習フレームワーク

A Topological Deep Learning Framework for Neural Spike Decoding ( http://arxiv.org/abs/2212.05037v2 )

ライセンス: Link先を確認
Edward C. Mitchell, Brittany Story, David Boothe, Piotr J. Franaszczuk, Vasileios Maroulas(参考訳) 脳の空間配向システムは、異なるニューロンアンサンブルを使用して環境ベースのナビゲーションを支援する。 脳が空間情報をエンコードする方法の2つは、方向細胞と格子細胞である。 脳は方向を決定するために頭方向細胞を使用し、グリッド細胞は環境ベースのナビゲーションを提供するためにオーバーレイされたニューロンの層で構成される。 これらのニューロンはアンサンブルで発火し、複数のニューロンが同時に発火して単一の方向または格子を活性化する。 この発射構造を捉えて、頭方向のグリッドセルデータをデコードしたいのです。 これらのニューラルネットワーク構造を理解し、表現し、デコードするには、従来のグラフベースのモデルが提供する1次元接続よりも高階接続を含むモデルが必要である。 そこで本研究では,ニューラルネットワークのスパイクトレイン復号のためのトポロジカルディープラーニングフレームワークを開発した。 我々のフレームワークは、教師なしのsimplicial complex discoveryと、simplicial convolutional recurrent neural networkと呼ばれる新しいアーキテクチャによるディープラーニングのパワーを組み合わせる。 単純複体、頂点や辺だけでなく高次元のオブジェクトも使う位相空間は、自然にグラフを一般化し、ただの対関係以上のものを取り込む。 さらに、このアプローチはスパイクカウント以外の神経活動に関する事前の知識を必要としないため、類似度測定の必要性がなくなる。 簡易畳み込みニューラルネットワークの有効性と汎用性は,ヘッド方向とグリッドセルデータセットによる軌道予測により実証された。

The brain's spatial orientation system uses different neuron ensembles to aid in environment-based navigation. Two of the ways brains encode spatial information is through head direction cells and grid cells. Brains use head direction cells to determine orientation whereas grid cells consist of layers of decked neurons that overlay to provide environment-based navigation. These neurons fire in ensembles where several neurons fire at once to activate a single head direction or grid. We want to capture this firing structure and use it to decode head direction grid cell data. Understanding, representing, and decoding these neural structures requires models that encompass higher order connectivity, more than the 1-dimensional connectivity that traditional graph-based models provide. To that end, in this work, we develop a topological deep learning framework for neural spike train decoding. Our framework combines unsupervised simplicial complex discovery with the power of deep learning via a new architecture we develop herein called a simplicial convolutional recurrent neural network. Simplicial complexes, topological spaces that use not only vertices and edges but also higher-dimensional objects, naturally generalize graphs and capture more than just pairwise relationships. Additionally, this approach does not require prior knowledge of the neural activity beyond spike counts, which removes the need for similarity measurements. The effectiveness and versatility of the simplicial convolutional neural network is demonstrated on head direction and trajectory prediction via head direction and grid cell datasets.
翻訳日:2023-09-07 19:58:51 公開日:2023-09-06
# 逆負のサンプルを持つグラフ畳み込みニューラルネットワークの分解決定点過程

Graph Convolutional Neural Networks with Diverse Negative Samples via Decomposed Determinant Point Processes ( http://arxiv.org/abs/2212.02055v3 )

ライセンス: Link先を確認
Wei Duan, Junyu Xuan, Maoying Qiao, Jie Lu(参考訳) グラフ畳み込みネットワーク(GCN)は,ノードとそのトポロジから高レベル特徴を抽出することにより,グラフ表現学習において大きな成功を収めている。 GCNは一般的にメッセージパッシング機構に従うため、各ノードはその表現を更新するためにその1階目の隣人からの情報を集約する。 結果として、エッジを持つノードの表現は正の相関関係を持つべきであり、したがって正のサンプルと見なすことができる。 しかし、グラフ全体の非隣接ノードはより多く存在し、表現更新に多様で有用な情報を提供する。 2つの非隣接ノードは通常異なる表現を持ち、負のサンプルと見なすことができる。 ノード表現以外にも、グラフの構造情報は学習にも不可欠である。 本稿では,DPP(Determinant point process)における品質多様性分解を用いて,様々な負のサンプルを得た。 非隣接ノードの様々な部分集合上の分布を定義する際、グラフ構造情報とノード表現の両方を組み込む。 DPPサンプリングは行列固有値分解を必要とするため,計算効率を向上させるための最短パスベース法を提案する。 最後に,得られた負のサンプルをグラフ畳み込み演算に組み込む。 これらのアイデアは、ノード分類タスクの実験で実証的に評価される。 これらの実験により, 提案手法は, 標準表現学習の全体的な性能を向上させるだけでなく, 過小評価問題を大幅に軽減することを示した。

Graph convolutional networks (GCNs) have achieved great success in graph representation learning by extracting high-level features from nodes and their topology. Since GCNs generally follow a message-passing mechanism, each node aggregates information from its first-order neighbour to update its representation. As a result, the representations of nodes with edges between them should be positively correlated and thus can be considered positive samples. However, there are more non-neighbour nodes in the whole graph, which provide diverse and useful information for the representation update. Two non-adjacent nodes usually have different representations, which can be seen as negative samples. Besides the node representations, the structural information of the graph is also crucial for learning. In this paper, we used quality-diversity decomposition in determinant point processes (DPP) to obtain diverse negative samples. When defining a distribution on diverse subsets of all non-neighbouring nodes, we incorporate both graph structure information and node representations. Since the DPP sampling process requires matrix eigenvalue decomposition, we propose a new shortest-path-base method to improve computational efficiency. Finally, we incorporate the obtained negative samples into the graph convolution operation. The ideas are evaluated empirically in experiments on node classification tasks. These experiments show that the newly proposed methods not only improve the overall performance of standard representation learning but also significantly alleviate over-smoothing problems.
翻訳日:2023-09-07 19:58:29 公開日:2023-09-06
# GANを用いた半教師付き学習による不均衡データセットのフェイク検出

Fake detection in imbalance dataset by Semi-supervised learning with GAN ( http://arxiv.org/abs/2212.01071v2 )

ライセンス: Link先を確認
Jinus Bordbar, Saman Ardalan, Mohammadreza Mohammadrezaie, Mohammad Ebrahim Shiri(参考訳) ソーシャルメディアが急速に成長するにつれ、ハラスメントが広まり、研究者の間では偽の発見が魅力的な分野と見なされる。 多数のノードを持つデータのグラフ性は、データセットの分散度や不均衡クラスとして行列にかなりの量の無関係な特徴を含む、さまざまな障害を引き起こした。 これらの問題に対処するために、自動エンコーダと半教師付き学習とSGANと呼ばれるGANアルゴリズムを組み合わせた。 本稿では,より少ないラベルを配置し,SGANを分類器として適用する。 その結果,100個のラベル付きサンプルを用いた偽アカウント検出では,精度が91\%に達していた。

As social media grows faster, harassment becomes more prevalent which leads to considered fake detection a fascinating field among researchers. The graph nature of data with the large number of nodes caused different obstacles including a considerable amount of unrelated features in matrices as high dispersion and imbalance classes in the dataset. To deal with these issues Auto-encoders and a combination of semi-supervised learning and the GAN algorithm which is called SGAN were used. This paper is deploying a smaller number of labels and applying SGAN as a classifier. The result of this test showed that the accuracy had reached 91\% in detecting fake accounts using only 100 labeled samples.
翻訳日:2023-09-07 19:58:08 公開日:2023-09-06
# オートエンコーダによるQubit Readoutの強化

Enhancing Qubit Readout with Autoencoders ( http://arxiv.org/abs/2212.00080v2 )

ライセンス: Link先を確認
Piero Luchi, Paolo E. Trevisanutto, Alessandro Roggero, Jonathan L. DuBois, Yaniv J. Rosen, Francesco Turro, Valentina Amitrano, Francesco Pederiva(参考訳) 安定かつ正確に制御可能な量子ビットの必要性に加えて、量子コンピュータは優れた読み出し方式を利用する。 超伝導量子状態は分散結合共振器を介して伝送される読み出し信号から推定できる。 本研究では, オートエンコーダ方式で事前学習したニューラルネットワークに基づいて, 超伝導量子ビットの読み出し分類手法を提案する。 データセットから関連する特徴を抽出するために、量子ビット読み出し信号をオートエンコーダとして事前学習する。 その後、事前訓練されたネットワーク内層値を用いて、教師付き方式で入力の分類を行う。 本手法は, 従来手法よりも低い性能を示す短時間および長時間の計測において, 分類性能を向上できることを実証する。

In addition to the need for stable and precisely controllable qubits, quantum computers take advantage of good readout schemes. Superconducting qubit states can be inferred from the readout signal transmitted through a dispersively coupled resonator. This work proposes a novel readout classification method for superconducting qubits based on a neural network pre-trained with an autoencoder approach. A neural network is pre-trained with qubit readout signals as autoencoders in order to extract relevant features from the data set. Afterwards, the pre-trained network inner layer values are used to perform a classification of the inputs in a supervised manner. We demonstrate that this method can enhance classification performance, particularly for short and long time measurements where more traditional methods present lower performance.
翻訳日:2023-09-07 19:57:31 公開日:2023-09-06
# h3wb:human3.6mの3dデータセットとベンチマーク

H3WB: Human3.6M 3D WholeBody Dataset and Benchmark ( http://arxiv.org/abs/2211.15692v2 )

ライセンス: Link先を確認
Yue Zhu, Nermin Samet, David Picard(参考訳) 本稿では、顔、手、体、足など、人体全体の正確な3dキーポイントを識別する3d人体全体のポーズ推定のためのベンチマークを提案する。 現在、完全に注釈付きで正確な3Dボディデータセットがないため、深層ネットワークは推論時に組み合わせられた特定の身体部位で個別に訓練される。 あるいは、検出ベースの方法ほど正確ではないパラメトリックなボディモデルによって提供される疑似接地を頼りにしている。 これらの問題を克服するために、COCO Wholebodyレイアウトを使用して、Human3.6Mデータセットに全身アノテーションを提供するHuman3.6M 3D WholeBody(H3WB)データセットを紹介した。 H3WBは100K画像上の133の全身キーポイントアノテーションで構成されており、新しいマルチビューパイプラインで可能になっている。 3つのタスクも提案します 一 2次元完全全身ポーズから持ち上げる3次元全身ポーズ 二 2次元不完全な全身ポーズから持ち上げる3次元全身ポーズ、及び 三 単一のRGB画像から全身の3次元ポーズ推定 さらに,これらの課題に対する一般的な手法のベースラインをいくつか報告する。 さらに,トータルキャプチャの3次元アノテーションも自動で提供し,h3wbでの使用がパフォーマンスの向上に役立つことを実験的に示す。 コードとデータセットはhttps://github.com/wholebody3d/wholebody3dで入手できる。

We present a benchmark for 3D human whole-body pose estimation, which involves identifying accurate 3D keypoints on the entire human body, including face, hands, body, and feet. Currently, the lack of a fully annotated and accurate 3D whole-body dataset results in deep networks being trained separately on specific body parts, which are combined during inference. Or they rely on pseudo-groundtruth provided by parametric body models which are not as accurate as detection based methods. To overcome these issues, we introduce the Human3.6M 3D WholeBody (H3WB) dataset, which provides whole-body annotations for the Human3.6M dataset using the COCO Wholebody layout. H3WB comprises 133 whole-body keypoint annotations on 100K images, made possible by our new multi-view pipeline. We also propose three tasks: i) 3D whole-body pose lifting from 2D complete whole-body pose, ii) 3D whole-body pose lifting from 2D incomplete whole-body pose, and iii) 3D whole-body pose estimation from a single RGB image. Additionally, we report several baselines from popular methods for these tasks. Furthermore, we also provide automated 3D whole-body annotations of TotalCapture and experimentally show that when used with H3WB it helps to improve the performance. Code and dataset is available at https://github.com/wholebody3d/wholebody3d
翻訳日:2023-09-07 19:57:21 公開日:2023-09-06
# 多体系の最適有効理論のための量子アルゴリズム

Quantum algorithms for optimal effective theory of many-body systems ( http://arxiv.org/abs/2211.14854v2 )

ライセンス: Link先を確認
Yongdan Yang, Zongkang Zhang, Xiaosi Xu, Bing-Nan Lu, Ying Li(参考訳) 量子多体物理学における一般的な状況は、基礎となる理論は知られているが、効率的に解くには複雑すぎることである。 そのような場合、通常、より単純な有効理論を低エネルギーあるいは大規模な代替理論として構築する。 ここで、中心的なタスクは最適な有効理論を見つけ、元の理論と等価性を証明している。 近年、量子コンピューティングはその本質的並列性を利用して量子多体システムを解く可能性を示した。 したがって、効果的な理論の出現を議論し、量子コンピューティングの結果に基づいてそれらを発見するための効率的なツールを設計することは興味深い話題である。 本稿では,この方向への第一歩として,量子力学を応用して量子多体系の最適実効理論を求める2つのアプローチを提案する。 第1のアルゴリズムは量子位相推定と振幅増幅により実効ハミルトニアンの空間を探索する。 第2のアルゴリズムは、近未来のアプリケーションに期待できる変分アプローチに基づいている。

A common situation in quantum many-body physics is that the underlying theories are known but too complicated to solve efficiently. In such cases one usually builds simpler effective theories as low-energy or large-scale alternatives to the original theories. Here the central tasks are finding the optimal effective theories and proving their equivalence to the original theories. Recently quantum computing has shown the potential of solving quantum many-body systems by exploiting its inherent parallelism. It is thus an interesting topic to discuss the emergence of effective theories and design efficient tools for finding them based on the results from quantum computing. As the first step towards this direction, in this paper, we propose two approaches that apply quantum computing to find the optimal effective theory of a quantum many-body system given its full Hamiltonian. The first algorithm searches the space of effective Hamiltonians by quantum phase estimation and amplitude amplification. The second algorithm is based on a variational approach that is promising for near-future applications.
翻訳日:2023-09-07 19:57:00 公開日:2023-09-06
# CPPF++: 投票集約による不確かさを意識したSim2Real Object Poseの推定

CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation ( http://arxiv.org/abs/2211.13398v2 )

ライセンス: Link先を確認
Yang You, Wenhao He, Jin Liu, Hongkai Xiong, Weiming Wang, Cewu Lu(参考訳) オブジェクトのポーズ推定は、3次元視覚領域内の重要な領域を構成する。 実世界のポーズアノテーションを利用する現代的最先端の手法は、賞賛できる性能を示しているが、そのような実世界のトレーニングデータの調達は相当なコストをもたらす。 本稿では,3次元CADモデルのみを事前知識として利用し,背景情報や乱雑な情報を含まない,特定の環境に着目する。 我々は,シミュレートからリアルなポーズ推定のための新しいCPPF++を提案する。 この方法はCPPFの基本点対投票方式に基づいており、確率レンズで再認識する。 本研究では,各点対の確率分布を正準空間内で推定することにより,投票の不確実性をモデル化する。 このアプローチは、バックグラウンドやクラッターに関連する投票を根絶するために使用される反復的ノイズフィルタリングによってさらに強化される。 さらに、n$-pointタプルを導入することで、各投票ユニットが提供するコンテキストを強化する。 提案手法と合わせて,新たなカテゴリレベルのポーズ推定データセットであるDiversePose 300を提案する。 このデータセットは、現在の最先端のメソッドをより厳格に評価し、より広く、より困難な現実のシナリオを包含するように設計されている。 実験の結果,提案手法の有効性を実証し,シミュレーションと実世界の性能の相違を著しく低減した。

Object pose estimation constitutes a critical area within the domain of 3D vision. While contemporary state-of-the-art methods that leverage real-world pose annotations have demonstrated commendable performance, the procurement of such real-world training data incurs substantial costs. This paper focuses on a specific setting wherein only 3D CAD models are utilized as a priori knowledge, devoid of any background or clutter information. We introduce a novel method, CPPF++, designed for sim-to-real pose estimation. This method builds upon the foundational point-pair voting scheme of CPPF, reconceptualizing it through a probabilistic lens. To address the challenge of voting collision, we model voting uncertainty by estimating the probabilistic distribution of each point pair within the canonical space. This approach is further augmented by iterative noise filtering, employed to eradicate votes associated with backgrounds or clutters. Additionally, we enhance the context provided by each voting unit by introducing $N$-point tuples. In conjunction with this methodological contribution, we present a new category-level pose estimation dataset, DiversePose 300. This dataset is specifically crafted to facilitate a more rigorous evaluation of current state-of-the-art methods, encompassing a broader and more challenging array of real-world scenarios. Empirical results substantiate the efficacy of our proposed method, revealing a significant reduction in the disparity between simulation and real-world performance.
翻訳日:2023-09-07 19:56:48 公開日:2023-09-06
# 学習オプティカルフローとワーピングによる将来のインスタンスセグメンテーション予測

Forecasting Future Instance Segmentation with Learned Optical Flow and Warping ( http://arxiv.org/abs/2211.08049v2 )

ライセンス: Link先を確認
Andrea Ciamarra, Federico Becattini, Lorenzo Seidenari, Alberto Del Bimbo(参考訳) 自律走行車の場合、シーンの現在進行中のダイナミクスを観察し、その結果、将来的なシナリオを予測して、自分自身や他人の安全を確保することが不可欠である。 これは異なるセンサーとモダリティを使って行うことができる。 本稿では,将来のセマンティックセグメンテーションを予測するための光フローの利用について検討する。 そこで我々は,流れ場を自己回帰的に予測するモデルを提案する。 このような予測は、インスタンスセグメンテーションを将来のフレームに移動する学習されたワーピング関数の推論を導くために使われる。 cityscapesデータセットの結果は、光フロー法の有効性を示している。

For an autonomous vehicle it is essential to observe the ongoing dynamics of a scene and consequently predict imminent future scenarios to ensure safety to itself and others. This can be done using different sensors and modalities. In this paper we investigate the usage of optical flow for predicting future semantic segmentations. To do so we propose a model that forecasts flow fields autoregressively. Such predictions are then used to guide the inference of a learned warping function that moves instance segmentations on to future frames. Results on the Cityscapes dataset demonstrate the effectiveness of optical-flow methods.
翻訳日:2023-09-07 19:56:27 公開日:2023-09-06
# 連合環境におけるプライバシを意識した因果構造学習に向けて

Towards Privacy-Aware Causal Structure Learning in Federated Setting ( http://arxiv.org/abs/2211.06919v2 )

ライセンス: Link先を確認
Jianli Huang, Xianjie Guo, Kui Yu, Fuyuan Cao and Jiye Liang(参考訳) 因果構造学習は機械学習や様々な用途で広く研究され、広く利用されている。 理想的な性能を達成するために、既存の因果構造学習アルゴリズムは、複数のデータソースから大量のデータを集中化する必要がある。 しかし、プライバシ保護設定では、すべてのソースからデータを集中化し、単一のデータセットとしてまとめることは不可能である。 データプライバシを維持するため、新しい学習パラダイムとしてのフェデレーション学習は、近年、マシンラーニングにおいて大きな注目を集めている。 本稿では,フェデレーション設定におけるプライバシを意識した因果構造学習問題について検討し,データの集中化を伴わないデータプライバシ保存のための2つの新しい手法であるfederated pc (fedpc) アルゴリズムを提案する。 具体的には,まず,フェデレーテッドスケルトン学習のためのフェデレーテッド学習パラダイムにpcアルゴリズムをシームレスに適応させるための新しい階層的アグリゲーション戦略を提案し,フェデレーテッドエッジオリエンテーションのための一貫した分離セットを学習するための効果的な戦略を設計する。 この実験により,FedPCは連合学習環境における因果構造学習に有効であることが検証された。

Causal structure learning has been extensively studied and widely used in machine learning and various applications. To achieve an ideal performance, existing causal structure learning algorithms often need to centralize a large amount of data from multiple data sources. However, in the privacy-preserving setting, it is impossible to centralize data from all sources and put them together as a single dataset. To preserve data privacy, federated learning as a new learning paradigm has attracted much attention in machine learning in recent years. In this paper, we study a privacy-aware causal structure learning problem in the federated setting and propose a novel Federated PC (FedPC) algorithm with two new strategies for preserving data privacy without centralizing data. Specifically, we first propose a novel layer-wise aggregation strategy for a seamless adaptation of the PC algorithm into the federated learning paradigm for federated skeleton learning, then we design an effective strategy for learning consistent separation sets for federated edge orientation. The extensive experiments validate that FedPC is effective for causal structure learning in a federated learning setting.
翻訳日:2023-09-07 19:56:17 公開日:2023-09-06
# NNKGC:Node Neighborhoodsによる知識グラフ補完の改善

NNKGC: Improving Knowledge Graph Completion with Node Neighborhoods ( http://arxiv.org/abs/2302.06132v2 )

ライセンス: Link先を確認
Irene Li and Boming Yang(参考訳) 知識グラフ補完(KGC)は、クエリエンティティの欠落した関係を見つけることを目的としている。 現在のテキストベースのモデルは、エンティティ名と記述を使用して、ヘッダエンティティと特定の関係が与えられたテールエンティティを推論する。 既存のアプローチでは、ヘッドエンティティの近傍も考慮している。 しかしながら、これらの手法は平坦な構造を用いて近隣をモデル化する傾向があり、1ホップの隣人に限られる。 本稿では,知識グラフ補完のためのノード近傍拡張フレームワークを提案する。 ニューラルネットワークを用いて複数のホップからヘッドエンティティ近傍をモデル化し、ヘッドノード情報を豊かにする。 さらに,kgcを改善するために追加のエッジリンク予測タスクを導入する。 2つの公開データセットの評価は、このフレームワークが単純かつ効果的であることを示している。 ケーススタディでは、モデルが説明可能な予測を予測できることも示されている。

Knowledge graph completion (KGC) aims to discover missing relations of query entities. Current text-based models utilize the entity name and description to infer the tail entity given the head entity and a certain relation. Existing approaches also consider the neighborhood of the head entity. However, these methods tend to model the neighborhood using a flat structure and are only restricted to 1-hop neighbors. In this work, we propose a node neighborhood-enhanced framework for knowledge graph completion. It models the head entity neighborhood from multiple hops using graph neural networks to enrich the head node information. Moreover, we introduce an additional edge link prediction task to improve KGC. Evaluation on two public datasets shows that this framework is simple yet effective. The case study also shows that the model is able to predict explainable predictions.
翻訳日:2023-09-07 19:48:11 公開日:2023-09-06
# 熱機械結合系と異種領域に対する物理不定形ニューラルネットワークの混合定式化

Mixed formulation of physics-informed neural networks for thermo-mechanically coupled systems and heterogeneous domains ( http://arxiv.org/abs/2302.04954v2 )

ライセンス: Link先を確認
Ali Harandi, Ahmad Moeineddin, Michael Kaliske, Stefanie Reese, Shahed Rezaei(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ニューラルネットワークの損失関数を支配方程式、境界条件、初期条件に基づいて定義することで境界値問題を解決する新しいツールである。 近年の研究では、多くの工学的問題に対して損失関数を設計する場合、一階微分を使い、強形式と弱形式の両方の方程式を組み合わせることで、特に領域に異質性と可変ジャンプがある場合において、より精度が向上することが示されている。 この新しいアプローチは、混合有限要素法からアイデアを取り入れた、PINNの混合定式化と呼ばれる。 この方法では、PDEは、第一の未知が解のフラックスまたは勾配であり、第二の未知が解自身である方程式の体系として再構成される。 本研究では,混合定式化を多物理問題,特に定常熱力学的結合方程式系に応用することを提案する。 さらに,逐次訓練と完全結合型非教師付きトレーニングの両方について検討し,その精度と計算コストを比較した。 ネットワークの精度を向上させるために,境界制約を組み込んで有効な予測を行う。 次に、異なるオプティマイザとアーキテクチャが精度と効率に与える影響について調査する。 最後に,転送学習に類似したパラメトリック学習のための単純なアプローチを提案する。 このアプローチはデータと物理を組み合わせることで、計算コストに関するPINNの限界に対処し、予期せぬケースに対するシステムの応答を予測するネットワークの能力を改善する。 この研究の結果は、高速で信頼性の高い計算のための複数の結合方程式系にディープラーニングを適用できる他の多くの工学的応用に有用である。

Physics-informed neural networks (PINNs) are a new tool for solving boundary value problems by defining loss functions of neural networks based on governing equations, boundary conditions, and initial conditions. Recent investigations have shown that when designing loss functions for many engineering problems, using first-order derivatives and combining equations from both strong and weak forms can lead to much better accuracy, especially when there are heterogeneity and variable jumps in the domain. This new approach is called the mixed formulation for PINNs, which takes ideas from the mixed finite element method. In this method, the PDE is reformulated as a system of equations where the primary unknowns are the fluxes or gradients of the solution, and the secondary unknowns are the solution itself. In this work, we propose applying the mixed formulation to solve multi-physical problems, specifically a stationary thermo-mechanically coupled system of equations. Additionally, we discuss both sequential and fully coupled unsupervised training and compare their accuracy and computational cost. To improve the accuracy of the network, we incorporate hard boundary constraints to ensure valid predictions. We then investigate how different optimizers and architectures affect accuracy and efficiency. Finally, we introduce a simple approach for parametric learning that is similar to transfer learning. This approach combines data and physics to address the limitations of PINNs regarding computational cost and improves the network's ability to predict the response of the system for unseen cases. The outcomes of this work will be useful for many other engineering applications where deep learning is employed on multiple coupled systems of equations for fast and reliable computations.
翻訳日:2023-09-07 19:48:01 公開日:2023-09-06
# UAVに基づくセマンティックマッピングにおける能動学習のためのインフォームティブパス計画フレームワーク

An Informative Path Planning Framework for Active Learning in UAV-based Semantic Mapping ( http://arxiv.org/abs/2302.03347v3 )

ライセンス: Link先を確認
Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) 無人航空機(UAV)は、航空地図や一般的な監視作業に頻繁に使用される。 近年のディープラーニングの進歩により、画像の自動セマンティックセグメンテーションが実現され、大規模な複雑な環境の解釈が容易になった。 一般に、セグメンテーションのための教師付きディープラーニングは、大量のピクセル単位でラベル付けされたデータに依存している。 ドメイン固有の航空環境の外観は、しばしば公開データセットで事前訓練されたモデルの使用を妨げる。 そこで,本稿では,uavsがモデル再学習のための情報的訓練画像を自律的に取得するための,新しい汎用的計画フレームワークを提案する。 複数の取得関数を活用し、確率的地形マップに融合する。 我々のフレームワークは、地図化された取得関数情報をUAVの計画目標に組み込む。 このようにして、UAVは、モデル再訓練のために手動でラベル付けされる情報的空中画像を取得する。 実世界のデータとフォトリアリスティックシミュレーションによる実験結果から,本フレームワークはモデル性能を最大化し,ラベリング労力を劇的に削減することが示された。 地図ベースのプランナーは、最先端の地域計画より優れています。

Unmanned aerial vehicles (UAVs) are frequently used for aerial mapping and general monitoring tasks. Recent progress in deep learning enabled automated semantic segmentation of imagery to facilitate the interpretation of large-scale complex environments. Commonly used supervised deep learning for segmentation relies on large amounts of pixel-wise labelled data, which is tedious and costly to annotate. The domain-specific visual appearance of aerial environments often prevents the usage of models pre-trained on publicly available datasets. To address this, we propose a novel general planning framework for UAVs to autonomously acquire informative training images for model re-training. We leverage multiple acquisition functions and fuse them into probabilistic terrain maps. Our framework combines the mapped acquisition function information into the UAV's planning objectives. In this way, the UAV adaptively acquires informative aerial images to be manually labelled for model re-training. Experimental results on real-world data and in a photorealistic simulation show that our framework maximises model performance and drastically reduces labelling efforts. Our map-based planners outperform state-of-the-art local planning.
翻訳日:2023-09-07 19:47:33 公開日:2023-09-06
# LUT-NN: セントロイド学習とテーブルルックアップによる効率的なニューラルネットワーク推論

LUT-NN: Empower Efficient Neural Network Inference with Centroid Learning and Table Lookup ( http://arxiv.org/abs/2302.03213v2 )

ライセンス: Link先を確認
Xiaohu Tang, Yang Wang, Ting Cao, Li Lyna Zhang, Qi Chen, Deng Cai, Yunxin Liu, Mao Yang(参考訳) オンデバイスディープニューラルネットワーク(DNN)推論は、重要なコンピューティングリソースと開発努力を消費する。 そこで本研究では,テーブルルックアップによる推論を支援する最初のシステムであるLUT-NNを提案する。 LUT-NNは、Centroidという名前のオペレータの典型的な機能を学び、これらのCentroidの結果を事前計算してルックアップテーブルに保存する。 推論中、入力と最も近いセントロイドの結果は、計算なしで近似出力としてテーブルから直接読み取ることができる。 LUT-NNは,(1)バックプロパゲーションによる微分可能なセントロイド学習,(2)並列性の異なるレベルを包括的に考慮したテーブルルックアップ推論の実行,メモリアクセスの削減,および専用ハードウェアユニットを最適性能のために3段階の近似に適応させる。 LUT-NNは、画像と音声認識、自然言語処理など、複数の実タスクで評価される。 関連する研究と比較すると、LUT-NNは精度を66%から92%改善し、オリジナルのモデルと同等のレベルに達した。 lut-nnは、フロップス (\leq$ 16x)、モデルサイズ (\leq$ 7x)、レイテンシ (\leq$ 6.8x)、メモリ (\leq$ 6.5x)、パワー (\leq$ 41.7%) を含む、あらゆる次元のコストを削減している。

On-device Deep Neural Network (DNN) inference consumes significant computing resources and development efforts. To alleviate that, we propose LUT-NN, the first system to empower inference by table lookup, to reduce inference cost. LUT-NN learns the typical features for each operator, named centroid, and precompute the results for these centroids to save in lookup tables. During inference, the results of the closest centroids with the inputs can be read directly from the table, as the approximated outputs without computations. LUT-NN integrates two major novel techniques: (1) differentiable centroid learning through backpropagation, which adapts three levels of approximation to minimize the accuracy impact by centroids; (2) table lookup inference execution, which comprehensively considers different levels of parallelism, memory access reduction, and dedicated hardware units for optimal performance. LUT-NN is evaluated on multiple real tasks, covering image and speech recognition, and nature language processing. Compared to related work, LUT-NN improves accuracy by 66% to 92%, achieving similar level with the original models. LUT-NN reduces the cost at all dimensions, including FLOPs ($\leq$ 16x), model size ($\leq$ 7x), latency ($\leq$ 6.8x), memory ($\leq$ 6.5x), and power ($\leq$ 41.7%).
翻訳日:2023-09-07 19:47:17 公開日:2023-09-06
# オンライン強化学習による対話環境における大規模言語モデルの構築

Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning ( http://arxiv.org/abs/2302.02662v3 )

ライセンス: Link先を確認
Thomas Carta, Cl\'ement Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer(参考訳) 最近の研究は、大言語モデル(llm)の能力を利用して、世界の物理学に関する抽象的な知識を捉え、意思決定問題を解決することに成功した。 しかし、LLMの知識と環境との整合性は誤りであり、基盤の欠如により機能的能力を制限する。 本稿では,LLMを用いたエージェントを,エージェントが環境と対話する際に段階的に更新されるポリシーとして検討し,オンライン強化学習を活用して,目標を達成するための性能向上を図る。 高レベルな機能的接地と空間的およびナビゲーション的タスクのセットを研究するために設計されたインタラクティブなテキスト環境を用いて、いくつかの科学的疑問を考察する。 1)LLMは様々なRLタスクのオンライン学習のサンプル効率を高めることができるか? 2) 一般化の異なる形態をどのように促進するか。 3) オンライン学習の影響はどのようなものか? FLAN-T5 のいくつかの変種 (サイズ, 構造) を機能的基盤として検討する。

Recent works successfully leveraged Large Language Models' (LLM) abilities to capture abstract knowledge about world's physics to solve decision-making problems. Yet, the alignment between LLMs' knowledge and the environment can be wrong and limit functional competence due to lack of grounding. In this paper, we study an approach (named GLAM) to achieve this alignment through functional grounding: we consider an agent using an LLM as a policy that is progressively updated as the agent interacts with the environment, leveraging online Reinforcement Learning to improve its performance to solve goals. Using an interactive textual environment designed to study higher-level forms of functional grounding, and a set of spatial and navigation tasks, we study several scientific questions: 1) Can LLMs boost sample efficiency for online learning of various RL tasks? 2) How can it boost different forms of generalization? 3) What is the impact of online learning? We study these questions by functionally grounding several variants (size, architecture) of FLAN-T5.
翻訳日:2023-09-07 19:46:44 公開日:2023-09-06
# SAN: 分別正規化線形層によるGANの誘電性誘導

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer ( http://arxiv.org/abs/2301.12811v3 )

ライセンス: Link先を確認
Yuhta Takida, Masaaki Imaizumi, Takashi Shibuya, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji(参考訳) generative adversarial networks(gans)は、ミニマックス目的のジェネレータと判別器を最適化することにより、ターゲット確率分布を学習する。 本稿では,そのような最適化が,その分布を目標分布に近づける勾配を生成器に実際に与えるかどうかという問題に対処する。 我々は、GAN定式化とスライスされた最適輸送の概念を結合することにより、判別器が分布間の距離として機能する十分な条件を導出する。 さらに,これらの理論結果を活用して,slicing adversarial network (san) と呼ばれる新しいganトレーニング手法を提案する。 単純な修正だけで、既存のGANの幅広いクラスをSANに変換することができる。 合成および画像データセットの実験は、通常のGANと比較して、我々の理論結果とSANの有効性を支持する。 さらに、SANをStyleGAN-XLに適用し、ImageNet 256$\times$256のクラス条件生成のために、GAN間で最先端のFIDスコアを得る。

Generative adversarial networks (GANs) learn a target probability distribution by optimizing a generator and a discriminator with minimax objectives. This paper addresses the question of whether such optimization actually provides the generator with gradients that make its distribution close to the target distribution. We derive metrizable conditions, sufficient conditions for the discriminator to serve as the distance between the distributions by connecting the GAN formulation with the concept of sliced optimal transport. Furthermore, by leveraging these theoretical results, we propose a novel GAN training scheme, called slicing adversarial network (SAN). With only simple modifications, a broad class of existing GANs can be converted to SANs. Experiments on synthetic and image datasets support our theoretical results and the SAN's effectiveness as compared to usual GANs. Furthermore, we also apply SAN to StyleGAN-XL, which leads to state-of-the-art FID score amongst GANs for class conditional generation on ImageNet 256$\times$256.
翻訳日:2023-09-07 19:46:28 公開日:2023-09-06
# 自己教師付き学習と動的計算の相乗効果

Unifying Synergies between Self-supervised Learning and Dynamic Computation ( http://arxiv.org/abs/2301.09164v2 )

ライセンス: Link先を確認
Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Eric Arazo, Paul Albert, Alan F Smeaton, Kevin McGuinness, Noel E O'Connor(参考訳) 計算コストの高いトレーニング戦略は、リソース制約のある産業環境において自己教師付き学習(SSL)を非現実化する。 知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)といった技術は、通常、大きな事前訓練されたモデルの微調整(または蒸留ステップ)の複数のエポックを含む軽量モデルを得るためにしばしば用いられる。 本稿ではSSLとDCのパラダイム間の相互作用に関する新しい視点を示す。 特に,細かな調整や刈り取りのステップを加えることなく,ssl設定で,密集したゲート付きサブネットワークをスクラッチから同時に学習することが可能であることを示す。 高密度エンコーダとゲートエンコーダの事前トレーニング中の共進化は、精度と効率のよいトレードオフを提供するため、アプリケーション固有の産業環境では汎用的で多目的なアーキテクチャとなる。 CIFAR-10/100, STL-10, ImageNet-100などの画像分類ベンチマークの大規模な実験により、提案したトレーニング戦略は、ベニラの自己監督設定に比べて高密度かつ対応するゲートサブネットワークを提供するが、FLOPの計算量は、目標予算(td)の範囲で大幅に減少することを示した。

Computationally expensive training strategies make self-supervised learning (SSL) impractical for resource constrained industrial settings. Techniques like knowledge distillation (KD), dynamic computation (DC), and pruning are often used to obtain a lightweightmodel, which usually involves multiple epochs of fine-tuning (or distilling steps) of a large pre-trained model, making it more computationally challenging. In this work we present a novel perspective on the interplay between SSL and DC paradigms. In particular, we show that it is feasible to simultaneously learn a dense and gated sub-network from scratch in a SSL setting without any additional fine-tuning or pruning steps. The co-evolution during pre-training of both dense and gated encoder offers a good accuracy-efficiency trade-off and therefore yields a generic and multi-purpose architecture for application specific industrial settings. Extensive experiments on several image classification benchmarks including CIFAR-10/100, STL-10 and ImageNet-100, demonstrate that the proposed training strategy provides a dense and corresponding gated sub-network that achieves on-par performance compared with the vanilla self-supervised setting, but at a significant reduction in computation in terms of FLOPs, under a range of target budgets (td ).
翻訳日:2023-09-07 19:46:12 公開日:2023-09-06
# 双分割有界絡みの7つの定義

Seven definitions of bipartite bound entanglement ( http://arxiv.org/abs/2212.11015v2 )

ライセンス: Link先を確認
Michael Gaida and Matthias Kleinmann(参考訳) 絡み合い状態は、局所的な操作と古典的な通信のみを使用することで、任意の数の状態のコピーを最大絡み合い状態に結合できない場合、絡み合い状態は束縛される。 もしこの有界絡み合いの概念を形式化すれば、すぐに4つの異なる定義に到達する。 さらに、少なくとも3つの定義が文献、特に有界絡みに関する最初の論文で一般的に使われている。 ここでは, 臨界蒸留プロトコルを概説し, 量子情報理論の異なる結果がどのように相互作用し, 最終的に7つの定義が等価であることを示す。 我々の自己完結分析は、文献に散在する先行結果を統一し、拡張し、有界絡みの構造の詳細を明らかにする。

An entangled state is bound entangled, if one cannot combine any number of copies of the state to a maximally entangled state, by using only local operations and classical communication. If one formalizes this notion of bound entanglement, one arrives immediately at four different definitions. In addition, at least three more definitions are commonly used in the literature, in particular so in the very first paper on bound entanglement. Here we review critical distillation protocols and we examine how different results from quantum information theory interact in order to prove that all seven definitions are eventually equivalent. Our self-contained analysis unifies and extends previous results scattered in the literature and reveals details of the structure of bound entanglement.
翻訳日:2023-09-07 19:45:20 公開日:2023-09-06
# Mind the Edge: わずかに監督された単眼深度推定における深度エッジの精製

Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2212.05315v2 )

ライセンス: Link先を確認
Lior Talker, Aviad Cohen, Erez Yosef, Alexandra Dana, Michael Dinerstein(参考訳) 単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。 近年,LIDARを教師する手法は,屋外シーンにおける画素毎の深度精度が著しく向上している。 しかし、主に深度不連続性(deep discontinuities)、すなわち深度エッジ(deep edges)の近傍で顕著なエラーが見られ、これはしばしば、新しいビュー合成や拡張現実のような不正確性に敏感な深度依存アプリケーションの性能を妨げる。 深度エッジの位置の直接監視は、通常、粗いLIDARベースのシーンでは利用できないため、MDEモデルに正確な深度エッジを作成するよう促すことは簡単ではない。 我々の知る限り、この論文はLIDAR監督シーンの奥行き問題に対処する最初の試みである。 本研究は,高度に教師付きされた合成データから深度エッジの位置を学習し,それを用いて深度エッジの監視を行うことを提案する。 また,合成データと実データとの「ドメインギャップ」は,mdeトレーニングから間接的に発生するものよりも,直接的に推定される深さエッジの方が有意に精度が高いことが示された。 我々のアプローチを定量的に評価するため,LIDARに基づくシーンでは深度エッジ基底真理が欠如しているため,KITTIとDDADデータセットのサブセットを手動で注釈付けした。 いくつかの挑戦的なデータセットに対して,画素毎の深度精度と同等の深度エッジの精度が著しく向上したことを示す。

Monocular Depth Estimation (MDE) is a fundamental problem in computer vision with numerous applications. Recently, LIDAR-supervised methods have achieved remarkable per-pixel depth accuracy in outdoor scenes. However, significant errors are typically found in the proximity of depth discontinuities, i.e., depth edges, which often hinder the performance of depth-dependent applications that are sensitive to such inaccuracies, e.g., novel view synthesis and augmented reality. Since direct supervision for the location of depth edges is typically unavailable in sparse LIDAR-based scenes, encouraging the MDE model to produce correct depth edges is not straightforward. To the best of our knowledge this paper is the first attempt to address the depth edges issue for LIDAR-supervised scenes. In this work we propose to learn to detect the location of depth edges from densely-supervised synthetic data, and use it to generate supervision for the depth edges in the MDE training. %Despite the 'domain gap' between synthetic and real data, we show that depth edges that are estimated directly are significantly more accurate than the ones that emerge indirectly from the MDE training. To quantitatively evaluate our approach, and due to the lack of depth edges ground truth in LIDAR-based scenes, we manually annotated subsets of the KITTI and the DDAD datasets with depth edges ground truth. We demonstrate significant gains in the accuracy of the depth edges with comparable per-pixel depth accuracy on several challenging datasets.
翻訳日:2023-09-07 19:45:06 公開日:2023-09-06
# 大規模機械学習モデルのための証明可能な量子アルゴリズムを目指して

Towards provably efficient quantum algorithms for large-scale machine-learning models ( http://arxiv.org/abs/2303.03428v3 )

ライセンス: Link先を確認
Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yuri Alexeev, Jens Eisert, Liang Jiang(参考訳) 大規模な機械学習モデルは人工知能の革命的な技術であり、そのボトルネックには、事前学習と微調整の両方で使用される膨大な計算コスト、パワー、時間が含まれる。 この研究では、フォールトトレラントな量子コンピューティングは、モデルのサイズが$n$であり、モデルが十分に散逸的でスパースであり、学習率が低い限り、モデルの反復数である$\mathcal{o}(t^2 \times \text{polylog}(n))$としてスケールし、一般的な(確率的な)勾配降下アルゴリズムに対して、確実に効率的な解決を提供する可能性があることを示します。 散逸微分方程式に対するより効率的な量子アルゴリズムに基づいて、類似のアルゴリズムが機械学習の主要なアルゴリズムである(確率的な)勾配降下のために機能することを発見し、証明する。 実際には、700万から1億300万のパラメータを持つ大規模機械学習モデルのインスタンスをベンチマークします。 スパーストレーニングの文脈では、モデルプルーニング後の学習の初期段階で量子拡張が可能であり、スパースパラメータのダウンロードと再アップロードのスキームを動機付けている。 我々の研究は、フォールトトレラントな量子アルゴリズムが、最先端の大規模機械学習問題の多くに寄与する可能性を確証している。

Large machine learning models are revolutionary technologies of artificial intelligence whose bottlenecks include huge computational expenses, power, and time used both in the pre-training and fine-tuning process. In this work, we show that fault-tolerant quantum computing could possibly provide provably efficient resolutions for generic (stochastic) gradient descent algorithms, scaling as $\mathcal{O}(T^2 \times \text{polylog}(n))$, where $n$ is the size of the models and $T$ is the number of iterations in the training, as long as the models are both sufficiently dissipative and sparse, with small learning rates. Based on earlier efficient quantum algorithms for dissipative differential equations, we find and prove that similar algorithms work for (stochastic) gradient descent, the primary algorithm for machine learning. In practice, we benchmark instances of large machine learning models from 7 million to 103 million parameters. We find that, in the context of sparse training, a quantum enhancement is possible at the early stage of learning after model pruning, motivating a sparse parameter download and re-upload scheme. Our work shows solidly that fault-tolerant quantum algorithms could potentially contribute to most state-of-the-art, large-scale machine-learning problems.
翻訳日:2023-09-07 19:39:42 公開日:2023-09-06
# 量子ビットアレイにおけるフラックスクロストークの学習による校正

Learning-based Calibration of Flux Crosstalk in Transmon Qubit Arrays ( http://arxiv.org/abs/2303.03347v3 )

ライセンス: Link先を確認
Cora N. Barrett, Amir H. Karamlou, Sarah E. Muschinske, Ilan T. Rosen, Jochen Braum\"uller, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, William D. Oliver(参考訳) 磁束可変データとカプラ量子ビットからなる超伝導量子プロセッサは、量子計算に有望なプラットフォームである。 しかし、磁束制御線と構成量子ビット間の磁束クロストークは、量子ビット周波数の精密制御を阻害し、このプラットフォームをスケールさせることが困難である。 高忠実度デジタルおよびアナログ量子演算を実装するには、フラックスクロストークを特徴付ける必要がある。 本稿では,学習に基づくキャリブレーションプロトコルを導入し,16個のフラックス可変トランスモンキュービットの配列をキャリブレーションすることにより,その実験性能を示す。 提案プロトコルの拡張性を示すため,トランスモン量子ビットのより大きな配列に対するクロストーク行列学習手順をシミュレートした。 中央値の量子ビット周波数誤差を300ドル未満に保ちながら,システムサイズの線形スケーリングを実証的に観察した。

Superconducting quantum processors comprising flux-tunable data and coupler qubits are a promising platform for quantum computation. However, magnetic flux crosstalk between the flux-control lines and the constituent qubits impedes precision control of qubit frequencies, presenting a challenge to scaling this platform. In order to implement high-fidelity digital and analog quantum operations, one must characterize the flux crosstalk and compensate for it. In this work, we introduce a learning-based calibration protocol and demonstrate its experimental performance by calibrating an array of 16 flux-tunable transmon qubits. To demonstrate the extensibility of our protocol, we simulate the crosstalk matrix learning procedure for larger arrays of transmon qubits. We observe an empirically linear scaling with system size, while maintaining a median qubit frequency error below $300$ kHz.
翻訳日:2023-09-07 19:39:14 公開日:2023-09-06
# 時空効率の低い量子状態と応用

Spacetime-Efficient Low-Depth Quantum State Preparation with Applications ( http://arxiv.org/abs/2303.02131v2 )

ライセンス: Link先を確認
Kaiwen Gui, Alexander M. Dalzell, Alessandro Achille, Martin Suchara, Frederic T. Chong(参考訳) 任意の量子状態を生成するための新しい決定論的手法を提案する。 我々のプロトコルがCNOTおよび任意の単一キュービットゲートにコンパイルされると、深さ$O(\log(N))$と時空割り当て(アンシラ量子ビットが回路全体に対してアクティブでなくてもよいという事実を考慮に入れたメトリクス)$O(N)$が作成され、どちらも最適である。 $\{\mathrm{H,S,T,CNOT}\}$ gate set にコンパイルされると、従来の方法よりも漸近的に少ない量子資源が必要であることを示す。 具体的には、エラー$\epsilon$ in depth $O(\log(N/\epsilon))$と時空割当$O(N\log(\log(N)/\epsilon))$を作成し、$O(\log(N)\log(N/\epsilon))$と$O(N\log(N/\epsilon))$をそれぞれ改善する。 我々は、このプロトコルの時空割り当てを減らして、定数要素のアンシラオーバーヘッドしか持たない多くの解離状態の迅速な準備を可能にする方法について説明する。$O(N)$ ancilla qubitsは、$O(w + \log(N))$ではなく$O(w)$$$$$$の積状態を作成するために、$O(w\log(N))$で効率的に再利用される。 量子機械学習,ハミルトニアンシミュレーション,方程式の線形系の解法など,この能力が役立ついくつかの応用について紹介する。 プロトコルの量子回路記述、詳細な擬似コード、およびbraketを用いたゲートレベルの実装例を提供する。

We propose a novel deterministic method for preparing arbitrary quantum states. When our protocol is compiled into CNOT and arbitrary single-qubit gates, it prepares an $N$-dimensional state in depth $O(\log(N))$ and spacetime allocation (a metric that accounts for the fact that oftentimes some ancilla qubits need not be active for the entire circuit) $O(N)$, which are both optimal. When compiled into the $\{\mathrm{H,S,T,CNOT}\}$ gate set, we show that it requires asymptotically fewer quantum resources than previous methods. Specifically, it prepares an arbitrary state up to error $\epsilon$ in depth $O(\log(N/\epsilon))$ and spacetime allocation $O(N\log(\log(N)/\epsilon))$, improving over $O(\log(N)\log(N/\epsilon))$ and $O(N\log(N/\epsilon))$, respectively. We illustrate how the reduced spacetime allocation of our protocol enables rapid preparation of many disjoint states with only constant-factor ancilla overhead -- $O(N)$ ancilla qubits are reused efficiently to prepare a product state of $w$ $N$-dimensional states in depth $O(w + \log(N))$ rather than $O(w\log(N))$, achieving effectively constant depth per state. We highlight several applications where this ability would be useful, including quantum machine learning, Hamiltonian simulation, and solving linear systems of equations. We provide quantum circuit descriptions of our protocol, detailed pseudocode, and gate-level implementation examples using Braket.
翻訳日:2023-09-07 19:38:57 公開日:2023-09-06
# イメージラベルは、海草の粗いセグメンテーションに必要なすべてです

Image Labels Are All You Need for Coarse Seagrass Segmentation ( http://arxiv.org/abs/2303.00973v2 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire and Tobias Fischer(参考訳) 海草の牧草地は重要な炭素シンクとして機能するが、貯蔵する炭素量の推定には海草種の知識が必要である。 機械学習アルゴリズムを備えた水中および表面の車両は、大規模な草原の組成と範囲を正確に推定するのに役立ちます。 しかし、過去の海草の検出と分類にはパッチレベルのラベルの監督が必要であった。 本稿では,訓練中に画像レベルラベル(パッチレベルラベルより25倍少ないラベル)とパッチレベルアウトプットが推定時に得られる弱教師付き粗いセグメンテーション問題としてシーグラス分類を再構成する。 この目的のために,教師なしのコントラストプレトレーニングと特徴類似性を用いたアーキテクチャであるseafeatsと,ドメイン固有アプリケーションにおける監視信号としての大規模言語モデルの有効性を示すモデルであるseaclipを紹介する。 SeaFeatsとSeaCLIPのアンサンブルは、非常に堅牢なパフォーマンスをもたらすことを実証する。 本手法は,複数種'DeepSeagrass'データセットのパッチレベルラベルをクラス重み付きF1スコアで6.8%(絶対値),海草の有無/欠落F1スコアで12.1%(絶対値)で比較した。 また,グローバルウェットランズデータセットのアウトラヤ検出と,FloatyBoat自動表面積車両で収集した画像への本手法の適用という,実世界の展開に関する2つのケーススタディも提示する。

Seagrass meadows serve as critical carbon sinks, but estimating the amount of carbon they store requires knowledge of the seagrass species present. Underwater and surface vehicles equipped with machine learning algorithms can help to accurately estimate the composition and extent of seagrass meadows at scale. However, previous approaches for seagrass detection and classification have required supervision from patch-level labels. In this paper, we reframe seagrass classification as a weakly supervised coarse segmentation problem where image-level labels are used during training (25 times fewer labels compared to patch-level labeling) and patch-level outputs are obtained at inference time. To this end, we introduce SeaFeats, an architecture that uses unsupervised contrastive pre-training and feature similarity, and SeaCLIP, a model that showcases the effectiveness of large language models as a supervisory signal in domain-specific applications. We demonstrate that an ensemble of SeaFeats and SeaCLIP leads to highly robust performance. Our method outperforms previous approaches that require patch-level labels on the multi-species 'DeepSeagrass' dataset by 6.8% (absolute) for the class-weighted F1 score, and by 12.1% (absolute) for the seagrass presence/absence F1 score on the 'Global Wetlands' dataset. We also present two case studies for real-world deployment: outlier detection on the Global Wetlands dataset, and application of our method on imagery collected by the FloatyBoat autonomous surface vehicle.
翻訳日:2023-09-07 19:38:17 公開日:2023-09-06
# 量子コンピュータ上での熱状態作成によるイジングモデルの臨界挙動

Critical behavior of Ising model by preparing thermal state on quantum computer ( http://arxiv.org/abs/2302.14279v2 )

ライセンス: Link先を確認
Xiaoyang Wang and Xu Feng and Tobias Hartung and Karl Jansen and Paolo Stornati(参考訳) 量子コンピューティング技術を用いて作製した熱状態を利用して,イジングモデルの臨界挙動をシミュレートする。 熱状態の生成は、変動量子想像時間進化(QITE)アルゴリズムに基づいている。 QITEの初期状態は古典的な製品状態として準備されており、QITEの変分アンサッツを設計するための体系的手法を提案する。 我々は、長距離相互作用型Isingモデルの比熱と感受性を計算し、Ising臨界度を小さな格子サイズで観測する。 量子アルゴリズムによる結果は, 臨界温度近傍と低温領域の両方において, 厳密な対角化から得られた結果とよく一致していることがわかった。

We simulate the critical behavior of the Ising model utilizing a thermal state prepared using quantum computing techniques. The preparation of the thermal state is based on the variational quantum imaginary time evolution (QITE) algorithm. The initial state of QITE is prepared as a classical product state, and we propose a systematic method to design the variational ansatz for QITE. We calculate the specific heat and susceptibility of the long-range interacting Ising model and observe indications of the Ising criticality on a small lattice size. We find the results derived by the quantum algorithm are well consistent with the ones from exact diagonalization, both in the neighbourhood of the critical temperature and the low-temperature region.
翻訳日:2023-09-07 19:37:49 公開日:2023-09-06
# 近接量子デバイスにおけるWigner状態とプロセストモグラフィ

Wigner State and Process Tomography on Near-Term Quantum Devices ( http://arxiv.org/abs/2302.12725v3 )

ライセンス: Link先を確認
Amit Devra, Niklas J. Glaser, Dennis Huber, Steffen J. Glaser(参考訳) 短期量子デバイスに対する走査型トモグラフィーの実験的アプローチを提案する。 基礎となる手法は以前、アンサンブルベースのNMR設定で導入された。 ここでは,短期純状態量子デバイスへの適応を実験的に導くためのチュートリアルスタイルの説明と,適切なソフトウェアツールを提供する。 このアプローチは、量子状態と演算子のウィグナー型表現に基づいている。 これらの表現は、球面高調波の線形結合から組み立てられた形状を用いて量子作用素のリッチな可視化を提供する。 これらの形状(後述の滴と呼ばれる)は回転軸テンソル作用素の期待値を測定することで実験的にトモグラフィすることができる。 本稿では,回路ベースの量子コンピュータのための走査型トモグラフィー技術の実装のための実験フレームワークについて述べる。 また,実験的なトモグラフ付きウィグナー関数(ドロップレット)から密度とプロセス行列を推定する手法を提案する。 このトモグラフィーアプローチはpythonベースのソフトウェアパッケージ \texttt{dropstomo} を使って直接実装できる。

We present an experimental scanning-based tomography approach for near-term quantum devices. The underlying method has previously been introduced in an ensemble-based NMR setting. Here we provide a tutorial-style explanation along with suitable software tools to guide experimentalists in its adaptation to near-term pure-state quantum devices. The approach is based on a Wigner-type representation of quantum states and operators. These representations provide a rich visualization of quantum operators using shapes assembled from a linear combination of spherical harmonics. These shapes (called droplets in the following) can be experimentally tomographed by measuring the expectation values of rotated axial tensor operators. We present an experimental framework for implementing the scanning-based tomography technique for circuit-based quantum computers and showcase results from IBM quantum experience. We also present a method for estimating the density and process matrices from experimentally tomographed Wigner functions (droplets). This tomography approach can be directly implemented using the Python-based software package \texttt{DROPStomo}.
翻訳日:2023-09-07 19:37:38 公開日:2023-09-06
# 交通流予測のための注意融合型動的グラフ畳み込みネットワーク

Dynamic Graph Convolutional Network with Attention Fusion for Traffic Flow Prediction ( http://arxiv.org/abs/2302.12598v2 )

ライセンス: Link先を確認
Xunlian Luo, Chunjiang Zhu, Detian Zhang, Qing Li(参考訳) 都市交通制御やWebマッピングサービスにおいて,正確なリアルタイム交通状況予測が極めて重要である。 大規模データのサポートにより、深層学習手法は、交通ネットワークの複雑な時空間パターンをキャプチャする強力な能力を示している。 しかし、既存のアプローチでは事前定義されたグラフと単純な空間-時空間成分のセットを用いるため、マルチスケールの空間-時空間依存性のモデル化は困難である。 本稿では,このギャップに対処するための注意融合型動的グラフ畳み込みネットワークを提案する。 この手法はまず時間的特徴次元の相互作用を強化し、次に動的グラフ学習者とGRUを組み合わせて同期空間時間相関をモデル化する。 また,空間時間アテンションモジュールを組み込んで,長距離・多面領域の空間時間パターンを効果的に捉える。 本研究では,実世界の4つのトラヒックデータセットで広範な実験を行い,本手法が18のベースライン法と比較して最先端の性能を上回っていることを示す。

Accurate and real-time traffic state prediction is of great practical importance for urban traffic control and web mapping services. With the support of massive data, deep learning methods have shown their powerful capability in capturing the complex spatialtemporal patterns of traffic networks. However, existing approaches use pre-defined graphs and a simple set of spatial-temporal components, making it difficult to model multi-scale spatial-temporal dependencies. In this paper, we propose a novel dynamic graph convolution network with attention fusion to tackle this gap. The method first enhances the interaction of temporal feature dimensions, and then it combines a dynamic graph learner with GRU to jointly model synchronous spatial-temporal correlations. We also incorporate spatial-temporal attention modules to effectively capture longrange, multifaceted domain spatial-temporal patterns. We conduct extensive experiments in four real-world traffic datasets to demonstrate that our method surpasses state-of-the-art performance compared to 18 baseline methods.
翻訳日:2023-09-07 19:37:24 公開日:2023-09-06
# 確率および分散誘導立方体ニュートン法の統一収束理論

Unified Convergence Theory of Stochastic and Variance-Reduced Cubic Newton Methods ( http://arxiv.org/abs/2302.11962v2 )

ライセンス: Link先を確認
El Mahdi Chayti and Nikita Doikov and Martin Jaggi(参考訳) 一般の非凸最小化問題に対する確率的立方ニュートン法について検討する。 我々は,大域的な複雑性保証を備えた確率的・分散還元2次アルゴリズムの統一的なビューを提供するヘルパーフレームワークと呼ばれる新しいフレームワークを提案する。 補助情報を用いた学習にも応用できる。 我々のヘルパーフレームワークは、確率的キュービックニュートン法の構築と解析に高い柔軟性を提供し、任意の大きさのバッチを可能にし、勾配とヘッセンの雑音や偏りのある推定値を使用することで、分散低減と遅延ヘッセン更新の両方を取り入れている。 我々は雑音の弱い仮定の下で確率的および分散還元されたキュービックニュートンの最もよく知られた複雑さを回復する。 我々の理論の直接の結果は、大きな次元問題に対する算術的複雑性を大幅に改善する新しい遅延確率的二階法である。 また、凸問題や強凸問題を含む勾配支配対象のクラスに対する複雑性境界も確立する。 補助学習では,与えられた類似度尺度が小さければ,ヘルパ(副次関数)が単独でトレーニングに勝ることを示す。

We study stochastic Cubic Newton methods for solving general possibly non-convex minimization problems. We propose a new framework, which we call the helper framework, that provides a unified view of the stochastic and variance-reduced second-order algorithms equipped with global complexity guarantees. It can also be applied to learning with auxiliary information. Our helper framework offers the algorithm designer high flexibility for constructing and analyzing the stochastic Cubic Newton methods, allowing arbitrary size batches, and the use of noisy and possibly biased estimates of the gradients and Hessians, incorporating both the variance reduction and the lazy Hessian updates. We recover the best-known complexities for the stochastic and variance-reduced Cubic Newton, under weak assumptions on the noise. A direct consequence of our theory is the new lazy stochastic second-order method, which significantly improves the arithmetic complexity for large dimension problems. We also establish complexity bounds for the classes of gradient-dominated objectives, that include convex and strongly convex problems. For Auxiliary Learning, we show that using a helper (auxiliary function) can outperform training alone if a given similarity measure is small.
翻訳日:2023-09-07 19:37:09 公開日:2023-09-06
# 大規模言語モデルを用いた自動単体テスト生成の実証評価

An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation ( http://arxiv.org/abs/2302.06527v3 )

ライセンス: Link先を確認
Max Sch\"afer, Sarah Nadi, Aryaz Eghbali, Frank Tip(参考訳) ユニットテストはソフトウェアの正しさを保証する上で重要な役割を果たします。 しかし、手動でユニットテストを作成するのは面倒な作業であり、自動化の必要性を動機付けます。 大規模な言語モデル(llm)がこの問題に最近適用され、既存のテストの例で追加のトレーニングやわずかな学習が活用されている。 本稿では,自動単体テスト生成におけるLLMの有効性を,追加のトレーニングや手作業なしに大規模に評価し,LLMにテスト中の関数の署名と実装と,ドキュメントから抽出した使用例を提供する。 また、失敗したテストとエラーメッセージでモデルを再プロンプトすることで、失敗したテストの修復も試みました。 これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 合計1,684個のAPI関数を持つ25 npmパッケージ上で,OpenAIのgpt3.5-turbo LLMを用いてTestPilotを評価する。 生成したテストは、平均的なステートメントカバレッジ70.2%、ブランチカバレッジ52.8%を達成し、最近フィードバック指向のjavascriptテスト生成テクニックであるnessieで大幅に改善され、51.3%のステートメントカバレッジと25.6%のブランチカバレッジを達成した。 また、TestPilotの生成したテストの92.8%は、既存のテスト(正規化編集距離によって測定される)と50%以上の類似性がなく、いずれも正確なコピーではないことも判明した。 最後に、2つのLLM、OpenAIの古いCode-cushman-002 LLMとオープンなLLM StarCoderでTestPilotを実行します。 概して, 前者(68.2%), 後者(54.0%), やや悪い結果(54.0%)で同様の結果が得られ, LLMのサイズとトレーニングセットに影響されているが, 基本的には特定のモデルに依存していないことが示唆された。

Unit tests play a key role in ensuring the correctness of software. However, manually creating unit tests is a laborious task, motivating the need for automation. Large Language Models (LLMs) have recently been applied to this problem, utilizing additional training or few-shot learning on examples of existing tests. This paper presents a large-scale empirical evaluation on the effectiveness of LLMs for automated unit test generation without additional training or manual effort, providing the LLM with the signature and implementation of the function under test, along with usage examples extracted from documentation. We also attempt to repair failed generated tests by re-prompting the model with the failing test and error message. We implement our approach in TestPilot, a test generation tool for JavaScript that automatically generates unit tests for all API functions in an npm package. We evaluate TestPilot using OpenAI's gpt3.5-turbo LLM on 25 npm packages with a total of 1,684 API functions. The generated tests achieve a median statement coverage of 70.2% and branch coverage of 52.8%, significantly improving on Nessie, a recent feedback-directed JavaScript test generation technique, which achieves only 51.3% statement coverage and 25.6% branch coverage. We also find that 92.8% of TestPilot's generated tests have no more than 50% similarity with existing tests (as measured by normalized edit distance), with none of them being exact copies. Finally, we run TestPilot with two additional LLMs, OpenAI's older code-cushman-002 LLM and the open LLM StarCoder. Overall, we observed similar results with the former (68.2% median statement coverage), and somewhat worse results with the latter (54.0% median statement coverage), suggesting that the effectiveness of the approach is influenced by the size and training set of the LLM, but does not fundamentally depend on the specific model.
翻訳日:2023-09-07 19:36:15 公開日:2023-09-06
# 単光子を用いた対称性検出高次例外点の実験シミュレーション

Experimental Simulation of Symmetry-Protected Higher-Order Exceptional Points with Single Photons ( http://arxiv.org/abs/2303.11834v2 )

ライセンス: Link先を確認
Kunkun Wang, Lei Xiao, Haiqing Lin, Wei Yi, Emil J. Bergholtz, Peng Xue(参考訳) 非エルミタン系(NH)の例外点(EP)は、その豊富な現象学と興味深い応用により、近年注目を集めている。 主に研究された2階EPと比較して、高階EPはより多くのパラメータのチューニングを必要とするため、より顕著な役割を担っていると推定されている。 ここでは、単光子干渉法による2次元トポロジカルNHバンド構造を実験的にシミュレートし、対称性の存在下で2つの実パラメータのみをチューニングすることによって得られるトポロジカル安定な3次EPを観察する。 特に、異なる対称性が定性的に異なる3次epを安定化させる方法を探る:パリティタイム対称性は一般的な立方根分散につながり、一般化されたキラル対称性は平坦なバンドと共存する正方根分散を意味する。 さらに,非欠陥な2次退化と2次EPからなる4次退化をシミュレートする。 本研究は, 対称性により保護された高次EPが豊富で概念的に豊富であることを明らかにするとともに, トポロジカル NH システムのさらなる研究のための多目的プラットフォームを提供する。

Exceptional points (EPs) of non-Hermitian (NH) systems have recently attracted increasing attention due to their rich phenomenology and intriguing applications. Compared to the predominantly studied second-order EPs, higher-order EPs have been assumed to play a much less prominent role because they generically require the tuning of more parameters. Here we experimentally simulate two-dimensional topological NH band structures using single-photon interferometry, and observe topologically stable third-order EPs obtained by tuning only two real parameters in the presence of symmetry. In particular, we explore how different symmetries stabilize qualitatively different third-order EPs: the parity-time symmetry leads to a generic cube-root dispersion, while a generalized chiral symmetry implies a square-root dispersion coexisting with a flat band. Additionally, we simulate fourfold degeneracies, composed of the non-defective twofold degeneracies and second-order EPs. Our work reveals the abundant and conceptually richer higher-order EPs protected by symmetries and offers a versatile platform for further research on topological NH systems.
翻訳日:2023-09-07 19:27:49 公開日:2023-09-06
# 視覚トランスフォーマーのロバスト化トークン注意

Robustifying Token Attention for Vision Transformers ( http://arxiv.org/abs/2303.11126v3 )

ライセンス: Link先を確認
Yong Guo, David Stutz, Bernt Schiele(参考訳) 視覚変換器(ViT)の成功にもかかわらず、ノイズやぼやけなどの一般的な汚職の存在下では精度が著しく低下している。 興味深いことに、ViTの注意機構は重要なトークンをほとんど依存しない傾向にあり、これはトークンの過剰フォーカスと呼ばれる現象である。 より批判的に、これらのトークンは腐敗に対して堅牢ではなく、しばしば高度に異なる注意パターンをもたらす。 本稿では,この過度に焦点をあてる問題を緩和し,2つの一般的な手法により,より安定した注意力を持たせることを目的とする。 具体的には、TAPは各トークンの平均プール方式を学習し、近隣の潜在的に重要なトークンに関する情報を適応的に考慮することができる。 第2に,ADL(Attention Diversification Loss)を用いることで,入力トークンの多様な集合から情報を集約するように,出力トークンを強制的に強制する。 異なるトークンのアテンションベクトル間のコサイン類似性を高いペナリゼーションにより達成する。 実験では,本手法を多種多様な変圧器アーキテクチャに適用し,ロバスト性を大幅に向上する。 例えば、ImageNet-Cの破壊堅牢性を2.4%改善し、最先端のロバストアーキテクチャFANに基づいて精度を0.4%改善する。 また,セマンティックセグメンテーションタスクを微調整すると,CityScapes-Cでは2.4%,ACDCでは3.0%の堅牢性が向上する。 私たちのコードはhttps://github.com/guoyongcs/TAPADLで利用可能です。

Despite the success of vision transformers (ViTs), they still suffer from significant drops in accuracy in the presence of common corruptions, such as noise or blur. Interestingly, we observe that the attention mechanism of ViTs tends to rely on few important tokens, a phenomenon we call token overfocusing. More critically, these tokens are not robust to corruptions, often leading to highly diverging attention patterns. In this paper, we intend to alleviate this overfocusing issue and make attention more stable through two general techniques: First, our Token-aware Average Pooling (TAP) module encourages the local neighborhood of each token to take part in the attention mechanism. Specifically, TAP learns average pooling schemes for each token such that the information of potentially important tokens in the neighborhood can adaptively be taken into account. Second, we force the output tokens to aggregate information from a diverse set of input tokens rather than focusing on just a few by using our Attention Diversification Loss (ADL). We achieve this by penalizing high cosine similarity between the attention vectors of different tokens. In experiments, we apply our methods to a wide range of transformer architectures and improve robustness significantly. For example, we improve corruption robustness on ImageNet-C by 2.4% while improving accuracy by 0.4% based on state-of-the-art robust architecture FAN. Also, when fine-tuning on semantic segmentation tasks, we improve robustness on CityScapes-C by 2.4% and ACDC by 3.0%. Our code is available at https://github.com/guoyongcs/TAPADL.
翻訳日:2023-09-07 19:27:30 公開日:2023-09-06
# ニューラル・プライア確率ブロックモデル

Neural-prior stochastic block model ( http://arxiv.org/abs/2303.09995v2 )

ライセンス: Link先を確認
O. Duranthon, L. Zdeborov\'a(参考訳) 確率ブロックモデル(SBM)は,グラフクラスタリングのベンチマークとして広く研究されている。 実際には、グラフデータは多くの場合、コミュニティに関する追加情報を持つノード属性を伴います。 ノード属性がノードコミュニティメンバシップから生成されることを考慮し、そのようなデータをモデル化した以前の作業。 本稿では,ディープニューラルネットワークを用いた近年の信号処理の進展に動機づけられ,その逆ではなく,ノード属性によって決定されるコミュニティをモデル化することを提案する。 対応するモデルを定義し,それをニューラルプライアSBMと呼ぶ。 本稿では,信念伝播と近似メッセージパッシングを組み合わせた統計物理学に基づくアルゴリズムを提案する。 ベイズ最適性能だけでなくアルゴリズムの性能も解析する。 検出可能性と正確な回復相転移,およびアルゴリズム的に硬い領域を同定する。 提案したモデルとアルゴリズムは理論とアルゴリズムのベンチマークとして利用できる。 これを説明するために、簡単なグラフニューラルネットワークの性能と最適性能を比較した。

The stochastic block model (SBM) is widely studied as a benchmark for graph clustering aka community detection. In practice, graph data often come with node attributes that bear additional information about the communities. Previous works modeled such data by considering that the node attributes are generated from the node community memberships. In this work, motivated by a recent surge of works in signal processing using deep neural networks as priors, we propose to model the communities as being determined by the node attributes rather than the opposite. We define the corresponding model; we call it the neural-prior SBM. We propose an algorithm, stemming from statistical physics, based on a combination of belief propagation and approximate message passing. We analyze the performance of the algorithm as well as the Bayes-optimal performance. We identify detectability and exact recovery phase transitions, as well as an algorithmically hard region. The proposed model and algorithm can be used as a benchmark for both theory and algorithms. To illustrate this, we compare the optimal performances to the performance of simple graph neural networks.
翻訳日:2023-09-07 19:27:04 公開日:2023-09-06
# 線形パラメータスイープを用いた量子オシレータ系の制御

Controlling qubit-oscillator systems using linear parameter sweeps ( http://arxiv.org/abs/2303.09834v3 )

ライセンス: Link先を確認
Sahel Ashhab, Tomoko Fuse, Fumiki Yoshihara, Sunmi Kim, Kouichi Semba(参考訳) システムパラメータの線形スイープの影響下での量子オシレータ系のダイナミクスについて検討する。 主な事例は2つある。 第一に, 弱相関基底状態と強相関基底状態の関係, 常相と超ラジカル相の2つの相の有限次クエンチとみなすことができる状況, のパラメータを整理することを検討する。 このクエンチの結果、励起が生成される。 励起確率の各種パラメータ依存性について検討した。 超ラジアントと超ラジアントのクエンチの間の力学における定性的非対称性を見いだす。 パラメータスイープの2つ目の例は、高調波発振器に結合した量子ビットの偏差項におけるランダウ・ツェナースイープの問題である。 我々は、力学を独立したランダウ・ツェナー遷移の列に分解できるという仮定に基づいて理論式を解析する。 本システムでは, 理論式の有効性の確立に加えて, 適切な条件下では, 決定論的かつ堅牢な多光子状態の調製が可能となる。

We investigate the dynamics of a qubit-oscillator system under the influence of a linear sweep of system parameters. We consider two main cases. In the first case, we consider sweeping the parameters between the regime of a weakly correlated ground state and the regime of a strongly correlated ground state, a situation that can be viewed as a finite-duration quench between two phases of matter: the normal phase and the superradiant phase. Excitations are created as a result of this quench. We investigate the dependence of the excitation probabilities on the various parameters. We find a qualitative asymmetry in the dynamics between the cases of a normal-to-superradiant and superradiant-to-normal quench. The second case of parameter sweeps that we investigate is the problem of a Landau-Zener sweep in the qubit bias term for a qubit coupled to a harmonic oscillator. We analyze a theoretical formula based on the assumption that the dynamics can be decomposed into a sequence of independent Landau-Zener transitions. In addition to establishing the conditions of validity for the theoretical formula, we find that under suitable conditions, deterministic and robust multi-photon state preparation is possible in this system.
翻訳日:2023-09-07 19:26:51 公開日:2023-09-06
# 連続感情認識における視覚聴覚融合におけるttnとtransformerの活用

Leveraging TCN and Transformer for effective visual-audio fusion in continuous emotion recognition ( http://arxiv.org/abs/2303.08356v3 )

ライセンス: Link先を確認
Weiwei Zhou, Jiada Lu, Zhaolong Xiong, Weifeng Wang(参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な役割を果たす。 本稿では,第5回ワークショップのvalence-arousal (va) estimation challenge, expression (expr) classification challenge, action unit (au) detection challenge, and competition on affective behavior analysis in-the-wild (abaw)について述べる。 具体的には,時間的畳み込みネットワーク(tcn,temporal convolutional network)とトランスフォーマー(transformer)を利用して,連続的感情認識の性能を向上させるマルチモーダル融合モデルを提案する。 本モデルは,感情認識の精度を向上させるため,視覚情報と音声情報を効果的に統合することを目的としている。 我々のモデルはベースラインを上回り、表現分類チャレンジで3位になっている。

Human emotion recognition plays an important role in human-computer interaction. In this paper, we present our approach to the Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, and Action Unit (AU) Detection Challenge of the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Specifically, we propose a novel multi-modal fusion model that leverages Temporal Convolutional Networks (TCN) and Transformer to enhance the performance of continuous emotion recognition. Our model aims to effectively integrate visual and audio information for improved accuracy in recognizing emotions. Our model outperforms the baseline and ranks 3 in the Expression Classification challenge.
翻訳日:2023-09-07 19:26:31 公開日:2023-09-06
# 実験固体力学における機械学習の最近の進歩と応用

Recent Advances and Applications of Machine Learning in Experimental Solid Mechanics: A Review ( http://arxiv.org/abs/2303.07647v4 )

ライセンス: Link先を確認
Hanxun Jin, Enrui Zhang, Horacio D. Espinosa(参考訳) 長年にわたり、実験的な固体力学は自然および新規物質の力学特性を特徴づけ、理解する上で重要な役割を担ってきた。 機械学習(ML)の最近の進歩は、実験設計、データ分析、不確実性定量化、逆問題など、この分野に新たな機会をもたらす。 この新興分野における近年の論文の数が爆発的に増えているため、実験固体力学における最近のML応用の包括的かつ最新のレビューを行うのは時期尚早である。 本稿では、まず、このレビューに係わる共通MLアルゴリズムと用語の概要を説明し、物理インフォームドおよび物理ベースのML手法に重点を置いている。 次に, 破壊力学, バイオメカニクス, ナノ・マイクロメカニクス, 建築材料, 2次元材料など, 従来および新興の実験力学分野における最近のML応用について概説する。 最後に,MLを多モードおよび多忠実な実験データセットに適用する現在の課題を強調し,今後の研究方向性を提案する。 このレビューは、MLメソッドの使用に関する貴重な洞察と、固体力学の研究者が実験に組み込むための様々な例を提供することを目的としている。

For many decades, experimental solid mechanics has played a crucial role in characterizing and understanding the mechanical properties of natural and novel materials. Recent advances in machine learning (ML) provide new opportunities for the field, including experimental design, data analysis, uncertainty quantification, and inverse problems. As the number of papers published in recent years in this emerging field is exploding, it is timely to conduct a comprehensive and up-to-date review of recent ML applications in experimental solid mechanics. Here, we first provide an overview of common ML algorithms and terminologies that are pertinent to this review, with emphasis placed on physics-informed and physics-based ML methods. Then, we provide thorough coverage of recent ML applications in traditional and emerging areas of experimental mechanics, including fracture mechanics, biomechanics, nano- and micro-mechanics, architected materials, and 2D material. Finally, we highlight some current challenges of applying ML to multi-modality and multi-fidelity experimental datasets and propose several future research directions. This review aims to provide valuable insights into the use of ML methods as well as a variety of examples for researchers in solid mechanics to integrate into their experiments.
翻訳日:2023-09-07 19:26:07 公開日:2023-09-06
# 非古典性のランダム性フリーテスト:概念実証

Randomness-free Test of Non-classicality: a Proof of Concept ( http://arxiv.org/abs/2303.06990v3 )

ライセンス: Link先を確認
Zhonghua Ma, Markus Rambach, Kaumudibikash Goswami, Some Sankar Bhattacharya, Manik Banik, and Jacquiline Romero(参考訳) 量子相関と非射影測定は、古典世界では不可能な多くの情報理論的なタスクをもたらす。 このような非古典的資源をデバイスに依存しない方法で証明するための既存のスキームは、多成分量子システムの異なる部分で実行される局所的な測定を選択するために、しばしばコストがかかり、抜け穴に弱いシードランダム性を必要とする。 本稿では、シードランダム性のない量子相関および非射影測定のための半デバイス独立認証手法を提案し、実験的に実装する。 我々のテストは、部品の寸法に関する事前の知識のみを必要とするという意味で、半デバイス独立である。 横方向の空間モードに絡み合った一対の光子から特定の相関コインを生成することにより、相関コイントスキングにおける新しい量子優位性を実験的に示す。 エンタングル光子から得られる相関コインは2段階の古典相関硬貨では得られないことを示すことにより,その利点を確立する。 量子アドバンテージは、絡み合う対の各部分で量子ビットトリイン正の演算子値測度(povm)を実行する必要があるため、そのようなpovmを半デバイスに依存しない方法で証明する。 この概念実証は、非古典的共有ランダム性の生成と、将来のマルチパーティ量子通信において重要となる非古典的測定の両方を行うための、新しいコスト効率の高い認証技術を確立している。

Quantum correlations and non-projective measurements underlie a plethora of information-theoretic tasks, otherwise impossible in the classical world. Existing schemes to certify such non-classical resources in a device-independent manner require seed randomness, which is often costly and vulnerable to loopholes, for choosing the local measurements performed on different parts of a multipartite quantum system. In this letter, we propose and experimentally implement a semi-device independent certification technique for both quantum correlations and non-projective measurements without seed randomness. Our test is semi-device independent in the sense that it requires only prior knowledge of the dimensions of the parts. We experimentally show a novel quantum advantage in correlated coin tossing by producing specific correlated coins from pairs of photons entangled in their transverse spatial modes. We establish the advantage by showing that the correlated coin obtained from the entangled photons cannot be obtained from two 2-level classical correlated coins. The quantum advantage requires performing qubit trine positive operator-valued measures (POVMs) on each part of the entangled pair, thus also certifying such POVMs in a semi-device-independent manner. This proof of concept firmly establishes a new cost-effective certification technique for both generating non-classical shared randomness and implementing non-classical measurements, which will be important for future multi-party quantum communications.
翻訳日:2023-09-07 19:25:44 公開日:2023-09-06
# TSMixer: 時系列予測のためのオールMLPアーキテクチャ

TSMixer: An All-MLP Architecture for Time Series Forecasting ( http://arxiv.org/abs/2303.06053v4 )

ライセンス: Link先を確認
Si-An Chen, Chun-Liang Li, Nate Yoder, Sercan O. Arik, Tomas Pfister(参考訳) 現実世界の時系列データセットはしばしば複雑なダイナミクスを持つ多変量である。 この複雑さを捉えるために、リカレントやアテンションベースのシーケンシャルディープラーニングモデルのような高容量アーキテクチャが普及している。 しかし、最近の研究では、単純な単変量線形モデルは、よく使われるいくつかの学術ベンチマークにおいて、そのような深層学習モデルより優れていることが示されている。 本稿では,時系列予測のための線形モデルと,多層パーセプトロン (mlps) を積み重ねた新しいアーキテクチャであるcurrent time-series mixer (tsmixer) の機能について検討する。 TSMixerは時間次元と特徴次元の混合操作に基づいて情報を効率的に抽出する。 一般的な学術ベンチマークでは、TSMixerは特定のベンチマークの帰納バイアスを利用する専門的な最先端モデルに匹敵する。 現実の小売データセットである挑戦的で大規模なM5ベンチマークでは、TSMixerは最先端の代替モデルよりも優れたパフォーマンスを示している。 その結果,時系列予測の性能向上にクロスバリアイトと補助情報を効果的に活用することの重要性が示唆された。 我々はTSMixerの能力について様々な分析を行った。 TSMixerで使用される設計パラダイムは、ディープラーニングに基づく時系列予測のための新たな地平を開くことが期待されている。 実装はhttps://github.com/google-research/google-research/tree/master/tsmixerで利用可能である。

Real-world time-series datasets are often multivariate with complex dynamics. To capture this complexity, high capacity architectures like recurrent- or attention-based sequential deep learning models have become popular. However, recent work demonstrates that simple univariate linear models can outperform such deep learning models on several commonly used academic benchmarks. Extending them, in this paper, we investigate the capabilities of linear models for time-series forecasting and present Time-Series Mixer (TSMixer), a novel architecture designed by stacking multi-layer perceptrons (MLPs). TSMixer is based on mixing operations along both the time and feature dimensions to extract information efficiently. On popular academic benchmarks, the simple-to-implement TSMixer is comparable to specialized state-of-the-art models that leverage the inductive biases of specific benchmarks. On the challenging and large scale M5 benchmark, a real-world retail dataset, TSMixer demonstrates superior performance compared to the state-of-the-art alternatives. Our results underline the importance of efficiently utilizing cross-variate and auxiliary information for improving the performance of time series forecasting. We present various analyses to shed light into the capabilities of TSMixer. The design paradigms utilized in TSMixer are expected to open new horizons for deep learning-based time series forecasting. The implementation is available at https://github.com/google-research/google-research/tree/master/tsmixer
翻訳日:2023-09-07 19:25:20 公開日:2023-09-06
# 多体マヨラナフェルミオン相互作用に基づくトポロジカル-非トポロジカルハイブリッド量子ゲートの体系的構築

Systematic construction of topological-nontopological hybrid universal quantum gates based on many-body Majorana fermion interactions ( http://arxiv.org/abs/2304.06260v2 )

ライセンス: Link先を確認
Motohiko Ezawa(参考訳) マヨラナフェルミオンのブレイディングによるトポロジカル量子計算は普遍的な量子計算ではない。 いくつかの量子ゲートや量子状態を導入することで、普遍的な量子計算を試みている。 しかし、$M$-qubitゲートを$N>M$に対して$N$ qubitsに簡単に埋め込むことはできないという埋め込み問題がある。 この問題は、論理キュービットが物理キュービットと異なるMajoranaシステムに固有のものである。 マヨラナフェルミオンの2N$-body相互作用を導入することにより、トポロジカル・ノントポロジカルなハイブリッド量子計算が可能であることが示されている。 特に、C$^{n}$Zゲート、C$^{n}$NOTゲート、C$^{n}$SWAPゲートを体系的に構成する。

Topological quantum computation by way of braiding of Majorana fermions is not universal quantum computation. There are several attempts to make universal quantum computation by introducing some additional quantum gates or quantum states. However, there is an embedding problem that $M$-qubit gates cannot be embedded straightforwardly in $N$ qubits for $N>M$. This problem is inherent to the Majorana system, where logical qubits are different from physical qubits because braiding operations preserve the fermion parity. By introducing $2N$-body interactions of Majorana fermions, topological-nontopological hybrid universal quantum computation is shown to be possible. Especially, we make a systematic construction of the C$^{n}$Z gate, C$^{n}$NOT gate and the C$^{n}$SWAP gate.
翻訳日:2023-09-07 19:19:18 公開日:2023-09-06
# 深層学習に基づく多彩な不整脈の描写のためのECGセグメンテーション

Deep learning based ECG segmentation for delineation of diverse arrhythmias ( http://arxiv.org/abs/2304.06237v2 )

ライセンス: Link先を確認
Chankyu Joung, Mijin Kim, Taejin Paik, Seong-Ho Kong, Seung-Young Oh, Won Kyeong Jeon, Jae-hu Jeon, Joong-Sik Hong, Wan-Joong Kim, Woong Kook, Myung-Jin Cha, Otto van Koert(参考訳) 心電図におけるキー波形の正確なデライン化は、心臓疾患の診断と治療を支援するために、関連する特徴を抽出するための重要な初期段階である。 p, qrs, t波の同定にセグメンテーションモデルを用いた深層学習法では有望な結果が得られたが,不整脈を呈する信号の処理能力はいまだ不明である。 本研究は, 多様な不整脈に着目した, U-Net-like segmentation model for ECG delineationを導入することにより, 既存の研究の基盤となる。 この目的のために,様々な不整脈タイプの波形境界アノテーションを含む内部データセットを収集し,モデルのトレーニングと検証を行う。 我々の重要な貢献は、異なる不整脈型におけるセグメンテーションモデル障害の特定、多様なトレーニングセットを用いた堅牢なモデルの開発、ベンチマークデータセットでの同等のパフォーマンスの実現、特定の不整脈に対する偽P波予測を減らすための分類ガイド付き戦略の導入である。 本研究は、不整脈の文脈における深層学習に基づく心電図記述を前進させ、その課題を強調する。

Accurate delineation of key waveforms in an ECG is a critical initial step in extracting relevant features to support the diagnosis and treatment of heart conditions. Although deep learning based methods using a segmentation model to locate the P, QRS, and T waves have shown promising results, their ability to handle signals exhibiting arrhythmia remains unclear. This study builds on existing research by introducing a U-Net-like segmentation model for ECG delineation, with a particular focus on diverse arrhythmias. For this purpose, we curate an internal dataset containing waveform boundary annotations for various arrhythmia types to train and validate our model. Our key contributions include identifying segmentation model failures in different arrhythmia types, developing a robust model using a diverse training set, achieving comparable performance on benchmark datasets, and introducing a classification guided strategy to reduce false P wave predictions for specific arrhythmias. This study advances deep learning based ECG delineation in the context of arrhythmias and highlights its challenges.
翻訳日:2023-09-07 19:19:02 公開日:2023-09-06
# 物理インフォームドニューラルネットワークを用いた非線形構成材料モデルの学習解:COMM-PINN

Learning solution of nonlinear constitutive material models using physics-informed neural networks: COMM-PINN ( http://arxiv.org/abs/2304.06044v2 )

ライセンス: Link先を確認
Shahed Rezaei, Ahmad Moeineddin and Ali Harandi(参考訳) 非線形, 経路依存的な物質挙動の構成的関係を解くために, 物理インフォームドニューラルネットワークを適用した。 その結果、トレーニングされたネットワークは、すべての熱力学的制約を満たすだけでなく、任意の負荷シナリオにおいて、初期データを必要としない現在の物質状態(自由エネルギー、ストレス、内部変数の進化)に関する情報も即座に提供する。 この研究の利点の1つは、複雑な物質モデルにおける非線形方程式を解くのに必要な繰り返しニュートン反復をバイパスすることである。 さらに、タンジェント演算子を得るために必要な導関数の順序を減少させる戦略が提供される。 トレーニングされたモデルは、ユーザ定義のマテリアルモデルとして、任意の有限要素パッケージ(または他の数値手法)で直接使用できる。 しかし、コロケーションポイントの適切な定義や、アクティブあるいは非アクティブとなるいくつかの非平等制約の統合には課題が残っている。 本手法は, 非線形硬化法則を用いた古典的フォン・ミセス塑性モデルや, 非線形軟化法則による界面ひび割れ挙動の局所的損傷モデルなど, 速度に依存しないプロセスで検証した。 3次元の3次元のシナリオで複雑な経路依存性を扱う手法の適用性を実証するために,3次元のインタフェースモデルに対する損傷モデルを管理する方程式を用いてアプローチを検証した。 このようなモデルは粒界の粒界破壊によく用いられる。 提案手法で得られた結果と古典的手法で得られた結果との完全な一致を見出した。 さらに,提案手法では,従来の手法に比べて実装時間や計算時間を著しく削減する必要がある。

We applied physics-informed neural networks to solve the constitutive relations for nonlinear, path-dependent material behavior. As a result, the trained network not only satisfies all thermodynamic constraints but also instantly provides information about the current material state (i.e., free energy, stress, and the evolution of internal variables) under any given loading scenario without requiring initial data. One advantage of this work is that it bypasses the repetitive Newton iterations needed to solve nonlinear equations in complex material models. Additionally, strategies are provided to reduce the required order of derivative for obtaining the tangent operator. The trained model can be directly used in any finite element package (or other numerical methods) as a user-defined material model. However, challenges remain in the proper definition of collocation points and in integrating several non-equality constraints that become active or non-active simultaneously. We tested this methodology on rate-independent processes such as the classical von Mises plasticity model with a nonlinear hardening law, as well as local damage models for interface cracking behavior with a nonlinear softening law. In order to demonstrate the applicability of the methodology in handling complex path dependency in a three-dimensional (3D) scenario, we tested the approach using the equations governing a damage model for a three-dimensional interface model. Such models are frequently employed for intergranular fracture at grain boundaries. We have observed a perfect agreement between the results obtained through the proposed methodology and those obtained using the classical approach. Furthermore, the proposed approach requires significantly less effort in terms of implementation and computing time compared to the traditional methods.
翻訳日:2023-09-07 19:18:40 公開日:2023-09-06
# クリップのタイポグラフィー攻撃防止のための防御プリフィックス

Defense-Prefix for Preventing Typographic Attacks on CLIP ( http://arxiv.org/abs/2304.04512v3 )

ライセンス: Link先を確認
Hiroki Azuma, Yusuke Matsui(参考訳) 視覚言語事前学習モデル(VLP)は、様々な視覚言語タスクに革命的な改善をもたらした。 VLPでは、一部の敵対的攻撃は、モデルを偽りまたは不条理な分類に騙す。 以前の研究では、モデルを微調整したり、アーキテクチャを変更したりすることで、これらの攻撃に対処した。 しかし、これらの手法は元のモデルの性能を失う危険を冒し、下流のタスクに適用することは困難である。 特に、他のタスクへの適用性は考慮されていない。 本研究では,モデルパラメータを変更することなく,CLIPに対するタイポグラフィー攻撃の影響の低減について検討した。 これを実現するために,我々は,DPトークンをクラス名の前に挿入し,タイポグラフィー攻撃に対して単語を"robust"にする,"prefix learning"という,シンプルで効果的な方法を導入する。 提案手法はモデルパラメータに依存しないため,オブジェクト検出などの下流タスクにも容易に適用できる。 本手法は,モデルのゼロショット機能を維持しつつ,タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。 さらに,提案手法をオブジェクト検出に適用し,高い適用性と有効性を示す。 コードとデータセットはhttps://github.com/azuma164/Defense-Prefix.orgで公開されている。

Vision-language pre-training models (VLPs) have exhibited revolutionary improvements in various vision-language tasks. In VLP, some adversarial attacks fool a model into false or absurd classifications. Previous studies addressed these attacks by fine-tuning the model or changing its architecture. However, these methods risk losing the original model's performance and are difficult to apply to downstream tasks. In particular, their applicability to other tasks has not been considered. In this study, we addressed the reduction of the impact of typographic attacks on CLIP without changing the model parameters. To achieve this, we expand the idea of "prefix learning" and introduce our simple yet effective method: Defense-Prefix (DP), which inserts the DP token before a class name to make words "robust" against typographic attacks. Our method can be easily applied to downstream tasks, such as object detection, because the proposed method is independent of the model parameters. Our method significantly improves the accuracy of classification tasks for typographic attack datasets, while maintaining the zero-shot capabilities of the model. In addition, we leverage our proposed method for object detection, demonstrating its high applicability and effectiveness. The codes and datasets are available at https://github.com/azuma164/Defense-Prefix.
翻訳日:2023-09-07 19:18:13 公開日:2023-09-06
# 未知トポロジーネットワークにおける探索学習支援コミュニティ検出のための統一フレームワーク

A Unified Framework for Exploratory Learning-Aided Community Detection in Networks with Unknown Topology ( http://arxiv.org/abs/2304.04497v2 )

ライセンス: Link先を確認
Yu Hou, Cong Tran, Ming Li, Won-Yong Shin(参考訳) ソーシャルネットワークでは,様々なネットワーク分析課題において,コミュニティ構造の発見が根本的な問題として注目されている。 しかし、プライバシの懸念やアクセス制限のため、ネットワーク構造はしばしば不明であり、コストのかかるネットワークトポロジー取得なしに、確立されたコミュニティ検出アプローチは有効ではない。 この課題に対処するために,我々は,ノードメタデータによる探索学習を通じて,未知のトポロジを持つネットワーク内の重複コミュニティを検出する統合フレームワークMETA-CODEを提案する。 具体的には、META-CODEは、初期ネットワーク推論ステップに加えて、3つの反復ステップで構成される。 1)新しい再構成損失を訓練したグラフニューラルネットワーク(gnns)に基づくノードレベルのコミュニティ・アフィリエーション埋め込み 2)コミュニティ対応型ノードクエリによるネットワーク探索 3) エッジ接続型Siameseニューラルネットワークモデルを用いたネットワーク推定を行った。 2つの大規模ネットワークを含む5つの実世界のデータセットに関する広範な実験を通じて、以下のことを実証した。 (a)ベンチマークコミュニティ検出法よりもMETA-CODEの方が優れており、既存の競合相手に比べて最大151.27%向上している。 b) META-CODE における各モジュールの影響 (c)経験的評価と理論的知見に基づくMETA-CODEにおけるノードクエリの有効性 (d)推論されたネットワークの収束、及び (e)メタコードの計算効率。

In social networks, the discovery of community structures has received considerable attention as a fundamental problem in various network analysis tasks. However, due to privacy concerns or access restrictions, the network structure is often unknown, thereby rendering established community detection approaches ineffective without costly network topology acquisition. To tackle this challenge, we present META-CODE, a unified framework for detecting overlapping communities in networks with unknown topology via exploratory learning aided by easy-to-collect node metadata. Specifically, META-CODE consists of three iterative steps in addition to the initial network inference step: 1) node-level community-affiliation embeddings based on graph neural networks (GNNs) trained by our new reconstruction loss, 2) network exploration via community-affiliation-based node queries, and 3) network inference using an edge connectivity-based Siamese neural network model from the explored network. Through extensive experiments on five real-world datasets including two large networks, we demonstrated: (a) the superiority of META-CODE over benchmark community detection methods, achieving remarkable gains up to 151.27% compared to the best existing competitor, (b) the impact of each module in META-CODE, (c) the effectiveness of node queries in META-CODE based on empirical evaluations and theoretical findings, (d) the convergence of the inferred network, and (e) the computational efficiency of META-CODE.
翻訳日:2023-09-07 19:17:53 公開日:2023-09-06
# 模擬パノラマ線写真とニューラルレイトレーシングを用いた3次元歯科組織の推定

Estimating 3D Dental Structures using Simulated Panoramic Radiographs and Neural Ray Tracing ( http://arxiv.org/abs/2304.04027v4 )

ライセンス: Link先を確認
Sihwa Park, Seongjun Kim, Doeyoung Kwon, Yohan Jang, In-Seok Song, Seungjun Baek(参考訳) パノラマX線撮影(パノラマX線、PX)は歯科検査において広く用いられている画像モダリティである。 しかし、PXは平らな2D画像のみを提供し、口腔構造の3Dビューを欠いている。 本稿では,現実世界のPXから3次元口腔構造を推定する枠組みを提案する。 本フレームワークは, パノラマ画像のみに基づく様々な被験者(患者)に対して, 完全な3次元再構築を実現する。 我々は3次元コーンビームCT(CBCT)データから、X線レンダリングのBeer-Lambert法則とPX画像の回転原理に基づいて、シミュレートされたPX(SimPX)と呼ばれる中間表現を生成する。 simpxはpxを真にシミュレートするだけでなく、3dデータへの戻すプロセスを手助けする。 我々は,SimPXを3次元出力に変換するために,グローバルおよびローカルな入力特徴を利用するレイトレーシングに基づく新しいニューラルモデルを提案する。 推測時に、実PX画像を意味正規化を伴うSimPXスタイルの画像に変換し、その変換画像を生成モジュールで処理して高品質な出力を生成する。 実験により,本手法は定量的および定性的に復元作業において,先行技術に勝ることを示した。 従来の方法とは違って,本手法では歯列形状やトレーニング用PX-CBCTデータセットなどの事前情報を必要とせず,臨床実習では入手が困難であった。

Panoramic radiography (Panoramic X-ray, PX) is a widely used imaging modality for dental examination. However, PX only provides a flattened 2D image, lacking in a 3D view of the oral structure. In this paper, we propose a framework to estimate 3D oral structures from real-world PX. Our framework tackles full 3D reconstruction for varying subjects (patients) where each reconstruction is based only on a single panoramic image. We create an intermediate representation called simulated PX (SimPX) from 3D Cone-beam computed tomography (CBCT) data based on the Beer-Lambert law of X-ray rendering and rotational principles of PX imaging. SimPX aims at not only truthfully simulating PX, but also facilitates the reverting process back to 3D data. We propose a novel neural model based on ray tracing which exploits both global and local input features to convert SimPX to 3D output. At inference, a real PX image is translated to a SimPX-style image with semantic regularization, and the translated image is processed by generation module to produce high-quality outputs. Experiments show that our method outperforms prior state-of-the-art in reconstruction tasks both quantitatively and qualitatively. Unlike prior methods, Our method does not require any prior information such as the shape of dental arches, nor the matched PX-CBCT dataset for training, which is difficult to obtain in clinical practice.
翻訳日:2023-09-07 19:17:33 公開日:2023-09-06
# カイラル有効場論演算子を持つ$A = 3$核の磁気モーメント

Magnetic moments of $A = 3$ nuclei with chiral effective field theory operators ( http://arxiv.org/abs/2304.01389v2 )

ライセンス: Link先を確認
Soham Pal (1), Shiplu Sarker (1), Patrick J. Fasano (2), Pieter Maris (1), James P. Vary (1), Mark A. Caprio (2), Robert A. M. Basili (1) ((1) Iowa State University, (2) University of Notre-Dame)(参考訳) カイラル有効場理論(英語版)(\chi$EFT)は、第一原理から体系的に即興的な方法で核間相互作用を得るための枠組みを提供し、一貫した電気弱電流作用素の導出を提供する。 本研究では,TritonとHelium-3の磁気双極子モーメントの計算に一貫した相互作用と電流を適用した。 半局所座標空間(SCS)正則化を用いて得られるLENPIC相互作用に着目した。 LENPIC $\chi$EFTベクトル電流の運動量空間表現から、N2LOを通したSCS正規化磁気双極子作用素を導出する。 次に,n2loにおけるscsレンピック相互作用を$\chi$eftで利用し,トリトンおよびヘリウム3系の非核殻モデル計算を行い,一核子及び二核子電磁電流を用いた磁気双極子モーメントの評価を行った。 以前の$\chi$EFTの電流で予測されたように、N2LOによる電流補正はトリトンとヘリウム3の磁気双極子モーメントの実験と一致している。

Chiral effective field theory ($\chi$EFT) provides a framework for obtaining internucleon interactions in a systematically improvable fashion from first principles, while also providing for the derivation of consistent electroweak current operators. In this work, we apply consistently derived interactions and currents towards calculating the magnetic dipole moments of the $A=3$ systems Triton and Helium-3. We focus here on LENPIC interactions obtained using semilocal coordinate-space (SCS) regularization. Starting from the momentum-space representation of the LENPIC $\chi$EFT vector current, we derive the SCS-regularized magnetic dipole operator up through N2LO. We then carry out no-core shell model calculations for Triton and Helium-3 systems, using the SCS LENPIC interaction at N2LO in $\chi$EFT, and evaluate the magnetic dipole moments obtained using the consistently derived one-nucleon and two-nucleon electromagnetic currents. As anticipated by prior results with $\chi$EFT currents, the current corrections through N2LO provide improved, but not yet complete, agreement with experiment for the Triton and Helium-3 magnetic dipole moments.
翻訳日:2023-09-07 19:16:42 公開日:2023-09-06
# 双極子ボース・アインシュタイン凝縮体の渦

Vortices in dipolar Bose-Einstein condensates ( http://arxiv.org/abs/2303.13263v2 )

ライセンス: Link先を確認
Thomas Bland and Giacomo Lamporesi and Manfred J. Mark and Francesca Ferlaino(参考訳) 量子化された渦は超流動の要点であり、新しい超流動系で観測可能な最初の特徴としてしばしば求められている。 ボース・アインシュタイン凝縮体における渦の最近の実験的観察(第18報, 1453-1458(2022))に続いて, 平均場外効果が安定に不可欠である3次元支配双極系における渦特性を徹底的に研究し, トラップ形状と磁場傾斜角の相互作用について検討した。

Quantized vortices are the hallmark of superfluidity, and are often sought out as the first observable feature in new superfluid systems. Following the recent experimental observation of vortices in Bose-Einstein condensates comprised of atoms with inherent long-range dipole-dipole interactions [Nat. Phys. 18, 1453-1458 (2022)], we thoroughly investigate vortex properties in the three-dimensional dominantly dipolar regime, where beyond-mean-field effects are crucial for stability, and investigate the interplay between trap geometry and magnetic field tilt angle.
翻訳日:2023-09-07 19:16:05 公開日:2023-09-06
# 非定常マルチテキスト合成のための単一ドメイン学習

Learning in a Single Domain for Non-Stationary Multi-Texture Synthesis ( http://arxiv.org/abs/2305.06200v2 )

ライセンス: Link先を確認
Xudong Xie, Zhen Zhu, Zijie Wu, Zhiliang Xu, Yingying Zhu(参考訳) 本稿では,複数の非定常テクスチャを1つのモデルで合成する,非定常多テクスチャ合成という新しい世代課題を提案する。 ほとんどの非定常テクスチャは大規模な分散を持ち、1つのモデルでは合成できない。 そこで本研究では,様々なスケールの構造パターンを捕捉し,少ないコストでテクスチャを効果的に合成するマルチスケール発電機を提案する。 しかし,様々なカテゴリーのテクスチャを異なるテクスチャパターンで扱うことは依然として困難である。 そこで本研究では,特定のドメインのテクスチャパターンを学習することに焦点を当てた,カテゴリ固有のトレーニング戦略を提案する。 興味深いことに、一度訓練されたモデルでは、異なるスタイルのモデルを微調整することなく、動的に変化するマルチパターン世代を生成できる。 さらに、テクスチャ展開の質とグローバル構造整合性を評価するための客観的評価指標を設計する。 私たちの知識では、モデル、トレーニング、評価を含む、この挑戦的なタスクの最初のスキームです。 実験により,提案手法が優れた性能と時間効率を実現することを示す。 コードは公開後利用可能になる。

This paper aims for a new generation task: non-stationary multi-texture synthesis, which unifies synthesizing multiple non-stationary textures in a single model. Most non-stationary textures have large scale variance and can hardly be synthesized through one model. To combat this, we propose a multi-scale generator to capture structural patterns of various scales and effectively synthesize textures with a minor cost. However, it is still hard to handle textures of different categories with different texture patterns. Therefore, we present a category-specific training strategy to focus on learning texture pattern of a specific domain. Interestingly, once trained, our model is able to produce multi-pattern generations with dynamic variations without the need to finetune the model for different styles. Moreover, an objective evaluation metric is designed for evaluating the quality of texture expansion and global structure consistency. To our knowledge, ours is the first scheme for this challenging task, including model, training, and evaluation. Experimental results demonstrate the proposed method achieves superior performance and time efficiency. The code will be available after the publication.
翻訳日:2023-09-07 19:08:46 公開日:2023-09-06
# 因果構造学習におけるオープン問題:英国におけるCOVID-19の事例研究

Open problems in causal structure learning: A case study of COVID-19 in the UK ( http://arxiv.org/abs/2305.03859v2 )

ライセンス: Link先を確認
Anthony Constantinou, Neville K. Kitson, Yang Liu, Kiattikun Chobtham, Arian Hashemzadeh, Praharsh A. Nanavati, Rendani Mbuvha, and Bruno Petrungaro(参考訳) 因果機械学習(ML)アルゴリズムは、原因と効果の関係について何かを教えてくれるグラフィカルな構造を復元する。 これらのアルゴリズムによって実証された因果表現は、重要な現実世界の問題における意思決定に必要な透明性と説明可能性を実現する。 しかし, 因果MLは, 関連MLと比較して, 実践に限られた影響を与えている。 本稿では、COVID-19 UKパンデミックデータに適用した因果MLの課題について検討する。 各種公開情報源からのデータを照合し,これらのデータからどのような構造学習アルゴリズムが学習するかを検討する。 本研究では,学習の異なるクラスにまたがるアルゴリズムに対する異なるデータ形式の影響を調査し,各アルゴリズム,およびアルゴリズム群が生成する結果について,グラフィカル構造,モデル次元,感度解析,変数の結合,予測および介入推論の観点から評価する。 これらの結果を用いて, 因果構造学習におけるオープン問題を強調し, 今後の研究の方向性を示す。 将来の作業を容易にするために、すべてのグラフ、モデル、データセット、ソースコードをオンラインで公開しています。

Causal machine learning (ML) algorithms recover graphical structures that tell us something about cause-and-effect relationships. The causal representation praovided by these algorithms enables transparency and explainability, which is necessary for decision making in critical real-world problems. Yet, causal ML has had limited impact in practice compared to associational ML. This paper investigates the challenges of causal ML with application to COVID-19 UK pandemic data. We collate data from various public sources and investigate what the various structure learning algorithms learn from these data. We explore the impact of different data formats on algorithms spanning different classes of learning, and assess the results produced by each algorithm, and groups of algorithms, in terms of graphical structure, model dimensionality, sensitivity analysis, confounding variables, predictive and interventional inference. We use these results to highlight open problems in causal structure learning and directions for future research. To facilitate future work, we make all graphs, models, data sets, and source code publicly available online.
翻訳日:2023-09-07 19:08:28 公開日:2023-09-06
# 生成性ステガノグラフィ拡散

Generative Steganography Diffusion ( http://arxiv.org/abs/2305.03472v2 )

ライセンス: Link先を確認
Ping Wei, Qing Zhou, Zichi Wang, Zhenxing Qian, Xinpeng Zhang, Sheng Li(参考訳) Generative steganography (GS)はシークレットデータから直接ステゴ画像を生成する新しい技術である。 GANやFlowに基づく様々なGS手法が近年開発されている。 しかし,既存のGANベースのGS手法では,ネットワークの可逆性が欠如しているため,隠れた秘密データを完全に復元することはできず,フローベースの手法では各モジュールの厳密な可逆性制限により画質が低下する。 この問題に対処するため,我々は「StegoDiffusion」という非可逆拡散モデルを開発することにより,GSD(Generative Steganography Diffusion)と呼ばれる新しいGSスキームを提案する。 リアルなステゴ画像を生成するだけでなく、隠れた秘密データの100対%の回復を可能にする。 提案するステゴジフフュージョンモデルは,非マルコフ連鎖を高速サンプリング技術で活用し,効率的なステゴ画像生成を実現する。 ステゴジフフュージョンにおける生成過程の遷移確率に基づく常微分方程式(ode)を構築することにより、ode -- オイラー反復公式の近似解法により秘密データとステゴ画像とを変換でき、可逆だがより表現力に富むネットワーク構造を用いてモデル可逆性を達成することができる。 提案したGSDは可逆性と高い性能の両方の利点があり,既存のGS手法よりも優れた性能を発揮する。

Generative steganography (GS) is an emerging technique that generates stego images directly from secret data. Various GS methods based on GANs or Flow have been developed recently. However, existing GAN-based GS methods cannot completely recover the hidden secret data due to the lack of network invertibility, while Flow-based methods produce poor image quality due to the stringent reversibility restriction in each module. To address this issue, we propose a novel GS scheme called "Generative Steganography Diffusion" (GSD) by devising an invertible diffusion model named "StegoDiffusion". It not only generates realistic stego images but also allows for 100\% recovery of the hidden secret data. The proposed StegoDiffusion model leverages a non-Markov chain with a fast sampling technique to achieve efficient stego image generation. By constructing an ordinary differential equation (ODE) based on the transition probability of the generation process in StegoDiffusion, secret data and stego images can be converted to each other through the approximate solver of ODE -- Euler iteration formula, enabling the use of irreversible but more expressive network structures to achieve model invertibility. Our proposed GSD has the advantages of both reversibility and high performance, significantly outperforming existing GS methods in all metrics.
翻訳日:2023-09-07 19:08:09 公開日:2023-09-06
# 量子有限オートマタの浅実装のためのGAP

GAPs for Shallow Implementation of Quantum Finite Automata ( http://arxiv.org/abs/2304.12868v3 )

ライセンス: Link先を確認
Mansur Ziiatdinov, Aliya Khadieva, Abuzer Yakary{\i}lmaz(参考訳) 量子フィンガープリントは古典的な入力語を量子状態にマッピングする技法である。 得られた量子状態は元の単語よりもはるかに短く、その処理はリソースを少なくし、量子アルゴリズム、通信、暗号において有用である。 量子フィンガープリントの例の一つは mod_p 言語の量子オートマトンアルゴリズムであり、p は素数である。 しかし、このようなオートマトンを現在の量子ハードウェアに実装することは効率的ではない。 量子フィンガープリントは長さNの単語をO(log N)量子ビットの状態にマッピングし、O(N)ユニタリ演算を使用する。 現在の量子コンピュータの利用可能な全ての量子ビットを用いた量子指紋の計算は、多数の量子演算のために不可能である。 量子フィンガープリントを実用的なものにするには、従来の研究とは対照的に、幅ではなく深さの回路を最適化する必要がある。 一般化算術進行法(gaps)などの加法コンビネータのツールに基づく量子フィンガープリントの明示的な手法を提案し,これらの手法が確率的手法に匹敵する回路深さを提供することを示す。 また,提案手法を,明示的な量子フィンガープリンティング手法の先行研究と比較した。

Quantum fingerprinting is a technique that maps classical input word to a quantum state. The obtained quantum state is much shorter than the original word, and its processing uses less resources, making it useful in quantum algorithms, communication, and cryptography. One of the examples of quantum fingerprinting is quantum automata algorithms for MOD_p languages, where p is a prime number. However, implementing such an automaton on the current quantum hardware is not efficient. Quantum fingerprinting maps a word of length N to a state of O(log N) qubits, and uses O(N) unitary operations. Computing quantum fingerprint using all available qubits of the current quantum computers is infeasible due to a large number of quantum operations. To make quantum fingerprinting practical, we should optimize the circuit for depth instead of width in contrast to the previous works. We propose explicit methods of quantum fingerprinting based on tools from additive combinatorics, such as generalized arithmetic progressions (GAPs), and prove that these methods provide circuit depth comparable to a probabilistic method. We also compare our method to prior work on explicit quantum fingerprinting methods.
翻訳日:2023-09-07 19:06:11 公開日:2023-09-06
# MF-NeRF:混合ハッシュテーブルを用いたメモリ効率の良いNeRF

MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table ( http://arxiv.org/abs/2304.12587v4 )

ライセンス: Link先を確認
Yongjae Lee, Li Yang and Deliang Fan(参考訳) ニューラル・ラディアンス・フィールド(NeRF)はフォトリアリスティック・ノベルビューの生成において顕著な性能を示した。 近年のnerf関連研究では,多層パーセプトロン(mlp)ネットワークの複雑性を低減し,機能管理のためのグリッドなどの明示的な構造を活用する手法が極めて高速なトレーニングを実現する。 しかし、高密度グリッドに機能を格納するにはかなりのメモリスペースが必要であり、結果としてコンピュータシステム内で顕著なメモリボトルネックが発生する。 その結果、事前のハイパーパラメータチューニングなしでトレーニング時間が大幅に増加する。 この問題に対処するため,我々はMF-NeRF(Mixed-Featureハッシュテーブルを用いたメモリ効率の高いNeRFフレームワーク)を提案する。 具体的には、まずマルチレベル特徴格子の一部を適応的に混合し、1つのハッシュテーブルにマッピングする混合機能ハッシュ符号化を設計する。 その後、グリッド点の正しいインデックスを得るために、任意のレベルグリッドのインデックスを標準グリッドのインデックスに変換するインデックス変換法をさらに発展させる。 最先端のInstant-NGP、TensoRF、DVGOとベンチマークした大規模な実験は、我々のMF-NeRFが、同じGPUハードウェア上で同じまたはそれ以上の再構築品質のトレーニングタイムを達成できることを示している。

Neural radiance field (NeRF) has shown remarkable performance in generating photo-realistic novel views. Among recent NeRF related research, the approaches that involve the utilization of explicit structures like grids to manage features achieve exceptionally fast training by reducing the complexity of multilayer perceptron (MLP) networks. However, storing features in dense grids demands a substantial amount of memory space, resulting in a notable memory bottleneck within computer system. Consequently, it leads to a significant increase in training times without prior hyper-parameter tuning. To address this issue, in this work, we are the first to propose MF-NeRF, a memory-efficient NeRF framework that employs a Mixed-Feature hash table to improve memory efficiency and reduce training time while maintaining reconstruction quality. Specifically, we first design a mixed-feature hash encoding to adaptively mix part of multi-level feature grids and map it to a single hash table. Following that, in order to obtain the correct index of a grid point, we further develop an index transformation method that transforms indices of an arbitrary level grid to those of a canonical grid. Extensive experiments benchmarking with state-of-the-art Instant-NGP, TensoRF, and DVGO, indicate our MF-NeRF could achieve the fastest training time on the same GPU hardware with similar or even higher reconstruction quality.
翻訳日:2023-09-07 19:05:51 公開日:2023-09-06
# 強固で透明なデータ駆動風力タービンパワーカーブモデルのためのxaiフレームワーク

An XAI framework for robust and transparent data-driven wind turbine power curve models ( http://arxiv.org/abs/2304.09835v2 )

ライセンス: Link先を確認
Simon Letzgus and Klaus-Robert M\"uller(参考訳) 風力タービン動力曲線モデルは周囲の条件をタービン出力に変換する。 これらはエネルギー収量予測とタービン性能監視に不可欠である。 近年、複雑化する機械学習手法がこのタスクの最先端となっている。 しかし、透明性の欠如が原因でしばしば批判を受け、風力タービンなどの非定常環境における性能に対する懸念が高まった。 そこで我々は,運用風力タービンデータから得られたデータ駆動パワーカーブモデルから得られた戦略を検証し,検証するための,説明可能な人工知能(XAI)フレームワークを導入する。 シンプルな物理インフォームドベースラインモデルによって、標準的なエラーメトリクスを超えた機械学習モデルの自動評価が可能になる。 このツールとともに、より情報に富んだモデル選択の有効性を示す。 例えば、学習戦略はモデルの一般化能力にとって有意義な指標であり、特にわずかなデータしか利用できない場合、テストセットエラーのほかに有意義な指標であることを示している。 さらにこのアプローチは、データ選択や前処理、トレーニングパラメータといった、マシンラーニングパイプラインに沿った決定が学習戦略にどのように影響するかの理解を容易にする。 実例では、より物理的に有意義なモデルを得るためのフレームワークの利用を実証する。 後者は風力タービン性能モニタリングの文脈における実演である。 本稿では,提案フレームワークのPython実装を公開し,より透明で堅牢なデータ駆動型風力タービンパワーカーブモデルを選択し,活用することで,研究者や実践者たちをトレーニングへと導くことを期待する。

Wind turbine power curve models translate ambient conditions into turbine power output. They are essential for energy yield prediction and turbine performance monitoring. In recent years, increasingly complex machine learning methods have become state-of-the-art for this task. Nevertheless, they frequently encounter criticism due to their apparent lack of transparency, which raises concerns regarding their performance in non-stationary environments, such as those faced by wind turbines. We, therefore, introduce an explainable artificial intelligence (XAI) framework to investigate and validate strategies learned by data-driven power curve models from operational wind turbine data. With the help of simple, physics-informed baseline models it enables an automated evaluation of machine learning models beyond standard error metrics. Alongside this novel tool, we present its efficacy for a more informed model selection. We show, for instance, that learned strategies can be meaningful indicators for a model's generalization ability in addition to test set errors, especially when only little data is available. Moreover, the approach facilitates an understanding of how decisions along the machine learning pipeline, such as data selection, pre-processing, or training parameters, affect learned strategies. In a practical example, we demonstrate the framework's utilisation to obtain more physically meaningful models, a prerequisite not only for robustness but also for insights into turbine operation by domain experts. The latter, we demonstrate in the context of wind turbine performance monitoring. Alongside this paper, we publish a Python implementation of the presented framework and hope this can guide researchers and practitioners alike toward training, selecting and utilizing more transparent and robust data-driven wind turbine power curve models.
翻訳日:2023-09-07 19:05:26 公開日:2023-09-06
# 高次元および置換不変異常検出

High-dimensional and Permutation Invariant Anomaly Detection ( http://arxiv.org/abs/2306.03933v3 )

ライセンス: Link先を確認
Vinicius Mikuni, Benjamin Nachman(参考訳) 新しい物理過程の異常検出法は、高次元確率密度の学習が困難であるため、しばしば低次元空間に限られる。 特に構成レベルでは,一般密度推定法では置換不変性や可変長入力などの望ましい特性を組み込むことが困難となる。 本研究では, 分散モデルに基づく粒子物理学データに対して, 可変長入力を扱うために特別に設計された置換不変密度推定器を提案する。 本手法の有効性は,学習密度を置換不変な異常検出スコアとして利用し,背景のみの仮説の下でジェットを効果的に同定することによって実証する。 密度推定法を検証するため, 教師付き分類アルゴリズムにより得られた密度の比について検討し, 比較を行った。

Methods for anomaly detection of new physics processes are often limited to low-dimensional spaces due to the difficulty of learning high-dimensional probability densities. Particularly at the constituent level, incorporating desirable properties such as permutation invariance and variable-length inputs becomes difficult within popular density estimation methods. In this work, we introduce a permutation-invariant density estimator for particle physics data based on diffusion models, specifically designed to handle variable-length inputs. We demonstrate the efficacy of our methodology by utilizing the learned density as a permutation-invariant anomaly detection score, effectively identifying jets with low likelihood under the background-only hypothesis. To validate our density estimation method, we investigate the ratio of learned densities and compare to those obtained by a supervised classification algorithm.
翻訳日:2023-09-07 18:59:36 公開日:2023-09-06
# GCD-DDPM:差分誘導DDPMに基づく生成的変化検出モデル

GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM ( http://arxiv.org/abs/2306.03424v3 )

ライセンス: Link先を確認
Yihan Wen, Xianping Ma, Xiaokang Zhang, Man-On Pun(参考訳) 近年,Deep Learning(DL)に基づく手法は,バイテンポラルチェンジ検出(CD)において大きな可能性を秘めている。 しかし、既存のほとんどの手法は、長距離依存を同時にキャプチャし、局所的な空間情報を利用するのに効果がなく、結果としてエッジを識別する不正確なCDマップが得られる。 これらの障害を克服するために,GCD-DDPMと呼ばれる新規な拡散確率モデル(DDPM)に基づく生成CD手法を提案する。 より具体的には、GCD-DDPMは変分推論を利用してCDマップを直接生成するように設計されており、GCD-DDPMは微妙で不規則な建物や自然の風景を背景から正確に区別することができる。 また,マルチレベル特徴間の差異をサンプリングし,cdマップを強化するために,gcd-ddpmの適応キャリブレーション条件付き差分符号化法を提案する。 最後に, ノイズ抑圧型セマンティックエンハンサー(NSSE)を考案し, 現行のステップから得られた先行知識を活かして, CDマップに発生する高周波ノイズに対処する。 CDD、WHU、Levier、GVLMの4つのCDデータセットに対する大規模な実験により、提案したGCD-DDPMの優れた性能が確認された。

Deep learning (DL)-based methods have recently shown great promise in bitemporal change detection (CD). However, most existing methods are ineffective in simultaneously capturing long-range dependencies and exploiting local spatial information, resulting in inaccurate CD maps with discerning edges. To overcome these obstacles, a novel Denoising Diffusion Probabilistic Model (DDPM)-based generative CD approach called GCD-DDPM is proposed for remote sensing data. More specifically, GCD-DDPM is designed to directly generate CD maps by leveraging variational inference, which enables GCD-DDPM to accurately distinguish subtle and irregular buildings or natural scenes from the background. Furthermore, an adaptive calibration conditional difference encoding technique is proposed for GCD-DDPM to enhance the CD map through guided sampling of the differences among multi-level features. Finally, a noise suppression-based semantic enhancer (NSSE) is devised to cope with the high-frequency noise incurred in the CD map by capitalizing on the prior knowledge derived from the current step. Extensive experiments on four CD datasets, namely CDD, WHU, Levier and GVLM, confirm the good performance of the proposed GCD-DDPM.
翻訳日:2023-09-07 18:59:24 公開日:2023-09-06
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する

SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v2 )

ライセンス: Link先を確認
Pengcheng Lu, Liang Cai, and Keting Yin(参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。 スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。 ethereum上でスマートポンジスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、スキーム識別のパフォーマンスは不十分である。 本稿では、前訓練されたモデルとデータフローを使用してethereumプラットフォーム上でスマートポンジスキームを検出する方法であるsourcepを提案し、smart contractsのソースコードを機能として使用することで、別の方向からスマートポンジスキームを検出する可能性を検討する。 sourcepは、モデルの解釈性を高めながら、データ取得の難しさと既存の検出方法の特徴抽出を削減します。 具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。 実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。 我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。

As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, and the performance of identifying schemes is insufficient. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features to explore the possibility of detecting smart Ponzi schemes from another direction. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods while increasing the interpretability of the model. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.
翻訳日:2023-09-07 18:59:00 公開日:2023-09-06
# ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering ( http://arxiv.org/abs/2306.00526v3 )

ライセンス: Link先を確認
Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang(参考訳) レイアウト対応マルチモーダル事前学習モデルに基づく事前学習・微調整パラダイムは,文書画像質問応答において大きな進歩を遂げた。 しかし、追加のビジュアル、レイアウト、タスクモジュールのためのドメイン事前トレーニングとタスクの微調整は、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接活用することを妨げる。 文書画像質問応答の領域に言語モデルを整合させるのとは対照的に,ゼロショット機能を利用するために,シェルから外れた命令チューニング言語基礎モデルに文書画像質問応答を整合させる。 具体的には、レイアウト対応文書の内容とタスク対応記述からなるLATIN-Promptと呼ばれるレイアウトおよびタスク対応命令プロンプトを提案する。 前者は、OCRツールからテキストセグメント間のレイアウト情報を適切なスペースと線分で復元する。 後者は、タスクの詳細な記述を通じて、モデルが要求、特にフォーマット要求を満たす回答を生成することを保証します。 3つのベンチマークによる実験結果から,LATIN-Promptは文書画像質問応答に基づく命令調整言語基礎モデルのゼロショット性能を改善し,事前学習学習パラダイムに基づくSOTAに匹敵するレベルを達成できることが示されている。 定量的解析と質的分析により,ラテン・プロンプトの有効性が示された。 補助的なコードを提供し、将来の研究を促進するためのコードをリリースします。

The pre-training-fine-tuning paradigm based on layout-aware multimodal pre-trained models has achieved significant progress on document image question answering. However, domain pre-training and task fine-tuning for additional visual, layout, and task modules prevent them from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Contrary to aligning language models to the domain of document image question answering, we align document image question answering to off-the-shell instruction-tuning language foundation models to utilize their zero-shot capability. Specifically, we propose layout and task aware instruction prompt called LATIN-Prompt, which consists of layout-aware document content and task-aware descriptions. The former recovers the layout information among text segments from OCR tools by appropriate spaces and line breaks. The latter ensures that the model generates answers that meet the requirements, especially format requirements, through a detailed description of task. Experimental results on three benchmarks show that LATIN-Prompt can improve the zero-shot performance of instruction-tuning language foundation models on document image question answering and help them achieve comparable levels to SOTAs based on the pre-training-fine-tuning paradigm. Quantitative analysis and qualitative analysis demonstrate the effectiveness of LATIN-Prompt. We provide the code in supplementary and will release the code to facilitate future research.
翻訳日:2023-09-07 18:57:52 公開日:2023-09-06
# 熱平衡外におけるグラフェン系構造間のカシミール・リフシッツ力

Casimir-Lifshitz force between graphene-based structures out of thermal equilibrium ( http://arxiv.org/abs/2305.18946v2 )

ライセンス: Link先を確認
Youssef Jeyar, Kevin Austry, Minggang Luo, Brahim Guizal, H. B. Chan, Mauro Antezza(参考訳) グラフェン系並列構造間の非平衡カシミール・リフシッツ力について, 温度差および第3温度の外部熱浴の存在下で検討した。 グラフェンの伝導度は温度と化学的ポテンシャルの関数であり、カシミール・リフシッツ力のその場で調整することができる。 グラフェン化学ポテンシャルの異なる値を考慮して, 異なる非平衡配置を探索する。 特に興味深い事例として、熱平衡下での挙動とは対照的に、力は魅力的な状態から反発的な状態に変化するか、あるいは化学ポテンシャルの変化に対して非単調な状態になる可能性がある。

We study the non equilibrium Casimir-Lifshitz force between graphene-based parallel structures held at different temperatures and in presence of an external thermal bath at a third temperature. The graphene conductivity, which is itself a function of temperature, as well as of chemical potential, allows us to tune in situ the Casimir-Lifshitz force. We explore different non equilibrium configurations while considering different values of the graphene chemical potential. Particularly interesting cases are investigated, where the force can change sign going from attractive to repulsive or where the force becomes non monotonic with respect to chemical potential variations, contrary to the behaviour under thermal equilibrium.
翻訳日:2023-09-07 18:57:11 公開日:2023-09-06
# バイレベル学習による最適正規化パラメータについて

On Optimal Regularization Parameters via Bilevel Learning ( http://arxiv.org/abs/2305.18394v4 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Silvia Gazzola and Sebastian J. Scott (Department of Mathematical Sciences, University of Bath, Bath, UK)(参考訳) 変分正規化は線形逆問題を解くためによく使われ、正規化子によるデータの忠実度を増強する。 正規化器は事前情報を促進するために使用され、正規化パラメータによって重み付けされる。 適切な正規化パラメータの選択は重要であり、様々な選択が全く異なる再構成につながる。 パラメータ値を決定するために使用される古典的戦略には、離散性原理とL曲線基準があり、近年はバイレベル学習と呼ばれる教師付き機械学習アプローチが採用されている。 バイレベル学習は最適なパラメータを決定する強力なフレームワークであり、ネストした最適化問題を解決する。 従来の戦略は様々な理論的な結果を享受するが、この設定における二段階学習の適切さはまだ未解決の問題である。 特に、必要な性質は決定された正規化パラメータの正則性である。 本研究では,既存の理論よりも最適正則化パラメータの正値性をよりよく特徴付ける新しい条件を提案する。 数値的な結果は、この新条件を、小・高次元ともに検証し、探求する。

Variational regularization is commonly used to solve linear inverse problems, and involves augmenting a data fidelity by a regularizer. The regularizer is used to promote a priori information and is weighted by a regularization parameter. Selection of an appropriate regularization parameter is critical, with various choices leading to very different reconstructions. Classical strategies used to determine a suitable parameter value include the discrepancy principle and the L-curve criterion, and in recent years a supervised machine learning approach called bilevel learning has been employed. Bilevel learning is a powerful framework to determine optimal parameters and involves solving a nested optimization problem. While previous strategies enjoy various theoretical results, the well-posedness of bilevel learning in this setting is still an open question. In particular, a necessary property is positivity of the determined regularization parameter. In this work, we provide a new condition that better characterizes positivity of optimal regularization parameters than the existing theory. Numerical results verify and explore this new condition for both small and high-dimensional problems.
翻訳日:2023-09-07 18:56:58 公開日:2023-09-06
# イソバリック-等温流によるギブス自由エネルギーの推定

Estimating Gibbs free energies via isobaric-isothermal flows ( http://arxiv.org/abs/2305.13233v3 )

ライセンス: Link先を確認
Peter Wirnsberger, Borja Ibarz, George Papamakarios(参考訳) イソバリック-等温アンサンブルからサンプルを採取するよう訓練された正規化フローに基づく機械学習モデルを提案する。 そこで本研究では,完全フレキシブル・トリクリニック・シミュレーションボックスと粒子座標の接合分布を近似し,所望の内部圧力を実現する。 この新しいフローベースサンプリングのイソバリック-等温アンサンブルへの拡張はギブス自由エネルギーを直接推定する。 我々は, 立方晶および六角形氷相の単原子水上で NPT-flow を試験し, 既設ベースラインと比較してギブス自由エネルギーなどの観測可能エネルギーとの良好な一致を見出した。

We present a machine-learning model based on normalizing flows that is trained to sample from the isobaric-isothermal ensemble. In our approach, we approximate the joint distribution of a fully-flexible triclinic simulation box and particle coordinates to achieve a desired internal pressure. This novel extension of flow-based sampling to the isobaric-isothermal ensemble yields direct estimates of Gibbs free energies. We test our NPT-flow on monatomic water in the cubic and hexagonal ice phases and find excellent agreement of Gibbs free energies and other observables compared with established baselines.
翻訳日:2023-09-07 18:56:45 公開日:2023-09-06
# 無限クラスミックスアップ

Infinite Class Mixup ( http://arxiv.org/abs/2305.10293v2 )

ライセンス: Link先を確認
Thomas Mensink, Pascal Mettes(参考訳) mixupはディープネットワークのトレーニングに広く採用されている戦略であり、入力とトレーニングペアのラベルを補間することで追加のサンプルを追加する。 mixupは分類性能、ネットワークキャリブレーション、分散一般化を改善している。 効果的ではあるが、ネットワークがクラス間の線形動作パターンを学習するミックスアップの基盤は、出力補間が確率レベルで行われるため、間接的にのみ強制される。 本稿では,各混合ペアのラベルを混合するのではなく,分類器を直接混合することで,この制限に対処する。 本稿では,各拡張サンプルのターゲットを,入力ペアの分類器ベクトルの線形補間をパラメータとする,一意に新しい分類器として定義する。 すべての可能な分類器の空間は連続であり、分類器対の間のすべての補間にまたがる。 そこで我々は、混合対の分類器と、他の混合対の予測出力の両方をバッチで比較する、二重競合無限クラス混合損失を提案する。 Infinite Class Mixupは本質的に汎用的で、Mixupの多くの変種に適用できる。 実験的な結果から,RegMixupやRemixなどの標準ミックスアップや,バランスの取れた,長い尾の長い,データ制約のあるベンチマークにおいて,その適用性を強調した。

Mixup is a widely adopted strategy for training deep networks, where additional samples are augmented by interpolating inputs and labels of training pairs. Mixup has shown to improve classification performance, network calibration, and out-of-distribution generalisation. While effective, a cornerstone of Mixup, namely that networks learn linear behaviour patterns between classes, is only indirectly enforced since the output interpolation is performed at the probability level. This paper seeks to address this limitation by mixing the classifiers directly instead of mixing the labels for each mixed pair. We propose to define the target of each augmented sample as a uniquely new classifier, whose parameters are a linear interpolation of the classifier vectors of the input pair. The space of all possible classifiers is continuous and spans all interpolations between classifier pairs. To make optimisation tractable, we propose a dual-contrastive Infinite Class Mixup loss, where we contrast the classifier of a mixed pair to both the classifiers and the predicted outputs of other mixed pairs in a batch. Infinite Class Mixup is generic in nature and applies to many variants of Mixup. Empirically, we show that it outperforms standard Mixup and variants such as RegMixup and Remix on balanced, long-tailed, and data-constrained benchmarks, highlighting its broad applicability.
翻訳日:2023-09-07 18:56:32 公開日:2023-09-06
# ディープラーニングにおける損失関数とメトリクス

Loss Functions and Metrics in Deep Learning ( http://arxiv.org/abs/2307.02694v2 )

ライセンス: Link先を確認
Juan Terven, Diana M. Cordova-Esparza, Alfonso Ramirez-Pedraza, Edgar A. Chavez-Urbiola(参考訳) ディープラーニングの重要なコンポーネントの1つは、モデルのトレーニングと評価に使用される損失関数とパフォーマンスメトリクスの選択である。 本稿では,ディープラーニングにおける損失関数と性能測定について概説する。 それぞれの手法の利点と限界について検討し,様々なディープラーニング問題への応用について解説する。 本レビューは,最も一般的なディープラーニングタスクで使用される損失関数とパフォーマンス指標の包括的図を示し,実践者が特定のタスクに最適な方法を選択するのを助けることを目的とする。

One of the essential components of deep learning is the choice of the loss function and performance metrics used to train and evaluate models. This paper reviews the most prevalent loss functions and performance measurements in deep learning. We examine the benefits and limits of each technique and illustrate their application to various deep-learning problems. Our review aims to give a comprehensive picture of the different loss functions and performance indicators used in the most common deep learning tasks and help practitioners choose the best method for their specific task.
翻訳日:2023-09-07 18:48:15 公開日:2023-09-06
# 物理的不可逆過程における「消去」のエントロピーコスト

Entropy Cost of "Erasure" in Physically Irreversible Processes ( http://arxiv.org/abs/2307.02643v2 )

ライセンス: Link先を確認
R. E. Kastner, Andreas Schlatter(参考訳) ランダウアーの原理の制限形式は、計算的な考察とは無関係に、共役可観測物に関連した合同エントロピーを参照して、熱システムに対して成り立つ。 非可逆的物理的過程に対する補償エントロピーの源は、情報理論的なアプローチで伝統的に想定された認識的不確実性ではなく、相互に相容れない可観測性の値に付随する存在論的不確実性にあることが示されている。 特に、リセット操作による論理的(直観的)情報の消去は熱力学的エントロピーの消去と等価ではないことが明確に示され、従来のランダウアーの原理の情報理論形式は物理学では支持されない。 分析のさらなる意味は、現実世界にマクスウェルの悪魔はいないということである。

A restricted form of Landauer's Principle, independent of computational considerations, is shown to hold for thermal systems by reference to the joint entropy associated with conjugate observables. It is shown that the source of the compensating entropy for irreversible physical processes is due to the ontological uncertainty attending values of such mutually incompatible observables, rather than due to epistemic uncertainty as traditionally assumed in the information-theoretic approach. In particular, it is explicitly shown that erasure of logical (epistemic) information via reset operations is not equivalent to erasure of thermodynamic entropy, so that the traditional, information-theoretic form of Landauer's Principle is not supported by the physics. A further implication of the analysis is that there is no Maxwell's Demon in the real world.
翻訳日:2023-09-07 18:48:08 公開日:2023-09-06
# 医療研究における反現実的説明の爆発的展開

Beyond Known Reality: Exploiting Counterfactual Explanations for Medical Research ( http://arxiv.org/abs/2307.02131v3 )

ライセンス: Link先を確認
Toygar Tanyel, Serkan Ayvaz and Bilgin Keserci(参考訳) 人工知能における説明可能性の分野は、多くの研究と学術的関心の高まりを目の当たりにしている。 しかし、機械学習アルゴリズムの結果を説明する上での人間にやさしい個人的解釈の欠如は、臨床医による研究や臨床実践におけるこれらの方法の受容を著しく妨げている。 そこで本研究では, 医学研究における「もし」のシナリオを考察し, 小児後頭葉腫瘍の診断におけるMRI(MRI)の既存の領域を超えて, 理解を深めることを目的としている。 本ケーススタディにおいて,提案手法は,多様な状況下での予測の検証と変動の明確化を可能にする,パーソナライズ・コンテキスト固有の洞察を提供する代替意思決定シナリオを検討する新しい方法を提供する。 さらに,データ拡張のための偽物の利用の可能性について検討し,医療研究における代替的アプローチとしてその実現可能性を評価する。 その結果, 臨床研究におけるAI駆動手法の信頼と受容を高めるために, 反事実的説明を用いることが期待できる可能性が示された。

The field of explainability in artificial intelligence has witnessed a growing number of studies and increasing scholarly interest. However, the lack of human-friendly and individual interpretations in explaining the outcomes of machine learning algorithms has significantly hindered the acceptance of these methods by clinicians in their research and clinical practice. To address this, our study employs counterfactual explanations to explore "what if?" scenarios in medical research, aiming to expand our understanding beyond existing boundaries on magnetic resonance imaging (MRI) features for diagnosing pediatric posterior fossa brain tumors. In our case study, the proposed concept provides a novel way to examine alternative decision-making scenarios that offer personalized and context-specific insights, enabling the validation of predictions and clarification of variations under diverse circumstances. Additionally, we explore the potential use of counterfactuals for data augmentation and evaluate their feasibility as an alternative approach in our medical research case. The results demonstrate the promising potential of using counterfactual explanations to enhance trust and acceptance of AI-driven methods in clinical research.
翻訳日:2023-09-07 18:47:52 公開日:2023-09-06
# 時間依存プロジェクタと開量子系への熱力学的アプローチの一般化について

On time-dependent projectors and on generalization of thermodynamical approach to open quantum systems ( http://arxiv.org/abs/2307.00607v2 )

ライセンス: Link先を確認
K. Sh. Meretukov, A. E. Teretenkov(参考訳) 本稿では,プロジェクタが時間に依存する場合の投影法に基づく時間局所マスター方程式を得るための一貫した摂動手法を開発する。 次に、川崎ガントンプロジェクターの一般化を導入し、この手法を用いて、ある観測可能な集合と整合な任意のアンサーゼの場合、一般に非線形マスター方程式を導出することができる。 結果のほとんどは非常に一般的なものですが、議論ではこれらの結果のオープン量子システム理論への応用に重点を置いています。

In this paper, we develop a consistent perturbative technique for obtaining a time-local master equation based on projective methods in the case where the projector depends on time. We then introduce a generalization of the Kawasaki--Gunton projector, which allows us to use this technique to derive, generally speaking, nonlinear master equations in the case of arbitrary ansatzes consistent with some set of observables. Most of our results are very general, but in our discussion we focus on the application of these results to the theory of open quantum systems.
翻訳日:2023-09-07 18:47:31 公開日:2023-09-06
# UncLe-SLAM:Dense Neural SLAMのための不確実性学習

UncLe-SLAM: Uncertainty Learning for Dense Neural SLAM ( http://arxiv.org/abs/2306.11048v2 )

ライセンス: Link先を確認
Erik Sandstr\"om, Kevin Ta, Luc Van Gool, Martin R. Oswald(参考訳) 本稿では,slam(deep neural concurrent localization and mapping)のための不確実性学習フレームワークを提案する。 高密度SLAM法の深度入力に対する画素ワイズ不確実性を推定することにより、SLAMに信頼性の高いより適切な情報を含む画像領域に対する追跡とマッピング損失を再検討することができる。 そこで本研究では,2次元入力データのみから自己教師ありで学習可能なセンサ不確かさ推定のためのオンラインフレームワークを提案する。 さらに,マルチセンサ入力における不確実性学習の利点についても論じる。 大規模な解析,実験,改善により,提案手法はマッピングと追跡の精度を向上し,地上の真理深度や3Dを必要とする代替手段よりも優れた性能を示すことが示されている。 実験の結果,7シーンとTUM-RGBDデータセットの絶対軌道追跡誤差(ATE)は,それぞれ38 %,27 %であった。 2種類の深度センサを用いた一般的なレプリカデータセットについて,最新のニューラルネットワークの暗黙的アプローチと比較して,rgbd slamのf1-scoreが11\%向上したことを報告する。 ソースコード:https://github.com/kev-in-ta/UncLe-SLAM。

We present an uncertainty learning framework for dense neural simultaneous localization and mapping (SLAM). Estimating pixel-wise uncertainties for the depth input of dense SLAM methods allows re-weighing the tracking and mapping losses towards image regions that contain more suitable information that is more reliable for SLAM. To this end, we propose an online framework for sensor uncertainty estimation that can be trained in a self-supervised manner from only 2D input data. We further discuss the advantages of the uncertainty learning for the case of multi-sensor input. Extensive analysis, experimentation, and ablations show that our proposed modeling paradigm improves both mapping and tracking accuracy and often performs better than alternatives that require ground truth depth or 3D. Our experiments show that we achieve a 38\% and 27\% lower absolute trajectory tracking error (ATE) on the 7-Scenes and TUM-RGBD datasets respectively. On the popular Replica dataset using two types of depth sensors, we report an 11\% F1-score improvement on RGBD SLAM compared to the recent state-of-the-art neural implicit approaches. Source code: https://github.com/kev-in-ta/UncLe-SLAM.
翻訳日:2023-09-07 18:46:56 公開日:2023-09-06
# OCTScenes: オブジェクト中心学習のためのテーブルトップシーンのマルチワールドデータセット

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning ( http://arxiv.org/abs/2306.09682v3 )

ライセンス: Link先を確認
Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue(参考訳) 人間は構成的にシーンを理解する認知能力を持っている。 オブジェクト中心学習は、同様の能力を持つAIシステムを強化するために、視覚的なシーンから個々のオブジェクトの表現を取得することを目的としている。 オブジェクト中心学習の最近の進歩は複雑な合成データセットに顕著な進歩をもたらしたが、複雑な現実世界のシーンに適用するには大きな課題がある。 重要な理由の1つは、オブジェクト中心の学習に特化された現実世界のデータセットの不足である。 この問題に対処するために,オブジェクト指向学習手法の比較,評価,分析を行うベンチマークとして,OCTScenesという,オブジェクト指向学習のためのテーブルトップシーンの多種多様な実世界のデータセットを提案する。 OCTScenesには5000のテーブルトップシーンがあり、合計で15のオブジェクトがある。 各シーンは360度視界をカバーする60フレームで撮影される。 その結果、OCTScenesは、単一画像、ビデオ、マルチビューに基づくオブジェクト指向学習手法の評価を同時に満足できる汎用ベンチマークデータセットである。 OCTScenes を用いた対象中心学習手法の大規模実験を行った。 その結果,複雑な合成データセットの性能に優れるにもかかわらず,実世界のデータから意味のある表現を学習するための最先端手法の欠点が示された。 さらに、OCTScenesは既存の手法の発展の触媒として機能し、現実世界のシーンに適応するように促すことができる。 データセットとコードはhttps://huggingface.co/datasets/Yinxuan/OCTScenesで入手できる。

Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar capabilities, object-centric learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advances in object-centric learning have made remarkable progress on complex synthesis datasets, there is a huge challenge for application to complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric learning. To address this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating, and analyzing object-centric learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric learning methods based on single-image, video, and multi-view. Extensive experiments of representative object-centric learning methods are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serve as a catalyst for the advancement of existing methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.
翻訳日:2023-09-07 18:46:17 公開日:2023-09-06
# 電子健康記録における意思決定のための因果思考--理由と方法

Causal thinking for decision making on Electronic Health Records: why and how ( http://arxiv.org/abs/2308.01605v2 )

ライセンス: Link先を確認
Matthieu Doutreligne (SODA), Tristan Struja (MIT, USZ), Judith Abecassis (SODA), Claire Morgand (ARS IDF), Leo Anthony Celi (MIT), Ga\"el Varoquaux (SODA)(参考訳) 正確な予測は、機械学習と同様に、すべての患者に最適な医療を提供するのに十分ではないかもしれない。 実際、予測はデータのショートカット(例えば人種バイアス)によって駆動される。 データ駆動決定には因果思考が必要である。 ここでは、日常的に収集されるデータ、電子健康記録(ehrs)、クレームデータを中心に、重要な要素について紹介する。 このようなデータを使用して介入の価値を評価するには、注意が必要です。 ランダム化試行をエミュレートして実生活の患者記録から有効な意思決定を行うためのステップ・バイ・ステップのフレームワークを提案する。 我々のフレームワークは、因果的な結論を引き出すために、EHRやクレームデータを分析する上で最も重要な落とし穴と考察を強調します。 集中治療データベース(MIMIC-IV)において,アルブミンが敗血症死亡率に及ぼす影響について検討した。 特徴抽出から因果推定選択まで,各ステップにおける多様な選択の影響について検討した。 チュートリアルの精神では、コードとデータは公開されています。

Accurate predictions, as with machine learning, may not suffice to provide optimal healthcare for every patient. Indeed, prediction can be driven by shortcuts in the data, such as racial biases. Causal thinking is needed for data-driven decisions. Here, we give an introduction to the key elements, focusing on routinely-collected data, electronic health records (EHRs) and claims data. Using such data to assess the value of an intervention requires care: temporal dependencies and existing practices easily confound the causal effect. We present a step-by-step framework to help build valid decision making from real-life patient records by emulating a randomized trial before individualizing decisions, eg with machine learning. Our framework highlights the most important pitfalls and considerations in analysing EHRs or claims data to draw causal conclusions. We illustrate the various choices in studying the effect of albumin on sepsis mortality in the Medical Information Mart for Intensive Care database (MIMIC-IV). We study the impact of various choices at every step, from feature extraction to causal-estimator selection. In a tutorial spirit, the code and the data are openly available.
翻訳日:2023-09-07 18:39:38 公開日:2023-09-06
# ベルの不等式における量子重力の影

The shadows of quantum gravity on Bell's inequality ( http://arxiv.org/abs/2307.13006v2 )

ライセンス: Link先を確認
Hooman Moradpour, Shahram Jalalzadeh, Hamid Tebyanian(参考訳) 本研究は、量子重力の文脈における量子力学演算子の妥当性を考察し、それらの一般化の必要性を認識した。 第一の目的は、ベルの不等式で示されるように、量子力学における固有の非局所性に対するこれらの一般化の反響を調査することである。 さらに、この研究はベルの不平等の確立された枠組みにゼロでない最小長を導入する結果について精査している。 この結果は、量子力学と重力の間の複雑な相互作用の理論的理解に大きく貢献する。 さらに、この研究はベルの不等式とその量子技術における実用的な応用、特にデバイスに依存しないプロトコル、量子鍵分布、量子ランダムネス生成における量子重力の影響を探求する。

This study delves into the validity of quantum mechanical operators in the context of quantum gravity, recognizing the potential need for their generalization. A primary objective is to investigate the repercussions of these generalizations on the inherent non-locality within quantum mechanics, as exemplified by Bell's inequality. Additionally, the study scrutinizes the consequences of introducing a non-zero minimal length into the established framework of Bell's inequality. The findings contribute significantly to our theoretical comprehension of the intricate interplay between quantum mechanics and gravity. Moreover, this research explores the impact of quantum gravity on Bell's inequality and its practical applications within quantum technologies, notably in the realms of device-independent protocols, quantum key distribution, and quantum randomness generation.
翻訳日:2023-09-07 18:38:40 公開日:2023-09-06
# スターネットワーク非局所相関は整合性雑音に抵抗する

Star network non-n-local correlations can resist consistency noises better ( http://arxiv.org/abs/2307.09293v2 )

ライセンス: Link先を確認
Kan He and Yueran Han(参考訳) デバイスからの不完全性は、多角形および線形量子ネットワークにおいて n のパーティ数が増加するにつれて、非n-局所相関の崩壊または消失をもたらす([phys. rev. a 106, 042206 (2022)] and [phys. rev. a 107, 032404 (2023)])。 それでもこの現象は、デバイスシーケンスの整合性ノイズを含む特別な種類のノイズに対するものであり、デバイスシーケンスが同じ確率で検出できないことを意味する。 しかし,本論文では,星ネットワークの量子非局所相関が,ポリゴンネットワークや線形ネットワークよりも優れた整合性雑音に抵抗できることが判明した。 まず、雑音予測値 o f star ネットワークの非局所性を計算し、理論的に定常条件を解析する。 コンジェネレータデバイスが整合性ノイズを持つと仮定すると、ソースnの持続性数はそのようなノイズを除去し、無限大に近似する。 ポリゴンおよび線形ネットワーク非局所相関は要求を満たすことができない。 さらに、非nmax-局所相関を恒星ネットワークにおいて、一貫性のあるノイズよりも一般的な部分整合雑音の影響下で実演できるように、ソースnmaxの最大数の変化パターンを考察する。

Imperfections from devices can result in the decay or even vanish of non-n-local correlations as the number of parties n increases in the polygon and linear quantum networks ([Phys. Rev. A 106, 042206 (2022)] and [Phys. Rev. A 107, 032404 (2023)]). Even so this phenomenon is also for the special kind of noises, including consistency noises of a sequence of devices, which means the sequence of devices have the same probability fails to detect. However, in the paper, we discover that star network quantum non-n-local correlations can resist better consistency noises than these in polygon and linear networks. We first calculate the noisy expected value o f star network non-n-locality and analyze the persistency conditions theoretically. When assume that congener devices have the consistency noise, the persistency number of sources n has been rid of such noises, and approximates to the infinity. Polygon and linear network non-n-local correlations can not meet the requirements. Furthermore, we explore the change pattern of the maximal number of sources nmax such that non-nmax-local correlation can be demonstrated in the star network under the influence of partially consistent noises, which is more general than consistent ones.
翻訳日:2023-09-07 18:38:26 公開日:2023-09-06
# モビリティデータサイエンスのためのeXplainable AIを目指して

Towards eXplainable AI for Mobility Data Science ( http://arxiv.org/abs/2307.08461v2 )

ライセンス: Link先を確認
Anahid Jalali, Anita Graser, Clemens Heistracher(参考訳) 本稿では,xai for mobility data science 応用に向けて,時間グラフニューラルネットワーク (gnns) と偽物を用いた車両や船舶のgps 追跡などの高密度軌道データから学習可能な説明可能なモデルに着目した,現在進行中の研究について述べる。 我々は既存のGeoXAI研究をレビューし、人間中心のアプローチによる理解可能な説明の必要性を論じ、モビリティデータサイエンスのためのXAI研究の道筋を概説する。

This paper presents our ongoing work towards XAI for Mobility Data Science applications, focusing on explainable models that can learn from dense trajectory data, such as GPS tracks of vehicles and vessels using temporal graph neural networks (GNNs) and counterfactuals. We review the existing GeoXAI studies, argue the need for comprehensible explanations with human-centered approaches, and outline a research path toward XAI for Mobility Data Science.
翻訳日:2023-09-07 18:38:01 公開日:2023-09-06
# 歩数認識と教師なし適応における視線バイアスのある領域ギャップ

Watch Where You Head: A View-biased Domain Gap in Gait Recognition and Unsupervised Adaptation ( http://arxiv.org/abs/2307.06751v2 )

ライセンス: Link先を確認
Gavriel Habib, Noa Barzilay, Or Shimshi, Rami Ben-Ari, Nir Darshan(参考訳) 歩行認識は、歩行パターンによって人々を識別することを目的としたコンピュータビジョンタスクである。 既存のメソッドは特定のデータセットで高いパフォーマンスを示すことが多いが、見当たらないシナリオに一般化する能力が欠けている。 unsupervised domain adaptation(uda)は、ソースドメイン上で教師付きで事前学習されたモデルを、ラベルなしのターゲットドメインに適応させようとする。 限られたシナリオに対するソリューションを提案する歩行認識のためのUDAに関する研究はわずかである。 本稿では,対象領域の角度や歩行方向に対するバイアスによる歩行認識モデルの適用において,基本的な現象を明らかにする。 そこで我々は,新しい三重項選択戦略とカリキュラム学習を組み合わせることで,このバイアスを軽減するための修正を提案する。 そこで本稿では,教師なしドメイン適応(GOUDA)のためのゲイト指向方式を提案する。 casia-b,ou-mvlp,grown,gait3dの4つの広く使われているgaitデータセットと,gaitset,gaitpart,gaitglの3つのバックボーンについて広範な実験を行い,アプローチバイアスを正当化し,uda以前の作業よりも提案手法の優越性を示す。

Gait Recognition is a computer vision task aiming to identify people by their walking patterns. Although existing methods often show high performance on specific datasets, they lack the ability to generalize to unseen scenarios. Unsupervised Domain Adaptation (UDA) tries to adapt a model, pre-trained in a supervised manner on a source domain, to an unlabelled target domain. There are only a few works on UDA for gait recognition proposing solutions to limited scenarios. In this paper, we reveal a fundamental phenomenon in adaptation of gait recognition models, caused by the bias in the target domain to viewing angle or walking direction. We then suggest a remedy to reduce this bias with a novel triplet selection strategy combined with curriculum learning. To this end, we present Gait Orientation-based method for Unsupervised Domain Adaptation (GOUDA). We provide extensive experiments on four widely-used gait datasets, CASIA-B, OU-MVLP, GREW, and Gait3D, and on three backbones, GaitSet, GaitPart, and GaitGL, justifying the view bias and showing the superiority of our proposed method over prior UDA works.
翻訳日:2023-09-07 18:37:51 公開日:2023-09-06
# 注意と複数撮影による科学機械学習の改善

Improving Scientific Machine Learning via Attention and Multiple Shooting ( http://arxiv.org/abs/2307.05735v2 )

ライセンス: Link先を確認
Germ\'an Abrevaya, Mahta Ramezanian-Panahi, Jean-Christophe Gagnon-Audet, Irina Rish, Pablo Polosecki, Silvina Ponce Dawson, Guillermo Cecchi, Guillaume Dumas(参考訳) scientific machine learning(sciml)は、ドメイン認識と解釈可能なモデルと不可知な機械学習技術を組み合わせた、急成長する分野である。 本稿では,SciML生成モデルの進化であるGOKU-UIを紹介する。 GOKU-UIは、SDE(Stochastic Differential Equations)のような他の微分方程式のクラスを組み込むために、原モデルのスペクトルを広げるだけでなく、注意機構と潜在空間における新しい多重射撃訓練戦略を統合する。 これらの改善により、シミュレーションデータと経験データの評価により、再構成タスクと予測タスクの両方のパフォーマンスが大幅に向上した。 具体的には、GOKU-UIは16倍のトレーニングセットでも、合成データセット上のベースラインモデルを全て上回り、その顕著なデータ効率を誇示している。 さらに、経験的脳データに適用すると、確率的スチュアート・ランダウ発振器を動的コアに組み込むと同時に、再構築作業における全ての基本手法を超えるだけでなく、15秒前までの将来の脳活動の予測も向上した。 休息状態fmriデータに極井を訓練することにより、脳全体のダイナミクスを潜在表現に符号化し、脳の機能や精神状態の分類や精神疾患などの実用的応用への道筋を提供する効果的な低次元力学系モデルを学習した。 最終的に、我々の研究は科学機械学習の分野をさらに推進し、確立された科学的洞察が現代の機械学習に織り込まれているときの進歩の可能性を示している。

Scientific Machine Learning (SciML) is a burgeoning field that synergistically combines domain-aware and interpretable models with agnostic machine learning techniques. In this work, we introduce GOKU-UI, an evolution of the SciML generative model GOKU-nets. GOKU-UI not only broadens the original model's spectrum to incorporate other classes of differential equations, such as Stochastic Differential Equations (SDEs), but also integrates attention mechanisms and a novel multiple shooting training strategy in the latent space. These enhancements have led to a significant increase in its performance in both reconstruction and forecast tasks, as demonstrated by our evaluation of simulated and empirical data. Specifically, GOKU-UI outperformed all baseline models on synthetic datasets even with a training set 16-fold smaller, underscoring its remarkable data efficiency. Furthermore, when applied to empirical human brain data, while incorporating stochastic Stuart-Landau oscillators into its dynamical core, it not only surpassed all baseline methods in the reconstruction task, but also demonstrated better prediction of future brain activity up to 15 seconds ahead. By training GOKU-UI on resting state fMRI data, we encoded whole-brain dynamics into a latent representation, learning an effective low-dimensional dynamical system model that could offer insights into brain functionality and open avenues for practical applications such as the classification of mental states or psychiatric conditions. Ultimately, our research provides further impetus for the field of Scientific Machine Learning, showcasing the potential for advancements when established scientific insights are interwoven with modern machine learning.
翻訳日:2023-09-07 18:37:29 公開日:2023-09-06
# arf-plus:3次元シーンスタイライゼーションのための芸術的輝度場における知覚因子の制御

ARF-Plus: Controlling Perceptual Factors in Artistic Radiance Fields for 3D Scene Stylization ( http://arxiv.org/abs/2308.12452v2 )

ライセンス: Link先を確認
Wenzhao Li, Tianhao Wu, Fangcheng Zhong, Cengiz Oztireli(参考訳) ラジアンスフィールドスタイルトランスファーは、3d再構成とビュー合成におけるニューラルラジアンスフィールドの優れた性能のおかげで、3dシーンのスタイライゼーション手段として最近人気を集めている新興分野である。 本研究では,2次元画像転送における既存の概念に動機づけられた,放射場スタイル転送における研究ギャップ,十分な知覚制御性の欠如を強調する。 本稿では,3次元シーンスタイライゼーションにおける知覚制御可能性について体系的に検討するために,知覚要因を管理可能な3次元ニューラルスタイルトランスファーフレームワークarf-plusを提案する。 色保存制御,(スタイルパターン)スケール制御,空間的(選択的スタイリゼーション領域)制御,奥行き強化制御の4種類の異なる制御方法が提案され,この枠組みに統合されている。 実世界のデータセット(量的・質的)から得られた結果は、arf-plusフレームワークの4種類のコントロールが、3dシーンをスタイリングする際に対応する知覚制御を成功裏に達成していることを示している。 これらのテクニックは、個々のスタイルの入力だけでなく、シーン内の複数のスタイルの同時適用にも有効である。 これは無限の可能性の領域を開放し、スタイリゼーション効果のカスタマイズと異なるスタイルの強度の柔軟なマージを可能にし、3Dシーンに斬新で目を引くスタイリスティックなエフェクトを創造する。

The radiance fields style transfer is an emerging field that has recently gained popularity as a means of 3D scene stylization, thanks to the outstanding performance of neural radiance fields in 3D reconstruction and view synthesis. We highlight a research gap in radiance fields style transfer, the lack of sufficient perceptual controllability, motivated by the existing concept in the 2D image style transfer. In this paper, we present ARF-Plus, a 3D neural style transfer framework offering manageable control over perceptual factors, to systematically explore the perceptual controllability in 3D scene stylization. Four distinct types of controls - color preservation control, (style pattern) scale control, spatial (selective stylization area) control, and depth enhancement control - are proposed and integrated into this framework. Results from real-world datasets, both quantitative and qualitative, show that the four types of controls in our ARF-Plus framework successfully accomplish their corresponding perceptual controls when stylizing 3D scenes. These techniques work well for individual style inputs as well as for the simultaneous application of multiple styles within a scene. This unlocks a realm of limitless possibilities, allowing customized modifications of stylization effects and flexible merging of the strengths of different styles, ultimately enabling the creation of novel and eye-catching stylistic effects on 3D scenes.
翻訳日:2023-09-07 18:27:28 公開日:2023-09-06
# DynED: データストリーム分類における動的アンサンブルの多様性

DynED: Dynamic Ensemble Diversification in Data Stream Classification ( http://arxiv.org/abs/2308.10807v2 )

ライセンス: Link先を確認
Soheil Abadifard, Sepehr Bakhshi, Sanaz Gheibuni, Fazli Can(参考訳) アンサンブル法はその顕著な性能のために分類において一般的に使用される。 データストリーム環境で高い精度を達成することは、データ分散の破壊的な変化(コンセプトドリフトとも呼ばれる)を考慮すると難しい課題である。 このような設定で予測精度を高めるために、アンサンブルコンポーネントの多様化が知られている。 アンサンブル内のコンポーネントの多様性にもかかわらず、全体のパフォーマンスに期待通りに貢献できるわけではない。 これは、高い性能と多様性を示すコンポーネントを選択する方法を必要とする。 本稿では,アンサンブル構築過程におけるコンポーネントの多様性と予測精度を動的に組み合わせたmmr(maximal marginal associated)に基づく新しいアンサンブル構築・保守手法を提案する。 4つの実データと11の合成データセットによる実験結果から,提案手法(DynED)は5つの最先端ベースラインと比較して平均平均精度が高いことが示された。

Ensemble methods are commonly used in classification due to their remarkable performance. Achieving high accuracy in a data stream environment is a challenging task considering disruptive changes in the data distribution, also known as concept drift. A greater diversity of ensemble components is known to enhance prediction accuracy in such settings. Despite the diversity of components within an ensemble, not all contribute as expected to its overall performance. This necessitates a method for selecting components that exhibit high performance and diversity. We present a novel ensemble construction and maintenance approach based on MMR (Maximal Marginal Relevance) that dynamically combines the diversity and prediction accuracy of components during the process of structuring an ensemble. The experimental results on both four real and 11 synthetic datasets demonstrate that the proposed approach (DynED) provides a higher average mean accuracy compared to the five state-of-the-art baselines.
翻訳日:2023-09-07 18:26:40 公開日:2023-09-06
# 敵対的攻撃の強化:類似の標的法

Enhancing Adversarial Attacks: The Similar Target Method ( http://arxiv.org/abs/2308.10743v2 )

ライセンス: Link先を確認
Shuo Zhang, Ziruo Wang, Zikai Zhou, Huanran Chen(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、モデルのアプリケーションに脅威を与え、セキュリティ上の懸念を提起する。 逆例の興味深い性質は、その強い伝達性である。 それらの効果を示すアンサンブル攻撃を含む、転送可能性を高めるいくつかの方法が提案されている。 しかし、事前のアプローチは単にモデルアンサンブルのロジット、確率、損失の平均であり、なぜモデルアンサンブルが転送可能性を大幅に改善するかの包括的な分析を欠いている。 本稿では,類似ターゲット~(st)と呼ばれる類似ターゲット攻撃手法を提案する。 各モデルの勾配のコサイン類似性を推し進めることにより、最適化方向を規則化し、全ての代理モデルに同時に攻撃する。 この戦略は一般化能力を高めることが証明されている。 ImageNetの実験結果から, 対向転写性向上のためのアプローチの有効性が検証された。 本手法は,18の識別的分類器と対角訓練モデルにおいて,最先端の攻撃者より優れる。

Deep neural networks are vulnerable to adversarial examples, posing a threat to the models' applications and raising security concerns. An intriguing property of adversarial examples is their strong transferability. Several methods have been proposed to enhance transferability, including ensemble attacks which have demonstrated their efficacy. However, prior approaches simply average logits, probabilities, or losses for model ensembling, lacking a comprehensive analysis of how and why model ensembling significantly improves transferability. In this paper, we propose a similar targeted attack method named Similar Target~(ST). By promoting cosine similarity between the gradients of each model, our method regularizes the optimization direction to simultaneously attack all surrogate models. This strategy has been proven to enhance generalization ability. Experimental results on ImageNet validate the effectiveness of our approach in improving adversarial transferability. Our method outperforms state-of-the-art attackers on 18 discriminative classifiers and adversarially trained models.
翻訳日:2023-09-07 18:26:28 公開日:2023-09-06
# ウィキペディアスタイルサーベイ生成における大規模言語モデル:NLP概念の評価

Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts ( http://arxiv.org/abs/2308.10410v2 )

ライセンス: Link先を確認
Fan Gao, Hang Jiang, Moritz Blum, Jinghui Lu, Dairui Liu, Yuang Jiang, Irene Li(参考訳) 大規模言語モデル(LLM)は、質問応答、要約、機械翻訳などを含む様々な自然言語処理(NLP)タスクで大きな成功を収めている。 LLMは一般的なタスクでは優れているが、ドメイン固有のアプリケーションでの有効性は検討中である。 加えて、LLM生成したテキストは幻覚や偽情報などの問題を示すこともある。 本研究では,コンピュータサイエンス-NLP領域におけるLLMの簡潔な調査項目作成能力について,20のトピックに焦点をあてて評価する。 自動評価は、GPT-4がGPT-3.5より優れていることを示している。 さらに、4人の人間評価者が4つのモデル構成の6つの視点から洞察を提供する。 ケーススタディを通して、gptはしばしば賞賛すべき結果をもたらすが、不完全な情報や事実の正確さの欠落の展示のような欠点の例があることを示す。

Large Language Models (LLMs) have achieved significant success across various natural language processing (NLP) tasks, encompassing question-answering, summarization, and machine translation, among others. While LLMs excel in general tasks, their efficacy in domain-specific applications remains under exploration. Additionally, LLM-generated text sometimes exhibits issues like hallucination and disinformation. In this study, we assess LLMs' capability of producing concise survey articles within the computer science-NLP domain, focusing on 20 chosen topics. Automated evaluations indicate that GPT-4 outperforms GPT-3.5 when benchmarked against the ground truth. Furthermore, four human evaluators provide insights from six perspectives across four model configurations. Through case studies, we demonstrate that while GPT often yields commendable results, there are instances of shortcomings, such as incomplete information and the exhibition of lapses in factual accuracy.
翻訳日:2023-09-07 18:26:13 公開日:2023-09-06
# 第2回Adaptive Cyber Defense国際ワークショップに参加して

Proceedings of the 2nd International Workshop on Adaptive Cyber Defense ( http://arxiv.org/abs/2308.09520v3 )

ライセンス: Link先を確認
Marco Carvalho, Damian Marriott, Mark Bilinski, Ahmad Ridley(参考訳) 第2回適応型サイバー防衛に関する国際ワークショップはフロリダ工科大学で開催された。 このワークショップは、AI(AI)と機械学習(ML)のユニークな応用を、適応型サイバー防御の追求のための基礎的な能力として探求する研究を共有するために組織された。 サイバードメインは現在、人間の専門家に大きく依存することなく、確実かつ効果的に防御することはできない。 熟練したサイバーディフェンダーは不足しており、サイバー脅威に十分早く対応できないことが多い。 AIとMLの最近の進歩に基づいて、サイバー防衛研究コミュニティは、サイバー設定へのAIとML技術の導入を通じて、新しい動的で持続可能な防衛を開発する動機付けを受けている。 aiとサイバー研究者と実践者の間の重要なギャップを橋渡しすることで、サイバー攻撃を認識、対応し、他のサイバーオペレーションシステムや人間専門家と協力して弱点を発見し、軽減できる半自律的なサイバー防御を開発する取り組みを加速することができる。 さらに、これらの防御は適応的で、時間とともに進化し、攻撃行動の変化、システムの健全性と準備性の変化、時間の経過とともにユーザー行動の自然な変化を防ぐことが期待されている。 ワークショップは、招待された基調講演、テクニカルプレゼンテーション、AI/MLが現在のサイバー攻撃と将来のサイバー攻撃の自律的緩和を可能にする方法についてのパネルディスカッションで構成された。 ワークショップの応募はドメインの専門家のパネルによってピアレビューされ、国家と世界のセキュリティにとって重要な問題に関する6つのテクニカル記事からなる。 このワークショップへの参加は、適応型および自律型サイバー防衛の新興領域における研究とイノベーションを刺激する新たな機会を提供した。

The 2nd International Workshop on Adaptive Cyber Defense was held at the Florida Institute of Technology, Florida. This workshop was organized to share research that explores unique applications of Artificial Intelligence (AI) and Machine Learning (ML) as foundational capabilities for the pursuit of adaptive cyber defense. The cyber domain cannot currently be reliably and effectively defended without extensive reliance on human experts. Skilled cyber defenders are in short supply and often cannot respond fast enough to cyber threats. Building on recent advances in AI and ML the Cyber defense research community has been motivated to develop new dynamic and sustainable defenses through the adoption of AI and ML techniques to cyber settings. Bridging critical gaps between AI and Cyber researchers and practitioners can accelerate efforts to create semi-autonomous cyber defenses that can learn to recognize and respond to cyber attacks or discover and mitigate weaknesses in cooperation with other cyber operation systems and human experts. Furthermore, these defenses are expected to be adaptive and able to evolve over time to thwart changes in attacker behavior, changes in the system health and readiness, and natural shifts in user behavior over time. The workshop was comprised of invited keynote talks, technical presentations and a panel discussion about how AI/ML can enable autonomous mitigation of current and future cyber attacks. Workshop submissions were peer reviewed by a panel of domain experts with a proceedings consisting of six technical articles exploring challenging problems of critical importance to national and global security. Participation in this workshop offered new opportunities to stimulate research and innovation in the emerging domain of adaptive and autonomous cyber defense.
翻訳日:2023-09-07 18:25:59 公開日:2023-09-06
# ニューラルネットワークを組み込んだガウス混合モデルとガウス混合モデルのための効率的な1反復学習アルゴリズム

An Efficient 1 Iteration Learning Algorithm for Gaussian Mixture Model And Gaussian Mixture Embedding For Neural Network ( http://arxiv.org/abs/2308.09444v2 )

ライセンス: Link先を確認
Weiguo Lu, Xuan Wu, Deng Ding, Gangnan Yuan(参考訳) ガウス混合モデル(GMM)学習アルゴリズムを提案する。 この新しいアルゴリズムは、従来の期待最大化(em)アルゴリズムよりも堅牢性とシンプルさをもたらす。 また、精度も向上し、学習に1回しかかからない。 我々は,パラメータの初期化にかかわらず,このアルゴリズムが収束することを理論的に証明する。 GMM拡張法とニューラルネットワークの古典的確率層を比較すると、データの不確実性や逆問題に対処する能力が明らかに向上する。 最後に,GMM ベースジェネレータを試作し,確率的変動と変分制御に分散ランダムサンプリングを有効活用できるアプリケーションを構築する可能性を示した。

We propose an Gaussian Mixture Model (GMM) learning algorithm, based on our previous work of GMM expansion idea. The new algorithm brings more robustness and simplicity than classic Expectation Maximization (EM) algorithm. It also improves the accuracy and only take 1 iteration for learning. We theoretically proof that this new algorithm is guarantee to converge regardless the parameters initialisation. We compare our GMM expansion method with classic probability layers in neural network leads to demonstrably better capability to overcome data uncertainty and inverse problem. Finally, we test GMM based generator which shows a potential to build further application that able to utilized distribution random sampling for stochastic variation as well as variation control.
翻訳日:2023-09-07 18:25:34 公開日:2023-09-06
# 古典量子プログラムの確率的振る舞いに関する局所的推論

Local Reasoning about Probabilistic Behaviour for Classical-Quantum Programs ( http://arxiv.org/abs/2308.04741v2 )

ライセンス: Link先を確認
Yuxin Deng, Huiling Wu, Ming Xu(参考訳) 古典的構成と量子的構成の両方でプログラムの機能的正当性を検証することは難しい課題である。 量子測定と非有界なループによる確率的振る舞いの存在は検証作業を大幅に複雑にする。 本稿では,確率特性を規定する分布公式を導入することにより,確率的挙動に関する局所的推論のための新しい量子ホア論理を提案する。 論理の証明規則は意味論的意味論に関して健全であることを示す。 論理の有効性を示すために, hhl と shor のアルゴリズムを含む非自明な量子アルゴリズムの正しさを正式に検証する。

Verifying the functional correctness of programs with both classical and quantum constructs is a challenging task. The presence of probabilistic behaviour entailed by quantum measurements and unbounded while loops complicate the verification task greatly. We propose a new quantum Hoare logic for local reasoning about probabilistic behaviour by introducing distribution formulas to specify probabilistic properties. We show that the proof rules in the logic are sound with respect to a denotational semantics. To demonstrate the effectiveness of the logic, we formally verify the correctness of non-trivial quantum algorithms including the HHL and Shor's algorithms.
翻訳日:2023-09-07 18:25:24 公開日:2023-09-06
# single-sentence reader : 回答位置バイアスに対する新しいアプローチ

Single-Sentence Reader: A Novel Approach for Addressing Answer Position Bias ( http://arxiv.org/abs/2308.04566v4 )

ライセンス: Link先を確認
Son Quoc Tran and Matt Kretchmar(参考訳) Machine Reading Comprehension (MRC)モデルは、素早い相関(研究コミュニティのデータセットバイアスやアノテーションアーティファクトとしても知られる)を利用する傾向がある。 したがって、これらのモデルは与えられたコンテキストと質問を完全に理解することなくMCCタスクを実行することができ、分散シフトに対するロバスト性が低い可能性があるため、望ましくない。 本稿の焦点は,学習質問のかなりの割合が,文脈の前半文のみに回答を配置する,回答位置バイアスである。 MRCにおける解答位置バイアスに対処するための新しいアプローチとして,Single-Sentence Readerを提案する。 驚くべきことに、6つの異なるモデルを用いた実験で、バイアス付きデータセットでトレーニングしたシングルセンテンスリーダは、通常のデータセットでトレーニングされたモデルとほぼ一致する結果を達成し、回答位置バイアスに対処する上での有効性を実証しました。 本研究は,シングルセンテンス読者が遭遇するいくつかの課題についても考察し,潜在的な解決策を提案する。

Machine Reading Comprehension (MRC) models tend to take advantage of spurious correlations (also known as dataset bias or annotation artifacts in the research community). Consequently, these models may perform the MRC task without fully comprehending the given context and question, which is undesirable since it may result in low robustness against distribution shift. The main focus of this paper is answer-position bias, where a significant percentage of training questions have answers located solely in the first sentence of the context. We propose a Single-Sentence Reader as a new approach for addressing answer position bias in MRC. Remarkably, in our experiments with six different models, our proposed Single-Sentence Readers trained on biased dataset achieve results that nearly match those of models trained on normal dataset, proving their effectiveness in addressing the answer position bias. Our study also discusses several challenges our Single-Sentence Readers encounter and proposes a potential solution.
翻訳日:2023-09-07 18:25:14 公開日:2023-09-06
# 連合学習: 組織的機会、挑戦、導入戦略

Federated Learning: Organizational Opportunities, Challenges, and Adoption Strategies ( http://arxiv.org/abs/2308.02219v2 )

ライセンス: Link先を確認
Joaquin Delgado Fernandez, Martin Brennecke, Tom Barbereau, Alexander Rieger, Gilbert Fridgen(参考訳) 多くの産業におけるデータ共有の制限的ルールは、連合学習の発展につながっている。 フェデレートラーニング(Federated Learning)は、分散クライアントが各トレーニングデータを他の人と共有することなく、モデルの共同トレーニングを可能にする機械学習技術である。 本稿では,まず,連合学習の技術的基盤とその組織的機会について考察する。 第2に,フェデレートドラーニングの採用のための概念的枠組み,人工知能能力とデータ共有制限による4種類の組織をマッピングする。 次に,公共機関,金融サービスプロバイダ,製造企業,研究開発コンテンシアなど,さまざまなコンテキストの例題的な組織が,フェデレーション学習に対する異なるアプローチを検討する理由について論じる。 結論として,連合学習は,情報システム研究者に十分な学際的機会を与える組織的課題を提示する。

Restrictive rules for data sharing in many industries have led to the development of federated learning. Federated learning is a machine-learning technique that allows distributed clients to train models collaboratively without the need to share their respective training data with others. In this paper, we first explore the technical foundations of federated learning and its organizational opportunities. Second, we present a conceptual framework for the adoption of federated learning, mapping four types of organizations by their artificial intelligence capabilities and limits to data sharing. We then discuss why exemplary organizations in different contexts - including public authorities, financial service providers, manufacturing companies, as well as research and development consortia - might consider different approaches to federated learning. To conclude, we argue that federated learning presents organizational challenges with ample interdisciplinary opportunities for information systems researchers.
翻訳日:2023-09-07 18:24:56 公開日:2023-09-06
# 高次元線形回帰の解釈:バッテリデータに対するヌルスペースと正則化の効果

Interpretation of High-Dimensional Linear Regression: Effects of Nullspace and Regularization Demonstrated on Battery Data ( http://arxiv.org/abs/2309.00564v2 )

ライセンス: Link先を確認
Joachim Schaeffer, Eric Lenz, William C. Chueh, Martin Z. Bazant, Rolf Findeisen, Richard D. Braatz(参考訳) 高次元線形回帰は多くの科学分野で重要である。 本稿では,化学系や生物系からしばしば得られるような,下層の滑らかな潜伏過程の離散的な測定データについて考察する。 高次元での解釈は、ヌル空間とその正規化形状との相互作用が回帰係数を表わすため困難である。 データのヌル空間は$\mathbf{Xw}=\mathbf{0}$を満たすすべての係数を含むため、全く異なる係数が同じ予測をすることができる。 物理工学の知識から得られた回帰係数と係数を比較し,係数差のどの部分がヌル空間に近いかを理解する最適化式を開発した。 このヌルスペース法は、合成例とリチウムイオン電池データで試験される。 ケーススタディでは、正規化とz-scoringは設計上の選択であり、もし事前の物理的知識に対応して選択された場合、解釈可能な回帰結果をもたらす。 そうでなければ、ヌル空間と正規化の組み合わせは解釈可能性を妨げるものであり、真の基底線型モデルが存在する場合、真の係数に近い回帰係数を得ることができない。 さらに, 融合ラッソのようなヌル空間に直交する係数を生成できない回帰法は, 解釈可能性を向上させることができることを示した。 結論として、nullspaceの視点から得られた洞察は、高次元データ上に回帰モデルを構築するためのインフォームドデザインの選択と、システムの最適化や科学的理解の改善に重要である潜在的な線形モデルについての推論に役立つ。

High-dimensional linear regression is important in many scientific fields. This article considers discrete measured data of underlying smooth latent processes, as is often obtained from chemical or biological systems. Interpretation in high dimensions is challenging because the nullspace and its interplay with regularization shapes regression coefficients. The data's nullspace contains all coefficients that satisfy $\mathbf{Xw}=\mathbf{0}$, thus allowing very different coefficients to yield identical predictions. We developed an optimization formulation to compare regression coefficients and coefficients obtained by physical engineering knowledge to understand which part of the coefficient differences are close to the nullspace. This nullspace method is tested on a synthetic example and lithium-ion battery data. The case studies show that regularization and z-scoring are design choices that, if chosen corresponding to prior physical knowledge, lead to interpretable regression results. Otherwise, the combination of the nullspace and regularization hinders interpretability and can make it impossible to obtain regression coefficients close to the true coefficients when there is a true underlying linear model. Furthermore, we demonstrate that regression methods that do not produce coefficients orthogonal to the nullspace, such as fused lasso, can improve interpretability. In conclusion, the insights gained from the nullspace perspective help to make informed design choices for building regression models on high-dimensional data and reasoning about potential underlying linear models, which are important for system optimization and improving scientific understanding.
翻訳日:2023-09-07 18:19:39 公開日:2023-09-06
# コントラストトークン音響事前学習による音声表現の学習

Learning Speech Representation From Contrastive Token-Acoustic Pretraining ( http://arxiv.org/abs/2309.00424v2 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒化タスクでは、音声から抽出した中間表現は、両モードの情報を含むテキストと音響情報の「ブリッジ」として機能すべきである。 セマンティックな内容は強調され、話者のアイデンティティや音響的詳細といったパラ言語的な情報は強調されなければならない。 しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。 コントラスト学習は2つのモードから中間表現をモデル化する良い方法である。 しかし、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。 これらの問題に対処するために,2つのエンコーダを用いて音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。 CTAPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。 提案手法は,音声処理における下流タスクの細粒度生成と認識のための有望なソリューションを提供する。

For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representations extracted from speech should serve as a "bridge" between text and acoustic information, containing information from both modalities. The semantic content is emphasized, while the paralinguistic information such as speaker identity and acoustic details should be de-emphasized. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Contrastive learning is a good method for modeling intermediate representations from two modalities. However, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named "Contrastive Token-Acoustic Pretraining (CTAP)", which uses two encoders to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CTAP model is trained on 210k speech and phoneme text pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing.
翻訳日:2023-09-07 18:18:39 公開日:2023-09-06
# 第20回量子物理学・論理国際会議に参加して

Proceedings of the Twentieth International Conference on Quantum Physics and Logic ( http://arxiv.org/abs/2308.15489v2 )

ライセンス: Link先を確認
Shane Mansfield, Beno\^it Valiron, Vladimir Zamdzhiev(参考訳) 第20回量子物理学と論理に関する国際会議(QPL 2023)の手続きを含む。 QPLカンファレンスシリーズの目的は、量子計算、量子物理学、および関連する分野の数学的基礎に取り組んでいる学術および産業研究者を集結させることである。 主な焦点は、代数的および分類的構造、形式言語、型システム、意味論的方法、および物理システム、物理過程、およびそれらの構成の研究に適用可能な他の数学的およびコンピュータ科学技術の使用である。

This volume contains the proceedings of the 20th International Conference on Quantum Physics and Logic (QPL 2023). The aim of the QPL conference series is to bring together academic and industry researchers working on mathematical foundations of quantum computation, quantum physics, and related areas. The main focus is on the use of algebraic and categorical structures, formal languages, type systems, semantic methods, as well as other mathematical and computer scientific techniques applicable to the study of physical systems, physical processes, and their composition.
翻訳日:2023-09-07 18:16:47 公開日:2023-09-06
# インテリジェントタスク自動化のためのLLMのスマートフォン活用

Empowering LLM to use Smartphone for Intelligent Task Automation ( http://arxiv.org/abs/2308.15272v2 )

ライセンス: Link先を確認
Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, Yunxin Liu(参考訳) モバイルタスク自動化は,スマートフォンとの音声ベースのハンズフリーユーザインタラクションを実現するための,魅力的なテクニックだ。 しかし、既存のアプローチは、言語理解能力の制限と開発者やエンドユーザが必要とする非自明な手作業のため、スケーラビリティに乏しい。 言語理解と推論における大規模言語モデル(LLM)の最近の進歩は、タスク準備、理解、実行が統一言語モデルによって扱われるモデル中心の観点から問題を再考するきっかけとなった。 本研究では,任意のタスクを手作業で処理できるモバイルタスク自動化システムであるautodroidを紹介する。 重要な洞察は、llmの共通センス知識と、アプリケーションのドメイン固有の知識を自動動的解析によって組み合わせることです。 主なコンポーネントには、uiとllmを橋渡しする機能対応のui表現方法、llmのアプリ固有のドメイン知識を強化する探索ベースのメモリ注入技術、モデル推論のコストを削減するマルチグラニュラ性クエリ最適化モジュールなどがある。 我々はAutoDroidを、オンラインGPT-4/GPT-3.5やオンデバイスVicunaを含む市販のLCMと統合し、158の共通タスクを備えたメモリ拡張Androidタスク自動化のための新しいベンチマークでパフォーマンスを評価する。 その結果、AutoDroidは精度90.9%のアクションを正確に生成でき、成功率71.3%のタスクが完了し、GPT-4のベースラインを36.4%、39.7%上回った。 autodroidのデモ、ベンチマークスイート、ソースコードはurl{https://autodroid-sys.github.io/}でリリースされる。

Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system that can handle arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at url{https://autodroid-sys.github.io/}.
翻訳日:2023-09-07 18:16:39 公開日:2023-09-06
# instructme:潜在拡散モデルを用いた指導型音楽編集・リミックスフレームワーク

InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models ( http://arxiv.org/abs/2308.14360v2 )

ライセンス: Link先を確認
Bing Han, Junyu Dai, Xuchen Song, Weituo Hao, Xinyan He, Dong Guo, Jitong Chen, Yuxuan Wang and Yanmin Qian(参考訳) 音楽編集は、主に楽器のトラックの修正や全体のリミックスを伴い、一連の操作を通じてオリジナル曲の新たな再解釈を提供する。 これらの音楽処理手法は様々な応用において大きな可能性を秘めているが、かなりの専門知識を必要とする。 以前の手法は、画像や音声の修正に効果があるが、直接音楽に適用すると劣化する。 これは音楽の独特なデータの性質に起因しており、そのような手法は音楽の本質的な調和とコヒーレンスを必然的に損なうことができる。 本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。 本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。 さらに,コンディション情報としてコード進行行列を導入し,それを意味空間に組み込んで,編集中の旋律調和を改善する。 拡張された楽曲に合わせてinstructmeはチャンクトランスフォーマを使用して、音楽シーケンス内の長期的な時間依存を識別する。 instructmeをインスツルメンテーション,リミックス,マルチラウンド編集でテストした。 主観的評価と客観的評価は,提案手法が音楽品質,テキスト関連性,調和性において先行するシステムを大幅に上回ることを示している。 デモサンプルはhttps://musicedit.github.io/で入手できる。

Music editing primarily entails the modification of instrument tracks or remixing in the whole, which offers a novel reinterpretation of the original piece through a series of operations. These music processing methods hold immense potential across various applications but demand substantial expertise. Prior methodologies, although effective for image and audio modifications, falter when directly applied to music. This is attributed to music's distinctive data nature, where such methods can inadvertently compromise the intrinsic harmony and coherence of music. In this paper, we develop InstructME, an Instruction guided Music Editing and remixing framework based on latent diffusion models. Our framework fortifies the U-Net with multi-scale aggregation in order to maintain consistency before and after editing. In addition, we introduce chord progression matrix as condition information and incorporate it in the semantic space to improve melodic harmony while editing. For accommodating extended musical pieces, InstructME employs a chunk transformer, enabling it to discern long-term temporal dependencies within music sequences. We tested InstructME in instrument-editing, remixing, and multi-round editing. Both subjective and objective evaluations indicate that our proposed method significantly surpasses preceding systems in music quality, text relevance and harmony. Demo samples are available at https://musicedit.github.io/
翻訳日:2023-09-07 18:16:08 公開日:2023-09-06
# EgoBlur: Ariaの責任あるイノベーション

EgoBlur: Responsible Innovation in Aria ( http://arxiv.org/abs/2308.13093v2 )

ライセンス: Link先を確認
Nikhil Raina, Guruprasad Somasundaram, Kang Zheng, Sagar Miglani, Steve Saarinen, Jeff Meissner, Mark Schwesinger, Luis Pesqueira, Ishita Prasad, Edward Miller, Prince Gupta, Mingfei Yan, Richard Newcombe, Carl Ren, Omkar M Parkhi(参考訳) Project Ariaは、Egocentric AIのフロンティアを、プライバシー第一のアプローチで意図的に設計された眼鏡を使って、大規模な現実世界のデータ収集で推進している。 メガネで記録された傍観者のプライバシーを守るため、我々の研究プロトコルは、傍観者の顔と車のナンバープレートを取り除くai匿名化モデルによって記録されたビデオが処理されることを保証するように設計されている。 検出された顔及びナンバープレート領域は、これらの個人識別情報(PII)領域が曖昧になるようにガウスぼけで処理される。 このプロセスは、ビデオの匿名化バージョンが研究目的で保持されることを保証するのに役立つ。 project ariaでは、最先端の匿名化システムegoblurを開発しました。 本稿では,最近リリースされたCasual Conversations V2データセット上でのResponsible AI分析を含む,業界や学界の他の最先端システムと比較した,課題のあるデータセットに対するEgoBlurの広範な分析を行う。

Project Aria pushes the frontiers of Egocentric AI with large-scale real-world data collection using purposely designed glasses with privacy first approach. To protect the privacy of bystanders being recorded by the glasses, our research protocols are designed to ensure recorded video is processed by an AI anonymization model that removes bystander faces and vehicle license plates. Detected face and license plate regions are processed with a Gaussian blur such that these personal identification information (PII) regions are obscured. This process helps to ensure that anonymized versions of the video is retained for research purposes. In Project Aria, we have developed a state-of-the-art anonymization system EgoBlur. In this paper, we present extensive analysis of EgoBlur on challenging datasets comparing its performance with other state-of-the-art systems from industry and academia including extensive Responsible AI analysis on recently released Casual Conversations V2 dataset.
翻訳日:2023-09-07 18:15:48 公開日:2023-09-06
# 階層的弱選好フィードバックによる深層強化学習

Deep Reinforcement Learning from Hierarchical Weak Preference Feedback ( http://arxiv.org/abs/2309.02632v1 )

ライセンス: Link先を確認
Alexander Bukharin, Yixiao Li, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) リワードデザインは実践的強化学習(RL)の基本的かつ難しい側面である。 単純なタスクでは、研究者は典型的には報酬関数(例えば、いくつかの報酬要素の線形結合)を手作りする。 しかし、このような報酬工学は近似バイアスの対象であり、大きなチューニングコストを伴い、複雑なタスクに必要な粒度を提供できないことが多い。 これらの困難を避けるために、研究者は人間のフィードバック(rlhf)からの学習を強化することに目を向けた。 嗜好に基づく報酬モデリングを活用することで、RLHFは人間の嗜好によく適合する複雑な報酬を学習し、RLはますます困難な問題に取り組むことができる。 残念ながら、RLHFの適用性は、高いコストと人間の嗜好データを得るために制限されている。 このコストを考慮した複雑なタスクに対する報酬関数の学習は,単に報酬要因の重要性をランク付けすることで行う。 より具体的には、与えられたランキングによって引き起こされる階層的決定木を用いて軌跡を比較する新しいrlフレームワークであるheronを提案する。 これらの比較は嗜好に基づく報酬モデルのトレーニングに使用され、政策学習に使用される。 我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善や堅牢性といった付加的なメリットも提供できる。 私たちのコードはhttps://github.com/abukharin3/heronで利用可能です。

Reward design is a fundamental, yet challenging aspect of practical reinforcement learning (RL). For simple tasks, researchers typically handcraft the reward function, e.g., using a linear combination of several reward factors. However, such reward engineering is subject to approximation bias, incurs large tuning cost, and often cannot provide the granularity required for complex tasks. To avoid these difficulties, researchers have turned to reinforcement learning from human feedback (RLHF), which learns a reward function from human preferences between pairs of trajectory sequences. By leveraging preference-based reward modeling, RLHF learns complex rewards that are well aligned with human preferences, allowing RL to tackle increasingly difficult problems. Unfortunately, the applicability of RLHF is limited due to the high cost and difficulty of obtaining human preference data. In light of this cost, we investigate learning reward functions for complex tasks with less human effort; simply by ranking the importance of the reward factors. More specifically, we propose a new RL framework -- HERON, which compares trajectories using a hierarchical decision tree induced by the given ranking. These comparisons are used to train a preference-based reward model, which is then used for policy learning. We find that our framework can not only train high performing agents on a variety of difficult tasks, but also provide additional benefits such as improved sample efficiency and robustness. Our code is available at https://github.com/abukharin3/HERON.
翻訳日:2023-09-07 17:18:37 公開日:2023-09-06
# Adaptive Consensus:分散最適化のためのネットワークプルーニングアプローチ

Adaptive Consensus: A network pruning approach for decentralized optimization ( http://arxiv.org/abs/2309.02626v1 )

ライセンス: Link先を確認
Suhail M. Shah, Albert S. Berahas, Raghu Bollapragada(参考訳) ネットワーク内の各ノードが局所関数を持つネットワークベースの分散最適化問題について検討し、その目的は全ての局所関数の和を最小化するコンセンサスソリューションを集合的に達成することである。 分散最適化における大きな課題は、多くのアプリケーションにおいてかなりのボトルネックとなっている通信への依存である。 この課題に対処するために,不一致誤りを周期的に追跡し,各ノードにおいて最も影響力のあるエッジを選択することで,通信量を削減する適応的ランダム化通信効率アルゴリズムフレームワークを提案する。 このフレームワークでは,コンセンサス問題を解決する適応コンセンサス(ac)と,滑らかな強凸分散最適化問題を解決する適応コンセンサスベース勾配追跡(ac-gt)という2つのアルゴリズムを提案する。 提案するアルゴリズムに対する強理論的収束保証を確立し,その性能を標準仮定のもとで様々なアルゴリズムパラメータを用いて定量化する。 最後に,コンセンサス解決に必要な情報交換量を大幅に削減する手法の有効性を示す数値実験を行った。

We consider network-based decentralized optimization problems, where each node in the network possesses a local function and the objective is to collectively attain a consensus solution that minimizes the sum of all the local functions. A major challenge in decentralized optimization is the reliance on communication which remains a considerable bottleneck in many applications. To address this challenge, we propose an adaptive randomized communication-efficient algorithmic framework that reduces the volume of communication by periodically tracking the disagreement error and judiciously selecting the most influential and effective edges at each node for communication. Within this framework, we present two algorithms: Adaptive Consensus (AC) to solve the consensus problem and Adaptive Consensus based Gradient Tracking (AC-GT) to solve smooth strongly convex decentralized optimization problems. We establish strong theoretical convergence guarantees for the proposed algorithms and quantify their performance in terms of various algorithmic parameters under standard assumptions. Finally, numerical experiments showcase the effectiveness of the framework in significantly reducing the information exchange required to achieve a consensus solution.
翻訳日:2023-09-07 17:18:13 公開日:2023-09-06
# フルスライドvulvovaginal candidiasisスクリーニングのための進行的注意指導

Progressive Attention Guidance for Whole Slide Vulvovaginal Candidiasis Screening ( http://arxiv.org/abs/2309.02670v1 )

ライセンス: Link先を確認
Jiangdong Cai, Honglin Xiong, Maosong Cao, Luyan Liu, Lichi Zhang and Qian Wang(参考訳) VVC(Vulvovaginal candidiasis、VVC)は、ヒトのカンジダリー感染症の中で最も多く、全女性の75%が生涯に一度は罹患していると推定されている。 尿道炎、迷走神経痛など、いくつかの症状を引き起こす。 自動スライド画像(WSI)分類は, 疾患のコントロールと予防の負担が大きいため, 非常に要求が高い。 しかし、wsiベースのコンピュータ支援vccスクリーニング法は、candidaのラベル付きデータとユニークな特性のため、まだ空白である。 WSIのキャンディダは、その独特の細長い形状、空間分布の小さな割合、およびWSIとのスタイルギャップにより、従来の分類モデルによって捉えられがちである。 モデルがカンジダに焦点を合わせるのを容易にするために,ロバストな診断分類モデルが得られる注意誘導手法を提案する。 具体的には,まず,事前学習された検出モデルを事前指示として使用し,分類モデルを初期化する。 そこで我々は,カンジダの微細な特徴に注意を向けるために,スキップ自己注意モジュールを設計する。 最後に,wsisのスタイルギャップによる過剰フィットを軽減し,偽陽性領域への注意を抑制するために,対比学習法を用いる。 実験により,我々のフレームワークが最先端の性能を達成することを示す。 コードとサンプルデータはhttps://github.com/cjdbehumble/miccai2023-vvc-screeningで入手できる。

Vulvovaginal candidiasis (VVC) is the most prevalent human candidal infection, estimated to afflict approximately 75% of all women at least once in their lifetime. It will lead to several symptoms including pruritus, vaginal soreness, and so on. Automatic whole slide image (WSI) classification is highly demanded, for the huge burden of disease control and prevention. However, the WSI-based computer-aided VCC screening method is still vacant due to the scarce labeled data and unique properties of candida. Candida in WSI is challenging to be captured by conventional classification models due to its distinctive elongated shape, the small proportion of their spatial distribution, and the style gap from WSIs. To make the model focus on the candida easier, we propose an attention-guided method, which can obtain a robust diagnosis classification model. Specifically, we first use a pre-trained detection model as prior instruction to initialize the classification model. Then we design a Skip Self-Attention module to refine the attention onto the fined-grained features of candida. Finally, we use a contrastive learning method to alleviate the overfitting caused by the style gap of WSIs and suppress the attention to false positive regions. Our experimental results demonstrate that our framework achieves state-of-the-art performance. Code and example data are available at https://github.com/cjdbehumble/MICCAI2023-VVC-Screening.
翻訳日:2023-09-07 17:07:23 公開日:2023-09-06
# オフライン制約付き深層強化学習によるマーケティング予算配分

Marketing Budget Allocation with Offline Constrained Deep Reinforcement Learning ( http://arxiv.org/abs/2309.02669v1 )

ライセンス: Link先を確認
Tianchi Cai, Jiyan Jiang, Wenpeng Zhang, Shiji Zhou, Xierui Song, Li Yu, Lihong Gu, Xiaodong Zeng, Jinjie Gu, Guannan Zhang(参考訳) 以前収集したオフラインデータを利用したオンラインマーケティングキャンペーンにおける予算配分問題について検討する。 まず,オフライン環境でのマーケティング予算配分決定の最適化による長期的効果について考察する。 この課題を克服するために,混合ポリシーを用いた新しいゲーム理論的オフライン価値ベース強化学習手法を提案する。 提案手法は, 従来手法では無限に多くのポリシーを格納する必要性を減らし, 常に多くのポリシーしか保存せず, ほぼ最適な政策効率を実現し, 産業利用に有効である。 さらに, この手法は, マーケティング予算配分のための既往の価値ベース強化学習手法では達成できない最適方針に収束することが保証されている。 我々は,数千万人のユーザと10億以上の予算を持つ大規模マーケティングキャンペーンにおける実験により,提案手法が様々なベースライン手法を上回っていることを示す。 提案手法は,このマーケティングキャンペーンの全トラフィックに対して有効に展開されている。

We study the budget allocation problem in online marketing campaigns that utilize previously collected offline data. We first discuss the long-term effect of optimizing marketing budget allocation decisions in the offline setting. To overcome the challenge, we propose a novel game-theoretic offline value-based reinforcement learning method using mixed policies. The proposed method reduces the need to store infinitely many policies in previous methods to only constantly many policies, which achieves nearly optimal policy efficiency, making it practical and favorable for industrial usage. We further show that this method is guaranteed to converge to the optimal policy, which cannot be achieved by previous value-based reinforcement learning methods for marketing budget allocation. Our experiments on a large-scale marketing campaign with tens-of-millions users and more than one billion budget verify the theoretical results and show that the proposed method outperforms various baseline methods. The proposed method has been successfully deployed to serve all the traffic of this marketing campaign.
翻訳日:2023-09-07 17:06:58 公開日:2023-09-06
# エッジデバイスを用いた高速かつ資源効率の高い物体追跡:計測研究

Fast and Resource-Efficient Object Tracking on Edge Devices: A Measurement Study ( http://arxiv.org/abs/2309.02666v1 )

ライセンス: Link先を確認
Sanjana Vijay Ganesh, Yanzhao Wu, Gaowen Liu, Ramana Kompella, Ling Liu(参考訳) オブジェクト追跡は、エッジビデオ分析システムとサービスの重要な機能である。 マルチオブジェクトトラッキング(MOT)は動く物体を検出し、実際のシーンがビデオに写っているときにフレームによって位置をトラッキングする。 しかしながら、エッジ上のリアルタイムオブジェクトトラッキングは、特に異種コンピューティングリソースのエッジデバイスにおいて、重要な技術的課題となることはよく知られている。 本稿では,オブジェクト追跡の性能問題とエッジ特有の最適化機会について検討する。 十分に訓練され最適化されたMOTモデルでさえ、エッジデバイスが計算資源が不十分な場合にも、ランダムなフレーム降下問題に悩まされることを示します。 我々は、ウィンドウベースの最適化から類似性に基づく最適化まで、リアルタイムオブジェクト追跡を高速化するために、EMOと呼ばれるエッジ固有のパフォーマンス最適化戦略をいくつか提示する。 一般的なMOTベンチマークの大規模な実験により、私たちのEMOアプローチは、実行時の性能とトラッキング精度の観点から、デバイス上でのオブジェクト追跡技術の代表的手法と競合することを示した。 EMOはGithubでhttps://github.com/git-disl/EMOで公開されている。

Object tracking is an important functionality of edge video analytic systems and services. Multi-object tracking (MOT) detects the moving objects and tracks their locations frame by frame as real scenes are being captured into a video. However, it is well known that real time object tracking on the edge poses critical technical challenges, especially with edge devices of heterogeneous computing resources. This paper examines the performance issues and edge-specific optimization opportunities for object tracking. We will show that even the well trained and optimized MOT model may still suffer from random frame dropping problems when edge devices have insufficient computation resources. We present several edge specific performance optimization strategies, collectively coined as EMO, to speed up the real time object tracking, ranging from window-based optimization to similarity based optimization. Extensive experiments on popular MOT benchmarks demonstrate that our EMO approach is competitive with respect to the representative methods for on-device object tracking techniques in terms of run-time performance and tracking accuracy. EMO is released on Github at https://github.com/git-disl/EMO.
翻訳日:2023-09-07 17:06:41 公開日:2023-09-06
# 空間顆粒の沈下対策

Subsethood Measures of Spatial Granules ( http://arxiv.org/abs/2309.02662v1 )

ライセンス: Link先を確認
Liquan Zhao and Yiyu Yao(参考訳) 集合包含関係の次数を測定する部分集合は、ファジィ集合論において支配的である。 本稿では,空間の粒状化,粗大な関係,および相合,共役,商対合,商対合といった操作の基本的概念を紹介する。 すべての原子顆粒は集合包含関係によって階層化でき、全ての顆粒は粗粒関係によって階層化することができる。 マイクロ視点とマクロ視点から情報システムを見ることにより,マイクロ知識空間とマイクロ知識空間が得られ,そこから粗集合モデルと空間粗粒モデルがそれぞれ得られる。 古典的粗い集合モデルは微小知識空間から誘導される粗い集合モデルの特別な場合であり、空間的粗い粒状モデルは構造の問題解決において重要な役割を果たす。 本研究は,12の単トン増加部分集合公理と12の対応する単トン減少部分集合公理について論じ,それぞれ条件粒度と条件粒度を一般化する。 5つの条件粒度尺度と5つの条件粒度尺度を作成し、それぞれの条件粒度または微細度尺度が対応する12の公理を満たすことを証明した。 さらに、5つの条件粒度エントロピーと5つの条件粒度エントロピーを定義し、それぞれのエントロピーは境界条件の一部のみを満たすが、全ての10個のモノトン条件を満たす。

Subsethood, which is to measure the degree of set inclusion relation, is predominant in fuzzy set theory. This paper introduces some basic concepts of spatial granules, coarse-fine relation, and operations like meet, join, quotient meet and quotient join. All the atomic granules can be hierarchized by set-inclusion relation and all the granules can be hierarchized by coarse-fine relation. Viewing an information system from the micro and the macro perspectives, we can get a micro knowledge space and a micro knowledge space, from which a rough set model and a spatial rough granule model are respectively obtained. The classical rough set model is the special case of the rough set model induced from the micro knowledge space, while the spatial rough granule model will be play a pivotal role in the problem-solving of structures. We discuss twelve axioms of monotone increasing subsethood and twelve corresponding axioms of monotone decreasing supsethood, and generalize subsethood and supsethood to conditional granularity and conditional fineness respectively. We develop five conditional granularity measures and five conditional fineness measures and prove that each conditional granularity or fineness measure satisfies its corresponding twelve axioms although its subsethood or supsethood measure only hold one of the two boundary conditions. We further define five conditional granularity entropies and five conditional fineness entropies respectively, and each entropy only satisfies part of the boundary conditions but all the ten monotone conditions.
翻訳日:2023-09-07 17:06:26 公開日:2023-09-06
# gapエンジニアリングによるトランスモンキュービットにおける準粒子中毒の抑制

Suppression of quasiparticle poisoning in transmon qubits by gap engineering ( http://arxiv.org/abs/2309.02655v1 )

ライセンス: Link先を確認
Plamen Kamenov, Thomas DiNapoli, Michael Gershenson, and Srivatsan Chakram(参考訳) 超低温で動作する様々な超伝導デバイスの性能は、非平衡準粒子の存在によって損なわれる。 超伝導量子ビットにおけるジョセフソン接合の非弾性準粒子(QP)トンネルはデコヒーレンスと急激な励起をもたらし、特に量子誤差の補正を著しく阻害する相関誤差を引き起こす。 本研究は, 超伝導量子プロセッサの主要な構成要素であるal-based transmon qubitsにおける低エネルギー準粒子のトンネル化を抑制するためにgap engineeringを用いる。 QPの潜在的な障壁を実装することにより、接続点を横断するQPトンネルを強く抑制し、電荷パリティを10^3$秒以上保持する。 QPトンネルの抑制はまた、クォービットエネルギー緩和率の低下をもたらす。 ギャップエンジニアリングに対する実証されたアプローチは、ジョセフソン接合を持つ全てのAl系回路で容易に実装できる。

The performance of various superconducting devices operating at ultra-low temperatures is impaired by the presence of non-equilibrium quasiparticles. Inelastic quasiparticle (QP) tunneling across Josephson junctions in superconducting qubits results in decoherence and spurious excitations and, notably, can trigger correlated errors that severely impede quantum error correction. In this work, we use "gap engineering" to suppress the tunneling of low-energy quasiparticles in Al-based transmon qubits, a leading building block for superconducting quantum processors. By implementing potential barriers for QP, we strongly suppress QP tunneling across the junction and preserve charge parity for over $10^3$ seconds. The suppression of QP tunneling also results in a reduction in the qubit energy relaxation rates. The demonstrated approach to gap engineering can be easily implemented in all Al-based circuits with Josephson junctions.
翻訳日:2023-09-07 17:05:59 公開日:2023-09-06
# 大規模言語モデルに対するゼロソース幻覚防止

Zero-Resource Hallucination Prevention for Large Language Models ( http://arxiv.org/abs/2309.02654v1 )

ライセンス: Link先を確認
Junyu Luo, Cao Xiao, Fenglong Ma(参考訳) 様々な領域における大規模言語モデル(LLM)の一般的な使用は、LLMが事実的不正確な情報を生成する事例である「幻覚」の問題に注意を向けている。 言語アシスタントにおける幻覚検出のための既存の技術は、複雑なファジィで特定の自由言語に基づく思考連鎖(cot)技術または解釈可能性の問題に苦しむパラメータベース手法に依存している。 また,幻覚を識別する手法は,その発生を防止できず,命令形式やモデルスタイルの影響により,一貫性に欠ける性能に支障をきたすことができた。 本稿では,入力命令に含まれる概念に対するモデルの親しみ度を評価し,不慣れな概念の場合の応答の生成を抑えることを目的とした,新しい事前検出自己評価手法「 {\method} 」を紹介する。 このアプローチは、不慣れなトピックに反応する人間の能力をエミュレートし、幻覚を減らす。 4つの異なる大規模言語モデルにまたがって {\method} を検証し、既存の手法と比較して一貫して優れた性能を示している。 以上の結果から, LLMアシスタントの幻覚予防戦略への大幅な転換, 信頼性, 適用性, 解釈性の向上が示唆された。

The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as {\method}, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate {\method} across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
翻訳日:2023-09-07 17:05:42 公開日:2023-09-06
# 核近似としての対比学習

Contrastive Learning as Kernel Approximation ( http://arxiv.org/abs/2309.02651v1 )

ライセンス: Link先を確認
Konstantinos Christopher Tsiolis(参考訳) 標準的な教師付き機械学習では、データの入力毎にラベルを提供する必要がある。 多くのアプリケーションドメインの生データはインターネット上で容易に取得できるが、このデータの手動ラベリングは必然的に高価である。 この問題を回避するために、コントラッシブラーニング手法は、大きな未ラベルデータセット上の高次元入力の低次元ベクトル表現(特徴とも呼ばれる)を生成する。 これは、類似の入力が高い内積を持ち、異種入力が特徴空間において低い内積を持つことを強制する対照的な損失関数による訓練によって行われる。 各入力を個別にアノテートするのではなく、類似した異なる入力のペアをサンプリングする手段を定義する。 対照的な特徴は、より小さなラベル付きデータセット上の教師付き学習システムへの入力として提供され、興味のあるタスクの精度を高めることができる。 この論文の目的は、コントラスト損失関数の最小化と、ラベルなしデータから特徴を学習するための事前手法との関係に関する、コントラスト学習の現在の理論的理解の概要を提供することである。 最小化関数が正半定値(PSD)カーネルを暗黙的に近似する一般のコントラスト損失関数に注目する。 後者は函数解析と学習理論においてよく研究された対象であり、空間の要素間の類似性の概念を形式化する。 PSDカーネルは、再生カーネルヒルベルト空間の理論を通じて、特徴の暗黙的な定義を提供する。

In standard supervised machine learning, it is necessary to provide a label for every input in the data. While raw data in many application domains is easily obtainable on the Internet, manual labelling of this data is prohibitively expensive. To circumvent this issue, contrastive learning methods produce low-dimensional vector representations (also called features) of high-dimensional inputs on large unlabelled datasets. This is done by training with a contrastive loss function, which enforces that similar inputs have high inner product and dissimilar inputs have low inner product in the feature space. Rather than annotating each input individually, it suffices to define a means of sampling pairs of similar and dissimilar inputs. Contrastive features can then be fed as inputs to supervised learning systems on much smaller labelled datasets to obtain high accuracy on end tasks of interest. The goal of this thesis is to provide an overview of the current theoretical understanding of contrastive learning, specifically as it pertains to the minimizers of contrastive loss functions and their relationship to prior methods for learning features from unlabelled data. We highlight popular contrastive loss functions whose minimizers implicitly approximate a positive semidefinite (PSD) kernel. The latter is a well-studied object in functional analysis and learning theory that formalizes a notion of similarity between elements of a space. PSD kernels provide an implicit definition of features through the theory of reproducing kernel Hilbert spaces.
翻訳日:2023-09-07 17:05:18 公開日:2023-09-06
# TFBEST:故障予測のための学習可能な位置符号化付きデュアルアスペクト変換器

TFBEST: Dual-Aspect Transformer with Learnable Positional Encoding for Failure Prediction ( http://arxiv.org/abs/2309.02641v1 )

ライセンス: Link先を確認
Rohan Mohapatra and Saptarshi Sengupta(参考訳) データセンターにおけるハードディスクドライブ(hdd)の障害は、破壊的なデータ損失から善意の問題に至るまで、コストがかかります。 HDD障害に対する積極的に監視する重要なツールは、Remaining Useful Life (RUL) のタイムリーな推定である。 この目的のために、HDD(S.M.A.R.T.)で採用されているセルフ監視・分析・報告技術は、これらの必須データストレージデバイスのセキュリティと信頼性の長期維持のために重要なログを提供する。 データ駆動予測モデルはこれまで、これらのS.M.A.R.T.ログとCNN/RNNベースのアーキテクチャを多用してきた。 しかし、彼らは予測されたRUL値の周囲の信頼区間を提供し、またログの非常に長いシーケンスを処理している。 さらに、LSTMベースのアプローチなど、これらのアプローチのいくつかは、本質的にトレーニングが遅く、面倒な機能エンジニアリングオーバーヘッドを抱えています。 これらの課題を克服するために,本研究では,ハードドライブの故障を予測するための時間的融合バイエンコーダセルフアテンショントランスフォーマ(tfbest)という新しいトランスアーキテクチャを提案する。 エンコーダ-デコーダベースのディープラーニング技術で、健康統計シーケンスの理解から得られたコンテキストを強化し、ディスクが失敗する可能性のある日数列を予測する。 本稿では、製造者が時間枠内のハードドライブを置き換えるのに役立つ、新たな信頼度マージン統計も提供する。 シーゲートHDDデータを用いた実験では,Backblaze (2013-現在) の10年間の徹底的なデータに対する試験において,我々の手法は最先端のRUL予測手法よりも有意に優れていた。 HDD故障予測で検証されているが、TFBESTアーキテクチャは他の予後学的な応用に適しており、関連する回帰問題に適用できる可能性がある。

Hard Disk Drive (HDD) failures in datacenters are costly - from catastrophic data loss to a question of goodwill, stakeholders want to avoid it like the plague. An important tool in proactively monitoring against HDD failure is timely estimation of the Remaining Useful Life (RUL). To this end, the Self-Monitoring, Analysis and Reporting Technology employed within HDDs (S.M.A.R.T.) provide critical logs for long-term maintenance of the security and dependability of these essential data storage devices. Data-driven predictive models in the past have used these S.M.A.R.T. logs and CNN/RNN based architectures heavily. However, they have suffered significantly in providing a confidence interval around the predicted RUL values as well as in processing very long sequences of logs. In addition, some of these approaches, such as those based on LSTMs, are inherently slow to train and have tedious feature engineering overheads. To overcome these challenges, in this work we propose a novel transformer architecture - a Temporal-fusion Bi-encoder Self-attention Transformer (TFBEST) for predicting failures in hard-drives. It is an encoder-decoder based deep learning technique that enhances the context gained from understanding health statistics sequences and predicts a sequence of the number of days remaining before a disk potentially fails. In this paper, we also provide a novel confidence margin statistic that can help manufacturers replace a hard-drive within a time frame. Experiments on Seagate HDD data show that our method significantly outperforms the state-of-the-art RUL prediction methods during testing over the exhaustive 10-year data from Backblaze (2013-present). Although validated on HDD failure prediction, the TFBEST architecture is well-suited for other prognostics applications and may be adapted for allied regression problems.
翻訳日:2023-09-07 17:04:54 公開日:2023-09-06
# epi-curriculum: ニューラルマシン翻訳における低リソース領域適応のためのエピソディックカリキュラム学習

Epi-Curriculum: Episodic Curriculum Learning for Low-Resource Domain Adaptation in Neural Machine Translation ( http://arxiv.org/abs/2309.02640v1 )

ライセンス: Link先を確認
Keyu Chen, Di Zhuang, Mingchen Li, J. Morris Chang(参考訳) ニューラルマシン翻訳(NMT)モデルは成功したが、限られた数のデータで新しいドメインを翻訳する際の性能は依然として劣っている。 本稿では,低リソース領域適応(DA)に対処する新しい手法であるEpi-Curriculumを提案する。 エピソディックトレーニングフレームワークは、エンコーダ/デコーダを経験の浅いデコーダ/エンコーダにエピソディカルに露出させることで、モデルのドメインシフトに対する堅牢性を高める。 識別されたカリキュラム学習は、ノイズのあるデータをフィルタリングし、学習プロセスをより簡単なタスクからより難しいタスクへと徐々に導くことにより、モデルの適応性を向上させる。 英語・ドイツ語・英語・ルーマニア語訳実験 (i)エピクルクルクルムは、見かけ上及び見当たらない領域におけるモデルのロバスト性と適応性の両方を改善する。 (ii)当社のエピソディックトレーニングフレームワークは、エンコーダとデコーダのドメインシフトに対する堅牢性を高めます。

Neural Machine Translation (NMT) models have become successful, but their performance remains poor when translating on new domains with a limited number of data. In this paper, we present a novel approach Epi-Curriculum to address low-resource domain adaptation (DA), which contains a new episodic training framework along with denoised curriculum learning. Our episodic training framework enhances the model's robustness to domain shift by episodically exposing the encoder/decoder to an inexperienced decoder/encoder. The denoised curriculum learning filters the noised data and further improves the model's adaptability by gradually guiding the learning process from easy to more difficult tasks. Experiments on English-German and English-Romanian translation show that: (i) Epi-Curriculum improves both model's robustness and adaptability in seen and unseen domains; (ii) Our episodic training framework enhances the encoder and decoder's robustness to domain shift.
翻訳日:2023-09-07 17:04:24 公開日:2023-09-06
# ネットワーク校正のための信頼性と確実性の多クラスアライメント

Multiclass Alignment of Confidence and Certainty for Network Calibration ( http://arxiv.org/abs/2309.02636v1 )

ライセンス: Link先を確認
Vinith Kugathasan and Muhammad Haris Khan(参考訳) ディープニューラルネットワーク(DNN)は、いくつかの挑戦的な領域において最先端の技術を推し進める上で大きな一歩を踏み出した。 最近の研究では、自信過剰な予測をする傾向があることが示されている。 これにより、特に安全クリティカルなアプリケーションにおいて、モデル予測に対する全体的な信頼が大幅に低下する。 モデルキャリブレーションの改善の初期の作業は、限られたパラメータに依存し、ホールドアウトセットを必要とする後処理技術を採用している。 モデルパラメータを全て含む最近の列車時校正法では、後処理法を上回ることができる。 そこで本研究では,予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる,シンプルなプラグアンドプレイ補助損失を特徴とする列車時校正手法を提案する。 モデルミスカバリレーションはその予測的確実性に直接関連しているという観測に基づいており、平均信頼度と確実性の間の高いギャップは、分布内予測と分布外予測の両方において不十分なキャリブレーションとなる。 この知見に照らして、提案された損失は、自信(または自信の低い)モデルに対して、事前のソフトマックス分布に低い(あるいは高い)展開を提供することを明示的に促します。 領域内,領域外,非視覚的認識,医用画像分類のシナリオを網羅した10個の挑戦的データセットに対する大規模な実験により,本手法が領域内および領域外の両方で最先端の校正性能を達成することを示す。 私たちのコードとモデルは公開されます。

Deep neural networks (DNNs) have made great strides in pushing the state-of-the-art in several challenging domains. Recent studies reveal that they are prone to making overconfident predictions. This greatly reduces the overall trust in model predictions, especially in safety-critical applications. Early work in improving model calibration employs post-processing techniques which rely on limited parameters and require a hold-out set. Some recent train-time calibration methods, which involve all model parameters, can outperform the postprocessing methods. To this end, we propose a new train-time calibration method, which features a simple, plug-and-play auxiliary loss known as multi-class alignment of predictive mean confidence and predictive certainty (MACC). It is based on the observation that a model miscalibration is directly related to its predictive certainty, so a higher gap between the mean confidence and certainty amounts to a poor calibration both for in-distribution and out-of-distribution predictions. Armed with this insight, our proposed loss explicitly encourages a confident (or underconfident) model to also provide a low (or high) spread in the presoftmax distribution. Extensive experiments on ten challenging datasets, covering in-domain, out-domain, non-visual recognition and medical image classification scenarios, show that our method achieves state-of-the-art calibration performance for both in-domain and out-domain predictions. Our code and models will be publicly released.
翻訳日:2023-09-07 17:04:07 公開日:2023-09-06
# k-meansにおけるoutlier Robust Seedingの改良

Improved Outlier Robust Seeding for k-means ( http://arxiv.org/abs/2309.02710v1 )

ライセンス: Link先を確認
Amit Deshpande and Rameshwar Pratap(参考訳) k$-meansは一般的なクラスタリングの目標だが、本質的には非ロバストであり、外れ値に敏感である。 一般的なシードや初期化である$k$-means++は$D^{2}$サンプリングを使用し、証明可能な$O(\log k)$ approximation guarantee \cite{AV2007}が付属している。 しかし、逆雑音や異常値が存在する場合、サンプリングした$d^{2}$は、異常値クラスタではなく遠く離れた外れ値から中心を選択する傾向が強いため、その近似は、異常値に対する$k$-means の解を保証しない。 与えられたデータのうち、外れ値が一定の割合を占めると仮定すると、$D^2$のサンプリング分布において単純な変種が提案される。 我々のアルゴリズムは、$O(ndk)$タイムで実行され、$O(k)$クラスタを出力し、最適値よりも極端に多くのポイントを破棄し、証明可能な$O(1)$近似を保証する。 アルゴリズムは、o(k)$クラスタではなく、正確に$k$クラスタを出力するように変更することもでき、実行時間は$n$と$d$で線形に保たれます。 これは、lpリラクゼーションと丸い \cite{charikar}, \cite{krishnaswamyls18}, \textit{robust $k$-means++} \cite{deshpandekp20} に基づく堅牢な $k$-means に対する以前の結果に対する改善である。 実験結果から,本アルゴリズムの利点は,k$-means++~\cite{av2007},uniform random seeding,greedy sampling for $k$ means~\cite{tkmeanspp},ロバストな$k$-means++~\cite{deshpandekp20} を,従来の研究で使用した標準実世界および合成データセット上で示した。 我々の提案は、$k$-means++ \cite{Bahmani,BachemL017} のスケーラビリティと高速な並列実装に容易に対応でき、outliers \cite{feldman2007ptas,langberg2010universal,feldman 2011unified} の存在下でコアセットの構築に独立した関心を持っている。

The $k$-means is a popular clustering objective, although it is inherently non-robust and sensitive to outliers. Its popular seeding or initialization called $k$-means++ uses $D^{2}$ sampling and comes with a provable $O(\log k)$ approximation guarantee \cite{AV2007}. However, in the presence of adversarial noise or outliers, $D^{2}$ sampling is more likely to pick centers from distant outliers instead of inlier clusters, and therefore its approximation guarantees \textit{w.r.t.} $k$-means solution on inliers, does not hold. Assuming that the outliers constitute a constant fraction of the given data, we propose a simple variant in the $D^2$ sampling distribution, which makes it robust to the outliers. Our algorithm runs in $O(ndk)$ time, outputs $O(k)$ clusters, discards marginally more points than the optimal number of outliers, and comes with a provable $O(1)$ approximation guarantee. Our algorithm can also be modified to output exactly $k$ clusters instead of $O(k)$ clusters, while keeping its running time linear in $n$ and $d$. This is an improvement over previous results for robust $k$-means based on LP relaxation and rounding \cite{Charikar}, \cite{KrishnaswamyLS18} and \textit{robust $k$-means++} \cite{DeshpandeKP20}. Our empirical results show the advantage of our algorithm over $k$-means++~\cite{AV2007}, uniform random seeding, greedy sampling for $k$ means~\cite{tkmeanspp}, and robust $k$-means++~\cite{DeshpandeKP20}, on standard real-world and synthetic data sets used in previous work. Our proposal is easily amenable to scalable, faster, parallel implementations of $k$-means++ \cite{Bahmani,BachemL017} and is of independent interest for coreset constructions in the presence of outliers \cite{feldman2007ptas,langberg2010universal,feldman2011unified}.
翻訳日:2023-09-07 16:58:42 公開日:2023-09-06
# HAE-RAE Bench: 言語モデルにおける韓国語知識の評価

HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models ( http://arxiv.org/abs/2309.02706v1 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Suwan Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim(参考訳) 大規模コーパスに事前学習された大規模言語モデル(llm)は、幅広いタスクにわたって顕著な能力を発揮するが、非英語言語への注目はこの分野で限定されている。 このギャップに対処し,韓国語・文化における言語モデルの習熟度を評価するために,語彙,歴史,一般知識を含む6つのタスクをカバーするhae-raeベンチを提案する。 本ベンチマークでは, GPT-3.5のような包括的, 普遍的モデルに対して, LLSM(Large Language-Specific Models)を用いることの潜在的な利点を強調した。 本研究は,GPT-3.5の約13倍のモデルで,言語固有の知識検索において,同様の性能を示すことを示す。 この観察は、プロレベルの言語特化モデルを訓練するための均質コーパスの重要性を強調している。 それとは対照的に、構造化された回答を生成するよう指示されたとき、これらの小さなLMのパープレッション性能の低下も観察する。

Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.
翻訳日:2023-09-07 16:57:47 公開日:2023-09-06
# 対向プロンプトに対するllm安全性の検証

Certifying LLM Safety against Adversarial Prompting ( http://arxiv.org/abs/2309.02705v1 )

ライセンス: Link先を確認
Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Soheil Feizi and Hima Lakkaraju(参考訳) 一般向けにリリースされた大型言語モデル(llm)は、出力が安全であることを保証するためにguardrailsを組み込んでいる。 整列型言語モデルは、有害なコンテンツを生成するユーザの要求を減らすべきである。 しかし、このような安全対策は、モデルの安全ガードを回避し有害なコンテンツを生み出すために悪意ある設計のトークンシーケンスを含む敵のプロンプトに対して脆弱である。 本稿では,検証可能な安全性保証によって敵のプロンプトから防御する最初のフレームワークである消去・チェックを紹介する。 トークンを個別に消去し、セーフティフィルタを用いて結果のサブシーケンスを検査する。 提案手法では, サブシーケンスや入力プロンプトがフィルタによって有害であると検出された場合, 入力プロンプトを有害であるとラベル付けする。 これは、有害なプロンプトの特定のサイズまで敵の修正が有害であることも保証する。 我々は3つの攻撃モードに対して防御する。 一 相手方の接尾辞で、プロンプトの終わりに相手方の接尾辞を付すもの 二 相手方の挿入であって、相手方のシーケンスがプロンプトの中央のどこにでも挿入されているもの 三 敵トークンをそのプロンプトにおいて任意の位置に挿入する場合であって、必ずしも連続ブロックではないもの 実験の結果,本手法は有害なプロンプトに対して高い安全性を保証し,安全プロンプトにおいて良好な性能を維持していることが示された。 例えば、長さ20の逆接接尾辞に対して、有害なプロンプトの93%を確実に検出し、安全フィルタとしてオープンソースの言語モデルLlama2を用いて、安全プロンプトの94%を安全であるとラベル付けする。

Large language models (LLMs) released for public use incorporate guardrails to ensure their output is safe, often referred to as "model alignment." An aligned language model should decline a user's request to produce harmful content. However, such safety measures are vulnerable to adversarial prompts, which contain maliciously designed token sequences to circumvent the model's safety guards and cause it to produce harmful content. In this work, we introduce erase-and-check, the first framework to defend against adversarial prompts with verifiable safety guarantees. We erase tokens individually and inspect the resulting subsequences using a safety filter. Our procedure labels the input prompt as harmful if any subsequences or the input prompt are detected as harmful by the filter. This guarantees that any adversarial modification of a harmful prompt up to a certain size is also labeled harmful. We defend against three attack modes: i) adversarial suffix, which appends an adversarial sequence at the end of the prompt; ii) adversarial insertion, where the adversarial sequence is inserted anywhere in the middle of the prompt; and iii) adversarial infusion, where adversarial tokens are inserted at arbitrary positions in the prompt, not necessarily as a contiguous block. Empirical results demonstrate that our technique obtains strong certified safety guarantees on harmful prompts while maintaining good performance on safe prompts. For example, against adversarial suffixes of length 20, it certifiably detects 93% of the harmful prompts and labels 94% of the safe prompts as safe using the open source language model Llama 2 as the safety filter.
翻訳日:2023-09-07 16:57:31 公開日:2023-09-06
# 画像分類のための遺伝子誘発マルチモーダル事前学習

Gene-induced Multimodal Pre-training for Image-omic Classification ( http://arxiv.org/abs/2309.02702v1 )

ライセンス: Link先を確認
Ting Jin and Xingran Xie and Renjie Wan and Qingli Li and Yan Wang(参考訳) ゲノムアッセイと統合した腫瘍微小環境の組織学的解析は、現代の医学におけるほとんどのがんの標準である。 本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習(GiMP)フレームワークを提案する。 本研究は,(1)gigapixel wsisと数万の遺伝子からの患者レベルの特徴抽出の難しさ,(2)高次関連性モデリングを考慮した効果的な融合の課題に対処することを目的としている。 具体的には,まず,遺伝子発現コホートにおける大域的構造的特徴を捉えるために,グループ多頭自己結合型遺伝子エンコーダを提案する。 異なる組織に潜伏する病理特性を捉えるために,マスクパッチモデリングパラダイム (MPM) を設計した。 マスク戦略は、wsiのパッチ埋め込みの固定長連続部分列をランダムにマスキングする。 最後に,ペア型モダリティの分類トークンを組み合わせて,高次関連性と判別的患者レベル情報を学習するための三重項学習モジュールを提案する。 TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。 コードはhttps://github.com/huangwudiduan/GIMPで公開されている。

Histology analysis of the tumor micro-environment integrated with genomic assays is the gold standard for most cancers in modern medicine. This paper proposes a Gene-induced Multimodal Pre-training (GiMP) framework, which jointly incorporates genomics and Whole Slide Images (WSIs) for classification tasks. Our work aims at dealing with the main challenges of multi-modality image-omic classification w.r.t. (1) the patient-level feature extraction difficulties from gigapixel WSIs and tens of thousands of genes, and (2) effective fusion considering high-order relevance modeling. Concretely, we first propose a group multi-head self-attention gene encoder to capture global structured features in gene expression cohorts. We design a masked patch modeling paradigm (MPM) to capture the latent pathological characteristics of different tissues. The mask strategy is randomly masking a fixed-length contiguous subsequence of patch embeddings of a WSI. Finally, we combine the classification tokens of paired modalities and propose a triplet learning module to learn high-order relevance and discriminative patient-level information.After pre-training, a simple fine-tuning can be adopted to obtain the classification results. Experimental results on the TCGA dataset show the superiority of our network architectures and our pre-training framework, achieving 99.47% in accuracy for image-omic classification. The code is publicly available at https://github.com/huangwudiduan/GIMP.
翻訳日:2023-09-07 16:57:02 公開日:2023-09-06
# 視覚モデルと言語モデルにおける句の接地とタスクパフォーマンスに関する共同研究

A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models ( http://arxiv.org/abs/2309.02691v1 )

ライセンス: Link先を確認
Noriyuki Kojima, Hadar Averbuch-Elor, Yoav Artzi(参考訳) 視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。 しかし、この基底を現代のモデルで観察することは複雑であり、たとえそのタスクが一般化に導電性のある方法で対処されたとしても、一般に行われることが予想される。 本稿では,タスク性能と句のグラウンド化を共同で研究する枠組みを提案し,両者の関係を研究するための3つのベンチマークを提案する。 この結果から,現代モデルでは,句の理解能力と課題解決能力の矛盾が示されている。 本稿では,地中フラージングアノテーションのブルートフォーストレーニングによってこれに対処する方法を示し,その生成するダイナミクスを分析する。 コードと利用はhttps://github.com/lil-lab/phrase_grounding.com/。

Key to tasks that require reasoning about natural language in visual contexts is grounding words and phrases to image regions. However, observing this grounding in contemporary models is complex, even if it is generally expected to take place if the task is addressed in a way that is conductive to generalization. We propose a framework to jointly study task performance and phrase grounding, and propose three benchmarks to study the relation between the two. Our results show that contemporary models demonstrate inconsistency between their ability to ground phrases and solve tasks. We show how this can be addressed through brute-force training on ground phrasing annotations, and analyze the dynamics it creates. Code and at available at https://github.com/lil-lab/phrase_grounding.
翻訳日:2023-09-07 16:56:39 公開日:2023-09-06
# 量子減衰高調波発振器の有効記述:バトマン双対系の再検討

Effective Description of the Quantum Damped Harmonic Oscillator: Revisiting the Bateman Dual System ( http://arxiv.org/abs/2309.02689v1 )

ライセンス: Link先を確認
Carlos Raul Javier Valdez, Hector Hugo Hernandez Hernandez, and Guillermo Chac\'on Acosta(参考訳) 本稿では、モーメント量子力学として知られる枠組みを用いて、減衰調和振動子(qdho)の量子化スキームを提案する。 本手法は、位相空間変数が観測可能および量子分散の期待値によって与えられる、拡張古典ハミルトニアンから導かれる半古典力学系に依存する。 この研究の意義は、オープン量子システム(OQS)の効果的な記述の基礎となる可能性と、量子力学における散逸の記述にある。 初期古典的枠組みとしてバトマンの双対モデルを用い、量子化を行うことにより、我々の記述が確立されたリンドブラッドマスター方程式と非常によく一致することを証明した。 さらに,本手法はoqsの文脈においてロバスト性と幅広い適用性を示し,様々な現象を研究するための汎用的かつ強力なツールである。 我々は、減衰調和振動子を量子化し、オープン量子系の振舞いに光を遮る効果的な手段を提供することにより、量子物理学の発展に貢献する。

In this work, we present a quantization scheme for the damped harmonic oscillator (QDHO) using a framework known as momentous quantum mechanics. Our method relies on a semiclassical dynamical system derived from an extended classical Hamiltonian, where the phase-space variables are given by expectation values of observables and quantum dispersions. The significance of our study lies in its potential to serve as a foundational basis for the effective description of open quantum systems (OQS), and the description of dissipation in quantum mechanics. By employing the Bateman's dual model as the initial classical framework, and undergoing quantization, we demonstrate that our description aligns exceptionally well with the well-established Lindblad master equation. Furthermore, our approach exhibits robustness and broad applicability in the context of OQS, rendering it a versatile and powerful tool for studying various phenomena. We intend to contribute to the advancement of quantum physics by providing an effective means of quantizing the damped harmonic oscillator and shedding light on the behavior of open quantum systems.
翻訳日:2023-09-07 16:56:26 公開日:2023-09-06
# Diffusion-EDFs: 視覚ロボットマニピュレーションのためのSE(3)に基づく2-equivariant Denoising Generative Modeling

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation ( http://arxiv.org/abs/2309.02685v1 )

ライセンス: Link先を確認
Hyunwoo Ryu, Jiwoo Kim, Junwoo Chang, Hyun Seok Ahn, Joohwan Seo, Taehan Kim, Jongeun Choi, Roberto Horowitz(参考訳) 近年の研究では、同変法がロボット学習におけるデータ効率、一般化性、ロバスト性を大幅に改善できることが実証されている。 一方,確率的行動を伴う実演からロボット操作学習への有望なアプローチとして,拡散型生成モデリングが注目されている。 本稿では,空間的ロト変換等価性,すなわち拡散生成モデルに対するSE(3)-等価性を含む新しい手法である拡散EDFを提案する。 モデルアーキテクチャにse(3)等価性を統合することで,提案手法は顕著なデータ効率を示し,エンドツーエンドの効果的なトレーニングには5~10タスクのデモンストレーションしか必要としないことを示した。 さらに,本手法は,従来の拡散型操作法よりも優れた一般化性を示す。

Recent studies have verified that equivariant methods can significantly improve the data efficiency, generalizability, and robustness in robot learning. Meanwhile, denoising diffusion-based generative modeling has recently gained significant attention as a promising approach for robotic manipulation learning from demonstrations with stochastic behaviors. In this paper, we present Diffusion-EDFs, a novel approach that incorporates spatial roto-translation equivariance, i.e., SE(3)-equivariance to diffusion generative modeling. By integrating SE(3)-equivariance into our model architectures, we demonstrate that our proposed method exhibits remarkable data efficiency, requiring only 5 to 10 task demonstrations for effective end-to-end training. Furthermore, our approach showcases superior generalizability compared to previous diffusion-based manipulation methods.
翻訳日:2023-09-07 16:56:07 公開日:2023-09-06
# 膝X線画像の分類精度の向上:自動画像ラベリング手法

Improving Image Classification of Knee Radiographs: An Automated Image Labeling Approach ( http://arxiv.org/abs/2309.02681v1 )

ライセンス: Link先を確認
Jikai Zhang, Carlos Santos, Christine Park, Maciej Mazurowski, Roy Colglazier(参考訳) 膝の異常を診断するために深層学習モデルのトレーニングに使用できる、多くのx線画像が膝のx線治療で利用可能である。 しかし、これらの画像は、人間のアノテーションの制限のため、簡単に利用可能なラベルを含まない。 本研究の目的は, 画像分類モデルの改善を図り, 正常膝画像と関節形成術以前の画像とを識別する自動ラベリング手法を開発することである。 自動ラベラーはラベル付きデータの小さなセットで訓練され、ずっと大きなラベル付きデータを自動的にラベル付けし、さらに膝x線診断のための画像分類性能を改善した。 7,382人の患者を用いてアプローチを開発し、637人の患者で検証した。 AUC-ROC 0.894, 異常 AUC-ROC 0.896, 関節形成 AUC-ROC 0.990) とベースラインモデル (WAUC=0.857, 正常 AUC-ROC 0.842, 異常 AUC-ROC 0.848, 関節形成 AUC-ROC 0.987) を比較した。 DeLong 試験では, 正常 (p-value<0.002) と異常 (p-value<0.001) 画像に有意な改善が認められた。 以上の結果より, 自動ラベリング手法により, 画像診断における画像分類の精度が向上し, 患者のケアや大規模な膝のデータセットのキュレーションが容易となった。

Large numbers of radiographic images are available in knee radiology practices which could be used for training of deep learning models for diagnosis of knee abnormalities. However, those images do not typically contain readily available labels due to limitations of human annotations. The purpose of our study was to develop an automated labeling approach that improves the image classification model to distinguish normal knee images from those with abnormalities or prior arthroplasty. The automated labeler was trained on a small set of labeled data to automatically label a much larger set of unlabeled data, further improving the image classification performance for knee radiographic diagnosis. We developed our approach using 7,382 patients and validated it on a separate set of 637 patients. The final image classification model, trained using both manually labeled and pseudo-labeled data, had the higher weighted average AUC (WAUC: 0.903) value and higher AUC-ROC values among all classes (normal AUC-ROC: 0.894; abnormal AUC-ROC: 0.896, arthroplasty AUC-ROC: 0.990) compared to the baseline model (WAUC=0.857; normal AUC-ROC: 0.842; abnormal AUC-ROC: 0.848, arthroplasty AUC-ROC: 0.987), trained using only manually labeled data. DeLong tests show that the improvement is significant on normal (p-value<0.002) and abnormal (p-value<0.001) images. Our findings demonstrated that the proposed automated labeling approach significantly improves the performance of image classification for radiographic knee diagnosis, allowing for facilitating patient care and curation of large knee datasets.
翻訳日:2023-09-07 16:55:53 公開日:2023-09-06
# 変形型変圧器を用いた視覚追跡の効率的な訓練

Efficient Training for Visual Tracking with Deformable Transformer ( http://arxiv.org/abs/2309.02676v1 )

ライセンス: Link先を確認
Qingmao Wei, Guotian Zeng, Bi Zeng(参考訳) 最近のトランスフォーマーベースの視覚追跡モデルは優れた性能を示している。 しかしながら、以前の作業はリソース集約的で、gpuのトレーニング時間が長くなり、非効率なトレーニング方法と畳み込みベースのターゲットヘッドによって推論中に高いgflopsが発生している。 このリソース利用は、現実世界のアプリケーションには適さない。 本稿では,エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを提案する。 本フレームワークでは,変形可能な変換器デコーダを目標とする効率的なエンコーダデコーダ構造を用いて,従来の畳み込みヘッドよりも高い空間幅を実現し,GFLOPを低減させる。 トレーニングでは,新しい1対多ラベルの割り当てと補助的復調手法を導入し,モデルの収束を著しく加速する。 提案手法の有効性と有効性を確認する総合実験を行った。 例えば、DETRackはベースラインに必要なトレーニングエポックの20%しか使用せず、GOT-10kベンチマークに挑戦する72.9%のAOを達成し、すべてのトランスフォーマーベースのトラッカーよりも低いGFLOPで動作する。

Recent Transformer-based visual tracking models have showcased superior performance. Nevertheless, prior works have been resource-intensive, requiring prolonged GPU training hours and incurring high GFLOPs during inference due to inefficient training methods and convolution-based target heads. This intensive resource use renders them unsuitable for real-world applications. In this paper, we present DETRack, a streamlined end-to-end visual object tracking framework. Our framework utilizes an efficient encoder-decoder structure where the deformable transformer decoder acting as a target head, achieves higher sparsity than traditional convolution heads, resulting in decreased GFLOPs. For training, we introduce a novel one-to-many label assignment and an auxiliary denoising technique, significantly accelerating model's convergence. Comprehensive experiments affirm the effectiveness and efficiency of our proposed method. For instance, DETRack achieves 72.9% AO on challenging GOT-10k benchmarks using only 20% of the training epochs required by the baseline, and runs with lower GFLOPs than all the transformer-based trackers.
翻訳日:2023-09-07 16:55:13 公開日:2023-09-06
# RLSynC: シントーン補完のためのオフラインオンライン強化学習

RLSynC: Offline-Online Reinforcement Learning for Synthon Completion ( http://arxiv.org/abs/2309.02671v1 )

ライセンス: Link先を確認
Frazier N. Baker, Ziqi Chen, and Xia Ning(参考訳) レトロ合成(Retro synthesis)は、反応可能な反応分子の集合が望ましい生成物を形成する過程である。 合成反応の逆論理を模倣する半テンポレートベースの逆合成法は、まず生成物の反応中心を予測し、その結果のシンソンを反応剤に戻す。 これらの手法は、合成計画に必要とされる解釈可能性と高実用性を可能にする。 セミテンプレート法におけるシントーン補完のためのオフラインオンライン強化学習法 RLSynC を開発した。 rlsyncは1つのエージェントを各シントンに割り当て、それぞれが同期した方法でアクションをステップバイステップで実行することでシントンを完了する。 RLSynCはオフライントレーニングエピソードとオンラインインタラクションの両方からポリシーを学び、RSynCは新しい反応空間を探索する。 RLSynCは、生成物を合成する際に予測された反応物質の可能性を評価するために前方合成モデルを使用し、したがって作用探索を導く。 RLSynCと最先端の逆合成法を比較した。 実験の結果, RLSynCはこれらの手法よりも14.9%, レトロ合成では14.0%向上し, 合成計画におけるその可能性を強調した。

Retrosynthesis is the process of determining the set of reactant molecules that can react to form a desired product. Semi-template-based retrosynthesis methods, which imitate the reverse logic of synthesis reactions, first predict the reaction centers in the products, and then complete the resulting synthons back into reactants. These methods enable necessary interpretability and high practical utility to inform synthesis planning. We develop a new offline-online reinforcement learning method RLSynC for synthon completion in semi-template-based methods. RLSynC assigns one agent to each synthon, all of which complete the synthons by conducting actions step by step in a synchronized fashion. RLSynC learns the policy from both offline training episodes and online interactions which allow RLSynC to explore new reaction spaces. RLSynC uses a forward synthesis model to evaluate the likelihood of the predicted reactants in synthesizing a product, and thus guides the action search. We compare RLSynC with the state-of-the-art retrosynthesis methods. Our experimental results demonstrate that RLSynC can outperform these methods with improvement as high as 14.9% on synthon completion, and 14.0% on retrosynthesis, highlighting its potential in synthesis planning.
翻訳日:2023-09-07 16:54:52 公開日:2023-09-06
# 拡張訓練による自動評価のためのルーブリックなアプローチ

Rubric-Specific Approach to Automated Essay Scoring with Augmentation Training ( http://arxiv.org/abs/2309.02740v1 )

ライセンス: Link先を確認
Brian Cho, Youngbin Jang, Jaewoong Yoon(参考訳) 主観的応答の自動評価に対するニューラルベースアプローチは、従来のルールベースおよび特徴工学指向のソリューションよりも優れた性能と効率を示した。 しかし,近年の研究では,モデルトレーニングと検証において自動エッセイ評価に必須の粗末な項目を適切に考慮していないため,提案するニューラルソリューションが人間のレーダの十分な代替物であるかどうかは不明である。 本稿では,学生評価自動データセットにおいて,先行研究で見落とされた特徴や機能を学習し,最先端のパフォーマンスを保ちながら,自動スコアリングモデルを訓練し,テストする一連のデータ拡張操作を提案する。

Neural based approaches to automatic evaluation of subjective responses have shown superior performance and efficiency compared to traditional rule-based and feature engineering oriented solutions. However, it remains unclear whether the suggested neural solutions are sufficient replacements of human raters as we find recent works do not properly account for rubric items that are essential for automated essay scoring during model training and validation. In this paper, we propose a series of data augmentation operations that train and test an automated scoring model to learn features and functions overlooked by previous works while still achieving state-of-the-art performance in the Automated Student Assessment Prize dataset.
翻訳日:2023-09-07 16:46:42 公開日:2023-09-06
# 量子モンテカルロにインスパイアされた高速シミュレートアニーリング

Fast Simulated Annealing inspired by Quantum Monte Carlo ( http://arxiv.org/abs/2309.02735v1 )

ライセンス: Link先を確認
Kiyotaka Murashima(参考訳) 量子モンテカルロ (QMC) は量子アニーリング (QA) のシミュレーションで一般的に用いられるが, ヒューリスティックアプローチとしてのQMCは最小エネルギーを見つけるのに多くの時間を要するため, 非常に困難である。 主に鈴木トロッター分解に由来するトロッター層の存在に依存している。 本稿では,数学的には厳密ではないが,短い時間を要する新しい手法を提案する。 従来のQMC法と比較して,有効性と有利性についても論じる。

Quantum Monte Carlo (QMC) is commonly used in simulations for Quantum Annealing (QA), but QMC as a heuristic approach has great difficulty in that it takes much time to find minimum energy. It mainly depends on the existence of a trotter layer derived from Suzuki-Trotter decomposition. In this paper, I propose a new approach to take a short time, although it isn't rigorous mathematically. Its validity and advantageous points are also discussed, in comparison with conventional QMC methods.
翻訳日:2023-09-07 16:46:28 公開日:2023-09-06
# HC3 Plus:人間のChatGPT比較コーパス

HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus ( http://arxiv.org/abs/2309.02731v1 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu(参考訳) ChatGPTはその優れたパフォーマンスのために大きな関心を集めているが、その潜在的なリスク、特に訓練されていない人間が識別することが困難なAIGC(AIGC)の発見について、人々はますます懸念している。 現在のデータセットは、ChatGPT生成したテキストを主に質問回答を中心に検出するために使用されているが、要約、翻訳、パラフレーズ化といった意味不変性を持つタスクを無視する傾向にある。 本研究は,意味不変タスクにおけるモデル生成テキストの検出が困難であることを示す。 このギャップを埋めるため、私たちは、セマンティック不変タスクを含む、以前の作業よりも多くの種類のタスクを検討する、より広範囲で包括的なデータセットを導入します。 さらに、多数のタスク命令の微調整後のモデルは、強力なパフォーマンスを示している。 従来の成功により,tk-instructの微調整をさらに指導し,より強力な検出システムを構築した。 実験の結果,提案検出器は従来のRoBERTa検出器よりも優れていた。

ChatGPT has gained significant interest due to its impressive performance, but people are increasingly concerned about its potential risks, particularly around the detection of AI-generated content (AIGC), which is often difficult for untrained humans to identify. Current datasets utilized for detecting ChatGPT-generated text primarily center around question-answering, yet they tend to disregard tasks that possess semantic-invariant properties, such as summarization, translation, and paraphrasing. Our primary studies demonstrate that detecting model-generated text on semantic-invariant tasks is more difficult. To fill this gap, we introduce a more extensive and comprehensive dataset that considers more types of tasks than previous work, including semantic-invariant tasks. In addition, the model after a large number of task instruction fine-tuning shows a strong powerful performance. Owing to its previous success, we further instruct fine-tuning Tk-instruct and built a more powerful detection system. Experimental results show that our proposed detector outperforms the previous state-of-the-art RoBERTa-based detector.
翻訳日:2023-09-07 16:46:18 公開日:2023-09-06
# Stylebook: 音声データのみを用いた任意の音声変換のためのコンテンツ依存音声スタイルモデリング

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data ( http://arxiv.org/abs/2309.02730v1 )

ライセンス: Link先を確認
Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser(参考訳) 最近の音声変換モデルの多くは、対象音声のスタイル情報を変換音声に転送することに成功したが、それでも対象話者の発話スタイルを忠実に再現する能力に欠けていた。 本研究では,対象発話からリッチなスタイル情報を抽出し,テキストの書き起こしや話者ラベリングを必要とせずにソース音声コンテンツに効率的に転送する手法を提案する。 提案手法では,音声内容の異なる話者の発話スタイルを収集するために,自己教師付き学習(ssl)モデルを用いた注意機構を導入する。 スタイルはスタイルブックと呼ばれる埋め込みのセットで表現される。 次のステップでは、スタイルブックにソース音声の音声コンテンツが添付され、ソースコンテンツ毎の最終ターゲットスタイルが決定される。 最後に、ソース音声から抽出されたコンテンツ情報とコンテンツ依存のターゲットスタイル埋め込みとを拡散型デコーダに入力し、変換された音声メルスペクトルを生成する。 実験結果から,提案手法と拡散型生成モデルを組み合わせることで,ベースラインモデルと比較して音声変換タスクの話者類似性が向上し,長い発話による計算複雑性の増大が抑制された。

While many recent any-to-any voice conversion models succeed in transferring some target speech's style information to the converted speech, they still lack the ability to faithfully reproduce the speaking style of the target speaker. In this work, we propose a novel method to extract rich style information from target utterances and to efficiently transfer it to source speech content without requiring text transcriptions or speaker labeling. Our proposed approach introduces an attention mechanism utilizing a self-supervised learning (SSL) model to collect the speaking styles of a target speaker each corresponding to the different phonetic content. The styles are represented with a set of embeddings called stylebook. In the next step, the stylebook is attended with the source speech's phonetic content to determine the final target style for each source content. Finally, content information extracted from the source speech and content-dependent target style embeddings are fed into a diffusion-based decoder to generate the converted speech mel-spectrogram. Experiment results show that our proposed method combined with a diffusion-based generative model can achieve better speaker similarity in any-to-any voice conversion tasks when compared to baseline models, while the increase in computational complexity with longer utterances is suppressed.
翻訳日:2023-09-07 16:46:02 公開日:2023-09-06
# オープンドメイン科学仮説発見のための大規模言語モデル

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery ( http://arxiv.org/abs/2309.02726v1 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, Erik Cambria(参考訳) 仮説的帰納は、科学者が世界を観察し、それらの観察を説明する仮説を提案しようとするときに、主要な推論タイプとして認識される。 仮説誘導に関する過去の研究は、(1)データセットの観察アノテーションは生のウェブコーパスではなく、手作業で選択された文である(近接ドメイン設定で解釈する)こと、(2)基礎的真理仮説アノテーションは概ね常識的な知識であり、タスクの難易度を低くする、という制限がある。 本稿では,社会科学誌上で発表された50の論文からなる,社会科学学術的仮説発見のための最初のnlpデータセットを提案する。 論文で仮説を策定するのに必要となる生のウェブコーパスもデータセットに収集され、有効な(人間研究者にとって)仮説を自動生成するシステムを構築するという最終目標は、生のウェブコーパスの山だけに限られる。 新たなデータセットは,(1)生のウェブコーパスを観察に利用する必要があり,(2)人間性にはさらに新しい仮説を提案するため,従来の課題に対処することができる。 タスク用にマルチモジュールフレームワークが開発され、ベースフレームワークのパフォーマンス向上を実証的に示す3つのフィードバックメカニズムが開発されている。 最後に,GPT-4に基づく評価と社会科学の専門家による評価の両面で高い性能を示す。

Hypothetical induction is recognized as the main reasoning type when scientists make observations about the world and try to propose hypotheses to explain those observations. Past research on hypothetical induction has a limited setting that (1) the observation annotations of the dataset are not raw web corpus but are manually selected sentences (resulting in a close-domain setting); and (2) the ground truth hypotheses annotations are mostly commonsense knowledge, making the task less challenging. In this work, we propose the first NLP dataset for social science academic hypotheses discovery, consisting of 50 recent papers published in top social science journals. Raw web corpora that are necessary for developing hypotheses in the published papers are also collected in the dataset, with the final goal of creating a system that automatically generates valid, novel, and helpful (to human researchers) hypotheses, given only a pile of raw web corpora. The new dataset can tackle the previous problems because it requires to (1) use raw web corpora as observations; and (2) propose hypotheses even new to humanity. A multi-module framework is developed for the task, as well as three different feedback mechanisms that empirically show performance gain over the base framework. Finally, our framework exhibits high performance in terms of both GPT-4 based evaluation and social science expert evaluation.
翻訳日:2023-09-07 16:45:39 公開日:2023-09-06
# 攻撃的ヘブライ語コーパスとBERTによる検出

Offensive Hebrew Corpus and Detection using BERT ( http://arxiv.org/abs/2309.02724v1 )

ライセンス: Link先を確認
Nagham Hamad, Mustafa Jarrar, Mohammad Khalilia, Nadim Nashif(参考訳) 攻撃的言語検出は多くの言語でよく研究されているが、ヘブライ語のような低リソース言語では遅れを取っている。 本稿では,ヘブライ語における新しい攻撃言語コーパスを提案する。 合計で15,881件のツイートがtwitterから検索された。 それぞれ5つのクラス(虐待、憎悪、暴力、ポルノ、無害)のうち1つ以上をアラビア語・ヘブライ語のバイリンガル話者によってラベル付けされた。 アノテーションのプロセスは、各アノテータがそれぞれのツイートのコンテキストを理解するためにイスラエルの文化、政治、プラクティスに精通していることが予想されるため、難しかった。 提案したデータセットと別のデータセットを用いて,Hebrew BERTモデルであるHeBERTとAlephBERTを微調整した。 D_OLaHと組み合わせることでHeBERTの性能が2%向上することがわかった。 alephbertをデータに微調整し、d_olahでテストすると69%の精度が得られますが、d_olahで微調整してデータでテストすると57%の精度が得られます。 データセットと微調整されたモデルはGitHubとHuggingfaceで利用可能です。

Offensive language detection has been well studied in many languages, but it is lagging behind in low-resource languages, such as Hebrew. In this paper, we present a new offensive language corpus in Hebrew. A total of 15,881 tweets were retrieved from Twitter. Each was labeled with one or more of five classes (abusive, hate, violence, pornographic, or none offensive) by Arabic-Hebrew bilingual speakers. The annotation process was challenging as each annotator is expected to be familiar with the Israeli culture, politics, and practices to understand the context of each tweet. We fine-tuned two Hebrew BERT models, HeBERT and AlephBERT, using our proposed dataset and another published dataset. We observed that our data boosts HeBERT performance by 2% when combined with D_OLaH. Fine-tuning AlephBERT on our data and testing on D_OLaH yields 69% accuracy, while fine-tuning on D_OLaH and testing on our data yields 57% accuracy, which may be an indication to the generalizability our data offers. Our dataset and fine-tuned models are available on GitHub and Huggingface.
翻訳日:2023-09-07 16:45:16 公開日:2023-09-06
# DMKD:デュアルマスキング強化による物体検出のための特徴ベース知識蒸留の改良

DMKD: Improving Feature-based Knowledge Distillation for Object Detection Via Dual Masking Augmentation ( http://arxiv.org/abs/2309.02719v1 )

ライセンス: Link先を確認
Guang Yang1, Yin Tang2, Zhijian Wu, Jun Li1, Jianhua Xu, Xili Wan(参考訳) 最近の主流のマスキング蒸留法では,教師の特徴地図から学生ネットワークの選択的マスキング領域を再構成する機能がある。 これらの手法では,教師の特徴のような十分な識別と表現能力が再現されるように,マスク領域を適切に選択する必要がある。 しかし, 従来のマスク蒸留法では, 空間マスキングのみに焦点が当てられており, 得られたマスキング領域は情報チャネルの手がかりを符号化することなく, 空間的重要性に偏っている。 本研究では,包括的マスク付き特徴再構成のための空間的重要情報とチャネル的情報的手がかりの両方を捕捉できるDMKD(Dual Masked Knowledge Distillation)フレームワークを考案した。 具体的には,各マスキング枝を案内する2重注意機構を用い,2重重要度を符号化した特徴の再構築を行う。 さらに, 自己調整可能な重み付け戦略により, 効率的な特徴蒸留を行うことにより, 再構成された特徴を融合させる。 対象検出タスクにおける実験により, RetinaNet と Cascade Mask R-CNN をそれぞれ教師ネットワークとして用いた場合, 生徒ネットワークの性能は4.1%, 4.3%向上し, 他の最先端蒸留法よりも優れていた。

Recent mainstream masked distillation methods function by reconstructing selectively masked areas of a student network from the feature map of its teacher counterpart. In these methods, the masked regions need to be properly selected, such that reconstructed features encode sufficient discrimination and representation capability like the teacher feature. However, previous masked distillation methods only focus on spatial masking, making the resulting masked areas biased towards spatial importance without encoding informative channel clues. In this study, we devise a Dual Masked Knowledge Distillation (DMKD) framework which can capture both spatially important and channel-wise informative clues for comprehensive masked feature reconstruction. More specifically, we employ dual attention mechanism for guiding the respective masking branches, leading to reconstructed feature encoding dual significance. Furthermore, fusing the reconstructed features is achieved by self-adjustable weighting strategy for effective feature distillation. Our experiments on object detection task demonstrate that the student networks achieve performance gains of 4.1% and 4.3% with the help of our method when RetinaNet and Cascade Mask R-CNN are respectively used as the teacher networks, while outperforming the other state-of-the-art distillation methods.
翻訳日:2023-09-07 16:44:54 公開日:2023-09-06
# 赤外線ビデオによる無刺激・軽量睡眠時無呼吸検出

SlAction: Non-intrusive, Lightweight Obstructive Sleep Apnea Detection using Infrared Video ( http://arxiv.org/abs/2309.02713v1 )

ライセンス: Link先を確認
You Rim Choi, Gyeongseon Eo, Wonhyuck Youn, Hyojin Lee, Haemin Jang, Dongyoon Kim, Hyunwoo Shin, Hyung-Sin Kim(参考訳) 閉塞性睡眠時無呼吸症(Osstructive sleep apnea,OSA)は、全世界で約10億人の睡眠障害である。 OSA(Polysomnography、PSG)を診断するための現在の金の標準は、複数のセンサーを装着した一晩の病院滞在である。 そこで本研究では,赤外線ビデオを用いた日常睡眠環境における非侵入型OSA検出システムであるSlActionを提案する。 この研究は、睡眠ビデオが最小の動作を示すことを認識し、「睡眠中の人間の動きに適切に反映された呼吸現象があるか? 最大5,098時間の睡眠ビデオデータセットを分析し、OSAイベントと睡眠中の人間の動きの相関関係を確立する。 提案手法では,低フレームレート(2.5FPS),大サイズ(60秒),ステップ(30秒)を用いてウィンドウ解析を行い,OSAに関連するスロー・長期動作を捉える。 さらに,リソース制約のあるデバイスに対して,軽量なディープニューラルネットワークを利用することで,すべてのビデオストリームがプライバシを損なうことなくローカルに処理されることを保証する。 評価の結果、SlActionは様々な環境におけるOSA検出において平均F1スコア87.6%を達成した。 NVIDIA Jetson Nano上でSlActionを実装することで、リアルタイム推論(60秒のビデオクリップで約3秒)が可能になり、OSAの早期検出とパーソナライズされた処理の可能性を強調している。

Obstructive sleep apnea (OSA) is a prevalent sleep disorder affecting approximately one billion people world-wide. The current gold standard for diagnosing OSA, Polysomnography (PSG), involves an overnight hospital stay with multiple attached sensors, leading to potential inaccuracies due to the first-night effect. To address this, we present SlAction, a non-intrusive OSA detection system for daily sleep environments using infrared videos. Recognizing that sleep videos exhibit minimal motion, this work investigates the fundamental question: "Are respiratory events adequately reflected in human motions during sleep?" Analyzing the largest sleep video dataset of 5,098 hours, we establish correlations between OSA events and human motions during sleep. Our approach uses a low frame rate (2.5 FPS), a large size (60 seconds) and step (30 seconds) for sliding window analysis to capture slow and long-term motions related to OSA. Furthermore, we utilize a lightweight deep neural network for resource-constrained devices, ensuring all video streams are processed locally without compromising privacy. Evaluations show that SlAction achieves an average F1 score of 87.6% in detecting OSA across various environments. Implementing SlAction on NVIDIA Jetson Nano enables real-time inference (~3 seconds for a 60-second video clip), highlighting its potential for early detection and personalized treatment of OSA.
翻訳日:2023-09-07 16:44:27 公開日:2023-09-06
# ディープラーニングのフロンティアを開拓する - 多様なドメインを形成するイノベーション

Unveiling the frontiers of deep learning: innovations shaping diverse domains ( http://arxiv.org/abs/2309.02712v1 )

ライセンス: Link先を確認
Shams Forruque Ahmed, Md. Sakib Bin Alam, Maliha Kabir, Shaila Afrin, Sabiha Jannat Rafa, Aanushka Mehjabin, Amir H. Gandomi(参考訳) ディープラーニング(dl)は、データの学習、可視化、最適化、精錬、予測が可能なコンピュータモデルの開発を可能にする。 近年、DLは、音声・視覚データ処理、農業、交通予測、自然言語、バイオメディシン、災害管理、バイオインフォマティクス、薬物設計、ゲノム学、顔認識、生態学など、様々な分野に応用されている。 深層学習の現状を探るためには,これらの分野における最新の深層学習の展開と応用を検討する必要がある。 しかし、この文献はあらゆる潜在的な分野におけるディープラーニングの応用を探求するに不足している。 本稿では,すべての主要な研究分野にわたる深層学習の潜在的な応用と,関連するメリットと課題について詳細に検討する。 文献に示されているように、dlは予測と解析において正確性を示し、強力な計算ツールとなり、それ自体を明瞭化し最適化し、事前のトレーニングなしでデータの処理に効果的である。 トレーニングデータから独立していることを考えると、ディープラーニングはデータボリュームと同様に、効果的な分析と処理のために大量のデータを必要とする。 ディープラーニングで使用する大量の医療、科学、医療、環境データをコンパイルする課題に対処するために、LSTMやGRUといったゲートアーキテクチャを利用することができる。 マルチモーダル学習には,神経活動の共有ニューロンと特定のタスクのための専用ニューロンが必要である。

Deep learning (DL) enables the development of computer models that are capable of learning, visualizing, optimizing, refining, and predicting data. In recent years, DL has been applied in a range of fields, including audio-visual data processing, agriculture, transportation prediction, natural language, biomedicine, disaster management, bioinformatics, drug design, genomics, face recognition, and ecology. To explore the current state of deep learning, it is necessary to investigate the latest developments and applications of deep learning in these disciplines. However, the literature is lacking in exploring the applications of deep learning in all potential sectors. This paper thus extensively investigates the potential applications of deep learning across all major fields of study as well as the associated benefits and challenges. As evidenced in the literature, DL exhibits accuracy in prediction and analysis, makes it a powerful computational tool, and has the ability to articulate itself and optimize, making it effective in processing data with no prior training. Given its independence from training data, deep learning necessitates massive amounts of data for effective analysis and processing, much like data volume. To handle the challenge of compiling huge amounts of medical, scientific, healthcare, and environmental data for use in deep learning, gated architectures like LSTMs and GRUs can be utilized. For multimodal learning, shared neurons in the neural network for all activities and specialized neurons for particular tasks are necessary.
翻訳日:2023-09-07 16:43:59 公開日:2023-09-06
# 不完全対称性:新しい対称性学習アクタ-クリティック拡張

Addressing Imperfect Symmetry: a Novel Symmetry-Learning Actor-Critic Extension ( http://arxiv.org/abs/2309.02711v1 )

ライセンス: Link先を確認
Miguel Abreu, Luis Paulo Reis, Nuno Lau(参考訳) 環境を理解する基本的な概念である対称性は、しばしば数学的観点から現実を単純化する。 人間は、外見と認知バイアス(例えば、支配的な手を持つ)の観点から、完全な対称性から逸脱する主要な例である。 それでも、私たちの脳はこれらの不完全さを克服し、対称的なタスクに効率的に適応できます。 この仕事の背後にある動機は、強化学習を通じてこの能力を捉えることである。 この目的のために、適応対称性学習 (asl) $\unicode{x2013}$ 学習プロセス中に自己を適応させることで、不完全または不適合な対称性記述に対処するモデル最小化アクター-批判拡張を導入する。 ASLは、学習されたポリシーに適応しながら、すべての状態に共通の対称関係を強制する対称性適合成分とモジュラー損失関数からなる。 ASLの性能は、多方向移動タスクのための4脚のアリモデルを含むケーススタディにおいて、既存の対称性強化手法と比較される。 その結果、ASLは大きな摂動から回復し、知識を隠れ対称状態に一般化できることを示した。 ほとんどのシナリオで代替メソッドと同等あるいは優れたパフォーマンスを達成し、固有の摂動を補償しながらモデル対称性を活用するための貴重なアプローチとなる。

Symmetry, a fundamental concept to understand our environment, often oversimplifies reality from a mathematical perspective. Humans are a prime example, deviating from perfect symmetry in terms of appearance and cognitive biases (e.g. having a dominant hand). Nevertheless, our brain can easily overcome these imperfections and efficiently adapt to symmetrical tasks. The driving motivation behind this work lies in capturing this ability through reinforcement learning. To this end, we introduce Adaptive Symmetry Learning (ASL) $\unicode{x2013}$ a model-minimization actor-critic extension that addresses incomplete or inexact symmetry descriptions by adapting itself during the learning process. ASL consists of a symmetry fitting component and a modular loss function that enforces a common symmetric relation across all states while adapting to the learned policy. The performance of ASL is compared to existing symmetry-enhanced methods in a case study involving a four-legged ant model for multidirectional locomotion tasks. The results demonstrate that ASL is capable of recovering from large perturbations and generalizing knowledge to hidden symmetric states. It achieves comparable or better performance than alternative methods in most scenarios, making it a valuable approach for leveraging model symmetry while compensating for inherent perturbations.
翻訳日:2023-09-07 16:43:35 公開日:2023-09-06
# GRASS:音声意味理解のための統一生成モデル

GRASS: Unified Generation Model for Speech Semantic Understanding ( http://arxiv.org/abs/2309.02780v1 )

ライセンス: Link先を確認
Aobo Xia, Shuyu Lei, Yushu Yang, Xiang Guo and Hua Chai(参考訳) 本稿では,音声データに対するタスク関連プロンプトに条件付きセマンティックラベルを生成する統合エンドツーエンド(E2E)フレームワークを導入することで,音声意味理解のための命令微調整手法について検討する。 大規模かつ多様なデータを用いて事前学習を行い,TTS(text-to-speech)システムを用いて命令-音声ペアを構築する。 広範な実験により,提案モデルが下流タスクの微調整後の最先端(sota)モデルを大幅に上回ることを示した。 さらに,提案モデルでは,ゼロショットと少数ショットのシナリオで競合性能を実現する。 音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。

This paper explores the instruction fine-tuning technique for speech semantic understanding by introducing a unified end-to-end (E2E) framework that generates semantic labels conditioned on a task-related prompt for audio data. We pre-train the model using large and diverse data, where instruction-speech pairs are constructed via a text-to-speech (TTS) system. Extensive experiments demonstrate that our proposed model significantly outperforms state-of-the-art (SOTA) models after fine-tuning downstream tasks. Furthermore, the proposed model achieves competitive performance in zero-shot and few-shot scenarios. To facilitate future work on instruction fine-tuning for speech-to-semantic tasks, we release our instruction dataset and code.
翻訳日:2023-09-07 16:38:53 公開日:2023-09-06
# lightneus:光減衰を用いた内視鏡下神経表面再建

LightNeuS: Neural Surface Reconstruction in Endoscopy using Illumination Decline ( http://arxiv.org/abs/2309.02777v1 )

ライセンス: Link先を確認
V\'ictor M. Batlle, Jos\'e M. M. Montiel, Pascal Fua and Juan D. Tard\'os(参考訳) 単眼内視鏡で取得した画像から3次元再構成を行う手法を提案する。 それは二つの重要な洞察に基づいている。 第一に、内光キャビティは水密であり、符号付き距離関数でモデル化することで自然に強制される性質である。 第2に、シーン照明は可変である。 内視鏡の光源から発生し、表面への二乗距離の逆数で崩壊する。 これらの知見を生かして,複数の視点から外観とSDF表面モデルを学ぶ能力に優れたニュートラルサーフェス再構成技術であるNeuSを開発したが,現在は静的照明のシーンに限られている。 この制限を除去し, 画素輝度と奥行きの関係を活かすため, NeuS アーキテクチャを明示的に考慮し, 内視鏡カメラと光源の校正光度モデルを導入する。 当法は結腸全節の水密再建を初めて行った方法である。 ファントム画像の精度は良好である。 注目に値するのは, 水密前と照明の低下が組み合わさって, 表面の見えない部分の再現を許容される精度で達成し, がん検診の自動的品質評価への道を開き, 観察された粘膜のグローバルパーセンテージを測定したことである。

We propose a new approach to 3D reconstruction from sequences of images acquired by monocular endoscopes. It is based on two key insights. First, endoluminal cavities are watertight, a property naturally enforced by modeling them in terms of a signed distance function. Second, the scene illumination is variable. It comes from the endoscope's light sources and decays with the inverse of the squared distance to the surface. To exploit these insights, we build on NeuS, a neural implicit surface reconstruction technique with an outstanding capability to learn appearance and a SDF surface model from multiple views, but currently limited to scenes with static illumination. To remove this limitation and exploit the relation between pixel brightness and depth, we modify the NeuS architecture to explicitly account for it and introduce a calibrated photometric model of the endoscope's camera and light source. Our method is the first one to produce watertight reconstructions of whole colon sections. We demonstrate excellent accuracy on phantom imagery. Remarkably, the watertight prior combined with illumination decline, allows to complete the reconstruction of unseen portions of the surface with acceptable accuracy, paving the way to automatic quality assessment of cancer screening explorations, measuring the global percentage of observed mucosa.
翻訳日:2023-09-07 16:38:39 公開日:2023-09-06
# diffusion modelは、ひそかにトレーニングフリーなオープン語彙セグメンタである

Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter ( http://arxiv.org/abs/2309.02773v1 )

ライセンス: Link先を確認
Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou, Qian Yu, Lu Sheng, Dong Xu(参考訳) 近年、CLIPのような事前訓練されたテキスト画像識別モデルを用いて、オープン語彙セマンティックセマンティックセグメンテーションに関わる課題に取り組む研究が進められている。 しかし、これらのモデルが用いた対照的な学習に基づくアライメントプロセスは、正確なセマンティックセグメンテーションを実現するのに不可欠である、重要なローカライズ情報とオブジェクト完全性の喪失を意図せずに引き起こす可能性があることに注意する必要がある。 最近では、特にセマンティックセグメンテーションの領域において、テキストから画像生成タスク以外の拡散モデルの適用拡大への関心が高まっている。 これらの手法は、注釈付きデータの生成や意味的セグメンテーションを容易にする特徴抽出に拡散モデルを利用する。 これは典型的には、大量の合成データを生成したり、追加のマスクアノテーションを組み込んだセグメンテーションモデルを訓練する。 そこで本研究では, 生成文から画像への条件付き拡散モデルが, 高効率なオープン語彙セマンティックセマンティックセマンティクスとしての可能性を明らかにするとともに, DiffSegmenter という新たなトレーニング不要アプローチを導入する。 具体的には、入力画像と候補クラスを既成の事前学習された条件付き潜在拡散モデルに供給することにより、デノイジングu-netによって生成されたクロスアテンションマップをセグメンテーションスコアとして直接使用し、その後の自己アテンションマップによりさらに洗練され完成される。 さらに,有効テキストプロンプトとカテゴリフィルタリング機構を慎重に設計し,セグメンテーション結果をさらに強化する。 3つのベンチマークデータセットに関する広範囲な実験により、提案するdiffsegmenterは、open-vocabulary semantic segmentationの印象的な結果を得た。

Recent research has explored the utilization of pre-trained text-image discriminative models, such as CLIP, to tackle the challenges associated with open-vocabulary semantic segmentation. However, it is worth noting that the alignment process based on contrastive learning employed by these models may unintentionally result in the loss of crucial localization information and object completeness, which are essential for achieving accurate semantic segmentation. More recently, there has been an emerging interest in extending the application of diffusion models beyond text-to-image generation tasks, particularly in the domain of semantic segmentation. These approaches utilize diffusion models either for generating annotated data or for extracting features to facilitate semantic segmentation. This typically involves training segmentation models by generating a considerable amount of synthetic data or incorporating additional mask annotations. To this end, we uncover the potential of generative text-to-image conditional diffusion models as highly efficient open-vocabulary semantic segmenters, and introduce a novel training-free approach named DiffSegmenter. Specifically, by feeding an input image and candidate classes into an off-the-shelf pre-trained conditional latent diffusion model, the cross-attention maps produced by the denoising U-Net are directly used as segmentation scores, which are further refined and completed by the followed self-attention maps. Additionally, we carefully design effective textual prompts and a category filtering mechanism to further enhance the segmentation results. Extensive experiments on three benchmark datasets show that the proposed DiffSegmenter achieves impressive results for open-vocabulary semantic segmentation.
翻訳日:2023-09-07 16:38:18 公開日:2023-09-06
# 動的温度サンプリングによるコード生成の改善

Improving Code Generation by Dynamic Temperature Sampling ( http://arxiv.org/abs/2309.02772v1 )

ライセンス: Link先を確認
Yuqi Zhu, Jia Allen Li, Ge Li, YunFei Zhao, Jia Li, Zhi Jin, Hong Mei(参考訳) 最近、Large Language Models (LLMs) はコード生成において驚くべき結果を示している。 しかし、既存のデコード戦略は自然言語(NL)生成のために設計されており、NLとプログラミング言語(PL)の違いを見越している。 この見落としのため、コード生成のためのより良いデコーディング戦略は、まだ未解決の問題である。 本稿では,コード生成に特化した復号化戦略を探求する最初の体系的研究を行う。 コードトークンの損失分布を分析することで、コードトークンを2つのカテゴリに分類できることが分かりました。 その中でも、難易度の高いトークンは、主にコードブロックの先頭に現れる。 この結果に触発されて,適応温度サンプリング(adapted temperature (adapt) sampling)という簡易かつ効果的な手法を提案し,異なるトークンの復号時に温度係数を動的に調整する手法を提案する。 難解なトークンをサンプリングする際には, LLMが多様な選択を探索できるように, より大きな温度を適用する。 我々は、テールランダムネスノイズの影響を避けるため、信頼性トークンに対してより小さい温度を用いる。 異なるサイズのllmに適応サンプリングを適用し,2つの人気のあるデータセット上で評価を行う。 その結果,適応サンプリングは最先端のデコーディング戦略を大きく上回ることがわかった。

Recently, Large Language Models (LLMs) have shown impressive results in code generation. However, existing decoding strategies are designed for Natural Language (NL) generation, overlooking the differences between NL and programming languages (PL). Due to this oversight, a better decoding strategy for code generation remains an open question. In this paper, we conduct the first systematic study to explore a decoding strategy specialized in code generation. With an analysis of loss distributions of code tokens, we find that code tokens can be divided into two categories: challenging tokens that are difficult to predict and confident tokens that can be easily inferred. Among them, the challenging tokens mainly appear at the beginning of a code block. Inspired by the above findings, we propose a simple yet effective method: Adaptive Temperature (AdapT) sampling, which dynamically adjusts the temperature coefficient when decoding different tokens. We apply a larger temperature when sampling for challenging tokens, allowing LLMs to explore diverse choices. We employ a smaller temperature for confident tokens avoiding the influence of tail randomness noises. We apply AdapT sampling to LLMs with different sizes and conduct evaluations on two popular datasets. Results show that AdapT sampling significantly outperforms state-of-the-art decoding strategy.
翻訳日:2023-09-07 16:37:38 公開日:2023-09-06
# 多要素ベイズ最適化における不均一誤差の影響について

On the Effects of Heterogeneous Errors on Multi-fidelity Bayesian Optimization ( http://arxiv.org/abs/2309.02771v1 )

ライセンス: Link先を確認
Zahra Zanjani Foumani, Amin Yousefpour, Mehdi Shishehbor, Ramin Bostanabad(参考訳) ベイズ最適化 (bayesian optimization, bo) は、材料設計を含む幅広い分野においてますます採用されている逐次最適化戦略である。 実世界のアプリケーションでは、物理実験やHFシミュレーションを通じて高忠実度(HF)データを取得することがBOの主要なコスト要素である。 このボトルネックを軽減するために、MF法は、高価なHFデータのみに依存することを防ぎ、HFサンプルと相関した安価な低密度(LF)ソースをクエリすることでサンプリングコストを削減する。 しかし、既存の多元性bo(mfbo)法は、(1)lfソースは、hfデータとグローバルスケールでよく相関するデータを提供し、(2)単一ランダムプロセスは、融合データのノイズをモデル化できるという、実用的応用ではめったにない2つの仮定の下で動作する。 これらの仮定は、LFソースがHFソースと局所的にのみ相関している場合や、データソース間でノイズのばらつきが変化する場合、MFBOの性能を劇的に低下させる。 本稿では,(1)データソース毎にノイズモデルを学習するMFエミュレーション法を提案し,(2)HFソースにのみ相関する高バイアスのLFソースをMFBOが利用できるようにすることにより,これらの誤った仮定を解消する。 材料設計に関する分析例と工学的課題から,本手法の性能について述べる。

Bayesian optimization (BO) is a sequential optimization strategy that is increasingly employed in a wide range of areas including materials design. In real world applications, acquiring high-fidelity (HF) data through physical experiments or HF simulations is the major cost component of BO. To alleviate this bottleneck, multi-fidelity (MF) methods are used to forgo the sole reliance on the expensive HF data and reduce the sampling costs by querying inexpensive low-fidelity (LF) sources whose data are correlated with HF samples. However, existing multi-fidelity BO (MFBO) methods operate under the following two assumptions that rarely hold in practical applications: (1) LF sources provide data that are well correlated with the HF data on a global scale, and (2) a single random process can model the noise in the fused data. These assumptions dramatically reduce the performance of MFBO when LF sources are only locally correlated with the HF source or when the noise variance varies across the data sources. In this paper, we dispense with these incorrect assumptions by proposing an MF emulation method that (1) learns a noise model for each data source, and (2) enables MFBO to leverage highly biased LF sources which are only locally correlated with the HF source. We illustrate the performance of our method through analytical examples and engineering problems on materials design.
翻訳日:2023-09-07 16:37:09 公開日:2023-09-06
# グラフニューラルネットワークにおける過密化と過密化の統一:物理情報に基づくアプローチ

Unifying over-smoothing and over-squashing in graph neural networks: A physics informed approach and beyond ( http://arxiv.org/abs/2309.02769v1 )

ライセンス: Link先を確認
Zhiqi Shao, Dai Shi, Andi Han, Yi Guo, Qibin Zhao, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習における主要なアプローチの1つである。 その大きな成功にもかかわらず、過密、過密、限られた表現力といった重要な計算課題がGNNの性能に影響を与え続けている。 本研究では,古典・量子物理学で一般的に用いられる時間反転原理に着想を得て,グラフ熱方程式の時間方向を逆転する。 その結果、反転処理はグラフノードの特徴のシャープさを高める高パスフィルタリング関数のクラスを生成する。 この概念を生かしたマルチスケールヒートカーネルベースGNN(MHKG)を導入する。 より柔軟なフィルタリング条件を探るため,我々はさらにg-mhkgと呼ばれるモデルにmhkgを一般化し,オーバースムーシング,オーバースケーシング,表現力の制御における各要素の役割を徹底的に示す。 特に、上記の問題はすべて、フィルタリング関数の特性によって特徴づけ、分析することができ、過度なスムースメントと過度なスキャッシングのトレードオフを明らかにする:ノード特徴のシャープネスの強化により、モデルが過度なスキャッシングに苦しむこと、その逆も可能となる。 さらに、G-MHKGが2つの問題を軽度条件下でどのように処理できるかを示すために、この時間を再度操作する。 実験の結果,提案モデルの有効性が浮き彫りになった。 ホモフィリーとヘテロフィリーの両方を特徴とするグラフデータセットのパフォーマンスにおいて、いくつかのGNNベースラインモデルを上回る。

Graph Neural Networks (GNNs) have emerged as one of the leading approaches for machine learning on graph-structured data. Despite their great success, critical computational challenges such as over-smoothing, over-squashing, and limited expressive power continue to impact the performance of GNNs. In this study, inspired from the time-reversal principle commonly utilized in classical and quantum physics, we reverse the time direction of the graph heat equation. The resulted reversing process yields a class of high pass filtering functions that enhance the sharpness of graph node features. Leveraging this concept, we introduce the Multi-Scaled Heat Kernel based GNN (MHKG) by amalgamating diverse filtering functions' effects on node features. To explore more flexible filtering conditions, we further generalize MHKG into a model termed G-MHKG and thoroughly show the roles of each element in controlling over-smoothing, over-squashing and expressive power. Notably, we illustrate that all aforementioned issues can be characterized and analyzed via the properties of the filtering functions, and uncover a trade-off between over-smoothing and over-squashing: enhancing node feature sharpness will make model suffer more from over-squashing, and vice versa. Furthermore, we manipulate the time again to show how G-MHKG can handle both two issues under mild conditions. Our conclusive experiments highlight the effectiveness of proposed models. It surpasses several GNN baseline models in performance across graph datasets characterized by both homophily and heterophily.
翻訳日:2023-09-07 16:36:17 公開日:2023-09-06
# 量子計測と客観的古典的現実

Quantum Measurement and Objective Classical Reality ( http://arxiv.org/abs/2309.02764v1 )

ライセンス: Link先を確認
Vishal Johnson (1,2), Philipp Frank (1), Torsten En{\ss}lin (1,2) ((1) Max Planck Institute for Astrophysics, Garching, (2) Ludwig-Maximilians-Universit\"at, Munich)(参考訳) エベレットユニタリ量子力学の文脈で量子測定を探求し、明示的なユニタリ測定手順を構築する。 そこで我々は,この手法が有効であるような先行相関状態の存在を提案し,従って,相関が測定時に消費される資源であると主張する。 このような測定のネットワークは、安定した客観的古典的現実を確立するとも主張されている。

We explore quantum measurement in the context of Everettian unitary quantum mechanics and construct an explicit unitary measurement procedure. We propose the existence of prior correlated states that enable this procedure to work and therefore argue that correlation is a resource that is consumed when measurements take place. It is also argued that a network of such measurements establishes a stable objective classical reality.
翻訳日:2023-09-07 16:35:39 公開日:2023-09-06
# 特徴と構造を欠いたグラフの教師なしグラフ補完学習に向けて

Towards Unsupervised Graph Completion Learning on Graphs with Features and Structure Missing ( http://arxiv.org/abs/2309.02762v1 )

ライセンス: Link先を確認
Sichao Fu, Qinmu Peng, Yang He, Baokun Du, Xinge You(参考訳) 近年、グラフニューラルネットワーク(gnn)は様々なグラフ分析タスクにおいて重要な発展を遂げている。 それでも、GNNの優れたパフォーマンスは、収集されたノードの特徴や構造的関係が、予測不可能な多くの要因に部分的に欠落している場合に深刻なダメージを受けることになる。 最近出現したグラフ補完学習(GCL)は、特に監督されたタスクの指導の下で欠落したノードの特徴や構造的関係を再構築することを目的として注目されている。 これらの提案したGCL法は大きな成功を収めているが、ラベルへの依存、再構成ノードの特徴の偏り、構造的関係といった問題が存在する。 さらに、既存のGCLの一般化能力は、収集されたノードの特徴と構造的関係が同時に欠落している場合にも大きな課題に直面している。 上記の課題を解決するため,既存のGNN変種の特徴と構造が欠けているグラフ上でのタスク性能向上を目的とした,自己教師付き学習を支援する,より汎用的なGCLフレームワーク(unsupervised GCL:unsupervised GCL)を提案する。 具体的には、GNNのメッセージパッシング過程における欠落ノードの特徴と構造とのミスマッチを避けるため、特徴再構成と構造再構成を分離し、パーソナライズされたモデルの設計を行う。 そして、構造レベルと特徴レベルとの2つの対比損失を導入し、特徴再構築と構造再構築経路からのノード表現の相互情報を最大化し、より多くの監督信号を提供する。 最後に、下流ノード分類タスクに再構成ノードの特徴と構造を適用することができる。 8つのデータセット,3つのGNN変種および5つの欠落率に関する大規模な実験により,提案手法の有効性が示された。

In recent years, graph neural networks (GNN) have achieved significant developments in a variety of graph analytical tasks. Nevertheless, GNN's superior performance will suffer from serious damage when the collected node features or structure relationships are partially missing owning to numerous unpredictable factors. Recently emerged graph completion learning (GCL) has received increasing attention, which aims to reconstruct the missing node features or structure relationships under the guidance of a specifically supervised task. Although these proposed GCL methods have made great success, they still exist the following problems: the reliance on labels, the bias of the reconstructed node features and structure relationships. Besides, the generalization ability of the existing GCL still faces a huge challenge when both collected node features and structure relationships are partially missing at the same time. To solve the above issues, we propose a more general GCL framework with the aid of self-supervised learning for improving the task performance of the existing GNN variants on graphs with features and structure missing, termed unsupervised GCL (UGCL). Specifically, to avoid the mismatch between missing node features and structure during the message-passing process of GNN, we separate the feature reconstruction and structure reconstruction and design its personalized model in turn. Then, a dual contrastive loss on the structure level and feature level is introduced to maximize the mutual information of node representations from feature reconstructing and structure reconstructing paths for providing more supervision signals. Finally, the reconstructed node features and structure can be applied to the downstream node classification task. Extensive experiments on eight datasets, three GNN variants and five missing rates demonstrate the effectiveness of our proposed method.
翻訳日:2023-09-07 16:35:29 公開日:2023-09-06
# SWAP: 時系列で敵攻撃の第二線ログを爆発させる

SWAP: Exploiting Second-Ranked Logits for Adversarial Attacks on Time Series ( http://arxiv.org/abs/2309.02752v1 )

ライセンス: Link先を確認
Chang George Dong, Liangwei Nathan Zheng, Weitong Chen, Wei Emma Zhang, Lin Yue(参考訳) 時系列分類(tsc)は様々な領域において重要なタスクとして出現し、深層神経モデルはtscタスクにおいて優れた性能を示している。 しかし、これらのモデルは敵の攻撃に対して脆弱であり、微妙な摂動が予測結果に大きな影響を及ぼす可能性がある。 既存の敵対的手法はしばしば過剰パラメータ化やランダムロジットの摂動に悩まされ、その効果を阻害する。 さらに、攻撃成功率(ASR)の増加は、通常より多くのノイズを発生させ、攻撃をより容易に検出できるようにする。 そこで本研究では,tscモデルに対する新たな攻撃手法であるswapを提案する。 SWAPは、他のロジットの操作を最小限にしながら、第2級ロジットの信頼性を高めることに焦点を当てている。 これは、ターゲットロジット分布と予測ロジット分布とのKullback-Leibler分散を最小化する。 実験の結果, SWAPは従来の手法に比べて50%以上18%増加し, 最先端性能を達成できた。

Time series classification (TSC) has emerged as a critical task in various domains, and deep neural models have shown superior performance in TSC tasks. However, these models are vulnerable to adversarial attacks, where subtle perturbations can significantly impact the prediction results. Existing adversarial methods often suffer from over-parameterization or random logit perturbation, hindering their effectiveness. Additionally, increasing the attack success rate (ASR) typically involves generating more noise, making the attack more easily detectable. To address these limitations, we propose SWAP, a novel attacking method for TSC models. SWAP focuses on enhancing the confidence of the second-ranked logits while minimizing the manipulation of other logits. This is achieved by minimizing the Kullback-Leibler divergence between the target logit distribution and the predictive logit distribution. Experimental results demonstrate that SWAP achieves state-of-the-art performance, with an ASR exceeding 50% and an 18% increase compared to existing methods.
翻訳日:2023-09-07 16:35:04 公開日:2023-09-06
# mln-net : 多層正規化を用いたマルチソース医用マイクロ石灰化画像分割法

MLN-net: A multi-source medical image segmentation method for clustered microcalcifications using multiple layer normalization ( http://arxiv.org/abs/2309.02742v1 )

ライセンス: Link先を確認
Ke Wang, Zanting Ye, Xiang Xie, Haidong Cui, Tao Chen, Banteng Liu(参考訳) 乳がんの診断と治療には,マンモグラフィーにおけるクラスタ化微小石灰化の正確なセグメンテーションが不可欠である。 専門家レベルの精度を示すにもかかわらず、最近の医学画像分割におけるディープラーニングの進歩は、患者の姿勢や個々の腺密度、マンモグラフィのイメージングモダリティなどの違いによるドメインシフトによって、実用的な応用に不十分な貢献を与えている。 本稿では,マルチソースイメージを単一ソース画像のみを用いて高精度にセグメント化できるmln-netという新しいフレームワークを提案する。 本稿ではまず,マルチソース画像を生成するためのソース領域画像拡張手法を提案する。 また、複数の層正規化(ln)層の構造を用いてセグメンテーションネットワークを構築し、異なる領域のクラスタ化マイクロ石灰化セグメンテーションに効率的であることが分かる。 さらに、ソースドメインデータとターゲットドメインデータの類似度を測定するために、分岐選択戦略が設計されている。 提案するMLN-netを検証するため, アブレーション実験を含む広範囲な解析を行い, 12塩基法との比較を行った。 広範囲な実験により、異なる領域からのクラスタ化マイクロ石灰化のセグメンテーションにおけるMLN-netの有効性が検証され、そのセグメンテーション精度は最先端の手法を超えている。 コードはhttps://github.com/yezanting/MLN-NET-VERSON1.comから入手できる。

Accurate segmentation of clustered microcalcifications in mammography is crucial for the diagnosis and treatment of breast cancer. Despite exhibiting expert-level accuracy, recent deep learning advancements in medical image segmentation provide insufficient contribution to practical applications, due to the domain shift resulting from differences in patient postures, individual gland density, and imaging modalities of mammography etc. In this paper, a novel framework named MLN-net, which can accurately segment multi-source images using only single source images, is proposed for clustered microcalcification segmentation. We first propose a source domain image augmentation method to generate multi-source images, leading to improved generalization. And a structure of multiple layer normalization (LN) layers is used to construct the segmentation network, which can be found efficient for clustered microcalcification segmentation in different domains. Additionally, a branch selection strategy is designed for measuring the similarity of the source domain data and the target domain data. To validate the proposed MLN-net, extensive analyses including ablation experiments are performed, comparison of 12 baseline methods. Extensive experiments validate the effectiveness of MLN-net in segmenting clustered microcalcifications from different domains and the its segmentation accuracy surpasses state-of-the-art methods. Code will be available at https://github.com/yezanting/MLN-NET-VERSON1.
翻訳日:2023-09-07 16:34:48 公開日:2023-09-06
# テレマティクスは運転スタイルを改善できるか? 自動車保険における行動データの利用

Can Telematics Improve Driving Style? The Use of Behavioural Data in Motor Insurance ( http://arxiv.org/abs/2309.02814v1 )

ライセンス: Link先を確認
Alberto Cevolini, Elena Morotti, Elena Esposito, Lorenzo Romanelli, Riccardo Tisseur, Cristiano Misani(参考訳) 保険における行動データの使用には、約束と未解決の問題がロードされる。 本稿では,サードパーティの自動車保険におけるテレマティクスデータの利用事例と課題について考察する。 行動データは、政策ステークホルダーのリスクプロファイルを洗練させるだけでなく、革新的なコーチング戦略の実装にも使われ、データから得られた集約された情報をドライバーにフィードバックする。 その目的は、運転スタイルの改善を促進することである。 本研究は,テレマティクス自動車保険を販売している企業のデータセットの実証調査に基づいて,コーチングの有効性を検討する。 定量的分析の結果,この効果は,テレマティクスアプリを利用する政策立案者の妥当性に大きく依存していることがわかった。 我々は、エンゲージメントを付加的な行動として観察し、保険会社が記録・戦略的に利用できる2次の行動データを生成する。 結論は、行動データのこの拡張解釈と関連する潜在的な利点とリスクについて論じる。

The use of behavioural data in insurance is loaded with promises and unresolved issues. This paper explores the related opportunities and challenges analysing the use of telematics data in third-party liability motor insurance. Behavioural data are used not only to refine the risk profile of policyholders, but also to implement innovative coaching strategies, feeding back to the drivers the aggregated information obtained from the data. The purpose is to encourage an improvement in their driving style. Our research explores the effectiveness of coaching on the basis of an empirical investigation of the dataset of a company selling telematics motor insurance policies. The results of our quantitative analysis show that this effectiveness crucially depends on the propensity of policyholders to engage with the telematics app. We observe engagement as an additional kind of behaviour, producing second-order behavioural data that can also be recorded and strategically used by insurance companies. The conclusions discuss potential advantages and risks connected with this extended interpretation of behavioural data.
翻訳日:2023-09-07 16:27:01 公開日:2023-09-06
# エージェントによる歩行者の地震避難シミュレーション : レバノン・ベイルートへの適用

Agent-based simulation of pedestrians' earthquake evacuation; application to Beirut, Lebanon ( http://arxiv.org/abs/2309.02812v1 )

ライセンス: Link先を確認
Rouba Iskandar (UGA), Kamel Allaw, Julie Dugdale, Elise Beck, Jocelyne Adjizian-G\'erard, C\'ecile Cornou, Jacques Harb, Pascal Lacroix, Nada Badaro-Saliba, St\'ephane Cartier, Rita Zaarour(参考訳) 多くの地震リスク評価手法は, リスクの社会的側面を十分に考慮せずに, 建設環境の被害と社会経済的損失を推定することに焦点を当てている。 しかし、人間の行動は地震の人的影響を予測する上で重要な要素であり、定量的リスクアセスメント研究に含めることが重要である。 本研究では,都市規模での地震時の歩行者避難をシミュレーションする学際的アプローチをエージェントベースモデルを用いて開発する。 このモデルは地震災害、物理的脆弱性、個人の行動や移動性を統合している。 シミュレーターはレバノンのベイルートに適用される。 レバノンは、いくつかのmw>7地震を発生させたレバント断層システムの中心にあり、最新のものは1759年である。 地中海地域では最も地震のリスクが高い国の一つである。 これは、2012年まで地震規制が義務付けられていなかったこと、都市化の高度化、適切な空間計画とリスク防止政策の欠如などによる、建物の耐震性の高さによるものである。 レバノンの主要な住宅、経済、機関の中心であるベイルートは人口密度が高い。 都市開発の必要性の高まりに対応するため、建設は市の緑地全てをほぼ占拠し、広場や庭園は消失して高層ビルに取って代わられている。 しかし、オープンスペースは、破片から離れた安全な場所であり、地震の避難に不可欠な役割を担っている。 大規模な都市化にもかかわらず、いくつかのオープンスペースがあるが、ロックゲートやその他の人為的障壁は、しばしばそのアクセスを制限する。 この複雑な状況をシミュレートするために、歩行者の避難シミュレーションは、gama [1]で実装された非常に現実的な空間環境で実行される。 ベイルート[2, 3]の土壌および建物に関する過去のデータは、高解像度のプレアデス衛星画像から抽出された新しい地理データによって補完される。 地震荷重は、レバノンの地震法規で述べられているように、最大地上加速度0.3gと定義されている。 地震荷重, 地盤, 建物振動特性に基づいて, 平均損傷 [4] を予測するように訓練した人工ニューラルネットワークを用いて, 建築物の損傷を推定する [5]。 さらに、各建物周辺で発生した破片の量とフットプリントを推定し、モデルに含める。 我々は、地形、建物、破片、オープンスペースへのアクセスが個人のモビリティに与える影響をシミュレートする。 2つの都市構成が実施されている。 1. オープンスペースは、障壁のないアクセスです。 2. オープンスペースへのアクセスはブロックされている。 最初のシミュレーションの結果、地震後5分以内に人口の52%がオープンスペースに到達できるが、オープンスペースの1つをロックすると39%に減少することが示された。 これらの結果から,地震発生時の住民の安全確保には,都市内のアクセス可能なオープンスペースの存在と住宅への近接が重要な要因であることが示唆された。

Most seismic risk assessment methods focus on estimating the damages to the built environment and the consequent socioeconomic losses without fully taking into account the social aspect of risk. Yet, human behaviour is a key element in predicting the human impact of an earthquake, therefore, it is important to include it in quantitative risk assessment studies. In this study, an interdisciplinary approach simulating pedestrians' evacuation during earthquakes at the city scale is developed using an agent-based model. The model integrates the seismic hazard, the physical vulnerability as well as individuals' behaviours and mobility. The simulator is applied to the case of Beirut, Lebanon. Lebanon is at the heart of the Levant fault system that has generated several Mw>7 earthquakes, the latest being in 1759. It is one of the countries with the highest seismic risk in the Mediterranean region. This is due to the high seismic vulnerability of the buildings due to the absence of mandatory seismic regulation until 2012, the high level of urbanization, and the lack of adequate spatial planning and risk prevention policies. Beirut as the main residential, economic and institutional hub of Lebanon is densely populated. To accommodate the growing need for urban development, constructions have almost taken over all of the green areas of the city; squares and gardens are disappearing to give place to skyscrapers. However, open spaces are safe places to shelter, away from debris, and therefore play an essential role in earthquake evacuation. Despite the massive urbanization, there are a few open spaces but locked gates and other types of anthropogenic barriers often limit their access. To simulate this complex context, pedestrians' evacuation simulations are run in a highly realistic spatial environment implemented in GAMA [1]. Previous data concerning soil and buildings in Beirut [2, 3] are complemented by new geographic data extracted from high-resolution Pleiades satellite images. The seismic loading is defined as a peak ground acceleration of 0.3g, as stated in Lebanese seismic regulations. Building damages are estimated using an artificial neural network trained to predict the mean damage [4] based on the seismic loading as well as the soil and building vibrational properties [5]. Moreover, the quantity and the footprint of the generated debris around each building are also estimated and included in the model. We simulate how topography, buildings, debris, and access to open spaces, affect individuals' mobility. Two city configurations are implemented: 1. Open spaces are accessible without any barriers; 2. Access to some open spaces is blocked. The first simulation results show that while 52% of the population is able to arrive to an open space within 5 minutes after an earthquake, this number is reduced to 39% when one of the open spaces is locked. These results show that the presence of accessible open spaces in a city and their proximity to the residential buildings is a crucial factor for ensuring people's safety when an earthquake occurs.
翻訳日:2023-09-07 16:26:47 公開日:2023-09-06
# 熱力学-インフォームド・シンボリック回帰の導入 -- 状態発展の熱力学方程式のツール

Introducing Thermodynamics-Informed Symbolic Regression -- A Tool for Thermodynamic Equations of State Development ( http://arxiv.org/abs/2309.02805v1 )

ライセンス: Link先を確認
Viktor Martinek and Ophelia Frotscher and Markus Richter and Roland Herzog(参考訳) 状態の熱力学方程式(EOS)は、多くの産業や学術分野において必須である。 データ取得に必要な高価で広範な測定キャンペーンを別にすれば、EOSの開発は極めて時間を要するプロセスであり、専門家の知識と反復的な微調整に大きく依存することが多い。 eos開発プロセスを改良し、加速するために、熱力学eosモデリングを目的としたシンボリックレグレッション(sr)ツールであるthermodynamics-informed symbolic regression(tisr)を導入する。 TiSRはすでに有能なSRツールであり、https://doi.org/10.1007/s10765-023-03197-zの研究で使われた。 SRベースと、しばしば散在する実験データ、異なる残差前処理と後処理オプション、熱力学的EOS開発を検討するのに必要な追加機能とを組み合わせることを目的としている。 TiSRはまだエンドユーザー向けには準備が整っていないが,本論文は現状を報告し,進捗を報告し,今後の方向性を議論することを目的としている。 TiSRはhttps://github.com/scoop-group/TiSRで利用可能であり、https://doi.org/10.5281/zenodo.8317547として参照できる。

Thermodynamic equations of state (EOS) are essential for many industries as well as in academia. Even leaving aside the expensive and extensive measurement campaigns required for the data acquisition, the development of EOS is an intensely time-consuming process, which does often still heavily rely on expert knowledge and iterative fine-tuning. To improve upon and accelerate the EOS development process, we introduce thermodynamics-informed symbolic regression (TiSR), a symbolic regression (SR) tool aimed at thermodynamic EOS modeling. TiSR is already a capable SR tool, which was used in the research of https://doi.org/10.1007/s10765-023-03197-z. It aims to combine an SR base with the extensions required to work with often strongly scattered experimental data, different residual pre- and post-processing options, and additional features required to consider thermodynamic EOS development. Although TiSR is not ready for end users yet, this paper is intended to report on its current state, showcase the progress, and discuss (distant and not so distant) future directions. TiSR is available at https://github.com/scoop-group/TiSR and can be cited as https://doi.org/10.5281/zenodo.8317547.
翻訳日:2023-09-07 16:26:06 公開日:2023-09-06
# 単一カメラによるドローンの3次元軌道再構成

3D Trajectory Reconstruction of Drones using a Single Camera ( http://arxiv.org/abs/2309.02801v1 )

ライセンス: Link先を確認
Seobin Hwang, Hanyoung Kim, Chaeyeon Heo, Youkyoung Na, Cheongeun Lee, and Yeongjun Cho(参考訳) ドローンは様々な分野で広く利用されているが、違法に使用されるドローンの数は近年増加している。 本研究では,これらの違法ドローンを防止すべく,単一カメラを用いてドローンの3次元軌道を再構築するための新しい枠組みを提案する。 キャリブレーションカメラを利用することで、2d空間と3d空間の関係を活用できる。 ドローンを2D画像で自動的に追跡し、その2Dローテーションを推定する。 推定された2Dドローンの位置と実際の長さ情報とカメラパラメータを組み合わせることで、ドローンの3D軌跡を幾何学的に推定する。 パブリックドローンデータセットの欠如に対処するために、合成2dおよび3dドローンデータセットも作成します。 実験の結果,提案手法は3次元空間におけるドローンの軌道を正確に再構築し,カメラによる監視システムの実現の可能性を示した。

Drones have been widely utilized in various fields, but the number of drones being used illegally and for hazardous purposes has increased recently. To prevent those illegal drones, in this work, we propose a novel framework for reconstructing 3D trajectories of drones using a single camera. By leveraging calibrated cameras, we exploit the relationship between 2D and 3D spaces. We automatically track the drones in 2D images using the drone tracker and estimate their 2D rotations. By combining the estimated 2D drone positions with their actual length information and camera parameters, we geometrically infer the 3D trajectories of the drones. To address the lack of public drone datasets, we also create synthetic 2D and 3D drone datasets. The experimental results show that the proposed methods accurately reconstruct drone trajectories in 3D space, and demonstrate the potential of our framework for single camera-based surveillance systems.
翻訳日:2023-09-07 16:25:44 公開日:2023-09-06
# IoTインフラを活用したギリシャの学校ビル群における室内騒音レベルに関する研究

A Study on Indoor Noise Levels in a Set of School Buildings in Greece utilizing an IoT infrastructure ( http://arxiv.org/abs/2309.02797v1 )

ライセンス: Link先を確認
Georgios Mylonas, Lidia Pocero Fraile, Stelios Tsampas, Athanasios Kalogeras(参考訳) 都市部における騒音汚染のより体系的なモニタリングは,特にスマートシティやIoTの普及に伴い,研究コミュニティのテーマとして注目を集めている。 しかし、職場や公共の建物内での室内騒音のレベルをモニターすることは、私たちの生活に大きな影響を与えています。 本研究では,ギリシャの5つの学校ビル内に設置したIoTインフラストラクチャによる騒音レベルデータについて報告する。 以上の結果から,学生や教育者が毎日経験している状況をより正確に把握し,健康リスクや聴覚の快適さの観点から有用な知見が得られることが示唆された。

Monitoring noise pollution in urban areas in a more systematic manner has been gaining traction as a theme among the research community, especially with the rise of smart cities and the IoT. However, although it affects our everyday life in a profound way, monitoring indoor noise levels inside workplaces and public buildings has so far grabbed less of our attention. In this work, we report on noise levels data produced by an IoT infrastructure installed inside 5 school buildings in Greece. Our results indicate that such data can help to produce a more accurate picture of the conditions that students and educators experience every day, and also provide useful insights in terms of health risks and aural comfort.
翻訳日:2023-09-07 16:25:30 公開日:2023-09-06
# Bi$_2$Se$_3$ナノシートのトポロジー

Topology of Bi$_2$Se$_3$ nanosheets ( http://arxiv.org/abs/2309.02792v1 )

ライセンス: Link先を確認
Lucas Maisel Licer\'an, Sebastiaan Koerhuis, Daniel Vanmaekelbergh, Henk Stoof(参考訳) 近年, トポロジカル絶縁体Bi$_2$Se$_3$の2次元コロイドナノ結晶の量子スピンホールエッジチャネルが直接観測されている。 本研究は, 従来, 薄いナノシートを記述するために用いられてきた4バンド有効モデルを再考する。 3次元の $\boldsymbol{k} \boldsymbol{cdot} \boldsymbol{p}$ モデルから派生したもので、材料厚みの小さいため隙間となる上面と下面の電子状態を記述する。 しかし、3次元理論から直接導かれる表面状態の4バンドモデルだけでは、いくつかの4重層からなる薄膜の記述には不適切であり、また、かなりの範囲の厚さで不正確な位相不変量が得られることも判明した。 この制限に対処するために、表面状態に加えてフェルミレベルに最も近いバルクバンドの集合も含む8バンドモデルを提案する。 8バンドモデルは実験的な観測のほとんどを捉えているだけでなく、厚さの異なる薄膜における$\mathbb{z}_{2}$の以前の第一原理計算とも一致している。 さらに, 薄いBi$_2$Se$_3$ナノシートのトポロジー特性は, 表面とバルク状態の間の複雑な相互作用の結果出現し, 実際に後者は非自明なチャーン数となることを示した。

Recently, the quantum spin-Hall edge channels of two-dimensional colloidal nanocrystals of the topological insulator Bi$_2$Se$_3$ were observed directly. Motivated by this development, we reconsider the four-band effective model which has been traditionally employed in the past to describe thin nanosheets of this material. Derived from a three-dimensional $\boldsymbol{k} \boldsymbol{\cdot} \boldsymbol{p}$ model, it physically describes the top and bottom electronic surface states that become gapped due to the material's small thickness. However, we find that the four-band model for the surface states alone, as derived directly from the three-dimensional theory, is inadequate for the description of thin films of a few quintuple layers and even yields an incorrect topological invariant within a significant range of thicknesses. To address this limitation we propose an eight-band model which, in addition to the surface states, also incorporates the set of bulk bands closest to the Fermi level. We find that the eight-band model not only captures most of the experimental observations, but also agrees with previous first-principles calculations of the $\mathbb{Z}_{2}$ invariant in thin films of varying thickness. Moreover, we demonstrate that the topological properties of thin Bi$_2$Se$_3$ nanosheets emerge as a result of an intricate interplay between the surface and bulk states, which in fact results in nontrivial Chern numbers for the latter.
翻訳日:2023-09-07 16:25:18 公開日:2023-09-06
# モバイルエッジコンピューティングにおける分割学習のための情報の動的エンコーディングと復号化:情報ボットネック理論の活用

Dynamic Encoding and Decoding of Information for Split Learning in Mobile-Edge Computing: Leveraging Information Bottleneck Theory ( http://arxiv.org/abs/2309.02787v1 )

ライセンス: Link先を確認
Omar Alhussein and Moshi Wei and Arashmid Akhavain(参考訳) 分割学習(split learning)は、mlモデル(ニューラルネットワークなど)を2つの部分(エンコーダとデコーダ)に分割する、プライバシを保護した分散学習パラダイムである。 エンコーダは、モデルトレーニングのために、生データではなく、いわゆる潜在表現を共有する。 モバイルエッジコンピューティングでは、ネットワーク機能(トラフィック予測など)を、ユーザ機器(ue)にエンコーダが、エッジネットワークにデコーダが配置されたスプリットラーニングを通じてトレーニングすることができる。 本稿では,データ処理の不等式と情報ボトルネック(IB)理論に基づいて,送信リソース消費の動的バランスと共有潜在表現の情報伝達性を両立させることにより,予測性能に直接影響を及ぼす新しい枠組みとトレーニング機構を提案する。 提案するトレーニングメカニズムは、複雑な関連トレードオフの複数のモードを特徴とするエンコーダ-デコーダニューラルネットワークアーキテクチャを提供する。 適応性は、さまざまなリアルタイムネットワーク条件とアプリケーション要件に対応でき、運用コストの削減とネットワークアジリティの向上が期待できる。 概念実証として,ミリ波(ミリ波)のスループット予測問題に適用する。 IB理論の観点から、リカレントニューラルネットワークに関するいくつかの課題を取り上げ、新たな洞察を提供する。 興味深いことに,逐次モデルの時間領域にまたがる圧縮現象と,トレーニング時間数で発生する圧縮位相がみられた。

Split learning is a privacy-preserving distributed learning paradigm in which an ML model (e.g., a neural network) is split into two parts (i.e., an encoder and a decoder). The encoder shares so-called latent representation, rather than raw data, for model training. In mobile-edge computing, network functions (such as traffic forecasting) can be trained via split learning where an encoder resides in a user equipment (UE) and a decoder resides in the edge network. Based on the data processing inequality and the information bottleneck (IB) theory, we present a new framework and training mechanism to enable a dynamic balancing of the transmission resource consumption with the informativeness of the shared latent representations, which directly impacts the predictive performance. The proposed training mechanism offers an encoder-decoder neural network architecture featuring multiple modes of complexity-relevance tradeoffs, enabling tunable performance. The adaptability can accommodate varying real-time network conditions and application requirements, potentially reducing operational expenditure and enhancing network agility. As a proof of concept, we apply the training mechanism to a millimeter-wave (mmWave)-enabled throughput prediction problem. We also offer new insights and highlight some challenges related to recurrent neural networks from the perspective of the IB theory. Interestingly, we find a compression phenomenon across the temporal domain of the sequential model, in addition to the compression phase that occurs with the number of training epochs.
翻訳日:2023-09-07 16:24:50 公開日:2023-09-06
# 意味情報抽出とドメイン固有言語モデルを用いたCVEによる攻撃予測

CVE-driven Attack Technique Prediction with Semantic Information Extraction and a Domain-specific Language Model ( http://arxiv.org/abs/2309.02785v1 )

ライセンス: Link先を確認
Ehsan Aghaei, Ehab Al-Shaer(参考訳) 本稿では,CVE(Common Vulnerabilities and Exposures)に代表される脆弱性情報と,結果として生じるサイバー攻撃行動のギャップという,サイバーセキュリティにおける重要な課題に対処する。 CVEは脆弱性に関する洞察を提供するが、ATT&CKフレームワーク内の潜在的な脅威アクション(戦術、技術、手順、TP)の詳細を欠くことが多い。 このギャップは、正確なCVE分類と積極的な対策開始を妨げる。 本稿では、CVE記述を分析し、CVEによるTTP攻撃を推測する革新的な技術を用いて、TTP予測ツールを提案する。 TTPpredictorは、限定ラベル付きデータとCVEとTP記述間の意味的差異によって引き起こされる課題を克服する。 当初は、Semantic Role Labeling (SRL) 技術を用いて、構造化されていないサイバー脅威レポートから脅威アクションを抽出した。 これらのアクションは、コンテキスト属性とともに、MITREのアタック機能クラスと相関する。 この自動相関は、新しい脅威アクションを脅威機能クラスとTTPに分類するために不可欠なラベル付きデータの作成を促進する。 本報告では,CVE分類の95%から98%からATT&CK技術まで,約98%,F1スコアの精度でTTP予測器の有効性を実証した経験的評価を行った。 TTP予測器は、ChatGPTのような最先端の言語モデルツールより優れている。 本論文は、サイバーセキュリティ実践者が脅威を積極的に識別し軽減する能力を向上し、CVEを潜在的な攻撃技術にリンクする堅牢なソリューションを提供する。

This paper addresses a critical challenge in cybersecurity: the gap between vulnerability information represented by Common Vulnerabilities and Exposures (CVEs) and the resulting cyberattack actions. CVEs provide insights into vulnerabilities, but often lack details on potential threat actions (tactics, techniques, and procedures, or TTPs) within the ATT&CK framework. This gap hinders accurate CVE categorization and proactive countermeasure initiation. The paper introduces the TTPpredictor tool, which uses innovative techniques to analyze CVE descriptions and infer plausible TTP attacks resulting from CVE exploitation. TTPpredictor overcomes challenges posed by limited labeled data and semantic disparities between CVE and TTP descriptions. It initially extracts threat actions from unstructured cyber threat reports using Semantic Role Labeling (SRL) techniques. These actions, along with their contextual attributes, are correlated with MITRE's attack functionality classes. This automated correlation facilitates the creation of labeled data, essential for categorizing novel threat actions into threat functionality classes and TTPs. The paper presents an empirical assessment, demonstrating TTPpredictor's effectiveness with accuracy rates of approximately 98% and F1-scores ranging from 95% to 98% in precise CVE classification to ATT&CK techniques. TTPpredictor outperforms state-of-the-art language model tools like ChatGPT. Overall, this paper offers a robust solution for linking CVEs to potential attack techniques, enhancing cybersecurity practitioners' ability to proactively identify and mitigate threats.
翻訳日:2023-09-07 16:24:24 公開日:2023-09-06
# Norm Tweaking:大規模言語モデルの高速低ビット量子化

Norm Tweaking: High-performance Low-bit Quantization of Large Language Models ( http://arxiv.org/abs/2309.02784v1 )

ライセンス: Link先を確認
Liang Li, Qingyuan Li, Bo Zhang, Xiangxiang Chu(参考訳) 大規模言語モデル(LLM)のサイズが拡大するにつれ、精度を犠牲にすることなくモデル圧縮が重要な課題となっている。 GPTQのようないくつかの量子化法は許容される4ビットの重みのみの量子化を達成するために進歩してきたが、低ビットの量子化の試みは、しばしば深刻な性能劣化をもたらす。 本稿では,現行のPTQ手法のプラグインとして利用でき,コスト効率を向上し,高精度な手法であるノルム調整手法を提案する。 本手法は, フロートに適合する量子化活性化分布の修正により, LLMの精度が容易に回復できることに着想を得たものである。 これを実現するために,キャリブレーションデータ生成とチャネル間距離制約を含む微調整戦略を慎重に設計し,正規化層の重み付けを更新し,より一般化する。 我々は,複数のオープンソース LLM を用いて,様々なデータセットに対する広範な実験を行う。 本手法は,既存のPTQ法を超越して,重量のみの量子化と重量と活性化の連成量子化の両面で有意な改善を示す。 GLM-130B と OPT-66B では,フロート法と同程度の精度で2ビット量子化を行う。 私たちのシンプルで効果的なアプローチは、現実のアプリケーションでより実用的になります。

As the size of large language models (LLMs) continues to grow, model compression without sacrificing accuracy has become a crucial challenge for deployment. While some quantization methods, such as GPTQ, have made progress in achieving acceptable 4-bit weight-only quantization, attempts at lower bit quantization often result in severe performance degradation. In this paper, we introduce a technique called norm tweaking, which can be used as a plugin in current PTQ methods to achieve high precision while being cost-efficient. Our approach is inspired by the observation that rectifying the quantized activation distribution to match its float counterpart can readily restore accuracy for LLMs. To achieve this, we carefully design a tweaking strategy that includes calibration data generation and channel-wise distance constraint to update the weights of normalization layers for better generalization. We conduct extensive experiments on various datasets using several open-sourced LLMs. Our method demonstrates significant improvements in both weight-only quantization and joint quantization of weights and activations, surpassing existing PTQ methods. On GLM-130B and OPT-66B, our method even achieves the same level of accuracy at 2-bit quantization as their float ones. Our simple and effective approach makes it more practical for real-world applications.
翻訳日:2023-09-07 16:23:58 公開日:2023-09-06
# ビジョントランスを用いた肺癌の診断と予後の改善:スコーピング・レビュー

Improving diagnosis and prognosis of lung cancer using vision transformers: A scoping review ( http://arxiv.org/abs/2309.02783v1 )

ライセンス: Link先を確認
Hazrat Ali, Farida Mohsen, Zubair Shah(参考訳) vision transformerベースの手法は、肺癌の応用を含む、医学的人工知能とがんイメージングの分野を進歩させています。 近年,多くの研究者が肺がんの診断と予後のための視覚変換器ベースのAI手法を開発した。 このスコーピングレビューは、肺がんイメージング応用のためのビジョントランスフォーマーベースのAI手法の最近の展開を特定することを目的としている。 ビジョントランスフォーマーがAIのパフォーマンスを補完し、肺がんのディープラーニング手法を補完する方法について、重要な洞察を提供する。 さらに、レビューはフィールドの進行に寄与したデータセットも識別する。 314の研究のうち、このレビューは2020年から2022年にかけて出版された34の研究を含んでいる。 これらの研究で最も一般的な課題は、肺扁平上皮癌と肺腺癌とを分類し、良性と悪性の肺結節を同定することであった。 その他の応用としては、肺がん患者の生存予測や肺の分節化がある。 その研究は臨床転換のための明確な戦略を欠いていた。 SWINトランスフォーマーは研究者の間で人気があったが、視覚トランスフォーマーと畳み込みニューラルネットワークやUNetモデルが組み合わされた他の多くのアーキテクチャも報告された。 vision transformerベースのモデルは、肺がん応用のためのai手法の開発でますます人気が高まっていると結論付けることができる。 しかし、その計算複雑性と臨床関連性は今後の研究で考慮すべき重要な要素である。 このレビューは、AIと医療の分野の研究者が肺癌の診断と予後の最先端を推し進めるための貴重な洞察を提供する。 肺がん.onrender.com/のインタラクティブダッシュボードを提供する。

Vision transformer-based methods are advancing the field of medical artificial intelligence and cancer imaging, including lung cancer applications. Recently, many researchers have developed vision transformer-based AI methods for lung cancer diagnosis and prognosis. This scoping review aims to identify the recent developments on vision transformer-based AI methods for lung cancer imaging applications. It provides key insights into how vision transformers complemented the performance of AI and deep learning methods for lung cancer. Furthermore, the review also identifies the datasets that contributed to advancing the field. Of the 314 retrieved studies, this review included 34 studies published from 2020 to 2022. The most commonly addressed task in these studies was the classification of lung cancer types, such as lung squamous cell carcinoma versus lung adenocarcinoma, and identifying benign versus malignant pulmonary nodules. Other applications included survival prediction of lung cancer patients and segmentation of lungs. The studies lacked clear strategies for clinical transformation. SWIN transformer was a popular choice of the researchers; however, many other architectures were also reported where vision transformer was combined with convolutional neural networks or UNet model. It can be concluded that vision transformer-based models are increasingly in popularity for developing AI methods for lung cancer applications. However, their computational complexity and clinical relevance are important factors to be considered for future research work. This review provides valuable insights for researchers in the field of AI and healthcare to advance the state-of-the-art in lung cancer diagnosis and prognosis. We provide an interactive dashboard on lung-cancer.onrender.com/.
翻訳日:2023-09-07 16:23:36 公開日:2023-09-06
# 組合せベイズ最適化のためのランダム後処理

Random postprocessing for combinatorial Bayesian optimization ( http://arxiv.org/abs/2309.02842v1 )

ライセンス: Link先を確認
Keisuke Morita, Yoshihiko Nishikawa, Masayuki Ohzeki(参考訳) ベイズ最適化を含む離散的「ブラックボックス」最適化に対するモデルベースシーケンシャルなアプローチは、しばしば対象関数に対して同じ点を複数回アクセスし、その結果、グローバル最適化を見つけるための多くのステップをもたらす。 本稿では,データセットの重複サンプルを厳格に禁止するベイズ最適化に対するポストプロセッシング手法の効果を数値的に検討する。 本手法は, 取得関数が最大後方推定値である場合には, 逐次ステップ数を大幅に削減し, グローバル最適度を求める。 この結果は,高次元問題に対するベイズ最適化の緩やかな収束を解決するための単純だが一般的な戦略である。

Model-based sequential approaches to discrete "black-box" optimization, including Bayesian optimization techniques, often access the same points multiple times for a given objective function in interest, resulting in many steps to find the global optimum. Here, we numerically study the effect of a postprocessing method on Bayesian optimization that strictly prohibits duplicated samples in the dataset. We find the postprocessing method significantly reduces the number of sequential steps to find the global optimum, especially when the acquisition function is of maximum a posterior estimation. Our results provide a simple but general strategy to solve the slow convergence of Bayesian optimization for high-dimensional problems.
翻訳日:2023-09-07 16:17:30 公開日:2023-09-06
# 非繰り返し符号化におけるアジャケーシホッピング・ド・ブルイン系列

Adjacency-hopping de Bruijn Sequences for Non-repetitive Coding ( http://arxiv.org/abs/2309.02841v1 )

ライセンス: Link先を確認
Bin Chen, Zhenglin Liang, Shiqian Wu(参考訳) 本論文では, 副次ホッピング・ド・ブリュイーン列と呼ばれる特別タイプの巡回配列を紹介する。 このような列の存在を理論的に証明し、それらの列の数を導出する。 これらの列は、隣接する全ての符号が異なることを保証し、その部分列の特異性を保ちながら、符号化とマッチングにおいて元のド・ブリュイアン列の重要な特徴である。 最終的に、構造化光符号化にアジャカシホッピング・ド・ブルイーンシーケンスを適用し、そのようなシーケンスで符号化されたカラーフリンジパターンを示す。 要約すると、提案したシーケンスは、サブシーケンスの特異性と隣接ホッピング特性により構造化光符号化において大きな利点を示し、非繰り返し符号化と効率的なマッチングの要件に類似した他のフィールドへの拡張の可能性を示す。

A special type of cyclic sequences named adjacency-hopping de Bruijn sequences is introduced in this paper. It is theoretically proved the existence of such sequences, and the number of such sequences is derived. These sequences guarantee that all neighboring codes are different while retaining the uniqueness of subsequences, which is a significant characteristic of original de Bruijn sequences in coding and matching. At last, the adjacency-hopping de Bruijn sequences are applied to structured light coding, and a color fringe pattern coded by such a sequence is presented. In summary, the proposed sequences demonstrate significant advantages in structured light coding by virtue of the uniqueness of subsequences and the adjacency-hopping characteristic, and show potential for extension to other fields with similar requirements of non-repetitive coding and efficient matching.
翻訳日:2023-09-07 16:17:18 公開日:2023-09-06
# スーパーデンス符号化を超越した量子双方向通信プロトコル

Quantum Two-Way Communication Protocol Beyond Superdense Coding ( http://arxiv.org/abs/2309.02837v1 )

ライセンス: Link先を確認
Lorenzo Valentini, Kristian Skafte Jensen, Ren\'e B{\o}dker Christensen, Marco Chiani, Petar Popovski(参考訳) 量子対を絡めて古典的なビットを伝送するための双方向通信プロトコルに一方向超深符号化の一般化を導入する。 提案プロトコルは,片方向スーパーデンス符号化において与えられると考えられる絡み合ったペアのプロビジョニングを行う。 提案プロトコルは,従来のプロトコルと比較して,データレートとエネルギー効率を50%向上させる。 デコヒーレンスを考慮しても、デコヒーレンス時間が極端に短い限り、量子プロトコルはより良く動作する。

We introduce a generalization of one-way superdense coding to two-way communication protocols for transmitting classical bits by using entangled quantum pairs. The proposed protocol caters for provision of entangled pairs, which is assumed to be given in one-way superdense coding. The proposed protocol gives a 50% increase in both data rate and energy efficiency compared to the classical protocol. Even when decoherence is taken into consideration, the quantum protocol performs better as long as the decoherence time is not extremely short.
翻訳日:2023-09-07 16:17:02 公開日:2023-09-06
# BigVSAN: Slicing Adversarial NetworkによるGANベースのニューラルヴォコーダの強化

BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network ( http://arxiv.org/abs/2309.02836v1 )

ライセンス: Link先を確認
Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji(参考訳) 高忠実度音声波形をリアルタイムより高速に合成できるGANベースのボコーダの研究が盛んに行われている。 しかし、ほとんどのGANは、特徴空間における実データと偽データの識別に最適な予測値を得ることができないことが報告されている。 本報告では, 画像生成作業において, 最適投影を見出すことができる改良型GANトレーニングフレームワークであるスライシング・ディバイサル・ネットワーク(SAN)が有効であることが実証されている。 本稿では,VocodeタスクにおけるSANの有効性について検討する。 そこで本研究では,ほとんどのGANベースのボコーダが採用している最小二乗GANを,損失関数がSANの要求を満たすように修正する手法を提案する。 実験により,SANは,BigVGANを含むGANベースのボコーダの性能を小さな修正で向上させることができることを示した。 私たちのコードはhttps://github.com/sony/bigvsan.comで利用可能です。

Generative adversarial network (GAN)-based vocoders have been intensively studied because they can synthesize high-fidelity audio waveforms faster than real-time. However, it has been reported that most GANs fail to obtain the optimal projection for discriminating between real and fake data in the feature space. In the literature, it has been demonstrated that slicing adversarial network (SAN), an improved GAN training framework that can find the optimal projection, is effective in the image generation task. In this paper, we investigate the effectiveness of SAN in the vocoding task. For this purpose, we propose a scheme to modify least-squares GAN, which most GAN-based vocoders adopt, so that their loss functions satisfy the requirements of SAN. Through our experiments, we demonstrate that SAN can improve the performance of GAN-based vocoders, including BigVGAN, with small modifications. Our code is available at https://github.com/sony/bigvsan.
翻訳日:2023-09-07 16:16:54 公開日:2023-09-06
# Few-Shot Class-Incremental Learningのための画像オブジェクト特異的プロンプト学習

Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2309.02833v1 )

ライセンス: Link先を確認
In-Ug Yoon, Tae-Min Choi, Sun-Kyung Lee, Young-Min Kim, Jong-Hwan Kim(参考訳) 多くのFSCIL研究が実施されているが、特にインクリメンタルセッションにおいて、満足なパフォーマンスを達成することは依然として困難である。 注目すべき課題のひとつは、十分なベースセッショントレーニングセットでトレーニングされたエンコーダが、インクリメンタルセッションではパフォーマンスが劣っていることだ。 本研究では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。 入力画像に対する画像オブジェクト固有(IOS)分類器を定式化する。 ここでは、IOS分類器は画像の背景ではなく、クラスオブジェクトの特定の属性(翼や車輪など)をターゲットにしている。 これらのIOS分類器を作成するために、特別に設計されたモジュールを使ってバイアスプロンプトを分類器にエンコードし、キーとプロンプトのペアを使って各セッションでクラスのIOS機能をピンポイントする。 fscilの立場から考えると、私たちのフレームワークは以前の知識を保ち、新しいセッションに素早く適応するように構成されています。 これは各セッションにおけるモジュールのアップカビリティと、高速収束のために実証的なトリックを考慮したものである。 提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,優れた性能を示す。 さらに、IOS分類器を実現するための学習モデルの能力を検証するための追加実験も提供する。 また、アーキテクチャ内の各モジュールの影響を分析するためのアブレーション研究も行います。

While many FSCIL studies have been undertaken, achieving satisfactory performance, especially during incremental sessions, has remained challenging. One prominent challenge is that the encoder, trained with an ample base session training set, often underperforms in incremental sessions. In this study, we introduce a novel training framework for FSCIL, capitalizing on the generalizability of the Contrastive Language-Image Pre-training (CLIP) model to unseen classes. We achieve this by formulating image-object-specific (IOS) classifiers for the input images. Here, an IOS classifier refers to one that targets specific attributes (like wings or wheels) of class objects rather than the image's background. To create these IOS classifiers, we encode a bias prompt into the classifiers using our specially designed module, which harnesses key-prompt pairs to pinpoint the IOS features of classes in each session. From an FSCIL standpoint, our framework is structured to retain previous knowledge and swiftly adapt to new sessions without forgetting or overfitting. This considers the updatability of modules in each session and some tricks empirically found for fast convergence. Our approach consistently demonstrates superior performance compared to state-of-the-art methods across the miniImageNet, CIFAR100, and CUB200 datasets. Further, we provide additional experiments to validate our learned model's ability to achieve IOS classifiers. We also conduct ablation studies to analyze the impact of each module within the architecture.
翻訳日:2023-09-07 16:16:35 公開日:2023-09-06
# 文脈と応答のパターン情報学習によるオープンドメイン対話生成の促進

Promoting Open-domain Dialogue Generation through Learning Pattern Information between Contexts and Responses ( http://arxiv.org/abs/2309.02823v1 )

ライセンス: Link先を確認
Mengjuan Liu, Chenyang Liu, Yunfan Yang, Jiang Liu, Mohan Jing(参考訳) 近年,深層ニューラルネットワークによるオープンドメイン対話モデルの構築が話題となっている。 しかし、これらのモデルが生成する応答は、文脈化されていない応答や、情報内容が欠けている一般的な応答を生成する傾向、ユーザの体験に深刻なダメージを与えるなど、多くの問題に悩まされる。 したがって、多くの研究が対話モデルにより多くの情報を導入して、生成した応答をより鮮明かつ情報豊かにしようとする。 それらと異なり,学習サンプルにおける文脈と応答の暗黙的なパターン情報を学習することにより,生成した応答の質を向上させる。 本稿では,まず,事前学習言語モデル(GPT-2)に基づくオープンドメイン対話モデルを構築する。 そして, 事前学習モデルにおいて, 露出バイアス問題を避けつつ, 学習段階での応答生成を誘導するために, 応答を活用できる改良されたスケジュールサンプリング法を提案する。 より重要なことは、生成した応答がより多様でヒトの応答に近似するように、文脈と応答の間の暗黙のパターン情報をマイニングする応答認識機構を設計することである。 最後に,提案モデル(rad)をペルソナチャットおよび日次ダイアログデータセット上で評価し,本モデルがほとんどの自動メトリクスおよび手動メトリクスのベースラインを上回ることを示す。

Recently, utilizing deep neural networks to build the opendomain dialogue models has become a hot topic. However, the responses generated by these models suffer from many problems such as responses not being contextualized and tend to generate generic responses that lack information content, damaging the user's experience seriously. Therefore, many studies try introducing more information into the dialogue models to make the generated responses more vivid and informative. Unlike them, this paper improves the quality of generated responses by learning the implicit pattern information between contexts and responses in the training samples. In this paper, we first build an open-domain dialogue model based on the pre-trained language model (i.e., GPT-2). And then, an improved scheduled sampling method is proposed for pre-trained models, by which the responses can be used to guide the response generation in the training phase while avoiding the exposure bias problem. More importantly, we design a response-aware mechanism for mining the implicit pattern information between contexts and responses so that the generated replies are more diverse and approximate to human replies. Finally, we evaluate the proposed model (RAD) on the Persona-Chat and DailyDialog datasets; and the experimental results show that our model outperforms the baselines on most automatic and manual metrics.
翻訳日:2023-09-07 16:16:11 公開日:2023-09-06
# Roulette: ディープラーニング分類タスクのためのセマンティックプライバシ保護デバイスエッジ協調推論フレームワーク

Roulette: A Semantic Privacy-Preserving Device-Edge Collaborative Inference Framework for Deep Learning Classification Tasks ( http://arxiv.org/abs/2309.02820v1 )

ライセンス: Link先を確認
Jingyi Li, Guocheng Liao, Lin Chen, and Xu Chen(参考訳) ディープラーニング分類器は、人工知能の時代において不可欠である。 デバイスエッジベースのコラボレーティブ推論は、IoTおよび5G/6Gネットワークでのアプリケーションを促進するための効率的なフレームワークとして広く採用されている。 しかし、ID以外のデータ配信やプライバシー開示の精度低下に悩まされている。 精度の低下のため、転送学習と分割学習の直接利用はコストが高く、プライバシーの問題も残る。 プライバシー開示のために、暗号ベースのアプローチは大きなオーバーヘッドにつながる。 他の軽量な方法は、基底の真理は非感受性であり、露呈できると仮定する。 しかし、多くのアプリケーションにとって、基本的な真実はユーザーのプライバシーに敏感な情報です。 本稿では,ディープラーニング分類のためのタスク指向のセマンティックプライバシ保存協調推論フレームワークであるRouletteのフレームワークを提案する。 入力データよりも、データの基礎的真実をプライベート情報として扱う。 我々は,バックエンドDNNを凍結し,フロントエンドDNNを特徴抽出器と暗号化器の両方に再訓練する,分割学習のパラダイムを開発する。 さらに,プライバシの異なる保証を提供し,真理推論攻撃の難しさを解析する。 提案したRouletteの有効性を検証するために,現実的なデータセットを用いて広範な性能評価を行い,Rouletteが様々な攻撃に対して効果的に防御でき,一方でモデル精度も良好であることを示す。 非i.d.が非常に厳しい状況では、Rouletteはベンチマークよりも平均21\%の推論精度を向上し、一方、識別攻撃の精度はランダムな推測とほぼ同等である。

Deep learning classifiers are crucial in the age of artificial intelligence. The device-edge-based collaborative inference has been widely adopted as an efficient framework for promoting its applications in IoT and 5G/6G networks. However, it suffers from accuracy degradation under non-i.i.d. data distribution and privacy disclosure. For accuracy degradation, direct use of transfer learning and split learning is high cost and privacy issues remain. For privacy disclosure, cryptography-based approaches lead to a huge overhead. Other lightweight methods assume that the ground truth is non-sensitive and can be exposed. But for many applications, the ground truth is the user's crucial privacy-sensitive information. In this paper, we propose a framework of Roulette, which is a task-oriented semantic privacy-preserving collaborative inference framework for deep learning classifiers. More than input data, we treat the ground truth of the data as private information. We develop a novel paradigm of split learning where the back-end DNN is frozen and the front-end DNN is retrained to be both a feature extractor and an encryptor. Moreover, we provide a differential privacy guarantee and analyze the hardness of ground truth inference attacks. To validate the proposed Roulette, we conduct extensive performance evaluations using realistic datasets, which demonstrate that Roulette can effectively defend against various attacks and meanwhile achieve good model accuracy. In a situation where the non-i.i.d. is very severe, Roulette improves the inference accuracy by 21\% averaged over benchmarks, while making the accuracy of discrimination attacks almost equivalent to random guessing.
翻訳日:2023-09-07 16:15:47 公開日:2023-09-06
# 特異点近傍による振動支援エネルギー移動の促進と蛍光検出振動分光法による距離探査

Enhancing vibrationally assisted energy transfer by proximity to exceptional points and probing the distance via fluorescence-detected vibrational spectroscopy ( http://arxiv.org/abs/2309.02819v1 )

ライセンス: Link先を確認
Zeng-Zhao Li and K. Birgitta Whaley(参考訳) 量子プラットフォーム上の自然系におけるエネルギー移動過程のエミュレーションは、自然の複雑なダイナミクスの理解をさらに深めることができる。 1つの顕著な例は、閉じ込められたイオン量子エミュレータ上での振動補助エネルギー伝達(VAET)のデモンストレーションであり、光収穫のエネルギー学的な知見を提供する。 本研究では、閉じ込められたイオンを用いたVAETシミュレーションの研究を、振動モードに弱結合した$\mathscr{PT}$-symmetric chromophore dimerからなる非エルミタン量子系に拡張する。 まず,振動を伴わない励起エネルギー移動過程の例外点(eps)と非エルミート的特徴を特徴付ける。 振動を含む系の非エルミート力学を探索した結果, 振動モードからのフォノンの吸収に伴うエネルギー移動はEP付近で顕著に増強できることがわかった。 計算の結果,固有状態と固有エネルギーの結合を示す特異なスペクトル特性が示され,新しい蛍光検出振動分光法がEPをプローブする。 EP近傍でのVAETプロセスの増強は、EPにおけるフォノン吸収の最大選択性に起因することが判明した。 非エルミート量子系におけるVAETプロセスの改善に関する研究は、励起エネルギー移動に関連する量子力学における非ハーミティシティの活用の道を開く。

Emulation of energy transfer processes in natural systems on quantum platforms can further our understanding of complex dynamics in nature. One notable example is the demonstration of vibrationally assisted energy transfer (VAET) on a trapped-ion quantum emulator, which offers insights for the energetics of light harvesting. In this work, we expand the study of VAET simulation with trapped ions to a non-Hermitian quantum system comprising a $\mathscr{PT}$-symmetric chromophore dimer weakly coupled to a vibrational mode. We first characterize exceptional points (EPs) and non-Hermitian features of the excitation energy transfer processes in the absence of the vibration. Exploring the non-Hermitian dynamics of the whole system including vibrations, we find that energy transfer accompanied by absorption of phonons from a vibrational mode can be significantly enhanced near an EP. Our calculations reveal a unique spectral feature signifying the coalescing of eigenstates and eigenenergies, providing a novel fluorescence-detected vibrational spectroscopy approach to probe EPs. Enhancement of the VAET process near the EP is found to be due to maximal favorability of phonon absorption at the EP. Our work on improving VAET processes in non-Hermitian quantum systems paves the way for leveraging non-Hermiticity in quantum dynamics related to excitation energy transfer.
翻訳日:2023-09-07 16:15:24 公開日:2023-09-06
# 遠心圧縮機の熱力学に基づくモデルとアクティブ機械学習を組み合わせた産業設計最適化

Combining Thermodynamics-based Model of the Centrifugal Compressors and Active Machine Learning for Enhanced Industrial Design Optimization ( http://arxiv.org/abs/2309.02818v1 )

ライセンス: Link先を確認
Shadi Ghiasi, Guido Pazzi, Concettina Del Grosso, Giovanni De Magistris, Giacomo Veneri(参考訳) 遠心圧縮機の設計プロセスは、圧縮機の力学方程式の基礎となる複雑な解析方程式のために計算コストが高い最適化プロセスを適用する必要がある。 回帰サロゲートモデルはそのようなプロセスの計算コストを大幅に削減できるが、サロゲートモデルを訓練するためのデータの不足が大きな課題である。 ラベル付きサンプルを戦略的に活用するために,我々は,熱力学ベースの圧縮機モデル(コンプレッサー設計のための内部ソフトウェア)とガウス過程に基づくサーロゲートモデルをデプロイ可能なアクティブラーニング(al)設定で組み合わせるアクティブコンプレッサーフレームワークを提案する。 まず、オフライン環境で実験を行い、さらに、熱力学ベースの圧縮機モデルとのリアルタイムインタラクションによって本番環境への展開を可能にするオンラインalフレームワークに拡張する。 ActiveCompDesignは、データポイントのランダムな選択に関して、ALフレームワーク内のサンプルの不確実性に基づくクエリ関数を活用することで、サロゲートモデリングの大幅なパフォーマンス向上を示す。 さらに,本システムでは,コンプレッサの設計最適化の総計算時間を,内部熱力学に基づくシミュレータに依存するよりも約46%高速化し,同じ性能を実現している。

The design process of centrifugal compressors requires applying an optimization process which is computationally expensive due to complex analytical equations underlying the compressor's dynamical equations. Although the regression surrogate models could drastically reduce the computational cost of such a process, the major challenge is the scarcity of data for training the surrogate model. Aiming to strategically exploit the labeled samples, we propose the Active-CompDesign framework in which we combine a thermodynamics-based compressor model (i.e., our internal software for compressor design) and Gaussian Process-based surrogate model within a deployable Active Learning (AL) setting. We first conduct experiments in an offline setting and further, extend it to an online AL framework where a real-time interaction with the thermodynamics-based compressor's model allows the deployment in production. ActiveCompDesign shows a significant performance improvement in surrogate modeling by leveraging on uncertainty-based query function of samples within the AL framework with respect to the random selection of data points. Moreover, our framework in production has reduced the total computational time of compressor's design optimization to around 46% faster than relying on the internal thermodynamics-based simulator, achieving the same performance.
翻訳日:2023-09-07 16:15:03 公開日:2023-09-06
# 連続状態-作用空間に対する近連続時間強化学習

Near-continuous time Reinforcement Learning for continuous state-action spaces ( http://arxiv.org/abs/2309.02815v1 )

ライセンス: Link先を確認
Lorenzo Croissant (CEREMADE), Marc Abeille, Bruno Bouchard (CEREMADE)(参考訳) 未知の力学系を制御するための強化学習問題を考えることで,1つの軌道に沿った長期平均報酬を最大化する。 文献の多くは、離散時間と離散状態-作用空間で発生するシステム相互作用を考察している。 この立場はゲームに適しているが、連続時間でなければ高い頻度で相互作用が起こり、本質的に連続でなければ状態空間が大きいメカニカルまたはデジタルシステムでは不十分であることが多い。 おそらく唯一の例外は、離散時間と連続時間の両方に結果が存在する線形二次フレームワークである。 しかし、連続状態を扱う能力は、強固な動的および報酬構造の欠点をもたらす。 この研究は、離散時間 (\varepsilon=1$) から連続時間 (\varepsilon\downarrow0$) までの任意の時間スケールをキャプチャするpoissonクロック $\varepsilon^{-1}$ で相互作用時間をモデル化することで、これらの欠点を克服することを目的としている。 さらに、一般的な報酬関数を検討し、$\mathbb{r}^d$ 上の任意の遷移核を持つジャンププロセスに従って状態ダイナミクスをモデル化する。 提案手法は,サブタスク(学習と計画)が効果的に実行される場合に有効であることを示す。 我々は,エリューダー次元の枠組み内での学習に取り組み,ジャンプ過程の拡散極限近似に基づく近似計画法を提案する。 全体として、我々のアルゴリズムは次数 $\tilde{\mathcal{O}}(\varepsilon^{1/2} T+\sqrt{T})$ を後悔している。 相互作用の頻度が爆発すると、近似誤差$\varepsilon^{1/2} T$は消え、$\tilde{\mathcal{O}}(\sqrt{T})$がほぼ連続時間で達成可能であることを示す。

We consider the Reinforcement Learning problem of controlling an unknown dynamical system to maximise the long-term average reward along a single trajectory. Most of the literature considers system interactions that occur in discrete time and discrete state-action spaces. Although this standpoint is suitable for games, it is often inadequate for mechanical or digital systems in which interactions occur at a high frequency, if not in continuous time, and whose state spaces are large if not inherently continuous. Perhaps the only exception is the Linear Quadratic framework for which results exist both in discrete and continuous time. However, its ability to handle continuous states comes with the drawback of a rigid dynamic and reward structure. This work aims to overcome these shortcomings by modelling interaction times with a Poisson clock of frequency $\varepsilon^{-1}$, which captures arbitrary time scales: from discrete ($\varepsilon=1$) to continuous time ($\varepsilon\downarrow0$). In addition, we consider a generic reward function and model the state dynamics according to a jump process with an arbitrary transition kernel on $\mathbb{R}^d$. We show that the celebrated optimism protocol applies when the sub-tasks (learning and planning) can be performed effectively. We tackle learning within the eluder dimension framework and propose an approximate planning method based on a diffusive limit approximation of the jump process. Overall, our algorithm enjoys a regret of order $\tilde{\mathcal{O}}(\varepsilon^{1/2} T+\sqrt{T})$. As the frequency of interactions blows up, the approximation error $\varepsilon^{1/2} T$ vanishes, showing that $\tilde{\mathcal{O}}(\sqrt{T})$ is attainable in near-continuous time.
翻訳日:2023-09-07 16:14:42 公開日:2023-09-06
# オンライン連続学習におけるモメンタム知識蒸留の再考

Rethinking Momentum Knowledge Distillation in Online Continual Learning ( http://arxiv.org/abs/2309.02870v1 )

ライセンス: Link先を確認
Nicolas Michel, Maorong Wang, Ling Xiao, Toshihiko Yamasaki(参考訳) オンライン連続学習(ocl)は、複数の分類タスクが順次現れる連続データストリーム上でニューラルネットワークをトレーニングする問題に対処する。 オフライン連続学習とは対照的に、データはoclで1回だけ見ることができる。 この文脈では、リプレイベースの戦略は印象的な結果をもたらし、ほとんどの最先端のアプローチはそれらに大きく依存しています。 知識蒸留(KD)はオフラインの連続学習で広く使われているが、OCLではその可能性にもかかわらず未公開のままである。 本稿では,OCLにKDを適用する際の課題を理論的に分析する。 我々は,多くの旗艦OCL法にMKD(Momentum Knowledge Distillation)を適用するための直接的かつ効果的な手法を導入し,既存のアプローチを強化する能力を実証する。 ImageNet100の既存の最先端の精度を10\%以上向上することに加えて、私たちは、OCLでのトレーニング中にMKDの内部力学と影響に光を当てました。 リプレイと同様、MKDはOCLの中心的なコンポーネントであるべきだと我々は主張する。

Online Continual Learning (OCL) addresses the problem of training neural networks on a continuous data stream where multiple classification tasks emerge in sequence. In contrast to offline Continual Learning, data can be seen only once in OCL. In this context, replay-based strategies have achieved impressive results and most state-of-the-art approaches are heavily depending on them. While Knowledge Distillation (KD) has been extensively used in offline Continual Learning, it remains under-exploited in OCL, despite its potential. In this paper, we theoretically analyze the challenges in applying KD to OCL. We introduce a direct yet effective methodology for applying Momentum Knowledge Distillation (MKD) to many flagship OCL methods and demonstrate its capabilities to enhance existing approaches. In addition to improving existing state-of-the-arts accuracy by more than $10\%$ points on ImageNet100, we shed light on MKD internal mechanics and impacts during training in OCL. We argue that similar to replay, MKD should be considered a central component of OCL.
翻訳日:2023-09-07 16:06:56 公開日:2023-09-06
# 深層強化学習モデルにおける望ましくない行動の低減について

On Reducing Undesirable Behavior in Deep Reinforcement Learning Models ( http://arxiv.org/abs/2309.02869v1 )

ライセンス: Link先を確認
Ophir Carmel, Guy Katz(参考訳) 深層強化学習(DRL)は様々な応用分野において非常に有用であることが証明されている。 しかし、成功したDRLベースのソフトウェアでさえ、非常に望ましくない振る舞いを示す。 これは、典型的には一般的な傾向を捉えるが、システムの特定の振る舞いを正確に捉えたり、排除したりできない報奨関数を最大化することに基づくdrlトレーニングである。 本稿では,DRLベースのソフトウェアにおいて,その性能を維持しつつ,望ましくない動作を大幅に削減することを目的とした新しいフレームワークを提案する。 さらに,我々のフレームワークは,このような望ましくない振る舞いの理解しやすい特徴を技術者に提供するのに役立てることができる。 我々のアプローチは、誤った状態-アクションペアから決定木分類器を抽出し、これらの木をdrlトレーニングループに統合し、エラーを発生させるたびにシステムをペナルティ化する。 我々は,本手法の概念実証実装を行い,その手法を3つの重要なケーススタディで評価する。 当社のアプローチでは、既存のフレームワークを簡単な方法で拡張することが可能で、トレーニング時間のオーバーヘッドはわずかです。 さらに、パフォーマンスに非常にわずかな打撃しかかからず、場合によっては改善されるが、望ましくない振る舞いの頻度は大幅に減少する。

Deep reinforcement learning (DRL) has proven extremely useful in a large variety of application domains. However, even successful DRL-based software can exhibit highly undesirable behavior. This is due to DRL training being based on maximizing a reward function, which typically captures general trends but cannot precisely capture, or rule out, certain behaviors of the system. In this paper, we propose a novel framework aimed at drastically reducing the undesirable behavior of DRL-based software, while maintaining its excellent performance. In addition, our framework can assist in providing engineers with a comprehensible characterization of such undesirable behavior. Under the hood, our approach is based on extracting decision tree classifiers from erroneous state-action pairs, and then integrating these trees into the DRL training loop, penalizing the system whenever it performs an error. We provide a proof-of-concept implementation of our approach, and use it to evaluate the technique on three significant case studies. We find that our approach can extend existing frameworks in a straightforward manner, and incurs only a slight overhead in training time. Further, it incurs only a very slight hit to performance, or even in some cases - improves it, while significantly reducing the frequency of undesirable behavior.
翻訳日:2023-09-07 16:06:38 公開日:2023-09-06
# コントラスト関係推論によるイベントシーケンスモデリングの強化

Enhancing Event Sequence Modeling with Contrastive Relational Inference ( http://arxiv.org/abs/2309.02868v1 )

ライセンス: Link先を確認
Yan Wang, Zhixuan Chu, Tao Zhou, Caigao Jiang, Hongyan Hao, Minjie Zhu, Xindong Cai, Qing Cui, Longfei Li, James Y Zhang, Siqiao Xue, Jun Zhou(参考訳) ニューラル・テンポラリ・ポイント・プロセス(tpps)は連続時間イベントシーケンスのモデリングに有望であることを示した。 しかし、イベントシーケンスデータの予測のような推論タスクを実行するためには、イベント間のインタラクションをキャプチャすることは難しい。 既存のTPPモデルは、将来の事象の条件分布をパラメータ化することに重点を置いている。 本稿では、ニューラルリレーショナル推論(NRI)を利用して、観測データから動的パターンを同時に学習しながら相互作用を推論する関係グラフを学習する新しいアプローチを提案する。 我々のアプローチであるContrastive Relational Inference-based Hawkes Process (CRIHP)は、変動推論フレームワークの下でのイベント相互作用の理由である。 強度に基づく学習を利用して、コントラスト関係制約のプロトタイプパスを探索する。 3つの実世界のデータセットに対する大規模な実験は、イベントシーケンスモデリングタスクにおけるイベントインタラクションのキャプチャにおける我々のモデルの有効性を示す。

Neural temporal point processes(TPPs) have shown promise for modeling continuous-time event sequences. However, capturing the interactions between events is challenging yet critical for performing inference tasks like forecasting on event sequence data. Existing TPP models have focused on parameterizing the conditional distribution of future events but struggle to model event interactions. In this paper, we propose a novel approach that leverages Neural Relational Inference (NRI) to learn a relation graph that infers interactions while simultaneously learning the dynamics patterns from observational data. Our approach, the Contrastive Relational Inference-based Hawkes Process (CRIHP), reasons about event interactions under a variational inference framework. It utilizes intensity-based learning to search for prototype paths to contrast relationship constraints. Extensive experiments on three real-world datasets demonstrate the effectiveness of our model in capturing event interactions for event sequence modeling tasks.
翻訳日:2023-09-07 16:06:18 公開日:2023-09-06
# 定数深さ量子回路の誤差しきい値における西森遷移の実現

Realizing the Nishimori transition across the error threshold for constant-depth quantum circuits ( http://arxiv.org/abs/2309.02863v1 )

ライセンス: Link先を確認
Edward H. Chen, Guo-Yi Zhu, Ruben Verresen, Alireza Seif, Elisa Ba\"umer, David Layden, Nathanan Tantivasadakarn, Guanyu Zhu, Sarah Sheldon, Ashvin Vishwanath, Simon Trebst, Abhinav Kandala(参考訳) 多くの量子ビットにまたがる量子状態の準備は、量子コンピュータのポテンシャルを完全に解き放つために必要である。 しかしながら、ノイズやゲートの不完全さに安定した効率的な準備プロトコルを実現することが重要な課題である。 ここでは、127個の超伝導量子ビットデバイス上の測定ベースのプロトコルを用いて、54個の系量子ビット上で、グリーンベルガー・ホルン・ザイリンガー状態(GHZ)と繰り返し符号(英語版)に精通した最も単純な長距離オーダー(Ising Order)の生成について研究する。 定数深度プロトコルと古典デコーダの効率的な実装により、GHZ状態の忠実度は、サイズ依存のユニタリプロトコルと比較して高い。 コーヒーレントおよび非コヒーレント誤差率を実験的に調整することにより、この復号された長距離秩序の2次元における安定性を、異常な西森普遍性クラスに属する遷移に対応する臨界点まで示す。 古典的なシステムでは、西森物理学は複数のパラメータを微調整する必要があるが、ここでは、測定確率のボルン則の直接的な結果として生じる。 本研究は、100量子ビットを超える量子プロセッサ上で測定に基づく状態準備が有意義に探究できることを示す。

Preparing quantum states across many qubits is necessary to unlock the full potential of quantum computers. However, a key challenge is to realize efficient preparation protocols which are stable to noise and gate imperfections. Here, using a measurement-based protocol on a 127 superconducting qubit device, we study the generation of the simplest long-range order -- Ising order, familiar from Greenberger-Horne-Zeilinger (GHZ) states and the repetition code -- on 54 system qubits. Our efficient implementation of the constant-depth protocol and classical decoder shows higher fidelities for GHZ states compared to size-dependent, unitary protocols. By experimentally tuning coherent and incoherent error rates, we demonstrate stability of this decoded long-range order in two spatial dimensions, up to a critical point which corresponds to a transition belonging to the unusual Nishimori universality class. Although in classical systems Nishimori physics requires fine-tuning multiple parameters, here it arises as a direct result of the Born rule for measurement probabilities -- locking the effective temperature and disorder driving this transition. Our study exemplifies how measurement-based state preparation can be meaningfully explored on quantum processors beyond a hundred qubits.
翻訳日:2023-09-07 16:06:03 公開日:2023-09-06
# 学習可能なクエリによる画像美学評価

Image Aesthetics Assessment via Learnable Queries ( http://arxiv.org/abs/2309.02861v1 )

ライセンス: Link先を確認
Zhiwei Xiong, Yunfan Zhang, Zhiqi Shen, Peiran Ren, Han Yu(参考訳) image aesthetics assessment (iaa) は、画像の美学を推定することを目的としている。 画像の内容によっては、審美性を評価するために様々な基準を選択する必要がある。 既存の作品は、コンテンツ知識に基づいてトレーニング済みの視覚バックボーンを使用して画像美学を学ぶ。 しかし、これらのバックボーンのトレーニングは時間がかかり、注意の分散に苦しむ。 視覚言語アライメントにおける学習可能なクエリに着想を得て,学習可能なクエリ(IAA-LQ)を用いた画像美学アセスメントを提案する。 学習可能なクエリに適応し、凍結画像エンコーダから得られた予め訓練された画像特徴から美的特徴を抽出する。 実世界のデータに対する大規模な実験はIAA-LQの利点を示し、SRCCとPLCCでそれぞれ2.2%と2.1%の最先端の手法を上回りました。

Image aesthetics assessment (IAA) aims to estimate the aesthetics of images. Depending on the content of an image, diverse criteria need to be selected to assess its aesthetics. Existing works utilize pre-trained vision backbones based on content knowledge to learn image aesthetics. However, training those backbones is time-consuming and suffers from attention dispersion. Inspired by learnable queries in vision-language alignment, we propose the Image Aesthetics Assessment via Learnable Queries (IAA-LQ) approach. It adapts learnable queries to extract aesthetic features from pre-trained image features obtained from a frozen image encoder. Extensive experiments on real-world data demonstrate the advantages of IAA-LQ, beating the best state-of-the-art method by 2.2% and 2.1% in terms of SRCC and PLCC, respectively.
翻訳日:2023-09-07 16:05:37 公開日:2023-09-06
# 一般化された相互情報:識別的クラスタリングのためのフレームワーク

Generalised Mutual Information: a Framework for Discriminative Clustering ( http://arxiv.org/abs/2309.02858v1 )

ライセンス: Link先を確認
Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Warith Harchaoui, Micka\"el Leclercq, Arnaud Droit, Fr\'ed\'eric Precioso(参考訳) この10年で、ディープクラスタリングの成功は、ニューラルネットワークをトレーニングするための教師なしの目的として、Mutual Information(MI)に大きく関与した。 正規化の質は改善のために主に議論されてきたが、クラスタリングの目的としてのMIの関連性にはほとんど注目されていない。 本稿ではまず,MIの最大化がクラスタ満足度に寄与しないことを示す。 この行動の主な原因として,kullback-leiblerの発散を確認した。 そこで我々は、教師なしニューラルネットワークトレーニングのための指標セットであるGeneralized Mutual Information (GEMINI)を導入し、コア距離を変化させて相互情報を一般化する。 miとは異なり、一部のgeminiはデータ空間内の距離やカーネルによって幾何学的認識を持つため、トレーニング時に正規化を必要としない。 最後に、GEMINIsが関連するクラスタ数を自動的に選択できることを強調し、クラスタ数が未知の深層識別クラスタリングコンテキストにおいて、ほとんど研究されていないプロパティについて述べる。

In the last decade, recent successes in deep clustering majorly involved the Mutual Information (MI) as an unsupervised objective for training neural networks with increasing regularisations. While the quality of the regularisations have been largely discussed for improvements, little attention has been dedicated to the relevance of MI as a clustering objective. In this paper, we first highlight how the maximisation of MI does not lead to satisfying clusters. We identified the Kullback-Leibler divergence as the main reason of this behaviour. Hence, we generalise the mutual information by changing its core distance, introducing the Generalised Mutual Information (GEMINI): a set of metrics for unsupervised neural network training. Unlike MI, some GEMINIs do not require regularisations when training as they are geometry-aware thanks to distances or kernels in the data space. Finally, we highlight that GEMINIs can automatically select a relevant number of clusters, a property that has been little studied in deep discriminative clustering context where the number of clusters is a priori unknown.
翻訳日:2023-09-07 16:05:21 公開日:2023-09-06
# 個人的すぎる:オンライン適応アルゴリズムにおける特徴選択の重要性

Getting too personal(ized): The importance of feature choice in online adaptive algorithms ( http://arxiv.org/abs/2309.02856v1 )

ライセンス: Link先を確認
ZhaoBin Li, Luna Yee, Nathaniel Sauerberg, Irene Sakson, Joseph Jay Williams, Anna N. Rafferty(参考訳) デジタル教育技術は、学生の体験をカスタマイズし、生徒の働き方を学習し、より多くの生徒がそれと対話するにつれて、テクノロジーを強化する可能性を秘めている。 個人情報への適応がすべての学生に利益をもたらす政策の導入を遅らせる可能性があるかなど、パーソナライズ方法を見つけようとするとコストがかかるかどうかを検討する。 本稿は,マルチアーム・バンディット(MAB)アルゴリズムを用いて,各学生に提示する教育技術のバージョンに関するポリシーを学習し,学生の特性と結果の関係を変動させ,アルゴリズムがこれらの特徴を認識しているかどうかを考察する。 シミュレーションにより,パーソナライゼーションのための学生特性の包含は,その特性が最適行動の学習に必要となる場合に有益であることを示す。 他のシナリオでは、この包含はbanditアルゴリズムのパフォーマンスを低下させる。 また、不必要な学生特性を含むと、これらの特徴に対する共通価値が低い学生を体系的に不利にすることができる。 しかし,本シミュレーションでは,実世界のシナリオにおいてリアルタイムのパーソナライズが有効であることが示唆され,既存の実験結果を用いたケーススタディを通じて述べる。 シミュレーションでは、教育技術の適応的パーソナライゼーションは、ある文脈における生徒の体験を改善するが、適応の遅さや差別化の結果は、よりパーソナライズされたモデルが必ずしも有益ではないことを意味する。

Digital educational technologies offer the potential to customize students' experiences and learn what works for which students, enhancing the technology as more students interact with it. We consider whether and when attempting to discover how to personalize has a cost, such as if the adaptation to personal information can delay the adoption of policies that benefit all students. We explore these issues in the context of using multi-armed bandit (MAB) algorithms to learn a policy for what version of an educational technology to present to each student, varying the relation between student characteristics and outcomes and also whether the algorithm is aware of these characteristics. Through simulations, we demonstrate that the inclusion of student characteristics for personalization can be beneficial when those characteristics are needed to learn the optimal action. In other scenarios, this inclusion decreases performance of the bandit algorithm. Moreover, including unneeded student characteristics can systematically disadvantage students with less common values for these characteristics. Our simulations do however suggest that real-time personalization will be helpful in particular real-world scenarios, and we illustrate this through case studies using existing experimental results in ASSISTments. Overall, our simulations show that adaptive personalization in educational technologies can be a double-edged sword: real-time adaptation improves student experiences in some contexts, but the slower adaptation and potentially discriminatory results mean that a more personalized model is not always beneficial.
翻訳日:2023-09-07 16:05:04 公開日:2023-09-06
# ニューラルネットワーク圧縮のための帯域効率推論

Bandwidth-efficient Inference for Neural Image Compression ( http://arxiv.org/abs/2309.02855v1 )

ライセンス: Link先を確認
Shanzhi Yin, Tongda Xu, Yongsheng Liang, Yuanyuan Wang, Yanghao Li, Yan Wang, Jingjing Liu(参考訳) ニューラルネットワークが深くなり、機能マップが大きくなり、外部メモリ(dram)による通信帯域が制限され、電力制約がモバイルやエッジデバイスでネットワーク推論を実装する上でボトルネックとなる。 本稿では,ニューラルデータ圧縮法により圧縮されたアクティベーションを用いた終端から終端までの帯域幅効率のよいニューラル推論法を提案する。 具体的には、対称指数ゴロンブ符号化によるアクティベーション圧縮のための変換量子化エントロピー符号化パイプラインと、演算符号化のためのデータ依存ガウスエントロピーモデルを提案する。 既存のモデル量子化法により最適化され、画像圧縮の低レベルタスクは6.21倍の省エネで最大19倍の帯域幅を削減できる。

With neural networks growing deeper and feature maps growing larger, limited communication bandwidth with external memory (or DRAM) and power constraints become a bottleneck in implementing network inference on mobile and edge devices. In this paper, we propose an end-to-end differentiable bandwidth efficient neural inference method with the activation compressed by neural data compression method. Specifically, we propose a transform-quantization-entropy coding pipeline for activation compression with symmetric exponential Golomb coding and a data-dependent Gaussian entropy model for arithmetic coding. Optimized with existing model quantization methods, low-level task of image compression can achieve up to 19x bandwidth reduction with 6.21x energy saving.
翻訳日:2023-09-07 16:04:37 公開日:2023-09-06
# シーケンスに基づく異常検出手法の評価に用いる共通ログデータセットの批判的レビュー

A Critical Review of Common Log Data Sets Used for Evaluation of Sequence-based Anomaly Detection Techniques ( http://arxiv.org/abs/2309.02854v1 )

ライセンス: Link先を確認
Max Landauer and Florian Skopik and Markus Wurzenberger(参考訳) ログデータストア システムやアプリケーションの基盤となるワークフローに対応するイベント実行パターン。 ほとんどのログは情報的だが、ログデータには障害やインシデントを示すアーティファクトも含まれている。 したがって、ログデータは、予期しない、あるいは関係のあるシステムの振る舞いパターンを自動的に開示することを目的とした異常検出技術を評価するためにしばしば使用される。 近年、ディープラーニングを利用した検出アプローチは、通常のイベントトレース内のシーケンシャルパターンの変化として現れる異常に注目が集まっている。 HDFS、BGL、Thunderbird、OpenStack、Hadoopなどの公開データセットは、これらの異常検出技術を評価するための標準となっているが、これらのデータセットの適切性は過去にも詳しく研究されていない。 そこで本稿では,異常の顕在化と検出のための簡単な手法に着目し,公開ログデータセットを6つ分析する。 以上の結果から,ほとんどの異常は逐次的出現とは直接関係がなく,これらのデータセットに対して高い検出率を達成するために高度な検出技術は必要ないことが示唆された。

Log data store event execution patterns that correspond to underlying workflows of systems or applications. While most logs are informative, log data also include artifacts that indicate failures or incidents. Accordingly, log data are often used to evaluate anomaly detection techniques that aim to automatically disclose unexpected or otherwise relevant system behavior patterns. Recently, detection approaches leveraging deep learning have increasingly focused on anomalies that manifest as changes of sequential patterns within otherwise normal event traces. Several publicly available data sets, such as HDFS, BGL, Thunderbird, OpenStack, and Hadoop, have since become standards for evaluating these anomaly detection techniques, however, the appropriateness of these data sets has not been closely investigated in the past. In this paper we therefore analyze six publicly available log data sets with focus on the manifestations of anomalies and simple techniques for their detection. Our findings suggest that most anomalies are not directly related to sequential manifestations and that advanced detection techniques are not required to achieve high detection rates on these data sets.
翻訳日:2023-09-07 16:04:23 公開日:2023-09-06
# 学生の判断を下す知識蒸留層

Knowledge Distillation Layer that Lets the Student Decide ( http://arxiv.org/abs/2309.02843v1 )

ライセンス: Link先を確認
Ada Gorgun, Yeti Z. Gurbuz, A. Aydin Alatan(参考訳) 知識蒸留(KD)の典型的な技術は、限られた能力モデル(学生)の学習を、その応答を強力なモデルの(教師)に合わせることで規則化するものである。 特に垂直層やそれ以上では有用であるが、学生の特徴変換に対する作用はかなり暗黙的であり、中間層での実践を制限している。 教師の知識を特徴変換に明示的に組み込むために,2つの異なる能力でKDを改善する学習可能なKD層を提案する。 一 教師の知識の活用方法を学び、迷惑情報を破棄すること。 二 伝わった知識を更に深めていくこと。 このようにして、生徒は訓練以外の推論中に教師の知識を享受する。 形式的には、1x1-BN-ReLU-1x1畳み込みブロックを再利用して、生徒の対応する領域が一致するテンプレート(教師が監督する)に従って、各局所領域に意味ベクトルを割り当てる。 中間層におけるテンプレート学習を容易にするために,教師の判断に基づく新しい指導形態を提案する。 厳密な実験を通じて,3つの一般的な分類ベンチマークにおけるアプローチの有効性を示す。 コードは、https://github.com/adagorgun/letKD-frameworkで入手できる。

Typical technique in knowledge distillation (KD) is regularizing the learning of a limited capacity model (student) by pushing its responses to match a powerful model's (teacher). Albeit useful especially in the penultimate layer and beyond, its action on student's feature transform is rather implicit, limiting its practice in the intermediate layers. To explicitly embed the teacher's knowledge in feature transform, we propose a learnable KD layer for the student which improves KD with two distinct abilities: i) learning how to leverage the teacher's knowledge, enabling to discard nuisance information, and ii) feeding forward the transferred knowledge deeper. Thus, the student enjoys the teacher's knowledge during the inference besides training. Formally, we repurpose 1x1-BN-ReLU-1x1 convolution block to assign a semantic vector to each local region according to the template (supervised by the teacher) that the corresponding region of the student matches. To facilitate template learning in the intermediate layers, we propose a novel form of supervision based on the teacher's decisions. Through rigorous experimentation, we demonstrate the effectiveness of our approach on 3 popular classification benchmarks. Code is available at: https://github.com/adagorgun/letKD-framework
翻訳日:2023-09-07 16:04:07 公開日:2023-09-06
# デコード:建物の歴史的データと環境要因を活用したデータ駆動エネルギー消費予測

DECODE: Data-driven Energy Consumption Prediction leveraging Historical Data and Environmental Factors in Buildings ( http://arxiv.org/abs/2309.02908v1 )

ライセンス: Link先を確認
Aditya Mishra, Haroon R. Lone, Aayush Mishra(参考訳) 建物のエネルギー予測は、効率的なエネルギー管理において重要な役割を果たす。 正確な予測は、グリッド内の最適なエネルギー消費と分配を達成するために不可欠である。 本稿では,過去のエネルギーデータ,居住パターン,気象条件を用いて,建築エネルギー消費量を予測するための長期短期記憶モデル(lstm)を提案する。 LSTMモデルは、既存の予測モデルと比較して、住宅や商業ビルの正確な短・中・長期エネルギー予測を提供する。 LSTMモデルと線形回帰,決定木,ランダム林などの確立した予測手法を比較した。 LSTMモデルは、すべての指標において優れたパフォーマーとして現れます。 これは例外的な予測精度を示し、R2スコアは0.97で、平均絶対誤差(MAE)は0.007である。 開発したモデルのさらなる利点は、限られたデータセットでトレーニングしても効率的なエネルギー消費予測を実現する能力である。 我々は,実世界のデータに対する厳密なトレーニングと評価を通じて,過剰フィッティング(分散)と低フィッティング(バイアス)に関する懸念に対処する。 まとめると、我々の研究は代替手法より優れ、優れた効率、一般化可能性、信頼性で機能する堅牢なLSTMモデルを提供することでエネルギー予測に寄与する。

Energy prediction in buildings plays a crucial role in effective energy management. Precise predictions are essential for achieving optimal energy consumption and distribution within the grid. This paper introduces a Long Short-Term Memory (LSTM) model designed to forecast building energy consumption using historical energy data, occupancy patterns, and weather conditions. The LSTM model provides accurate short, medium, and long-term energy predictions for residential and commercial buildings compared to existing prediction models. We compare our LSTM model with established prediction methods, including linear regression, decision trees, and random forest. Encouragingly, the proposed LSTM model emerges as the superior performer across all metrics. It demonstrates exceptional prediction accuracy, boasting the highest R2 score of 0.97 and the most favorable mean absolute error (MAE) of 0.007. An additional advantage of our developed model is its capacity to achieve efficient energy consumption forecasts even when trained on a limited dataset. We address concerns about overfitting (variance) and underfitting (bias) through rigorous training and evaluation on real-world data. In summary, our research contributes to energy prediction by offering a robust LSTM model that outperforms alternative methods and operates with remarkable efficiency, generalizability, and reliability.
翻訳日:2023-09-07 15:58:50 公開日:2023-09-06
# 視覚トラッキングにおける負のサンプルを用いた効果的なトレーニングに向けて

Towards Efficient Training with Negative Samples in Visual Tracking ( http://arxiv.org/abs/2309.02903v1 )

ライセンス: Link先を確認
Qingmao Wei, Bi Zeng, Guotian Zeng(参考訳) ビジュアルオブジェクト追跡における現在の最先端(SOTA)手法は、しばしば膨大な計算資源と膨大なトレーニングデータを必要とするため、過度に適合するリスクがある。 本研究は,オーバーフィッティングを緩和し,計算要件を削減するための,より効率的なトレーニング戦略を提案する。 トレーニングプロセスは、初期からのネガティブサンプルとポジティブサンプルの混合とバランスを取り、"Joint Learning with Negative sample (JN)"と名づけられた。 負のサンプルは、テンプレートからのオブジェクトが検索領域に存在しないシナリオを指しており、モデルが単にターゲットを記憶するのを防ぐのに役立つ。 負のサンプルを効果的に処理するために,境界ボックスを距離分布としてモデル化し,負のサンプルの存在下でのターゲットの位置の不確かさを表現し,混合サンプルトレーニングを管理する効率的な方法を提供する分布ベースヘッドを採用する。 さらに,本手法では目標指示トークンを導入する。 テンプレートイメージ内のターゲットの正確な位置をカプセル化する。 この手法は計算コストは無視できるが、性能は向上する。 我々のモデルであるJN-256は、GOT-10kで75.8%、TrackingNetで84.1%のAUCを達成した。 特に、JN-256は、より大きなモデルと高い入力解像度を利用する以前のSOTAトラッカーよりも優れている。

Current state-of-the-art (SOTA) methods in visual object tracking often require extensive computational resources and vast amounts of training data, leading to a risk of overfitting. This study introduces a more efficient training strategy to mitigate overfitting and reduce computational requirements. We balance the training process with a mix of negative and positive samples from the outset, named as Joint learning with Negative samples (JN). Negative samples refer to scenarios where the object from the template is not present in the search region, which helps to prevent the model from simply memorizing the target, and instead encourages it to use the template for object location. To handle the negative samples effectively, we adopt a distribution-based head, which modeling the bounding box as distribution of distances to express uncertainty about the target's location in the presence of negative samples, offering an efficient way to manage the mixed sample training. Furthermore, our approach introduces a target-indicating token. It encapsulates the target's precise location within the template image. This method provides exact boundary details with negligible computational cost but improving performance. Our model, JN-256, exhibits superior performance on challenging benchmarks, achieving 75.8% AO on GOT-10k and 84.1% AUC on TrackingNet. Notably, JN-256 outperforms previous SOTA trackers that utilize larger models and higher input resolutions, even though it is trained with only half the number of data sampled used in those works.
翻訳日:2023-09-07 15:58:32 公開日:2023-09-06
# ViCGCN:ベトナムにおけるソーシャルメディアマイニングのための文脈言語モデルを用いたグラフ畳み込みネットワーク

ViCGCN: Graph Convolutional Network with Contextualized Language Models for Social Media Mining in Vietnamese ( http://arxiv.org/abs/2309.02902v1 )

ライセンス: Link先を確認
Chau-Thang Phan, Quoc-Nam Nguyen, Chi-Thanh Dang, Trong-Hop Do, Kiet Van Nguyen(参考訳) ソーシャルメディア処理は多くのアプリケーションで自然言語処理の基本的なタスクである。 ベトナムのソーシャルメディアと情報科学が急速に成長するにつれて、ベトナムのソーシャルメディアにおける情報に基づく鉱業の必要性が重要になっている。 しかし、最先端の研究は、不均衡なデータやソーシャルメディアプラットフォーム上の騒々しいデータなど、いくつかの重大な欠点に直面している。 不均衡と騒音は、ベトナムのソーシャルメディアのテキストで対処する必要がある2つの重要な問題である。 グラフ畳み込みネットワークは、データのグラフ構造を利用して、ソーシャルメディア上のテキスト分類における不均衡およびノイズデータの問題に対処することができる。 本研究では,文脈型言語モデル(PhoBERT)とグラフベースの手法(Graph Convolutional Networks)に基づく新しいアプローチを提案する。 特に、提案されたアプローチであるViCGCNは、グラフ畳み込みネットワーク(GCN)の能力とコンテキスト化された埋め込みの力を共同で訓練し、それらの欠点に対処するための構文的およびセマンティックな依存関係をキャプチャした。 このアプローチを検証するために,ベトナムの様々なベンチマークデータセットに関する広範囲な実験を行った。 その結果,最終層としてGCNをBERTologyモデルに適用すると性能が著しく向上することがわかった。 さらに、実験により、ViCGCNはBERTologyモデル、融合BERTologyおよびGCNモデル、その他のベースライン、3つのベンチマークソーシャルメディアデータセット上でSOTAを含む13の強力なベースラインモデルより優れていることが示された。 提案手法は,UIT-VSMEC,UIT-ViCTSD,UIT-VSCTSD,UIT-VSFCの3つのベンチマークデータセットに対して,多言語および単言語を含む最高の文脈言語モデルに対して,最大6.21%,4.61%,および2.63%の改善を示した。 さらに、我々の統合モデルViCGCNは、GCNモデルと統合された他のBERTologyと比較して最高の性能を達成する。

Social media processing is a fundamental task in natural language processing with numerous applications. As Vietnamese social media and information science have grown rapidly, the necessity of information-based mining on Vietnamese social media has become crucial. However, state-of-the-art research faces several significant drawbacks, including imbalanced data and noisy data on social media platforms. Imbalanced and noisy are two essential issues that need to be addressed in Vietnamese social media texts. Graph Convolutional Networks can address the problems of imbalanced and noisy data in text classification on social media by taking advantage of the graph structure of the data. This study presents a novel approach based on contextualized language model (PhoBERT) and graph-based method (Graph Convolutional Networks). In particular, the proposed approach, ViCGCN, jointly trained the power of Contextualized embeddings with the ability of Graph Convolutional Networks, GCN, to capture more syntactic and semantic dependencies to address those drawbacks. Extensive experiments on various Vietnamese benchmark datasets were conducted to verify our approach. The observation shows that applying GCN to BERTology models as the final layer significantly improves performance. Moreover, the experiments demonstrate that ViCGCN outperforms 13 powerful baseline models, including BERTology models, fusion BERTology and GCN models, other baselines, and SOTA on three benchmark social media datasets. Our proposed ViCGCN approach demonstrates a significant improvement of up to 6.21%, 4.61%, and 2.63% over the best Contextualized Language Models, including multilingual and monolingual, on three benchmark datasets, UIT-VSMEC, UIT-ViCTSD, and UIT-VSFC, respectively. Additionally, our integrated model ViCGCN achieves the best performance compared to other BERTology integrated with GCN models.
翻訳日:2023-09-07 15:58:07 公開日:2023-09-06
# 離散対称性発見のための統一フレームワーク

A Unified Framework for Discovering Discrete Symmetries ( http://arxiv.org/abs/2309.02898v1 )

ライセンス: Link先を確認
Pavan Karjol, Rohan Kashyap, Aditya Gopalan, Prathosh A.P(参考訳) 対称性を尊重する関数を対称性のクラスから学習する問題を考察する。 我々は,局所対称群,双面体群,環状部分群を含む幅広い部分群にまたがって対称性の発見を可能にする統一フレームワークを開発した。 フレームワークの中核には、これらの部分群に不変な関数を原則的に表現する線形およびテンソル値関数からなる新しいアーキテクチャがある。 アーキテクチャの構造により,多腕バンディットアルゴリズムと勾配降下を利用して,線形関数とテンソル値関数を最適化し,最終的に学習される対称性を推定することができる。 アーキテクチャにおけるテンソル値関数の必要性についても論じる。 画像桁和および多項式回帰タスクの実験は、我々のアプローチの有効性を実証する。

We consider the problem of learning a function respecting a symmetry from among a class of symmetries. We develop a unified framework that enables symmetry discovery across a broad range of subgroups including locally symmetric, dihedral and cyclic subgroups. At the core of the framework is a novel architecture composed of linear and tensor-valued functions that expresses functions invariant to these subgroups in a principled manner. The structure of the architecture enables us to leverage multi-armed bandit algorithms and gradient descent to efficiently optimize over the linear and the tensor-valued functions, respectively, and to infer the symmetry that is ultimately learnt. We also discuss the necessity of the tensor-valued functions in the architecture. Experiments on image-digit sum and polynomial regression tasks demonstrate the effectiveness of our approach.
翻訳日:2023-09-07 15:57:33 公開日:2023-09-06
# 言語固有の訓練データを持たない深層自然言語推論予測器

A deep Natural Language Inference predictor without language-specific training data ( http://arxiv.org/abs/2309.02887v1 )

ライセンス: Link先を確認
Lorenzo Corradi and Alessandro Manenti and Francesca Del Bonifro and Francesco Setti and Dario Del Sorbo(参考訳) 本稿では,言語固有の学習データセットを使わずに,目的言語における文のペア間の推論関係(NLI)問題に対処するためのNLP手法を提案する。 我々は,同じ事前学習モデルの2つのインスタンスと共に,手作業で翻訳された汎用翻訳データセットを利用する。1つは,ソース言語に文を埋め込む文を生成し,もう1つはターゲット言語を微調整して,最初のものを模倣する。 この技法は知識蒸留として知られている。 このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。 また,nliタスクの汎用性を実証するために,異なるタスクで提案するアーキテクチャをテストした。 このモデルは、知覚分析、アスペクトベース知覚分析、およびトピック認識のタスクに基づいて、ネイティブイタリアのABSITAデータセット上で評価されている。 我々は、機械翻訳に基づく他の手法よりも優れた知識蒸留技術の汎用性と利用性を強調した。

In this paper we present a technique of NLP to tackle the problem of inference relation (NLI) between pairs of sentences in a target language of choice without a language-specific training dataset. We exploit a generic translation dataset, manually translated, along with two instances of the same pre-trained model - the first to generate sentence embeddings for the source language, and the second fine-tuned over the target language to mimic the first. This technique is known as Knowledge Distillation. The model has been evaluated over machine translated Stanford NLI test dataset, machine translated Multi-Genre NLI test dataset, and manually translated RTE3-ITA test dataset. We also test the proposed architecture over different tasks to empirically demonstrate the generality of the NLI task. The model has been evaluated over the native Italian ABSITA dataset, on the tasks of Sentiment Analysis, Aspect-Based Sentiment Analysis, and Topic Recognition. We emphasise the generality and exploitability of the Knowledge Distillation technique that outperforms other methodologies based on machine translation, even though the former was not directly trained on the data it was tested over.
翻訳日:2023-09-07 15:57:20 公開日:2023-09-06
# 臨床における大規模言語モデルの調整

Aligning Large Language Models for Clinical Tasks ( http://arxiv.org/abs/2309.02884v1 )

ライセンス: Link先を確認
Supun Manathunga, Isuru Hettigoda(参考訳) 大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。 しかし、その優れた自然言語処理(NLP)能力にもかかわらず、特定の臨床応用のためにLLMを効果的に配置することは重要な課題である。 実際の正確な内容で応答を生成し、かつ自明な推論ステップに係わる能力は、llmが臨床医学の応用に適することにとって不可欠である。 インストラクションチューニングや、マイトショットや思考プロンプトの連鎖といったインプロンプト戦略といったテクニックの組み合わせによって、llmのパフォーマンスが大幅に向上した。 提案手法は「expand-guess-refine」と呼ばれ、パラメータとデータ効率のよいソリューションを提供する。 この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。

Large Language Models (LLMs) have demonstrated remarkable adaptability, showcasing their capacity to excel in tasks for which they were not explicitly trained. However, despite their impressive natural language processing (NLP) capabilities, effective alignment of LLMs remains a crucial challenge when deploying them for specific clinical applications. The ability to generate responses with factually accurate content and to engage in non-trivial reasoning steps are crucial for the LLMs to be eligible for applications in clinical medicine. Employing a combination of techniques including instruction-tuning and in-prompt strategies like few-shot and chain of thought prompting has significantly enhanced the performance of LLMs. Our proposed alignment strategy for medical question-answering, known as 'expand-guess-refine', offers a parameter and data-efficient solution. A preliminary analysis of this method demonstrated outstanding performance, achieving a score of 70.63% on a subset of questions sourced from the USMLE dataset.
翻訳日:2023-09-07 15:57:02 公開日:2023-09-06
# ナノ加工半導体ヘテロ二層膜における単一moir\'e励起子の量子コヒーレンスと干渉

Quantum coherence and interference of a single moir\'e exciton in nano-fabricated twisted semiconductor heterobilayers ( http://arxiv.org/abs/2309.02879v1 )

ライセンス: Link先を確認
Haonan Wang, Heejun Kim, Duanfei Dong, Keisuke Shinokita, Kenji Watanabe, Takashi Taniguchi and Kazunari Matsuda(参考訳) Moir\'e電位は光学的に生成された励起子の周期量子閉じ込めとして働き、空間的に秩序づけられたゼロ次元量子系を生成する。 しかし、moir\'eポテンシャルの不均一性から生じる幅広い放射スペクトルは、moir\'eエキシトンの固有の性質の探索を妨げる。 本研究では,光の回折限界を超えたねじれ半導体ヘテロ双層において,量子コヒーレンスと単一モワールエキシンの干渉の光学的観察を実現するための新しい手法を実証した。 単一モワールエキシトンからの顕著な単光および鋭い発光ピークは、ナノファブリケーション後に証明されている。 我々は,10psを超える1つのモワールエキシンの量子コヒーレンスと,温度と励起パワー密度を上昇させた加速デコヒーレンス過程について述べる。 さらに、量子干渉は異なるmoir\'eポテンシャルミニマにおけるmoir\'e励起子間の結合を明らかにした。 観測されたモアレエの量子コヒーレンスと干渉は、モアレエの量子系に基づく量子技術への潜在的な応用を促進する。

Moir\'e potential acts as periodic quantum confinement for optically generated exciton, generating spatially ordered zero-dimensional quantum system. However, broad emission spectrum arising from inhomogeneity among moir\'e potential hinders the exploration of the intrinsic properties of moir\'e exciton. In this study, we have demonstrated a new method to realize the optical observation of quantum coherence and interference of a single moir\'e exciton in twisted semiconducting heterobilayer beyond the diffraction limit of light. A significant single and sharp photoluminescence peak from a single moir\'e exciton has been demonstrated after nano-fabrication. We present the longer duration of quantum coherence of a single moir\'e exciton, which reaches beyond 10 ps and the accelerated decoherence process with elevating temperature and excitation power density. Moreover, the quantum interference has revealed the coupling between moir\'e excitons in different moir\'e potential minima. The observed quantum coherence and interference of moir\'e exciton will facilitate potential application toward quantum technologies based on moir\'e quantum systems.
翻訳日:2023-09-07 15:56:46 公開日:2023-09-06
# グラフにおけるボールの非切断指導マップ

Non-Clashing Teaching Maps for Balls in Graphs ( http://arxiv.org/abs/2309.02876v1 )

ライセンス: Link先を確認
J\'er\'emie Chalopin, Victor Chepoi, Fionn Mc Inerney, S\'ebastien Ratel(参考訳) 最近、カークパトリックら。 [ALT 2019]とFallatら。 [JMLR 2023]は非クラッシング教育を導入し,ゴールドマンとマティアスの共謀回避ベンチマークを満たす最も効率的な機械教育モデルであることを示した。 概念クラス $\cal{C}$ に対する教示写像 $T$ は、各概念 $C \in \cal{C}$ に対して (teaching) set $T(C)$ の例を割り当てる。 教示写像は、一対の概念が教示集合の結合と一致しない場合、非閉である。 non-clashing teaching map (nctm) $t$ のサイズは、$t(c)$, $c \in \cal{c}$ の最大サイズである。 非クラッシング教育次元 NCTD$(\cal{C})$ of $\cal{C}$ は、NCTMの$\cal{C}$ の最小サイズである。 NCTM$^+$ と NCTD$^+(\cal{C})$ は類似して定義されるが、教師は正の例のみを使用することができる。 グラフのすべての球からなる概念クラス $\mathcal{B}(G)$ に対して NCTM と NCTM$^+$s を研究する。 NCTD$^+$ に対する関連する決定問題 {\sc B-NCTD$^+$} は、分割、共分割、二分グラフにおいてNP完全であることを示す。 驚いたことに、ETHが失敗しない限り、 {\displaystyle {\sc B-NCTD$^+$} は、時間で走るアルゴリズムが $2^{2^{o(vc)}}\cdot n^{O(1)}$、カーネルに $2^{o(vc)}$ vertices を出力するカーネル化アルゴリズムも認めない。 これらは非常に稀な結果である: NP において vc (treewidth, resp.) によってパラメータ化される二重指数下界を許容するのは第2(第4、第4、第4)の問題であり、カーネル内の頂点数に ETH ベースの条件付き下界を許容する問題のうちの1つに過ぎない。 これらの下界と一致する上界を補完する。 木、インターバルグラフ、サイクルおよびサイクルのツリーに対して、VC次元に比例する大きさの$\mathcal{B}(G)$に対して NCTM$^+$s または NCTMs を導出する。 グロモフ-双曲グラフに対しては、近似NCTM$^+$ for $\mathcal{B}(G)$ of size 2 を設計する。

Recently, Kirkpatrick et al. [ALT 2019] and Fallat et al. [JMLR 2023] introduced non-clashing teaching and showed it to be the most efficient machine teaching model satisfying the benchmark for collusion-avoidance set by Goldman and Mathias. A teaching map $T$ for a concept class $\cal{C}$ assigns a (teaching) set $T(C)$ of examples to each concept $C \in \cal{C}$. A teaching map is non-clashing if no pair of concepts are consistent with the union of their teaching sets. The size of a non-clashing teaching map (NCTM) $T$ is the maximum size of a $T(C)$, $C \in \cal{C}$. The non-clashing teaching dimension NCTD$(\cal{C})$ of $\cal{C}$ is the minimum size of an NCTM for $\cal{C}$. NCTM$^+$ and NCTD$^+(\cal{C})$ are defined analogously, except the teacher may only use positive examples. We study NCTMs and NCTM$^+$s for the concept class $\mathcal{B}(G)$ consisting of all balls of a graph $G$. We show that the associated decision problem {\sc B-NCTD$^+$} for NCTD$^+$ is NP-complete in split, co-bipartite, and bipartite graphs. Surprisingly, we even prove that, unless the ETH fails, {\sc B-NCTD$^+$} does not admit an algorithm running in time $2^{2^{o(vc)}}\cdot n^{O(1)}$, nor a kernelization algorithm outputting a kernel with $2^{o(vc)}$ vertices, where vc is the vertex cover number of $G$. These are extremely rare results: it is only the second (fourth, resp.) problem in NP to admit a double-exponential lower bound parameterized by vc (treewidth, resp.), and only one of very few problems to admit an ETH-based conditional lower bound on the number of vertices in a kernel. We complement these lower bounds with matching upper bounds. For trees, interval graphs, cycles, and trees of cycles, we derive NCTM$^+$s or NCTMs for $\mathcal{B}(G)$ of size proportional to its VC-dimension. For Gromov-hyperbolic graphs, we design an approximate NCTM$^+$ for $\mathcal{B}(G)$ of size 2.
翻訳日:2023-09-07 15:56:29 公開日:2023-09-06
# MAD:画像登録のためのModality Agnostic Distance Measuremente

MAD: Modality Agnostic Distance Measure for Image Registration ( http://arxiv.org/abs/2309.02875v1 )

ライセンス: Link先を確認
Vasiliki Sideri-Lampretsa, Veronika A. Zimmer, Huaqi Qiu, Georgios Kaissis, and Daniel Rueckert(参考訳) マルチモーダル画像登録は多くの医療応用において重要な前処理ステップである。 しかし、異なる画像モード間の複雑な強度関係のため、画像の外観に大きな違いをもたらす可能性があるため、これは難しい課題である。 従来型であれ学習型であれ、多モード画像登録の成功は、適切な距離(または類似性)尺度の選択によって予測される。 特に、ディープラーニング登録アルゴリズムは、"見えない"モダリティからデータを登録しようとすると、正確さに欠けたり、完全に失敗する。 本研究では,不規則畳み込みを利用して画像の固有形状を学習し,大きな外観変化に頑健なモーダリティ非依存距離(mad,deep image distance})を提案する。 ランダム畳み込み(Random convolutions)は、トレーニング中に整列されたデータの必要性を緩和する無限個の合成モダリティをシミュレートするために使用する幾何学保存モジュールである。 したがって、モノモーダルデータセット上でMADをトレーニングし、マルチモーダルデータセットに適用することができる。 本稿では,マルチモーダル画像の登録を成功させるだけでなく,相互情報や正規化勾配場といった従来の手法よりも広いキャプチャ範囲を持つことを示す。

Multi-modal image registration is a crucial pre-processing step in many medical applications. However, it is a challenging task due to the complex intensity relationships between different imaging modalities, which can result in large discrepancy in image appearance. The success of multi-modal image registration, whether it is conventional or learning based, is predicated upon the choice of an appropriate distance (or similarity) measure. Particularly, deep learning registration algorithms lack in accuracy or even fail completely when attempting to register data from an "unseen" modality. In this work, we present Modality Agnostic Distance (MAD), a deep image distance}] measure that utilises random convolutions to learn the inherent geometry of the images while being robust to large appearance changes. Random convolutions are geometry-preserving modules which we use to simulate an infinite number of synthetic modalities alleviating the need for aligned paired data during training. We can therefore train MAD on a mono-modal dataset and successfully apply it to a multi-modal dataset. We demonstrate that not only can MAD affinely register multi-modal images successfully, but it has also a larger capture range than traditional measures such as Mutual Information and Normalised Gradient Fields.
翻訳日:2023-09-07 15:55:33 公開日:2023-09-06
# シミュレータインフォームド潜在状態を用いたハイブリッドダイナミクスモデルの学習

Learning Hybrid Dynamics Models With Simulator-Informed Latent States ( http://arxiv.org/abs/2309.02873v1 )

ライセンス: Link先を確認
Katharina Ensinger, Sebastian Ziesche, Sebastian Trimpe(参考訳) ダイナミクスモデル学習は、測定データから未知のダイナミクスを推測し、システムの将来の振る舞いを予測するタスクを扱う。 この問題に対処する典型的なアプローチは、リカレントモデルのトレーニングである。 しかし、これらのモデルによる予測はしばしば物理的意味を持たない。 さらに、エラーの蓄積による時間の経過とともに悪化した行動に悩まされる。 しばしば、第一原理に基づくシミュレータは、設計によって物理的に意味がある。 しかし、モデリングの単純化は一般的にこれらのモデルに不正確を引き起こす。 その結果、ハイブリッドモデリングは両方の世界のベストを組み合わせることを目的とした新しいトレンドである。 本稿では,ブラックボックスシミュレータを用いて学習モデルの潜在状態を伝えるハイブリッドモデリングの新しい手法を提案する。 これにより、シミュレータを通じて予測を制御でき、エラーの蓄積を防止できる。 以前のアプローチとは対照的に、シミュレータの潜在状態へのアクセスは利用できないため、これは特に難しい。 我々は,制御理論からよく知られた概念であるオブザーバを活用して,未知の潜在状態を時間経過の観察とダイナミクスから推測することで課題に取り組む。 学習に基づく設定では、シミュレータを通して潜在状態を推測するダイナミクスとオブザーバを共同で学習する。 したがって、シミュレータは学習によるミスマッチをモデル化するために、潜伏状態を常に補正する。 柔軟性を維持するため,シミュレータから情報を得ることができない潜伏状態に対するRNNベースの予約を訓練する。

Dynamics model learning deals with the task of inferring unknown dynamics from measurement data and predicting the future behavior of the system. A typical approach to address this problem is to train recurrent models. However, predictions with these models are often not physically meaningful. Further, they suffer from deteriorated behavior over time due to accumulating errors. Often, simulators building on first principles are available being physically meaningful by design. However, modeling simplifications typically cause inaccuracies in these models. Consequently, hybrid modeling is an emerging trend that aims to combine the best of both worlds. In this paper, we propose a new approach to hybrid modeling, where we inform the latent states of a learned model via a black-box simulator. This allows to control the predictions via the simulator preventing them from accumulating errors. This is especially challenging since, in contrast to previous approaches, access to the simulator's latent states is not available. We tackle the task by leveraging observers, a well-known concept from control theory, inferring unknown latent states from observations and dynamics over time. In our learning-based setting, we jointly learn the dynamics and an observer that infers the latent states via the simulator. Thus, the simulator constantly corrects the latent states, compensating for modeling mismatch caused by learning. To maintain flexibility, we train an RNN-based residuum for the latent states that cannot be informed by the simulator.
翻訳日:2023-09-07 15:55:10 公開日:2023-09-06
# edgefl: 軽量な分散フェデレーション学習フレームワーク

EdgeFL: A Lightweight Decentralized Federated Learning Framework ( http://arxiv.org/abs/2309.02936v1 )

ライセンス: Link先を確認
Hongyi Zhang, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) フェデレーション学習(federated learning, fl)は、データプライバシの懸念に対処する、協調機械学習の有望なアプローチとして登場した。 しかしながら、既存のflプラットフォームやフレームワークは、複雑さ、制限されたカスタマイズオプション、スケーラビリティの制限という点で、ソフトウェアエンジニアにとってしばしば課題となる。 本稿では,エッジオンリーで軽量な分散FLフレームワークであるEdgeFLを紹介する。 エッジのみモデルトレーニングと集約アプローチを採用することで、edgeflは中央サーバの必要性をなくし、さまざまなユースケースにわたるシームレスなスケーラビリティを実現する。 たった4行のコード(LOC)を必要とする単純な統合プロセスによって、ソフトウェアエンジニアは簡単にFL機能をAI製品に組み込むことができます。 さらにedgeflは、アグリゲーション機能をカスタマイズする柔軟性を提供し、エンジニアが特定のニーズに適応できるようにする。 この結果から,EdgeFLは既存のFLプラットフォームやフレームワークに比べて優れた性能を発揮することを示す。 以上の結果から,EdgeFLは重み付け更新のレイテンシを低減し,モデル進化を高速化し,エッジデバイスの効率を向上することを示す。 さらにedgeflは従来の集中型flアプローチに比べて分類精度が向上している。 edgeflを活用することで、ソフトウェアエンジニアは、既存のflプラットフォーム/フレームワークに関連する課題を克服しながら、連合学習のメリットを活用できる。

Federated Learning (FL) has emerged as a promising approach for collaborative machine learning, addressing data privacy concerns. However, existing FL platforms and frameworks often present challenges for software engineers in terms of complexity, limited customization options, and scalability limitations. In this paper, we introduce EdgeFL, an edge-only lightweight decentralized FL framework, designed to overcome the limitations of centralized aggregation and scalability in FL deployments. By adopting an edge-only model training and aggregation approach, EdgeFL eliminates the need for a central server, enabling seamless scalability across diverse use cases. With a straightforward integration process requiring just four lines of code (LOC), software engineers can easily incorporate FL functionalities into their AI products. Furthermore, EdgeFL offers the flexibility to customize aggregation functions, empowering engineers to adapt them to specific needs. Based on the results, we demonstrate that EdgeFL achieves superior performance compared to existing FL platforms/frameworks. Our results show that EdgeFL reduces weights update latency and enables faster model evolution, enhancing the efficiency of edge devices. Moreover, EdgeFL exhibits improved classification accuracy compared to traditional centralized FL approaches. By leveraging EdgeFL, software engineers can harness the benefits of federated learning while overcoming the challenges associated with existing FL platforms/frameworks.
翻訳日:2023-09-07 15:47:55 公開日:2023-09-06
# 物理インフォームド機械学習による不規則水需要の推定と漏洩検知

Estimating irregular water demands with physics-informed machine learning to inform leakage detection ( http://arxiv.org/abs/2309.02935v1 )

ライセンス: Link先を確認
Ivo Daniel and Andrea Cominola(参考訳) 飲料水流通ネットワークの漏水は水道事業に重大な課題をもたらし、インフラの故障、運用障害、環境災害、財産被害、経済損失に繋がる。 このようなリークのタイムリーな識別と正確な局所化は、これらの望ましくない影響を緩和するユーティリティにとって最重要である。 しかし, 漏洩検出アルゴリズムの実装は, 油圧モデルや大量のトレーニングデータの要求により, 実際に限られている。 物理インフォームド機械学習は油圧情報を利用して両方の制限を回避することができる。 そこで本研究では,完全に連結されたニューラルネットワークを用いて,不規則な水需要を推定し,最終的にベルヌーイ方程式を活用し,漏洩検出問題を効果的に線形化する,物理に変形した機械学習アルゴリズムを提案する。 提案アルゴリズムは,L-Townベンチマークネットワークのデータを用いて検証し,R2が0.8より大きい場合,最も不規則な要求を推定できることを示す。 不規則な要求がある場合のリークの識別結果は、急激なリークの5.3と、不規則な要求を無視した結果と比較した場合の急激なリークの3.0によって改善される。

Leakages in drinking water distribution networks pose significant challenges to water utilities, leading to infrastructure failure, operational disruptions, environmental hazards, property damage, and economic losses. The timely identification and accurate localisation of such leakages is paramount for utilities to mitigate these unwanted effects. However, implementation of algorithms for leakage detection is limited in practice by requirements of either hydraulic models or large amounts of training data. Physics-informed machine learning can utilise hydraulic information thereby circumventing both limitations. In this work, we present a physics-informed machine learning algorithm that analyses pressure data and therefrom estimates unknown irregular water demands via a fully connected neural network, ultimately leveraging the Bernoulli equation and effectively linearising the leakage detection problem. Our algorithm is tested on data from the L-Town benchmark network, and results indicate a good capability for estimating most irregular demands, with R2 larger than 0.8. Identification results for leakages under the presence of irregular demands could be improved by a factor of 5.3 for abrupt leaks and a factor of 3.0 for incipient leaks when compared the results disregarding irregular demands.
翻訳日:2023-09-07 15:47:33 公開日:2023-09-06
# ベクトル道路マッピングのためのパッチラインセグメント学習

Patched Line Segment Learning for Vector Road Mapping ( http://arxiv.org/abs/2309.02923v1 )

ライセンス: Link先を確認
Jiakun Xu, Bowen Xu, Gui-Song Xia, Liang Dong, Nan Xue(参考訳) 本稿では,空間的意味を持つ道路グラフに対して,よく定義されたPatched Line Segment (PaLiS) 表現に基づいて,衛星リモートセンシング画像からベクトル道路マップを計算するための新しいアプローチを提案する。 バイナリマスクやキーポイントを用いた衛星画像から道路ベクトル表現を導出する一般的な手法とは異なり,本手法では線分を用いる。 これらのセグメントは道路の場所を伝達するだけでなく、方向を捉え、表現の堅牢な選択となる。 より正確には、入力画像を考えると、重複しないパッチに分割し、各パッチ内の適切なラインセグメントを予測する。 この戦略により、これらのパッチベースの線分から空間的および構造的手がかりを捕捉し、接続のための追加のニューラルネットワークを必要とせずに、道路網グラフを構築するプロセスを簡素化することができる。 実験では,ニューラルネットワークアーキテクチャの大幅な変更を必要とせず,有効な道路グラフ表現が確立されたベンチマーク上でのベクトル道路マッピングの性能を著しく向上することを示す。 さらに,本手法は,GPU時間のたった6時間で最先端性能を実現し,GPU時間の32倍のトレーニングコスト削減を実現している。

This paper presents a novel approach to computing vector road maps from satellite remotely sensed images, building upon a well-defined Patched Line Segment (PaLiS) representation for road graphs that holds geometric significance. Unlike prevailing methods that derive road vector representations from satellite images using binary masks or keypoints, our method employs line segments. These segments not only convey road locations but also capture their orientations, making them a robust choice for representation. More precisely, given an input image, we divide it into non-overlapping patches and predict a suitable line segment within each patch. This strategy enables us to capture spatial and structural cues from these patch-based line segments, simplifying the process of constructing the road network graph without the necessity of additional neural networks for connectivity. In our experiments, we demonstrate how an effective representation of a road graph significantly enhances the performance of vector road mapping on established benchmarks, without requiring extensive modifications to the neural network architecture. Furthermore, our method achieves state-of-the-art performance with just 6 GPU hours of training, leading to a substantial 32-fold reduction in training costs in terms of GPU hours.
翻訳日:2023-09-07 15:47:14 公開日:2023-09-06
# GroupEnc:グローバルな構造保存のためのグループ損失付きエンコーダ

GroupEnc: encoder with group loss for global structure preservation ( http://arxiv.org/abs/2309.02917v1 )

ライセンス: Link先を確認
David Novak, Sofie Van Gassen, Yvan Saeys(参考訳) 近年の次元化の進歩は、高次元データのより正確な低次元埋め込みを実現している。 視覚化の目的に加えて、バッチ効果の正規化、クラスタリング、コミュニティ検出、軌道推論など、下流処理にも使用できる。 局所・グローバルレベルでの構造保存の概念を用いて,変分オートエンコーダ(VAE)とSQuadMDSアルゴリズムの確率的四重項損失に基づく深層学習モデルを作成する。 我々のエンコーダモデルは、GroupEncと呼ばれ、VAEよりもグローバルな構造歪みが少ない埋め込みを生成するために、モデルパラメトリックとアーキテクチャを柔軟に保つために 'group loss' 関数を使用します。 本手法は, RNX曲線を用いた生体単細胞転写データセットを用いて評価を行った。

Recent advances in dimensionality reduction have achieved more accurate lower-dimensional embeddings of high-dimensional data. In addition to visualisation purposes, these embeddings can be used for downstream processing, including batch effect normalisation, clustering, community detection or trajectory inference. We use the notion of structure preservation at both local and global levels to create a deep learning model, based on a variational autoencoder (VAE) and the stochastic quartet loss from the SQuadMDS algorithm. Our encoder model, called GroupEnc, uses a 'group loss' function to create embeddings with less global structure distortion than VAEs do, while keeping the model parametric and the architecture flexible. We validate our approach using publicly available biological single-cell transcriptomic datasets, employing RNX curves for evaluation.
翻訳日:2023-09-07 15:46:39 公開日:2023-09-06
# ノイズ磁場中におけるスピン揺らぎの生成とダイナミクス

Creation and dynamics of spin fluctuations in a noisy magnetic field ( http://arxiv.org/abs/2309.02916v1 )

ライセンス: Link先を確認
J. Delpy, S. Liu, P. Neveu, C. Roussy, Th. Jolicoeur, F. Bretenaker, and F. Goldfarb(参考訳) 本研究では,外部変動一軸磁場による熱原子アンサンブル中のスピン変動を,標準スピンノイズ分光(SNS)実験で理論的に数値的に検討した。 追加のスピンノイズが励起され、磁気ノイズのばらつきと帯域幅、およびプローブ光とその偏光方向に依存することが示されている。 本研究では,このスピンノイズが磁気ノイズによってスピン揺らぎに変換され,snsを用いて検出されることを証明した解析的摂動モデルを開発した。 研究システムはスピン-1系であり、ランダムな磁気ゆらぎによって引き起こされるファラデー回転と楕円性雑音の両方を示す。 解析モデルは数値シミュレーションと完全に一致し、今後の成層場特性の実験的評価とスピン力学への影響に応用される可能性がある。

We theoretically and numerically investigate the spin fluctuations induced in a thermal atomic ensemble by an external fluctuating uniaxial magnetic field, in the context of a standard spin noise spectroscopy (SNS) experiment. We show that additional spin noise is excited, which dramatically depends on the magnetic noise variance and bandwidth, as well as on the power of the probe light and its polarization direction. We develop an analytical perturbative model proving that this spin noise first emerges from the residual optical pumping in the medium, which is then converted into spin fluctuations by the magnetic noise and eventually detected using SNS. The system studied is a spin-1 system, which thus shows both Faraday rotation and ellipticity noises induced by the random magnetic fluctuations. The analytical model gives results in perfect agreement with the numerical simulations, with potential applications in future experimental characterization of stray field properties and their influence on spin dynamics.
翻訳日:2023-09-07 15:46:15 公開日:2023-09-06
# コード混合言語のためのペルソナ認識生成モデル

Persona-aware Generative Model for Code-mixed Language ( http://arxiv.org/abs/2309.02915v1 )

ライセンス: Link先を確認
Ayan Sengupta, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) コードミックスとスクリプトミックスは、オンラインのソーシャルネットワークや多言語社会に普及している。 しかし、コード混合に対するユーザの好みは、社会経済的地位、ユーザの人口統計、そして既存の生成モデルがコード混合テキストを生成する際にほとんど無視するローカルコンテキストに依存する。 本研究では,実生活におけるコード混在テキストに似たテキストを生成するペルソナ認識生成モデルの開発を先駆的に試みる。 本稿では,ユーザのペルソナに条件付き発話を符号化し,モノリンガル参照データのないコード混合テキストを生成するトランスフォーマーベースのエンコーダデコーダモデルであるPARADOXを提案する。 本稿では,生成したシーケンスを再結合して実生活コード混合テキストに類似させるアライメントモジュールを提案する。 PARADOXは意味的に意味があり、言語的により有効なコード混合テキストを生成する。 PARADOXの擬人化能力を評価するため,CM BLEU,CM Rouge-1,CM Rouge-L,CM KSの4つの新しい指標を提案する。 平均すると、PARADOXは、CM BLEUが1.6ポイント、パープレキシティが47%、セマンティックコヒーレンスが32%向上している。

Code-mixing and script-mixing are prevalent across online social networks and multilingual societies. However, a user's preference toward code-mixing depends on the socioeconomic status, demographics of the user, and the local context, which existing generative models mostly ignore while generating code-mixed texts. In this work, we make a pioneering attempt to develop a persona-aware generative model to generate texts resembling real-life code-mixed texts of individuals. We propose a Persona-aware Generative Model for Code-mixed Generation, PARADOX, a novel Transformer-based encoder-decoder model that encodes an utterance conditioned on a user's persona and generates code-mixed texts without monolingual reference data. We propose an alignment module that re-calibrates the generated sequence to resemble real-life code-mixed texts. PARADOX generates code-mixed texts that are semantically more meaningful and linguistically more valid. To evaluate the personification capabilities of PARADOX, we propose four new metrics -- CM BLEU, CM Rouge-1, CM Rouge-L and CM KS. On average, PARADOX achieves 1.6 points better CM BLEU, 47% better perplexity and 32% better semantic coherence than the non-persona-based counterparts.
翻訳日:2023-09-07 15:45:31 公開日:2023-09-06
# 残らない場所:人道的文書の位置情報の改善

Leave no Place Behind: Improved Geolocation in Humanitarian Documents ( http://arxiv.org/abs/2309.02914v1 )

ライセンス: Link先を確認
Enrico M. Belliardo, Kyriaki Kalimeri, Yelena Mejova(参考訳) 地理的な位置は人道的対応の重要な要素であり、脆弱な人口、進行中の出来事、利用可能な資源を概説している。 自然言語処理の最近の進歩は、人道部門が作成する報告書や文書の希薄化から重要な情報を抽出するのに役立つかもしれない。 しかし,既存の情報抽出ツールの性能やバイアスは明らかでない。 本研究では,人文的テキストのジオタグ化を行うために,一般的な名前付きエンティティ認識(NER)ツールであるSpacyとRoBERTaを微調整するアノテートリソースを開発する。 次に、候補地をGeoNamesデータベースにリンクするジオコーディング手法FeatureRankを提案する。 人道領域のデータによって分類器の性能が向上するだけでなく(F1=0.92まで)、西欧諸国の場所を誤って好んでいる既存のツールの偏見を和らげることが判明した。 したがって,非西洋文書からのリソースを増やすことで,人道的分野への展開にオフ・ザ・セット・ナーシステムが適していることを保証することができる。

Geographical location is a crucial element of humanitarian response, outlining vulnerable populations, ongoing events, and available resources. Latest developments in Natural Language Processing may help in extracting vital information from the deluge of reports and documents produced by the humanitarian sector. However, the performance and biases of existing state-of-the-art information extraction tools are unknown. In this work, we develop annotated resources to fine-tune the popular Named Entity Recognition (NER) tools Spacy and roBERTa to perform geotagging of humanitarian texts. We then propose a geocoding method FeatureRank which links the candidate locations to the GeoNames database. We find that not only does the humanitarian-domain data improves the performance of the classifiers (up to F1 = 0.92), but it also alleviates some of the bias of the existing tools, which erroneously favor locations in the Western countries. Thus, we conclude that more resources from non-Western documents are necessary to ensure that off-the-shelf NER systems are suitable for the deployment in the humanitarian sector.
翻訳日:2023-09-07 15:44:50 公開日:2023-09-06
# UAV支援ネットワークにおける情報量最小化のためのアンサンブルDNN

Ensemble DNN for Age-of-Information Minimization in UAV-assisted Networks ( http://arxiv.org/abs/2309.02913v1 )

ライセンス: Link先を確認
Mouhamed Naby Ndiaye, El Houcine Bergou, and Hajar El Hammouti(参考訳) 本稿では,UAV支援ネットワークにおける情報化時代(AoI)の問題に対処する。 我々の目標は、UAVの停止位置とデバイス選択確率を最適化することで、デバイス間で期待されるAoIを最小化することである。 この問題に対処するために、まず、デバイス選択の確率を含む期待されるAoIのクローズドフォーム式を導出する。 そして,サービス制約の品質を考慮した非凸最小化として問題を定式化する。 この問題は解決が難しいため,本研究では,研究課題の二重定式化を生かしたアンサンブル深層ニューラルネットワーク(ednn)に基づくアプローチを提案する。 具体的には、アンサンブルのディープニューラルネットワーク(DNN)は、研究対象のラグランジアン関数を用いて教師なしの方法で訓練される。 実験の結果,提案手法は従来のDNNよりもAoIを低減し,29.5 %の大幅な削減を実現していることがわかった。

This paper addresses the problem of Age-of-Information (AoI) in UAV-assisted networks. Our objective is to minimize the expected AoI across devices by optimizing UAVs' stopping locations and device selection probabilities. To tackle this problem, we first derive a closed-form expression of the expected AoI that involves the probabilities of selection of devices. Then, we formulate the problem as a non-convex minimization subject to quality of service constraints. Since the problem is challenging to solve, we propose an Ensemble Deep Neural Network (EDNN) based approach which takes advantage of the dual formulation of the studied problem. Specifically, the Deep Neural Networks (DNNs) in the ensemble are trained in an unsupervised manner using the Lagrangian function of the studied problem. Our experiments show that the proposed EDNN method outperforms traditional DNNs in reducing the expected AoI, achieving a remarkable reduction of $29.5\%$.
翻訳日:2023-09-07 15:44:31 公開日:2023-09-06
# ヘイトスピーチ検出のための構築データセットの課題

On the Challenges of Building Datasets for Hate Speech Detection ( http://arxiv.org/abs/2309.02912v1 )

ライセンス: Link先を確認
Vitthal Bhandari(参考訳) ヘイトスピーチの検出はNLPのスタンドアロンな応用として定式化され、ターゲットグループを特定し、生データを取得し、ラベル付けプロセスを定義し、検出アルゴリズムを選択し、所望の環境での性能を評価するために異なるアプローチが採用されている。 しかし、他の下流タスクとは異なり、ヘイトスピーチは、タスクの非常に主観的な性質のため、大規模で慎重にキュレートされ、一般化可能なデータセットが欠如している。 本稿では,まずデータ中心レンズを用いてヘイトスピーチ検出に関する問題を分析する。 次に、ヘイトスピーチの具体例を性的マイノリティに当てて、データ作成パイプラインを7つの広い次元にカプセル化する包括的枠組みを概説する。 我々は、将来ヘイトスピーチデータセットを作成する際のベストプラクティスとして、実践者がこのフレームワークに従うことの恩恵があると仮定する。

Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.
翻訳日:2023-09-07 15:44:17 公開日:2023-09-06
# 複合学習構造-流体関係を考慮した総合的な3次元鉱物探査モデルのためのマルチモーダル学習フレームワーク

A Multimodal Learning Framework for Comprehensive 3D Mineral Prospectivity Modeling with Jointly Learned Structure-Fluid Relationships ( http://arxiv.org/abs/2309.02911v1 )

ライセンス: Link先を確認
Yang Zheng, Hao Deng, Ruisheng Wang, Jingjie Wu(参考訳) 本研究では,3次元鉱物分布図(3D MPM)のための新しい多モード融合モデルを提案し,深層ネットワークアーキテクチャを通して構造情報と流体情報を効果的に統合する。 畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)を利用するモデルでは、標準相関解析(CCA)を用いてマルチモーダル特徴の整合と融合を行う。 Jiaojia金鉱床データセットの厳密な評価は、鉱床のインスタンスを識別し、鉱泉の確率を予測し、結果分析において他のモデルよりも優れた性能を示す。 アブレーション研究は、関節機能利用とCAAの活用の利点をさらに明らかにしている。 この研究は鉱物の予測モデリングを進歩させるだけでなく、データ統合と機能アライメントの重要な役割を強調する。

This study presents a novel multimodal fusion model for three-dimensional mineral prospectivity mapping (3D MPM), effectively integrating structural and fluid information through a deep network architecture. Leveraging Convolutional Neural Networks (CNN) and Multilayer Perceptrons (MLP), the model employs canonical correlation analysis (CCA) to align and fuse multimodal features. Rigorous evaluation on the Jiaojia gold deposit dataset demonstrates the model's superior performance in distinguishing ore-bearing instances and predicting mineral prospectivity, outperforming other models in result analyses. Ablation studies further reveal the benefits of joint feature utilization and CCA incorporation. This research not only advances mineral prospectivity modeling but also highlights the pivotal role of data integration and feature alignment for enhanced exploration decision-making.
翻訳日:2023-09-07 15:44:03 公開日:2023-09-06
# 90%の効率と99%の識別不可能なブロードバンド量子ドット空洞の設計原理

Design principles for >90% efficiency and >99% indistinguishability broadband quantum dot cavities ( http://arxiv.org/abs/2309.02974v1 )

ライセンス: Link先を確認
David Dlaka, Petros Androvitsaneas, Andrew Young, Qirui Ma, Edmund Harbord and Ruth Oulton(参考訳) 量子ドットは、量子コンピューティングやクラスタ状態生成において、最も明るい決定論的単一光子源となる可能性がある。 本研究では, 簡易マイクロピラーの設計を再検討し, 原子状キャビティ推定以外の漏れ流路への崩壊の構造的影響を精査する。 本研究では,DBR構造におけるBlochモードの伝播によるサイドロスの精密制御により,ブロードバンド(Q$\approx750-2500$)マイクロピラーの製造が容易になり,内部効率が極めて高い(90.5\%-96.4\%$)ことを示す。 また、このようなキャビティがフォノンのサイドバンドから自然に分離されることを示し、フォノンのサイドバンドは5-33ドルと小さくなり、光子が99.2\%-99.8\%の非識別性を示すことを予測できるようになった。

Quantum dots have the potential to be the brightest deterministic single photon source with plausible high end applications in quantum computing and cluster state generation. In this work, we re-examine the design of simple micropillars by meticulously examining the structural effects of the decay into leaky channels beyond the atom-like cavity estimation. We show that precise control of the side losses with the diameter and avoidance of propagating Bloch modes in the DBR structure can result in easy to manufacture broadband (Q$\approx750-2500$) micropillars and demonstrate extremely high internal efficiency ($90.5\%-96.4\%$). We also demonstrate that such cavities naturally decouple from the phonon sideband, with the phonon sideband reducing by a factor of $5-33$ allowing us to predict that the photons should show $99.2\%-99.8\%$ indistinguishability.
翻訳日:2023-09-07 15:37:49 公開日:2023-09-06
# 水産経営評価と意思決定における給餌コストリスクの影響について

On the Impact of Feeding Cost Risk in Aquaculture Valuation and Decision Making ( http://arxiv.org/abs/2309.02970v1 )

ライセンス: Link先を確認
Christian Oliver Ewald and Kevin Kamm(参考訳) 動物系商品に対する確率的給餌コストの影響について検討し,特に養殖に焦点をあてた。 具体的には,大豆先物を用いてサケ飼料の確率的挙動を推定し,シュワルツ2因子モデルに従うと仮定する。 我々は,サケの収穫決定を決定的又は確率的給餌コスト,すなわち給餌コストのリスクを含む決定規則を用いて比較した。 確率的給餌コストの計算が大幅な改善につながるケースや、決定論的給餌コストが十分な指標となるケースを特定する。 しかしながら、これらすべてのケースにおいて、新たに導出されたルールは優れた性能を示し、追加の計算コストは無視できる。 方法論的な観点からは,収穫や継続を決定する決定境界を推定するために深層神経ネットワークをどのように利用するかを示し,より古典的な回帰ベースおよび曲線フィッティング法を改善した。 これを実現するために,従来の結果の改善だけでなく,高次元問題にも有効にスケールできる深層分類器を用い,モデルの不確実性による影響を軽減し,本論文で確認する。 モデルの不確実性による影響を この記事で確認します

We study the effect of stochastic feeding costs on animal-based commodities with particular focus on aquaculture. More specifically, we use soybean futures to infer on the stochastic behaviour of salmon feed, which we assume to follow a Schwartz-2-factor model. We compare the decision of harvesting salmon using a decision rule assuming either deterministic or stochastic feeding costs, i.e. including feeding cost risk. We identify cases, where accounting for stochastic feeding costs leads to significant improvements as well as cases where deterministic feeding costs are a good enough proxy. Nevertheless, in all of these cases, the newly derived rules show superior performance, while the additional computational costs are negligible. From a methodological point of view, we demonstrate how to use Deep-Neural-Networks to infer on the decision boundary that determines harvesting or continuation, improving on more classical regression-based and curve-fitting methods. To achieve this we use a deep classifier, which not only improves on previous results but also scales well for higher dimensional problems, and in addition mitigates effects due to model uncertainty, which we identify in this article. effects due to model uncertainty, which we identify in this article.
翻訳日:2023-09-07 15:37:30 公開日:2023-09-06
# CR-VAE: 後方崩壊防止のための変分オートエンコーダの逆正則化

CR-VAE: Contrastive Regularization on Variational Autoencoders for Preventing Posterior Collapse ( http://arxiv.org/abs/2309.02968v1 )

ライセンス: Link先を確認
Fotios Lygerakis. Elmar Rueckert(参考訳) 変分オートエンコーダ (VAE) は、モデルが生成した潜在表現が入力から独立になる「textit{posterior collapse}」という現象に悩まされることが知られている。 これは、VAEの目的関数の制限による入力のデジェネレーション表現につながる。 本研究では,変分オートエンコーダ(cr-vae)のコントラスト正規化という,この問題に対する新しい解法を提案する。 我々のアプローチの中核は、類似した視覚入力の表現間の相互情報を最大化するコントラスト目的で、元のVAEを増強することである。 この戦略により、入力と潜在表現の間の情報フローが最大化され、後方崩壊を効果的に回避できる。 本手法を一連の視覚的データセット上で評価し,CR-VAEが崩壊防止の最先端手法より優れていることを示す。

The Variational Autoencoder (VAE) is known to suffer from the phenomenon of \textit{posterior collapse}, where the latent representations generated by the model become independent of the inputs. This leads to degenerated representations of the input, which is attributed to the limitations of the VAE's objective function. In this work, we propose a novel solution to this issue, the Contrastive Regularization for Variational Autoencoders (CR-VAE). The core of our approach is to augment the original VAE with a contrastive objective that maximizes the mutual information between the representations of similar visual inputs. This strategy ensures that the information flow between the input and its latent representation is maximized, effectively avoiding posterior collapse. We evaluate our method on a series of visual datasets and demonstrate, that CR-VAE outperforms state-of-the-art approaches in preventing posterior collapse.
翻訳日:2023-09-07 15:37:08 公開日:2023-09-06
# ハンドオブジェクト再構築のための動的双曲型注意ネットワーク

Dynamic Hyperbolic Attention Network for Fine Hand-object Reconstruction ( http://arxiv.org/abs/2309.02965v1 )

ライセンス: Link先を確認
Zhiying Leng, Shun-Cheng Wu, Mahdi Saleh, Antonio Montanaro, Hao Yu, Yin Wang, Nassir Navab, Xiaohui Liang, Federico Tombari(参考訳) rgb画像から物体と手の両方を3dで再構築することは複雑である。 既存の手法はユークリッド空間で手動で定義された手対象制約に依存しており、最適でない特徴学習に繋がる。 ユークリッド空間と比較すると、双曲空間は指数関数的に増大する空間距離によってメッシュの幾何学的性質を保ち、類似性に基づく特徴の違いを増幅する。 本研究では,双曲空間の固有特性を生かして代表的特徴を学習する動的双曲的注意ネットワーク(dhanet)という双曲空間における最初の高精度手対象再構成手法を提案する。 メッシュとイメージ機能を統合双曲空間に投影する手法には,2つのモジュールがある。 動的双曲グラフ畳み込みと画像結合双曲グラフ畳み込み この2つのモジュールにより,リッチな幾何画像マルチモーダル情報を用いてメッシュ特徴を学習し,より優れたハンドオブジェクトインタラクションをモデル化する。 本手法は双曲空間における微細な手対象再構成に有望な代替手段を提供する。 3つの公開データセットに対する大規模な実験により、我々の手法は最先端の手法よりも優れていることが示された。

Reconstructing both objects and hands in 3D from a single RGB image is complex. Existing methods rely on manually defined hand-object constraints in Euclidean space, leading to suboptimal feature learning. Compared with Euclidean space, hyperbolic space better preserves the geometric properties of meshes thanks to its exponentially-growing space distance, which amplifies the differences between the features based on similarity. In this work, we propose the first precise hand-object reconstruction method in hyperbolic space, namely Dynamic Hyperbolic Attention Network (DHANet), which leverages intrinsic properties of hyperbolic space to learn representative features. Our method that projects mesh and image features into a unified hyperbolic space includes two modules, ie. dynamic hyperbolic graph convolution and image-attention hyperbolic graph convolution. With these two modules, our method learns mesh features with rich geometry-image multi-modal information and models better hand-object interaction. Our method provides a promising alternative for fine hand-object reconstruction in hyperbolic space. Extensive experiments on three public datasets demonstrate that our method outperforms most state-of-the-art methods.
翻訳日:2023-09-07 15:36:50 公開日:2023-09-06
# GANに基づく階層型降雨画像生成モデル

Hierarchical-level rain image generative model based on GAN ( http://arxiv.org/abs/2309.02964v1 )

ライセンス: Link先を確認
Zhenyuan Liu, Tong Jia, Xingyu Xing, Jianfeng Wu, Junyi Chen(参考訳) 自律走行車は運転中に様々な天候に曝され、知覚システムの性能上の制限が引き起こされる可能性があり、意図された機能(SOTIF)問題の安全性につながる。 様々な気象条件下で視覚知覚アルゴリズムの性能をテストするためのデータを効率的に生成するため、階層レベルの雨画像生成モデルであるrain conditional cyclegan(rccyclegan)が構築される。 RCCycleGANはGAN(Generative Adversarial Network)に基づいており、光、中、大雨の画像を生成することができる。 降雨強度は条件付きGAN(CGAN)のラベルとして導入される。 一方、モデル構造を最適化し、モード崩壊の問題を緩和するためにトレーニング戦略を調整する。 さらに、異なる強度の自然雨画像を収集し、モデルトレーニングと検証のために処理する。 試験データセット上のRCCycleGANのピーク信号-雑音比(PSNR)は、CycleGANとDerainCycleGANの2つのベースラインモデルと比較して2.58dBおよび0.74dB改善され、構造類似度(SSIM)はそれぞれ18%および8%改善されている。 また, モデルチューニングの有効性を検証するため, アブレーション実験を行った。

Autonomous vehicles are exposed to various weather during operation, which is likely to trigger the performance limitations of the perception system, leading to the safety of the intended functionality (SOTIF) problems. To efficiently generate data for testing the performance of visual perception algorithms under various weather conditions, a hierarchical-level rain image generative model, rain conditional CycleGAN (RCCycleGAN), is constructed. RCCycleGAN is based on the generative adversarial network (GAN) and can generate images of light, medium, and heavy rain. Different rain intensities are introduced as labels in conditional GAN (CGAN). Meanwhile, the model structure is optimized and the training strategy is adjusted to alleviate the problem of mode collapse. In addition, natural rain images of different intensities are collected and processed for model training and validation. Compared with the two baseline models, CycleGAN and DerainCycleGAN, the peak signal-to-noise ratio (PSNR) of RCCycleGAN on the test dataset is improved by 2.58 dB and 0.74 dB, and the structural similarity (SSIM) is improved by 18% and 8%, respectively. The ablation experiments are also carried out to validate the effectiveness of the model tuning.
翻訳日:2023-09-07 15:36:33 公開日:2023-09-06
# 無線, 視覚, 音響センサを用いた屋内定位: 実生活データ検証と議論

Indoor Localization Using Radio, Vision and Audio Sensors: Real-Life Data Validation and Discussion ( http://arxiv.org/abs/2309.02961v1 )

ライセンス: Link先を確認
Ilayda Yaman, Guoda Tian, Erik Tegler, Patrik Persson, Nikhil Challa, Fredrik Tufvesson, Ove Edfors, Kalle Astrom, Steffen Malkowsky, Liang Liu(参考訳) 本論文では,同一環境における無線,視覚,音声センサを用いた屋内位置推定手法について検討する。 評価は最先端のアルゴリズムに基づいており、実際のデータセットを使用している。 具体的には,大規模なmimo技術を用いた無線ベースのローカライズのための機械学習アルゴリズム,rgb-dカメラを用いた視覚に基づくローカライズのためのorb-slam3アルゴリズム,マイクロホンアレイを用いた音声ベースのローカライズのためのsfs2アルゴリズムを評価した。 位置決め精度,信頼性,キャリブレーション要件,潜在的なシステム複雑性などの側面を考察し,屋内位置決めタスクに異なるセンサを使用することの利点と限界を分析する。 この結果は、例えばセンサフュージョンやコンテキスト、環境に配慮した適応を通じて、堅牢で高精度なマルチセンサローカライゼーションシステムの開発のためのガイドラインと基礎となる。

This paper investigates indoor localization methods using radio, vision, and audio sensors, respectively, in the same environment. The evaluation is based on state-of-the-art algorithms and uses a real-life dataset. More specifically, we evaluate a machine learning algorithm for radio-based localization with massive MIMO technology, an ORB-SLAM3 algorithm for vision-based localization with an RGB-D camera, and an SFS2 algorithm for audio-based localization with microphone arrays. Aspects including localization accuracy, reliability, calibration requirements, and potential system complexity are discussed to analyze the advantages and limitations of using different sensors for indoor localization tasks. The results can serve as a guideline and basis for further development of robust and high-precision multi-sensory localization systems, e.g., through sensor fusion and context and environment-aware adaptation.
翻訳日:2023-09-07 15:36:06 公開日:2023-09-06
# TCM舌の特徴を組み合わせた非侵襲的解釈型NAFLD診断法

A Non-Invasive Interpretable NAFLD Diagnostic Method Combining TCM Tongue Features ( http://arxiv.org/abs/2309.02959v1 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan, Qingfeng Wu(参考訳) 非アルコール性脂肪性肝疾患(Non-Alcoholic fat liver disease,NAFLD)は、アルコールを排除した肝脂肪症を特徴とする臨床病理学的症候群である。 世界中で慢性肝疾患の主要な原因となっている。 現在,従来のnafld検出手法は高価であり,日常的な診断には適していない。 本研究は,非侵襲的かつ解釈可能なnafld診断法を提案する。本研究の目的は,性別,年齢,身長,体重,腰周囲,股関節周囲,舌画像のみである。 この方法は、患者の生理的指標と舌の特徴を融合させ、SelectorNetと呼ばれる融合ネットワークに入力する。 selectornetはアテンション機構と特徴選択機構を組み合わせることで、重要な機能を選択する能力を自律的に学習することができる。 実験結果から,非侵襲的データのみを用いて77.22\%の精度を達成し,優れた解釈性行列を提供することがわかった。 本研究はNAFLDの早期診断とTCM舌診断の知的進歩に寄与する。 この論文のプロジェクトは、https://github.com/cshan-github/SelectorNet.comで公開されている。

Non-alcoholic fatty liver disease (NAFLD) is a clinicopathological syndrome characterized by hepatic steatosis resulting from the exclusion of alcohol and other identifiable liver-damaging factors. It has emerged as a leading cause of chronic liver disease worldwide. Currently, the conventional methods for NAFLD detection are expensive and not suitable for users to perform daily diagnostics. To address this issue, this study proposes a non-invasive and interpretable NAFLD diagnostic method, the required user-provided indicators are only Gender, Age, Height, Weight, Waist Circumference, Hip Circumference, and tongue image. This method involves merging patients' physiological indicators with tongue features, which are then input into a fusion network named SelectorNet. SelectorNet combines attention mechanisms with feature selection mechanisms, enabling it to autonomously learn the ability to select important features. The experimental results show that the proposed method achieves an accuracy of 77.22\% using only non-invasive data, and it also provides compelling interpretability matrices. This study contributes to the early diagnosis of NAFLD and the intelligent advancement of TCM tongue diagnosis. The project in this paper is available at: https://github.com/cshan-github/SelectorNet.
翻訳日:2023-09-07 15:35:49 公開日:2023-09-06
# M3D-NCA: 内蔵品質制御によるロバスト3次元分割

M3D-NCA: Robust 3D Segmentation with Built-in Quality Control ( http://arxiv.org/abs/2309.02954v1 )

ライセンス: Link先を確認
John Kalkhof, Anirban Mukhopadhyay(参考訳) 医用画像セグメンテーションは、UNetベースのアーキテクチャのような大規模ディープラーニングモデルに大きく依存している。 しかし、そのようなモデルの実世界の有用性は高い計算能力によって制限されており、プライマリケア施設やコンフリクトゾーンのようなリソース制約のある環境では実用的ではない。 さらに、画像領域のシフトはこれらのモデルを非効率にレンダリングし、そのようなエラーが検出されない場合に患者の安全性を損なう。 これらの課題に対処するために,我々は,Nレベルパッチを用いた3次元医用画像にニューラルセルラーオートマタ(NCA)セグメンテーションを利用する新しい手法であるM3D-NCAを提案する。 さらに,NCAのセグメンテーション過程における誤差を自動的に検出できる新しい品質指標を開発するために,M3D-NCAのばらつきを利用した。 M3D-NCAは、海馬と前立腺のセグメンテーションで2グレードのUNetモデルより優れており、Raspberry Pi 4 Model B(2GB RAM)上で動作する。 これはM3D-NCAが資源制約環境における医用画像セグメンテーションの効果的かつ効率的な代替手段としての可能性を強調している。

Medical image segmentation relies heavily on large-scale deep learning models, such as UNet-based architectures. However, the real-world utility of such models is limited by their high computational requirements, which makes them impractical for resource-constrained environments such as primary care facilities and conflict zones. Furthermore, shifts in the imaging domain can render these models ineffective and even compromise patient safety if such errors go undetected. To address these challenges, we propose M3D-NCA, a novel methodology that leverages Neural Cellular Automata (NCA) segmentation for 3D medical images using n-level patchification. Moreover, we exploit the variance in M3D-NCA to develop a novel quality metric which can automatically detect errors in the segmentation process of NCAs. M3D-NCA outperforms the two magnitudes larger UNet models in hippocampus and prostate segmentation by 2% Dice and can be run on a Raspberry Pi 4 Model B (2GB RAM). This highlights the potential of M3D-NCA as an effective and efficient alternative for medical image segmentation in resource-constrained environments.
翻訳日:2023-09-07 15:35:29 公開日:2023-09-06
# 確率近似における記憶の呪い:拡張版

The Curse of Memory in Stochastic Approximation: Extended Version ( http://arxiv.org/abs/2309.02944v1 )

ライセンス: Link先を確認
Caio Kalil Lauand and Sean Meyn(参考訳) 確率近似(英語版)(sa)の理論と応用は、適応制御の初期から制御系コミュニティの中で成長してきた。 本稿では,SAの顕著な性能を(十分小さい)定数ステップサイズ$\alpha>0$で証明した最近の結果から,この話題を新たに考察する。 平均化が最終的なパラメータ推定を得るために実施されると、その推定は漸近的にほぼ最適な漸近共分散でバイアスされない。 これらの結果は、i.d.\係数を持つランダム線形SA再帰に対して得られた。 本稿では,幾何学的エルゴードマルコフの乱れのより一般的な場合において,非常に異なる結論を得る。 (i)非線型 SA の場合においても \textit{target bias} が特定され、一般には 0 でない。 残りの結果は線形SA再帰のために確立される。 (ii)二変量パラメータ・ディストバンス過程は、トポロジカルな意味で幾何学的にエルゴード的である。 三) バイアスの表現は、この場合においてより単純な形式であり、乗法ノイズがあるときはゼロであるとは期待できない。 (iv)平均パラメータの漸近共分散は最適な$o(\alpha)$以内である。 誤差項は特定され、平均力学が十分に条件づけられていない場合、大きすぎる可能性がある。 この理論はtd-learningに応用されている。

Theory and application of stochastic approximation (SA) has grown within the control systems community since the earliest days of adaptive control. This paper takes a new look at the topic, motivated by recent results establishing remarkable performance of SA with (sufficiently small) constant step-size $\alpha>0$. If averaging is implemented to obtain the final parameter estimate, then the estimates are asymptotically unbiased with nearly optimal asymptotic covariance. These results have been obtained for random linear SA recursions with i.i.d.\ coefficients. This paper obtains very different conclusions in the more common case of geometrically ergodic Markovian disturbance: (i) The \textit{target bias} is identified, even in the case of non-linear SA, and is in general non-zero. The remaining results are established for linear SA recursions: (ii) the bivariate parameter-disturbance process is geometrically ergodic in a topological sense; (iii) the representation for bias has a simpler form in this case, and cannot be expected to be zero if there is multiplicative noise; (iv) the asymptotic covariance of the averaged parameters is within $O(\alpha)$ of optimal. The error term is identified, and may be massive if mean dynamics are not well conditioned. The theory is illustrated with application to TD-learning.
翻訳日:2023-09-07 15:35:08 公開日:2023-09-06
# ワイル作用素、富田竹崎理論、ベル-CHSH不等式違反

Weyl operators, Tomita-Takesaki theory and Bell-CHSH inequality violations ( http://arxiv.org/abs/2309.02941v1 )

ライセンス: Link先を確認
P. De Fabritiis, F. M. Guedes, M. S. Guimaraes, G. Peruzzo, I. Roditi, S. P. Sorella(参考訳) 相対論的自由実スカラー場の真空状態におけるベル-CHSH不等式の不等式は、富田・竹崎構成とワイル作用素の相関関数の直接計算により決定される。

The violation of the Bell-CHSH inequality in the vacuum state of a relativistic free real scalar field is established by means of the Tomita-Takesaki construction and of the direct computation of the correlation functions of Weyl operators.
翻訳日:2023-09-07 15:34:51 公開日:2023-09-06
# 局所スクイージングによる2モードガウス状態のベル非局在性

Bell non-locality in two-mode Gaussian states revealed via local squeezing ( http://arxiv.org/abs/2309.03016v1 )

ライセンス: Link先を確認
A. Lezama and A. Auyuanet(参考訳) 局所ユニタリ変換は、局所測定の結果に影響を与えるが、絡み合った状態を共有する2つの系間の量子相関には影響しない。 2モードガウス系のCHSHベル不等式違反を許すため、局所的なスクイーズ操作を考慮し、拡張された観測機器群を導入する。 局所的スクイーズにより,非局所的な2モード状態の同定が可能であることを示す。 特に, 局所的なスクイージングと光子/非光子識別は, 純および混合2モードガウス状態の広いアンサンブルにおいて非局所性を明らかにするのに十分であることを示す。

Local unitary transforms cannot affect the quantum correlations between two systems sharing an entangled state although they do influence the outcomes of local measurements. By considering local squeezing operations we introduce an extended family of observables allowing violation of the CHSH Bell inequality for two-mode Gaussian systems. We show that local squeezing can enable or enhance the identification of non-local two-mode states. In particular, we show that local squeezing followed by photons/no-photons discrimination can suffice to reveal non-locality in a broad ensemble of pure and mixed two-mode Gaussian states.
翻訳日:2023-09-07 15:27:10 公開日:2023-09-06
# SymED: エッジ上のデータの適応的およびオンライン的シンボリック表現

SymED: Adaptive and Online Symbolic Representation of Data on the Edge ( http://arxiv.org/abs/2309.03014v1 )

ライセンス: Link先を確認
Daniel Hofst\"atter, Shashikant Ilager, Ivan Lujic, Ivona Brandic(参考訳) エッジコンピューティングのパラダイムは、IoT(Internet of Things)生成されたデータをソースに近接して処理するのに役立つ。 リソース制約のあるエッジデバイス上で急速に増加するデータの転送、保存、処理において、課題が発生する。 Symbolic Representation (SR)アルゴリズムは、実際の生データをシンボルに変換することで、データサイズを減らすための有望なソリューションである。 また、シンボルに直接データ分析(異常検出やトレンド予測など)を許可し、エッジアプリケーションの大規模なクラスに恩恵を与える。 しかし、既存のSRアルゴリズムは設計に集中しており、リアルタイムケースでは不可能なバッチデータでオフラインで動作する。 我々は、エッジ上のデータのシンボル表現のための、オンラインで適応的で分散的なアプローチであるSymbedSymbolic Edge Data表現法を提案する。 SymEDはAdaptive Brownian Bridgeベースのアグリゲーション(ABBA)に基づいており、低消費電力のIoTデバイスが初期データ圧縮(Sender)を行い、より堅牢なエッジデバイスがシンボリック変換(Receivers)を行うと仮定する。 圧縮性能,動的時間ワープ(DTW)距離による再構成精度,計算遅延を測定し,Symphedの評価を行った。 結果はSymphedが実現可能であることを示している。 (i)平均圧縮率9.5%で生データを減少させる。 (ii)dtw空間に13.25の再構成誤差を低く保持する。 (iii) シンボルあたり42msの典型的なレイテンシで,オンラインストリーミングIoTデータのリアルタイム適応性を同時に提供することにより,ネットワーク全体のトラフィックを削減できる。

The edge computing paradigm helps handle the Internet of Things (IoT) generated data in proximity to its source. Challenges occur in transferring, storing, and processing this rapidly growing amount of data on resource-constrained edge devices. Symbolic Representation (SR) algorithms are promising solutions to reduce the data size by converting actual raw data into symbols. Also, they allow data analytics (e.g., anomaly detection and trend prediction) directly on symbols, benefiting large classes of edge applications. However, existing SR algorithms are centralized in design and work offline with batch data, which is infeasible for real-time cases. We propose SymED - Symbolic Edge Data representation method, i.e., an online, adaptive, and distributed approach for symbolic representation of data on edge. SymED is based on the Adaptive Brownian Bridge-based Aggregation (ABBA), where we assume low-powered IoT devices do initial data compression (senders) and the more robust edge devices do the symbolic conversion (receivers). We evaluate SymED by measuring compression performance, reconstruction accuracy through Dynamic Time Warping (DTW) distance, and computational latency. The results show that SymED is able to (i) reduce the raw data with an average compression rate of 9.5%; (ii) keep a low reconstruction error of 13.25 in the DTW space; (iii) simultaneously provide real-time adaptability for online streaming IoT data at typical latencies of 42ms per symbol, reducing the overall network traffic.
翻訳日:2023-09-07 15:27:00 公開日:2023-09-06
# 物体中心線サンプリングによるスパース3次元再構成

Sparse 3D Reconstruction via Object-Centric Ray Sampling ( http://arxiv.org/abs/2309.03008v1 )

ライセンス: Link先を確認
Llukman Cerkezi, Paolo Favaro(参考訳) 本研究では,360度キャリブレーションカメラリグから取得したスパース集合からの3次元オブジェクト再構成手法を提案する。 MLPに基づくニューラル表現とトライアングルメッシュの両方を用いたハイブリッドモデルを用いて物体表面を表現する。 私たちの研究における重要な貢献は、すべてのビューで光が共有される、神経表現のオブジェクト中心サンプリングスキームである。 これにより、各イテレーションでニューラルモデルを更新するのに使用されるサンプルの数を効率よく集中し、削減できる。 このサンプリングスキームはメッシュ表現に依存し、サンプルが正常に沿って適切に分散されていることを保証する。 そして、このレンダリングを微分可能なレンダラーで効率的に行う。 このサンプリング方式により、より効果的な神経表現のトレーニングが実現し、セグメンテーションマスクのさらなる監督を必要とせず、芸術的な3D再構成の状態が得られ、GoogleのScanned Objects, Tank and TemplesおよびMVMC Carデータセットの細かなビューで動作することを示した。

We propose a novel method for 3D object reconstruction from a sparse set of views captured from a 360-degree calibrated camera rig. We represent the object surface through a hybrid model that uses both an MLP-based neural representation and a triangle mesh. A key contribution in our work is a novel object-centric sampling scheme of the neural representation, where rays are shared among all views. This efficiently concentrates and reduces the number of samples used to update the neural model at each iteration. This sampling scheme relies on the mesh representation to ensure also that samples are well-distributed along its normals. The rendering is then performed efficiently by a differentiable renderer. We demonstrate that this sampling scheme results in a more effective training of the neural representation, does not require the additional supervision of segmentation masks, yields state of the art 3D reconstructions, and works with sparse views on the Google's Scanned Objects, Tank and Temples and MVMC Car datasets.
翻訳日:2023-09-07 15:26:35 公開日:2023-09-06
# フラットミニマと対向ロバスト性による活性化空間の理論的説明

Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness ( http://arxiv.org/abs/2309.03004v1 )

ライセンス: Link先を確認
Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) MLP層の活性化空間の最近の経験的観察は、無料の計算コストを大幅に削減する機会を提供する。 いくつかの研究が力学の訓練に寄与しているが、アクティベーション空間の出現の理論的な説明は浅いネットワーク、小さなトレーニングステップ、そして修正されたトレーニングに限られている。 この3つのギャップを埋めるため,我々は勾配スパーシティの概念を活性化スパーシティの源として提案し,それに基づく理論的説明として,勾配スパーシティとそれに続く活性化スパーシティを,敵対的ロバストネスのために必要なステップとして,w.r.t. 隠れた特徴とパラメータとして説明する。 この理論は、標準的に訓練されたLayerNormベースの純粋なMLPや、トレーニング中に重み付けにノイズを加える場合のトランスフォーマーや他のアーキテクチャにも適用される。 空間性の必要性を議論する際の他の平坦性源を排除するため、スペクトル濃度の現象、すなわち重量行列の最大値と最小値の非ゼロ特異値との比が小さいことを発見した。 確率的勾配雑音を解析し、スペクトル集中の出現について議論するための強力な理論ツールとしてランダム行列理論(RMT)を用いる。 これらの知見により,スクラッチとスパーシティの微調整からトレーニングを行うための2つのプラグイン・アンド・プレイモジュールと,スクラッチ外のトレーニングにのみ適用される1つの根本的な修正を提案する。 スパルシリティと平坦性の両方に対する別のテスト対象モジュールも、我々の理論からすぐに得られます。 我々の説明を検証するために検証実験を行った。 生産性に関する実験は、空間性の改善を実証し、トレーニングと推論の両方におけるさらなる理論的コスト削減を示している。

A recent empirical observation of activation sparsity in MLP layers offers an opportunity to drastically reduce computation costs for free. Despite several works attributing it to training dynamics, the theoretical explanation of activation sparsity's emergence is restricted to shallow networks, small training steps well as modified training, even though the sparsity has been found in deep models trained by vanilla protocols for large steps. To fill the three gaps, we propose the notion of gradient sparsity as the source of activation sparsity and a theoretical explanation based on it that explains gradient sparsity and then activation sparsity as necessary steps to adversarial robustness w.r.t. hidden features and parameters, which is approximately the flatness of minima for well-learned models. The theory applies to standardly trained LayerNorm-ed pure MLPs, and further to Transformers or other architectures if noises are added to weights during training. To eliminate other sources of flatness when arguing sparsities' necessity, we discover the phenomenon of spectral concentration, i.e., the ratio between the largest and the smallest non-zero singular values of weight matrices is small. We utilize random matrix theory (RMT) as a powerful theoretical tool to analyze stochastic gradient noises and discuss the emergence of spectral concentration. With these insights, we propose two plug-and-play modules for both training from scratch and sparsity finetuning, as well as one radical modification that only applies to from-scratch training. Another under-testing module for both sparsity and flatness is also immediate from our theories. Validational experiments are conducted to verify our explanation. Experiments for productivity demonstrate modifications' improvement in sparsity, indicating further theoretical cost reduction in both training and inference.
翻訳日:2023-09-07 15:26:18 公開日:2023-09-06
# Vote2Cap-DETR++: ローカライゼーションのデカップリングと、エンドツーエンドの3D Dense Captioningのための記述

Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning ( http://arxiv.org/abs/2309.02999v1 )

ライセンス: Link先を確認
Sijin Chen, Hongyuan Zhu, Mingsheng Li, Xin Chen, Peng Guo, Yinjie Lei, Gang Yu, Taihao Li, and Tao Chen(参考訳) 3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。 既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。 これらの方法が最初に成功したが、カスケードパイプラインは、重複した不正確なボックス推定と乱雑な3dシーンのためにエラーを蓄積する傾向がある。 本稿では,まず,並列デコードによるキャプション生成とオブジェクトローカライゼーションのデコード処理を分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。 さらに、オブジェクトのローカライゼーションと記述生成には異なるレベルのシーン理解が必要であると論じ、共有クエリの集合をキャプチャすることは困難である。 そこで本研究では,クエリをローカライズとキャプションクエリに分離してタスク固有の特徴をキャプチャする,高度なバージョンであるVote2Cap-DETR++を提案する。 さらに,コンバージェンスを高速化し,ローカライズ性能を向上させるために,クエリに投票する反復的空間リファインメント戦略を導入する。 さらに,キャプションヘッドに空間情報を追加して,より正確な説明を行う。 ベルとホイッスルがなければ、一般的な2つのデータセットであるscanreferとnr3dの広範な実験では、従来の"detect-then-describe"メソッドを大差で上回っている。 コードはhttps://github.com/ch3cook-fdu/Vote2Cap-DETRで公開されている。

3D dense captioning requires a model to translate its understanding of an input 3D scene into several captions associated with different object regions. Existing methods adopt a sophisticated "detect-then-describe" pipeline, which builds explicit relation modules upon a 3D detector with numerous hand-crafted components. While these methods have achieved initial success, the cascade pipeline tends to accumulate errors because of duplicated and inaccurate box estimations and messy 3D scenes. In this paper, we first propose Vote2Cap-DETR, a simple-yet-effective transformer framework that decouples the decoding process of caption generation and object localization through parallel decoding. Moreover, we argue that object localization and description generation require different levels of scene understanding, which could be challenging for a shared set of queries to capture. To this end, we propose an advanced version, Vote2Cap-DETR++, which decouples the queries into localization and caption queries to capture task-specific features. Additionally, we introduce the iterative spatial refinement strategy to vote queries for faster convergence and better localization performance. We also insert additional spatial information to the caption head for more accurate descriptions. Without bells and whistles, extensive experiments on two commonly used datasets, ScanRefer and Nr3D, demonstrate Vote2Cap-DETR and Vote2Cap-DETR++ surpass conventional "detect-then-describe" methods by a large margin. Codes will be made available at https://github.com/ch3cook-fdu/Vote2Cap-DETR.
翻訳日:2023-09-07 15:25:45 公開日:2023-09-06
# 分布外検出のための連続的顕在的深層学習

Continual Evidential Deep Learning for Out-of-Distribution Detection ( http://arxiv.org/abs/2309.02995v1 )

ライセンス: Link先を確認
Eduardo Aguilar, Bogdan Raducanu, Petia Radeva, Joost Van de Weijer(参考訳) 不確実性に基づくディープラーニングモデルは、正確で信頼性の高い予測を提供する能力に対して、大きな関心を集めている。 Evidential Deep Learningは、単一決定論的ニューラルネットワークによるアウト・オブ・ディストリビューション(OOD)データの検出において、優れたパフォーマンスを実現している。 そこで本論文では,この事実に動機づけられ,連続学習フレームワークへの実証的深層学習手法の統合を提案し,オブジェクトの漸進的分類とood検出を同時に行う。 さらに,古いクラスに属する分布内データとOODデータとを区別する空き度と不協和性の分析を行った。 提案手法はCEDLと呼ばれ,5タスクと10タスクの2つの設定を考慮したCIFAR-100上で評価される。 得られた結果から,提案手法は,基準値に対するオブジェクト分類に匹敵する結果を提供するとともに,AUROC,AUPR,FPR95の3つの評価指標におけるポストホック法と比較して,OOD検出に優れることがわかった。

Uncertainty-based deep learning models have attracted a great deal of interest for their ability to provide accurate and reliable predictions. Evidential deep learning stands out achieving remarkable performance in detecting out-of-distribution (OOD) data with a single deterministic neural network. Motivated by this fact, in this paper we propose the integration of an evidential deep learning method into a continual learning framework in order to perform simultaneously incremental object classification and OOD detection. Moreover, we analyze the ability of vacuity and dissonance to differentiate between in-distribution data belonging to old classes and OOD data. The proposed method, called CEDL, is evaluated on CIFAR-100 considering two settings consisting of 5 and 10 tasks, respectively. From the obtained results, we could appreciate that the proposed method, in addition to provide comparable results in object classification with respect to the baseline, largely outperforms OOD detection compared to several posthoc methods on three evaluation metrics: AUROC, AUPR and FPR95.
翻訳日:2023-09-07 15:25:16 公開日:2023-09-06
# プロパゲータモデルへのオフライン学習アプローチ

An Offline Learning Approach to Propagator Models ( http://arxiv.org/abs/2309.02994v1 )

ライセンス: Link先を確認
Eyal Neuman, Wolfgang Stockinger, Yufei Zhang(参考訳) 静的データセットから未知の価格影響カーネルを推定し、過渡的な価格影響を発生させながらリスク資産を清算する戦略を設計するエージェントに対して、オフライン学習問題を考察する。 本稿では,価格トラジェクトリ,トレーディング信号,メタオーダーを含むデータセットからプロパゲータを非パラメトリックに推定する手法を提案する。 推定プロパゲータの精度を,データセットに明示的に依存する計量を用いて定量化する。 推定プロパゲータに純粋に基づいた欲望戦略を用いて、執行コストを最小化しようとするトレーダは、取引戦略と推定要因とのいわゆるスプリアス相関と、バイアス付きコスト汎関数による内在的不確実性により、サブオプティリティに遭遇する。 オフラインの強化学習アプローチを採用することにより,推定プロパゲータの不確実性を考慮に入れた悲観的損失関数を導入し,スプリアス相関を排除し,真のプロパゲータの正確な情報なしでも,実行コストに漸近的に最適な制約を導出する。 提案するプロパゲータ推定器の有効性と悲観的取引戦略を実証するために数値実験を行った。

We consider an offline learning problem for an agent who first estimates an unknown price impact kernel from a static dataset, and then designs strategies to liquidate a risky asset while creating transient price impact. We propose a novel approach for a nonparametric estimation of the propagator from a dataset containing correlated price trajectories, trading signals and metaorders. We quantify the accuracy of the estimated propagator using a metric which depends explicitly on the dataset. We show that a trader who tries to minimise her execution costs by using a greedy strategy purely based on the estimated propagator will encounter suboptimality due to so-called spurious correlation between the trading strategy and the estimator and due to intrinsic uncertainty resulting from a biased cost functional. By adopting an offline reinforcement learning approach, we introduce a pessimistic loss functional taking the uncertainty of the estimated propagator into account, with an optimiser which eliminates the spurious correlation, and derive an asymptotically optimal bound on the execution costs even without precise information on the true propagator. Numerical experiments are included to demonstrate the effectiveness of the proposed propagator estimator and the pessimistic trading strategy.
翻訳日:2023-09-07 15:24:55 公開日:2023-09-06
# 重力波に対するマクロ量子応答

Macroscopic Quantum Response to Gravitational Waves ( http://arxiv.org/abs/2309.02992v1 )

ライセンス: Link先を確認
Asuka Ito, Ryuichiro Kitano(参考訳) 重力波による1電子量子サイクロトロンの励起の研究を行う。 ペニングトラップ等の電子は、波動関数の大きさによってパラメータ化された無限縮退性を有するランダウレベルが最低となるように準備される。 基底状態から第1励起状態への励起速度は、電子波動関数の大きさによって増大する:大きな波動関数を持つ電子は、より重力波を感じる。 その結果、マクロな1電子量子サイクロトロンにおける重力波に対する優れた感度が導出される。

We study the excitation of a one-electron quantum cyclotron by gravitational waves. The electron in such as a penning trap is prepared to be at the lowest Landau level, which has an infinite degeneracy parameterized by the size of the wave function. We find that the excitation rate from the ground state to the first excited state is enhanced by the size of the electron wave function: an electron with a larger wave function feels gravitational waves more. As a consequence, we derive a good sensitivity to gravitational waves at a macroscopic one-electron quantum cyclotron.
翻訳日:2023-09-07 15:24:32 公開日:2023-09-06
# 筋骨格モデルを用いた強化学習による自然歩行とロバスト歩行

Natural and Robust Walking using Reinforcement Learning without Demonstrations in High-Dimensional Musculoskeletal Models ( http://arxiv.org/abs/2309.02976v1 )

ライセンス: Link先を確認
Pierre Schumacher, Thomas Geijtenbeek, Vittorio Caggiano, Vikash Kumar, Syn Schmitt, Georg Martius, Daniel F. B. Haeufle(参考訳) 人間は複雑な自然環境において頑健な二足歩行に優れている。 それぞれのステップで、バイオメカニカル筋力学と神経信号の相互作用を適切に調整し、地面の状態の不確実性に対して堅牢である。 しかし、安定性、堅牢性、エネルギー効率を考慮した多目的制御問題を解くために、神経系が筋骨格の冗長性をどのように解決するかは、まだ完全には分かっていない。 コンピュータシミュレーションでは、エネルギーの最小化が最適化の目標として成功し、軌道最適化や反射に基づく制御手法で自然歩行を再現することが示されている。 しかし、これらの手法は一度に特定の動きに焦点を合わせ、結果として生じるコントローラは摂動を補償するときに制限される。 ロボット工学において、強化学習(rl)法は、最近、四足歩行システムにおいて高度に安定(かつ効率的な)移動を達成したが、二足歩行の生体力学的モデルを用いた人間のような歩行の生成には、専門家のデータセットを広範囲に使用する必要がある。 このデモへの強い依存は、しばしば脆いポリシーをもたらし、特に3Dの高次元筋骨格モデルに対する潜在的な様々な動きを考慮して、新しい行動への適用を制限する。 RLの強靭さを犠牲にすることなく自然の移動を実現することは、複雑な自然環境における人間の歩行を研究する新しいアプローチの道を開くかもしれない。

Humans excel at robust bipedal walking in complex natural environments. In each step, they adequately tune the interaction of biomechanical muscle dynamics and neuronal signals to be robust against uncertainties in ground conditions. However, it is still not fully understood how the nervous system resolves the musculoskeletal redundancy to solve the multi-objective control problem considering stability, robustness, and energy efficiency. In computer simulations, energy minimization has been shown to be a successful optimization target, reproducing natural walking with trajectory optimization or reflex-based control methods. However, these methods focus on particular motions at a time and the resulting controllers are limited when compensating for perturbations. In robotics, reinforcement learning~(RL) methods recently achieved highly stable (and efficient) locomotion on quadruped systems, but the generation of human-like walking with bipedal biomechanical models has required extensive use of expert data sets. This strong reliance on demonstrations often results in brittle policies and limits the application to new behaviors, especially considering the potential variety of movements for high-dimensional musculoskeletal models in 3D. Achieving natural locomotion with RL without sacrificing its incredible robustness might pave the way for a novel approach to studying human walking in complex natural environments.
翻訳日:2023-09-07 15:24:24 公開日:2023-09-06
# FishMOT:IoUマッチングに基づく魚追跡の簡便かつ効果的な方法

FishMOT: A Simple and Effective Method for Fish Tracking Based on IoU Matching ( http://arxiv.org/abs/2309.02975v1 )

ライセンス: Link先を確認
Shuo Liu, Lulu Han, Xiaoyang Liu, Junli Ren, Fang Wang, Yuanshan Lin(参考訳) 様々な魚種の追跡は、個々の魚とそのグループの行動を理解する上で非常に重要な役割を担っている。 現在追跡法は, 精度の低下や堅牢性の低下に悩まされている。 このような問題に対処するため,本研究では,Fish Multiple Object Tracking(Fish Multiple Object Tracking)という新しいトラッキング手法を提案する。 本手法は, 物体検出手法とIoUマッチングアルゴリズムを組み合わせることにより, 効率, 正確, 堅牢な魚検出・追跡を実現する。 他の手法と異なり、この方法は個々の特徴抽出やアイデンティティ割り当ての必要性を排除し、代わりに検出器の出力結果を直接利用して追跡し、計算時間と記憶空間を大幅に削減する。 さらに,本手法では,映像品質や個性の変化などの要因について最小限の要件を課す。 検知器が魚を正確に見つけて識別できる限り、効果的な追跡が可能となる。 このアプローチは堅牢性と一般化性を高める。 さらに, この手法では, 複雑な特徴マッチングやグラフ最適化アルゴリズムに頼ることなく, 欠落検出の問題に対処する。 これにより精度と信頼性が向上する。 idtracker.aiが提供するオープンソースのビデオデータセットで実験を行い、最先端の検出器に基づくマルチオブジェクト追跡法との比較を行った。 さらに、動物追跡の分野で優れたパフォーマンスを示す2つのツールであるidtracker.aiとTRexとの比較を行った。 実験の結果,提案手法は様々な評価指標において他の手法よりも優れ,高速化とメモリ要求の低減を実現していることがわかった。 ソースコードと事前訓練されたモデルは以下の通りである。

The tracking of various fish species plays a profoundly significant role in understanding the behavior of individual fish and their groups. Present tracking methods suffer from issues of low accuracy or poor robustness. In order to address these concerns, this paper proposes a novel tracking approach, named FishMOT (Fish Multiple Object Tracking). This method combines object detection techniques with the IoU matching algorithm, thereby achieving efficient, precise, and robust fish detection and tracking. Diverging from other approaches, this method eliminates the need for multiple feature extractions and identity assignments for each individual, instead directly utilizing the output results of the detector for tracking, thereby significantly reducing computational time and storage space. Furthermore, this method imposes minimal requirements on factors such as video quality and variations in individual appearance. As long as the detector can accurately locate and identify fish, effective tracking can be achieved. This approach enhances robustness and generalizability. Moreover, the algorithm employed in this method addresses the issue of missed detections without relying on complex feature matching or graph optimization algorithms. This contributes to improved accuracy and reliability. Experimental trials were conducted in the open-source video dataset provided by idtracker.ai, and comparisons were made with state-of-the-art detector-based multi-object tracking methods. Additionally, comparisons were made with idtracker.ai and TRex, two tools that demonstrate exceptional performance in the field of animal tracking. The experimental results demonstrate that the proposed method outperforms other approaches in various evaluation metrics, exhibiting faster speed and lower memory requirements. The source codes and pre-trained models are available at: https://github.com/gakkistar/FishMOT
翻訳日:2023-09-07 15:24:00 公開日:2023-09-06
# pt対称進化の還元ダイナミクス

Reduced dynamics of a PT-symmetric evolution ( http://arxiv.org/abs/2309.03042v1 )

ライセンス: Link先を確認
Himanshu Badhani and C. M. Chandrashekar(参考訳) 非エルミート的ハミルトニアンの下でのPT対称性のない進化は、いわゆる計量作用素によって促進される内積の適切な選択の下でユニタリと見なすことができる。 計量作用素の選択はシステムの記述に依らないことが理解されているが、本研究では、この選択がサブシステムの特性を規定していることを示す。 従ってサブシステムダイナミクスはメトリックの選択に依存する。 この結果は、状態を特徴付けるために選択された観測変数の集合がサブシステムへの分解を決定するという、これまで知られていた結果の再構成であると主張する。 この研究では、内部および外部の自由度を持つ非エルミートなpt対称量子ウォークを用いてこれを示す。 量子ウォークのハミルトニアンは、これらの部分空間上のテンソル積構造を持つ計量作用素を許さないように選択される。 これらの制約の下では、計量作用素の異なる選択の下で系の内部状態の性質を調査し、二部交絡や非マルコフ性のような性質が計量作用素の選択に依存することを示す。

Evolutions under non-Hermitian Hamiltonians with unbroken PT-symmetry can be considered unitary under appropriate choices of inner products, facilitated by the so-called metric operator. While it is understood that the choice of the metric operator has no bearing on the description of the system, in this work we show that this choice does dictate the properties of the subsystem. Subsystem dynamics therefore does depend on the choice of the metric. We argue that this result is a reformulation of the previously known result that the set of observables, chosen to characterize the state, determines its decomposition into subsystems. In this work we take a non-Hermitian PT-symmetric quantum walk with an internal and external degree of freedom to show this. The Hamiltonian of the quantum walk is chosen to not allow a metric operator with a tensor product structure over these subspaces. Under these constraints, we investigate the properties of the internal state of the system under different choices of the metric operator and show that properties like bipartite entanglement and non-Markovianity depend on the choice of the metric operator.
翻訳日:2023-09-07 15:18:15 公開日:2023-09-06
# 説明可能性に対するシャプリー値の反論

A Refutation of Shapley Values for Explainability ( http://arxiv.org/abs/2309.03041v1 )

ライセンス: Link先を確認
Xuanxiang Huang, Joao Marques-Silva(参考訳) 最近の研究は、Shapley値がルールに基づく説明における特徴の相対的重要性に関する誤解を招く情報を提供するブール関数の存在を実証した。 このような誤解を招く情報は、様々な問題に大別された。 これらの問題はそれぞれ、予測に関係または関係のない特徴に関係しており、ルールベースの説明可能性に対するシェープリー値の不備に関して重要な問題である。 この初期の研究は、少数の特徴に基づいて定義されたブール関数と関連するインスタンスを識別するブルートフォースのアプローチを考案し、そのような不適切な発見問題を示し、規則に基づく説明可能性に対するシェープリー値の不適切性の証拠として役立った。 しかし、顕著な疑問は、任意の数の特徴を持つブール関数に対して、そのような不適切な発見問題の発生頻度である。 力ずくのアプローチが、この問題に取り組む方法に関する洞察を提供する可能性は低いことは明らかです。 本稿は, 種々の特徴に対して, 1つ以上の不適切な発見問題を示すブール関数が存在することを証明し, 特徴帰属法の理論的根拠として, シェープリー値の使用に対する決定的な議論を提起する。

Recent work demonstrated the existence of Boolean functions for which Shapley values provide misleading information about the relative importance of features in rule-based explanations. Such misleading information was broadly categorized into a number of possible issues. Each of those issues relates with features being relevant or irrelevant for a prediction, and all are significant regarding the inadequacy of Shapley values for rule-based explainability. This earlier work devised a brute-force approach to identify Boolean functions, defined on small numbers of features, and also associated instances, which displayed such inadequacy-revealing issues, and so served as evidence to the inadequacy of Shapley values for rule-based explainability. However, an outstanding question is how frequently such inadequacy-revealing issues can occur for Boolean functions with arbitrary large numbers of features. It is plain that a brute-force approach would be unlikely to provide insights on how to tackle this question. This paper answers the above question by proving that, for any number of features, there exist Boolean functions that exhibit one or more inadequacy-revealing issues, thereby contributing decisive arguments against the use of Shapley values as the theoretical underpinning of feature-attribution methods in explainability.
翻訳日:2023-09-07 15:17:56 公開日:2023-09-06
# 脅威優先化と影響予測のための自動CVE解析

Automated CVE Analysis for Threat Prioritization and Impact Prediction ( http://arxiv.org/abs/2309.03040v1 )

ライセンス: Link先を確認
Ehsan Aghaei, Ehab Al-Shaer, Waseem Shadid, Xi Niu(参考訳) Common Vulnerabilities and Exposures(CVE)は、サービスパッチ、セキュリティ強化など、積極的なサイバーセキュリティ対策のための重要な情報である。 しかし、一般的にcveは、公開されたサイバーセキュリティ脆弱性の低レベル、製品指向の説明を提供し、包括的脆弱性のキャラクタリゼーションと脅威の影響見積に必要な重要な攻撃意味情報を欠いている。 この重要な洞察は、特に多数のCVEを扱う際に、CVEの優先順位付けと潜在的な対策の特定に不可欠である。 現在の業界プラクティスでは、common vulnerability scoring system(cvss)を使用して攻撃の短さを評価するためにcveを手作業で評価し、それをcommon weak enumeration(cwe)にマッピングして潜在的な緩和識別を行う。 残念ながら、この手動分析は脆弱性分析プロセスの大きなボトルネックを示しており、積極的なサイバーセキュリティ活動の減速と、人間のエラーによる不正確性の可能性につながっている。 本研究では,CVE分析と脅威優先順位付けに革命をもたらす新しい予測モデルとツール(CVEDrill)を紹介する。 CVEDrillは、CVSSベクトルを正確に推定し、正確な脅威軽減と優先順位付けを行い、CVEを適切なCWE階層クラスに分類する。 CVEDrillを利用することで、組織は非並列の正確さとタイムラインでサイバーセキュリティ対策を緩和し、ChaptGPTのような最先端ツールの能力をこの領域で超越することができる。

The Common Vulnerabilities and Exposures (CVE) are pivotal information for proactive cybersecurity measures, including service patching, security hardening, and more. However, CVEs typically offer low-level, product-oriented descriptions of publicly disclosed cybersecurity vulnerabilities, often lacking the essential attack semantic information required for comprehensive weakness characterization and threat impact estimation. This critical insight is essential for CVE prioritization and the identification of potential countermeasures, particularly when dealing with a large number of CVEs. Current industry practices involve manual evaluation of CVEs to assess their attack severities using the Common Vulnerability Scoring System (CVSS) and mapping them to Common Weakness Enumeration (CWE) for potential mitigation identification. Unfortunately, this manual analysis presents a major bottleneck in the vulnerability analysis process, leading to slowdowns in proactive cybersecurity efforts and the potential for inaccuracies due to human errors. In this research, we introduce our novel predictive model and tool (called CVEDrill) which revolutionizes CVE analysis and threat prioritization. CVEDrill accurately estimates the CVSS vector for precise threat mitigation and priority ranking and seamlessly automates the classification of CVEs into the appropriate CWE hierarchy classes. By harnessing CVEDrill, organizations can now implement cybersecurity countermeasure mitigation with unparalleled accuracy and timeliness, surpassing in this domain the capabilities of state-of-the-art tools like ChaptGPT.
翻訳日:2023-09-07 15:17:34 公開日:2023-09-06
# Rydberg複合材料におけるトポロジカルエッジ状態

Topological edge states in a Rydberg composite ( http://arxiv.org/abs/2309.03039v1 )

ライセンス: Link先を確認
Matthew T. Eiles, Christopher W. W\"achtler, Alexander Eisfeld and Jan M. Rost(参考訳) ライドバーグ合成の文脈における位相相と対称性に保護された電子縁状態:基底状態原子の構造化配置と相互作用したライドバーグ原子。 そのような複合体の電子ハミルトニアンは、強結合ハミルトニアンへの直接写像を持ち、基底状態原子の配置とライドバーグ原子の励起を調整して、非自明なトポロジーを持つ様々な系の実現と研究を可能にする。 ライドバーグ電子は、ライドバーグ核との長距離クーロン相互作用と各中性原子との短距離相互作用を含む結合ポテンシャルで動き、サイト間の効果的な相互作用はこの組み合わせによって決定される。 まず,rydberg合成系における位相的に保護されたエッジ状態の存在を,パラダイム的su-schrieffer-heeger dimerモデルにマッピングすることで確認した。 その後、Rydbergコンポジットで容易にシミュレートできるトリマー単位細胞を用いたより複雑なシステムについて検討する。

We examine topological phases and symmetry-protected electronic edge states in the context of a Rydberg composite: a Rydberg atom interfaced with a structured arrangement of ground-state atoms. The electronic Hamiltonian of such a composite possesses a direct mapping to a tight-binding Hamiltonian, which enables the realization and study of a variety of systems with non-trivial topology by tuning the arrangement of ground-state atoms and the excitation of the Rydberg atom. The Rydberg electron moves in a combined potential including the long-ranged Coulomb interaction with the Rydberg core and short-ranged interactions with each neutral atom; the effective interactions between sites are determined by this combination. We first confirm the existence of topologically-protected edge states in a Rydberg composite by mapping it to the paradigmatic Su-Schrieffer-Heeger dimer model. Following that, we study more complicated systems with trimer unit cells which can be easily simulated with a Rydberg composite.
翻訳日:2023-09-07 15:17:07 公開日:2023-09-06
# 部分スプーフ音声検出のための高効率一時的ディープフェイク位置推定手法に基づく埋め込み

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection ( http://arxiv.org/abs/2309.03036v1 )

ライセンス: Link先を確認
Yuankun Xie, Haonan Cheng, Yutian Wang, Long Ye(参考訳) 部分的にスプーフされた音声検出は難しい作業であり、フレームレベルで音声の真正性を正確に見つける必要がある。 この問題に対処するため,我々は,特徴と位置の情報を効果的に捉えるための,部分的な音声検出手法であるtemporal deepfake location (tdl)を提案する。 具体的には,相似モジュールの埋め込みと時間畳み込み操作という2つの新しい部分を含む。 実際の特徴と偽の特徴の識別を強化するため、埋め込み類似モジュールは、偽のフレームから実際のフレームを分離できる埋め込みスペースを生成するように設計されている。 位置情報を効果的に集中するために、隣接フレーム間のフレーム固有の類似度を算出し、畳み込みを行うために、時間畳み込み操作を提案する。 ASVspoof2019Partial Spoofデータセットでは,提案手法がベースラインモデルより優れており,クロスデータセットシナリオにおいても優れた性能を示している。 コードはオンラインで公開されている。

Partially spoofed audio detection is a challenging task, lying in the need to accurately locate the authenticity of audio at the frame level. To address this issue, we propose a fine-grained partially spoofed audio detection method, namely Temporal Deepfake Location (TDL), which can effectively capture information of both features and locations. Specifically, our approach involves two novel parts: embedding similarity module and temporal convolution operation. To enhance the identification between the real and fake features, the embedding similarity module is designed to generate an embedding space that can separate the real frames from fake frames. To effectively concentrate on the position information, temporal convolution operation is proposed to calculate the frame-specific similarities among neighboring frames, and dynamically select informative neighbors to convolution. Extensive experiments show that our method outperform baseline models in ASVspoof2019 Partial Spoof dataset and demonstrate superior performance even in the crossdataset scenario. The code is released online.
翻訳日:2023-09-07 15:16:49 公開日:2023-09-06
# 多嚢胞性腎臓病の深層学習 : ニューラルネットワークを用いた遺伝子発現解析による精度と早期検出

Deep Learning for Polycystic Kidney Disease: Utilizing Neural Networks for Accurate and Early Detection through Gene Expression Analysis ( http://arxiv.org/abs/2309.03033v1 )

ライセンス: Link先を確認
Kapil Panda, Anirudh Mazumder(参考訳) 多嚢胞性腎疾患(Polycystic Kidney Disease, PKD)は腎臓の嚢胞形成による致命的な合併症を引き起こす可能性があり, PKDの早期発見は病態の効果的な管理に不可欠である。 しかし、診断に役割を果たす様々な患者固有の要因は、臨床医にとって複雑なパズルとなる。 そこで本研究では,早期疾患検出に深層学習を応用したアプローチを提案する。 本発明のニューラルネットワークは、患者の遺伝子発現を解析することにより、患者のPKDの正確かつ堅牢な予測を実現することができる。

With Polycystic Kidney Disease (PKD) potentially leading to fatal complications in patients due to the formation of cysts in the kidneys, early detection of PKD is crucial for effective management of the condition. However, the various patient-specific factors that play a role in the diagnosis make it an intricate puzzle for clinicians to solve. Therefore, in this study, we aim to utilize a deep learning-based approach for early disease detection. The devised neural network can achieve accurate and robust predictions for possible PKD in patients by analyzing patient gene expressions.
翻訳日:2023-09-07 15:16:32 公開日:2023-09-06
# mcm:マルチスセナリオのための多条件モーション合成フレームワーク

MCM: Multi-condition Motion Synthesis Framework for Multi-scenario ( http://arxiv.org/abs/2309.03031v1 )

ライセンス: Link先を確認
Zeyu Ling, Bo Han, Yongkang Wong, Mohan Kangkanhalli, Weidong Geng(参考訳) 多条件人間の動作合成タスクの目的は、テキスト、音楽、音声などの様々な形態を含む多様な条件入力を組み込むことである。 これは、テキストからモーション、音楽からダンスまで、複数のシナリオにまたがって適応する能力でタスクを内包する。 既存の研究は主に単一条件に焦点が当てられているが、マルチ条件の人間の運動生成はいまだに未調査である。 本稿では,様々な条件下で複数のシナリオにまたがる動き合成のパラダイムであるMCMを導入することで,これらの課題に対処する。 MCMフレームワークは、DDPMのような拡散モデルと統合でき、生成能力を保ちながらマルチ条件情報入力に対応できる。 具体的には、MCMはメインブランチとコントロールブランチで構成される2ブランチアーキテクチャを採用している。 制御ブランチは、メインブランチと同じ構造を共有し、メインブランチのパラメータと初期化され、メインブランチの生成能力を効果的に維持し、マルチ条件入力をサポートする。 また,トランスフォーマーを用いた拡散モデルMWNet (DDPM-like) をメインブランチとして導入し,チャネル次元自己アテンションモジュールを用いて移動列の空間的複雑性と接合間相関を捉える。 定量的比較により,本手法はタスク固有の手法に匹敵する,テキスト・ツー・モーションと音楽・ダンスの両タスクの競合的な結果をもたらすことが示された。 さらに, 定性評価により, MCMは, 本来テキスト・トゥ・モーション・タスク用に設計された方法論を, 音楽・ダンス・音声・ジェスチャーなどの領域に適応させるだけでなく, 広範囲なネットワーク再構成の必要性を排除し, 効果的なマルチコンディション・モーダル制御を実現し, 「運動の必要性」を実現する。

The objective of the multi-condition human motion synthesis task is to incorporate diverse conditional inputs, encompassing various forms like text, music, speech, and more. This endows the task with the capability to adapt across multiple scenarios, ranging from text-to-motion and music-to-dance, among others. While existing research has primarily focused on single conditions, the multi-condition human motion generation remains underexplored. In this paper, we address these challenges by introducing MCM, a novel paradigm for motion synthesis that spans multiple scenarios under diverse conditions. The MCM framework is able to integrate with any DDPM-like diffusion model to accommodate multi-conditional information input while preserving its generative capabilities. Specifically, MCM employs two-branch architecture consisting of a main branch and a control branch. The control branch shares the same structure as the main branch and is initialized with the parameters of the main branch, effectively maintaining the generation ability of the main branch and supporting multi-condition input. We also introduce a Transformer-based diffusion model MWNet (DDPM-like) as our main branch that can capture the spatial complexity and inter-joint correlations in motion sequences through a channel-dimension self-attention module. Quantitative comparisons demonstrate that our approach achieves SoTA results in both text-to-motion and competitive results in music-to-dance tasks, comparable to task-specific methods. Furthermore, the qualitative evaluation shows that MCM not only streamlines the adaptation of methodologies originally designed for text-to-motion tasks to domains like music-to-dance and speech-to-gesture, eliminating the need for extensive network re-configurations but also enables effective multi-condition modal control, realizing "once trained is motion need".
翻訳日:2023-09-07 15:16:20 公開日:2023-09-06
# リテラル付き知識グラフ埋め込みのための普遍前処理演算子

Universal Preprocessing Operators for Embedding Knowledge Graphs with Literals ( http://arxiv.org/abs/2309.03023v1 )

ライセンス: Link先を確認
Patryk Preisner, Heiko Paulheim(参考訳) 知識グラフ埋め込みは知識グラフ(KG)内のエンティティの密度の数値表現である。 ほとんどのアプローチはリレーショナル情報、すなわちエンティティ間の関係にのみ焦点を絞っているが、リテラル値(例えば、テキスト記述や数値情報)に関する情報も考慮に入れているアプローチは少ない。 存在するものは典型的にはリテラルの特定のモダリティと特定の埋め込みメソッドに合わせて調整される。 本稿では, 数値, 時間, テキスト, 画像情報のリテラルでKGを変換し, 変換されたKGを任意の手法で埋め込むことのできる, 普遍的な前処理演算子を提案する。 3つの異なる埋め込み法によるkgbenchデータセットの結果は有望な結果を示した。

Knowledge graph embeddings are dense numerical representations of entities in a knowledge graph (KG). While the majority of approaches concentrate only on relational information, i.e., relations between entities, fewer approaches exist which also take information about literal values (e.g., textual descriptions or numerical information) into account. Those which exist are typically tailored towards a particular modality of literal and a particular embedding method. In this paper, we propose a set of universal preprocessing operators which can be used to transform KGs with literals for numerical, temporal, textual, and image information, so that the transformed KGs can be embedded with any method. The results on the kgbench dataset with three different embedding methods show promising results.
翻訳日:2023-09-07 15:15:46 公開日:2023-09-06
# SEAL: 実世界の超解像の体系的評価のためのフレームワーク

SEAL: A Framework for Systematic Evaluation of Real-World Super-Resolution ( http://arxiv.org/abs/2309.03020v1 )

ライセンス: Link先を確認
Wenlong Zhang, Xiaohui Li, Xiangyu Chen, Yu Qiao, Xiao-Ming Wu and Chao Dong(参考訳) 実世界の超解像法(Real-world Super-Resolution, Real-SR)は様々な実世界の画像を扱うことに焦点を当てており、近年注目を集めている。 鍵となるアイデアは、実世界の劣化を模倣するために複雑で高階の分解モデルを使用することである。 彼らは様々なシナリオで印象的な結果を得たが、評価の障害に直面している。 現在、これらの手法は、大きな空間からランダムに選択された少数の分解事例において、平均的な性能によってのみ評価されており、全体的な性能の包括的理解を提供しず、しばしば偏りのある結果をもたらす。 評価の限界を克服するために,実SRを体系的に評価するフレームワークSEALを提案する。 特に,広範囲の劣化空間を集積して代表的な劣化事例を作成し,総合的なテストセットとして機能する。 次に,テストセット上の実SR手法の分散および相対的性能を測定するための粗大な評価プロトコルを提案する。 このプロトコルは、受容率(AR)と相対性能比(RPR)という、受容線と卓越線から派生した2つの新しい指標を含む。 SEALの下では、既存の実SR手法をベンチマークし、その性能に関する新たな観測と洞察を取得し、新しい強力なベースラインを開発する。 我々はSEALを、非バイアスで包括的な評価プラットフォームを構築するための第一歩と考え、実際のSRの開発を促進する。

Real-world Super-Resolution (real-SR) methods focus on dealing with diverse real-world images and have attracted increasing attention in recent years. The key idea is to use a complex and high-order degradation model to mimic real-world degradations. Although they have achieved impressive results in various scenarios, they are faced with the obstacle of evaluation. Currently, these methods are only assessed by their average performance on a small set of degradation cases randomly selected from a large space, which fails to provide a comprehensive understanding of their overall performance and often yields biased results. To overcome the limitation in evaluation, we propose SEAL, a framework for systematic evaluation of real-SR. In particular, we cluster the extensive degradation space to create a set of representative degradation cases, which serves as a comprehensive test set. Next, we propose a coarse-to-fine evaluation protocol to measure the distributed and relative performance of real-SR methods on the test set. The protocol incorporates two new metrics: acceptance rate (AR) and relative performance ratio (RPR), derived from an acceptance line and an excellence line. Under SEAL, we benchmark existing real-SR methods, obtain new observations and insights into their performance, and develop a new strong baseline. We consider SEAL as the first step towards creating an unbiased and comprehensive evaluation platform, which can promote the development of real-SR.
翻訳日:2023-09-07 15:15:32 公開日:2023-09-06
# ベイズニューラルネットワークにおける補正推論

Amortised Inference in Bayesian Neural Networks ( http://arxiv.org/abs/2309.03018v1 )

ライセンス: Link先を確認
Tommy Rochussen(参考訳) メタラーニングは、テスト時に新しいデータセットの予測を生成するために、機械学習モデルをデータセットのセット上でトレーニングするフレームワークである。 確率的メタラーニングは近年、研究コミュニティから多くの注目を集めているが、既存の確率的メタモデルで共有されている問題は、十分な不確実性の推定値を持つ高品質な予測を生成するために、非常に多くのデータセットを必要とすることである。 しかし、多くのアプリケーションでは、そのような大量のデータが利用できない。 この論文では、ベイジアンニューラルネットワークにおけるデータポイント毎の推論の償却を通じて、確率的メタラーニングに対するデータ効率の高いアプローチを示し、amortized pseudo-observation variational inference bayesian neural network (apovi-bnn)を導入する。 まず,本手法で得られた近似後段は,1回のフォワードパスで推定されるにもかかわらず,従来型の変分推論により得られたものと類似あるいは良好な品質を示す。 次に,apovi-bnnをニューラル・プロセス・ファミリの新しいメンバーと見なす方法について議論し,複雑な問題に対する予測性能を向上させるために,ニューラル・プロセス・トレーニングの目的を用いる動機付けを行った。 最後に,APOVI-BNNの1次元回帰問題とさらに複雑な画像補完条件の両方において,他の確率的メタモデルに対する予測性能を評価する。 どちらの場合も、トレーニングデータの量が限られている場合、私たちのモデルはクラスで最高のものです。

Meta-learning is a framework in which machine learning models train over a set of datasets in order to produce predictions on new datasets at test time. Probabilistic meta-learning has received an abundance of attention from the research community in recent years, but a problem shared by many existing probabilistic meta-models is that they require a very large number of datasets in order to produce high-quality predictions with well-calibrated uncertainty estimates. In many applications, however, such quantities of data are simply not available. In this dissertation we present a significantly more data-efficient approach to probabilistic meta-learning through per-datapoint amortisation of inference in Bayesian neural networks, introducing the Amortised Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN). First, we show that the approximate posteriors obtained under our amortised scheme are of similar or better quality to those obtained through traditional variational inference, despite the fact that the amortised inference is performed in a single forward pass. We then discuss how the APOVI-BNN may be viewed as a new member of the neural process family, motivating the use of neural process training objectives for potentially better predictive performance on complex problems as a result. Finally, we assess the predictive performance of the APOVI-BNN against other probabilistic meta-models in both a one-dimensional regression problem and in a significantly more complex image completion setting. In both cases, when the amount of training data is limited, our model is the best in its class.
翻訳日:2023-09-07 15:15:06 公開日:2023-09-06
# 人口移動のためのディアスポラモデル

The diaspora model for human migration ( http://arxiv.org/abs/2309.03070v1 )

ライセンス: Link先を確認
Rafael Prieto-Curiel and Ola Ali and Elma Dervic and Fariba Karimi and Elisa Omodei and Rainer St\"utz and Georg Heiler and Yurij Holovatch(参考訳) 移住の影響は、デモグラフィー、持続可能性、政治、経済、男女格差など様々な社会的側面に及んでいる。 しかし、移民が目的地を選ぶ際の意思決定プロセスはいまだ解明されていない。 既存のモデルは主に人口規模と移動距離に依存しており、かなりの人口の不均一性を見越して流れの変動を説明する。 逆説的に、移民は、その場所にディアスポラが存在する場合、長距離やより小さな目的地にしばしば旅行する。 このギャップに対処するために,我々は,強度(国に移動する人々の数)と多様性(国内の目的地)を組み込んだ移動のダイアスポラモデルを提案する。 本モデルでは,特定の居住地を選択する移民の確率に影響を与えるダイスポラサイズのみを対象とする。 その単純さにもかかわらず、オーストリアとアメリカの大都市圏で観測された移動の安定な流れと分布を正確に再現し、様々な地理的スケールで移民流入の正確な推定値を得る。 近年の自然と社会の危機による国際移住の増加を考えると、この研究は移動の流れの多様性の理解を啓蒙し、より包括的で統合された都市をデザインするのに役立つ。

Migration's impact spans various social dimensions, including demography, sustainability, politics, economy and gender disparities. Yet, the decision-making process behind migrants choosing their destination remains elusive. Existing models primarily rely on population size and travel distance to explain flow fluctuations, overlooking significant population heterogeneities. Paradoxically, migrants often travel long distances and to smaller destinations if their diaspora is present in those locations. To address this gap, we propose the diaspora model of migration, incorporating intensity (the number of people moving to a country) and assortativity (the destination within the country). Our model considers only the existing diaspora sizes in the destination country, influencing the probability of migrants selecting a specific residence. Despite its simplicity, our model accurately reproduces the observed stable flow and distribution of migration in Austria (postal code level) and US metropolitan areas, yielding precise estimates of migrant inflow at various geographic scales. Given the increase in international migrations due to recent natural and societal crises, this study enlightens our understanding of migration flow heterogeneities, helping design more inclusive, integrated cities.
翻訳日:2023-09-07 15:06:57 公開日:2023-09-06
# Twitterにおけるインフルエンサー内容のマルチモーダル分析

A Multimodal Analysis of Influencer Content on Twitter ( http://arxiv.org/abs/2309.03064v1 )

ライセンス: Link先を確認
Danae S\'anchez Villegas, Catalina Goanta, Nikolaos Aletras(参考訳) インフルエンサーマーケティング(インフルエンサーマーケティング)とは、ブランドが人気コンテンツクリエイター(インフルエンサー)と協力し、彼らのリーチ、信頼、そして彼らのオーディエンスに対する製品やサービスを宣伝し、支持する幅広い戦略である。 インフルエンサーのフォロワーは、明示的な直接製品プロモーションではなく、本物の製品推奨を受けた後に商品を購入する傾向が強いため、個人的な意見と商業コンテンツプロモーションの境界線はしばしばぼやけている。 これにより、インフルエンサー広告(例えば、誤解を招く広告や隠れたスポンサーシップ)に関する規制コンプライアンス違反の自動検出が特に困難になる。 In this work, we (1) introduce a new Twitter (now X) dataset consisting of 15,998 influencer posts mapped into commercial and non-commercial categories for assisting in the automatic detection of commercial influencer content; (2) experiment with an extensive set of predictive models that combine text and visual information showing that our proposed cross-attention approach outperforms state-of-the-art multimodal models; and (3) conduct a thorough analysis of strengths and limitations of our models. マルチモーダル・モデリングは、商業投稿の同定、偽陽性の量の減少、未公表の商業投稿の発見に役立つ関連する文脈の把握に有用であることを示す。

Influencer marketing involves a wide range of strategies in which brands collaborate with popular content creators (i.e., influencers) to leverage their reach, trust, and impact on their audience to promote and endorse products or services. Because followers of influencers are more likely to buy a product after receiving an authentic product endorsement rather than an explicit direct product promotion, the line between personal opinions and commercial content promotion is frequently blurred. This makes automatic detection of regulatory compliance breaches related to influencer advertising (e.g., misleading advertising or hidden sponsorships) particularly difficult. In this work, we (1) introduce a new Twitter (now X) dataset consisting of 15,998 influencer posts mapped into commercial and non-commercial categories for assisting in the automatic detection of commercial influencer content; (2) experiment with an extensive set of predictive models that combine text and visual information showing that our proposed cross-attention approach outperforms state-of-the-art multimodal models; and (3) conduct a thorough analysis of strengths and limitations of our models. We show that multimodal modeling is useful for identifying commercial posts, reducing the amount of false positives, and capturing relevant context that aids in the discovery of undisclosed commercial posts.
翻訳日:2023-09-07 15:06:38 公開日:2023-09-06
# cnnとトランスフォーマーを用いたプロンプトベースオールインワン画像復元

Prompt-based All-in-One Image Restoration using CNNs and Transformer ( http://arxiv.org/abs/2309.03063v1 )

ライセンス: Link先を確認
Hu Gao, Jing Yang, Ning Wang, Jingfan Yang, Ying Zhang and Depeng Dang(参考訳) 画像復元は、劣化した観察から高品質な画像を復元することを目的としている。 既存のほとんどの手法は単一劣化除去に特化しているため、実際のシナリオでの応用を満足しない他の種類の劣化に対して最適な結果を得ることはできないかもしれない。 本稿では,複数の画像劣化タスクを効率的に扱えるように,プロンプトベースの学習を活用する新しいデータ成分指向手法を提案する。 具体的には,デコーダを用いて特徴を抽出し,デコーダの劣化に影響を受ける画像の適応的復元を行う。 高品質画像復元のための局所不変特性と非局所情報をモデル化するために, cnns操作とトランスフォーマーを組み合わせた。 同時に,複数のトランスフォーマーブロック(プロンプトによるマルチヘッド再配置注意と単純なゲートフィードフォワードネットワーク)において,計算要件を低減し,潜在的にシャープな画像の効率的な復元を容易にするために,どの情報を透過すべきかを選択的に決定するために,いくつかの重要な設計を行った。 さらに,特徴融合機構を組み込んだマルチスケール情報を探索し,特徴の集約性を向上させる。 その結果,CAPTNetと命名された階層構造は,異なる種類の劣化を扱うように設計されているにも関わらず,広範囲にわたる実験により,本手法がタスク固有アルゴリズムと競合することを示した。

Image restoration aims to recover the high-quality images from their degraded observations. Since most existing methods have been dedicated into single degradation removal, they may not yield optimal results on other types of degradations, which do not satisfy the applications in real world scenarios. In this paper, we propose a novel data ingredient-oriented approach that leverages prompt-based learning to enable a single model to efficiently tackle multiple image degradation tasks. Specifically, we utilize a encoder to capture features and introduce prompts with degradation-specific information to guide the decoder in adaptively recovering images affected by various degradations. In order to model the local invariant properties and non-local information for high-quality image restoration, we combined CNNs operations and Transformers. Simultaneously, we made several key designs in the Transformer blocks (multi-head rearranged attention with prompts and simple-gate feed-forward network) to reduce computational requirements and selectively determines what information should be persevered to facilitate efficient recovery of potentially sharp images. Furthermore, we incorporate a feature fusion mechanism further explores the multi-scale information to improve the aggregated features. The resulting tightly interlinked hierarchy architecture, named as CAPTNet, despite being designed to handle different types of degradations, extensive experiments demonstrate that our method performs competitively to the task-specific algorithms.
翻訳日:2023-09-07 15:06:17 公開日:2023-09-06
# 深層ニューラルネットワークにおける有効でスケーラブルな不確実性定量化のための能動部分空間の学習

Learning Active Subspaces for Effective and Scalable Uncertainty Quantification in Deep Neural Networks ( http://arxiv.org/abs/2309.03061v1 )

ライセンス: Link先を確認
Sanket Jantre, Nathan M. Urban, Xiaoning Qian, Byung-Jun Yoon(参考訳) ニューラルネットワークに対するベイジアン推論(ベイジアンディープラーニング)は、定量化された不確実性と堅牢性を備えたよく校正された予測を提供する可能性がある。 しかし、ベイズ深層学習の主なハードルは、パラメータ空間の高次元性に起因する計算の複雑さである。 本研究では,ニューラルネットワークの出力に最も大きな影響を与えるパラメータ方向を同定することにより,ニューラルネットワークパラメータの低次元部分空間を活性部分空間として参照することで,この制限に対処する新しい手法を提案する。 本研究では, 有効かつスケーラブルなベイズ推定をモンテカルロ(MC)サンプリング法, さもなくば計算に難渋する, あるいは変分推論によって実現することを示す。 実験的に,本手法は様々な回帰タスクに対して確実な不確実性推定を伴う信頼性予測を提供する。

Bayesian inference for neural networks, or Bayesian deep learning, has the potential to provide well-calibrated predictions with quantified uncertainty and robustness. However, the main hurdle for Bayesian deep learning is its computational complexity due to the high dimensionality of the parameter space. In this work, we propose a novel scheme that addresses this limitation by constructing a low-dimensional subspace of the neural network parameters-referred to as an active subspace-by identifying the parameter directions that have the most significant influence on the output of the neural network. We demonstrate that the significantly reduced active subspace enables effective and scalable Bayesian inference via either Monte Carlo (MC) sampling methods, otherwise computationally intractable, or variational inference. Empirically, our approach provides reliable predictions with robust uncertainty estimates for various regression tasks.
翻訳日:2023-09-07 15:05:52 公開日:2023-09-06
# CoLA: 自動かつ効率的な数値線形代数のための構成構造爆発

CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra ( http://arxiv.org/abs/2309.03060v1 )

ライセンス: Link先を確認
Andres Potapczynski, Marc Finzi, Geoff Pleiss, Andrew Gordon Wilson(参考訳) 機械学習と科学の多くの分野は、固有分解、線形システムの解法、行列指数計算、トレース推定などの大きな線形代数問題を含む。 関係する行列はクロネッカー、畳み込み、ブロック対角形、和、積構造を持つことが多い。 本稿では,機械学習における大規模線形代数問題に対して,CoLA(Compositional Linear Algebra)という,単純だが汎用的なフレームワークを提案する。 線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。 さらに、CoLAは、JAXとPyTorchの両方でメモリ効率のよい自動微分、低精度の計算、GPUアクセラレーションを提供すると同時に、新しいオブジェクト、オペレーション、ルールを複数のディスパッチを介して下流パッケージに格納する。 CoLAは、多くの代数演算を加速し、行列構造やアルゴリズムのプロトタイプを容易にし、線形代数を必要とする任意の計算作業に対して魅力的なドロップインツールを提供する。 我々は、偏微分方程式、ガウス過程、同変モデル構築、教師なし学習を含む幅広い応用でその効果を示す。

Many areas of machine learning and science involve large linear algebra problems, such as eigendecompositions, solving linear systems, computing matrix exponentials, and trace estimation. The matrices involved often have Kronecker, convolutional, block diagonal, sum, or product structure. In this paper, we propose a simple but general framework for large-scale linear algebra problems in machine learning, named CoLA (Compositional Linear Algebra). By combining a linear operator abstraction with compositional dispatch rules, CoLA automatically constructs memory and runtime efficient numerical algorithms. Moreover, CoLA provides memory efficient automatic differentiation, low precision computation, and GPU acceleration in both JAX and PyTorch, while also accommodating new objects, operations, and rules in downstream packages via multiple dispatch. CoLA can accelerate many algebraic operations, while making it easy to prototype matrix structures and algorithms, providing an appealing drop-in tool for virtually any computational effort that requires linear algebra. We showcase its efficacy across a broad range of applications, including partial differential equations, Gaussian processes, equivariant model construction, and unsupervised learning.
翻訳日:2023-09-07 15:05:37 公開日:2023-09-06
# hide and seek (has): 迅速なプライバシー保護のための軽量フレームワーク

Hide and Seek (HaS): A Lightweight Framework for Prompt Privacy Protection ( http://arxiv.org/abs/2309.03057v1 )

ライセンス: Link先を確認
Yu Chen, Tingxin Li, Huiming Liu, Yang Yu(参考訳) 多数の企業が大規模言語モデル(llm)に基づくサービスの提供を開始している。chatgptなどでは,ユーザのプロンプトがモデルプロバイダに公開されるため,必然的にプライバシの懸念が高まる。 マルチパーティ計算(MPC)を用いたセキュア推論に関するこれまでの研究は、その時間と通信集約性から、LLMアプリケーションには実用的でないことが証明されている。 軽量な匿名化技術は、置換やマスキングによるプロンプトで個人情報を保護することができるが、LSM生成結果に置換された機密データの回復には失敗する。 本稿では, LLMの返却結果を最小限の計算オーバーヘッドで匿名化するために, 小さな局所モデルを訓練することにより, 匿名化手法の適用シナリオを拡大する。 本稿では,H(ide)" と "S(eek)" の2つのコアプロセスである,匿名化のためのプライベートエンティティの隠蔽と,匿名化のためのプライベートエンティティの検索を行うHaSフレームワークを紹介する。 本研究では,HaSのプライバシー保護性能を定量的に評価するために,ブラックボックスモデルとホワイトボックスモデルの両方を提案する。 さらに,翻訳および分類作業におけるHaSのユーザビリティを評価する実験を行った。 実験の結果,HaSフレームワークはプライバシー保護とユーティリティの最適なバランスを実現することがわかった。

Numerous companies have started offering services based on large language models (LLM), such as ChatGPT, which inevitably raises privacy concerns as users' prompts are exposed to the model provider. Previous research on secure reasoning using multi-party computation (MPC) has proven to be impractical for LLM applications due to its time-consuming and communication-intensive nature. While lightweight anonymization techniques can protect private information in prompts through substitution or masking, they fail to recover sensitive data replaced in the LLM-generated results. In this paper, we expand the application scenarios of anonymization techniques by training a small local model to de-anonymize the LLM's returned results with minimal computational overhead. We introduce the HaS framework, where "H(ide)" and "S(eek)" represent its two core processes: hiding private entities for anonymization and seeking private entities for de-anonymization, respectively. To quantitatively assess HaS's privacy protection performance, we propose both black-box and white-box adversarial models. Furthermore, we conduct experiments to evaluate HaS's usability in translation and classification tasks. The experimental findings demonstrate that the HaS framework achieves an optimal balance between privacy protection and utility.
翻訳日:2023-09-07 15:05:18 公開日:2023-09-06
# 量子チャネルのリンク積の希釈、判別とウルマンの定理

Dilation, Discrimination and Uhlmann's Theorem of Link Products of Quantum Channels ( http://arxiv.org/abs/2309.03052v1 )

ライセンス: Link先を確認
Qiang Lei, Liuheng Cao, Asutosh Kumar, Junde Wu(参考訳) 量子チャネルの研究は、量子情報と量子通信理論における最も基本的な理論的問題である。 量子チャネルのリンク積理論は、量子ネットワークを研究するための重要なツールである。 本稿では,量子チャネルのリンク積のスティネスプリング拡張定理を2つの異なる方法で確立し,量子チャネルの識別を議論し,nが成長するにつれて各量子チャネルをn倍自己リンクすることで識別性を向上させることができることを示す。 また、uhlmannの定理の最大値は対角線チャネルに対して達成可能であることも判明した。

The study of quantum channels is the most fundamental theoretical problem in quantum information and quantum communication theory. The link product theory of quantum channels is an important tool for studying quantum networks. In this paper, we establish the Stinespring dilation theorem of the link product of quantum channels in two different ways, discuss the discrimination of quantum channels and show that the distinguishability can be improved by self-linking each quantum channel n times as n grows. We also find that the maximum value of Uhlmann's theorem can be achieved for diagonal channels.
翻訳日:2023-09-07 15:04:56 公開日:2023-09-06
# Adaptive Growth: リアルタイムCNN層の拡大

Adaptive Growth: Real-time CNN Layer Expansion ( http://arxiv.org/abs/2309.03049v1 )

ライセンス: Link先を確認
Yunjie Zhu and Yunhao Chen(参考訳) ディープニューラルネットワーク(DNN)は、膨大なデータセット管理の習熟度を反映して、多くのアプリケーションで非並列的な成果を示している。 しかし、静的構造は、常に変化する環境における適応性を制限する。 本研究では、畳み込みニューラルネットワーク(CNN)の畳み込み層をデータ入力に基づいて動的に進化させながら、既存のDNNにシームレスに統合する新しいアルゴリズムを提案する。 厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。 このプロセスは、層が画像の特徴を識別し、成長を導く能力を評価することで洗練される。 私たちの教師なしの手法は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100といったさまざまなデータセットにまたがっている。 また、トランスファー学習シナリオにおける適応性の向上も示す。 データ駆動モデルのスケーラビリティ戦略を導入することで、ディープラーニングにおける空白を埋め、動的設定に適したより柔軟で効率的なDNNを実現しています。 コード: (https://github.com/YunjieZhu/Extensible-Convolutional-Layer-git-version)。

Deep Neural Networks (DNNs) have shown unparalleled achievements in numerous applications, reflecting their proficiency in managing vast data sets. Yet, their static structure limits their adaptability in ever-changing environments. This research presents a new algorithm that allows the convolutional layer of a Convolutional Neural Network (CNN) to dynamically evolve based on data input, while still being seamlessly integrated into existing DNNs. Instead of a rigid architecture, our approach iteratively introduces kernels to the convolutional layer, gauging its real-time response to varying data. This process is refined by evaluating the layer's capacity to discern image features, guiding its growth. Remarkably, our unsupervised method has outstripped its supervised counterparts across diverse datasets like MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100. It also showcases enhanced adaptability in transfer learning scenarios. By introducing a data-driven model scalability strategy, we are filling a void in deep learning, leading to more flexible and efficient DNNs suited for dynamic settings. Code:(https://github.com/YunjieZhu/Extensible-Convolutional-Layer-git-version).
翻訳日:2023-09-07 15:04:45 公開日:2023-09-06
# 手術用データ生成のための非ペア画像翻訳における意味的一貫性の検討

Exploring Semantic Consistency in Unpaired Image Translation to Generate Data for Surgical Applications ( http://arxiv.org/abs/2309.03048v1 )

ライセンス: Link先を確認
Danush Kumar Venkatesh, Dominik Rivior, Micha Pfeiffer, Fiona Kolbinger, Marius Distler, J\"urgen Weitz, Stefanie Speidel(参考訳) 手術用コンピュータビジョンアプリケーションでは,データプライバシーの懸念と専門家のアノテーションの必要性から,ラベル付きトレーニングデータの取得が困難である。 合成画像をリアルな領域に翻訳することで,大規模な注釈付きデータセットを自動生成する。 しかし、入力画像と変換画像の間の構造と意味的一貫性を維持することは、主にドメインの意味的特徴に分布的ミスマッチがある場合に、大きな課題となる。 本研究は外科的応用において適切なデータを生成するための非ペア画像変換法を実験的に検討し,意味的一貫性に着目した。 2つの難易度の高い手術用データセットと下流意味セグメンテーションタスクにおいて,様々な最先端画像翻訳モデルを広範囲に評価した。 構造相似性損失と対照的学習の単純な組み合わせは、最も有望な結果をもたらす。 定量的に,本手法により生成されたデータにより意味的一貫性が向上し,トレーニングデータとしてより効果的に利用できることを示す。

In surgical computer vision applications, obtaining labeled training data is challenging due to data-privacy concerns and the need for expert annotation. Unpaired image-to-image translation techniques have been explored to automatically generate large annotated datasets by translating synthetic images to the realistic domain. However, preserving the structure and semantic consistency between the input and translated images presents significant challenges, mainly when there is a distributional mismatch in the semantic characteristics of the domains. This study empirically investigates unpaired image translation methods for generating suitable data in surgical applications, explicitly focusing on semantic consistency. We extensively evaluate various state-of-the-art image translation models on two challenging surgical datasets and downstream semantic segmentation tasks. We find that a simple combination of structural-similarity loss and contrastive learning yields the most promising results. Quantitatively, we show that the data generated with this approach yields higher semantic consistency and can be used more effectively as training data.
翻訳日:2023-09-07 15:04:24 公開日:2023-09-06
# 領域外検出のための事前学習型視覚変換器とCIDERの組み合わせ

Combining pre-trained Vision Transformers and CIDER for Out Of Domain Detection ( http://arxiv.org/abs/2309.03047v1 )

ライセンス: Link先を確認
Gr\'egor Jouet, Cl\'ement Duhart, Francis Rousseaux, Julio Laborde, Cyril de Runz(参考訳) ドメイン外検出(OOD)は、トレーニングディストリビューションの外にある入力にモデルがいつ遭遇するかを特定するのに役立つため、産業アプリケーションにおいて重要なコンポーネントである。 ほとんどの産業パイプラインは、cnnやvision transformersのような下流タスクのために事前訓練されたモデルに依存している。 本稿では,ドメイン外検出におけるモデルの性能について検討する。 実験により,事前学習したトランスモデルにより,箱から高い検出性能が得られることを示した。 さらに,事前学習したVTとCNNをCIDERなどの改良手法と組み合わせることで,OOD検出性能をさらに向上できることを示す。 以上の結果から,トランスフォーマーはOOD検出に有望なアプローチであり,多くの文脈において,このタスクのベースラインがより強固に設定されていることが示唆された。

Out-of-domain (OOD) detection is a crucial component in industrial applications as it helps identify when a model encounters inputs that are outside the training distribution. Most industrial pipelines rely on pre-trained models for downstream tasks such as CNN or Vision Transformers. This paper investigates the performance of those models on the task of out-of-domain detection. Our experiments demonstrate that pre-trained transformers models achieve higher detection performance out of the box. Furthermore, we show that pre-trained ViT and CNNs can be combined with refinement methods such as CIDER to improve their OOD detection performance even more. Our results suggest that transformers are a promising approach for OOD detection and set a stronger baseline for this task in many contexts
翻訳日:2023-09-07 15:04:07 公開日:2023-09-06
# コントラストWSD:メタファー同定法による単語センスの曖昧化によるメタファー検出の促進

ContrastWSD: Enhancing Metaphor Detection with Word Sense Disambiguation Following the Metaphor Identification Procedure ( http://arxiv.org/abs/2309.03103v1 )

ライセンス: Link先を確認
Mohamad Elzohbi, Richard Zhao(参考訳) 本稿では,メタファ識別手順 (mip) と単語感覚不曖昧さ (wsd) を統合し,文脈的意味と単語の基本意味を抽出・対比し,文中でメタファとして使用されるか否かを判断する,robertaベースのメタファ検出モデルであるcon contrastwsdを提案する。 WSDモデルから派生した単語感覚を利用することで、メタファ検出プロセスを強化し、コンテキスト埋め込みのみに依存したり、基本的な定義や外部知識のみを統合する他の手法より優れています。 我々は,様々なベンチマークデータセットに対するアプローチを評価し,それを強力なベースラインと比較し,メタファ検出の促進効果を示す。

This paper presents ContrastWSD, a RoBERTa-based metaphor detection model that integrates the Metaphor Identification Procedure (MIP) and Word Sense Disambiguation (WSD) to extract and contrast the contextual meaning with the basic meaning of a word to determine whether it is used metaphorically in a sentence. By utilizing the word senses derived from a WSD model, our model enhances the metaphor detection process and outperforms other methods that rely solely on contextual embeddings or integrate only the basic definitions and other external knowledge. We evaluate our approach on various benchmark datasets and compare it with strong baselines, indicating the effectiveness in advancing metaphor detection.
翻訳日:2023-09-07 14:59:04 公開日:2023-09-06
# FArMARe: 利用者の関心に基づく集合住宅の推薦のための家具対応マルチタスク手法

FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests ( http://arxiv.org/abs/2309.03100v1 )

ライセンス: Link先を確認
Ali Abdari, Alex Falcon, Giuseppe Serra(参考訳) 今日では、多くの人が新しい宿泊オプションを検索しなければならない。 適切なアパートを探すのは時間を要するプロセスであり、特に訪問はウェブで見られる広告の真偽を評価するのにしばしば必須である。 このプロセスはメタバースのアパートを訪れることで緩和できるが、Webベースのレコメンデーションプラットフォームはそのタスクには適さない。 この欠点に対処するため,本稿では,利用者の関心を表わすテキストクエリとの関連性に基づいて,アパートのランク付けを要求されるテキスト・ツー・アパートメント・レコメンデーションという新たな課題を定義した。 この問題を解決するために,家具を意識したクロスモーダルコントラストトレーニングを支援するマルチタスクアプローチであるFArMAReを導入する。 屋内シーンに関する公開データセットには家具の詳細な記述がないため,6000以上の集合住宅からなるデータセットを収集・注釈する。 3つの異なる方法と2つの生の特徴抽出法による徹底的な実験により、FArMAReが手前の問題に対処する効果が示された。

Nowadays, many people frequently have to search for new accommodation options. Searching for a suitable apartment is a time-consuming process, especially because visiting them is often mandatory to assess the truthfulness of the advertisements found on the Web. While this process could be alleviated by visiting the apartments in the metaverse, the Web-based recommendation platforms are not suitable for the task. To address this shortcoming, in this paper, we define a new problem called text-to-apartment recommendation, which requires ranking the apartments based on their relevance to a textual query expressing the user's interests. To tackle this problem, we introduce FArMARe, a multi-task approach that supports cross-modal contrastive training with a furniture-aware objective. Since public datasets related to indoor scenes do not contain detailed descriptions of the furniture, we collect and annotate a dataset comprising more than 6000 apartments. A thorough experimentation with three different methods and two raw feature extraction procedures reveals the effectiveness of FArMARe in dealing with the problem at hand.
翻訳日:2023-09-07 14:58:50 公開日:2023-09-06
# ORL-AUDITOR:オフライン深層強化学習におけるデータセット監査

ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2309.03081v1 )

ライセンス: Link先を確認
Linkang Du, Min Chen, Mingyang Sun, Shouling Ji, Peng Cheng, Jiming Chen, Zhikun Zhang(参考訳) 高品質なデータセットは機械学習モデルの性能を大幅に向上させることができるため、データはAIにおいて重要な資産である。 自動運転車のような安全クリティカルな領域では、オフラインの深層学習(オフラインDRL)が、オンラインDRLとして現実の環境と対話することによってこれらのモデルをトレーニングするのとは対照的に、事前に収集したデータセット上でモデルをトレーニングするために頻繁に使用される。 これらのモデルの開発をサポートするため、多くの機関はデータセットをオープンソースライセンスで公開しているが、これらのデータセットは誤用や侵害の恐れがある。 データセットにウォーターマークを注入することは、データの知的財産を保護できるが、すでに公開されており、その後変更できないデータセットを扱うことはできない。 データセット推論やメンバシップ推論といった既存のソリューションは、さまざまなモデル振る舞い特性とオフライン設定制約のため、オフラインDRLシナリオではうまく機能しない。 本稿では、累積報酬が特定のデータセット上で訓練されたDRLモデルを識別するユニークな識別子として機能するという事実を活用して、新しいパラダイムを提唱する。 この目的のために、オフラインRLシナリオのための最初の軌道レベルのデータセット監査機構であるORL-AUDITORを提案する。 複数のオフラインDRLモデルとタスクに対する実験により、監査精度が95%以上、偽陽性率が2.88%未満であるORL-AUDITORの有効性が示された。 また,ORL-AUDITORの実践的実装について,様々なパラメータ設定を研究することで,貴重な知見を提供する。 さらに,GoogleとDeepMindのオープンソースデータセットに対するORL-AUDITORの監査機能についても紹介し,公開データセットの監査の有効性を強調した。 ORL-AUDITORはhttps://github.com/link-zju/ORL-Auditorでオープンソース化されている。

Data is a critical asset in AI, as high-quality datasets can significantly improve the performance of machine learning models. In safety-critical domains such as autonomous vehicles, offline deep reinforcement learning (offline DRL) is frequently used to train models on pre-collected datasets, as opposed to training these models by interacting with the real-world environment as the online DRL. To support the development of these models, many institutions make datasets publicly available with opensource licenses, but these datasets are at risk of potential misuse or infringement. Injecting watermarks to the dataset may protect the intellectual property of the data, but it cannot handle datasets that have already been published and is infeasible to be altered afterward. Other existing solutions, such as dataset inference and membership inference, do not work well in the offline DRL scenario due to the diverse model behavior characteristics and offline setting constraints. In this paper, we advocate a new paradigm by leveraging the fact that cumulative rewards can act as a unique identifier that distinguishes DRL models trained on a specific dataset. To this end, we propose ORL-AUDITOR, which is the first trajectory-level dataset auditing mechanism for offline RL scenarios. Our experiments on multiple offline DRL models and tasks reveal the efficacy of ORL-AUDITOR, with auditing accuracy over 95% and false positive rates less than 2.88%. We also provide valuable insights into the practical implementation of ORL-AUDITOR by studying various parameter settings. Furthermore, we demonstrate the auditing capability of ORL-AUDITOR on open-source datasets from Google and DeepMind, highlighting its effectiveness in auditing published datasets. ORL-AUDITOR is open-sourced at https://github.com/link-zju/ORL-Auditor.
翻訳日:2023-09-07 14:57:11 公開日:2023-09-06
# GPT-InvestAR:大規模言語モデルによる年次報告分析による株式投資戦略の強化

GPT-InvestAR: Enhancing Stock Investment Strategies through Annual Report Analysis with Large Language Models ( http://arxiv.org/abs/2309.03079v1 )

ライセンス: Link先を確認
Udit Gupta(参考訳) 上場企業の年次報告書には、同社の株価への影響を評価するのに役立つ財務状態に関する重要な情報が含まれている。 これらのレポートは本質的に包括的で、時には100ページを超えることもある。 これらのレポートの分析は、存在する企業の全宇宙を言うまでもなく、単一の会社でも面倒です。 長年にわたり、金融の専門家はこれらの文書から価値ある情報を引き出すのに熟達してきた。 しかし、これは長年の練習と経験を必要とする。 本稿では,Large Language Models (LLMs) の機能を活用して,全企業の年次報告書評価のプロセスを簡素化することを目的とする。 LLMが生成した洞察は、Quantスタイルのデータセットにコンパイルされ、過去の株価データによって拡張される。 機械学習モデルは、LLM出力を機能としてトレーニングする。 ウォークフォワード試験の結果、S&P500リターンが期待できる性能を示した。 本稿では,この方向で今後の作業のための枠組みについて述べる。 これを容易にするため、コードはオープンソースとしてリリースされた。

Annual Reports of publicly listed companies contain vital information about their financial health which can help assess the potential impact on Stock price of the firm. These reports are comprehensive in nature, going up to, and sometimes exceeding, 100 pages. Analysing these reports is cumbersome even for a single firm, let alone the whole universe of firms that exist. Over the years, financial experts have become proficient in extracting valuable information from these documents relatively quickly. However, this requires years of practice and experience. This paper aims to simplify the process of assessing Annual Reports of all the firms by leveraging the capabilities of Large Language Models (LLMs). The insights generated by the LLM are compiled in a Quant styled dataset and augmented by historical stock price data. A Machine Learning model is then trained with LLM outputs as features. The walkforward test results show promising outperformance wrt S&P500 returns. This paper intends to provide a framework for future work in this direction. To facilitate this, the code has been released as open source.
翻訳日:2023-09-07 14:56:41 公開日:2023-09-06
# ニューラルネットワークを用いた外惑星大気の圧力-温度分布のパラメータ化

Parameterizing pressure-temperature profiles of exoplanet atmospheres with neural networks ( http://arxiv.org/abs/2309.03075v1 )

ライセンス: Link先を確認
Timothy D. Gebhard and Daniel Angerhausen and Bj\"orn S. Konrad and Eleonora Alei and Sascha P. Quanz and Bernhard Sch\"olkopf(参考訳) 太陽系外惑星の大気探査(AR)は通常、観測スペクトルから大気特性を推定するためにベイズ推定法とフォワードシミュレータの組み合わせに依存している。 スペクトルをシミュレートする重要な要素は、大気の熱構造を記述する圧力温度(pt)プロファイルである。 現在のARパイプラインでは、取得したPTプロファイルを単純な近似に制限するアドホックフィッティング関数が一般的だが、それでも比較的多くのパラメータを使用する。 そこで本研究では,ptプロファイルの機能形式に関する明示的な仮定を必要とせず,既存の手法よりもパラメータの少ない,物理的に一貫性のあるptプロファイルに対して,概念的に新しいデータ駆動型パラメータ化スキームを導入する。 我々のアプローチは、関数(ptプロファイル)上の分布を学習する潜在変数モデル(ニューラルネットワークに基づく)から成り立っている。 各プロファイルは低次元ベクトルで表現され、$P$から$T$にマップするデコーダネットワークを条件にすることができる。 自己整合性PTプロファイルの2つの公開データセット上で,本手法をトレーニングし,評価すると,パラメータが少ないにもかかわらず,従来のベースライン手法よりも平均して品質がよいことがわかった。 既存の文献に基づくARでは、我々のモデル(2つのパラメータを使用する)は5パラメータ多項式ベースラインよりもPTプロファイルのより厳密で正確な後部を生成すると同時に、検索を3倍以上に高速化する。 物理的に一貫したPTプロファイルへのパラメトリックアクセスを提供し、PTプロファイルを記述するのに必要なパラメータの数を減らし(計算コストを削減したり、興味のある追加パラメータのリソースを解放することで)、我々の手法はARの改善に役立ち、太陽系外惑星の大気とその居住性を理解するのに役立つ。

Atmospheric retrievals (AR) of exoplanets typically rely on a combination of a Bayesian inference technique and a forward simulator to estimate atmospheric properties from an observed spectrum. A key component in simulating spectra is the pressure-temperature (PT) profile, which describes the thermal structure of the atmosphere. Current AR pipelines commonly use ad hoc fitting functions here that limit the retrieved PT profiles to simple approximations, but still use a relatively large number of parameters. In this work, we introduce a conceptually new, data-driven parameterization scheme for physically consistent PT profiles that does not require explicit assumptions about the functional form of the PT profiles and uses fewer parameters than existing methods. Our approach consists of a latent variable model (based on a neural network) that learns a distribution over functions (PT profiles). Each profile is represented by a low-dimensional vector that can be used to condition a decoder network that maps $P$ to $T$. When training and evaluating our method on two publicly available datasets of self-consistent PT profiles, we find that our method achieves, on average, better fit quality than existing baseline methods, despite using fewer parameters. In an AR based on existing literature, our model (using two parameters) produces a tighter, more accurate posterior for the PT profile than the five-parameter polynomial baseline, while also speeding up the retrieval by more than a factor of three. By providing parametric access to physically consistent PT profiles, and by reducing the number of parameters required to describe a PT profile (thereby reducing computational cost or freeing resources for additional parameters of interest), our method can help improve AR and thus our understanding of exoplanet atmospheres and their habitability.
翻訳日:2023-09-07 14:56:18 公開日:2023-09-06
# 文字クエリ: オンライン手書き文字セグメンテーションへのトランスフォーマーベースのアプローチ

Character Queries: A Transformer-based Approach to On-Line Handwritten Character Segmentation ( http://arxiv.org/abs/2309.03072v1 )

ライセンス: Link先を確認
Michael Jungo, Beat Wolf, Andrii Maksai, Claudiu Musat and Andreas Fischer(参考訳) オンライン手書き文字セグメンテーションは手書き認識と関連づけられることが多く、認識モデルには認識プロセス中に関連位置を特定する機構が含まれているが、正確なセグメンテーションを作成するには不十分である。 認識からセグメンテーションを分離することは、認識の結果をさらに活用する可能性を解き放つ。 具体的には、文字分割がスタイラス軌跡のサンプリング点とテキスト中の文字間の代入問題となる場合に、予め転写が知られているシナリオに焦点を当てる。 k$-meansクラスタリングアルゴリズムに触発されて、クラスタ割り当ての観点から見て、各クラスタがtransformerデコーダブロック内の学習された文字クエリに基づいて形成される、transformerベースのアーキテクチャを提案する。 本手法の質を評価するために,2つのオンライン手書きデータセット,iam-ondb と hands-vnondb の文字セグメンテーション基底真理を作成し,その上で複数の手法を評価し,提案手法が全体的な結果を達成することを示す。

On-line handwritten character segmentation is often associated with handwriting recognition and even though recognition models include mechanisms to locate relevant positions during the recognition process, it is typically insufficient to produce a precise segmentation. Decoupling the segmentation from the recognition unlocks the potential to further utilize the result of the recognition. We specifically focus on the scenario where the transcription is known beforehand, in which case the character segmentation becomes an assignment problem between sampling points of the stylus trajectory and characters in the text. Inspired by the $k$-means clustering algorithm, we view it from the perspective of cluster assignment and present a Transformer-based architecture where each cluster is formed based on a learned character query in the Transformer decoder block. In order to assess the quality of our approach, we create character segmentation ground truths for two popular on-line handwriting datasets, IAM-OnDB and HANDS-VNOnDB, and evaluate multiple methods on them, demonstrating that our approach achieves the overall best results.
翻訳日:2023-09-07 14:55:16 公開日:2023-09-06
# リスク低減設計と運用ツールキット: 意思決定問題におけるリスクと不確実性を管理する90の戦略

Risk-reducing design and operations toolkit: 90 strategies for managing risk and uncertainty in decision problems ( http://arxiv.org/abs/2309.03133v1 )

ライセンス: Link先を確認
Alexander Gutfraind(参考訳) 不確実性は意思決定分析において広範囲にわたる課題であり、決定理論は確率論的モデルと認知ヒューリスティックの2つのクラスの解を認識する。 しかし、エンジニア、パブリックプランナー、その他の意思決定者はRDOT(Risk-Reducing Design and Operations Toolkit)と呼ばれる第3の戦略を使用する。 これには、設計への堅牢性の導入、偶発的計画、そして確率モデルや認知的ヒューリスティックのカテゴリに属さない他のものが含まれる。 さらに、同じ戦略がいくつかの領域や分野に現れ、重要な共有ツールキットを指し示している。 本稿の焦点は,そのような戦略のカタログを作成し,それらのフレームワークを開発することである。 これらの戦略の90以上の例を6つの幅広いカテゴリに分類し、高い不確実性のために難解と思われる決定問題に対する効率的な対応を提供すると主張している。 次に、マルチ目的最適化を用いて決定理論にそれらを組み込むフレームワークを提案する。 全体的なRDOTは、不確実性に対する見過ごされた応答のクラスを表している。 RDOT戦略は正確な予測や推定に依存しないため、高い不確実性によって影響を受ける特定の決定問題に対して実効的に適用でき、より魅力的にすることができる。

Uncertainty is a pervasive challenge in decision analysis, and decision theory recognizes two classes of solutions: probabilistic models and cognitive heuristics. However, engineers, public planners and other decision-makers instead use a third class of strategies that could be called RDOT (Risk-reducing Design and Operations Toolkit). These include incorporating robustness into designs, contingency planning, and others that do not fall into the categories of probabilistic models or cognitive heuristics. Moreover, identical strategies appear in several domains and disciplines, pointing to an important shared toolkit. The focus of this paper is to develop a catalog of such strategies and develop a framework for them. The paper finds more than 90 examples of such strategies falling into six broad categories and argues that they provide an efficient response to decision problems that are seemingly intractable due to high uncertainty. It then proposes a framework to incorporate them into decision theory using multi-objective optimization. Overall, RDOT represents an overlooked class of responses to uncertainty. Because RDOT strategies do not depend on accurate forecasting or estimation, they could be applied fruitfully to certain decision problems affected by high uncertainty and make them much more tractable.
翻訳日:2023-09-07 14:47:11 公開日:2023-09-06
# myoDex: Dexterous Manipulationの一般的なプリミティブ

MyoDex: A Generalizable Prior for Dexterous Manipulation ( http://arxiv.org/abs/2309.03130v1 )

ライセンス: Link先を確認
Vittorio Caggiano, Sudeep Dasari, Vikash Kumar(参考訳) 人間の器用さはモーターコントロールの目印です。 筋骨格感覚運動回路の複雑さ(多関節および多関節23関節を40筋以上で制御する)にもかかわらず、手は迅速に新しい動作を合成することができる。 この作業では、人間のデクスタリティが、ひとつのタスクによって獲得されるのではなく、以前の経験の多様性に基づいてどのように構築されるかからインスピレーションを得ます。 この観察に動機づけられた我々は、以前の経験に基づいて、新しい(以前は達成不可能だった)振る舞いを迅速に取得できるエージェントの開発に着手した。 具体的には,マルチタスク学習を用いて,生理学的に現実的な人間の手モデルであるmyohandを用いて,タスク非依存行動前駆者(myodex)を暗黙的に捉えた。 マイオデックスは, 数発の一般化や, 目立たない操作タスクの大きなレパートリーへの正の移動において, 有効性を示す。 myoDexを利用するエージェントは、蒸留ベースラインに比べて約3倍、約4倍高速なタスクを解くことができる。 先行研究は単一の筋骨格制御行動を合成するが、ミオデックスは、様々な接触豊富な行動を通じて偶発的な生理学的制御の学習を触媒する最初の一般化された操作である。 また,24自由度ハンドのデクスタリティ獲得に向けた筋骨格制御を超えて,我々のパラダイムの有効性を実証する。 Webサイト: https://sites.google.com/view/myodex

Human dexterity is a hallmark of motor control. Our hands can rapidly synthesize new behaviors despite the complexity (multi-articular and multi-joints, with 23 joints controlled by more than 40 muscles) of musculoskeletal sensory-motor circuits. In this work, we take inspiration from how human dexterity builds on a diversity of prior experiences, instead of being acquired through a single task. Motivated by this observation, we set out to develop agents that can build upon their previous experience to quickly acquire new (previously unattainable) behaviors. Specifically, our approach leverages multi-task learning to implicitly capture task-agnostic behavioral priors (MyoDex) for human-like dexterity, using a physiologically realistic human hand model - MyoHand. We demonstrate MyoDex's effectiveness in few-shot generalization as well as positive transfer to a large repertoire of unseen dexterous manipulation tasks. Agents leveraging MyoDex can solve approximately 3x more tasks, and 4x faster in comparison to a distillation baseline. While prior work has synthesized single musculoskeletal control behaviors, MyoDex is the first generalizable manipulation prior that catalyzes the learning of dexterous physiological control across a large variety of contact-rich behaviors. We also demonstrate the effectiveness of our paradigms beyond musculoskeletal control towards the acquisition of dexterity in 24 DoF Adroit Hand. Website: https://sites.google.com/view/myodex
翻訳日:2023-09-07 14:46:50 公開日:2023-09-06
# マヨラナフェルミオンと分数トポロジーと乱れを持つ量子情報

Majorana fermions and quantum information with fractional topology and disorder ( http://arxiv.org/abs/2309.03127v1 )

ライセンス: Link先を確認
Ephraim Bernhardt, Brian Chung Hang Cheung, Karyn Le Hur(参考訳) 物理学や凝縮物質系におけるマヨラナフェルミオンの同定と観測の探求は依然として重要な課題である。 ここでは、分数半の位相状態におけるブロッホ球面上の2つのスピン1/2のモデルにおいて、2つの非局在化されたゼロエネルギーマヨルダナフェルミオンの発生から量子ビット(スピン1/2)を導入する。 我々は、円偏光と量子情報プロトコルに関連するスピン1/2状態の保護により、時間内の特定のプロトコルに対処する。 我々はまた、障害が一重項-三重項遷移を許容し、分数相に対する追加の伸長領域を生じさせ、このプラットフォームがトポロジ的に保護された量子情報に応用される可能性を示す。

The quest to identify and observe Majorana fermions in physics and condensed-matter systems remains an important challenge. Here, we introduce a qubit (spin-1/2) from the occurrence of two delocalized zero-energy Majorana fermions in a model of two spins-1/2 on the Bloch sphere within the fractional one-half topological state. We address specific protocols in time with circularly polarized light and the protection of this spin-1/2 state related to quantum information protocols. We also show how disorder can play a positive and important role allowing singlet-triplet transitions and resulting in an additional elongated region for the fractional phase, demonstrating the potential of this platform related to applications in topologically protected quantum information.
翻訳日:2023-09-07 14:46:26 公開日:2023-09-06
# 誰でもリワードを保存する: カスタマイズされた人間の選好を学ぶ

Everyone Deserves A Reward: Learning Customized Human Preferences ( http://arxiv.org/abs/2309.03126v1 )

ライセンス: Link先を確認
Pengyu Cheng, Jiawen Xie, Ke Bai, Yong Dai, Nan Du(参考訳) リワードモデル(RM)は、大きな言語モデル(LLM)と人間の好みを整合させることで、相互作用の品質を向上させるのに不可欠である。 しかし、現実の世界は多元的であり、異なる宗教、政治、文化などに基づく人間の嗜好の多様化につながる。 さらに、各個人は様々なトピックに対して独自の好みを持つことができる。 人間の好みの多様性を無視して、現在のLLMトレーニングプロセスでは、カスタマイズされたアプリケーションシナリオやパーソナライズされたアプリケーションシナリオに対する満足度よりも低い一般的な報酬モデルのみを使用します。 カスタマイズされた嗜好学習を探索するため、ドメイン固有選好(DSP)データセットを収集し、4つの実践的ドメインから各クエリに対する好みの応答を収集する。 さらに,データ効率の観点から,一般的な嗜好データセットとDSPデータセットの両方で有効性を実証的に検証した3段階のRM学習手法を提案する。 さらに,3つの学習段階において複数のトレーニングとデータ戦略をテストし,カスタマイズされたrms,特に一般選好エンリッチメントとカスタマイズ選好模倣学習を訓練しながら,一般選好能力をより良く維持する方法を見出した。 DSPデータセットとコードはhttps://github.com/Linear95/DSPで公開されている。

Reward models (RMs) are crucial in aligning large language models (LLMs) with human preferences for improving interaction quality. However, the real world is pluralistic, which leads to diversified human preferences based on different religions, politics, cultures, etc. Moreover, each individual can have their own unique preferences on various topics. Neglecting the diversity of human preferences, current LLM training processes only use a general reward model, which is below satisfaction for customized or personalized application scenarios. To explore customized preference learning, we collect a domain-specific preference (DSP) dataset, which collects preferred responses to each given query from four practical domains. Besides, from the perspective of data efficiency, we proposed a three-stage customized RM learning scheme, whose effectiveness is empirically verified on both general preference datasets and our DSP set. Furthermore, we test multiple training and data strategies on the three learning stages, and have found several ways to better preserve the general preferring ability while training the customized RMs, especially general preference enrichment and customized preference imitation learning. The DSP dataset and code are available at https://github.com/Linear95/DSP.
翻訳日:2023-09-07 14:46:12 公開日:2023-09-06
# 窒素空孔電子スピン欠陥の制御可能性限界の定量化

Quantifying the limits of controllability for the nitrogen-vacancy electron spin defect ( http://arxiv.org/abs/2309.03120v1 )

ライセンス: Link先を確認
Paul Kairys, Jonathan C. Marcks, Nazar Delegan, Jiefei Zhang, David D. Awschalom, F. Joseph Heremans(参考訳) ダイヤモンドの窒素空孔中心のような固体電子スピン量子ビットは、感度を高めデバイスコヒーレンスを改善するために集団反転の制御配列に依存する。 しかし、このパラダイムシステムでさえ、集団反転の基本的な限界と量子センシングのような応用に対する潜在的な影響は定量的に評価されていない。 ここでは、隣接する核スピンの明示的なユニタリシミュレーションを含む、回転波近似を超える高精度シミュレーションを行う。 量子最適制御を用いて、スピン-1基底状態内の量子ビット部分空間の制御のための解析パルスを同定し、パルス複雑性、制御時間、忠実度の関係を定量化する。 制御期間を短縮した振幅と帯域幅の指数関数的に増大し,サブナノ秒の集団インバージョンを用いたマルチパルス列に対する非マルコフ効果の出現をさらに定量化する。 このことから、電子スピンと核スピン環境のコヒーレントな相互作用により、忠実性と非マルコフ性が低下することが判明した。 最終的に、高忠実度マルチパルスシーケンスにおけるナノ秒制御期間の実現可能性を見出した。 これらの結果は、ダイヤモンドの電子スピン欠陥を用いた量子情報処理の基本的な限界に関する重要な洞察を与える。

Solid-state electron spin qubits, like the nitrogen-vacancy center in diamond, rely on control sequences of population inversion to enhance sensitivity and improve device coherence. But even for this paradigmatic system, the fundamental limits of population inversion and potential impacts on applications like quantum sensing have not been assessed quantitatively. Here, we perform high accuracy simulations beyond the rotating wave approximation, including explicit unitary simulation of neighboring nuclear spins. Using quantum optimal control, we identify analytical pulses for the control of a qubit subspace within the spin-1 ground state and quantify the relationship between pulse complexity, control duration, and fidelity. We find exponentially increasing amplitude and bandwidth requirements with reduced control duration and further quantify the emergence of non-Markovian effects for multipulse sequences using sub-nanosecond population inversion. From this, we determine that the reduced fidelity and non-Markovianity is due to coherent interactions of the electron spin with the nuclear spin environment. Ultimately, we identify a potentially realizable regime of nanosecond control duration for high-fidelity multipulse sequences. These results provide key insights into the fundamental limits of quantum information processing using electron spin defects in diamond.
翻訳日:2023-09-07 14:45:50 公開日:2023-09-06
# 知識解法:知識グラフからドメイン知識を探すためのLLMを教える

Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from Knowledge Graphs ( http://arxiv.org/abs/2309.03118v1 )

ライセンス: Link先を確認
Chao Feng, Xinyu Zhang, Zichu Fei(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は汎用的であり、その創発性や一般化性から様々なタスクを解くことができる。 しかし、llmにはタスクを実行するためのドメイン固有の知識が欠如することがある。 これまでの研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されており、ドメイン固有の知識の欠如を軽減しようとしている。 しかし、追加モジュールを組み込む。 1) 新規ドメインに遭遇する場合,追加モジュールの再訓練が必要である。 2) LLMの強い能力は検索に完全には利用されないため, ボトルネックとなる。 本稿では,外部知識ベースから本質的な知識を探索するために,自己の強い一般化性を活用してLLMに教える,KSL(Knowledge Solver)というパラダイムを提案する。 具体的には,検索をマルチホップ決定列に変換するための,単純かつ効果的なプロンプトを設計した。 さらに、KSLは完全な検索パスを提供できるため、LCMの推論プロセスの説明可能性を高めることができる。 commonsenseqa、openbookqa、medqa-usmleの3つのデータセットについて実験を行い、我々のアプローチがllmベースラインのパフォーマンスを比較的大きなマージンで改善できることを発見した。

Large language models (LLMs), such as ChatGPT and GPT-4, are versatile and can solve different tasks due to their emergent ability and generalizability. However, LLMs sometimes lack domain-specific knowledge to perform tasks, which would also cause hallucination during inference. In some previous works, additional modules like graph neural networks (GNNs) are trained on retrieved knowledge from external knowledge bases, aiming to mitigate the problem of lacking domain-specific knowledge. However, incorporating additional modules: 1) would need retraining additional modules when encountering novel domains; 2) would become a bottleneck since LLMs' strong abilities are not fully utilized for retrieval. In this paper, we propose a paradigm, termed Knowledge Solver (KSL), to teach LLMs to search for essential knowledge from external knowledge bases by harnessing their own strong generalizability. Specifically, we design a simple yet effective prompt to transform retrieval into a multi-hop decision sequence, which empowers LLMs with searching knowledge ability in zero-shot manner. Additionally, KSL is able to provide complete retrieval paths and therefore increase explainability of LLMs' reasoning processes. We conduct experiments on three datasets: CommonsenseQA, OpenbookQA, and MedQA-USMLE, and found that our approach improves LLM baseline performance by a relatively large margin.
翻訳日:2023-09-07 14:45:32 公開日:2023-09-06
# ソルダペースト検査機能を用いたデータ中心機械学習によるPCB製造欠陥の検出

Detecting Manufacturing Defects in PCBs via Data-Centric Machine Learning on Solder Paste Inspection Features ( http://arxiv.org/abs/2309.03113v1 )

ライセンス: Link先を確認
Jubilee Prasad-Rao, Roohollah Heidary and Jesse Williams(参考訳) SPI(Solder Paste Inspection)とAOI(Automated Optical Inspection)を用いたプリント基板(PCB)製造における欠陥の自動検出は、作業効率の向上と手作業による介入の必要性の低減に役立つ。 本稿では,600万ピンのSPI抽出機能を用いて,PCB製造の3段階におけるPCB欠陥を検出する機械学習(ML)モデルをトレーニングするためのデータ中心のアプローチを示す。 600万のPCBピンは、15,387のPCBに属する200万のコンポーネントに対応している。 base extreme gradient boosting (xgboost) mlモデルを用いて,データの事前処理ステップを反復して検出性能を向上させる。 ピンレベルのSPI機能をコンポーネントとPCB IDで組み合わせて,PCBレベルのトレーニングインスタンスを開発した。 これにより、mlモデルはピンレベルでは明らかでないピン間、コンポーネント間、または空間的効果をキャプチャできる。 モデルはピン、コンポーネント、PCBレベルで訓練され、異なるモデルからの検出結果を組み合わせて欠陥成分を識別する。

Automated detection of defects in Printed Circuit Board (PCB) manufacturing using Solder Paste Inspection (SPI) and Automated Optical Inspection (AOI) machines can help improve operational efficiency and significantly reduce the need for manual intervention. In this paper, using SPI-extracted features of 6 million pins, we demonstrate a data-centric approach to train Machine Learning (ML) models to detect PCB defects at three stages of PCB manufacturing. The 6 million PCB pins correspond to 2 million components that belong to 15,387 PCBs. Using a base extreme gradient boosting (XGBoost) ML model, we iterate on the data pre-processing step to improve detection performance. Combining pin-level SPI features using component and PCB IDs, we developed training instances also at the component and PCB level. This allows the ML model to capture any inter-pin, inter-component, or spatial effects that may not be apparent at the pin level. Models are trained at the pin, component, and PCB levels, and the detection results from the different models are combined to identify defective components.
翻訳日:2023-09-07 14:45:05 公開日:2023-09-06
# 最大でない抑制はいまだ必要か? IoU-Aware Calibrationによる正確な信頼度推定と暗黙重複モデリング

Do We Still Need Non-Maximum Suppression? Accurate Confidence Estimates and Implicit Duplication Modeling with IoU-Aware Calibration ( http://arxiv.org/abs/2309.03110v1 )

ライセンス: Link先を確認
Johannes Gilg and Torben Teepe and Fabian Herzog and Philipp Wolters and Gerhard Rigoll(参考訳) 物体検出器は、多くの半自律的な意思決定システムの中心にあり、さらに必要不可欠なものになりつつある。 しかし、それらはまだアクセシビリティに欠けており、信頼できない予測を生じることがある。 特にこの点に関しては、基本的に手作りの--非最大抑圧アルゴリズムは、難解な予測プロセスと偏りのある信頼推定につながる。 IoUキャリブレーションを用いることで,従来のNMSスタイルのポストプロセッシングを除去できることを示す。 IoU対応キャリブレーションは条件付きベータキャリブレーションであり、ハイパーパラメータなしで並列化可能である。 任意のカットオフや割引の代わりに、各検出が重複している可能性を暗黙的に説明し、それに応じて信頼度を調整し、その結果、各検出に対して実験的に精度推定を行う。 多様な検出アーキテクチャに関する広範な実験により、提案したIoU対応キャリブレーションが重複検出をモデル化し、キャリブレーションを改善することができた。 標準シーケンシャルnmsおよびキャリブレーションアプローチと比較して、我々のジョイントモデリングは、最も優れたnmsベースの代替品よりもパフォーマンスが向上すると同時に、より少ない複雑さで一貫してよりよく調整された信頼度予測を実現できる。 すべての実験に対する \hyperlink{https://github.com/Blueblue4/IoU-AwareCalibration}{code} が公開されている。

Object detectors are at the heart of many semi- and fully autonomous decision systems and are poised to become even more indispensable. They are, however, still lacking in accessibility and can sometimes produce unreliable predictions. Especially concerning in this regard are the -- essentially hand-crafted -- non-maximum suppression algorithms that lead to an obfuscated prediction process and biased confidence estimates. We show that we can eliminate classic NMS-style post-processing by using IoU-aware calibration. IoU-aware calibration is a conditional Beta calibration; this makes it parallelizable with no hyper-parameters. Instead of arbitrary cutoffs or discounts, it implicitly accounts for the likelihood of each detection being a duplicate and adjusts the confidence score accordingly, resulting in empirically based precision estimates for each detection. Our extensive experiments on diverse detection architectures show that the proposed IoU-aware calibration can successfully model duplicate detections and improve calibration. Compared to the standard sequential NMS and calibration approach, our joint modeling can deliver performance gains over the best NMS-based alternative while producing consistently better-calibrated confidence predictions with less complexity. The \hyperlink{https://github.com/Blueblue4/IoU-AwareCalibration}{code} for all our experiments is publicly available.
翻訳日:2023-09-07 14:44:46 公開日:2023-09-06
# 情報理論資源破壊チャネル

Information theoretic resource-breaking channels ( http://arxiv.org/abs/2309.03108v1 )

ライセンス: Link先を確認
Abhishek Muhuri, Ayan Patra, Rivu Gupta, Aditi Sen De(参考訳) 本稿では,与えられた量子情報処理タスクに関連する資源を壊し,絡み合いが不十分なチャネルの枠組みを提案する。 特に,提案する2つの重要な通信プロトコル,量子高密度符号化とテレポーテーションを検証し,プロセス資源破壊チャネルと呼ばれる概念を述べる。 我々は,密度符号化 (DBT) と伝送資源破壊チャネル (TBT) の集合が凸かつコンパクトであることを証明し,古典量子チャネルの特定のクラスをそれらの集合の極端点として同定する。 我々は、TBTやDBTのチャネルがグループ共変であるときに、最大絡み合った状態を無駄な状態に変換する能力を持つ十分な条件を提供する。 また、1つ以上の送信者と1つの受信者が共有するリソースの密集したコーディング可能性を破壊するために、単位キュービットチャネルに関する十分な要件を確立する。 テレポーテーションでは、前処理が許されるようなクビット状態のセットTBTが、クビットの絡み合うチャネルと等価であることを示す。 さらに,非TBT(non-DBT)マップを識別できる目撃者演算子を構築する。

We present a framework of channels that break the resource associated with a given quantum information processing task, in which entanglement is not adequate. In particular, we illustrate our proposed notion, referred to as process resource-breaking channels, by examining two important communication protocols, quantum dense coding, and teleportation. We prove that the sets of dense coding (DBT) and teleportation resource-breaking channels (TBT) are convex and compact, and identify a specific class of classical-quantum channels as the extreme points of those sets. We provide sufficient conditions for a channel to be in TBT or DBT, when they are group-covariant along with having the ability to transform a maximally entangled state into a useless one. We also establish sufficient requirements on unital qubit channels to break the dense codeability of any resource shared by one or more senders and a single receiver. Regarding teleportation, we prove that the set TBT in the qubit regime is equivalent to that of qubit entanglement-breaking channels provided pre-processing is allowed. Furthermore, we construct witness operators capable of identifying non-TBT(non-DBT) maps.
翻訳日:2023-09-07 14:44:26 公開日:2023-09-06
# インプレッションインフォームド多行動推薦システム:階層グラフ注意アプローチ

Impression-Informed Multi-Behavior Recommender System: A Hierarchical Graph Attention Approach ( http://arxiv.org/abs/2309.03169v1 )

ライセンス: Link先を確認
Dong Li and Divya Bhargavi and Vidya Sagar Ravipati(参考訳) 推薦システムは暗黙のフィードバックから大きな恩恵を受けているが、ユーザとアイテム間の複数行動相互作用のニュアンスを見逃すことがしばしばある。 歴史的には、これらのシステムは、特異な「相互作用」ラベルの下で、例えば \textit{impression} (以前の \textit{view} )、 \textit{add-to-cart} や \textit{buy} のような全ての振る舞いをアマルガム化したか、あるいはターゲットの振る舞いのみを優先した。 最近の進歩は、この単純化に対処しようとしたが、主にターゲットの振る舞いだけを最適化し、データの不足と戦おうとした。 さらに、彼らは行動に固有のニュアンス階層をバイパスする傾向があった。 これらのギャップを埋めるために、我々は \textbf{H}ierarchical \textbf{M}ulti-behavior \textbf{G}raph Attention \textbf{N}etwork (HMGN)を導入する。 この先駆的なフレームワークは、マルチタスク階層型ベイズパーソナライズランキング(HBPR)を最適化に使用しながら、ビヘイビア内およびビヘイビア内からの情報を識別するために注意機構を活用する。 スケーラビリティの必要性を認識した本手法では,特殊なマルチビヘイビアサブグラフサンプリング技術を統合する。 さらに、HMGNの適応性により、知識メタデータと時系列データのシームレスな取り込みが可能になる。 実験結果から,従来のグラフニューラルネットワーク手法と比較して,NDCG@100測定値の最大64\%の顕著なパフォーマンス向上が得られた。

While recommender systems have significantly benefited from implicit feedback, they have often missed the nuances of multi-behavior interactions between users and items. Historically, these systems either amalgamated all behaviors, such as \textit{impression} (formerly \textit{view}), \textit{add-to-cart}, and \textit{buy}, under a singular 'interaction' label, or prioritized only the target behavior, often the \textit{buy} action, discarding valuable auxiliary signals. Although recent advancements tried addressing this simplification, they primarily gravitated towards optimizing the target behavior alone, battling with data scarcity. Additionally, they tended to bypass the nuanced hierarchy intrinsic to behaviors. To bridge these gaps, we introduce the \textbf{H}ierarchical \textbf{M}ulti-behavior \textbf{G}raph Attention \textbf{N}etwork (HMGN). This pioneering framework leverages attention mechanisms to discern information from both inter and intra-behaviors while employing a multi-task Hierarchical Bayesian Personalized Ranking (HBPR) for optimization. Recognizing the need for scalability, our approach integrates a specialized multi-behavior sub-graph sampling technique. Moreover, the adaptability of HMGN allows for the seamless inclusion of knowledge metadata and time-series data. Empirical results attest to our model's prowess, registering a notable performance boost of up to 64\% in NDCG@100 metrics over conventional graph neural network methods.
翻訳日:2023-09-07 14:38:20 公開日:2023-09-06
# 分割ブーストニューラルネットワーク

Split-Boost Neural Networks ( http://arxiv.org/abs/2309.03167v1 )

ライセンス: Link先を確認
Raffaele Giuseppe Cestari, Gabriele Maroni, Loris Cannelli, Dario Piga, Simone Formentin(参考訳) ニューラルネットワークの校正とトレーニングは複雑で時間を要する手順であり、良好な結果を得るためにはかなりの計算資源を必要とする。 鍵となる障害は、選択するための多数のハイパーパラメータと、少量のデータに直面したオーバーフィッティングの開始である。 本稿では,フィードフォワードアーキテクチャのための革新的なトレーニング戦略であるsplit-boostを提案する。 このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避け、ハイパーパラメータの総数を減らし、チューニングフェーズを高速化する。 提案された戦略は、ベンチマーク医療保険設計問題内の実世界(匿名)データセット上でテストされる。

The calibration and training of a neural network is a complex and time-consuming procedure that requires significant computational resources to achieve satisfactory results. Key obstacles are a large number of hyperparameters to select and the onset of overfitting in the face of a small amount of data. In this framework, we propose an innovative training strategy for feed-forward architectures - called split-boost - that improves performance and automatically includes a regularizing behaviour without modeling it explicitly. Such a novel approach ultimately allows us to avoid explicitly modeling the regularization term, decreasing the total number of hyperparameters and speeding up the tuning phase. The proposed strategy is tested on a real-world (anonymized) dataset within a benchmark medical insurance design problem.
翻訳日:2023-09-07 14:37:50 公開日:2023-09-06
# J-Guard:ジャーナリズムガイドによるAI生成ニュースの逆ロバスト検出

J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News ( http://arxiv.org/abs/2309.03164v1 )

ライセンス: Link先を確認
Tharindu Kumarage, Amrita Bhattacharjee, Djordje Padejski, Kristy Roschke, Dan Gillmor, Scott Ruston, Huan Liu, Joshua Garland(参考訳) オンラインのai生成テキストの急速な普及は、情報の世界を大きく変えている。 さまざまなタイプのAI生成テキストの中で、AI生成されたニュースは、オンラインでの誤報の顕著な源となり得るため、重大な脅威となる。 近年の取り組みでは、AI生成テキストの一般的な検出に重点を置いているが、単純な敵攻撃に対する脆弱性に対する懸念から、信頼性の向上が求められている。 さらに、ニュース執筆の偏見から、これらの検出手法をAI生成ニュースに適用すると、偽陽性が発生し、ニュース組織の評判を損なう可能性がある。 これらの課題に対処するために、学際チームの専門知識を活用して、既存の教師付きAIテキスト検出器を操り、AI生成ニュースを検出し、敵の堅牢性を高めます。 J-Guardは、ユニークなジャーナリストの属性にインスパイアされたスタイリスティックなヒントを取り入れることで、現実のジャーナリズムとAI生成のニュース記事とを効果的に区別する。 chatgpt(gpt3.5)を含む多数のaiモデルによって生成されたニュース記事に対する実験は、敵の攻撃に直面する場合の平均性能低下を7%まで維持しつつ、検出能力の向上におけるj-guardの有効性を実証する。

The rapid proliferation of AI-generated text online is profoundly reshaping the information landscape. Among various types of AI-generated text, AI-generated news presents a significant threat as it can be a prominent source of misinformation online. While several recent efforts have focused on detecting AI-generated text in general, these methods require enhanced reliability, given concerns about their vulnerability to simple adversarial attacks. Furthermore, due to the eccentricities of news writing, applying these detection methods for AI-generated news can produce false positives, potentially damaging the reputation of news organizations. To address these challenges, we leverage the expertise of an interdisciplinary team to develop a framework, J-Guard, capable of steering existing supervised AI text detectors for detecting AI-generated news while boosting adversarial robustness. By incorporating stylistic cues inspired by the unique journalistic attributes, J-Guard effectively distinguishes between real-world journalism and AI-generated news articles. Our experiments on news articles generated by a vast array of AI models, including ChatGPT (GPT3.5), demonstrate the effectiveness of J-Guard in enhancing detection capabilities while maintaining an average performance decrease of as low as 7% when faced with adversarial attacks.
翻訳日:2023-09-07 14:37:38 公開日:2023-09-06
# resfields: 時空間信号のための残留神経場

ResFields: Residual Neural Fields for Spatiotemporal Signals ( http://arxiv.org/abs/2309.03160v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang(参考訳) 高周波信号を表すために訓練されたニューラルネットワークのカテゴリであるニューラルフィールドは、複雑な3dデータ、特に大きなニューラルサインド距離(sdfs)または単一多層パーセプトロン(mlp)による放射場(nerfs)のモデリングにおいて印象的な性能を持つため、近年大きな注目を集めている。 しかし、MLPによる信号表現のパワーと単純さにもかかわらず、これらの手法は、MLPの容量が限られているため、大規模で複雑な時間信号のモデリングにおいて、依然として課題に直面している。 本稿では,時間的残差層をニューラルネットワークに組み込むことにより,この制限に対処するための効果的な手法を提案する。 本稿では,ResFieldの特性を包括的に解析し,学習可能なパラメータの数を減らし,一般化能力を向上する行列分解法を提案する。 重要な点は,既存の手法とシームレスに統合し,2次元映像近似,時間的sdfによる動的形状モデリング,動的nyrf再構成など,様々な課題にまたがる結果を一貫して改善することである。 最後に,軽量キャプチャシステムのスパース感覚入力から動的3dシーンをキャプチャすることの有効性を示すことで,resfieldsの実用性を示す。

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, especially large neural signed distance (SDFs) or radiance fields (NeRFs) via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields, a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing techniques and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory inputs of a lightweight capture system.
翻訳日:2023-09-07 14:37:14 公開日:2023-09-06
# チャージへの学習: 深層強化学習によるuavカバレッジパス計画

Learning to Recharge: UAV Coverage Path Planning through Deep Reinforcement Learning ( http://arxiv.org/abs/2309.03157v1 )

ライセンス: Link先を確認
Mirco Theile, Harald Bayerlein, Marco Caccamo, and Alberto L. Sangiovanni-Vincentelli(参考訳) 被覆経路計画(CPP)は、ロボット工学において重要な問題であり、ある分野のすべての点をカバーする効率的な経路を見つけることが目的である。 本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約のCPP問題に対処する。 この問題では、リチャージジャーニーを全般的なカバレッジ戦略に統合することから、戦略的、長期的な意思決定を行うという複雑な課題が浮かび上がっています。 本稿では,行動マスキングとディスカウント係数スケジューリングを応用し,ミッションホライズンズ全体にわたるカバレッジトラジェクタを最適化した,新しい近近政策最適化(ppo)に基づく深層強化学習(drl)手法を提案する。 さらに,リチャージ能力に起因する創発的状態ループを処理するための位置履歴をエージェントに提供する。 提案手法はベースラインヒューリスティックを上回り,異なる対象領域や地図に一般化し,目に見えない地図に限定的な一般化を行う。 我々は,長期的問題に対するDRLアルゴリズム設計に関する貴重な知見を提供し,CPP問題のためのソフトウェアフレームワークを提供する。

Coverage path planning (CPP) is a critical problem in robotics, where the goal is to find an efficient path that covers every point in an area of interest. This work addresses the power-constrained CPP problem with recharge for battery-limited unmanned aerial vehicles (UAVs). In this problem, a notable challenge emerges from integrating recharge journeys into the overall coverage strategy, highlighting the intricate task of making strategic, long-term decisions. We propose a novel proximal policy optimization (PPO)-based deep reinforcement learning (DRL) approach with map-based observations, utilizing action masking and discount factor scheduling to optimize coverage trajectories over the entire mission horizon. We further provide the agent with a position history to handle emergent state loops caused by the recharge capability. Our approach outperforms a baseline heuristic, generalizes to different target zones and maps, with limited generalization to unseen maps. We offer valuable insights into DRL algorithm design for long-horizon problems and provide a publicly available software framework for the CPP problem.
翻訳日:2023-09-07 14:36:48 公開日:2023-09-06
# 量子力学の2世界解釈

Two-Worlds Interpretation of Quantum Mechanics ( http://arxiv.org/abs/2309.03151v1 )

ライセンス: Link先を確認
Hans Christian \"Ottinger(参考訳) 量子力学の確率的性質は、正方形波動関数よりも密度行列の双線型二過程表現に自然に反映される。 絡み合いは波動関数の重ね合わせからではなく、密度行列の双線型構造から生じる。 量子干渉は加法的な重ね合わせ機構ではなく、乗法的な現象である。 密度行列の双線型表現は2つの確率ジャンプ過程によって与えられる。 これらのアイデアはアインシュタイン・ポドルスキー・ローゼン実験や二重スリット実験で示されている。 確率分布よりも確率変数の観点からの量子力学の確率的性質の表現は、オントロジー的な視点を促進し、量子力学の2つの世界解釈へと繋がる。

The stochastic nature of quantum mechanics is more naturally reflected in a bilinear two-process representation of density matrices rather than in squared wave functions. This proposition comes with a remarkable change of the entanglement mechanism: entanglement does not originate from superpositions of wave functions, but results from the bilinear structure of density matrices. Quantum interference is not an additive superposition mechanism, but rather a multiplicative phenomenon. The proposed bilinear representation of density matrices is given in terms of two stochastic jump processes. These ideas are illustrated for the Einstein-Podolsky-Rosen and double-slit experiments. The expression of the stochastic nature of quantum mechanics in terms of random variables rather than their probability distributions facilitates an ontological viewpoint and leads us to a two-worlds interpretation of quantum mechanics.
翻訳日:2023-09-07 14:36:28 公開日:2023-09-06
# 記憶のない未知チャネルに対するデータ駆動型ニューラル極符号

Data-Driven Neural Polar Codes for Unknown Channels With and Without Memory ( http://arxiv.org/abs/2309.03148v1 )

ライセンス: Link先を確認
Ziv Aharoni and Bashar Huleihel and Henry D. Pfister and Haim H. Permuter(参考訳) 本研究では,記憶のないチャネルのための極性符号を設計するための新しいデータ駆動手法を提案する。 この手法は、チャネルが「ブラックボックス」として与えられる場合に適しており、設計者は入力や出力の観測を行うためにチャネルにアクセスすることができるが、明示的なチャネルモデルにアクセスできない。 提案手法は、逐次キャンセル(sc)デコーダの構造を利用して、ニューラルネットワーク(nsc)デコーダを考案する。 NSCデコーダはニューラルネットワーク(NN)を使用して、元のSCデコーダの中核要素、チェックノード、ビットノード、ソフトな決定を置き換える。 NSCと共に、SCデコーダの入力空間にチャネル出力を埋め込む追加のNNを考案する。 提案手法は,NSCの整合性を含む理論的保証によって支持される。 また、NSCはチャネルメモリサイズで成長しない計算複雑性を持つ。 このことは、$O(|\mathcal{S}|^3 N\log N)$の複雑さを持つ有限状態チャネル (FSC) に対する連続キャンセルトレリス (SCT) デコーダ (SCT) デコーダ) に対して、$|\mathcal{S}|$はチャネル状態の数を表す。 本稿では,提案アルゴリズムの性能を,メモリレスチャネルとメモリ付きチャネルで実証する。 実験結果は、SCおよびSCTデコーダによって与えられる最適極復号器と比較される。 さらに,SCデコーダやSCTデコーダが適用できない場合には,アルゴリズムが適用可能であることを示す。

In this work, a novel data-driven methodology for designing polar codes for channels with and without memory is proposed. The methodology is suitable for the case where the channel is given as a "black-box" and the designer has access to the channel for generating observations of its inputs and outputs, but does not have access to the explicit channel model. The proposed method leverages the structure of the successive cancellation (SC) decoder to devise a neural SC (NSC) decoder. The NSC decoder uses neural networks (NNs) to replace the core elements of the original SC decoder, the check-node, the bit-node and the soft decision. Along with the NSC, we devise additional NN that embeds the channel outputs into the input space of the SC decoder. The proposed method is supported by theoretical guarantees that include the consistency of the NSC. Also, the NSC has computational complexity that does not grow with the channel memory size. This sets its main advantage over successive cancellation trellis (SCT) decoder for finite state channels (FSCs) that has complexity of $O(|\mathcal{S}|^3 N\log N)$, where $|\mathcal{S}|$ denotes the number of channel states. We demonstrate the performance of the proposed algorithms on memoryless channels and on channels with memory. The empirical results are compared with the optimal polar decoder, given by the SC and SCT decoders. We further show that our algorithms are applicable for the case where there SC and SCT decoders are not applicable.
翻訳日:2023-09-07 14:36:17 公開日:2023-09-06
# 最善の腕脱走:多腕バンドの純粋探査のための最適に近いマルチパスストリーミング下限

The Best Arm Evades: Near-optimal Multi-pass Streaming Lower Bounds for Pure Exploration in Multi-armed Bandits ( http://arxiv.org/abs/2309.03145v1 )

ライセンス: Link先を確認
Sepehr Assadi and Chen Wang(参考訳) o(\frac{n}{\delta^2})$ の最適なサンプル複雑性を使用するサブリニアメモリを持つストリーミングアルゴリズムは、$\omega(\frac{\log{(1/\delta)}}{\log\log{(1/\delta)}})$パスを必要とする。 ここでは、$n$は腕の数であり、$\Delta$はベストとセカンドベストの腕の間の報酬ギャップである。 我々の結果は、Jinらの$O(\log(\frac{1}{\Delta})$-passアルゴリズムと一致する。 [ICML'21] (下位項まで)$O(1)$メモリのみを使用し、Assadi と Wang [STOC'20] が提示したオープンな質問に答える。

We give a near-optimal sample-pass trade-off for pure exploration in multi-armed bandits (MABs) via multi-pass streaming algorithms: any streaming algorithm with sublinear memory that uses the optimal sample complexity of $O(\frac{n}{\Delta^2})$ requires $\Omega(\frac{\log{(1/\Delta)}}{\log\log{(1/\Delta)}})$ passes. Here, $n$ is the number of arms and $\Delta$ is the reward gap between the best and the second-best arms. Our result matches the $O(\log(\frac{1}{\Delta}))$-pass algorithm of Jin et al. [ICML'21] (up to lower order terms) that only uses $O(1)$ memory and answers an open question posed by Assadi and Wang [STOC'20].
翻訳日:2023-09-07 14:35:49 公開日:2023-09-06
# 真正粒子を用いたブレーンワールド理論の検証

Testing the Braneworld Theory with Identical Particles ( http://arxiv.org/abs/2309.03144v1 )

ライセンス: Link先を確認
Ivana Stojiljkovi\'c, Du\v{s}an {\DJ}or{\dj}evi\'c, Aleksandra Go\v{c}anin, and Dragoljub Go\v{c}anin(参考訳) 一般相対性理論を超える様々な試みは、時空が4次元ではなく、むしろ高次元多様体であるという仮定から始まる。 例えば、ブレーンワールドのシナリオでは、私たちが効果的に観測する時空は実際には高次元の時空に埋め込まれた4次元のブレーンであると仮定している。 一般に、ブレーンワールドモデルは非相対論的体制におけるニュートン重力法則からの離脱を予測する。 そこで本研究では,重力相互作用を持つ一対の同一粒子を用いて,braneworldモデルの妥当性を判定し,実験データと比較すべき数値結果を与える実験実験を行う。 特に、ランダル・スンドラム・ブレーンワールドモデルを考察し、負の宇宙定数を持つアインシュタイン・ヒルベルト重力と、アインシュタイン・ガウス・ボネット(近距離・チェルン・シモンズ)重力という5次元重力理論の2つのケースを研究した。

Various attempts to go beyond the theory of General Relativity start from the assumption that spacetime is not a 4-dimensional but rather a higher-dimensional manifold. Among others, braneworld scenarios postulate that the spacetime we effectively observe is actually a 4-dimensional brane embedded in a higher-dimensional spacetime. In general, braneworld models predict a departure from the Newton gravity law in the nonrelativistic regime. Based on this fact, we propose an experimental test that uses a pair of gravitationally interacting identical particles to determine the validity of certain braneworld models and provide numerical results that should be compared with experimental data. In particular, we consider the Randal-Sundrum braneworld model and study two cases of 5-dimensional gravity theories: the Einstein-Hilbert gravity with the negative cosmological constant and the Einstein-Gauss-Bonnet (nearly-Chern-Simons) gravity.
翻訳日:2023-09-07 14:35:26 公開日:2023-09-06
# 複数ベクトルチャネルを用いたE(n)-同変グラフニューラルネットワークの改良

Using Multiple Vector Channels Improves E(n)-Equivariant Graph Neural Networks ( http://arxiv.org/abs/2309.03139v1 )

ライセンス: Link先を確認
Daniel Levy, S\'ekou-Oumar Kaba, Carmelo Gonzales, Santiago Miret, Siamak Ravanbakhsh(参考訳) 本稿では,ノード毎に複数の同変ベクトルを用いるe(n)-同変グラフニューラルネットワークの自然な拡張を提案する。 拡張を定式化し、実行時やパラメータの数に最小限の違いを伴って、様々な物理システムのベンチマークタスクのパフォーマンスを改善することを示す。 提案したマルチチャネルEGNNは、N体荷電粒子動力学、分子特性予測、太陽系天体の軌道予測において、標準単一チャネルEGNNよりも優れている。 マルチチャネルEGNNのさらなる利点と最小追加コストを考えると、この拡張は物理科学のための機械学習の研究者にとって実用的である可能性が示唆されている。

We present a natural extension to E(n)-equivariant graph neural networks that uses multiple equivariant vectors per node. We formulate the extension and show that it improves performance across different physical systems benchmark tasks, with minimal differences in runtime or number of parameters. The proposed multichannel EGNN outperforms the standard singlechannel EGNN on N-body charged particle dynamics, molecular property predictions, and predicting the trajectories of solar system bodies. Given the additional benefits and minimal additional cost of multi-channel EGNN, we suggest that this extension may be of practical use to researchers working in machine learning for the physical sciences
翻訳日:2023-09-07 14:35:04 公開日:2023-09-06
# Matcha-TTS:条件付きフローマッチングを用いた高速TSアーキテクチャ

Matcha-TTS: A fast TTS architecture with conditional flow matching ( http://arxiv.org/abs/2309.03199v1 )

ライセンス: Link先を確認
Shivam Mehta, Ruibo Tu, Jonas Beskow, \'Eva Sz\'ekely, Gustav Eje Henter(参考訳) 高速なTTS音響モデリングのための新しいエンコーダデコーダアーキテクチャであるMatcha-TTSを導入し,OT-CFMを用いて学習した。 これにより、スコアマッチングを用いてトレーニングされたモデルよりも少ない合成ステップで出力品質の高いODEベースのデコーダが得られる。 注意深い設計選択は、各合成ステップが高速に実行されることを保証します。 この方法は確率的であり、非自己回帰的であり、外的アライメントなしでゼロから話すことを学ぶ。 強い事前学習ベースラインモデルと比較して、Matcha-TTSシステムはメモリフットプリントが最小であり、長い発話で最速モデルの速度に匹敵し、リスニングテストで最高評価スコアを得る。 オーディオサンプル、コード、事前訓練されたモデルについては、https://shivammehta25.github.io/Matcha-TTS/を参照してください。

We introduce Matcha-TTS, a new encoder-decoder architecture for speedy TTS acoustic modelling, trained using optimal-transport conditional flow matching (OT-CFM). This yields an ODE-based decoder capable of high output quality in fewer synthesis steps than models trained using score matching. Careful design choices additionally ensure each synthesis step is fast to run. The method is probabilistic, non-autoregressive, and learns to speak from scratch without external alignments. Compared to strong pre-trained baseline models, the Matcha-TTS system has the smallest memory footprint, rivals the speed of the fastest models on long utterances, and attains the highest mean opinion score in a listening test. Please see https://shivammehta25.github.io/Matcha-TTS/ for audio examples, code, and pre-trained models.
翻訳日:2023-09-07 14:27:20 公開日:2023-09-06
# 私の選択:非現実的なAIに対する敵対的保護

My Art My Choice: Adversarial Protection Against Unruly AI ( http://arxiv.org/abs/2309.03198v1 )

ライセンス: Link先を確認
Anthony Rhodes, Ram Bhagat, Umur Aybars Ciftci, Ilke Demir(参考訳) ジェネレーティブAIは増加傾向にあり、誰でも公開インターフェースを通じてリアルなコンテンツを制作できる。 特に誘導画像生成では、拡散モデルは高品質な低コストコンテンツを生成することでクリエーター経済を変えつつある。 アートワークは大きな生成モデルによって活用され、分散され、シミュレーションされるため、アーティストは無秩序なaiに対して上昇しています。 当社のアプローチであるMy Art My Choice (MAMC) は,著作権のある資料が拡散モデルによって逆行的に活用されることを防ぎ,コンテンツ所有者を力づけることを目的としている。 mamcは、逆向きに摂動する「保護された」画像の拡散モデルを生成することを学ぶ。 アーティストによって摂動量を決定し、コンテンツに対する歪みと保護のバランスをとる。 mamcは単純なunetベースのジェネレータで設計され、ブラックボックス拡散モデルを攻撃し、いくつかの損失を組み合わせることでオリジナルのアートワークの敵対的双生児を創造する。 ユーザコントロールの異なる様々なタスクに対して,3つのデータセットを実験する。 保護された画像と拡散出力の結果は、視覚、ノイズ、構造、ピクセル、生成空間で評価され、クレームを検証する。 私たちは、MAMCがAIが生成したコンテンツの所有権情報を、欠陥なく、ベースオンワンで、人間中心の方法で保持するための重要なステップであると考えています。

Generative AI is on the rise, enabling everyone to produce realistic content via publicly available interfaces. Especially for guided image generation, diffusion models are changing the creator economy by producing high quality low cost content. In parallel, artists are rising against unruly AI, since their artwork are leveraged, distributed, and dissimulated by large generative models. Our approach, My Art My Choice (MAMC), aims to empower content owners by protecting their copyrighted materials from being utilized by diffusion models in an adversarial fashion. MAMC learns to generate adversarially perturbed "protected" versions of images which can in turn "break" diffusion models. The perturbation amount is decided by the artist to balance distortion vs. protection of the content. MAMC is designed with a simple UNet-based generator, attacking black box diffusion models, combining several losses to create adversarial twins of the original artwork. We experiment on three datasets for various image-to-image tasks, with different user control values. Both protected image and diffusion output results are evaluated in visual, noise, structure, pixel, and generative spaces to validate our claims. We believe that MAMC is a crucial step for preserving ownership information for AI generated content in a flawless, based-on-need, and human-centric way.
翻訳日:2023-09-07 14:27:06 公開日:2023-09-06
# Blink: ベイジアン推定によるグラフニューラルネットワークにおける局所微分プライバシーのリンク

Blink: Link Local Differential Privacy in Graph Neural Networks via Bayesian Estimation ( http://arxiv.org/abs/2309.03190v1 )

ライセンス: Link先を確認
Xiaochen Zhu, Vincent Y. F. Tan, Xiaokui Xiao(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ推論タスクのノード埋め込みを学習する能力に優れていたため、人気が高まっている。 そこで本研究では,非信頼なサーバと協調してGNNを訓練し,リンクの存在を明らかにすることなく,分散ノード上でのリンクローカルディファレンシャルプライバシの利用を提案する。 提案手法では,学習したGNNの精度に対するLDPの負の影響を緩和し,ベイズ推定によるグラフトポロジの劣化を改善するために,サーバのグラフのリンクと度合を別々に利用している。 我々は、基底真理グラフトポロジーに対する推定リンク確率の平均絶対誤差を制限した。 次に,異なるプライバシ設定で相互補完するldp機構の2つの変種を提案する。うち1つは,不確実性が高い場合には偽陽性リンク推定を避けるために,低いプライバシ予算下でリンクを少なく見積もる。 さらに,両戦略を結合し,異なるプライバシ予算でよりよいパフォーマンスを実現するハイブリッド型を提案する。 大規模な実験により, 従来の手法よりも, 様々なプライバシー予算下での精度が優れていた。

Graph neural networks (GNNs) have gained an increasing amount of popularity due to their superior capability in learning node embeddings for various graph inference tasks, but training them can raise privacy concerns. To address this, we propose using link local differential privacy over decentralized nodes, enabling collaboration with an untrusted server to train GNNs without revealing the existence of any link. Our approach spends the privacy budget separately on links and degrees of the graph for the server to better denoise the graph topology using Bayesian estimation, alleviating the negative impact of LDP on the accuracy of the trained GNNs. We bound the mean absolute error of the inferred link probabilities against the ground truth graph topology. We then propose two variants of our LDP mechanism complementing each other in different privacy settings, one of which estimates fewer links under lower privacy budgets to avoid false positive link estimates when the uncertainty is high, while the other utilizes more information and performs better given relatively higher privacy budgets. Furthermore, we propose a hybrid variant that combines both strategies and is able to perform better across different privacy budgets. Extensive experiments show that our approach outperforms existing methods in terms of accuracy under varying privacy budgets.
翻訳日:2023-09-07 14:26:42 公開日:2023-09-06
# ベイズ光:ニューラルラジアンス場における不確かさの定量化

Bayes' Rays: Uncertainty Quantification for Neural Radiance Fields ( http://arxiv.org/abs/2309.03185v1 )

ライセンス: Link先を確認
Lily Goli, Cody Reading, Silvia Selll\'an, Alec Jacobson, Andrea Tagliasacchi(参考訳) neural radiance fields(nerfs)は、ビュー合成や深度推定のようなアプリケーションで有望であるが、マルチビュー画像から学ぶことは、固有の不確実性に直面している。 それらを定量化する現在の方法はヒューリスティックか計算的に要求される。 我々は,トレーニングプロセスを変更することなく,トレーニング済みのnerfにおける不確実性を評価するためのポストホックフレームワーク bayesrays を紹介する。 本手法では空間摂動とベイズラプラス近似を用いて体積不確実性場を定式化する。 我々は,アルゴリズムを統計的に導出し,重要な指標や応用においてその優れた性能を示す。 詳細はhttps://bayesrays.github.io.com/で確認できる。

Neural Radiance Fields (NeRFs) have shown promise in applications like view synthesis and depth estimation, but learning from multiview images faces inherent uncertainties. Current methods to quantify them are either heuristic or computationally demanding. We introduce BayesRays, a post-hoc framework to evaluate uncertainty in any pre-trained NeRF without modifying the training process. Our method establishes a volumetric uncertainty field using spatial perturbations and a Bayesian Laplace approximation. We derive our algorithm statistically and show its superior performance in key metrics and applications. Additional results available at: https://bayesrays.github.io.
翻訳日:2023-09-07 14:26:15 公開日:2023-09-06
# 変形性パッチ位置に基づく3次元トランスフォーマーによるアルツハイマー病と前頭側頭型認知症の鑑別診断

3D Transformer based on deformable patch location for differential diagnosis between Alzheimer's disease and Frontotemporal dementia ( http://arxiv.org/abs/2309.03183v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen and Micha\"el Cl\'ement and Boris Mansencal and Pierrick Coup\'e(参考訳) アルツハイマー病と前頭側頭型認知症は、重なり合う臨床症状を呈する一般的な神経変性疾患であり、その鑑別診断は非常に困難である。 各疾患の診断には多くの取り組みがなされているが,多型差分診断の課題は積極的に検討されていない。 近年、トランスフォーマーベースのモデルは様々なコンピュータビジョンタスクで顕著な成功を収めている。 しかし、そのようなモデルの大きさを考えると、3D医療データが少ないため、病気の診断に使用されることは稀である。 本稿では,アルツハイマー病と前頭側頭側認知症との鑑別診断を改善するために,変形可能なパッチ位置モジュールを用いた新しい3次元トランスフォーマーアーキテクチャを提案する。 さらに,データ不足の問題を克服するために,3次元構造磁気共鳴イメージングデータを用いたトランスフォーマモデルトレーニングに適応した各種データ拡張手法の効率的な組み合わせを提案する。 最後に,本研究のトランスフォーマーモデルと,脳構造ボリュームを用いた従来の機械学習モデルを組み合わせて,利用可能なデータを活用することを提案する。 提案手法の有効性を実証し,最先端手法と比較して競争力のある結果を示した。 さらに、変形可能なパッチ位置を可視化し、各疾患の診断を確立するために使用される最も関連性の高い脳領域を明らかにする。

Alzheimer's disease and Frontotemporal dementia are common types of neurodegenerative disorders that present overlapping clinical symptoms, making their differential diagnosis very challenging. Numerous efforts have been done for the diagnosis of each disease but the problem of multi-class differential diagnosis has not been actively explored. In recent years, transformer-based models have demonstrated remarkable success in various computer vision tasks. However, their use in disease diagnostic is uncommon due to the limited amount of 3D medical data given the large size of such models. In this paper, we present a novel 3D transformer-based architecture using a deformable patch location module to improve the differential diagnosis of Alzheimer's disease and Frontotemporal dementia. Moreover, to overcome the problem of data scarcity, we propose an efficient combination of various data augmentation techniques, adapted for training transformer-based models on 3D structural magnetic resonance imaging data. Finally, we propose to combine our transformer-based model with a traditional machine learning model using brain structure volumes to better exploit the available data. Our experiments demonstrate the effectiveness of the proposed approach, showing competitive results compared to state-of-the-art methods. Moreover, the deformable patch locations can be visualized, revealing the most relevant brain regions used to establish the diagnosis of each disease.
翻訳日:2023-09-07 14:26:05 公開日:2023-09-06
# slime: 私のようなセグメント

SLiMe: Segment Like Me ( http://arxiv.org/abs/2309.03179v1 )

ライセンス: Link先を確認
Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh(参考訳) 画像編集、画像対応、および3d形状生成を含む様々な下流タスクのために、stable diffusion (sd) のような大きな視覚言語モデルを使用して大きな進歩を遂げた。 これらの進歩に触発されて、SLiMeを提案することで1つの注釈付きサンプルを用いて、任意の粒度で画像のセグメンテーションにこれらの広範囲な視覚言語モデルを活用することを検討する。 SLiMeはこの問題を最適化タスクとして捉えている。 具体的には,1枚のトレーニング画像とそのセグメンテーションマスクから,SD前の「重み付き累積自己注意マップ」を含む注意マップを抽出する。 そして、抽出した注目マップを用いて、安定拡散のテキスト埋め込みを最適化し、トレーニング画像からそれぞれ1つのセグメント化された領域について学習する。 これらの学習された埋め込みはアテンションマップのセグメンテーション領域を強調し、それによってセグメンテーションマップを導出することができる。 これにより、SLiMeはトレーニングイメージ内のセグメント化された領域の粒度の推論中に、たった1つの例を使って、現実世界の画像をセグメント化できる。 さらに、利用可能な追加のトレーニングデータ、すなわち数ショットを活用することで、SLiMeのパフォーマンスが向上する。 各種設計因子について知識に富んだ実験を行い,スライムは他のワンショットおよびマイナショットセグメンテーション法よりも優れていることを示した。

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.
翻訳日:2023-09-07 14:25:43 公開日:2023-09-06
# 微分可能マルチモーダル学習を用いた3次元物体位置決め

3D Object Positioning Using Differentiable Multimodal Learning ( http://arxiv.org/abs/2309.03177v1 )

ライセンス: Link先を確認
Sean Zanyk-McLean, Krishna Kumar, Paul Navratil(参考訳) 本稿では,コンピュータグラフィックスシーンにおける観察者や参照対象に対するオブジェクトの位置を最適化するために,レイトレーシングと画像画素ロスによるシミュレーションLidarデータを用いたマルチモーダル手法について述べる。 オブジェクトの位置最適化は勾配降下を用いて完了し、損失関数は両方のモードに影響される。 典型的なオブジェクト配置最適化は、画像画素の損失を微分可能レンダリングのみで行い、この研究は、第2のモダリティ(Lidar)の使用がより高速な収束をもたらすことを示している。 このセンサ入力の融合方法は、シーン内の複数のアクターの位置を確立するために使用できるため、自動運転車に潜在的な有用性を示す。 本稿では、自動運転車の訓練に使用する複数の種類のデータのシミュレーション手法についても紹介する。

This article describes a multi-modal method using simulated Lidar data via ray tracing and image pixel loss with differentiable rendering to optimize an object's position with respect to an observer or some referential objects in a computer graphics scene. Object position optimization is completed using gradient descent with the loss function being influenced by both modalities. Typical object placement optimization is done using image pixel loss with differentiable rendering only, this work shows the use of a second modality (Lidar) leads to faster convergence. This method of fusing sensor input presents a potential usefulness for autonomous vehicles, as these methods can be used to establish the locations of multiple actors in a scene. This article also presents a method for the simulation of multiple types of data to be used in the training of autonomous vehicles.
翻訳日:2023-09-07 14:25:18 公開日:2023-09-06
# 大規模言語モデルを用いた男女別機械翻訳

Gender-specific Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.03175v1 )

ライセンス: Link先を確認
Eduardo S\'anchez, Pierre Andrews, Pontus Stenetorp, Mikel Artetxe, Marta R. Costa-juss\`a(参考訳) デコーダのみの大規模言語モデル(llms)は、従来のエンコーダ-デコーダニューラルマシン翻訳(nmt)システムよりも若干性能が遅れているが、機械翻訳(mt)の可能性を実証している。 しかし LLM にはユニークな利点があり、プロンプトを通じて出力の特性を制御する能力がある。 本研究では、この柔軟性を活用して、文法性のある言語に対する性特化翻訳を生成するLLaMaの能力を探求する。 以上の結果から,LLaMaは,最先端多言語NMTシステムであるNLLBと比較して,競争精度と男女差の緩和を両立できることがわかった。 さらに,ラマの翻訳はロバストであり,性別不明瞭なデータセットにおける対人的参照に対して高い性能低下を示したが,不明瞭な文脈では一貫性を維持した。 本研究は、性特化翻訳にLLMを使うことの可能性と課題に関する洞察を提供し、LLMにおける新しいタスクを引き出すための文脈内学習の重要性を強調する。

Decoder-only Large Language Models (LLMs) have demonstrated potential in machine translation (MT), albeit with performance slightly lagging behind traditional encoder-decoder Neural Machine Translation (NMT) systems. However, LLMs offer a unique advantage: the ability to control the properties of the output through prompts. In this study, we harness this flexibility to explore LLaMa's capability to produce gender-specific translations for languages with grammatical gender. Our results indicate that LLaMa can generate gender-specific translations with competitive accuracy and gender bias mitigation when compared to NLLB, a state-of-the-art multilingual NMT system. Furthermore, our experiments reveal that LLaMa's translations are robust, showing significant performance drops when evaluated against opposite-gender references in gender-ambiguous datasets but maintaining consistency in less ambiguous contexts. This research provides insights into the potential and challenges of using LLMs for gender-specific translations and highlights the importance of in-context learning to elicit new tasks in LLMs.
翻訳日:2023-09-07 14:25:04 公開日:2023-09-06
# PDiscoNet: 微粒化認識のための意味的に一貫した部分発見

PDiscoNet: Semantically consistent part discovery for fine-grained recognition ( http://arxiv.org/abs/2309.03173v1 )

ライセンス: Link先を確認
Robert van der Klis, Stephan Alaniz, Massimiliano Mancini, Cassio F. Dantas, Dino Ienco, Zeynep Akata, Diego Marcos(参考訳) 細粒度の分類は、しばしば、くちばしの形や鳥の翼のパターンなど、特定の対象部分を認識する必要がある。 粒度の細かい分類モデルを用いてまずそのような部分を検出し、クラスを推論することで、モデルが単一の属性マップを提供する解釈可能性メソッドよりも、正しい詳細を実際に見ているかどうかを判断することができる。 本稿では,画像レベルのクラスラベルのみを用いて対象部品の発見を行うPDiscoNetを提案する。 これらのプリエントを符号化するために適切な損失を使用するのに加えて、全部分特徴ベクトルを一度に落として分類において単一の部分が優位になるのを防ぐ部分ドロップアウトと、各部分から来る情報を分類器の視点から区別する部分特徴ベクトル変調を用いる。 CUB, CelebA, PartImageNet で行った結果から,提案手法は従来の手法よりもかなり優れた部分発見性能を提供するが, 追加のハイパーパラメータチューニングは必要とせず, 分類性能をペナルティ化しないことがわかった。 コードはhttps://github.com/robertdvdk/part_detectionで入手できる。

Fine-grained classification often requires recognizing specific object parts, such as beak shape and wing patterns for birds. Encouraging a fine-grained classification model to first detect such parts and then using them to infer the class could help us gauge whether the model is indeed looking at the right details better than with interpretability methods that provide a single attribution map. We propose PDiscoNet to discover object parts by using only image-level class labels along with priors encouraging the parts to be: discriminative, compact, distinct from each other, equivariant to rigid transforms, and active in at least some of the images. In addition to using the appropriate losses to encode these priors, we propose to use part-dropout, where full part feature vectors are dropped at once to prevent a single part from dominating in the classification, and part feature vector modulation, which makes the information coming from each part distinct from the perspective of the classifier. Our results on CUB, CelebA, and PartImageNet show that the proposed method provides substantially better part discovery performance than previous methods while not requiring any additional hyper-parameter tuning and without penalizing the classification performance. The code is available at https://github.com/robertdvdk/part_detection.
翻訳日:2023-09-07 14:24:43 公開日:2023-09-06
# 観測された事象の(非)絶対性とは何か?

What Does '(Non)-Absoluteness of Observed Events' Mean? ( http://arxiv.org/abs/2309.03171v1 )

ライセンス: Link先を確認
Emily Adlam(参考訳) 近年では「出現した事象の絶対性」に関する定理の類型化がみられ、量子力学はある種のメタ物理学的に急進的な非絶対性(関係論やパースペクティビティズムなど)を伴っていると論じられることがある。 しかし、我々の見解では、これらの定理の綿密な検証は、そのような可能性を支持することに失敗する。 In this paper we argue that the Wigner's friend paradox, the theorem of Bong et al and the theorem of Lawrence et al are all best understood as demonstrating that if quantum mechanics is universal, and if certain auxiliary assumptions hold, then the world inevitably includes various forms of 'disaccord,' but this need not be interpreted in a metaphysically radical way; meanwhile, the theorem of Ormrod and Barrett is best understood either as an argument for an interpretation allowing multiple outcomes per observer, such as the Everett approach, or as a proof that quantum mechanics cannot be universal in the sense relevant for this theorem. また、これらの定理は、観測された事象が絶対的である間に動的状態が相対化される異なる種類の関係アプローチの興味深い可能性を示しており、そのようなアプローチを機能させるためには「再帰性」のようなものが必要であるが、これはレトロカウサリティに対する多くの一般的な反対を避ける非常に特殊なレトロカウサリティであることを示している。 非絶対性定理は、測定問題の許容可能な解への収束に寄与する重要な役割を担っていると結論づける。

Recently there have emerged an assortment of theorems relating to the 'absoluteness of emerged events,' and these results have sometimes been used to argue that quantum mechanics may involve some kind of metaphysically radical non-absoluteness, such as relationalism or perspectivalism. However, in our view a close examination of these theorems fails to convincingly support such possibilities. In this paper we argue that the Wigner's friend paradox, the theorem of Bong et al and the theorem of Lawrence et al are all best understood as demonstrating that if quantum mechanics is universal, and if certain auxiliary assumptions hold, then the world inevitably includes various forms of 'disaccord,' but this need not be interpreted in a metaphysically radical way; meanwhile, the theorem of Ormrod and Barrett is best understood either as an argument for an interpretation allowing multiple outcomes per observer, such as the Everett approach, or as a proof that quantum mechanics cannot be universal in the sense relevant for this theorem. We also argue that these theorems taken together suggest interesting possibilities for a different kind of relational approach in which dynamical states are relativized whilst observed events are absolute, and we show that although something like 'retrocausality' might be needed to make such an approach work, this would be a very special kind of retrocausality which would evade a number of common objections against retrocausality. We conclude that the non-absoluteness theorems may have a significant role to play in helping converge towards an acceptable solution to the measurement problem.
翻訳日:2023-09-07 14:24:19 公開日:2023-09-06
# AnoOnly: 異常にのみ損失のある半監督型異常検出

AnoOnly: Semi-Supervised Anomaly Detection with the Only Loss on Anomalies ( http://arxiv.org/abs/2305.18798v3 )

ライセンス: Link先を確認
Yixuan Zhou, Peiyu Yang, Yi Qu, Xing Xu, Zhe Sun, Andrzej Cichocki(参考訳) semi-supervised anomaly detection (ssad) 法は、少数ながら指導的な異常インスタンスを活用することで、unsupervised anomaly detection (uad) を強化する効果を実証した。 しかしながら、異常に対する均質な正規データの優位は、ssadモデルを効果的に知覚する異常に対してバイアスする。 この問題に対処し,不均衡な正規データと異常データとのバランスの取れた監督を実現するために,anoonly (anomaly only) と呼ばれる新しいフレームワークを開発した。 厳格な損失監視を行う既存のssadメソッドとは異なり、ano onlyはそれを中断し、通常のデータに対する弱い監視方式を導入する。 この弱い監視はバッチ正規化を利用してインスタンス化され、通常のデータ上でクラスタ学習を暗黙的に実行する。 既存のssadメソッドに組み込むと、提案されたanoのみは様々なモデルとデータセットにまたがる顕著なパフォーマンス向上を示し、新しい最先端のパフォーマンスを達成する。 さらに、私たちのanoonlyは、データ汚染に苦しんでいるときにノイズをラベル付けするためにネイティブに堅牢です。 私たちのコードはhttps://github.com/cool-xuan/anoonlyで公開されています。

Semi-supervised anomaly detection (SSAD) methods have demonstrated their effectiveness in enhancing unsupervised anomaly detection (UAD) by leveraging few-shot but instructive abnormal instances. However, the dominance of homogeneous normal data over anomalies biases the SSAD models against effectively perceiving anomalies. To address this issue and achieve balanced supervision between heavily imbalanced normal and abnormal data, we develop a novel framework called AnoOnly (Anomaly Only). Unlike existing SSAD methods that resort to strict loss supervision, AnoOnly suspends it and introduces a form of weak supervision for normal data. This weak supervision is instantiated through the utilization of batch normalization, which implicitly performs cluster learning on normal data. When integrated into existing SSAD methods, the proposed AnoOnly demonstrates remarkable performance enhancements across various models and datasets, achieving new state-of-the-art performance. Additionally, our AnoOnly is natively robust to label noise when suffering from data contamination. Our code is publicly available at https://github.com/cool-xuan/AnoOnly.
翻訳日:2023-09-07 11:45:26 公開日:2023-09-06
# Bi-Mapper: 自律運転のためのホロスティックなBEVセマンティックマッピング

Bi-Mapper: Holistic BEV Semantic Mapping for Autonomous Driving ( http://arxiv.org/abs/2305.04205v3 )

ライセンス: Link先を確認
Siyu Li, Kailun Yang, Hao Shi, Jiaming Zhang, Jiacheng Lin, Zhifeng Teng, Zhiyong Li(参考訳) 基本道路要素をカバーする道路シーンのセマンティックマップは、自動運転システムにおいて重要な要素である。 これはバードズ・アイ・ビュー (bev) でレンダリングされた時の位置決めと計画のための重要な知覚基盤を提供する。 現在、仮説深度に関する事前の知識は、キャリブレーションパラメータの助けを借りて、正面視像を直接BEVに翻訳する学習を導くことができる。 しかし、遠方の物体の表現における幾何学的歪みに苦しむ。 さらに、事前知識のない別の手法のストリームは、グローバルな視点でフロントビューとBEVの間の変換を暗黙的に学習することができる。 異なる学習方法の融合が驚くべき効果をもたらすことを考慮し,グローバル視点と局所事前知識を組み込んだ,トップダウン・ロード・シーン意味理解のためのバイマッパーフレームワークを提案する。 相互通信の信頼性を高めるため,非同期相互学習戦略を提案する。 同時に、ASL(Across-Space Loss)は幾何学的歪みの負の影響を軽減するように設計されている。 nuScenesとCam2BEVデータセットの広範な結果は、提案したBi-Mapperフレームワークにおける各モジュールの一貫性のある有効性を検証する。 道路マッピングネットワークと比較して、提案したBi-MapperはnuScenesデータセット上で2.1%高いIoUを達成する。 さらに,実世界の運転シナリオにおけるBi-Mapperの一般化性能を検証する。 ソースコードはhttps://github.com/lynn-yu/Bi-Mapper.comで公開されている。

A semantic map of the road scene, covering fundamental road elements, is an essential ingredient in autonomous driving systems. It provides important perception foundations for positioning and planning when rendered in the Bird's-Eye-View (BEV). Currently, the prior knowledge of hypothetical depth can guide the learning of translating front perspective views into BEV directly with the help of calibration parameters. However, it suffers from geometric distortions in the representation of distant objects. In addition, another stream of methods without prior knowledge can learn the transformation between front perspective views and BEV implicitly with a global view. Considering that the fusion of different learning methods may bring surprising beneficial effects, we propose a Bi-Mapper framework for top-down road-scene semantic understanding, which incorporates a global view and local prior knowledge. To enhance reliable interaction between them, an asynchronous mutual learning strategy is proposed. At the same time, an Across-Space Loss (ASL) is designed to mitigate the negative impact of geometric distortions. Extensive results on nuScenes and Cam2BEV datasets verify the consistent effectiveness of each module in the proposed Bi-Mapper framework. Compared with exiting road mapping networks, the proposed Bi-Mapper achieves 2.1% higher IoU on the nuScenes dataset. Moreover, we verify the generalization performance of Bi-Mapper in a real-world driving scenario. The source code is publicly available at https://github.com/lynn-yu/Bi-Mapper.
翻訳日:2023-09-07 11:45:08 公開日:2023-09-06
# qubit-plasmon-phonon超強結合系からの仮想光子とフォノン対の放出

Release of virtual photon and phonon pairs from qubit-plasmon-phonon ultrastrong coupling system ( http://arxiv.org/abs/2304.08704v3 )

ライセンス: Link先を確認
Ting-ting Ma, Yu-qiang Liu and Chang-shui Yu(参考訳) 超強結合と非超強結合の最も重要な違いは、基底状態が励起を含むことである。 クビットプラズモン-フォノン超強結合系 (USC) は光子とフォノンに結合した3レベル原子を上2つのエネルギー準位で結合し, 中間状態から基底状態までの原子の自然放出がフォトンとフォノン対を生成することを示す。 その結果、現在の系は強い光子/フォノンの流れを生じさせ、原子-フォノンカップリングがアクティブな役割を果たすことが示され、実験的な検出が保証される。 放射スペクトルと様々な高次相関関数は、光子とフォノンの対の生成を確認する。 本研究は,usc体制下における仮想光子とフォノン対の生成に関する今後の研究に重要な意味を持つ。

The most important difference between ultrastrong and non-ultrastrong coupling regimes is that the ground state contains excitations. We consider a qubit-plasmon-phonon ultrastrong coupling (USC) system with a three-level atom coupled to the photon and phonon via its upper two energy levels and show that spontaneous emission of the atom from its intermediate to its ground state produces photon and phonon pairs. It is shown that the current system can produce a strong photon/phonon stream and the atom-phonon coupling plays the active role, which ensures the experimental detection. The emission spectrum and various high-order correlation functions confirm the generation of the pairs of photons and phonons. Our study has important implications for future research on virtual photon and phonon pairs creation in the ground state of the USC regime.
翻訳日:2023-09-07 11:44:46 公開日:2023-09-06
# 光場圧縮のための学習型空間情報と角情報分離

Learning-based Spatial and Angular Information Separation for Light Field Compression ( http://arxiv.org/abs/2304.06322v4 )

ライセンス: Link先を確認
Jinglei Shi, Yihong Xu, Christine Guillemot(参考訳) ライトフィールド(light fields)は、異なる方向からシーンから放出される光を記録して、空間的および角的シーン情報の両方をキャプチャする画像データの一種である。 この文脈では、空間情報は視点に関係なく静的に残る特徴として定義されるが、角情報は視点によって異なる特徴を指す。 本稿では,光場の角度情報と空間情報を分離できる新しいニューラルネットワークを提案する。 ネットワークは、全サブアパーチャ画像(sais)間で共有される空間カーネルと、各saiの角カーネルの集合を用いた角情報を用いて空間情報を表現する。 パラメータ数を増やすことなくネットワークの表現能力をさらに向上するため,角カーネル割り当てとカーネルテンソル分解機構を導入する。 圧縮タスクに適用した場合、我々のネットワークは、他の最先端手法よりも大きなマージンで優れています。 そして、角情報を簡単に他のシーンに転送し、密集したビューをレンダリングし、ビュー合成タスクの分離と潜在的なユースケースを示す。 我々は,この話題についてさらなる研究を奨励するため,論文の受理時にコードを公開する予定だ。

Light fields are a type of image data that capture both spatial and angular scene information by recording light rays emitted by a scene from different orientations. In this context, spatial information is defined as features that remain static regardless of perspectives, while angular information refers to features that vary between viewpoints. We propose a novel neural network that, by design, can separate angular and spatial information of a light field. The network represents spatial information using spatial kernels shared among all Sub-Aperture Images (SAIs), and angular information using sets of angular kernels for each SAI. To further improve the representation capability of the network without increasing parameter number, we also introduce angular kernel allocation and kernel tensor decomposition mechanisms. Extensive experiments demonstrate the benefits of information separation: when applied to the compression task, our network outperforms other state-of-the-art methods by a large margin. And angular information can be easily transferred to other scenes for rendering dense views, showing the successful separation and the potential use case for the view synthesis task. We plan to release the code upon acceptance of the paper to encourage further research on this topic.
翻訳日:2023-09-07 11:44:30 公開日:2023-09-06
# 大孔像完成のための構造誘導拡散モデル

A Structure-Guided Diffusion Model for Large-Hole Image Completion ( http://arxiv.org/abs/2211.10437v3 )

ライセンス: Link先を確認
Daichi Horita, Jiaolong Yang, Dong Chen, Yuki Koyama, Kiyoharu Aizawa, Nicu Sebe(参考訳) 画像補完技術は、画像の欠落領域(すなわち穴)を埋めることに大きな進歩を遂げた。 しかし、構造的な情報が少ないため、大きな穴の完成は難しいままである。 本稿では, 構造誘導型拡散モデル (SGDM) を構成するために, 明示的な構造ガイダンスを拡散に基づく画像補完に組み込むことにより, この問題に対処する。 これは2つのカスケード拡散確率モデル(構造とテクスチャジェネレータ)から構成される。 構造生成器は、穴内の実行可能な構造を表すエッジイメージを生成し、テクスチャ生成プロセスの誘導に使用する。 両ジェネレータを共同で訓練するために, 最適ベイズ分解を利用した新しい手法を考案し, 構造生成器の出力を1ステップで denoiseし, バックプロパゲーションを可能にする。 拡散ベースのアプローチは、画像の一部の編集を可能にする一方で、多彩な補完を可能にします。 自然シーン (Places) と顔 (CelebA-HQ) のデータセットを用いた実験により,本手法が最先端の手法に比べて優れた,あるいは同等の視覚的品質を実現することを示す。 コードはhttps://github.com/udonda/structure_guided_diffusion_modelで研究目的に利用できる。

Image completion techniques have made significant progress in filling missing regions (i.e., holes) in images. However, large-hole completion remains challenging due to limited structural information. In this paper, we address this problem by integrating explicit structural guidance into diffusion-based image completion, forming our structure-guided diffusion model (SGDM). It consists of two cascaded diffusion probabilistic models: structure and texture generators. The structure generator generates an edge image representing plausible structures within the holes, which is then used for guiding the texture generation process. To train both generators jointly, we devise a novel strategy that leverages optimal Bayesian denoising, which denoises the output of the structure generator in a single step and thus allows backpropagation. Our diffusion-based approach enables a diversity of plausible completions, while the editable edges allow for editing parts of an image. Our experiments on natural scene (Places) and face (CelebA-HQ) datasets demonstrate that our method achieves a superior or comparable visual quality compared to state-of-the-art approaches. The code is available for research purposes at https://github.com/UdonDa/Structure_Guided_Diffusion_Model.
翻訳日:2023-09-07 11:44:09 公開日:2023-09-06
# 悪者、狂人、調理者:AI軍部における民間の損害に対する道徳的責任

Bad, mad, and cooked: Moral responsibility for civilian harms in human-AI military teams ( http://arxiv.org/abs/2211.06326v3 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) この章では、AIチームによる民間人の損害に対する道徳的責任について論じる。 軍部は戦争犯罪の責任を負う悪いりんごや、戦争中の行動に責任を負えない狂ったりんごを持っているかもしれないが、軍部は、人間の意思決定を戦争におけるAI決定に置き換えるプロセスを通じて、不適切な意思決定環境に配置することで、良いりんごを「調理」することができる。 人間とAIの軍事チームにおける民間の損害に対する責任は争われ、オペレーターが分離され、極端な道徳的な証人になり、道徳的な残酷なゾーンになったり、国家によって認可されたより大きな人道AIシステムの一部として道徳的な傷を負ったりする恐れがある。 この章は、軍事倫理、人間的要因、AI作業、および批判的ケーススタディを認識し、人間-AIチームにおける道徳的責任の条件をマップアウトするための新しいメカニズムを提供する。 以下を含む。 1)認知的タスク分析における批判的意思決定のための新たな意思決定責任 2)AI職場の健康・安全の枠組みを適用し,意思決定における道徳的責任の帰属に関連する認知的・心理的リスクを識別する。 このようなメカニズムにより、軍隊は責任ある展開のために人間中心のAIシステムを設計できる。

This chapter explores moral responsibility for civilian harms by human-artificial intelligence (AI) teams. Although militaries may have some bad apples responsible for war crimes and some mad apples unable to be responsible for their actions during a conflict, increasingly militaries may 'cook' their good apples by putting them in untenable decision-making environments through the processes of replacing human decision-making with AI determinations in war making. Responsibility for civilian harm in human-AI military teams may be contested, risking operators becoming detached, being extreme moral witnesses, becoming moral crumple zones or suffering moral injury from being part of larger human-AI systems authorised by the state. Acknowledging military ethics, human factors and AI work to date as well as critical case studies, this chapter offers new mechanisms to map out conditions for moral responsibility in human-AI teams. These include: 1) new decision responsibility prompts for critical decision method in a cognitive task analysis, and 2) applying an AI workplace health and safety framework for identifying cognitive and psychological risks relevant to attributions of moral responsibility in targeting decisions. Mechanisms such as these enable militaries to design human-centred AI systems for responsible deployment.
翻訳日:2023-09-07 11:43:45 公開日:2023-09-06
# 時間的ピラミッド圧縮増幅変換器による3次元姿勢推定

Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2309.01365v2 )

ライセンス: Link先を確認
Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng and Xuansong Xie(参考訳) ビデオシーケンスにおける人間の3dポーズを正確に推定するには、精度と構造が整ったアーキテクチャが必要である。 トランスの成功により,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)トランスを導入した。 時間次元の展開により、RTPCAは、時間的ピラミッド圧縮増幅(TPCA)構造を介してブロック内時間モデリングを拡張し、クロス層リファインメント(XLR)モジュールとのブロック間特徴相互作用を洗練する。 特にTPCAブロックは、時間的ピラミッドパラダイムを利用して、キーと値の表現能力を強化し、動きシーケンスから空間意味をシームレスに抽出する。 我々はこれらのTPCAブロックをXLRで縫合し、クエリ、キー、値の連続的な相互作用を通じてリッチなセマンティック表現を促進する。 この戦略は、他の変圧器ベースの方法に見られる典型的な欠陥と安定性に対処し、電流の流れを伴う初期段階の情報を具現化する。 計算オーバーヘッドが最小限であるHuman3.6M, HumanEva-I, MPI-INF-3DHPベンチマークに対して, 最先端の結果を達成し, RTPCAの有効性を示す。 ソースコードはhttps://github.com/hbing-l/RTPCAで入手できる。

Accurately estimating the 3D pose of humans in video sequences requires both accuracy and a well-structured architecture. With the success of transformers, we introduce the Refined Temporal Pyramidal Compression-and-Amplification (RTPCA) transformer. Exploiting the temporal dimension, RTPCA extends intra-block temporal modeling via its Temporal Pyramidal Compression-and-Amplification (TPCA) structure and refines inter-block feature interaction with a Cross-Layer Refinement (XLR) module. In particular, TPCA block exploits a temporal pyramid paradigm, reinforcing key and value representation capabilities and seamlessly extracting spatial semantics from motion sequences. We stitch these TPCA blocks with XLR that promotes rich semantic representation through continuous interaction of queries, keys, and values. This strategy embodies early-stage information with current flows, addressing typical deficits in detail and stability seen in other transformer-based methods. We demonstrate the effectiveness of RTPCA by achieving state-of-the-art results on Human3.6M, HumanEva-I, and MPI-INF-3DHP benchmarks with minimal computational overhead. The source code is available at https://github.com/hbing-l/RTPCA.
翻訳日:2023-09-07 11:35:13 公開日:2023-09-06
# 様々なランダムテンソル上のテンソルネットワークのシンボリック統合 -Python RTNIの第2版-

Symbolically integrating tensor networks over various random tensors -- the second version of Python RTNI ( http://arxiv.org/abs/2309.01167v2 )

ライセンス: Link先を確認
Motohisa Fukuda(参考訳) 我々は、Haar分散ユニタリ行列上のテンソルネットワークを象徴的に統合するRTNIのPythonバージョンをアップグレードしている。 現在、PyRTNI2 はハール分布直交行列と実かつ複素正規ガウステンソルも扱うことができる。 さらに、テンソルネットワークをテンソルネットワークの形式でエクスポートすることで、低次元でも具体的なテンソルでさらなる計算を行うことができる。 チュートリアルノートブックはgithubにある。 https://github.com/motohisafukuda/pyrtni2。 本稿では,プログラムの背後にある数学を説明し,それを用いてどのようなテンソルネットワーク計算ができるかを示す。 前者については、上述のランダム行列とテンソルの要素的モーメント計算をテンソルネットワークダイアグラムで解釈し、このビューは自然であり、テンソルネットワークダイアグラム内のデルタ関数をテンソルネットワークダイアグラムのエッジに関連付けていると主張する。

We are upgrading the Python-version of RTNI, which symbolically integrates tensor networks over the Haar-distributed unitary matrices. Now, PyRTNI2 can treat the Haar-distributed orthogonal matrices and the real and complex normal Gaussian tensors as well. Moreover, it can export tensor networks in the format of TensorNetwork so that one can make further calculations with concrete tensors, even for low dimensions, where the Weingarten functions differ from the ones for high dimensions. The tutorial notebooks are found at GitHub: https://github.com/MotohisaFukuda/PyRTNI2. In this paper, we explain maths behind the program and show what kind of tensor network calculations can be made with it. For the former, we interpret the element-wise moment calculus of the above random matrices and tensors in terms of tensor network diagrams, and argue that the view is natural, relating delta functions in the calculus to edges in tensor network diagrams.
翻訳日:2023-09-07 11:34:50 公開日:2023-09-06
# 分離型ハミルトンニューラルネットワーク

Separable Hamiltonian Neural Networks ( http://arxiv.org/abs/2309.01069v2 )

ライセンス: Link先を確認
Zi-Yu Khoo, Jonathan Sze Choong Low and St\'ephane Bressan(参考訳) 離散観測からの力学系のモデリングは、現代の科学・工学データシステムによって直面する課題である。 ハミルトン系はそのような基本的でユビキタスな力学系の1つである。 ハミルトニアンニューラルネットワークは、ハミルトン方程式の学習バイアスの下でベクトル場の離散的な観測から力学系のハミルトニアンを教師なしで回帰する最先端のモデルである。 しかし、ハミルトン力学はしばしば複雑であり、特にハミルトン系の状態空間がサンプル数に対して大きい高次元においてである。 状態空間における状態変数間の複雑性を軽減するための最近発見された治療法は、ハミルトン系の加法分離性を活用し、ハミルトンニューラルネットワークに加法分離性を埋め込むことである。 物理インフォームド機械学習の命名に続いて、3つの分離可能なハミルトンニューラルネットワークを提案する。 これらのモデルはハミルトンニューラルネットワーク内に加法分離性を埋め込む。 最初のモデルは加法分離性を使用して、ハミルトンニューラルネットワークをトレーニングするためのデータの量を4次スケールする。 2つ目のモデルはハミルトンニューラルネットワークの損失関数に加法分離性を埋め込む。 第3のモデルは、結合した多層的知覚を用いてハミルトンニューラルネットワークのアーキテクチャを通して加法分離性を埋め込む。 3つのモデルと最先端のハミルトンニューラルネットワークを実証的に比較し、状態変数間の複雑性を緩和する分離可能なハミルトンニューラルネットワークがハミルトンとそのベクトル場を回帰するのにより効果的であることを示す。

The modelling of dynamical systems from discrete observations is a challenge faced by modern scientific and engineering data systems. Hamiltonian systems are one such fundamental and ubiquitous class of dynamical systems. Hamiltonian neural networks are state-of-the-art models that unsupervised-ly regress the Hamiltonian of a dynamical system from discrete observations of its vector field under the learning bias of Hamilton's equations. Yet Hamiltonian dynamics are often complicated, especially in higher dimensions where the state space of the Hamiltonian system is large relative to the number of samples. A recently discovered remedy to alleviate the complexity between state variables in the state space is to leverage the additive separability of the Hamiltonian system and embed that additive separability into the Hamiltonian neural network. Following the nomenclature of physics-informed machine learning, we propose three separable Hamiltonian neural networks. These models embed additive separability within Hamiltonian neural networks. The first model uses additive separability to quadratically scale the amount of data for training Hamiltonian neural networks. The second model embeds additive separability within the loss function of the Hamiltonian neural network. The third model embeds additive separability through the architecture of the Hamiltonian neural network using conjoined multilayer perceptions. We empirically compare the three models against state-of-the-art Hamiltonian neural networks, and demonstrate that the separable Hamiltonian neural networks, which alleviate complexity between the state variables, are more effective at regressing the Hamiltonian and its vector field.
翻訳日:2023-09-07 11:34:32 公開日:2023-09-06
# DoRA:低リソースリアルタイム評価のためのドメインベース自己監視学習フレームワーク

DoRA: Domain-Based Self-Supervised Learning Framework for Low-Resource Real Estate Appraisal ( http://arxiv.org/abs/2309.00855v2 )

ライセンス: Link先を確認
Wei-Wei Du, Wei-Yao Wang, Wen-Chih Peng(参考訳) 需要と供給をつなぐ市場システムは、資産評価において不偏の意思決定を開発するために検討されてきた。 不動産評価は、対応する知識と市場の判断に基づいて見積をドメインの専門家が評価する必要があるため、金融機関の高コスト資産評価タスクの1つとなっている。 ドメインエキスパートの主体性を減らす既存の自動評価モデルは、効果的な評価のために多くのトランザクションを必要としており、トランザクションのラベリング努力だけでなく、新しい発展途上国や農村地域の一般化可能性にも制限されている。 ラベルなしの不動産集合から表現を学習するために、表形式のデータのための既存の自己教師付き学習(SSL)は、様々な重要な特徴を無視し、ドメイン知識を組み込むことができない。 本稿では,低リソース不動産評価のためのドメインベースの自己教師型学習フレームワークDoRAを提案する。 DoRAは、事前のドメイン知識に不動産表現を組み込むための不動産のメタデータに基づいて、プリテキストタスクとしてサンプル内地理的予測を事前訓練する。 さらに、サンプル間コントラスト学習を用いて、下流タスクの限定的なトランザクションに対して堅牢な表現を一般化する。 実世界の取引の3つのプロパティタイプに関するベンチマークの結果から,DoRAは表データ,グラフベースの手法,および教師付きアプローチにおいて,MAPEの少なくとも7.6%,MAEの11.59%,HR10%の3.34%でSSLベースラインを大幅に上回ることがわかった。 我々は、DoRAが新規に構築され、限られた記録を持つプロパティの汎用モデルを必要とする、類似の市場アプリケーションを持つ他の金融実践者にとって有用であることを期待している。 ソースコードはhttps://github.com/wwweiwei/doraで入手できる。

The marketplace system connecting demands and supplies has been explored to develop unbiased decision-making in valuing properties. Real estate appraisal serves as one of the high-cost property valuation tasks for financial institutions since it requires domain experts to appraise the estimation based on the corresponding knowledge and the judgment of the market. Existing automated valuation models reducing the subjectivity of domain experts require a large number of transactions for effective evaluation, which is predominantly limited to not only the labeling efforts of transactions but also the generalizability of new developing and rural areas. To learn representations from unlabeled real estate sets, existing self-supervised learning (SSL) for tabular data neglects various important features, and fails to incorporate domain knowledge. In this paper, we propose DoRA, a Domain-based self-supervised learning framework for low-resource Real estate Appraisal. DoRA is pre-trained with an intra-sample geographic prediction as the pretext task based on the metadata of the real estate for equipping the real estate representations with prior domain knowledge. Furthermore, inter-sample contrastive learning is employed to generalize the representations to be robust for limited transactions of downstream tasks. Our benchmark results on three property types of real-world transactions show that DoRA significantly outperforms the SSL baselines for tabular data, the graph-based methods, and the supervised approaches in the few-shot scenarios by at least 7.6% for MAPE, 11.59% for MAE, and 3.34% for HR10%. We expect DoRA to be useful to other financial practitioners with similar marketplace applications who need general models for properties that are newly built and have limited records. The source code is available at https://github.com/wwweiwei/DoRA.
翻訳日:2023-09-07 11:34:08 公開日:2023-09-06
# StratMed:低リソース医療勧告のための関連戦略

StratMed: Relevance Stratification for Low-resource Medication Recommendation ( http://arxiv.org/abs/2308.16781v3 )

ライセンス: Link先を確認
Xiang Li, Shunpan Liang, Tengfei Ma, Yulei Hou(参考訳) 限られた医療資源と需要の増大の間の不均衡が増し、AIベースの臨床タスクが最重要になっている。 医薬推奨は、医療知識と縦断患者の歴史を融合させることを目的としており、医師がより安全で正確な薬品の組み合わせを処方するのを手助けしている。 既存の手法では、頭部と尾部のデータのバランスの取れた表現が無く、医用データの固有長テール分布を見落としている。 この課題に対処するために、革新的な関連性階層化機構を組み込んだモデルであるStratMedを紹介する。 データの長期分布における相違を調和させ、医薬品の組み合わせの安全性と精度のバランスをとる。 具体的には,まず,深層学習ネットワークを用いた事前学習手法を構築し,エンティティ表現を得る。 その後,不人気エンティティの特徴を補強することにより,より一般化したエンティティ関係を得るために,ピラミッド型データ階層化手法を設計する。 この関係に基づき,医薬の精度と安全性を同時に表現し,訪問表現を得るための2つのグラフ構造を設計した。 最後に、患者の過去の臨床情報は、現在の健康状態の薬剤の組み合わせを生成するために適合する。 MIMIC-IIIデータセットを用いた実験により,本手法は4つの評価指標(安全性と精度を含む)において,最先端の手法よりも優れていることが示された。

With the growing imbalance between limited medical resources and escalating demands, AI-based clinical tasks have become paramount. Medication recommendation, as a sub-domain, aims to amalgamate longitudinal patient history with medical knowledge, assisting physicians in prescribing safer and more accurate medication combinations. Existing methods overlook the inherent long-tail distribution in medical data, lacking balanced representation between head and tail data, which leads to sub-optimal model performance. To address this challenge, we introduce StratMed, a model that incorporates an innovative relevance stratification mechanism. It harmonizes discrepancies in data long-tail distribution and strikes a balance between the safety and accuracy of medication combinations. Specifically, we first construct a pre-training method using deep learning networks to obtain entity representation. After that, we design a pyramid-like data stratification method to obtain more generalized entity relationships by reinforcing the features of unpopular entities. Based on this relationship, we designed two graph structures to express medication precision and safety at the same level to obtain visit representations. Finally, the patient's historical clinical information is fitted to generate medication combinations for the current health condition. Experiments on the MIMIC-III dataset demonstrate that our method has outperformed current state-of-the-art methods in four evaluation metrics (including safety and accuracy).
翻訳日:2023-09-07 11:33:38 公開日:2023-09-06
# 小ささに耳を傾ける: クラス不均衡のための暗号化されたトラフィック分類

Listen to Minority: Encrypted Traffic Classification for Class Imbalance with Contrastive Pre-Training ( http://arxiv.org/abs/2308.16453v3 )

ライセンス: Link先を確認
Xiang Li, Juncheng Guo, Qige Song, Jiang Xie, Yafei Sang, Shuyuan Zhao, and Yongzheng Zhang(参考訳) モバイルインターネットは、様々な面で現代のライフスタイルを大きく変えてきた。 暗号化トラフィック分類(ETC)は、モバイルインターネットの管理において、特に暗号化通信を用いたモバイルアプリの爆発的な成長において、自然に重要な役割を果たす。 既存の学習ベースのETC手法では有望な結果を示しているが、現実のネットワーク環境では3倍の制限が残っている。 1)交通階級の不均衡によるラベルバイアス 2)部品共有による交通の均質性 3)十分なラベル付きトラフィックに依存したトレーニング。 既存のETCメソッドではこれらの制限に対処できない。 本稿では,新しい事前学習型etcフレームワークであるpassを提案する。 私たちの重要な洞察は、オリジナルのトレインデータセットを再サンプリングし、個々のアプリラベルを直接使用せずにコントラスト的な事前トレーニングを実行することで、クラス不均衡に起因するラベルバイアスの問題を回避すると同時に、前向きなトラフィックペアを近付け、負のペアを遠ざけることで、重複する同種トラフィックを区別する堅牢な特徴表現を得ることです。 一方,PASSは擬似ラベル反復と動的損失重み付けアルゴリズムに基づく半教師付き最適化戦略を設計し,大規模ラベル付きトラフィックデータを効果的に活用し,手動列車のデータセットアノテーションの作業量を軽減する。 PASSは、クラス不均衡とトラフィックの均一性の著しい4つの公開データセットに対して、最先端のETC法と一般的なサンプリング手法を上回り、Cross-Platform215のF1を1.31%、ICCX-17を9.12%で圧倒した。 さらに,様々な特徴抽出器を用いたetcメソッドを適応的に活用できるpassのコントラストプレトレーニングおよび擬似ラベル反復コンポーネントの汎用性を検証する。

Mobile Internet has profoundly reshaped modern lifestyles in various aspects. Encrypted Traffic Classification (ETC) naturally plays a crucial role in managing mobile Internet, especially with the explosive growth of mobile apps using encrypted communication. Despite some existing learning-based ETC methods showing promising results, three-fold limitations still remain in real-world network environments, 1) label bias caused by traffic class imbalance, 2) traffic homogeneity caused by component sharing, and 3) training with reliance on sufficient labeled traffic. None of the existing ETC methods can address all these limitations. In this paper, we propose a novel Pre-trAining Semi-Supervised ETC framework, dubbed PASS. Our key insight is to resample the original train dataset and perform contrastive pre-training without using individual app labels directly to avoid label bias issues caused by class imbalance, while obtaining a robust feature representation to differentiate overlapping homogeneous traffic by pulling positive traffic pairs closer and pushing negative pairs away. Meanwhile, PASS designs a semi-supervised optimization strategy based on pseudo-label iteration and dynamic loss weighting algorithms in order to effectively utilize massive unlabeled traffic data and alleviate manual train dataset annotation workload. PASS outperforms state-of-the-art ETC methods and generic sampling approaches on four public datasets with significant class imbalance and traffic homogeneity, remarkably pushing the F1 of Cross-Platform215 with 1.31%, ISCX-17 with 9.12%. Furthermore, we validate the generality of the contrastive pre-training and pseudo-label iteration components of PASS, which can adaptively benefit ETC methods with diverse feature extractors.
翻訳日:2023-09-07 11:33:15 公開日:2023-09-06
# 計測タンパ検出ベンチマーク

Benchmarks for Detecting Measurement Tampering ( http://arxiv.org/abs/2308.15605v3 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas(参考訳) 複雑なタスクを実行するために強力なAIシステムをトレーニングする場合、最適化に堅牢なトレーニング信号を提供することは困難である。 ひとつは \textit{measurement tampering} で、aiシステムは望ましい結果を得るのではなく、良い結果の錯覚を作り出すために複数の測定値を操作する。 本研究では,大規模言語モデルにおける計測改ざん検出手法を評価するために,新たに4つのテキストベースデータセットを構築した。 具体的には、何らかの結果が生じたかどうかを判断するためのテキスト入力と測定のセットと、測定結果を正確に予測できるベースモデルが与えられた場合、すべての測定結果が実際に結果が生じたかどうかを示す例、測定の改ざんによって引き起こされたかどうかを判断する。 ほとんどのデータセットで単純なベースラインを上回りますが、最大パフォーマンスは達成できません。 技術とデータセットの両方に改善の余地があると信じており、測定の改ざんに取り組む今後の作業に興奮しています。

When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is \textit{measurement tampering}, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome occurred actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don't achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
翻訳日:2023-09-07 11:32:25 公開日:2023-09-06
# コンフリクト対応アクティブオートマトン学習(拡張版)

Conflict-Aware Active Automata Learning (Extended Version) ( http://arxiv.org/abs/2308.14781v3 )

ライセンス: Link先を確認
Tiago Ferreira, L\'eo Henry, Raquel Fernandes da Silva and Alexandra Silva(参考訳) アクティブオートマトン学習アルゴリズムは、観測データ(同じ入力で観測された異なる出力)の衝突を容易に処理できない。 紛争後に回復できないこの本質的な障害は、ノイズが存在する場合や学習中のシステムが変化している場合において、効果的な適用性を損なう。 本稿では,学習過程において矛盾する情報を扱えるように,C3AL(Conflict-Aware Active Automata Learning)フレームワークを提案する。 中心となるアイデアは、いわゆる観察木を学習プロセスの第一級市民とみなすことである。 このアイデアは最近の研究で検討されているが、既存の学習者との使用を可能にするとともに、特に対立に直面したシステム上で実施されるテストの数を最小化することで、その効果を最大限に活用する。 我々はC3ALを大規模なベンチマークで評価し、30以上の現実的なターゲットと18,000以上のシナリオをカバーした。 評価の結果、C3ALはノイズや突然変異をよりよく扱えるクローズドボックス学習に適したフレームワークであることがわかった。

Active automata learning algorithms cannot easily handle conflict in the observation data (different outputs observed for the same inputs). This inherent inability to recover after a conflict impairs their effective applicability in scenarios where noise is present or the system under learning is mutating. We propose the Conflict-Aware Active Automata Learning (C3AL) framework to enable handling conflicting information during the learning process. The core idea is to consider the so-called observation tree as a first-class citizen in the learning process. Though this idea is explored in recent work, we take it to its full effect by enabling its use with any existing learner and minimizing the number of tests performed on the system under learning, specially in the face of conflicts. We evaluate C3AL in a large set of benchmarks, covering over 30 different realistic targets, and over 18,000 different scenarios. The results of the evaluation show that C3AL is a suitable alternative framework for closed-box learning that can better handle noise and mutations.
翻訳日:2023-09-07 11:32:06 公開日:2023-09-06
# 1次元量子多体系における活性誘起強磁性

Activity-induced ferromagnetism in one-dimensional quantum many-body systems ( http://arxiv.org/abs/2308.04382v3 )

ライセンス: Link先を確認
Kazuaki Takasan, Kyosuke Adachi, Kyogo Kawaguchi(参考訳) 自己推進体のアンサンブルである活性物質は、様々な非平衡相転移を示す。 ここでは、ビクセクモデルに類似した1次元の非エルミート量子多体モデルを構築し、その量子相転移を調べる。 このモデルは強磁性相互作用と活性を持つ2成分ハードコアボソン、すなわちスピン依存非対称ホッピングからなる。 数値的な結果は、強磁性相互作用を伴わずに生き残るフラッキングの量子対する活性によって誘導される強磁性秩序の出現を示す。 我々は、一般的に活性が常磁性状態の基底状態エネルギーを増加させるが、強磁性状態の基底状態エネルギーは変化しないことを示す。 この2粒子の場合を解いた結果, 常磁性状態における非エルミート皮膚効果による拘束状態形成を回避し, 効果的なアライメントが得られた。 この効果を考慮に入れ、二点平均場理論を用いて位相図を定性的に再現する。 さらに,ハードコア条件が緩和されたモデルの変形を数値的に検討し,強磁性秩序のロバスト性を確認した。

Active matter, an ensemble of self-propelled entities, exhibits various nonequilibrium phase transitions. Here we construct a non-Hermitian quantum many-body model in one dimension analogous to the Vicsek model, and investigate its quantum phase transitions. The model consists of two-component hard-core bosons with ferromagnetic interactions and activity, i.e., spin-dependent asymmetric hopping. Numerical results show the emergence of a ferromagnetic order induced by the activity, a quantum counterpart of flocking, that even survives without the ferromagnetic interaction. We prove that activity generally increases the ground state energies of the paramagnetic states, whereas the ground state energy of the ferromagnetic state does not change. By solving the two-particle case, we find that this effective alignment is caused by avoiding the bound state formation due to the non-Hermitian skin effect in the paramagnetic state. To take this effect into account, we employ a two-site mean-field theory and qualitatively reproduce the phase diagram. We further numerically study a variant of our model, where the hard-core condition is relaxed, and confirm the robustness of the ferromagnetic order.
翻訳日:2023-09-07 11:31:47 公開日:2023-09-06
# 外乱検出のためのカーネルランダム投影深さ

Kernel Random Projection Depth for Outlier Detection ( http://arxiv.org/abs/2306.07056v4 )

ライセンス: Link先を確認
Akira Tamamori(参考訳) 本稿では,データクラウド上の複数のモダリティと非凸性に対処するために,ランダム射影深さ(rpd)の拡張を提案する。 提案手法の枠組みでは、RCDは再生カーネルヒルベルト空間で計算される。 カーネル主成分分析の助けを借りて,提案手法が上記の多重様相と非凸性に対応することを期待する。 実験結果は,提案手法がrdpよりも優れており,受信機動作特性(roc)の曲線下領域(aucs)に関するベンチマークデータセットの既存の検出モデルと同等であることを示す。

This paper proposes an extension of Random Projection Depth (RPD) to cope with multiple modalities and non-convexity on data clouds. In the framework of the proposed method, the RPD is computed in a reproducing kernel Hilbert space. With the help of kernel principal component analysis, we expect that the proposed method can cope with the above multiple modalities and non-convexity. The experimental results demonstrate that the proposed method outperforms RPD and is comparable to other existing detection models on benchmark datasets regarding Area Under the Curves (AUCs) of Receiver Operating Characteristic (ROC).
翻訳日:2023-09-07 11:31:29 公開日:2023-09-06
# 神経放射野の瞬時連続学習

Instant Continual Learning of Neural Radiance Fields ( http://arxiv.org/abs/2309.01811v2 )

ライセンス: Link先を確認
Ryan Po, Zhengyang Dong, Alexander W. Bergman, Gordon Wetzstein(参考訳) ニューラルレイディアンス場(NeRF)は,新規な視点合成と3次元シーン再構成の有効な方法として出現している。 しかし,従来のトレーニング手法では,シーン最適化時にすべてのトレーニングビューにアクセスする必要がある。 この仮定は、自動車やリモートセンシングアプリケーションのように、新しいデータが逐次的に取得され、NeRFの継続的な更新が望まれる連続的な学習シナリオでは禁止される。 このような継続的な環境で自然に訓練された場合、伝統的なシーン表現フレームワークは壊滅的な忘れに苦しむ。 NeRFによる忘れを緩和する以前の作業は、再構築品質が低く、レイテンシが高いため、現実のアプリケーションでは実用的ではない。 本稿では,リプレイに基づく手法とハイブリッドな明示的シーン表現を併用したNeRFの連続学習フレームワークを提案する。 本手法は,1桁の速さという付加的な利点を生かしながら,連続的に訓練された場合の復元品質の従来の手法を上回っている。

Neural radiance fields (NeRFs) have emerged as an effective method for novel-view synthesis and 3D scene reconstruction. However, conventional training methods require access to all training views during scene optimization. This assumption may be prohibitive in continual learning scenarios, where new data is acquired in a sequential manner and a continuous update of the NeRF is desired, as in automotive or remote sensing applications. When naively trained in such a continual setting, traditional scene representation frameworks suffer from catastrophic forgetting, where previously learned knowledge is corrupted after training on new data. Prior works in alleviating forgetting with NeRFs suffer from low reconstruction quality and high latency, making them impractical for real-world application. We propose a continual learning framework for training NeRFs that leverages replay-based methods combined with a hybrid explicit--implicit scene representation. Our method outperforms previous methods in reconstruction quality when trained in a continual setting, while having the additional benefit of being an order of magnitude faster.
翻訳日:2023-09-07 11:25:18 公開日:2023-09-06
# neural-singular-hessian: impcing singular hessianによる無向点雲の暗黙的神経表現

Neural-Singular-Hessian: Implicit Neural Representation of Unoriented Point Clouds by Enforcing Singular Hessian ( http://arxiv.org/abs/2309.01793v2 )

ライセンス: Link先を確認
Zixiong Wang, Yunxiao Zhang, Rui Xu, Fan Zhang, Pengshuai Wang, Shuangmin Chen, Shiqing Xin, Wenping Wang, Changhe Tu(参考訳) ニューラル暗黙的表現は、点雲から表面を再構築するための有望なアプローチである。 既存の方法は、アイコンエネルギー項やラプラシアエネルギー項のような様々な正規化項を組み合わせて、学習された神経関数を符号付き距離関数(SDF)の性質を持つように強制する。 しかし、低品質な無向点雲から表面の実際の位相と幾何学を推定することは依然として困難である。 微分幾何学に従って、SDFのヘッセンは表面を囲む微分薄い殻空間内の点に対して特異である。 提案手法は, 表面近傍の点に対してゼロ行列式を持つようにニューラル暗黙関数のヘシアンを強制する。 この手法は、表面近傍の点とその表面の射影点の勾配を整列させ、わずか数イテレーションで粗いが忠実な形状を作り出す。 特異ヘッセン項の重みをアニールすることで、このアプローチは最終的に高忠実な再構成結果をもたらす。 その結果,本手法はゴースト形状を効果的に抑制し,既存のフィッティング法よりも表現性がよい無向点雲から詳細を復元することを示した。

Neural implicit representation is a promising approach for reconstructing surfaces from point clouds. Existing methods combine various regularization terms, such as the Eikonal and Laplacian energy terms, to enforce the learned neural function to possess the properties of a Signed Distance Function (SDF). However, inferring the actual topology and geometry of the underlying surface from poor-quality unoriented point clouds remains challenging. In accordance with Differential Geometry, the Hessian of the SDF is singular for points within the differential thin-shell space surrounding the surface. Our approach enforces the Hessian of the neural implicit function to have a zero determinant for points near the surface. This technique aligns the gradients for a near-surface point and its on-surface projection point, producing a rough but faithful shape within just a few iterations. By annealing the weight of the singular-Hessian term, our approach ultimately produces a high-fidelity reconstruction result. Extensive experimental results demonstrate that our approach effectively suppresses ghost geometry and recovers details from unoriented point clouds with better expressiveness than existing fitting-based methods.
翻訳日:2023-09-07 11:24:58 公開日:2023-09-06
# CONFIDERAI: 説明可能で信頼性の高い人工知能のための新しいコンフォーマル・インタプリタブル・バイ・デザインスコア関数

CONFIDERAI: a novel CONFormal Interpretable-by-Design score function for Explainable and Reliable Artificial Intelligence ( http://arxiv.org/abs/2309.01778v2 )

ライセンス: Link先を確認
Alberto Carlevaro, Sara Narteni, Fabrizio Dabbene, Marco Muselli and Maurizio Mongelli(参考訳) 日々の生活は人工知能の影響をますます受けており、機械学習アルゴリズムが誰にとっても信頼性と信頼性を持つように設計されなければならないことは疑いない。 特に、コンピュータ科学者は、説明可能性、堅牢性、透明性、公平性、プライバシーの5つの柱を満たせば、人工知能システムは安全で信頼できるものと考える。 これら5つに加えて,第6の基本的な側面を提案する。 適合性,すなわち,システムが学習者が期待するとおりに振る舞う確率的保証。 本論文では,ルール予測能力と規則境界内の幾何学的位置を両立するルールベースモデルのための新しいスコア関数であるCONFIDERAIを定義することにより,共形予測と説明可能な機械学習を結びつける手法を提案する。 また, サポートベクトルデータ記述(SVDD)に基づいて, 共形領域における非整形標本数を制御する手法を利用して, 共形保証を満足する特徴空間内の領域を定義する問題にも対処する。 全体的な方法論は、DNSトンネル検出や心臓血管疾患の予測など、ベンチマークや実際のデータセットで有望な結果でテストされている。

Everyday life is increasingly influenced by artificial intelligence, and there is no question that machine learning algorithms must be designed to be reliable and trustworthy for everyone. Specifically, computer scientists consider an artificial intelligence system safe and trustworthy if it fulfills five pillars: explainability, robustness, transparency, fairness, and privacy. In addition to these five, we propose a sixth fundamental aspect: conformity, that is, the probabilistic assurance that the system will behave as the machine learner expects. In this paper, we propose a methodology to link conformal prediction with explainable machine learning by defining CONFIDERAI, a new score function for rule-based models that leverages both rules predictive ability and points geometrical position within rules boundaries. We also address the problem of defining regions in the feature space where conformal guarantees are satisfied by exploiting techniques to control the number of non-conformal samples in conformal regions based on support vector data description (SVDD). The overall methodology is tested with promising results on benchmark and real datasets, such as DNS tunneling detection or cardiovascular disease prediction.
翻訳日:2023-09-07 11:24:37 公開日:2023-09-06
# 新型コロナウイルスctスキャンにおけるゼロショットマルチラベル分類の経験的解析と未確認報告

An Empirical Analysis for Zero-Shot Multi-Label Classification on COVID-19 CT Scans and Uncurated Reports ( http://arxiv.org/abs/2309.01740v2 )

ライセンス: Link先を確認
Ethan Dack, Lorenzo Brigato, Matthew McMurray, Matthias Fontanellaz, Thomas Frauenfelder, Hanno Hoppe, Aristomenis Exadaktylos, Thomas Geiser, Manuela Funke-Chambour, Andreas Christe, Lukas Ebner, Stavroula Mougiakakou(参考訳) パンデミックは、医学検査の増加により、放射線学の報告を含む膨大な非構造データを蓄積した。 新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。 本研究では,病院の非構造化データを活用し,ctスキャンで提供される細かな詳細情報を活用して,コントラスト的視覚言語学習に基づくゼロショットマルチラベル分類を行う。 ヒトの専門家と共同で、放射線技師が肺塞栓症を検知し、地面ガラスの透明度や凝縮のような複雑な肺の詳細を特定するのに役立つ複数のゼロショットモデルの有効性について検討した。 これまでの医療用マルチモーダルプリトレーニング文献では見過ごされていた,このようなきめ細かなタスクを対象とする可能なソリューションの概要を実証的に分析した。 本研究は,非構造化データと細粒度マルチラベル分類に関連する課題に対処することで,医療画像解析コミュニティの今後の進歩を約束する。

The pandemic resulted in vast repositories of unstructured data, including radiology reports, due to increased medical examinations. Previous research on automated diagnosis of COVID-19 primarily focuses on X-ray images, despite their lower precision compared to computed tomography (CT) scans. In this work, we leverage unstructured data from a hospital and harness the fine-grained details offered by CT scans to perform zero-shot multi-label classification based on contrastive visual language learning. In collaboration with human experts, we investigate the effectiveness of multiple zero-shot models that aid radiologists in detecting pulmonary embolisms and identifying intricate lung details like ground glass opacities and consolidations. Our empirical analysis provides an overview of the possible solutions to target such fine-grained tasks, so far overlooked in the medical multimodal pretraining literature. Our investigation promises future advancements in the medical image analysis community by addressing some challenges associated with unstructured data and fine-grained multi-label classification.
翻訳日:2023-09-07 11:24:18 公開日:2023-09-06
# 単一人工原子を駆動するコヒーレント波の進化

Evolution of coherent waves driving a single artificial atom ( http://arxiv.org/abs/2309.01563v2 )

ライセンス: Link先を確認
A. V. Vasenin, Sh. V. Kadyrmetov, A. N. Bolgar, A. Yu. Dmitriev, O. V. Astafiev(参考訳) 強く結合した超伝導人工二層原子で導波路を伝播する電磁波は、原子と進化する重ね合わせを示す。 原子中のラビの振動は、光子吸収と磁場への励起放出に対応する単一の励起緩和によって生じる。 本研究では,送信フィールドの時間依存性の挙動を調査し,そのスペクトルを抽出する。 散乱場は入出力理論を用いて記述される。 相互作用による伝播場の時間進化は、原子に関する全ての情報をカプセル化することを示した。 さらに, 被測定1次相関関数から非コヒーレント放射成分のダイナミクスを導出する。

An electromagnetic wave propagating through a waveguide with a strongly coupled superconducting artificial two-level atom exhibits an evolving superposition with the atom. The Rabi oscillations in the atom result from a single excitation-relaxation, corresponding to photon absorption and stimulated emission from/to the field. In this study, we investigate the time-dependent behavior of the transmitted field and extract its spectra. The scattered fields are described using input-output theory. We demonstrate that the time evolution of the propagating fields, due to interaction, encapsulates all information about the atom. Additionally, we deduce the dynamics of the incoherent radiation component from the measured first-order correlation function of the field.
翻訳日:2023-09-07 11:23:57 公開日:2023-09-06
# TSTTC:運転シナリオにおける時間対接触推定のための大規模データセット

TSTTC: A Large-Scale Dataset for Time-to-Contact Estimation in Driving Scenarios ( http://arxiv.org/abs/2309.01539v2 )

ライセンス: Link先を確認
Yuheng Shi, Zehao Huang, Yan Yan, Naiyan Wang, Xiaojie Guo(参考訳) 衝突リスクの評価にはttc(time-to-contact)推定が重要であり、様々な運転支援システムや自動運転システムで広く使われている。 過去数十年間、関連する理論やアルゴリズムの開発が見られた。 一般的な学習ベースの手法は、現実世界のシナリオで大規模なTTCデータセットを要求する。 本稿では,単眼カメラによるttc推定を促進するために,運転シーンにおける大規模オブジェクト指向ttcデータセットを提案する。 貴重なサンプルを収集し、TTC値の異なるデータを比較的バランスよく作成するために、数千時間の駆動データを経て、プリセットされたデータ分布で200K以上のシーケンスを選択する。 小型TTC症例の量を増大させるため,最新のニューラルレンダリング手法を用いてクリップを生成する。 さらに,TTC推定ベースラインを複数提供し,提案したデータセットに基づいて評価を行い,その効果を実証する。 提案されたデータセットはhttps://open-dataset.tusen.ai/TSTTCで公開されている。

Time-to-Contact (TTC) estimation is a critical task for assessing collision risk and is widely used in various driver assistance and autonomous driving systems. The past few decades have witnessed development of related theories and algorithms. The prevalent learning-based methods call for a large-scale TTC dataset in real-world scenarios. In this work, we present a large-scale object oriented TTC dataset in the driving scene for promoting the TTC estimation by a monocular camera. To collect valuable samples and make data with different TTC values relatively balanced, we go through thousands of hours of driving data and select over 200K sequences with a preset data distribution. To augment the quantity of small TTC cases, we also generate clips using the latest Neural rendering methods. Additionally, we provide several simple yet effective TTC estimation baselines and evaluate them extensively on the proposed dataset to demonstrate their effectiveness. The proposed dataset is publicly available at https://open-dataset.tusen.ai/TSTTC.
翻訳日:2023-09-07 11:23:49 公開日:2023-09-06
# 4ビット状態のメモリ効率最適化

Memory Efficient Optimizers with 4-bit States ( http://arxiv.org/abs/2309.01507v2 )

ライセンス: Link先を確認
Bingrui Li, Jianfei Chen, Jun Zhu(参考訳) 最適化状態は、ニューラルネットワークをトレーニングするための主要なメモリ消費源であり、与えられたメモリ予算内で最大のトレーニング可能なモデルを制限する。 32ビット浮動小数点から低ビット幅へのオプティマイザ状態の圧縮は、トレーニングメモリフットプリントの削減を約束している。 本研究では,第1モーメントと第2モーメントの詳細な実験解析を通じて,オプティマイザ状態のビット幅を4ビットまで押し下げる。 特に、モーメントには複雑な外れ値パターンがあり、現在のブロックワイズ量子化は正確に近似できない。 ブロックサイズを小さくし,列情報と列情報の両方を用いて量子化を改善することを提案する。 さらに、第2モーメントを量子化するゼロ点問題を特定し、零点を除外する線形量子化器を用いてこの問題を解決する。 4ビットオプティマイザは,自然言語理解,機械翻訳,画像分類,命令チューニングなど,さまざまなベンチマークで評価されている。 すべてのタスクにおいて、最適化者は、より優れたメモリ効率を享受しながら、完全な精度で同等の精度を達成できます。

Optimizer states are a major source of memory consumption for training neural networks, limiting the maximum trainable model within given memory budget. Compressing the optimizer states from 32-bit floating points to lower bitwidth is promising to reduce the training memory footprint, while the current lowest achievable bitwidth is 8-bit. In this work, we push optimizer states bitwidth down to 4-bit through a detailed empirical analysis of first and second moments. Specifically, we find that moments have complicated outlier patterns, that current block-wise quantization cannot accurately approximate. We use a smaller block size and propose to utilize both row-wise and column-wise information for better quantization. We further identify a zero point problem of quantizing the second moment, and solve this problem with a linear quantizer that excludes the zero point. Our 4-bit optimizer is evaluated on a wide variety of benchmarks including natural language understanding, machine translation, image classification, and instruction tuning. On all the tasks our optimizers can achieve comparable accuracy with their full-precision counterparts, while enjoying better memory efficiency.
翻訳日:2023-09-07 11:23:34 公開日:2023-09-06
# ビジョンランゲージ事前学習モデルのパラメータと計算効率向上学習

Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models ( http://arxiv.org/abs/2309.01479v2 )

ライセンス: Link先を確認
Qiong Wu, Wei Yu, Yiyi Zhou, Shubin Huang, Xiaoshuai Sun, Rongrong Ji(参考訳) パラメータや計算の増大に伴い、視覚言語事前訓練(VLP)モデルは下流のタスク適応において不当な支出を示す。 近年の取り組みは,少数のパラメータを更新するだけで,VLPモデルのパラメータ効率のよい転送学習(PETL)に焦点を当てている。 しかしながら、過剰な計算オーバーヘッドはVLPの適用を悩ませている。 本稿では,VLPモデルに対するパラメータと計算効率のよい伝達学習(PCETL)を提案する。 特に、PCETLは、VLPモデルのトレーニング可能なパラメータの数を制限するだけでなく、推論時の計算冗長性を低減し、より効率的な転送を可能にする。 そこで本研究では,新しい動的アーキテクチャスキップ (DAS) アプローチをPCETLに提案する。 VLPモデルの本質的なアーキテクチャを直接最適化する代わりに、DASはまず、強化学習(RL)ベースのプロセスを通じて、下流タスクに対するモジュールの重要性を観察し、得られた報酬に従って、軽量ネットワーク、すなわちアダプタで冗長なモジュールをスキップする。 この場合、VLPモデルは、下流タスクでの推論を高速化しながら、トレーニング可能なパラメータのスケールを適切に維持することができる。 DASを検証するために、VLTとMETERという2つの代表的なVLPモデルに適用し、多数のVLタスクについて広範な実験を行う。 実験結果は、例えば、VQA2.0上でのMETERの-11.97% FLOPsのような計算複雑性の削減におけるDASの大きな利点を示すだけでなく、パラメータスケールと性能の観点から既存のPETL法との競合性も確認している。 ソースコードは付録に書かれています。

With ever increasing parameters and computation, vision-language pre-trained (VLP) models exhibit prohibitive expenditure in downstream task adaption. Recent endeavors mainly focus on parameter efficient transfer learning (PETL) for VLP models by only updating a small number of parameters. However, excessive computational overhead still plagues the application of VLPs. In this paper, we aim at parameter and computation efficient transfer learning (PCETL) for VLP models. In particular, PCETL not only needs to limit the number of trainable parameters in VLP models, but also to reduce the computational redundancy during inference, thus enabling a more efficient transfer. To approach this target, we propose a novel dynamic architecture skipping (DAS) approach towards effective PCETL. Instead of directly optimizing the intrinsic architectures of VLP models, DAS first observes the significances of their modules to downstream tasks via a reinforcement learning (RL) based process, and then skips the redundant ones with lightweight networks, i.e., adapters, according to the obtained rewards. In this case, the VLP model can well maintain the scale of trainable parameters while speeding up its inference on downstream tasks. To validate DAS, we apply it to two representative VLP models, namely ViLT and METER, and conduct extensive experiments on a bunch of VL tasks. The experimental results not only show the great advantages of DAS in reducing computational complexity, e.g. -11.97% FLOPs of METER on VQA2.0, but also confirm its competitiveness against existing PETL methods in terms of parameter scale and performance. Our source code is given in our appendix.
翻訳日:2023-09-07 11:23:14 公開日:2023-09-06
# 大きな分離可能なカーネルアテンション:CNNにおけるカーネルアテンション設計の再考

Large Separable Kernel Attention: Rethinking the Large Kernel Attention Design in CNN ( http://arxiv.org/abs/2309.01439v2 )

ライセンス: Link先を確認
Kin Wai Lau, Lai-Man Po, Yasar Abbas Ur Rehman(参考訳) 大型カーネル・アテンション(LKA)モジュールを備えたビジュアル・アテンション・ネットワーク(VAN)は、視覚ベースのタスクにおいてビジョン・トランスフォーマー(ViT)を超える優れたパフォーマンスを提供する。 しかし、これらのlkaモジュールの深さ方向の畳み込み層は畳み込みカーネルサイズの増加とともに計算量とメモリフットプリントの二次的な増加をもたらす。 これらの問題を緩和し,VANのアテンションモジュールにおいて極めて大きな畳み込みカーネルの使用を可能にするため,LSKAと呼ばれる大型分離カーネルアテンションモジュール群を提案する。 lskaは深さ方向の畳み込み層の2次元畳み込み核を水平および垂直な1次元核に分解する。 標準LKA設計とは対照的に、提案した分解により、余分なブロックを必要とせず、大きなカーネルをアテンションモジュールに配置した奥行きの畳み込み層を直接利用できる。 VANのLSKAモジュールは,標準LKAモジュールと同等の性能を示し,計算量やメモリフットプリントの低減を図っている。 また,提案したLSKA設計は,カーネルサイズの増加に伴うテクスチャよりも,VANを物体の形状に偏りがあることが判明した。 さらに、VAN、ViTs、最近のConvNeXtにおけるLKAとLSKAの堅牢さを、以前の研究でほとんど明らかにされていないImageNetデータセットの5つの破損バージョンについてベンチマークする。 広範な実験結果から,vanにおける提案するlskaモジュールは,vitsやconvnextよりもパフォーマンスが向上する一方で,カーネルサイズを増加させ,計算複雑性とメモリフットプリントを大幅に削減し,オブジェクト認識,オブジェクト検出,セマンティックセグメンテーション,ロバストネステストにおいてlkaモジュールと同等の性能を提供することが示された。

Visual Attention Networks (VAN) with Large Kernel Attention (LKA) modules have been shown to provide remarkable performance, that surpasses Vision Transformers (ViTs), on a range of vision-based tasks. However, the depth-wise convolutional layer in these LKA modules incurs a quadratic increase in the computational and memory footprints with increasing convolutional kernel size. To mitigate these problems and to enable the use of extremely large convolutional kernels in the attention modules of VAN, we propose a family of Large Separable Kernel Attention modules, termed LSKA. LSKA decomposes the 2D convolutional kernel of the depth-wise convolutional layer into cascaded horizontal and vertical 1-D kernels. In contrast to the standard LKA design, the proposed decomposition enables the direct use of the depth-wise convolutional layer with large kernels in the attention module, without requiring any extra blocks. We demonstrate that the proposed LSKA module in VAN can achieve comparable performance with the standard LKA module and incur lower computational complexity and memory footprints. We also find that the proposed LSKA design biases the VAN more toward the shape of the object than the texture with increasing kernel size. Additionally, we benchmark the robustness of the LKA and LSKA in VAN, ViTs, and the recent ConvNeXt on the five corrupted versions of the ImageNet dataset that are largely unexplored in the previous works. Our extensive experimental results show that the proposed LSKA module in VAN provides a significant reduction in computational complexity and memory footprints with increasing kernel size while outperforming ViTs, ConvNeXt, and providing similar performance compared to the LKA module in VAN on object recognition, object detection, semantic segmentation, and robustness tests.
翻訳日:2023-09-07 11:22:47 公開日:2023-09-06
# 非巡回性保証を用いた微分ベイズ構造学習

Differentiable Bayesian Structure Learning with Acyclicity Assurance ( http://arxiv.org/abs/2309.01392v2 )

ライセンス: Link先を確認
Quang-Duy Tran, Phuoc Nguyen, Bao Duong, Thin Nguyen(参考訳) 構造学習タスクにおけるスコアベースのアプローチは、スケーラビリティのために成功しています。 継続的緩和がこの進歩の重要な理由です。 有望な結果を達成するにも拘わらず、これらの手法の多くは、定義されたスコアを最小化することで、潜在空間から生成されたグラフが非循環であることを保証するのに依然として苦労している。 また、グラフの探索空間を制限するため、有向非巡回グラフにおける変数の位相的順序付けの探索についても、置換に基づくアプローチの別の傾向がある。 本研究では、トポロジ的順序付けからの知識の統合によりグラフの非循環性を厳格に制約する代替手法を提案する。 我々のアプローチは、生成されたグラフの構造を非循環にしつつ、推論の複雑さを低減できる。 シミュレーションおよび実世界データを用いた実験により,提案手法が関連するベイズスコアベースアプローチに勝ることを示した。

Score-based approaches in the structure learning task are thriving because of their scalability. Continuous relaxation has been the key reason for this advancement. Despite achieving promising outcomes, most of these methods are still struggling to ensure that the graphs generated from the latent space are acyclic by minimizing a defined score. There has also been another trend of permutation-based approaches, which concern the search for the topological ordering of the variables in the directed acyclic graph in order to limit the search space of the graph. In this study, we propose an alternative approach for strictly constraining the acyclicty of the graphs with an integration of the knowledge from the topological orderings. Our approach can reduce inference complexity while ensuring the structures of the generated graphs to be acyclic. Our empirical experiments with simulated and real-world data show that our approach can outperform related Bayesian score-based approaches.
翻訳日:2023-09-07 11:22:13 公開日:2023-09-06
# 文脈埋め込みを用いた置換に基づく意味変化検出

Substitution-based Semantic Change Detection using Contextual Embeddings ( http://arxiv.org/abs/2309.02403v2 )

ライセンス: Link先を確認
Dallas Card(参考訳) セマンティックな変化の測定は、静的な単語ベクトルのみに依存する単純な手法によって、コンテキスト埋め込みを用いた手法の改善に苦慮している。 さらに、以前に提案されたアプローチの多くは、スケーラビリティと解釈の容易さに関するマイナス面に苦しめられている。 本稿では,文脈埋め込みを用いた意味的変化を測定するための簡易な手法を提案する。 このアプローチは直接解釈可能であるだけでなく、ストレージの観点からもはるかに効率的であり、このタスクで最も頻繁に引用されるデータセット全体で優れた平均性能を達成し、静的ワードベクターよりも変更の微妙な調査を可能にする。

Measuring semantic change has thus far remained a task where methods using contextual embeddings have struggled to improve upon simpler techniques relying only on static word vectors. Moreover, many of the previously proposed approaches suffer from downsides related to scalability and ease of interpretation. We present a simplified approach to measuring semantic change using contextual embeddings, relying only on the most probable substitutes for masked terms. Not only is this approach directly interpretable, it is also far more efficient in terms of storage, achieves superior average performance across the most frequently cited datasets for this task, and allows for more nuanced investigation of change than is possible with static word vectors.
翻訳日:2023-09-07 11:13:29 公開日:2023-09-06
# FSD:中国初のフェイクソング検出用データセット

FSD: An Initial Chinese Dataset for Fake Song Detection ( http://arxiv.org/abs/2309.02232v2 )

ライセンス: Link先を確認
Yuankun Xie, Jingjing Zhou, Xiaolin Lu, Zhenghao Jiang, Yuxin Yang, Haonan Cheng, Long Ye(参考訳) 歌声合成と歌声変換は著しく進歩し、音楽体験に革命をもたらした。 しかし、これらの技術が生み出した「ディープフェイクソング」の台頭は、真偽を懸念させる。 Audio DeepFake Detection (ADD)とは異なり、歌のディープフェイク検出の分野には、歌の認証のための特別なデータセットや方法がない。 本稿ではまず,中国語のFake Song Detection(FSD)データセットを構築し,曲のディープフェイク検出の分野について検討する。 FSDデータセットの偽曲は、5つの最先端の歌声合成と歌声変換方法によって生成される。 FSDの初期実験では,既存の音声学習型ADDモデルが歌のディープフェイク検出に有効でないことが明らかとなった。 そこで本研究では,ADDモデルのトレーニングにFSDデータセットを用いる。 その後、オリジナル曲と別曲の2つのシナリオでこれらのモデルを評価した。 実験の結果,歌唱型ADDモデルでは,FSDテストセットの音声学習型ADDモデルと比較して平均等速が38.58%減少していることがわかった。

Singing voice synthesis and singing voice conversion have significantly advanced, revolutionizing musical experiences. However, the rise of "Deepfake Songs" generated by these technologies raises concerns about authenticity. Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection lacks specialized datasets or methods for song authenticity verification. In this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset to investigate the field of song deepfake detection. The fake songs in the FSD dataset are generated by five state-of-the-art singing voice synthesis and singing voice conversion methods. Our initial experiments on FSD revealed the ineffectiveness of existing speech-trained ADD models for the task of song deepFake detection. Thus, we employ the FSD dataset for the training of ADD models. We subsequently evaluate these models under two scenarios: one with the original songs and another with separated vocal tracks. Experiment results show that song-trained ADD models exhibit a 38.58% reduction in average equal error rate compared to speech-trained ADD models on the FSD test set.
翻訳日:2023-09-07 11:13:16 公開日:2023-09-06
# マルチビューネットワークによる側方マンモグラフィーの評価

Delving into Ipsilateral Mammogram Assessment under Multi-View Network ( http://arxiv.org/abs/2309.02197v2 )

ライセンス: Link先を確認
Thai Ngoc Toan Truong, Thanh-Huy Nguyen, Ba Thinh Lam, Vu Minh Duy Nguyen, Hong Phuc Nguyen(参考訳) 近年、マルチビューマンモグラフィー分析はAIに基づくがん評価に広く焦点が当てられている。 本研究では,多種多様な融合戦略(平均的および連結的)を探求し,粗層と微細層を含む様々な個人と融合経路を用いてモデルの学習行動を検討することを目的とする。 ResNet-18の5つの融合タイプ(Pre, Early, Middle, Last, Post Fusion)からなるIpsilateral Multi-View Networkが採用されている。 特に、ミドルフュージョンは最もバランスよく効果的なアプローチとして現れ、VinDr-Mammoデータセットにおけるディープラーニングモデルの一般化性能を+2.06%(平均)と+5.29%(平均)、マクロF1-Score上のCMMDデータセットにおける+2.03%(平均)に向上させた。 本稿では,多視点ネットワーク抽出におけるレイヤ割り当ての重要性を強調する。

In many recent years, multi-view mammogram analysis has been focused widely on AI-based cancer assessment. In this work, we aim to explore diverse fusion strategies (average and concatenate) and examine the model's learning behavior with varying individuals and fusion pathways, involving Coarse Layer and Fine Layer. The Ipsilateral Multi-View Network, comprising five fusion types (Pre, Early, Middle, Last, and Post Fusion) in ResNet-18, is employed. Notably, the Middle Fusion emerges as the most balanced and effective approach, enhancing deep-learning models' generalization performance by +2.06% (concatenate) and +5.29% (average) in VinDr-Mammo dataset and +2.03% (concatenate) and +3% (average) in CMMD dataset on macro F1-Score. The paper emphasizes the crucial role of layer assignment in multi-view network extraction with various strategies.
翻訳日:2023-09-07 11:13:02 公開日:2023-09-06
# 変分オートエンコーダを用いた非教師なし分布検出への効率的なアプローチ

An Efficient Approach to Unsupervised Out-of-Distribution Detection with Variational Autoencoders ( http://arxiv.org/abs/2309.02084v2 )

ライセンス: Link先を確認
Zezhen Zeng, Bin Liu(参考訳) 本稿では,教師なしアウト・オブ・ディストリビューション(OOD)検出のための深部生成モデル(DGM)について述べる。 特に,潜在変数の標準正規分布を用いたバニラ変分オートエンコーダ(vae)に着目した。 これらのモデルはモデルサイズが小さく、より高速なトレーニングと推論が可能であり、より複雑なDGMと比較してリソース制限のアプリケーションに適している。 本稿では,バニラVAEを対象とした新しいOODスコアであるError Reduction (ER)を提案する。 ERは、失われた画像からの入力を再構築するというアイデアを取り入れ、画像のコルモゴロフの複雑さを考慮に入れている。 多様なデータセットに対する実験結果は,ベースライン法よりもアプローチが優れていることを示す。 私たちのコードは、https://github.com/ZJLAB-AMMI/VAE4OOD.comで利用可能です。

This paper is concerned with deep generative models (DGMs) for unsupervised out-of-distribution (OOD) detection. In particular, we focus on vanilla Variational Autoencoders (VAE) that use a standard normal prior distribution for the latent variables. These models have a smaller model size, enabling faster training and inference, making them well-suited for resource-limited applications compared to more complex DGMs. We propose a novel OOD score called Error Reduction (ER) specifically designed for vanilla VAE. ER incorporate the idea of reconstructing image inputs from their lossy counterparts and takes into account the Kolmogorov complexity of the images. Experimental results on diverse datasets demonstrate the superiority of our approach over baseline methods. Our code is available at: https://github.com/ZJLAB-AMMI/VAE4OOD.
翻訳日:2023-09-07 11:12:42 公開日:2023-09-06
# MvFS:リコメンダシステムのためのマルチビュー特徴選択

MvFS: Multi-view Feature Selection for Recommender System ( http://arxiv.org/abs/2309.02064v2 )

ライセンス: Link先を確認
Youngjune Lee, Yeongjong Jeong, Keunchan Park and SeongKu Kang(参考訳) 推薦システムにおいて重要な特徴を抽出する技術である特徴選択は研究の注目を集めている。 近年,アダプティブ・フィーチャー・セレクション (AdaFS) は,各データ・インスタンスの機能を適応的に選択することで,データ間で特徴フィールドの重要性が著しく異なることを考慮し,顕著な性能を示した。 しかし、この方法には、選択過程が頻繁に発生する主要な特徴に偏りやすいという制限がある。 これらの問題に対処するために、各インスタンスのより効率的な情報機能を選択するMulti-view Feature Selection (MvFS)を提案する。 最も重要なのは、MvFSは複数のサブネットワークで構成されるマルチビューネットワークを採用しており、それぞれが異なる特徴パターンを持つデータの一部の特徴的重要性を計測することを学ぶ。 これにより、MvFSは支配的なパターンに対するバイアス問題を緩和し、よりバランスのとれた特徴選択プロセスを促進する。 さらにmvfsは、機能間の依存性を伴わずに各フィールドに独立して適用される効果的な重要度スコアモデリング戦略を採用している。 実世界のデータセットに対する実験結果は、最先端のベースラインと比較してMvFSの有効性を示している。

Feature selection, which is a technique to select key features in recommender systems, has received increasing research attention. Recently, Adaptive Feature Selection (AdaFS) has shown remarkable performance by adaptively selecting features for each data instance, considering that the importance of a given feature field can vary significantly across data. However, this method still has limitations in that its selection process could be easily biased to major features that frequently occur. To address these problems, we propose Multi-view Feature Selection (MvFS), which selects informative features for each instance more effectively. Most importantly, MvFS employs a multi-view network consisting of multiple sub-networks, each of which learns to measure the feature importance of a part of data with different feature patterns. By doing so, MvFS mitigates the bias problem towards dominant patterns and promotes a more balanced feature selection process. Moreover, MvFS adopts an effective importance score modeling strategy which is applied independently to each field without incurring dependency among features. Experimental results on real-world datasets demonstrate the effectiveness of MvFS compared to state-of-the-art baselines.
翻訳日:2023-09-07 11:12:30 公開日:2023-09-06
# 2023年のゼロショット画像キャプションチャレンジ

NICE 2023 Zero-shot Image Captioning Challenge ( http://arxiv.org/abs/2309.01961v2 )

ライセンス: Link先を確認
Taehoon Kim, Pyunghwan Ahn, Sangyun Kim, Sihaeng Lee, Mark Marsden, Alessandra Sala, Seung Hwan Kim, Bohyung Han, Kyoung Mu Lee, Honglak Lee, Kyounghoon Bae, Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu, Youngtaek Oh, Jae Won Cho, Dong-jin Kim, In So Kweon, Junmo Kim, Wooyoung Kang, Won Young Jhoo, Byungseok Roh, Jonghwan Mun, Solgil Oh, Kenan Emir Ak, Gwang-Gook Lee, Yan Xu, Mingwei Shen, Kyomin Hwang, Wonsik Shin, Kamin Lee, Wonhark Park, Dongkwan Lee, Nojun Kwak, Yujin Wang, Yimu Wang, Tiancheng Gu, Xingchang Lv, Mingmao Sun(参考訳) 本稿では、NICE project\footnote{\url{https://nice.lgresearch.ai/}}を紹介し、2023年のNICEチャレンジの結果と成果を共有する。 このプロジェクトはコンピュータビジョンのコミュニティに挑戦し、精度と公正性の両面で最先端の技術を推し進める堅牢な画像キャプションモデルを開発するよう設計されている。 この課題を通じて、画像キャプションモデルは、多くのドメインからさまざまな視覚概念を含む新しい評価データセットを用いてテストされた。 課題には具体的なトレーニングデータがなかったため、トレーニング中に見られなかった新しいタイプの画像記述に適応するためには、課題エントリが要求された。 本報告では,新たに提案したNICEデータセット,評価方法,課題結果,上位項目の技術的詳細について述べる。 この課題の結果が、様々な視覚言語タスクにおけるAIモデルの改善に寄与することを期待している。

In this report, we introduce NICE project\footnote{\url{https://nice.lgresearch.ai/}} and share the results and outcomes of NICE challenge 2023. This project is designed to challenge the computer vision community to develop robust image captioning models that advance the state-of-the-art both in terms of accuracy and fairness. Through the challenge, the image captioning models were tested using a new evaluation dataset that includes a large variety of visual concepts from many domains. There was no specific training data provided for the challenge, and therefore the challenge entries were required to adapt to new types of image descriptions that had not been seen during training. This report includes information on the newly proposed NICE dataset, evaluation methods, challenge results, and technical details of top-ranking entries. We expect that the outcomes of the challenge will contribute to the improvement of AI models on various vision-language tasks.
翻訳日:2023-09-07 11:12:08 公開日:2023-09-06
# CodeApex: 大規模言語モデルのためのバイリンガルプログラミング評価ベンチマーク

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2309.01940v2 )

ライセンス: Link先を確認
Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu(参考訳) 大規模言語モデル(llm)の出現により、モデルのプログラミング能力が大幅に改善され、研究者から注目を集めている。 我々は,LLMのプログラミング理解とコード生成能力に着目した,バイリンガルなベンチマークデータセットであるCodeApexを提案する。 codeapexは、概念理解、コモンセンス推論、マルチホップ推論という、プログラミング理解タスクのllmを評価するための3つのタイプのマルチチョイス質問を含んでいる。 さらに、CodeApexはアルゴリズムによる質問とそれに対応するテストケースを使用して、LLMが生成するコード品質を評価する。 汎用モデルと特殊モデルの両方を含む14の最先端LCMを評価した。 GPTは最高のプログラミング能力を示し、2つのタスクでそれぞれ50%と56%の近似精度を達成する。 プログラミングタスクの改善の余地は依然として大きい。 CodeApex が LLM のコーディング能力を評価するリファレンスとして機能し,開発と成長をさらに促進できることを願っている。 データセットはhttps://github.com/APEXLAB/CodeApex.gitで公開されている。 codeapexの投稿サイトはhttps://apex.sjtu.edu.cn/codeapex/である。

With the emergence of Large Language Models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. We propose CodeApex, a bilingual benchmark dataset focusing on the programming comprehension and code generation abilities of LLMs. CodeApex comprises three types of multiple-choice questions: conceptual understanding, commonsense reasoning, and multi-hop reasoning, designed to evaluate LLMs on programming comprehension tasks. Additionally, CodeApex utilizes algorithmic questions and corresponding test cases to assess the code quality generated by LLMs. We evaluate 14 state-of-the-art LLMs, including both general-purpose and specialized models. GPT exhibits the best programming capabilities, achieving approximate accuracies of 50% and 56% on the two tasks, respectively. There is still significant room for improvement in programming tasks. We hope that CodeApex can serve as a reference for evaluating the coding capabilities of LLMs, further promoting their development and growth. Datasets are released at https://github.com/APEXLAB/CodeApex.git. CodeApex submission website is https://apex.sjtu.edu.cn/codeapex/.
翻訳日:2023-09-07 11:11:54 公開日:2023-09-06
# 野生のディープフェイク動画理解に向けて

Towards Understanding of Deepfake Videos in the Wild ( http://arxiv.org/abs/2309.01919v2 )

ライセンス: Link先を確認
Beomsang Cho, Binh M. Le, Jiwon Kim, Simon Woo, Shahroz Tariq, Alsharif Abuadbba, Kristen Moore(参考訳) 近年、ディープフェイクの懸念が高まり、研究者はこの問題に取り組むためにベンチマークデータセットと検出アルゴリズムを開発するようになった。 しかし、既存のデータセットは、その有効性を阻害する重大な欠点に苦しむ。 特に、これらのデータセットは、さまざまなプラットフォームで共有されている最先端のメソッドによって生成された最新のディープフェイクビデオを含んでいない。 この制限は、現実世界のディープフェイク生産で使用される生成AI技術の急速な進化を妨げている。 このIRB承認研究における我々の貢献は、この知識ギャップを現在の現実世界のディープフェイクから深く分析することで橋渡しすることである。 reddit、youtube、tiktok、bilibiliの4か国から4つの異なる言語を対象とする4つのプラットフォームから集められた2000のdeepfakeビデオからなる、これまでで最大かつ最も多様で最新のdeepfakeデータセット(rwdf-23)を初めて紹介した。 これまでの研究を超えてデータセットの範囲を広げることで、オンラインプラットフォームの進化を続ける展望を反映して、現実世界のディープフェイクコンテンツの範囲を広げることができます。 また,クリエーター,操作戦略,目的,実世界のコンテンツ制作手法など,ディープフェイクのさまざまな側面を包括的に分析する。 これにより、異なるコンテキストにおけるディープフェイクのニュアンスと特性に関する貴重な洞察を得ることができる。 最後に、ビデオコンテンツに加えて、視聴者のコメントや対話も収集し、ディープフェイクコンテンツによるインターネットユーザーのエンゲージメントを探求することができました。 このリッチな文脈情報を考慮することで、進化するディープフェイク現象とそのオンラインプラットフォームへの影響を包括的に理解することを目指している。

Deepfakes have become a growing concern in recent years, prompting researchers to develop benchmark datasets and detection algorithms to tackle the issue. However, existing datasets suffer from significant drawbacks that hamper their effectiveness. Notably, these datasets fail to encompass the latest deepfake videos produced by state-of-the-art methods that are being shared across various platforms. This limitation impedes the ability to keep pace with the rapid evolution of generative AI techniques employed in real-world deepfake production. Our contributions in this IRB-approved study are to bridge this knowledge gap from current real-world deepfakes by providing in-depth analysis. We first present the largest and most diverse and recent deepfake dataset (RWDF-23) collected from the wild to date, consisting of 2,000 deepfake videos collected from 4 platforms targeting 4 different languages span created from 21 countries: Reddit, YouTube, TikTok, and Bilibili. By expanding the dataset's scope beyond the previous research, we capture a broader range of real-world deepfake content, reflecting the ever-evolving landscape of online platforms. Also, we conduct a comprehensive analysis encompassing various aspects of deepfakes, including creators, manipulation strategies, purposes, and real-world content production methods. This allows us to gain valuable insights into the nuances and characteristics of deepfakes in different contexts. Lastly, in addition to the video content, we also collect viewer comments and interactions, enabling us to explore the engagements of internet users with deepfake content. By considering this rich contextual information, we aim to provide a holistic understanding of the {evolving} deepfake phenomenon and its impact on online platforms.
翻訳日:2023-09-07 11:11:36 公開日:2023-09-06
# ゼロ知識設定下でのMLベースのAndroidマルウェア検出に対する効率的なクエリベース攻撃

Efficient Query-Based Attack against ML-Based Android Malware Detection under Zero Knowledge Setting ( http://arxiv.org/abs/2309.01866v2 )

ライセンス: Link先を確認
Ping He, Yifan Xia, Xuhong Zhang, Shouling Ji(参考訳) Android OSの普及により、悪意のあるAndroidアプリケーションが攻撃者にとって魅力的なターゲットとなっている。 機械学習ベースの(MLベースの)Androidマルウェア検出(AMD)手法はこの問題に対処するために重要であるが、敵の例に対する脆弱性は懸念を引き起こす。 MLベースのAMD手法に対する現在の攻撃は、顕著な性能を示すが、実世界のシナリオでは現実的でない強い仮定(例えば、特徴空間に関する知識要件、モデルパラメータ、トレーニングデータセット)に依存している。 この制限に対処するために,MLベースのAMDメソッドに対する効率的なクエリベースのアタックフレームワークであるAdvDroidZeroを導入する。 本稿では,AdvDroidZeroが各種MLベースのAMD法,特に最先端の手法や現実のアンチウイルスソリューションに対して有効であることを示す。

The widespread adoption of the Android operating system has made malicious Android applications an appealing target for attackers. Machine learning-based (ML-based) Android malware detection (AMD) methods are crucial in addressing this problem; however, their vulnerability to adversarial examples raises concerns. Current attacks against ML-based AMD methods demonstrate remarkable performance but rely on strong assumptions that may not be realistic in real-world scenarios, e.g., the knowledge requirements about feature space, model parameters, and training dataset. To address this limitation, we introduce AdvDroidZero, an efficient query-based attack framework against ML-based AMD methods that operates under the zero knowledge setting. Our extensive evaluation shows that AdvDroidZero is effective against various mainstream ML-based AMD methods, in particular, state-of-the-art such methods and real-world antivirus solutions.
翻訳日:2023-09-07 11:11:06 公開日:2023-09-06
# 注意駆動型マルチモーダル融合:手話認識と翻訳の強化

Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition and Translation ( http://arxiv.org/abs/2309.01860v2 )

ライセンス: Link先を確認
Zaber Ibn Abdul Hakim, Rasman Mubtasim Swargo, Muhammad Abdullah Adnan(参考訳) 本稿では,連続手話認識と翻訳のための既存のパイプラインを用いたマルチモーダル情報付加機構を考案する。 本手法では,光学フロー情報をRGB画像に組み込んで,運動関連情報により特徴を充実させる。 本研究は, クロスモーダルエンコーダを用いたモダリティインクルージョンの実現可能性について検討する。 私たちが使ったプラグインは非常に軽量で、エンドツーエンドで新しいモダリティのための別個の機能抽出器を含める必要はありません。 我々は手話認識と翻訳の両方に変化を適用し,各症例の成績を改善した。 我々は,手話認識のためのRWTH-PHOENIX-2014Tデータセットと翻訳のためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。 認識タスクではWERを0.9に減らし,翻訳タスクではBLEUのスコアの大部分を0.6に増やした。

In this paper, we devise a mechanism for the addition of multi-modal information with an existing pipeline for continuous sign language recognition and translation. In our procedure, we have incorporated optical flow information with RGB images to enrich the features with movement-related information. This work studies the feasibility of such modality inclusion using a cross-modal encoder. The plugin we have used is very lightweight and doesn't need to include a separate feature extractor for the new modality in an end-to-end manner. We have applied the changes in both sign language recognition and translation, improving the result in each case. We have evaluated the performance on the RWTH-PHOENIX-2014 dataset for sign language recognition and the RWTH-PHOENIX-2014T dataset for translation. On the recognition task, our approach reduced the WER by 0.9, and on the translation task, our approach increased most of the BLEU scores by ~0.6 on the test set.
翻訳日:2023-09-07 11:10:50 公開日:2023-09-06